CN112530411B

CN112530411B - 一种实时分角色转录方法、设备和系统

Info

Publication number: CN112530411B
Application number: CN202011477913.4A
Authority: CN
Inventors: 袁斌
Original assignee: Beijing Kuaiyu Electronics Co ltd
Current assignee: Beijing Kuaiyu Electronics Co ltd
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-07-20
Anticipated expiration: 2040-12-15
Also published as: CN112530411A

Abstract

本发明公开了一种实时分角色转录方法，包括检测采集到的左声道声音信号和右声道声音信号中是否含有语音段，若检测到语音段，则提取语音段对应的左声道语音段和右声道语音段；基于左声道语音段和右声道语音段的相位差、幅度差和基频检测，判断单双侧讲话；若为单侧讲话，则判断说话人是位于左侧还是右侧；若说话人位于左侧，则将左声道语音段进行聚类形成左侧聚类中心；若说话人位于右侧，则将右声道语音段进行聚类形成右侧聚类中心；若为双侧讲话，则分离左声道语音段和右声道语音段中包含的左右侧语音信号；并将分离后的左侧语音信号和右侧语音信号发送至语音识别引擎；该方法能对角色做到准确的分离。本发明还公开了实时分角色转录设备及系统。

Description

一种实时分角色转录方法、设备和系统

技术领域

本发明涉及语音识别技术领域，具体涉及一种实时分角色转录方法、设备和系统。

背景技术

现如今在一对一的窗口服务过程中，对客服的服务质量要求越来越高，这类场合（比如电信营业厅、汽车4S店）往往是客服和客户分别位于服务柜台或窗口的内外侧，进行一对一的对话服务活动；现如今对客服的服务质量，包括服务用词、话务专业术语表达、服务态度、情绪以及是否正确引导客户均有各种考核，这就需要前端对谈话内容做清楚地采集，后端做语音识别等，后端处理一般是使用实时转录系统，再通过云端对转录后的文本进行整理分析。

目前的前端语音采集常基于深度学习的方案或需要借助前端识别设备；基于深度学习的方案需要一个本地或者云端的语音识别服务器，对实时采集过来的语音流进行语音转文字转写，除了做语音识别之外，往往分角色也需在云端做处理，属于一种端到端的一站式解决方案，此方案适用的场合并不是双方的简易谈话这种场景，它一般适用于多个人说话的会议模式；而且该方案对云端或者本地的语音识别引擎硬件配置有较高的要求，角色分类准确度和说话人出现频率有关，如果在某些场景中，某个说话人只是简单说了“是”、“好的”这样的短语，且在整个说话过程中再没有任何发言，此时角色分类准确度很低，因此，该方案采用大而全的方案解决某些具体问题，其存在无法对本地的具体情况做很具体对应的缺陷。

借助前端识别设备一般采用麦克风阵列形成互为180度的两个指向，转录时需要双方谈话人面对面的讲话，设备放在双方的连线中心上，给人的感觉不友好，这类方案需要监听两端采集来的声音，实时比较两端的声音，一般采取选择实时音量大的方案来决定配成某种角色的语音流；此方案在一些对话场景中能取得一定的效果，但对于说话人同时说话这种场景，往往没有办法处理，此方案是通过两端说话人的能量进行判断，哪侧的音量大则把这段语音归为哪边，如果一侧并不是语音而是音量很大的噪声，那么也会把“说话权”误抢到这侧；如果两端的说话人同时说话，此方案采用的策略是一直选取一侧大的声音保持到结束，这是一种简易粗暴的行为，该方案没有较好的估计到这种“同时说话”应该特殊对待的问题，存在无法对“同时说话”进行特殊处理，无法获取到较好地识别效果的缺陷。

发明内容

针对上述问题，本发明的一个目的是提供一种实时分角色转录方法，该方法能实时准确的分清客服和客户的不同角色对应的语音内容，特别是某个角色对应某段话语，不会张冠李戴；该方法在客服和客户同时发声对话的时候(比如抢话、着急表达某些内容、发生不愉快的争执等)，也能对角色做到准确的分离。

本发明的第二个目的是提供一种实时分角色转录设备，该设备只拾取双方的说话声，对旁边、远方或者后方的声音不拾取，保证了进入声音的信噪比。

本发明的第三个目的是提供一种实时分角色转录系统。

本发明所采用的第一个技术方案是：一种实时分角色转录方法，包括以下步骤：

S100：将具有指向性麦克风的声音采集装置设置于双方说话人中间的侧面，分别采集得到左声道声音信号和右声道声音信号；

S200：检测所述左声道声音信号和所述右声道声音信号中是否含有语音段，若检测到语音段，则提取所述语音段对应的左声道语音段和右声道语音段；

S300：基于所述左声道语音段和所述右声道语音段的相位差、幅度差和基频检测，判断所述左声道语音段和所述右声道语音段属于单侧讲话还是双侧讲话；

S400：若步骤S300判断为单侧讲话，则进一步基于所述左声道语音段和所述右声道语音段的幅度差和相位差判断说话人是位于左侧还是右侧；若判断说话人位于左侧，则将所述左声道语音段进行聚类形成左侧聚类中心，并将所述左声道语音段发送至语音识别引擎，作为左侧说话人的话语进行转录；若判断说话人位于右侧，则将所述右声道语音段进行聚类形成右侧聚类中心，并将所述右声道语音段发送至语音识别引擎，作为右侧说话人的话语进行转录；

S500：若步骤S300判断为双侧讲话，则基于所述左侧聚类中心分离所述左声道语音段和右声道语音段中包含的左侧语音信号，基于所述右侧聚类中心分离所述左声道语音段和右声道语音段中包含的右侧语音信号；并将分离后的所述左侧语音信号和右侧语音信号发送至语音识别引擎，分别作为左侧说话人的话语和右侧说话人的话语进行转录。

优选地，所述步骤S200包括以下子步骤：

S210：分别提取所述左声道声音信号和所述右声道声音信号中的基频和子带能量；

S220：基于所述基频、子带能量和阈值判断所述左声道声音信号和所述右声道声音信号中是否含有语音段；

S230：若检测到所述语音段，则提取所述语音段得到对应的左声道语音段和右声道语音段。

优选地，所述步骤S300包括以下子步骤：

S310：将实时采集的所述左声道语音段和所述右声道语音段进行幅度、相位对比；

S320：当所述左声道语音段和右声道语音段的幅度差大于设定阈值，且连续5帧的相位差固定位于同一侧时，判定为单侧讲话；

S330：当所述左声道语音段和所述右声道语音段的幅度差小于等于设定阈值时，再进行基频检测，若检测发现频谱上有多个基频轨迹，则判定为双侧讲话。

优选地，所述步骤S400中判断说话人位于左侧还是右侧通过以下方式实现：

当所述左声道语音段的幅度大于所述右声道语音段的幅度，且差值大于设定阈值，则判定说话人位于左侧；当所述右声道语音段的幅度大于所述左声道语音段的幅度，且差值大于设定阈值，则判定说话人位于右侧。

估算所述左声道语音段和所述右声道语音段的时延，若是先采集到所述左声道语音段后采集到所述右声道语音段，则判定说话人位于左侧；若是先采集到所述右声道语音段后采集到所述左声道语音段，则判定说话人位于右侧。

优选地，步骤S400中，若说话人位于的左侧，则停止采集所述右声道的语音模拟信号；若说话人位于右侧，则停止采集所述左声道的语音模拟信号。

优选地，步骤S400中通过以下步骤进行聚类：

S410：实时收集提取待聚类的语音信号或语音信号的时频特征；

S420：将所述时频特征与此前已获得所有相同侧语音信号时频特征一起取平均值，以形成该侧聚类中心。

优选地，步骤S500中通过以下步骤进行分离：

S510：基于左侧聚类中心分别计算所述左声道语音段和右声道语音段落入左侧的概率，得到左侧第一IRM值和右侧第一IRM值；基于右侧聚类中心分别计算所述左声道语音段和右声道语音段落入右侧的概率，得到左侧第二IRM值和右侧第二IRM值；

S520：计算所述左声道语音段和左侧第一IRM值的乘积以及所述右声道语音段和左侧第二IRM值的乘积，对两个乘积求和以获得左侧语音信号的频谱信息；计算所述左声道语音段和右侧第一IRM值的乘积以及所述右声道语音段和右侧第二IRM值的乘积，对两个乘积求和以获得右侧语音信号的频谱信息；

S530：分别对所述左侧语音信号的频谱信息和右侧语音信号的频谱信息进行傅里叶反变换以得到左侧语音信号和右侧语音信号。

本发明所采用的第二个技术方案是：一种实时分角色转录设备，包括声音采集装置、语音活动段检测模块、单双侧讲话判断模块、聚类模块、分离模块和发送模块；

所述声音采集装置包括指向性麦克风，分别用于采集左声道声音信号和右声道声音信号；

语音活动段检测模块用于检测所述左声道声音信号和所述右声道声音信号中是否含有语音段，若检测到语音段，则提取所述语音段对应的左声道语音段和右声道语音段；

单双侧讲话判断模块用于基于所述左声道语音段和所述右声道语音段的相位差、幅度差和基频检测，判断所述左声道语音段和所述右声道语音段属于单侧讲话还是双侧讲话；

聚类模块用于当所述左声道语音段和所述右声道语音段属于单侧讲话时，基于所述左声道语音段和所述右声道语音段的幅度差和相位差判断说话人是位于左侧还是右侧；若判断说话人位于左侧，则将所述左声道语音段进行聚类形成左侧聚类中心，并将所述左声道语音段发送至发送模块；若判断说话人位于右侧，则将所述右声道语音段进行聚类形成右侧聚类中心，并将所述右声道语音段发送至发送模块；

分离模块用于当所述左声道语音段和所述右声道语音段属于双侧讲话时，基于所述左侧聚类中心分离所述左声道语音段和右声道语音段中包含的左侧语音信号，基于所述右侧聚类中心分离所述左声道语音段和右声道语音段中包含的右侧语音信号；并将分离后的所述左侧语音信号和右侧语音信号发送至发送模块；

发送模块用于接收聚类模块和分类模块发送的左侧语音信号和右侧语音信号，并发送至语音识别引擎，分别作为左侧说话人的话语和右侧说话人的话语进行转录。

本发明所采用的第三个技术方案是：一种实时分角色转录系统，包括语音识别引擎和如第二技术方案中所述的实时分角色转录设备。

上述技术方案有益效果：

（1）本发明公开的实时分角色转录方法、设备能同时兼顾转录发生的各种情况（单方讲话、双方讲话），能实时准确的分清客服和客户的不同角色对应的语音内容，特别是某个角色对应某段话语，不会张冠李戴。

（2）本发明公开的实时分角色转录方法、设备只拾取双方的说话声，对旁边、远方或者后方的声音不拾取，保证了进入声音的信噪比；该设备在客服和客户同时发声对话的时候(比如抢话、着急表达某些内容、发生不愉快的争执等)，也能对角色做到准确的分离。

（3）本发明公开的实时分角色转录系统兼顾前端拾音设备和语音识别引擎，前端拾音设备能够在硬件指向性等方面对语音进行区分，语音识别引擎只做语音转文字使用，降低服务器的负荷。

（4）相较于要求谈话人必须对坐、必须放置在双方谈话人连线中心上的现有设备，本发明公开的实时分角色转录设备能放置在谈话人的侧面，双方谈话人中间可以放置一些电脑等办公设备，给谈话人友好的感觉。

附图说明

图1为本发明一种实时分角色转录方法的流程框图；

图2为本发明一种实时分角色转录方法的流程示意图；

图3为本发明语音段检测方法的流程示意图；

图4为本发明语音信号经过gammatone滤波器分离子带能量的示意图；

图5为本发明gammatone滤波器的示意图；

图6为本发明两个聚类中心在高维空间中的示意图；

图7为本发明双讲时对双侧声音进行剥离的示意图；

图8为本发明一种实时分角色转录设备结构示意图；

图9为本发明指向性麦克风的结构示意图；

图10为本发明指向性麦克风使用时的示意图；

图11为本发明指向性麦克风的极性图；

图12为本发明一种实时分角色转录系统的结构示意图。

具体实施方式

下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例的详细描述和附图用于示例性地说明本发明的原理，但不能用来限制本发明的范围，即本发明不限于所描述的优选实施例，本发明的范围由权利要求书限定。

在本发明的描述中，需要说明的是，除非另有说明，“多个”的含义是两个或两个以上；术语“上”“下”“内”“外”等指示的方位或位置关系仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。下述描述中出现的方位词均为图中示出的方向，并不是对本发明的具体结构进行限定。在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“安装”“相连”“连接”应做广义理解，对于本领域的普通技术人员而言，可视具体情况理解上述术语在本发明中的具体含义。

实施例1

如图1和图2所示，本发明提供一种实时分角色转录方法，该方法包括以下步骤：

S200：检测左声道声音信号和右声道声音信号中是否含有语音段，若检测到语音段，则提取语音段对应的左声道语音段和右声道语音段；

如图3所示，检测左声道声音信号和右声道声音信号中是否包括话音段的具体步骤为：提取左声道声音信号和右声道声音信号中的基频和子带能量；根据高维特征（基频和子带能量）和阈值进行判断是否含有语音段；阈值是根据设备选型确定，当麦克风mic灵敏度和前端增益放大这些条件一定时，即根据设备选型不能确定阈值时，则根据说话人对设备的说话距离（使用场景实测等）来确定高维度阈值；阈值选取根据经验确定。

基频即语音基频，是人声的基本特征，用于区别噪声或者非语音段；如图4所示，子带能量是语音信号经过gammatone滤波器分离出来的各个频段的子带能量，gammatone滤波器如图5所示。

子带能量计算公式如下：

子带信号和滤波器卷积：Sig_sub (i) = Sig * Filter_subband(i) for i=0:N-1

能量计算：Eng_sub(i) = Σ (Sig_sub (i) * Sig_sub (i)) for every i = 0:N-1。

S300：基于左声道语音段和右声道语音段的相位差、幅度差和基频检测，判断左声道语音段和所述右声道语音段属于单侧讲话还是双侧讲话；

单讲时，若说话人位于转录设备的左侧，则左声道语音段和右声道语音段均为左侧语音信号；若说话人位于转录设备的右侧，则左声道语音段和右声道语音段均为右侧语音信号；左侧语音信号为位于转录设备左侧说话人的语音信号，右侧语音信号为位于转录设备右侧说话人的语音信号；

双讲时，说话人位于转录设备的左右两侧，左声道语音段包括左侧语音信号和右侧语音信号，右声道语音段包括左侧语音信号和右侧语音信号。

将实时采集的语音段进行幅度、相位对比，当左声道语音段和右声道语音段的幅度差大于6dB，连续5帧相位差固定（连续5帧均在左侧或者右侧）时，则判定为单侧讲话（单讲）；当左声道语音段和右声道语音段的幅度差小于等于6dB时，此时两声道语音段的信号幅度相差不大，进一步采用多基音检测，若检测同时有多个声音，则判定为两端同时讲话（双讲）；双讲时，转录设备左右侧两个声源同时发声，这时候左声道语音段中包括转录设备左侧说话人的声音（左侧语音信号）和转录设备右侧说话人的声音（右侧语音信号），右声道语音段中也包括转录设备左侧说话人的声音（左侧语音信号）和转录设备右侧说话人的声音（右侧语音信号），左声道语音段和右声道语音段的幅度差和相位差没有那么明显（不能形成较为持续的差），需依靠多基音检测中的多基频进行判断，若多基频在频谱上会有多个基频轨迹（pitch track），则说明同时有多个声音，判断为双讲。

S400：若判断为单侧讲话，则进一步基于左声道语音段和右声道语音段的幅度差和相位差判断说话人是位于左侧还是右侧；若判断说话人位于左侧，则将所述左声道语音段进行聚类形成左侧聚类中心，并将左声道语音段发送至语音识别引擎，作为左侧说话人的话语进行转录；若判断说话人位于右侧，则将右声道语音段进行聚类形成右侧聚类中心，并将右声道语音段发送至语音识别引擎，作为右侧说话人的话语进行转录。

判断为单侧讲话（单讲）时，根据左声道语音段和右声道语音段的幅度差（能量）和相位差进一步来判定说话人位于转录设备的左侧还是右侧，从而进一步确定其属于何种角色；

①采用幅度大小进行判断：当左声道语音段的幅度比右声道语音段的幅度大，且大于6db，则判定说话人位于设备的左侧；当右声道语音段的幅度比左声道语音段的幅度大，且大于6db，则判定说话人位于设备的右侧；

②采用相位进行判断：估算左声道语音段和右声道语音段的时延，即在频域上求最大值，根据两个最大值所在相对位置的来判断左声道语音段和右声道语音段的前后；若先采集到左声道语音段后采集到右声道语音段，则判定说话人位于设备的左侧，若先采集到右声道语音段后采集到左声道语音段，则判定说话人位于设备的右侧。

若说话人处于设备的左侧，左声道语音段和右声道语音段均为左侧语音信号，则停止采集右声道的语音模拟信号；若说话人处于设备的右侧，左声道语音段和右声道语音段均为右侧语音信号，则停止采集左声道的语音模拟信号。

单讲时，分别提取左侧语音信号（左声道语音段）和右侧语音信号（右声道语音段）的特征，并将左侧语音信号的特征进行实时聚类形成左侧聚类中心，将右侧语音信号的特征进行实时聚类形成右侧聚类中心，如图6所示，我们可以看出两个聚类中心在高维空间中是明显可分的；两个类中心便于双讲中分类；如图7所示，两个聚类中心具体通过以下步骤实现：

实时收集提取左侧语音信号的时频特征，时频特征包括基频和子带能量，

对左侧语音信号进行聚类，即求所有左侧语音信号时频特征的中心值（平均值），形成左侧聚类中心；

实时收集提取右侧语音信号的时频特征，时频特征包括基频和子带能量，

对左侧语音信号进行聚类，即求所有右侧语音信号时频特征的中心值（平均值），形成右侧聚类中心。

左侧聚类中心和右侧聚类中心是实时更新的，因为每时每刻都会采集到语音信号，根据采集的语音信号判断是左测人说话还是右侧人说话，若为左测人说话，则将其归到左侧聚类中心；若为右侧人说话，则将其归到右侧聚类中心。

S500：若判断为双侧讲话，则基于左侧聚类中心分离左声道语音段和右声道语音段中包含的左侧语音信号，基于右侧聚类中心分离左声道语音段和右声道语音段中包含的右侧语音信号；并将分离后的左侧语音信号和右侧语音信号发送至语音识别引擎，分别作为左侧说话人的话语和右侧说话人的话语进行转录。

如图7所示，判断为双侧讲话（双讲）时，即当检测到双侧讲话时，左声道同时有转录设备左右两侧人的说话声，右声道同时也有转录设备左右两侧人的说话声，此时需对双侧声音进行剥离（分离），具体步骤为：将左声道语音段和右声道语音段分别对左侧聚类中心求概率（一般是求距离，距离的小大决定落在左侧聚类中心或右侧聚类中心的概率），得到左侧第一IRM（理想比值掩蔽Ideal Ratio Masking）值和右侧第一IRM值；将左声道语音段和右声道语音段分别对右侧聚类中心求概率，得到左侧第二IRM值和右侧第二IRM值；通过左声道语音段×左侧第一IRM值+右声道语音段×左侧第二IRM值获得左侧语音信号的频谱信息；通过左声道语音段×右侧第一IRM值+右声道语音段×右侧第二IRM值获得右侧语音信号的频谱信息；分别将左侧语音信号的频谱信息和右侧语音信号的频谱信息进行傅里叶反变换（频域到时域的转换）得到左侧语音信号和右侧语音信号；实现左声道语音段和右声道语音段中的左右侧语音信号片的分离，即实现了转录设备左侧和转录设备右侧声音的剥离；将分离的左侧语音信号和右侧语音信号发送至语音识别引擎。

例如左声道语音段和右声道语音段对左侧聚类中心分别求概率为Pleft1和Pright1，左声道语音段和右声道语音段对右侧聚类中心分别求概率为Pleft2和Pright2；Pleft1、Pleft2、Pright1和Pright2就是左右声道对两个聚类中心的IRM（Ideal RatioMasking）；

Pleft1+ Pright1=1，Pleft2+ Pright2=1；

其中，双侧（转录设备左侧和转录设备右侧）声音的剥离（分离）分两步：

第一步：

LeftChannel=Spectrum1*Pleft1+Spectrum2*Pleft2；

RightChannel=Spectrum1*Pright1+Spectrum2*Pright2；

归一化

LeftChannelNormal = (Spectrum1*Pleft1+Spectrum2*Pleft2)/( Pleft1+Pleft2)；

RightChannelNormal = (Spectrum1*Pright1+Spectrum2*Pright2)/( Pright1+Pright2)

第二步：

频域到时域的转换：(傅里叶反变换)

LeftChannel=IFFT(SpectrumLeft)

RightChannel=IFFT(SpectrumRight)

本发明通过上述转录方法能同时兼顾转录发生的各种情况（单方讲话、双方讲话），能实时准确的分清客服和客户的不同角色对应的语音内容，特别是某个角色对应某段话语，不会张冠李戴。

实施例2

如图8所示，本发明提供一种实时分角色转录设备，该设备包括声音采集装置、语音活动段检测（VAD）模块、单双侧讲话判断模块、聚类模块、分离模块和发送模块；

所述声音采集装置包括指向性麦克风，分别用于采集左声道声音信号和右声道声音信号；指向性麦克风包括左声道和右声道，左声道和右声道岔开角度为90度~120度，其间距为10cm～15cm；左声道和右声道与垂直方向的夹角均为40度到60度。

语音活动段检测模块用于检测左声道声音信号和所述右声道声音信号中是否含有语音段，若检测到语音段，则提取语音段对应的左声道语音段和右声道语音段；

单双侧讲话判断模块用于基于左声道语音段和右声道语音段的相位差、幅度差和基频检测，判断左声道语音段和右声道语音段属于单侧讲话还是双侧讲话；

聚类模块用于当左声道语音段和右声道语音段属于单侧讲话时，基于左声道语音段和右声道语音段的幅度差和相位差判断说话人是位于左侧还是右侧；若判断说话人位于左侧，则将左声道语音段进行聚类形成左侧聚类中心，并将左声道语音段发送至发送模块；若判断说话人位于右侧，则将右声道语音段进行聚类形成右侧聚类中心，并将右声道语音段发送至发送模块；

分离模块用于当左声道语音段和右声道语音段属于双侧讲话时，基于左侧聚类中心分离左声道语音段和右声道语音段中包含的左侧语音信号，基于右侧聚类中心分离左声道语音段和右声道语音段中包含的右侧语音信号；并将分离后的左侧语音信号和右侧语音信号发送至发送模块；

语音活动段检测（VAD）模块包括特征提取子模块和判断子模块，特征提取子模块用于提取左声道语音信号和右声道语音信号中的基频和子带能量；判断子模块用于根据高维特征（基频和子带能量）和阈值进行判断是否含有语音段。

本发明通过设备上的设计和算法上的设计实现角色的分离；

如图9、图10所示，设备上的设计为：双声道采用岔开角度为90度~120度、间距为10cm～15cm的指向性设计，双声道与垂直方向的夹角（双声道的倾斜度）均为40度～60度；双声道的指向性、距离以及倾斜度使得两个声道的幅度有较大的差距；由双声道（左声道和右声道）构成双指向性设备，如图10所示，设备使用时放置到桌边，两个mic分别朝着双方说话人，左边的人说话时，左边的mic收到的声音要比右边的mic收到的声音大，产生了幅度差，同时因为两个mic有一定的距离，从而产生了相位差。麦克风例如采用极性mic；相位差是因为两个mic有一定的检录，声波传输到较远的mic有一定的相位差，这个相位差由两个mic的间距和声音信号的波长所决定；双声道间距优选15cm。

如图11所示，左声道和右声道的上述设置使两个声道间距一定的长度（10cm~15cm）、角度（90度~120度）以及倾斜度（与垂直方向上的夹角均为40度～60度），从而保证了从左声道和右声道收取到的同一侧的声音有相位差和幅度差。

本发明通过指向性麦克风达到只拾取双方的说话声，对旁边、远方或者后方的声音不拾取，保证了进入声音的信噪比的目的；相较于要求谈话人必须对坐、必须放置在双方谈话人连线中心上的现有设备，本发明通过指向性麦克风实现了转录设备能放置在双方谈话人的侧面，双方谈话人中间可以放置一些电脑等办公设备，给谈话人友好的感觉。

算法上的设计为：单双讲判断模块根据幅度差和相位差，判断当前说话人位于转录设备的左侧还是右侧；

单双侧讲话判断模块将左声道和右声道实时采集的语音段进行幅度、相位对比，当左声道语音段和右声道语音段的幅度差大于6dB，连续5帧相位差固定（连续5帧均在左侧或者右侧）时，则判断为单侧讲话（单讲）；当左声道语音段和右声道语音段的幅度差小于等于6dB时，此时两声道语音段的信号幅度相差不大，进一步采用多基音检测，若检测同时有多个声音，则判断为两端同时讲话（双讲）；双讲时，转录设备左右侧两个声源同时发声，这时候左声道语音段中包括转录设备左侧说话人的声音（左侧语音信号）和转录设备右侧说话人的声音（右侧语音信号），右声道语音段中也包括转录设备左侧说话人的声音（左侧语音信号）和转录设备右侧说话人的声音（右侧语音信号），左声道语音段和右声道语音段的幅度差和相位差没有那么明显（不能形成较为持续的差），需依靠多基音检测中的多基频进行判断，若多基频在频谱上会有多个pitch track，则说明同时有多个声音，判断为双讲。

判断为单侧讲话（单讲）时，根据左声道语音段和右声道语音段的幅度差（能量）和相位差进一步来判定说话人位于转录设备的左侧还是右侧，从而进一步确定其属于何种角色；若说话人处于设备的左侧，则左声道语音段和右声道语音段均为左侧语音信号，关闭第二语音采集装置；若说话人处于设备的右侧，则左声道语音段和右声道语音段均为右侧语音信号，关闭第一语音采集装置。

单讲时，聚类模块用于分别提取左声道语音段（左侧语音信号）和右声道语音段（右侧语音信号）的特征，并将左侧语音信号的特征进行实时聚类形成左侧聚类中心，将右侧语音信号的特征进行实时聚类形成右侧聚类中心。

双讲时，左声道同时有转录设备左右两侧人的说话声，右声道同时也有转录设备左右两侧人的说话声，此时分类模块根据左声道语音段和右声道语音段的频域特征，分别将左声道语音段和右声道语音段对左侧聚类中心求概率（一般是求距离，距离的小大决定落在左侧聚类中心或右侧聚类中心的概率），得到左侧第一IRM（理想比值掩蔽Ideal RatioMasking）值和右侧第一IRM值；将左声道语音段和右声道语音段分别对右侧聚类中心求概率，得到左侧第二IRM值和右侧第二IRM值；通过左声道语音段×左侧第一IRM值+右声道语音段×左侧第二IRM值获得左侧语音信号的频谱信息；通过左声道语音段×右侧第一IRM值+右声道语音段×右侧第二IRM值获得右侧语音信号的频谱信息；分别将左侧语音信号的频谱信息和右侧语音信号的频谱信息进行傅里叶反变换（频域到时域的转换）得到左侧语音信号和右侧语音信号；左侧语音信号和右侧语音信号通过发送模块发送至语音识别引擎。

本发明通过上述各模块的结合实现了转录设备在客服和客户同时发声对话的时候(比如抢话、着急表达某些内容、发生不愉快的争执等)，也能对角色做到准确的分离。

实施例3

如图12所示，本发明提供一种实时分角色转录系统，该系统包括处理器、左路语音识别引擎、右路语音识别引擎、网卡、和实施例2提供的实时分角色转录设备，处理器分别与实时分角色转录设备和网卡连接，网卡分别与左路语音识别引擎和右路语音识别引擎连接。

实时分角色转录设备将左侧语音信号发送至左路语音识别引擎，将右侧语音信号发送至右路语音识别引擎；相较于以往只有一路信号送入引擎的转录系统，本发明将两端不同的信号各自独立的输入语音识别引擎；两路系统都有自己的时间标签，不用考虑时间、对话标签混淆的问题。

本发明公开的实时分角色转录系统兼顾前端拾音设备和语音识别引擎，前端拾音设备能够在硬件指向性等方面对语音进行区分，语音识别引擎只做语音转文字使用，降低服务器的负荷。

本发明考虑到两人对话的场景大部分是一个人说，另一个人听，很少的时间是双方同时说话，因此在一个人说话转录的时候实时提取其语音信号的特征，并进行聚类分析，等到检测到两端同时说话时，对两端信号进行有监督的分类，采用softmax中的IRM值对TF（时频域信号）进行盲源分离，最终把两端同时说话的内容做分类，将分离之后的语音流再送入语音识别引擎；这样兼顾前端拾音设备和语音识别引擎，前端拾音设备能够在硬件指向性等方面对语音进行区分，语音识别引擎只做语音转文字使用，降低服务器的负荷；另外考虑单端和双端说话的不同情况，兼顾单端讲话和双端讲话两种情况，使得系统在多种使用场景下都能有很好的转录效果。

以往的设备只考虑单端，对双端直接采用mute一路的做法，丢失了不少潜在的有用信息，而本发明公开的实时分角色转录设备能同时兼顾转录发生的各种情况（单方讲话、双方讲话），能实时准确的分清客服和客户的不同角色对应的语音内容，特别是某个角色对应某段话语，不会张冠李戴；而且本发明公开的实时分角色转录设备只拾取双方的说话声，对旁边、远方或者后方的声音不拾取，保证了进入声音的信噪比；该设备在客服和客户同时发声对话的时候(比如抢话、着急表达某些内容、发生不愉快的争执等)，也能对角色做到准确的分离。

相较于要求谈话人必须对坐、必须放置在双方谈话人连线中心上的现有设备，本发明公开的实时分角色转录设备考虑到使用的便捷性和友好性，采用差开120度的双指向性设备，能放置在谈话人的侧面，双方谈话人中间可以放置一些电脑等办公设备，避免了访谈中放置两者之间的“尴尬”，起到了“静默”拾音的作用，选择合适的增益、拾音距离，避免了隔壁的串音和常见的干扰，给谈话人友好的感觉。

本发明将多基音、幅度差和相位差进行结合能有效地判断输入的语音信号是单端说话还是双端说话。

虽然已经参考优选实施例对本发明进行了描述，但在不脱离本发明范围的情况下，可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是，只要不存在结构冲突，各个实施例中所提到的各项技术特征均可以任意方式组合起来。本发明并不局限于文中公开的特定实施例，而是包括落入权利要求范围内的所有技术方案。

Claims

1.一种实时分角色转录方法，其特征在于，包括以下步骤：

S500：若步骤S300判断为双侧讲话，则基于所述左侧聚类中心分离所述左声道语音段和右声道语音段中包含的左侧语音信号，基于所述右侧聚类中心分离所述左声道语音段和右声道语音段中包含的右侧语音信号；并将分离后的所述左侧语音信号和右侧语音信号发送至语音识别引擎，分别作为左侧说话人的话语和右侧说话人的话语进行转录；

其中，所述步骤S300包括以下子步骤：

S330：当所述左声道语音段和所述右声道语音段的幅度差小于等于设定阈值时，再进行基频检测，若检测发现频谱上有多个基频轨迹，则判定为双侧讲话；

所述步骤S500中通过以下步骤进行分离：

2.根据权利要求1所述的实时分角色转录方法，其特征在于，所述步骤S200包括以下子步骤：

3.根据权利要求1所述的实时分角色转录方法，其特征在于，所述步骤S400中判断说话人位于左侧还是右侧通过以下方式实现：

4.根据权利要求1所述的实时分角色转录方法，其特征在于，所述步骤S400中判断说话人位于左侧还是右侧通过以下方式实现：

5.根据权利要求1所述的实时分角色转录方法，其特征在于，步骤S400中，若说话人位于的左侧，则停止采集所述右声道的语音模拟信号；若说话人位于右侧，则停止采集所述左声道的语音模拟信号。

6.根据权利要求1所述的实时分角色转录方法，其特征在于，步骤S400中通过以下步骤进行聚类：

7.一种实时分角色转录设备，其特征在于，包括声音采集装置、语音活动段检测模块、单双侧讲话判断模块、聚类模块、分离模块和发送模块；

发送模块用于接收聚类模块和分类模块发送的左侧语音信号和右侧语音信号，并发送至语音识别引擎，分别作为左侧说话人的话语和右侧说话人的话语进行转录；

其中，所述单双侧讲话判断模块执行以下操作：

将实时采集的所述左声道语音段和所述右声道语音段进行幅度、相位对比；

当所述左声道语音段和右声道语音段的幅度差大于设定阈值，且连续5帧的相位差固定位于同一侧时，判定为单侧讲话；

当所述左声道语音段和所述右声道语音段的幅度差小于等于设定阈值时，再进行基频检测，若检测发现频谱上有多个基频轨迹，则判定为双侧讲话；

所述分离模块执行以下操作：

基于左侧聚类中心分别计算所述左声道语音段和右声道语音段落入左侧的概率，得到左侧第一IRM值和右侧第一IRM值；基于右侧聚类中心分别计算所述左声道语音段和右声道语音段落入右侧的概率，得到左侧第二IRM值和右侧第二IRM值；

计算所述左声道语音段和左侧第一IRM值的乘积以及所述右声道语音段和左侧第二IRM值的乘积，对两个乘积求和以获得左侧语音信号的频谱信息；计算所述左声道语音段和右侧第一IRM值的乘积以及所述右声道语音段和右侧第二IRM值的乘积，对两个乘积求和以获得右侧语音信号的频谱信息；

分别对所述左侧语音信号的频谱信息和右侧语音信号的频谱信息进行傅里叶反变换以得到左侧语音信号和右侧语音信号。

8.一种实时分角色转录系统，其特征在于，包括语音识别引擎和如权利要求7所述的实时分角色转录设备。