CN113096669A

CN113096669A - 基于角色识别的语音识别系统

Info

Publication number: CN113096669A
Application number: CN202110347499.3A
Authority: CN
Inventors: 黄星耀; 熊倩; 王枫; 王学春; 张志亮
Original assignee: Chongqing Fengyun Jihui Intelligent Technology Co ltd
Current assignee: Chongqing Fengyun Jihui Intelligent Technology Co ltd
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2021-07-09
Anticipated expiration: 2041-03-31
Also published as: CN113096669B

Abstract

本发明涉及语音数据处理技术领域，具体涉及一种基于角色识别的语音识别系统，包括：采集模块，用于采集谈话人与被谈话人的谈话语音；提取模块，用于根据谈话语音提取声纹特征；聚类模块，用于根据第一特征与第二特征将谈话语音分为谈话人对应的第一语音与被谈话人对应的第二语音；纠正模块，用于判断第一时延的标准差与第二时延的标准差是否均小于时延阈值：如果第一时延的标准差与第二时延的标准差均小于时延阈值，发送输出结果的指令到输出模块；反之，发送重新聚类的指令到聚类模块；输出模块，用于输出第一语音与第二语音。本发明解决了通过声纹特征进行说话人角色识别准确率低的技术问题。

Description

基于角色识别的语音识别系统

技术领域

本发明涉及语音数据处理技术领域，具体涉及一种基于角色识别的语音识别系统。

背景技术

目前，语音识别技术逐步应用到法庭庭审或会议过程中，对整个法庭庭审或会议过程以语音的形式进行记录。在法庭庭审或会议过程结束以后，再对语音中的内容进行分析，摘取有效的信息，最后形成稿件。其中，说话人角色识别或分离是语音处理过程的核心步骤，只有进行将说话人角色识别或分离后才可以知道哪些人具体说了哪些具体的内容。

比如说，中国专利CN111105801A公开了一种角色语音分离方法，包括步骤：建立数据信息库；在检测到用户对话时，对于对话中的每句话进行识别，用户包括用户组a和用户组b；对识别的结果提取声纹特征，输出提取结果；获取提取结果中属于用户组a的声纹特征并存入数据信息库中；其中，在检测到用户对话时，对于对话中的每句话进行识别，包括：获取用户的对话内容；提取用户组a的身份信息并存储到数据信息库中以用于区别用户组a和用户组b；将对话内容通过声纹引擎进行识别分类，分为用户组a的m个声音片段集和用户组b的n个声音片段集。

在上述技术方案中，基于说话人的声纹特征进行角色识别、分离，要想仅通过声纹特征将说话人的角色识别、分离开来，需要确保谈话语音是在良好的录音环境中进行录制的。但是，在实际的谈话场景下，比如法庭庭审，由于法庭空间狭小，声音的传播过程受空间大小的影响较大，以及会在空间中进行反射、衍射，甚至除了直达信号还有多径信号叠加进而出现混响，导致角色识别的准确率低。

发明内容

本发明提供一种基于角色识别的语音识别系统，解决了通过声纹特征进行说话人角色识别准确率低的技术问题。

本发明提供的基础方案为：基于角色识别的语音识别系统，包括：

采集模块，用于采集谈话人与被谈话人的谈话语音；

提取模块，用于根据谈话语音提取声纹特征；

聚类模块，用于对声纹特征进行聚类，将声纹特征分为谈话人对应的第一特征与被谈话人对应的第二特征，并根据第一特征与第二特征将谈话语音分为谈话人对应的第一语音与被谈话人对应的第二语音；

纠正模块，用于采用TDOA算法计算第一语音中各个音频片段的第一时延，采用TDOA算法计算第二语音中各个音频片段的第二时延，计算第一时延的标准差与第二时延的标准差，并判断第一时延的标准差与第二时延的标准差是否均小于时延阈值：如果第一时延的标准差与第二时延的标准差均小于时延阈值，发送输出结果的指令到输出模块；反之，发送重新聚类的指令到聚类模块；

输出模块，用于输出第一语音与第二语音。

本发明的工作原理及优点在于：首先，对声纹特征进行聚类将其分为第一特征与第二特征。由于声纹特征具有特定性与相对稳定性两个特点，人的声音可保持长期相对稳定不变，无论谈话人与被谈话人故意模仿他人声音和语气，还是耳语轻声讲话，其声纹始终保持不变。这样根据第一特征与第二特征将谈话语音分为谈话人对应的第一语音与被谈话人对应的第二语音，能够初步实现角色识别。接着，采用TDOA算法计算第一语音中各个音频片段的第一时延，以及第二语音中各个音频片段的第二时延，并计算第一时延的标准差与第二时延的标准差。如果说第一时延的标准差与第二时延的标准差是否均小于时延阈值，表明第一语音与第二语音中的音频片段均是来源于同一个人，反之则表明第一语音与第二语音中的音频片段来源于不同的人。通过这样的方式，如果谈话语音在不好的录音环境中录制，谈话语音的质量很低下，可以对角色识别的结果进行修正，从而提高角色识别的准确率。

本发明即使在谈话语音的质量很低下的情况，也可以对角色识别的结果进行修正和反馈，解决了通过声纹特征进行说话人角色识别准确率低的技术问题。

进一步，纠正模块还用于采用TDOA算法根据第一时延计算第一距离，采用TDOA算法根据第二时延计算第二距离，并判断第一距离的标准差与第二距离的标准差是否均小于距离阈值：如果第一距离的标准差与第二距离的标准差均小于距离阈值，发送输出结果的指令到输出模块；反之，发送重新聚类的指令到聚类模块。

有益效果在于：如果第一时延的标准差与第二时延的标准差均小于时延阈值，这是从时间维度进行确认；如果第一距离的标准差与第二距离的标准差均小于距离阈值，这是从空间维度进行确认。通过这样的方式，可以更加准确地判断第一语音与第二语音中的音频片段是否均是来源于同一个人。

进一步，纠正模块还用于在采用TDOA算法计算第一语音中各个音频片段的第一时延之前，对第一语音进行增益处理；在采用TDOA算法计算第二语音中各个音频片段的第二时延之前，对第二语音进行增益处理。

有益效果在于：当第一语音与第二语音的响度过低时，通过这样的方式，能够提高第一语音与第二语音的响度，避免因为响度过低而产生误差。

进一步，纠正模块还用于在采用TDOA算法计算第一语音中各个音频片段的第一时延之前，对第一语音进行回音消除处理；在采用TDOA算法计算第二语音中各个音频片段的第二时延之前，对第二语音进行回音消除处理。

有益效果在于：回音的存在，会对第一语音与第二语音形成干扰，通过这样的方式能够消除第一语音与第二语音中的回声，避免回声干扰导致误差。

进一步，纠正模块还用于在采用TDOA算法计算第一语音中各个音频片段的第一时延之前，对第一语音进行降噪处理；在采用TDOA算法计算第二语音中各个音频片段的第二时延之前，对第二语音进行降噪处理。

有益效果在于：由于现实中很少存在完全没有杂音的环境，对第一语音与第二语音进行降噪处理，剔除掉无关因素，有利于提高后续处理的准确性。

进一步，输出模块还用于将第一语音转换为第一文本，并将第二语音转换为第二文本。

有益效果在于：将第一语音转换为第一文本，并将第二语音转换为第二文本，便于整理谈话语音的内容，从而提高工作效率。

进一步，输出模块还用于同步显示第一文本与第二文本。

有益效果在于：通过这样的方式，能够在转换的同时同步进行显示，既便于当场进行核实，又利于对谈话过程进行实时监督。

附图说明

图1为本发明基于角色识别的语音识别系统实施例的系统结构框图。

具体实施方式

下面通过具体实施方式进一步详细的说明：

实施例1

实施例基本如附图1所示，包括：

采集模块，用于采集谈话人与被谈话人的谈话语音；

提取模块，用于根据谈话语音提取声纹特征；

输出模块，用于输出第一语音与第二语音。

具体实施过程如下：

首先，采集模块采集谈话人与被谈话人的谈话语音。比如说，采用麦克风阵列来获取谈话者与被谈话者的声音，或者，采用多个枪型麦克风分别指向谈话者与被谈话者来获取不同的语音信号。

然后，提取模块根据谈话语音提取声纹特征，比如说采用iVector/PLDA算法来提取声纹特征，iVector/PLDA算法是主流的、也是成熟的声纹特征提取算法。

接着，聚类模块对声纹特征进行聚类，将声纹特征分为谈话人对应的第一特征与被谈话人对应的第二特征，并根据第一特征与第二特征将谈话语音分为谈话人对应的第一语音与被谈话人对应的第二语音。在本实施例中，采用K-MEANS算法进行聚类，也即为，将声纹特征分为K组，则随机选取K个声纹特征作为初始的聚类中心，然后计算其他声纹特征与各个聚类中心之间的距离，并把每个声纹特征分配给距离最近的聚类中心，每当分配一个声纹特征，聚类中心就会被重新计算，直到满足终止条件，比如说聚类中心不再发生变化。这样，在谈话人与被谈话人的数量均为一人时，即可将声纹特征分为两个类别，也即，谈话人对应的第一特征与被谈话人对应的第二特征，从而很容易根据第一特征与第二特征将谈话语音分为谈话人对应的第一语音与被谈话人对应的第二语音。

再接着，纠正模块采用TDOA算法计算第一语音中各个音频片段的第一时延，采用TDOA算法计算第二语音中各个音频片段的第二时延，计算第一时延的标准差与第二时延的标准差。在本实施例中，采用TDOA算法，也即Time Difference of Arrival-到达时间差算法计算第一时延与第二时延；比如说，第一语音中有五个音频片段，那么第一时延就有五个值；第二语音中有六个音频片段，那么第二时延就有六个值；根据五个第一时延可采用统计算法得到第一时延的标准差，根据六个第二时延可采用统计算法得到第二时延的标准差，随后做出判断。也即，判断第一时延的标准差与第二时延的标准差是否均小于时延阈值：如果第一时延的标准差与第二时延的标准差均小于时延阈值，表明第一语音与第二语音中的音频片段均是来源于同一个人，聚类的结果是可靠的，故而发送输出结果的指令到输出模块，输出模块接收到指令后就输出第一语音与第二语音；反之，表明第一语音与第二语音中的音频片段来源于不同的人，聚类的结果存在偏差，故而发送重新聚类的指令到聚类模块，聚类模块接收到指令后重新进行聚类，如此进行循环，直到聚类的结果符合要求为止。

最后，输出模块输出第一语音与第二语音。在本实施例中，输出模块将第一语音转换为第一文本，并将第二语音转换为第二文本；与此同时，同步显示第一文本与第二文本。

实施例2

与实施例1不同之处仅在于，纠正模块还采用TDOA算法根据第一时延计算第一距离，采用TDOA算法根据第二时延计算第二距离，判断第一距离的标准差与第二距离的标准差是否均小于距离阈值，如果第一距离的标准差与第二距离的标准差均小于距离阈值，发送输出结果的指令到输出模块；反之，发送重新聚类的指令到聚类模块。具体的实施过程可看参照前述实施例中相关内容进行。这样的话，第一时延的标准差与第二时延的标准差均小于时延阈值，是从时间维度进行确认；第一距离的标准差与第二距离的标准差均小于距离阈值，是从空间维度进行确认，从而可以更加准确地判断第一语音与第二语音中的音频片段是否均是来源于同一个人。

在计算第一时延与第二时延之前，纠正模块还对第一语音与第二语音进行增益处理，以提高第一语音与第二语音的响度；并对第一语音与第二语音进行回音消除处理，以消除第一语音与第二语音中的回声；以及，消除第一语音与第二语音中的噪声。

实施例3

与实施例2不同之处仅在于，在本实施例中，提取模块以切点的形式对谈话语音进行切分，得到多个语音片段，在语音片段中提取声纹特征。首先，判断切点是否位于谈话语音的空白区域，也即是说，检测切点所处的谈话语音的位置处是否存在声音：如果切点所处的谈话语音的位置处存在声音，表明切点没有位于谈话语音的空白区域；反之，如果切点所处的谈话语音的位置处不存在声音，表明切点位于谈话语音的空白区域。如果切点位于谈话语音的空白区域处，直接切分不会丢失说话人的语音特征，故而直接进行切分；反之，则不直接进行切分。然后，如果切点没有位于谈话语音的空白区域处，判断谈话人的数量是否发生变化，也就是说，检测谈话语音中的声纹特征的数量是否发生变化：如果谈话语音中的声纹特征的数量增加，表明谈话人的数量增加，如果谈话语音中的声纹特征的数量减少，表明谈话人的数量减少，此时，就将切点移动至谈话语音中谈话人的数量发生变化之处；反之，如果谈话语音中的声纹特征的数量不变，表明谈话人的数量不变，不移动切点。通过这样的方式，可以适当精简切分的过程，但不会丢失说话人的声音特征。

以上所述的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.基于角色识别的语音识别系统，其特征在于，包括：

采集模块，用于采集谈话人与被谈话人的谈话语音；

提取模块，用于根据谈话语音提取声纹特征；

输出模块，用于输出第一语音与第二语音。

2.如权利要求1所述的基于角色识别的语音识别系统，其特征在于，纠正模块还用于采用TDOA算法根据第一时延计算第一距离，采用TDOA算法根据第二时延计算第二距离，并判断第一距离的标准差与第二距离的标准差是否均小于距离阈值：如果第一距离的标准差与第二距离的标准差均小于距离阈值，发送输出结果的指令到输出模块；反之，发送重新聚类的指令到聚类模块。

3.如权利要求2所述的基于角色识别的语音识别系统，其特征在于，纠正模块还用于在采用TDOA算法计算第一语音中各个音频片段的第一时延之前，对第一语音进行增益处理；在采用TDOA算法计算第二语音中各个音频片段的第二时延之前，对第二语音进行增益处理。

4.如权利要求3所述的基于角色识别的语音识别系统，其特征在于，纠正模块还用于在采用TDOA算法计算第一语音中各个音频片段的第一时延之前，对第一语音进行回音消除处理；在采用TDOA算法计算第二语音中各个音频片段的第二时延之前，对第二语音进行回音消除处理。

5.如权利要求4所述的基于角色识别的语音识别系统，其特征在于，纠正模块还用于在采用TDOA算法计算第一语音中各个音频片段的第一时延之前，对第一语音进行降噪处理；在采用TDOA算法计算第二语音中各个音频片段的第二时延之前，对第二语音进行降噪处理。

6.如权利要求5所述的基于角色识别的语音识别系统，其特征在于，输出模块还用于将第一语音转换为第一文本，并将第二语音转换为第二文本。

7.如权利要求6所述的基于角色识别的语音识别系统，其特征在于，输出模块还用于同步显示第一文本与第二文本。