CN111105801B

CN111105801B - 一种角色语音分离方法及装置

Info

Publication number: CN111105801B
Application number: CN201911221798.1A
Authority: CN
Inventors: 赵东阳
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2022-04-01
Anticipated expiration: 2039-12-03
Also published as: CN111105801A

Abstract

本发明公开了一种角色语音分离方法及装置，包括：建立一个数据信息库；在检测到用户对话时，对对话中的每一句话进行识别，其中，用户包括用户组a和用户组b；对识别的结果提取声纹特征，输出提取结果；获取提取结果中属于用户组a的声纹特征存入数据信息库中。通过将用户的对话内容进行声纹特征提取然后将提取的声纹特征根据角色的不同而各自对应分离，进而实现了语音的分离，只需获取到用户的对话内容进而提取即可实现，准备工作简单且方便。解决了现有技术中需要前期进行录音并根据录音训练数据，准备工作的实施成本太高的问题。

Description

一种角色语音分离方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种角色语音分离方法及装置。

背景技术

目前，在各个公司的行政和客服人员都要和客户进行沟通和交流，在交流完后会根据需要的对对话内容进行角色分离和设定，相同的情况还有提审系统、会议系统外呼系统等。现有的角色分离技术是通过程控交换机、声卡等专业设备，配合软件，在通道上实现角色的分离和设定的，但是这种方法存着着以下问题：为了获取较高的准确率，达到实际可用，需要前期进行录音，根据录音训练数据，准备工作的实施成本太高。

发明内容

针对上述所显示出来的问题，本方法基于利用声纹识别引擎和聚类算法来提取出对话内容中的声音特征来区分角色进而来实现角色的分离。

一种角色语音分离方法，包括以下步骤：

建立一个数据信息库；

在检测到用户对话时，对所述对话中的每一句话进行识别，其中，所述用户包括用户组a和用户组b；

对识别的结果提取声纹特征，输出提取结果；

获取所述提取结果中属于所述用户组a的声纹特征存入所述数据信息库中。

优选的，所述在检测到用户对话时，对所述对话中的每一句话进行识别，包括：

获取所述用户的对话内容；

提取所述用户组a的身份信息并存储到所述数据信息库中以用于区别用户组a和用户组b；

将所述对话内容通过声纹引擎进行识别分类，分为所述用户组a的m个声音片段集和所述用户组b的n个声音片段集。

优选的，所述对识别的结果提取声纹特征，输出提取结果，包括：

利用所述声纹识别引擎提取所述用户组a的m个声音片段集和所述用户组b的n个声音片段集的声纹特征；

保存提取出来的所述用户组a和用户组b的m+n个声纹特征；

利用聚类算法将所述m+n个声纹特征进行分类统计，输出第一统计结果。

优选的，所述方法还包括：

获取用户组a的声音素材进而生成声音信号谱；

根据所述声音信号谱对所述第一统计结果进行检索，检索出所述第一统计结果中属于用户组a的声纹特征，输出为第二统计结果；

确定所述第二统计结果中声纹特征的数量是否大于等于预设阈值或判断声纹特征的概率是否大于等于预设概率；

若是，将所述属于用户组a的声纹特征整合起来保存；

否则，重新获取用户组a和用户组b的声音片段集并且提取所述声音片段集中用户组a和用户组b的声纹特征，直到确定属于用户组a的声纹特征数量大于等于所述预设阈值或者概率大于等于所述预设概率为止。

优选的，所述获取提取结果中属于所述用户组a的声纹特征存入所述数据信息库中，包括：

将保存的声纹特征输入到所述数据信息库中；

将所述保存的声纹特征和用户组a的身份信息相匹配；

保存匹配的结果以更新所述数据信息库。

一种角色语音分离装置，该装置包括：

构建模块，用于建立一个数据信息库；

识别模块，用于在检测到用户对话时，对所述对话中的每一句话进行识别，其中，所述用户包括用户组a和用户组b；

提取模块，用于对识别的结果提取声纹特征，输出提取结果；

保存模块，用于获取所述提取结果中属于所述用户组a的声纹特征存入所述数据信息库中。

优选的，所述识别模块，包括：

获取子模块，用于获取所述用户的对话内容；

提取子模块，用于提取所述用户组a的身份信息并存储到所述数据信息库中以用于区别用户组a和用户组b；

识别子模块，用于将所述对话内容通过声纹引擎进行识别分类，分为所述用户组a的m个声音片段集和所述用户组b的n个声音片段集。

优选的，所述提取模块，包括：

提取子模块，用于利用所述声纹识别引擎提取所述用户组a的m个声音片段集和所述用户组b的n个声音片段集的声纹特征；

保存子模块，用于保存提取出来的所述用户组a和用户组b的m+n个声纹特征；

统计子模块，用于利用聚类算法将所述m+n个声纹特征进行分类统计，输出第一统计结果。

优选的，所述装置还包括：

获取模块，用于获取用户组a的声音素材进而生成声音信号谱；

检索模块，用于根据所述声音信号谱对所述第一统计结果进行检索，检索出所述第一统计结果中属于用户组a的声纹特征，输出为第二统计结果；

确定模块，用于确定所述第二统计结果中声纹特征的数量是否大于等于预设阈值或判断声纹特征的概率是否大于等于预设概率；

控制模块，用于当所述确定模块确定所述第二统计结果中声纹特征的数量是否大于等于预设阈值或判断声纹特征的概率是否大于等于预设概率时，将所述属于用户组a的声纹特征整合起来保存，否则，控制所述提取模块重新提取声音片段集中用户组a和用户组b的声纹特征，直到确定属于用户组a的声纹特征数量大于等于所述预设阈值或者概率大于等于所述预设概率为止。

优选的，所述保存模块，包括：

输入子模块，用于将保存的声纹特征输入到所述数据信息库中；

匹配子模块，用于将所述保存的声纹特征和用户组a的身份信息相匹配；

更新子模块，用于保存匹配的结果以更新所述数据信息库。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明所提供的一种角色语音分离方法的工作流程图；

图2为本发明所提供的一种角色语音分离方法的另一工作流程图；

图3为本发明所提供的一种角色语音分离方法的工作流程截图；

图4为本发明所提供的一种角色语音分离方法的另一工作流程截图；

图5为本发明所提供的一种角色语音分离装置的结构图；

图6为本发明所提供的一种角色语音分离装置的另一结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

目前，在各个公司的行政和客服人员都要和客户进行沟通和交流，在交流完后会根据需要的对对话内容进行角色分离和设定，相同的情况还有提审系统、会议系统外呼系统等。现有的角色分离技术是通过程控交换机、声卡等专业设备，配合软件，在通道上实现角色的分离和设定的，但是这种方法存着着以下问题：1、为了获取较高的准确率，达到实际可用，需要前期进行录音，根据录音训练数据，准备工作的实施成本太高。2、程控交换机、声卡等专业设备，设备成本高，实施周期长。且在声音混合存储以后，再处理较为不便。为了解决上述问题，本实施例公开了一种基于利用声纹识别引擎和聚类算法来提取出对话内容中的声音特征来区分角色进而来实现角色的分离的方法。

一种角色语音分离方法，如图1所示，包括以下步骤：

步骤S101、建立一个数据信息库；

步骤S102、在检测到用户对话时，对对话中的每一句话进行识别，其中，用户包括用户组a和用户组b；

步骤S103、对识别的结果提取声纹特征，输出提取结果；

步骤S104、获取提取结果中属于用户组a的声纹特征存入数据信息库中；

特别的，上述用户组a的可以为客服、人事等服务人员，上述用户组b可以为客户等被服务对象；用户组a与用户组b为对话双方。

上述技术方案的工作原理为：预先建立一个数据信息库用于存储用户数据，然后检测上述用户的对话状态，当检测到用户对话时，对对话中的每一句话进行识别，对识别的结果提取声纹特征并且提取出上述声纹特征中属于用户中用户组a的声纹特征进行保存，最后将保存的声纹特征存入到预先建立的数据信息库中。

上述技术方案的有益效果为：通过将用户的对话内容进行声纹特征提取然后将提取的声纹特征根据角色的不同而各自对应分离，进而实现了语音的分离，只需获取到用户的对话内容进而提取即可实现，准备工作简单且方便。解决了现有技术中需要前期进行录音并根据录音训练数据，准备工作的实施成本太高的问题。

在一个实施例中，在检测到用户对话时，对对话中的每一句话进行识别，包括：

获取用户的对话内容；

提取用户组a的身份信息并存储到所述数据信息库中以用于区别用户组a和用户组b；

将对话内容通过声纹引擎进行识别分类，分为用户组a的m个声音片段集和用户组b的n个声音片段集；

特别的，上述m与n为大于等于1的正整数，m和n的值可以是相同的也可以是不同的，取决于用户组a和用户组b的对话内容，当用户组a和用户组b的语音数量相同时，则m＝n，否则m≠n，m和n的数量关系取决于用户组a和用户组b哪一个的语音数量多。

上述技术方案的有益效果为：提取用户组a的身份信息并存储到数据信息库中可以和提取出来的用户组a的声纹特征相匹配，避免多个声纹特征混乱无法分清的现象，分为m个声音片段集和n个声音片段集可以更快的提取声纹特征，而无需提取出来结果进行分类，提高了语音分离的效率。

在一个实施例中，如图2所示，对识别的结果提取声纹特征，输出提取结果，包括：

步骤S201、利用声纹识别引擎提取用户组a的m个声音片段集和用户组b的n个声音片段集的声纹特征；

步骤S202、保存提取出来的用户组a和用户组b的m+n个声纹特征；

步骤S203、利用聚类算法将m+n个声纹特征进行分类统计，输出第一统计结果。

上述技术方案的有益效果为：利用聚类算法可将用户组a和用户组b的声纹特征分别统计，并且聚类算法相比于现有技术分离的结果更加准确，提取的声纹特征也是稳定无误的，相比于现有技术提高了稳定性和准确性。

在一个实施例中，上述方法还包括：

获取用户组a的声音素材进而生成声音信号谱；

根据声音信号谱对第一统计结果进行检索，检索出第一统计结果中属于用户组a的声纹特征，输出为第二统计结果；

确定第二统计结果中声纹特征的数量是否大于等于预设阈值或判断声纹特征的概率是否大于等于预设概率；

若是，将属于用户组a的声纹特征整合起来保存；

否则，重新获取用户组a和用户组b的声音片段集并且提取声音片段集中用户组a和用户组b的声纹特征，直到确定属于用户组a的声纹特征数量大于等于所述预设阈值或者概率大于等于所述预设概率为止；

特别的，上述预设阈值可以为1，上述预设概率可以为80％。

上述技术方案的有益效果为：根据用户组a的声音素材生成信号谱，然后根据信号谱检索出用户组a的声纹特征可以将用户组a的声纹特征和用户组b的声纹特征更加明了的分离开来，确定用户组a的声纹特征和预设阈值或者概率的比较结果进而可以更加确定用户组a的声纹特征，避免了误识别和提取错误声纹特征的情况，进一步地提高了稳定性和准确性。

在一个实施例中，获取提取结果中属于用户组a的声纹特征存入数据信息库中，包括：

将保存的声纹特征输入到数据信息库中；

将保存的声纹特征和用户组a的身份信息相匹配；

保存匹配的结果以更新数据信息库。

上述技术方案的有益效果为：将保存的声纹信息和用户组a的身份信息相匹配方便以后再提取出用户组a的声纹特征后可以直接识别并且第一时间内快速的将语音进行分离，无需多次进行声纹提取，提高了效率，并且可根据用户a的身份信息随时更新其对应的声纹特征以应对更多情况，同时，用户可以根据身份信息随时调取包含用户组a的声纹信息的对应对话内容，方面快捷。解决了现有技术中程控交换机、声卡等专业设备设备成本高、实施周期长且在声音混合存储以后，再处理较为不便的问题。

在一个实施例中，如图3、图4所示，包括：

创建空的声纹-身份信息数据库，开始使用该套系统。设固定角色工作人员A(agent)通过账号A_Id登录系统，接收到n个顾客C1(Client)、C2、…、Cn打来的电话。设判定标准为超过数量阈值T，或者超过百分比P。

步骤1、将身份信息A_Id保存到数据库，相应声纹信息为空，此时数据库为[[Null,A_Id]]；

步骤2、if A_Id对应的声纹信息＝＝Null:

顾客Cn打来电话，A接听，分离对话，得到声音片段集，Xn1和Xn2，其中一个属于顾客，一个属于客服；

Xn1->通过声纹识别引擎->提取声纹特征Fn1；

Xn2->通过声纹识别引擎->提取声纹特征Fn2；

将Fn1、Fn2与之前1～n-1对特征暂存到一起，[F01,F02,…,Fn1,Fn2]，输入到聚类算法模块，得到聚类结果；

如果其中一类结果数量>数量阈值Tor比重>百分比P:

将此类特征认定为角色A的声纹特征；

更新声纹-身份信息数据库，[[feature_A,A_Id]]；

否则:等待下一通电话，重复步骤2；

步骤3、如果A_Id对应的声纹信息！＝Null:

顾客Cn打来电话，A接听，分离对话，得到声音片段集，Xn1和Xn2；

已知A的声纹特征feature_A，通过声纹识别引擎对语音进行分类，判定顾客的语音和客服的语音；

步骤4、重复上述123，实现整个系统全部人员的特征提取和完善，得到数据库[[feature_A,A_Id],[feature_B,B_Id],…,]。

上述技术方案的工作原理和有益效果为：预先建立一个数据信息库用于存储用户数据，然后检测上述用户的对话状态，当检测到用户对话时，对对话中的每一句话进行识别，对识别的结果提取声纹特征并且提取出上述声纹特征中属于用户中用户组a的声纹特征进行保存，最后将保存的声纹特征存入到预先建立的数据信息库中。针对一方角色人员固定的对话系统，在几次会话之后，完成声纹特征的自动学习，从而实现角色自动分离和设定。相对于现有方法，不需要昂贵的专业设备，成本低、实施周期短、操作简便、无人工训练、应对人员流动和变化更加灵活。

本实施例还提供了一种角色语音分离装置，如图5所示，该装置包括：

构建模块501，用于建立一个数据信息库；

识别模块502，用于在检测到用户对话时，对对话中的每一句话进行识别，其中，用户包括用户组a和用户组b；

提取模块503，用于对识别的结果提取声纹特征，输出提取结果；

保存模块504，用于获取提取结果中属于用户组a的声纹特征存入数据信息库中。

在一个实施例中，识别模块，包括：

获取子模块，用于获取用户的对话内容；

提取子模块，用于提取用户组a的身份信息并存储到数据信息库中以用于区别用户组a和用户组b；

识别子模块，用于将对话内容通过声纹引擎进行识别分类，分为用户组a的m个声音片段集和用户组b的n个声音片段集。

在一个实施例中，如图6所示，提取模块，包括：

提取子模块5031，用于利用声纹识别引擎提取用户组a的m个声音片段集和用户组b的n个声音片段集的声纹特征；

保存子模块5032，用于保存提取出来的用户组a和用户组b的m+n个声纹特征；

统计子模块5033，用于利用聚类算法将m+n个声纹特征进行分类统计，输出第一统计结果。

在一个实施例中，上述装置还包括：

检索模块，用于根据声音信号谱对第一统计结果进行检索，检索出第一统计结果中属于用户组a的声纹特征，输出为第二统计结果；

确定模块，用于确定第二统计结果中声纹特征的数量是否大于等于预设阈值或判断声纹特征的概率是否大于等于预设概率；

控制模块，用于当确定模块确定第二统计结果中声纹特征的数量是否大于等于预设阈值或判断声纹特征的概率是否大于等于预设概率时，将属于用户组a的声纹特征整合起来保存，否则，控制提取模块重新提取声音片段集中用户组a和用户组b的声纹特征，直到确定属于用户组a的声纹特征数量大于等于预设阈值或者概率大于等于预设概率为止。

在一个实施例中，保存模块，包括：

输入子模块，用于将保存的声纹特征输入到数据信息库中；

匹配子模块，用于将保存的声纹特征和用户组a的身份信息相匹配；

更新子模块，用于保存匹配的结果以更新数据信息库。

本领域技术人员应当理解的是，本发明中的第一、第二指的是不同应用阶段而已。例如：第一眼部区域特征是检测阶段的眼部特征，第二为训练阶段，且眼部特征可以是眼的大小、上下眼皮的距离等。关键点可以是位置等，如人脸关键点可以是人脸上轮廓、五官的位置等，人眼关键点可以是人眼的位置等。

本领域技术用户员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种角色语音分离方法，其特征在于，包括以下步骤：

建立一个数据信息库；

对识别的结果提取声纹特征，输出提取结果；

获取所述提取结果中属于所述用户组a的声纹特征存入所述数据信息库中；

所述在检测到用户对话时，对所述对话中的每一句话进行识别，包括：

获取所述用户的对话内容；

将所述对话内容通过声纹引擎进行识别分类，分为所述用户组a的m个声音片段集和所述用户组b的n个声音片段集；

所述对识别的结果提取声纹特征，输出提取结果，包括：

保存提取出来的所述用户组a和用户组b的m+n个声纹特征；

利用聚类算法将所述m+n个声纹特征进行分类统计，输出第一统计结果；

获取用户组a的声音素材进而生成声音信号谱；

若是，将所述属于用户组a的声纹特征整合起来保存；

2.根据权利要求1所述角色语音分离方法，其特征在于，所述获取提取结果中属于所述用户组a的声纹特征存入所述数据信息库中，包括：

将保存的声纹特征输入到所述数据信息库中；

将所述保存的声纹特征和用户组a的身份信息相匹配；

保存匹配的结果以更新所述数据信息库。

3.一种角色语音分离装置，其特征在于，该装置包括：

构建模块，用于建立一个数据信息库；

保存模块，用于获取所述提取结果中属于所述用户组a的声纹特征存入所述数据信息库中；

所述识别模块，包括：

获取子模块，用于获取所述用户的对话内容；

识别子模块，用于将所述对话内容通过声纹引擎进行识别分类，分为所述用户组a的m个声音片段集和所述用户组b的n个声音片段集；

所述提取模块，包括：

统计子模块，用于利用聚类算法将所述m+n个声纹特征进行分类统计，输出第一统计结果；

4.根据权利要求3所述角色语音分离装置，其特征在于，所述保存模块，包括：

更新子模块，用于保存匹配的结果以更新所述数据信息库。