CN113744742A

CN113744742A - 对话场景下的角色识别方法、装置和系统

Info

Publication number: CN113744742A
Application number: CN202010479225.5A
Authority: CN
Inventors: 曾然然; 杨杰; 林悦
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2021-12-03
Anticipated expiration: 2040-05-29
Also published as: CN113744742B

Abstract

本发明的一个方面涉及对话场景下的角色识别方法、装置和系统。具体公开了一种用于识别对话中的角色的方法，包括：采集对话的音频；基于音频中说话人的语音特征对说话人进行语音角色分离；基于音频的对话内容中的场景和/或行业相关信息对说话人进行语义角色分离并确定角色类别；以及基于语音角色分离的结果和语义角色分离的结果得到角色分类结果。

Description

对话场景下的角色识别方法、装置和系统

技术领域

本发明涉及智能语音的技术领域，更具体地涉及对话场景下的角色识别技术。

背景技术

在智能语音的应用中，对语音对话中的说话人进行身份识别的场景非常典型和普遍，如电话会议的发言人角色区分、智能客服的客服/客户的语音分离及客服质检、公共安全的诈骗骚扰电话中嫌疑人身份识别及比对等。这类典型应用场景的业务特点是多个说话人交替进行对话。

业界主流的角色识别方法，直接基于数据建立声纹模型并进行识别。在电话会议、审讯、客服通话等场景下由多个说话人在交替说话，在实时识别人身份时，在超短语句的快速切换下，声纹识别常会对短或语句(语音片段长度短于2-3秒)的识别进行误判且误判率非常高。以目前客服系统为例，现有技术的角色分离的准确率仅在在70％左右。

此外，仅依赖于声纹特征进行识别无法判断对话的场景和/或行业，因此在场景和/或行业未知的情况下无法识别说话人的角色，进而难以识别其身份。在公布号为CN108074576A的题为“审讯场景下的说话人角色分离方法及系统”的发明专利申请中，除了使用语音特征以外，还使用了句式和/或时长作为角色识别特征。然而，该申请仅针对审讯场景，仍然无法应用于多种场景下的角色识别。

发明内容

考虑到在很多场景下，企业客户往往有大量行业经验的专业话术数据或者语义模板数据的积累，本发明提出了一种利用对话中有关场景和/或行业的信息与角色分离相结合来提升角色识别的准确度的方法、装置和系统。本发明的角色识别方法、装置和系统针对智能语音中的典型对话场景的角色识别需求，充分利用了对话中的对话场景特征、对话人物角色特征、行业专有名词和企业累积的常用话术等关键语义信息，来改进和提高角色识别的精度，以达到商业要求的角色识别的可用性。

根据本发明的一个方面，提供了一种用于识别对话中的角色的方法，包括：采集对话的音频；基于音频中说话人的语音特征对说话人进行语音角色分离；基于音频的对话内容中的场景和/或行业相关信息对说话人进行语义角色分离并确定角色类别；以及基于语音角色分离的结果和语义角色分离的结果得到角色分类结果。

根据本发明另一方面，提出了一种用于识别对话中的角色的装置，包括：语音处理模块，被配置为基于采集的对话的音频中说话人的语音特征对说话人进行语音角色分离；语义处理模块，被配置为基于音频的对话内容中的场景和/或行业相关信息对说话人进行语义角色分离并确定角色类别；以及处理模块，被配置为基于语音角色分离的结果和语义角色分离的结果得到角色分类结果。

根据本发明又一方面，提供了一种用于识别对话中的角色的系统，包括:收音装置，用于采集对话的音频；以及如上所述的用于识别对话中的角色的装置。

附图说明

参照附图，根据下面的详细描述，可以更清楚地理解本公开，其中：

图1示出了根据本发明一个实施例的用于识别对话中的角色的系统的方框图；

图2示出了根据本发明一个实施例的用于识别对话中的角色的方法的流程图；

图3示出了根据本发明一个实施例的基于角色分类结果确定角色的身份的方法的流程图；以及

图4示出了基于角色分类结果和声纹确定用户身份的一个实例。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

图1示出了根据本发明的一个实施例的用于识别对话中的角色的系统的方框图。如图1所示，角色识别系统1包括收音装置200和角色识别装置100。收音装置200用于采集音频，其可以是本领域通用的拾音器设备，例如麦克风等。角色识别装置100包括处理模块110、语音识别模块120、语音处理模块130和语义处理模块140。根据一种实施方式，角色识别装置还可以包括存储中间处理结果的存储装置。在另一种实施方式中，中间处理结果也可以被远程地存储。

下面参照附图1描述上述各模块的功能。

语音识别模块120用于对采集的对话的音频进行语音转写。语音转写是指通过语音识别技术将音频中的语音内容转换成文字。

语音处理模块130被配置为基于采集的对话的音频中说话人的语音特征对说话人进行语音角色分离。此外，语音处理模块130还被配置为使用声纹识别算法从音频识别说话人的声纹特征。

语义处理模块140被配置为基于音频的对话内容中的场景和/或行业相关信息对说话人进行语义角色分离并确定角色类别。

处理模块110被配置为将以上各模块的中间处理结果存储到存储器或远端。处理模块110还被配置为基于语音角色分离结果和语义角色分离结果得到角色分类结果。在一个实施例中，处理模块还可以基于角色分类结果和说话人的声纹特征，从注册声纹的数据库中识别说话人的身份。

应当理解，上述各个模块仅是根据其所实现的具体功能所划分的逻辑模块，而不是用于限制具体的实现方式。在实际实现时，上述各个模块可被实现为独立的物理实体，或者也可由单个实体(例如，处理器(CPU或DSP等)、集成电路等)来实现。

下面参照图2来描述根据本发明的一个实施例的用于识别对话中的角色的方法。

在步骤201中，由收音装置200采集对话的音频，所采集的音频被发送至处理模块110。处理模块110将其存储在本地存储器或位于远端的存储器或服务器处。

在一个实施例中，收音装置200在采集音频的同时将音频数据流实时发送到处理模块110。

在对话完成并且音频采集完毕之后，在步骤202中，处理模块110将所采集的对话的音频发送至语音处理模块130，语音处理模块130基于音频中说话人的语音特征对说话人进行语音角色分离。语音特征是指说话人的声音特有的特点，例如音质和音色。由于人的发声器官大小和形态有差异，因此不同人的声音的音质和音色也是不同的。语音处理模块利用这种语音的特异性对说话人进行区分。

根据一种实施方式，语音处理模块使用语音角色分离算法对音频中的每条语音进行聚类，聚类后分成A类/B类，并将结果返回给处理模块110以进行存储。聚类的结果不一定是二分类，根据场景的不同，也可能是两种以上的分类。语音角色分离算法可以根据实际需要使用现有技术中已知的算法来实现，例如，使用基于神经网络的算法。

在步骤203中，语义处理模块140基于音频的对话内容中的场景和/或行业相关信息对说话人进行语义角色分离并确定角色类别。

在一个实施例中，语义处理模块140利用从音频转写的音频文本来识别场景和/或行业相关信息。

音频文本可通过如下过程获得。在收音装置200采集音频的过程中，音频数据流被实时发送到处理模块110。处理模块110每接收到一段语音单元片段，就将其发送给语音识别模块120进行语音转写并得到相应文本。文本被发送回处理模块110进行存储，直到采集过程结束，已处理完所有的语音单元片段。然后，将存储的所有语音片段的文本合并，并发送给语义处理模块140进行处理。

音频转写也可以不是实时进行的。在一种实施方式中，在采集完成之后，处理模块110将采集的完整对话音频发送至语音识别模块120进行语音转写，从而得到对话内容的文本。该音频文本可以被发送回处理器110进行存储，或直接发送给语义处理模块140。

下面描述语义角色分离的过程。

在一种实施方式中，语义处理模块140可以将音频文本输入到语义角色分离模型，并根据对音频文本中的场景和/或行业相关信息对每一条内容重新进行角色分离，从而得到0/1二分类。此时，语义处理模块140可根据场景和/或行业相关信息直接判断出0类和1类的角色分别是什么。例如，角色0为客服，角色1为客户。此处以二分类为例描述了语义角色分离，但在实际应用中，分类可以为两种以上的类别。在一种实现方式中，角色可以被进一步细化为老客户、新客户、VIP客户。例如，可直接识别出角色1为VIP客户。

在一个实施例中，所述语义角色分离模型是基于深度学习神经网络算法使用词向量或句向量的语义聚类构建的。

在实际应用中，对话通常发生不同行业当中，而一个行业可能存在一个或多个不同场景。例如，对话可能存在于金融、电信、教育等行业，其中电信行业中可能存在客服场景、会议场景等。进一步地，客服场景还可细化为例如老客户客服场景、新客户客服场景、和VIP客户客服场景。因此，获得场景和/或行业相关的信息对于识别对话中的说话人分别是什么角色是重要的。

场景和/或行业相关信息可以利用现有技术中的词向量和/或句向量处理方法来提取。这只是一种实施方式，也可以根据实际需要选择其它提取方法。

场景相关信息是表达场景特征的信息，例如能够用来区分不同场景的信息。在一个示例中，场景相关信息包括对话场景特征和对话角色特征中的一个或多个。角色识别常用的场景例如包括客服通话、电话会议、审讯、诈骗骚扰电话等。在不同的场景下，对话所采用的、词汇、句子和模版是不同的。在一个示例中，场景相关信息可以是对话所采用的模版信息。

行业相关信息是表达行业特征的信息，例如能够区分不同行业的信息。在一个示例中，行业相关信息包括行业专有名词和企业常用话术中的一个或多个。企业常用话术是指企业特定的讲话套路。角色识别常用的行业例如包括：金融、保险、电信、教育、公共安全等。以电信行业为例，行业专有名词例如包括：流量、网速、4G等。

在步骤204中，处理模块110基于语音处理模块130输出的语音角色分离结果和语义处理模块140输出的语义角色分离结果来确定角色分类结果。角色分类结果不仅包括角色的分离结果，还包括分离的角色相应的类别。

语音角色分离的准确率不够高，但可以对每一条语音都输出角色分离结果，无论这条语音的说话内容是什么。而基于场景和/或行业相关信息的语义角色分离虽然准确率高，但对于那些不含有场景和/或行业相关信息的语句无法进行角色分离，也就是输出结果为空。

在步骤204中，处理模块110将两种角色分离的结果相结合，从而得到比单独使用语音角色分离准确，又比单独使用语义角色分离完整的分离结果。此外，语音角色分离对于超短语句(语音片段长度短于2-3秒)误判率高，而语义角色分离与句子长短关系不大，没有这个问题。因此，两者结合之后，即使对于超短语句也可以得到准确的分离结果。

在一个实施例中，处理模块110可以针对每个语音片段比较语音角色分离的结果和语义角色分离的结果；如果语音角色分离的结果与语义角色分离的结果不一致，则采用语义角色分离的结果；如果针对一条语音片段，语义角色分离的结果为空，也即无法对其进行分类，则直接采用语音角色分离的结果。

由于语义处理模块在语义角色分离的同时已经确定了角色类别，(例如，0类为客户，1类为客户)，因此在将两种角色分离结果整合之后，可以得到明确了角色类别的角色分离结果，此处也称为角色识别结果。

本发明的上述角色分离装置和方法利用了语音角色分离和语义角色分离的双重角色分离机制，在分离时不仅考虑了语音特征，还考虑了对话的场景和/或行业信息。因此，本发明具有以下优点：

1、现有技术主流的角色识别机制由于仅依赖于语音特征进行角色分离，准确率仅在70％左右。尤其在超短语句(语音片段长度短于2-3秒)的快速切换下，误判率非常高。而本发明在语音角色分离机制的基础上引入了语义角色分离机制，大大提高了角色分离的准确度。

2、现有技术主流的角色识别机制通常仅使用语音角色分离的单一机制，无法识别场景和行业。因此，现有技术的角色识别机制只能应用于单一场景和/或行业(即，场景和/或行业已知)的情况。而本发明利用场景和/或行业相关信息来判断对话所处的场景和/或行业，因此可以应用于多个场景中。

3、语音角色分离和语义角色分离在对话结束之后统一来计算结果，比现有技术中基于单条语音片段来进行角色分离识别准确率提升。

在得到准确度提高的角色分类结果之后，还可以进一步识别角色的身份。下面参照图3描述基于角色分类结果确定角色的身份的方法。

在步骤205中，语音处理模块130使用声纹识别算法从音频识别说话人的声纹特征。声纹识别算法基于人的说话声音的音质和音色的不同，识别出不同人所特有的声纹，即声波频谱。声纹如同指纹一样，可以用来检测人的身份。

在一个实施例中，可以在采集音频的同时，实时地对每一个语音单元片段进行声纹识别。但这不是必须的，也可以在音频采集结束之后，对整个音频中的语音片段进行声纹识别。

在步骤206中，处理模块110基于角色分类结果和说话人的声纹特征，从注册声纹的数据库中识别说话人的身份。

注册声纹的数据库是预先获得的将候选说话人对象的声纹和身份相关联地进行存储的数据库。数据库可以按角色类别进行分类。例如，在客服通话的场景下，客服声纹数据库记录了客服人员的客服编号和该客服人员所对应的声纹，而客户数据库记录了客户的身份(例如，手机号码、银行账户、身份证ID等)和该客户所对应的声纹。在此基础上，客户数据库还可以进一步分为老客户数据库、新客户数据库和VIP客户数据库等。

在该实例中，处理模块可以根据角色分类结果(例如，0类为客服，1类为客户)，将从0类语音片段识别的声纹与客服声纹数据库中的每个注册声纹进行对比，并对每个注册声纹进行打分。例如，根据声纹相似度的不同，给出0-10的分数，0为相似度最低，10为相似度最高。从中选择分数最高的客服(例如，客服编号为3579的客服)作为对话中的客服人员。对于客户的角色识别也可以采用类似的打分方法，将从1类语音片段识别的声纹与客户声纹数据库中的每个注册声纹进行对比和打分，并从中选择分数最高的客户。在1类被直接细化为VIP客户的情况下，可将声纹与VIP客户数据库中的注册声纹进行对比，并选择分数最高的VIP客户(例如，VIP客户王小丫)作为对话中的客户。

在最终确定说话人的身份ID之后，可形成最终结果进行保存、同步或展示。

以上关于图2和图3所描述的各步骤仅是示例性的，不一定按照所描述的顺序来进行。本领域技术人员可根据实际需要调整步骤的顺序，例如，可以先进行语义角色分离，然后再进行语音角色分离。再例如，声纹识别的步骤可以在语音角色分离之前或者语义角色分离之前进行。

相比于现有技术，本发明的双重角色分离机制并不完全独立于声纹识别处理，两种分离机制的输出在被整合之后最终还是要再结合声纹识别的结果来进行最终判别和综合计算。本发明不仅仅可以区分说话人的角色类别，还可以识别出说话人的身份。由于之前已经得到了准确的角色分类结果，只需在对应类别的数据库中进行声纹比对即可识别出每个说话人的身份。与现有技术中在角色类别未知的情况下比对声纹针对性更强，结果更准确，处理量更小。

根据详细的说明书，本发明的许多特征和优点是显而易见的，因此，所附权利要求书旨在涵盖落入本发明的真实精神和范围内的本发明的所有这些特征和优点。此外，由于本领域技术人员将容易想到许多修改和变型，因此不希望将本发明限制于所图示和描述的确切构造和操作，并且相应地，可以采用落入本发明的范围内的所有合适的修改和等效物。

Claims

1.一种用于识别对话中的角色的方法，包括:

采集对话的音频；

基于音频中说话人的语音特征对说话人进行语音角色分离；

基于音频的对话内容中的场景和/或行业相关信息对说话人进行语义角色分离并确定角色类别；以及

基于语音角色分离的结果和语义角色分离的结果得到角色分类结果。

2.如权利要求1所述的方法，还包括：

使用声纹识别算法从音频识别说话人的声纹特征；以及

基于角色分类结果和说话人的声纹特征，从注册声纹的数据库中识别说话人的身份。

3.如权利要求1所述的方法，其中，基于语音角色分离的结果和语义角色分离的结果得到角色识别结果包括：

针对每个语音片段比较语音角色分离的结果和语义角色分离的结果；

如果语音角色分离的结果与语义角色分离的结果不一致，则采用语义角色分离的结果；

如果语义角色分离的结果为空，则采用语音角色分离的结果。

4.如权利要求2所述的方法，还包括：对音频进行语音转写以获得音频文本，

其中，语义角色分离包括：将所述音频文本输入语义角色分离模型，所述语义角色分类模型基于音频文本中的场景和/或行业相关信息生成语义角色分离结果。

5.如权利要求4所述的方法，其中，所述语义角色分离模型是基于深度学习神经网络算法使用词向量或句向量的语义聚类构建的。

6.如权利要求1所述的方法，其中，所述场景和/或行业相关信息包括以下一项或多项：对话场景特征、对话人物角色特征、行业专有名词、企业常用话术。

7.如权利要求3所述的方法，其中，从音频识别说话人的声纹特征以及对音频进行语音转写是在采集对话的音频的过程中实时进行的。

8.一种用于识别对话中的角色的装置，包括：

语音处理模块，被配置为基于采集的对话的音频中说话人的语音特征对说话人进行语音角色分离；

语义处理模块，被配置为基于音频的对话内容中的场景和/或行业相关信息对说话人进行语义角色分离并确定角色类别；以及

处理模块，被配置为基于语音角色分离的结果和语义角色分离的结果得到角色分类结果。

9.如权利要求8所述的装置，其中，所述语音处理模块还被配置为使用声纹识别算法从音频识别说话人的声纹特征；并且其中，所述处理模块还被配置为基于角色分类结果和说话人的声纹特征，从注册声纹的数据库中识别说话人的身份。

10.如权利要求8所述的方法，其中，基于语音角色分离的结果和语义角色分离的结果得到角色识别结果包括：

11.如权利要求9所述的装置，还包括语音识别模块，被配置为对音频进行语音转写以获得音频文本，

其中，语义角色分离包括：将所述音频文本输入语义角色分离模型，并基于音频文本中的场景和/或行业相关信息生成语义角色分离结果。

12.如权利要求11所述的装置，其中，所述语义角色分离模型是基于深度学习神经网络算法使用词向量或句向量的语义聚类构建的。

13.如权利要求8所述的装置，其中，所述场景和/或行业相关信息包括以下一项或多项：对话场景特征、对话人物角色特征、行业专有名词、企业常用话术。

14.如权利要求11所述的装置，其中，从音频识别说话人的声纹特征以及对音频进行语音转写是在采集对话的音频的过程中实时进行的。

15.一种用于识别对话中的角色的系统，包括:

收音装置，用于采集对话的音频；以及

如权利要求8-14中任一项所述的用于识别对话中的角色的装置。