CN114842849B

CN114842849B - 语音对话检测方法及装置

Info

Publication number: CN114842849B
Application number: CN202210451120.8A
Authority: CN
Inventors: 邓成东; 曾琳铖曦; 郭江; 吴海英
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2022-04-24
Filing date: 2022-04-24
Publication date: 2023-08-08
Anticipated expiration: 2042-04-24
Also published as: WO2023207212A1; CN114842849A

Abstract

本申请公开了一种语音对话检测方法及装置，用于解决现有的语音对话检测方法的检测准确率低的问题。所述方法包括：基于目标语音数据中的语音对话的对话相关信息及对话文本，对所述目标语音数据中的语音对话进行插抢话预检测，得到候选语音对话，其中，所述目标语音数据包括不同角色的说话者的语音对话，所述对话相关信息包括对话起止时间信息及说话人角色；基于预设情绪识别模型对所述候选语音对话进行情绪识别，得到情绪识别结果；基于所述情绪识别结果和所述候选语音对话的语音特征，确定所述候选语音对话是否存在插抢话行为。

Description

语音对话检测方法及装置

技术领域

本申请涉及语音处理技术领域，尤其涉及一种语音对话检测方法及装置。

背景技术

检测语音对话的参与方是否存在插抢话行为，是语音对话检测的重要组成部分，广泛应用于电话作业、智能问答等场景。

目前常规的语音对话检测方法主要基于简单的检测规则判断语音对话的参与方是否存在插抢话行为，比如参与方A在参与方B未说完话的情况下回应，就判定参与方A存在插抢话行为。但是，这种检测方式只是单纯地“一刀切”，并不能准确检测复杂对话场景中的插抢话行为，例如在参与方A滔滔不绝地说话时，参与方B只是出于对参与方A的耐心和尊重才在参与方A未说完话的情况下回应，而并非真的插话或抢话参与方A。

发明内容

本申请实施例的目的是提供一种语音对话检测方法及装置，用于解决现有的语音对话检测方法的检测准确率低的问题。

为了实现上述目的，本申请实施例采用下述技术方案：

第一方面，本申请实施例提供一种语音对话检测方法，包括：

基于目标语音数据中的语音对话的对话相关信息及对话文本，对所述目标语音数据中的语音对话进行插抢话预检测，得到候选语音对话，其中，所述目标语音数据包括不同角色的说话人的语音对话，所述对话相关信息包括对话起止时间信息及说话人角色；

基于预设情绪识别模型对所述候选语音对话进行情绪识别，得到情绪识别结果；

基于所述情绪识别结果和所述候选语音对话的语音特征，确定所述候选语音对话是否存在插抢话行为。

第二方面，本申请实施例提供一种语音对话检测装置，包括：

第一确定模块，用于基于目标语音数据中的语音对话的对话相关信息及对话文本，对所述目标语音数据中的语音对话进行插抢话预检测，得到候选语音对话，其中，所述目标语音数据包括不同角色的说话人的语音对话，所述对话相关信息包括对话起止时间信息及说话人角色；

情绪识别模块，用于基于预设情绪识别模型对所述候选语音对话进行情绪识别，得到情绪识别结果；

第二确定模块，用于基于所述情绪识别结果和所述候选语音对话的语音特征，确定所述候选语音对话是否存在插抢话行为。

第三方面，本申请实施例提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如第一方面所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面所述的方法。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：

基于不同角色的说话人的语音对话的对话起止时间信息及说话人角色等对话相关信息及这些语音对话的对话文本，进行插抢话预检测，从不同角色的说话人的语音对话中确定疑似存在插抢话行为的候选语音对话；接着，利用预设情绪识别模型对候选语音对话进行情绪识别，得到语音对话的情绪识别结果，而后结合候选语音对话的情绪识别结果及语音特征，进一步确定候选语音对话是否存在插抢话行为，相较于单纯采用将“一方在另一方未说完话之前说话的行为判定为插抢话行为”这种“一刀切”的方式，可以避免将诸如一方出于对另一方的耐心和尊重而在另一方未说完话之前回应另一方等行为误判为插抢话行为，从而提高语音对话的检测准确率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请的一个实施例提供的一种语音对话检测方法的流程示意图；

图2为本申请的另一个实施例提供的一种语音对话检测方法的流程示意图；

图3为本申请的又一个实施例提供的一种语音对话检测方法的流程示意图；

图4为本申请的一个实施例提供的语音对话检测方法所适用的应用场景示意图；

图5为本申请的一个实施例提供的一种配置界面的示意图；

图6为本申请的另一个实施例提供的一种配置界面的示意图；

图7为本申请的一个实施例提供的一种语音对话检测装置的结构示意图；

图8为本申请的一个实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应理解，这样使用的数据在适当情况下可以互换，以便本申请实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，本说明书和权利要求书中“和/或”表示所连接的对象的至少其中之一，字符“/”一般表示前后关联对象是一种“或”的关系。

部分概念说明：

插抢话：参与对话的一方在另一方没有讲完话的情况下就开始讲话，从而打断了另一方的讲话。

智能客服质检系统：通过检测模型、检测算法等对语音、视频等数据的文本内容进行检测的系统，起到对客服的行为检测的作用，比如检测对话参与方是否存在插抢话行为，有利于提升客服服务质量。

自动语音识别技术(Automatic Speech Recognition，ASR)：是指从语音到文本的转换，即让计算机能够把人发出的有意义的话音变为书面语言。

为解决现有的语音对话检测方法的检测准确率低的问题，本申请实施例旨在提出一种语音对话检测方案，利用插抢话行为通常是一方在另一方还未说完话的情况下开始说话且说话并不会过于简短这一规律，先基于不同角色的说话人的语音对话的对话起止时间信息及说话人角色等对话相关信息及这些语音对话的对话文本，从这些语音对话中确定疑似存在插抢话行为的候选语音对话；接着，利用说话人在插抢话时通常表现为说话音量变大、情绪负面且激动等特点这一规律，通过对候选语音对话进行情绪识别，结合候选语音对话的情绪识别结果及语音特征，进一步确定候选语音对话是否存在插抢话行为，相较于单纯采用将“一方在另一方未说完话之前说话的行为判定为插抢话行为”这种“一刀切”的方式，可以避免将诸如一方出于对另一方的耐心和尊重在另一方未说完话之前回应另一方等行为误判为插抢话行为，从而提高语音对话的检测准确率。

应理解，本申请实施例提供的语音对话检测方法可以由电子设备执行或安装在电子设备中的软件执行，具体可以由终端设备或服务端设备执行。

以下结合附图，详细说明本申请各实施例提供的技术方案。

请参考图1，为本申请的一个实施例提供的一种语音对话检测方法的流程示意图，该方法可以包括如下步骤：

S102，基于目标语音数据中的语音对话的对话相关信息及对话文本，对目标语音数据中的语音对话进行插抢话预检测，得到候选语音对话。

其中，目标语音数据包括不同角色的说话人的语音对话。比如，在电话作业场景下，目标语音数据包括用户与客服之间的语音对话；又如，在视频会议场景下，目标语音数据包括不同会议参与者之间的语音对话，等等。

语音对话的对话相关信息包括语音对话的对话起止时间信息及说话人角色。其中，语音对话的起止时间信息包括语音对话的开始时间(也即说话人开始说话的时间)和结束时间(也即说话人停止说话的时间)。

语音对话的对话文本用于表示语音对话的对话内容。实际应用中，语音对话的对话文本可基于ASR技术对语音对话进行识别得到。

考虑到插抢话行为通常是一方在另一方还未说完话的情况下开始说话且说话不会过于简短，为此，可基于不同角色的说话人的语音对话的对话起止时间信息及说话人角色等对话相关信息及这些语音对话的对话文本，对不同角色的说话人的语音对话进行插抢话预检测，得到候选语音对话。

在一种可选的实现方式中，上述S102具体可实现为：若第一语音对话与第二语音对话各自的说话人角色不同，则基于第一语音对话的结束时间和第二语音对话的起始时间，确定第一语音对话与第二语音对话之间的交叉时长；若该交叉时长超过预设时长或者第二语音对话的对话文本包含的字符数超过预设字符数，则将第二语音对话确定为候选语音对话。其中，第一语音对话和第二语音对话为目标语音数据中任意相邻的两句语音对话，且第一语音对话的起始时间位于第二语音对话的起始时间之前。实际应用中，预设时长和预设字符数均可以根据实际需要进行设置，例如预设时长可以设置为3秒，预设字符数可以设置为5个字等。

更为具体地，第一语音对话与第二语音对话之间的交叉时长是指第二语音对话的起始时间位于第一语音对话的结束时间之前时，第一语音对话的结束时间与第二语音对话的起始时间之间的差值。例如，第一语音对话的结束时间为10240ms，第二语音对话的结束时间为5880ms，则第一语音对话与第二语音对话之间的交叉时长为4360ms。

对于目标语音数据包括多句语音对话的情况，为避免出现漏检，如图2所示，可按照各语音对话的起始时间从早到晚的顺序，依次对每句语音对话执行上述步骤，直到目标语音数据中的所有语音对话均判定完毕，也即，若第N(N为正整数)句语音对话与第N+1句语音对话之间的交叉时长超过预设时长或者第N+1句语音对话的对话文本包含的字符数超过预设字符数，则确定第N+1句语音为候选语音对话；否则，继续针对第N+1句语音对话和第N+2句语音对话，重复执行上述过程，直到目标语音数据中的所有语音对话均判定完毕。

示例地，以电话作业场景为例，假设目标语音数据包括客服和用户之间的如下语音对话：

假设在电话作业场景下，目标语音数据中的语音对话的对话相关信息及对话文本如下所示，由于在该场景下只需关注客服是否发生插抢话行为，因而只确定客服的语音对话是否发生插抢话行为。

{第1句语音对话：

开始时间：860ms

结束时间：4140ms

说话人角色：客服

对话文本：您好，XXX公司客服部，请问有什么能帮到您？

第2句语音对话：

开始时间：4760ms

结束时间：10240ms

说话人角色：用户

对话文本：你好，我叫张三，我之前在你们公司的APP上申请过X业务，查询下Y操作是否成功？

第3句语音对话：

开始时间：5880ms

结束时间：6320ms

说话人角色：客服

对话文本：嗯

第4句语音对话：

开始时间：10830ms

结束时间：13640ms

说话人角色：客服

对话文本：嗯。好的，张先生，请报一下您的手机号码

第5句语音对话：

开始时间：14640ms

结束时间：23270ms

说话人角色：用户

对话文本：喂，没听出你说啥，我是问我申请的X业务成功没有，我着急

第6句语音对话：

开始时间：15830ms

结束时间：20500ms

说话人角色：客服

对话文本：嗯，我说你报一下手机号码，怎么信号那么差

}

在如上所示的目标语音数据中，第1句语音对话之前不存在其他语音对话，因此判定第1句话不存在插抢话行为；第2句语音对话的说话人角色为用户，因而不对第2句话进行插抢话检测；第3句语音对话的说话人角色为坐席，不同于第2句语音对话的说话人角色，但第3句语音对话与第2句语音对话之间的交叉时长为4360ms，小于预设时长，且第3句语音对话的对话文本包含的字符数小于预设字符数，则确定第3句语音对话不存在插抢话行为；第4句语音对话的说话人角色与第3句语音对话的说话人角色相同，因而不对第4句话进行插抢话检测；第5句语音对话的说话人角色为用户，因而不对第5句话进行插抢话检测；第6句语音对话的说话人角色为坐席，不同于第5句语音对话的说话人角色，且第6句语音对话的对话文本包含的字符数超过预设字符数，则确定第6句语音对话为疑似存在插抢话行为的候选语音对话。

可以理解的是，充分考虑到实际对话场景中，在参与语音对话的一方滔滔不绝地说话时，另一方有时会出于耐心和尊重才在对方未说完话的情况下下回应，比如回应“嗯”、“好的”等客套话，并非是插抢话，如果单纯采用将“一方在另一方未说完话之前说话的行为判定为插抢话行为”这种“一刀切”的方式，就会将这类语音对话误判为存在插抢话行为，有鉴于此，基于说话人角色不同的两句语音对话之间的交叉时长及语音对话的对话文本包含的字符数，对不同角色的说话人的语音对话进行插抢话预检测，确定疑似存在插抢话行为的语音对话，具体在交叉时长较长或者对话文本中包含的字符数较多时，判定为语音对话存在插抢话行为，可以避免将上述语音对话误判为插抢话行为，有利于提高语音对话检测准确率。

可选地，考虑到实际对话场景中，对话参与方之间出于耐心、尊重和客套等，可能会在说话时加上一些客套词、寒暄词等，若这些词语过多，按照上述方式，可能会将这类客套语或寒暄语等误判为存在疑似插抢话行为，有鉴于此，为提高语音对话的检测准确率，如图3所示，在上述S102之前，本申请实施例提供的语音对话检测方法还可以包括：确定第二语音对话的对话文本是否包含预设词语，若第二语音对话的对话文本包含预设词语，则删除第二语音对话的对话文本中的预设词语。其中，预设词语可以根据实际需要进行设置，例如预设词语可以包括上述客套词、寒暄词等，本申请实施例对此不作限定。

本申请实施例中，第二语音对话的对话文本中是否包含预设词语，可通过任意适当的方式实现。在一种可选的实现方式中，确定第二语音对话的对话文本是否包含预设词语，具体可实现为：对第二语音对话的对话文本进行分词处理，得到第二语音对话的对话文本包含的词语；接着，将第二语音对话的对话文本包含的词语与预设词语库中的预设词语进行匹配，得到第二匹配结果；而后，基于第二匹配结果，确定第二语音对话的对话文本中是否包含预设词语。

示例地，可通过穷举预设词语的方式得到预设词语库。接着，利用正则匹配算法将第二语音对话的对话文本包含的词语与预设词语库中的预设词语进行匹配，若第二匹配结果指示第二语音对话的对话文本包含的词语与预设词语库中的预设词语之间的匹配程度值超过第二预设匹配程度值，则可确定第二语音对话的对话文本中包含预设词语。

可以理解的是，通过对第二语音对话的对话文本进行分词处理并与预设词语库中的预设词语进行匹配的方式，确定第二语音对话的对话文本中是否包含预设词语，准确率高，适用于预设词语库中的预设词语变化不大的场景。

在另一种可选的实现方式中，确定第二语音对话的对话文本是否包含预设词语，具体可实现为：将第二语音对话的对话文本输入预先训练的词语识别模型，得到第二语音对话的对话文本的词语识别结果，其中，词语识别结果用于指示第二语音对话的对话文本是否包含预设词语，更为具体地，词语识别结果用于指示第二语音对话的对话文本中的词语与一个或多个预设词语的相似度，相似度通常是在0到1之间的一个浮点数值，且数值越大说明相似度越高。词语识别模型是基于样本文本及样本文本包含的词语的词语标签进行模型训练得到的，词语的词语标签用于指示词语是否为预设词语。实际应用中，词语的词语标签可用独热编码表示，比如若词语的词语标签为[0,1]，则表示该词语不是预设词语；若词语的词语标签为[1,0]，则表示该词语是预设词语。示例地，样本文本为“嗯，好的”，其包含的词语包括{“嗯”、“好的”}，其中，“嗯”对应的词语标签为[1,0]，“好的”对应的词语标签也为[1,0]。当然，应理解的是，词语的词语标签还可以采用本领域常用的其他形式表示，本申请实施例对此不作限定。

需要说明的是，实际应用中，词语识别模型的类型可根据实际需要进行选择，例如词语识别模型可以为BERT模型，本申请实施例对此不作限定。

可以理解的是，利用样本文本及样本文本包含的词语的词语标签进行模型训练，使得训练得到的词语识别模型具备泛化识别能力，并且可以通过不断补充新的样本文本来不断提升词语识别模型的识别能力和精度；而后，基于训练好的词语识别模型对第二语音对话的对话文本进行识别，不仅实现简单，且可以准确识别第二语音对话的对话文本中是否包含客气词等预设词语。

本申请实施例在此示出了上述S102的一种具体实现方式。当然，应理解，上述S102也可以采用其他的方式实现，本申请实施例对此不作限定。

S104，基于预设情绪识别模型对候选语音对话进行情绪识别，得到情绪识别结果。

本申请实施例中，预设情绪识别模型是指预先训练好的、具有情绪识别能力的机器学习模型。具体而言，预设情绪识别模型可以是利用样本语音对话的情绪相关特征及样本语音对话对应的情绪标签进行训练得到的。其中，样本语音对话的情绪相关特征是指样本语音对话的能够表征说话人情绪的特征，比如样本语音对话的声谱图特征等，样本语音对话对应的情绪标签用于指示样本语音对话的情绪倾向，比如正向情绪或负向情绪。当然，可选地，样本语音对话对应的情绪倾向的倾向值，比如包括正向情绪值和负向情绪值，其中，若样本语音对话的正向情绪值越高，则表明样本语音对话越倾向于正向情绪，若样本语音对话的负向情绪值越高，则表明样本语音对话越倾向于负向情绪。需要说明的是，实际应用中，预设情绪识别模型的类型可根据实际需要进行选择，本申请实施例对此不作限定。

在上述S104中，可对候选语音特征进行特征提取，得到候选语音对话的情绪相关特征，而后将候选语音对话的情绪相关特征输入预设情绪识别模型，即可得到候选语音对话的情绪识别结果，该情绪识别结果用于表示候选语音对话的情绪倾向，更为具体地，该情绪识别结果还用于表示候选语音对话的情绪倾向的倾向值。

本申请实施例在此示出了上述S104的一种具体实现方式。当然，应理解，上述S104也可以采用其他的方式实现，本申请实施例对此不作限定。

S106，基于情绪识别结果和候选语音对话的语音特征，确定候选语音对话是否存在插抢话行为。

其中，候选语音对话的语音特征具体可以包括候选语音对话的声音特点的特征，具体可以包括但不限于如下特征中的至少一种：候选语音对话的音量、候选语音对话相较于第一关联语音对话的音量变化值，其中，第一关联语音对话的说话人角色与候选语音对话的说话人角色相同。例如，候选语音对话的说话人角色为客服，则第一关联语音对话可以为客服在候选语音对话之前输出的语音对话。

考虑到说话人在插抢话时通常表现出音量变大、情绪负面且激动等特点，基于此，结合候选语音对话的情绪识别结果和候选语音对话的语音特征，进一步确定候选语音对话是否存在插抢话行为，以提高语音对话的检测准确率。

在一种可选的实现方式中，如图3所示，上述S106具体可实现为：基于情绪识别结果和音量变化值，确定候选语音对话是否满足预设插抢话条件，若是，则确定候选语音对话存在插抢话行为。其中，预设插抢话条件包括候选语音对话的负向情绪值超过预设情绪阈值或者音量变化值超过预设音量值。实际应用中，预设情绪阈值和预设音量值均可以根据实际需要进行设置，本申请实施例对此不作限定。

示例地，仍以上述目标语音数据为例，在确定出第6句语音对话为候选语音对话后，由于该语音对话相对于第4句语音对话(第一关联语音对话)的音量变化值超过预设音量值，则可确定第6句语音对话存在插抢话行为。

可以理解的是，在候选语音对话的负向情绪值超过预设情绪阈值或者候选语音对话相对于第一关联语音对话的音量变化值超过预设音量阈值的情况下，判定候选语音对话存在插抢话行为，相较于单纯采用将“一方在另一方未说完话之前说话的行为判定为插抢话行为”这种“一刀切”的方式，可以避免将诸如一方出于对另一方的耐心和尊重在另一方未说完话之前回应另一方等行为误判为插抢话行为，有利于提高语音对话的检测准确率。

本申请实施例在此示出了上述S106的一种具体实现方式。当然，应理解，上述S106也可以采用其他的方式实现，本申请实施例对此不作限定。

可选地，考虑到实际对话场景中，可能出现对话双方或多方在有明显意图结束对话时，因其中一方突然提问等导致其他参与方在第一方讲话未结束时也开始说话，但其他参与方并非故意进行插抢话，为避免将此类行为误判为插抢话行为，如图3所示，在上述S106之前，本申请实施例的语音对话检测方法还可以包括：基于候选语音对话的第二关联语音对话和第三关联语音对话，确定候选语音对话是否满足预设免检条件；若候选语音对话不满足预设免检条件，则执行上述S106。进一步地，若候选语音对话满足预设免检条件，则确定候选语音对话不存在插抢话行为。其中，第二关联语音对话的说话人角色与候选语音对话的说话人角色不同。第三关联语音对话的说话人角色与候选语音对话的说话人角色不同。预设结束对话文本是指预先设置的、用于结束对话的标准文本，例如“感谢您的来电，再见”等。预设免检条件包括：第二关联语音对话的意图为结束对话、且第三关联语音对话的对话文本与预设结束对话文本之间的匹配程度值超过第一预设程度阈值。

本申请实施例中，预设免检条件可以根据实际需要进行设置，本申请实施例对此不作限定。可选地，为进一步提高插抢话检测准确率，预设免检条件可以包括：第二关联语音对话的意图为结束对话、且第三关联语音对话的对话文本与预设结束对话文本之间的匹配程度值超过第一预设程度阈值。

相应地，上述基于候选语音对话的第二关联语音对话和第三关联语音对话，确定候选语音对话是否满足预设免检条件，包括：基于预设意图识别模型和第二关联语音对话的对话文本，对第二关联语音对话进行意图识别，得到意图识别结果，并且，将第三关联语音对话的对话文本与预设结束对话文本进行匹配，得到第一匹配结果；而后，基于意图识别结果和第一匹配结果，确定候选语音对话是否满足预设免检条件。其中，第二关联语音对话的起始时间位于候选语音对话的起始时间之前，第三关联语音对话的起始时间位于第二关联语音对话的起始时间与候选语音对话的起始时间之间。

本申请实施例中，预设意图识别模型是指预先训练好的、具有意图识别能力的机器学习模型。具体而言，预设意图识别模型可以是利用样本对话文本的意图相关特征及样本对话文本对应的意图标签进行训练得到的，其中，样本对话文本的意图相关特征是指样本对话文本的能够表征说话人意图的特征，比如样本对话文本的词特征及句特征等，样本对话文本对应的意图标签用于指示样本对话文本的意图，比如表示样本对话文本的意图是否为结束对话。需要说明的是，实际应用中，预设意图识别模型的类型可根据实际需要进行选择，具体可根据实际需要进行选择，本申请实施例对此不作限定。

在对第二关联语音对话进行意图识别的过程中，可对第二关联语音对话的对话文本进行特征提取，得到第二关联语音对话的对话文本的意图相关特征，而后将第二关联语音对话的对话文本的意图相关特征输入预设意图识别模型，即可得到候选语音对话的意图，该意图用于表示候选语音对话的意图是否为结束对话。

例如，在语音通话场景中，主叫方与被叫方之间的语音对话如下：

{第1句语音对话：

开始时间：4760ms

结束时间：10240ms

说话人角色：主叫方

对话文本：好的，我知道了，没有其他问题了

第2句语音对话：

开始时间：10830ms

结束时间：13640ms

说话人角色：被叫方

对话文本：感谢您的来电，再见

第3句语音对话：

开始时间：13000ms

结束时间：23270ms

说话人角色：主叫方

对话文本：哎，对了，我突然想到个问题，我之前在你们公司的APP上申请过X业务，查询下Y操作是否成功？

第4句语音对话：

开始时间：15830ms

结束时间：20500ms

说话人角色：被叫方

对话文本：您请讲

}

在上述语音对话中，假设通过上述S102至S104确定出第4句话为候选语音对话，基于各语音对话的起止时间信息及说话人角色，可将第1句语音对话确定为第二关联语音对话，将第2句语音对话确定为第三关联语音对话，通过预设意图识别模型对该第二关联语音对话进行意图识别，可确定出该第二关联语音对话的意图为结束对话；通过将该第三关联语音对话的对话文本与预设结束对话文本进行匹配，可确定出该第三关联语音对话的对话文本与预设结束对话文本之间的匹配程度值超过预设第一预设程度阈值；进一步，可判定第4句语音对话属于对话双方在有明显意图结束对话时因主叫方突然提问等导致被叫方在主叫方讲话未结束时也开始说话的情况，进而确定第4句语音对话并非属于被叫方插抢话主叫方。

可以理解的是，在基于候选语音对话的情绪识别结果和语音特征，确定候选语音对话是否存在插抢话行为之前，先对其他角色的说话人之前的语音对话进行意图识别并对候选语音对话的说话人之前的语音对话与预设结束对话文本进行匹配，结合意图识别结果和匹配结果确定候选语音对话是否满足预设免检条件，再基于情绪识别结果和候选语音对话的语音特征，确定候选语音对话是否存在插抢话行为，可以避免将实际对话场景中的一些特殊情况误判为插抢话，比如在对话双方或多方在有明显意图结束对话时，因其中一方突然提问等导致其他参与方在第一方讲话未结束时也开始说话，但其他参与方并非故意进行插抢话，从而有利于提高语音对话的检测准确率。

本申请实施例提供的语音对话检测方法，先基于不同角色的说话人的语音对话的对话起止时间信息及说话人角色等对话相关信息及这些语音对话的对话文本，从不同角色的说话人的语音对话中确定疑似存在插抢话行为的候选语音对话；接着，利用预设情绪识别模型对候选语音对话进行情绪识别，得到语音对话的情绪识别结果，而后结合候选语音对话的情绪识别结果及语音特征，进一步确定候选语音对话是否存在插抢话行为，相较于单纯采用将“一方在另一方未说完话之前说话的行为判定为插抢话行为”这种“一刀切”的方式，可以避免将诸如一方出于对另一方的耐心和尊重在另一方未说完话之前回应另一方等行为误判为插抢话行为，从而提高语音对话的检测准确率。

本申请实施例的语音对话检测方法可用于多种需要进行插抢话检测的场景，例如包括但不限于电话作业、智能问答等场景。下面以电话作业场景为例，对本申请实施例提供的语音对话检测方法进行说明。

如图4所示，该场景涉及客户端10和智能客服质检系统20。其中，客户端10可展示配置界面，以供开发人员A进行质检规则配置，示例地，如图5所示，具体可以配置预设免检条件对应的规则1、插抢话预检测对应的规则2、二次插抢话检测对应的规则3以及排除插抢话字数较少情况对应的规则4等。更为具体地，预设免检条件对应的规则1可以包括上述第二关联语音对话的意图及第三关联语音对话所需满足的条件，插抢话预检测对应的规则2可以包括预设交叉时长、预设字符数以及抢话延时等(如图6所示)，二次插抢话检测对应的规则3可以包括用于进一步确定候选语音对话是否存在插抢话行为的预设情绪识别模型、预设意图识别模型等，排除插抢话字数较少情况对应的规则4可以包括预设字符数等等。

客户端10还可将开发人员A配置的质检规则发送给智能客服质检系统20，以供智能客服质检系统20使用。客户端10还可展示语音数据导入界面，以供具有语音对话质检需求的用户B通过语音数据导入界面导入需要检测的目标语音数据。而后，客户端10还将目标语音数据发送给智能客服质检系统20，并根据用户B输入的语音检测触发指令，向智能客服质检系统20发送针对目标语音数据的检测请求，以请求检测目标语音数据中存在插抢话行为的语音对话。

智能客服质检系统20可以包括一台服务器(Server)或者由多台服务器组成的服务器集群(Cluster)。智能客服质检系统20可基于预先配置的质检规则，执行上述本申请实施例所揭示的语音对话检测方法，确定目标语音数据中存在插抢话行为的语音对话并将检测结果返回给客户端10，由客户端10将检测结果展示给用户B，以供用户B基于检测结果采取相应措施提升客服质量。

具体而言，智能客服之间系统20可获取目标语音数据中各个语音对话的语音特征和对话相关信息(比如包括对话起止时间和说话人角色)，并基于ASR技术，将目标语音数据转换为相应的文本，得到各个语音对话的对话文本。接着，智能客服质检系统20先基于排除插抢话字数较少情况对应的规则4，排除目标语音数据中字数较少的语音对话，而后，基于目标语音数据中剩余的语音对话的对话相关信息及对话文本，根据插抢话预检测对应的规则2，对目标语音数据中的语音对话进行插抢话预检测，得到候选语音对话；接着，基于候选语音对话的第二关联语音对话和第三关联语音对话，确定候选语音对话是否满足预设免检条件，若是，则确定候选语音对话不存在插抢话行为；若否，则基于二次插抢话检测对应的规则3，调用预设情绪识别模型对候选语音对话进行情绪识别，得到情绪识别结果，以及基于情绪识别结果和候选语音对话的语音特征，确定候选语音对话是否存在插抢话行为。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

此外，与上述图1所示的语音对话检测方法相对应地，本申请实施例还提供一种语音对话检测装置。图7是本申请的一个语音对话检测装置的结构示意图。请参考图7，在一种软件实施方式中，语音对话检测装置700可以包括：

第一确定模块710，用于基于目标语音数据中的语音对话的对话相关信息及对话文本，对所述目标语音数据中的语音对话进行插抢话预检测，得到候选语音对话，其中，所述目标语音数据包括不同角色的说话人的语音对话，所述对话相关信息包括对话起止时间信息及说话人角色；

情绪识别模块720，用于基于预设情绪识别模型对所述候选语音对话进行情绪识别，得到情绪识别结果；

第二确定模块730，用于基于所述情绪识别结果和所述候选语音对话的语音特征，确定所述候选语音对话是否存在插抢话行为。

本申请实施例提供的语音对话检测装置，先基于不同角色的说话人的语音对话的对话起止时间信息及说话人角色等对话相关信息及这些语音对话的对话文本，进行插抢话预检测，从不同角色的说话人的语音对话中确定疑似存在插抢话行为的候选语音对话；接着，利用预设情绪识别模型对候选语音对话进行情绪识别，得到语音对话的情绪识别结果，而后结合候选语音对话的情绪识别结果及语音特征，进一步确定候选语音对话是否存在插抢话行为，相较于单纯采用将“一方在另一方未说完话之前说话的行为判定为插抢话行为”这种“一刀切”的方式，可以避免将诸如一方出于对另一方的耐心和尊重在另一方未说完话之前回应另一方等行为误判为插抢话行为，从而提高语音对话的检测准确率。

可选地，所述情绪识别结果包括所述候选语音对话的负向情绪值；

所述候选语音对话的语音特征包括所述候选语音对话相对于第一关联语音对话的音量变化值，所述第一关联语音对话的说话人角色与所述候选语音对话的说话人角色相同；

所述第二确定模块包括：

第一插抢话判断子模块，用于若所述候选语音对话的负向情绪值超过预设情绪阈值或者所述音量变化值超过预设音量值，则确定所述候选语音对话存在插抢话行为。

可选地，所述装置还包括：

免检识别模块，用于在所述第二确定模块基于所述情绪识别结果和所述候选语音对话的语音特征，确定所述候选语音对话是否存在插抢话行为之前，基于所述候选语音对话的第二关联语音对话和第三关联语音对话，确定所述候选语音对话是否满足预设免检条件，其中，所述第二关联语音对话的说话人角色与所述候选语音对话的说话人角色不同，所述第三关联语音对话的说话人角色与所述候选语音对话的说话人角色不同；

所述第二确定模块，用于若所述候选语音对话不满足所述预设免检条件，则基于所述情绪识别结果和所述候选语音对话的语音特征，确定所述候选语音对话是否存在插抢话行为。

可选地，所述预设免检条件包括所述第二关联语音对话的意图为结束对话、且所述第三关联语音对话的对话文本与预设结束对话文本之间的匹配程度值超过第一预设程度阈值；

所述免检识别模块包括：

意图识别子模块，用于基于预设意图识别模型和所述第二关联语音对话的对话文本，对所述第二关联语音对话进行意图识别，得到所述第二关联语音对话的意图识别结果，其中，所述第二关联语音对话的起始时间位于所述候选语音对话的起始时间之前；

匹配子模块，用于将所述第三关联语音对话的对话文本与预设结束对话文本进行匹配，得到第一匹配结果，其中，所述第三关联语音对话的起始时间位于所述第二关联语音对话的起始时间与所述候选语音对话的起始时间之间；

免检识别子模块，用于基于所述意图识别结果和所述第一匹配结果，确定所述候选语音对话是否满足所述预设免检条件。

可选地，所述第二确定模块，用于在基于所述候选语音对话的第二关联语音对话和所述第三关联语音对话，确定所述候选语音对话是否满足预设免检条件之后，若所述候选语音对话满足所述预设免检条件，则确定所述候选语音对话不存在插抢话行为。

可选地，所述第一确定模块包括：

交叉时长确定子模块，用于若第一语音对话与第二语音对话各自的说话人角色不同，则基于所述第一语音对话的结束时间和所述第二语音对话的起始时间，确定所述第一语音对话与所述第二语音对话之间的交叉时长，其中，所述第一语音对话和所述第二语音对话为所述目标语音数据中任意相邻的两句语音对话，且所述第一语音对话的起始时间位于所述第二语音对话的起始时间之前；

候选语音对话确定子模块，用于若所述交叉时长超过预设时长或者所述第二语音对话的对话文本包含的字符数超过预设字符数，则将所述第二语音对话确定为所述候选语音对话。

可选地，所述装置还包括：

第三确定模块，用于在所述第一确定模块基于目标语音数据中的语音对话的对话相关信息及对话文本，对所述目标语音数据中的语音对话进行插抢话预检测，得到候选语音对话之前，确定所述第二语音对话的对话文本是否包含预设词语；

删除模块，用于若所述第二语音对话的对话文本包含预设词语，则删除所述第二语音对话的对话文本中的预设词语。

可选地，所述第三确定模块包括：

分词子模块，用于对所述第二语音对话的对话文本进行分词处理，得到所述第二语音对话的对话文本包含的词语；

匹配子模块，用于将所述第二语音对话的对话文本包含的词语与预设词语库中的预设词语进行匹配，得到第二匹配结果；

第一词语确定子模块，用于基于所述第二匹配结果，确定所述第二语音对话的对话文本中是否包含预设词语。

可选地，所述第三确定模块包括：

第二词语确定子模块，用于将所述第二语音对话的对话文本输入预先训练的词语识别模型，得到所述第二语音对话的对话文本的词语识别结果，其中，所述词语识别结果用于指示对应的对话文本是否包含预设词语，所述词语识别模型是基于样本文本及所述样本文本包含的词语的词语标签进行模型训练得到的，词语的词语标签用于指示词语是否为预设词语。

显然，本申请实施例的语音对话检测方法可以作为上述图1所示的语音对话检测装置的执行主体，因此能够实现语音对话检测方法在图1所实现的功能。由于原理相同，在此不再重复说明。

图8是本申请的一个实施例电子设备的结构示意图。请参考图8，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成语音对话检测装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

基于目标语音数据中的语音对话的对话相关信息及对话文本，对所述目标语音数据中的语音对话进行插抢话预检测，得到候选语音对话，其中，所述目标语音数据包括不同角色的说话者的语音对话，所述对话相关信息包括对话起止时间信息及说话人角色；

上述如本申请图1所示实施例揭示的语音对话检测装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图1的方法，并实现语音对话检测装置在图1所示实施例的功能，本申请实施例在此不再赘述。

当然，除了软件实现方式之外，本申请的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图1所示实施例的方法，并具体用于执行以下操作：

总之，以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种语音对话检测方法，其特征在于，包括：

基于目标语音数据中的语音对话的对话相关信息及对话文本，对所述目标语音数据中的语音对话进行插抢话预检测，得到候选语音对话，其中，所述目标语音数据包括不同角色的说话人的语音对话，所述对话相关信息包括对话起止时间信息及说话人角色，所述候选语音对话属于一个角色的说话人；

基于预设情绪识别模型对所述候选语音对话进行情绪识别，得到情绪识别结果，所述情绪识别结果包括所述候选语音对话的负向情绪值；

基于所述情绪识别结果和所述候选语音对话的音量变化值，确定所述候选语音对话是否存在插抢话行为；其中，

若所述候选语音对话的负向情绪值超过预设情绪阈值或者所述候选语音对话相对于第一关联语音对话的音量变化值超过预设音量值，确定所述候选语音对话存在插抢话行为，所述第一关联语音对话的说话人角色与所述候选语音对话的说话人角色相同。

2.根据权利要求1所述的方法，其特征在于，在确定所述候选语音对话是否存在插抢话行为之前，所述方法还包括：

基于所述候选语音对话的第二关联语音对话和第三关联语音对话，确定所述候选语音对话是否满足预设免检条件，其中，所述第二关联语音对话的说话人角色与所述候选语音对话的说话人角色不同，所述第三关联语音对话的说话人角色与所述候选语音对话的说话人角色不同；

所述基于所述情绪识别结果和所述候选语音对话的音量变化值，确定所述候选语音对话是否存在插抢话行为，包括：

若所述候选语音对话不满足所述预设免检条件，则基于所述情绪识别结果和所述候选语音对话的音量变化值，确定所述候选语音对话是否存在插抢话行为。

3.根据权利要求2所述的方法，其特征在于，所述预设免检条件包括所述第二关联语音对话的意图为结束对话、且所述第三关联语音对话的对话文本与预设结束对话文本之间的匹配程度值超过第一预设程度阈值；

所述基于所述候选语音对话的第二关联语音对话和所述第三关联语音对话，确定所述候选语音对话是否满足预设免检条件，包括：

基于预设意图识别模型和所述第二关联语音对话的对话文本，对所述第二关联语音对话进行意图识别，得到所述第二关联语音对话的意图识别结果其中，所述第二关联语音对话的起始时间位于所述候选语音对话的起始时间之前；

将所述第三关联语音对话的对话文本与预设结束对话文本进行匹配，得到第一匹配结果，其中，所述第三关联语音对话的起始时间位于所述第二关联语音对话的起始时间与所述候选语音对话的起始时间之间；

基于所述意图识别结果和所述第一匹配结果，确定所述候选语音对话是否满足所述预设免检条件。

4.根据权利要求2所述的方法，其特征在于，在基于所述候选语音对话的第二关联语音对话和所述第三关联语音对话，确定所述候选语音对话是否满足预设免检条件之后，所述方法还包括：

若所述候选语音对话满足所述预设免检条件，则确定所述候选语音对话不存在插抢话行为。

5.根据权利要求1所述的方法，其特征在于，所述基于目标语音数据中的语音对话的对话相关信息及对话文本，对所述目标语音数据中的语音对话进行插抢话预检测，得到候选语音对话，包括：

若第一语音对话与第二语音对话各自的说话人角色不同，则基于所述第一语音对话的结束时间和所述第二语音对话的起始时间，确定所述第一语音对话与所述第二语音对话之间的交叉时长，其中，所述第一语音对话和所述第二语音对话为所述目标语音数据中任意相邻的两句语音对话，且所述第一语音对话的起始时间位于所述第二语音对话的起始时间之前；

若所述交叉时长超过预设时长或者所述第二语音对话的对话文本包含的字符数超过预设字符数，则将所述第二语音对话确定为所述候选语音对话。

6.根据权利要求5所述的方法，其特征在于，在基于目标语音数据中的语音对话的对话相关信息及对话文本，对所述目标语音数据中的语音对话进行插抢话预检测，所述方法还包括：

确定所述第二语音对话的对话文本是否包含预设词语；

若所述第二语音对话的对话文本包含预设词语，则删除所述第二语音对话的对话文本中的预设词语。

7.根据权利要求6所述的方法，其特征在于，所述确定所述第二语音对话的对话文本是否包含预设词语，包括：

对所述第二语音对话的对话文本进行分词处理，得到所述第二语音对话的对话文本包含的词语；

将所述第二语音对话的对话文本包含的词语与预设词语库中的预设词语进行匹配，得到第二匹配结果；

基于所述第二匹配结果，确定所述第二语音对话的对话文本中是否包含预设词语。

8.根据权利要求6所述的方法，其特征在于，所述确定所述第二语音对话的对话文本是否包含预设词语，包括：

将所述第二语音对话的对话文本输入预先训练的词语识别模型，得到所述第二语音对话的对话文本的词语识别结果，其中，所述词语识别结果用于指示对应的对话文本是否包含预设词语，所述词语识别模型是基于样本文本及所述样本文本包含的词语的词语标签进行模型训练得到的，词语的词语标签用于指示词语是否为预设词语。

9.一种语音对话检测装置，其特征在于，包括：

第一确定模块，用于基于目标语音数据中的语音对话的对话相关信息及对话文本，对所述目标语音数据中的语音对话进行插抢话预检测，得到候选语音对话，其中，所述目标语音数据包括不同角色的说话人的语音对话，所述对话相关信息包括对话起止时间信息及说话人角色，所述候选语音对话属于一个角色的说话人；

情绪识别模块，用于基于预设情绪识别模型对所述候选语音对话进行情绪识别，得到情绪识别结果，所述情绪识别结果包括所述候选语音对话的负向情绪值；

第二确定模块，用于基于所述情绪识别结果和所述候选语音对话的音量变化值，确定所述候选语音对话是否存在插抢话行为；其中，若所述候选语音对话的负向情绪值超过预设情绪阈值或者所述候选语音对话相对于第一关联语音对话的音量变化值超过预设音量值，确定所述候选语音对话存在插抢话行为，所述第一关联语音对话的说话人角色与所述候选语音对话的说话人角色相同。

10.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至8中任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至8中任一项所述的方法。