CN113345437B

CN113345437B - 语音打断方法及装置

Info

Publication number: CN113345437B
Application number: CN202110898951.5A
Authority: CN
Inventors: 冯鑫; 张韶峰
Original assignee: Bairong Yunchuang Technology Co ltd
Current assignee: Bairong Yunchuang Technology Co ltd
Priority date: 2021-08-06
Filing date: 2021-08-06
Publication date: 2021-10-29
Anticipated expiration: 2041-08-06
Also published as: CN113345437A

Abstract

本申请公开一种语音打断方法及装置，涉及自然语言处理技术领域。本申请的方法包括：接收通话音频；基于目标人声检测模块检测通话音频中是否包含人声音频；若包含，则基于目标自动语音识别模块判断人声音频对应的文本内容是否为目标打断词，其中，目标打断词为多个预设打断词中的任意一个；若是，则根据目标打断词、目标自然语言理解模块和目标文字转语音模块生成目标打断回复语音，并向目标移动通信运营商发送目标打断回复语音，以便目标移动通信运营商停止播放目标回复语音，并播放目标打断回复语音；若否，则向目标移动通信运营商发送停止播放指令，以便目标移动通信运营商停止播放目标回复语音。

Description

语音打断方法及装置

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种语音打断方法及装置。

背景技术

随着人工智能技术的不断发展，智能语音技术也得到了迅速发展。应用智能语音技术的软交换智能语音交互系统能够替代移动通信运营商客服与客户进行多轮对话，其中，软交换智能语音交互系统包含软交换子系统和智能语音子系统，移动通信运营商在接收到客户发出的待回复语音后，将待回复语音发送至软交换子系统，由软交换子系统将待回复语音发送至智能语音子系统，智能语音子系统在基于自动语音识别模块、自然语言理解模块、对话管理模块、自然语言生成模块和文字转语音模块，生成待回复语音对应的回复语音后，将回复语音发送至软交换子系统，由软交换子系统将回复语音发送至移动通信运营商，再由移动通信运营商为客户播放回复语音。

为了提高客户的用户体验，软交换智能语音交互系统需要具备语音打断功能，即在移动通信运营商为客户播放回复语音的过程中，当客户发出打断语音时，软交换智能语音交互系统需要控制移动通信运营商停止播放回复语音，其中，软交换智能语音交互系统实现语音打断功能的具体方式为：移动通信运营商在为客户播放回复语音的过程中，实时采集通话音频，并将采集得到的通话音频发送至软交换子系统，由软交换子系统将通话音频发送至智能语音子系统，智能语音子系统在基于人声检测模块对通话音频进行检测后，将检测结果发送至软件换子系统，当软交换子系统根据检测结果确定通话音频中包含人声音频（即客户发出打断语音）时，软交换子系统向移动通信运营商发送停止播放指令，以便移动通信运营商停止播放回复语音；由于，通常情况下，软交换子系统与智能语音子系统部署在不同的服务器中，从而使得软交换子系统与智能语音子系统需要采用网络通信方式进行通信，因此，软交换子系统与智能语音子系统进行通信时，存在网络传输延迟，从而使得软交换智能语音交互系统无法及时控制移动通信运营商停止播放回复语音，进而导致客户的用户体验较差。

发明内容

本申请实施例提供一种语音打断方法及装置，主要目的在于当客户发出打断语音时，软交换智能语音交互系统及时控制移动通信运营商停止播放回复语音，从而提高客户的用户体验。

为解决上述技术问题，本申请实施例提供如下技术方案：

第一方面，本申请提供了一种语音打断方法，该方法应用于软交换子系统，包括：

接收通话音频，其中，所述通话音频为目标移动通信运营商为目标客户播放目标回复语音过程中，所述目标移动通信运营商采集获得的音频；

基于目标人声检测模块检测所述通话音频中是否包含人声音频，其中，所述目标人声检测模块为预先集成在所述软交换子系统中的功能模块；

若包含，则基于目标自动语音识别模块判断所述人声音频对应的文本内容是否为目标打断词，其中，所述目标自动语音识别模块为预先集成在所述软交换子系统中的功能模块，所述目标打断词为多个预设打断词中的任意一个；

若是，则根据所述目标打断词、目标自然语言理解模块和目标文字转语音模块生成目标打断回复语音，并向所述目标移动通信运营商发送所述目标打断回复语音，以便所述目标移动通信运营商停止播放所述目标回复语音，并播放所述目标打断回复语音，其中，所述目标自然语言理解模块和所述目标文字转语音模块为预先集成在所述软交换子系统中的功能模块；

若否，则向所述目标移动通信运营商发送停止播放指令，以便所述目标移动通信运营商停止播放所述目标回复语音。

可选的，所述目标自动语音识别模块包含预置声学模型、预置语言模型和预置识别词网络；所述基于目标自动语音识别模块判断所述人声音频对应的文本内容是否为目标打断词，包括：

将所述人声音频输入至所述目标自动语音识别模块中，以便所述目标自动语音识别模块基于所述预置声学模型、所述预置语言模型和所述预置识别词网络对所述人声音频进行语音识别；

若所述目标自动语音识别模块输出所述目标打断词，则确定所述人声音频对应的文本内容为所述目标打断词；

若所述目标自动语音识别模块未输出所述目标打断词，则确定所述人声音频对应的文本内容并非为所述目标打断词。

可选的，所述目标自然语言理解模块包含每个所述预设打断词与其对应的预设打断回复文本之间的第一映射关系，所述目标文字转语音模块包含每个所述预设打断回复文本与其对应的预设打断回复语音之间的第二映射关系；所述根据所述目标打断词、目标自然语言理解模块和目标文字转语音模块生成目标打断回复语音，包括：

将所述目标打断词输入至所述目标自然语言理解模块中，以便所述目标自然语言理解模块根据所述目标打断词和所述第一映射关系，输出所述目标打断词对应的目标打断回复文本；

将所述目标打断回复文本输入至所述目标文字转语音模块中，以便所述目标文字转语音模块根据所述目标打断回复文本和所述第二映射关系，输出所述目标打断回复语音。

可选的，在所述接收通话音频之前，所述方法还包括：

获取第一训练样本集，其中，所述第一训练样本集包含多个第一训练样本和多个第二训练样本，所述第一训练样本包括：任意一个所述预设打断词和所述预设打断词对应的语音，所述第二训练样本包括：不包含任意所述预设打断词的训练文本和所述训练文本对应的语音；

使用所述第一训练样本集对第一预置模型进行训练，直至达到第一预设训练停止条件，以获得所述预置声学模型；

获取第二训练样本集，其中，所述第二训练样本集包含多个所述预设打断词和多个其他词语，其中，所述其他词语为与所述预设打断词相关的词语；

使用所述第二训练样本集对第二预置模型进行训练，直至达到第二预设训练停止条件，以获得所述预置语言模型；

根据每个所述预设打断词对应的字间关系建立所述预置识别词网络。

可选的，所述第一预置模型具体为：GMM－HMM模型，所述第二预置模型具体为：N-Gram模型。

第二方面，本申请还提供一种语音打断装置，该装置应用于软交换子系统，包括：

接收单元，用于接收通话音频，其中，所述通话音频为目标移动通信运营商为目标客户播放目标回复语音过程中，所述目标移动通信运营商采集获得的音频；

检测单元，用于基于目标人声检测模块检测所述通话音频中是否包含人声音频，其中，所述目标人声检测模块为预先集成在所述软交换子系统中的功能模块；

判断单元，用于当所述检测单元检测出所述通话音频中包含人声音频时，基于目标自动语音识别模块判断所述人声音频对应的文本内容是否为目标打断词，其中，所述目标自动语音识别模块为预先集成在所述软交换子系统中的功能模块，所述目标打断词为多个预设打断词中的任意一个；

生成单元，用于当所述判断单元判定所述人声音频对应的文本内容为目标打断词时，根据所述目标打断词、目标自然语言理解模块和目标文字转语音模块生成目标打断回复语音，其中，所述目标自然语言理解模块和所述目标文字转语音模块为预先集成在所述软交换子系统中的功能模块；

第一发送单元，用于向所述目标移动通信运营商发送所述目标打断回复语音，以便所述目标移动通信运营商停止播放所述目标回复语音，并播放所述目标打断回复语音；

第二发送单元，用于当所述判断单元判定所述人声音频对应的文本内容并非为目标打断词时，向所述目标移动通信运营商发送停止播放指令，以便所述目标移动通信运营商停止播放所述目标回复语音。

可选的，所述目标自动语音识别模块包含预置声学模型、预置语言模型和预置识别词网络；所述判断单元包括：

第一输入模块，用于将所述人声音频输入至所述目标自动语音识别模块中，以便所述目标自动语音识别模块基于所述预置声学模型、所述预置语言模型和所述预置识别词网络对所述人声音频进行语音识别；

第一确定模块，用于当所述目标自动语音识别模块输出所述目标打断词时，确定所述人声音频对应的文本内容为所述目标打断词；

第二确定模块，用于当所述目标自动语音识别模块未输出所述目标打断词时，确定所述人声音频对应的文本内容并非为所述目标打断词。

可选的，所述目标自然语言理解模块包含每个所述预设打断词与其对应的预设打断回复文本之间的第一映射关系，所述目标文字转语音模块包含每个所述预设打断回复文本与其对应的预设打断回复语音之间的第二映射关系；所述生成单元包括：

第二输入模块，用于将所述目标打断词输入至所述目标自然语言理解模块中，以便所述目标自然语言理解模块根据所述目标打断词和所述第一映射关系，输出所述目标打断词对应的目标打断回复文本；

第三输入模块，用于将所述目标打断回复文本输入至所述目标文字转语音模块中，以便所述目标文字转语音模块根据所述目标打断回复文本和所述第二映射关系，输出所述目标打断回复语音。

可选的，所述装置还包括：

第一获取单元，用于在所述接收单元接收通话音频之前，获取第一训练样本集，其中，所述第一训练样本集包含多个第一训练样本和多个第二训练样本，所述第一训练样本包括：任意一个所述预设打断词和所述预设打断词对应的语音，所述第二训练样本包括：不包含任意所述预设打断词的训练文本和所述训练文本对应的语音；

第一训练单元，用于使用所述第一训练样本集对第一预置模型进行训练，直至达到第一预设训练停止条件，以获得所述预置声学模型；

第二获取单元，用于获取第二训练样本集，其中，所述第二训练样本集包含多个所述预设打断词和多个其他词语，其中，所述其他词语为与所述预设打断词相关的词语；

第二训练单元，用于使用所述第二训练样本集对第二预置模型进行训练，直至达到第二预设训练停止条件，以获得所述预置语言模型；

建立单元，用于根据每个所述预设打断词对应的字间关系建立所述预置识别词网络。

第三方面，本申请的实施例提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行第一方面所述的语音打断方法。

第四方面，本申请的实施例提供了一种语音打断装置，所述装置包括存储介质；及一个或者多个处理器，所述存储介质与所述处理器耦合，所述处理器被配置为执行所述存储介质中存储的程序指令；所述程序指令运行时执行第一方面所述的语音打断方法。

借由上述技术方案，本申请提供的技术方案至少具有下列优点：

本申请提供一种语音打断方法及装置，本申请能够在软交换子系统接收得到目标移动通信运营商发送的通话音频后，由软交换子系统基于目标人声检测模块检测通话音频中是否包含人声音频，即确定目标客户是否在目标移动通信运营商播放目标回复语音的过程中，发出打断语音；软交换子系统在基于目标人声检测模块检测出通话音频中包含人声音频后，便可从通话音频中提取人声音频（即目标客户发出的打断语音），并基于目标自动语音识别模块判断人声音频对应的文本内容是否为目标打断词，并在判定人声音频对应的文本内容为目标打断词时，根据目标打断词、目标自然语言理解模块和目标文字转语音模块生成目标打断回复语音，并向目标移动通信运营商发送目标打断回复语音，以便目标移动通信运营商在接收到目标打断回复语音后，可以及时停止播放目标回复语音，并播放目标打断回复语音，以及在判定人声音频对应的文本内容并非为目标打断词时，向目标移动通信运营商发送停止播放指令，以便目标移动通信运营商在接收到停止播放指令后，可以及时停止播放目标回复语音。由于，目标人声检测模块为预先集成在软交换子系统中的功能模块，因此，软交换子系统在接收到目标移动通信运营商发送的通话音频后，基于自身包含的目标人声检测模块便可检测通话音频中是否包含人声音频，不存在网络传输延迟，从而当目标客户发出打断语音时，可以及时控制目标移动通信运营商停止播放目标回复语音，进而可以提高目标客户的用户体验；并且，当目标客户发出的打断语音具体为某个预设打断词时，软交换子系统基于自身包含的目标自动语音识别模块、目标自然语言理解模块和目标文字转语音模块，可以生成相应的目标打断回复语音，并控制目标移动通信运营商在停止播放目标回复语音的基础上，播放目标打断回复语音，从而可以进一步提高目标客户的用户体验。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过参考附图阅读下文的详细描述，本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本申请的若干实施方式，相同或对应的标号表示相同或对应的部分，其中：

图1示出了本申请实施例提供的一种语音打断方法流程图；

图2示出了本申请实施例提供的另一种语音打断方法流程图；

图3示出了本申请实施例提供的一种语音打断装置的组成框图；

图4示出了本申请实施例提供的另一种语音打断装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施方式。虽然附图中显示了本申请的示例性实施方式，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。

本申请实施例提供一种语音打断方法，具体如图1所示，该方法应用于软交换子系统，该方法包括：

101、接收通话音频。

其中，通话音频即为目标移动通信运营商在为目标客户播放目标回复语音过程中，目标移动通信运营商采集获得的音频；其中，目标移动通信运营商具体可以为任意移动通信运营商，目标客户即为正在与目标移动通信运营商进行多轮对话的客户。

在本申请实施例中，目标移动通信运营商在接收到目标客户发出的待回复语音后，便会将待回复语音发送至软交换子系统，由软交换子系统将待回复语音发送至智能语音子系统，智能语音子系统在基于自动语音识别模块、自然语言理解模块、对话管理模块、自然语言生成模块和文字转语音模块，生成待回复语音对应的目标回复语音后，便会将目标回复语音发送至软交换子系统，由软交换子系统将目标回复语音发送至目标移动通信运营商，再由目标移动通信运营商为目标客户播放目标回复语音；目标移动通信运营商在为目标客户播放目标回复语音的过程中，会实时采集与目标客户的通话音频，并将采集得到的通话音频发送至软交换子系统，此时，软交换子系统便可接收得到目标移动通信运营商发送的通话音频。

102、基于目标人声检测模块检测通话音频中是否包含人声音频。

其中，目标人声检测模块为预先集成在软交换子系统中的功能模块，目标人声检测模块具体可以为：VAD（Voice Activity Detection，语音活动检测）模块。

在本申请实施例中，软交换子系统在接收得到目标移动通信运营商发送的通话音频后，便可基于目标人声检测模块检测通话音频中是否包含人声音频，即确定目标客户是否在目标移动通信运营商播放目标回复语音的过程中，发出打断语音。

具体的，在本步骤中，软交换子系统在将接收得到的通话音频输入至目标人声检测模块中后，目标人声检测模块便可基于预置算法对通话音频进行人声检测，从而确定通话音频中是否包含人声音频，其中，预置算法可以但不限于为：能量阈值算法、时域参数算法、声域参数算法等等。

103、若包含，则基于目标自动语音识别模块判断人声音频对应的文本内容是否为目标打断词。

其中，目标自动语音识别模块为预先集成在软交换子系统中的功能模块，目标打断词为多个预设打断词中的任意一个，多个预设打断词可以但不限于为：停止、暂停、结束、不想听了、不要说了等等，目标自动语音识别模块与智能语音子系统中的自动语音识别模块不同：为了保证识别复杂通话语音的准确率，智能语音子系统中的自动语音识别模块基于模型结构复杂的DNN-HMM模型对通话语音进行语音识别；而目标自动语音识别模块用于判断通话音频中包含的人声音频对应的文本内容是否为某个预设打断词，因此，目标自动语音识别模块仅需具备对只包含预设打断词的人声音频进行语音识别的能力便可，从而使得目标自动语音识别模块可以基于模型结构简单的声学模型对人声音频进行语音识别。

在本申请实施例中，软交换子系统在基于目标人声检测模块检测出通话音频中包含人声音频，即确定目标客户在目标移动通信运营商播放目标回复语音的过程中，发出打断语音后，便可从通话音频中提取人声音频（即目标客户发出的打断语音），并基于目标自动语音识别模块判断人声音频对应的文本内容是否为某个预设打断词（即目标打断词），即基于目标自动语音识别模块对人声音频进行语音识别，并根据语音识别结果判断人声音频对应的文本内容是否为目标打断词。

需要进行说明的是，当软交换子系统基于目标人声检测模块未检测出通话音频中包含人声音频，即确定目标客户在目标移动通信运营商播放目标回复语音的过程中，未发出打断语音时，软交换子系统无需执行任何操作，从而保证目标移动通信运营商继续为目标客户播放目标回复语音。

104a、若是，则根据目标打断词、目标自然语言理解模块和目标文字转语音模块生成目标打断回复语音，并向目标移动通信运营商发送目标打断回复语音，以便目标移动通信运营商停止播放目标回复语音，并播放目标打断回复语音。

其中，目标自然语言理解模块和目标文字转语音模块为预先集成在软交换子系统中的功能模块。

在本申请实施例中，当基于目标自动语音识别模块判定通话音频中包含的人声音频对应的文本内容为目标打断词时，软交换子系统便可根据目标打断词、目标自然语言理解模块和目标文字转语音模块生成目标打断回复语音，并向目标移动通信运营商发送目标打断回复语音，以便目标移动通信运营商在接收到目标打断回复语音后，可以及时停止播放目标回复语音，并播放目标打断回复语音，从而提高目标客户的用户体验。

对于本申请实施例，与步骤104a并列的104b、若否，则向目标移动通信运营商发送停止播放指令，以便目标移动通信运营商停止播放目标回复语音。

在本申请实施例中，当基于目标自动语音识别模块判定通话音频中包含的人声音频对应的文本内容并非为目标打断词时，软交换子系统便可向目标移动通信运营商发送停止播放指令，以便目标移动通信运营商在接收到停止播放指令后，可以及时停止播放目标回复语音。

本申请实施例提供一种语音打断方法，本申请实施例能够在软交换子系统接收得到目标移动通信运营商发送的通话音频后，由软交换子系统基于目标人声检测模块检测通话音频中是否包含人声音频，即确定目标客户是否在目标移动通信运营商播放目标回复语音的过程中，发出打断语音；软交换子系统在基于目标人声检测模块检测出通话音频中包含人声音频后，便可从通话音频中提取人声音频（即目标客户发出的打断语音），并基于目标自动语音识别模块判断人声音频对应的文本内容是否为目标打断词，并在判定人声音频对应的文本内容为目标打断词时，根据目标打断词、目标自然语言理解模块和目标文字转语音模块生成目标打断回复语音，并向目标移动通信运营商发送目标打断回复语音，以便目标移动通信运营商在接收到目标打断回复语音后，可以及时停止播放目标回复语音，并播放目标打断回复语音，以及在判定人声音频对应的文本内容并非为目标打断词时，向目标移动通信运营商发送停止播放指令，以便目标移动通信运营商在接收到停止播放指令后，可以及时停止播放目标回复语音。由于，目标人声检测模块为预先集成在软交换子系统中的功能模块，因此，软交换子系统在接收到目标移动通信运营商发送的通话音频后，基于自身包含的目标人声检测模块便可检测通话音频中是否包含人声音频，不存在网络传输延迟，从而当目标客户发出打断语音时，可以及时控制目标移动通信运营商停止播放目标回复语音，进而可以提高目标客户的用户体验；并且，当目标客户发出的打断语音具体为某个预设打断词时，软交换子系统基于自身包含的目标自动语音识别模块、目标自然语言理解模块和目标文字转语音模块，可以生成相应的目标打断回复语音，并控制目标移动通信运营商在停止播放目标回复语音的基础上，播放目标打断回复语音，从而可以进一步提高目标客户的用户体验。

以下为了更加详细地说明，本申请实施例提供了另一种语音打断方法，具体如图2所示，该方法应用于软交换子系统，该方法包括：

201、接收通话音频。

其中，关于步骤201、接收通话音频，可以参考图1对应部分的描述，本发明实施例此处将不再赘述。

202、基于目标人声检测模块检测通话音频中是否包含人声音频。

其中，关于步骤202、基于目标人声检测模块检测通话音频中是否包含人声音频，可以参考图1对应部分的描述，本发明实施例此处将不再赘述。

203、若包含，则基于目标自动语音识别模块判断人声音频对应的文本内容是否为目标打断词。

在本申请实施例中，软交换子系统在基于目标人声检测模块检测出通话音频中包含人声音频，即确定目标客户在目标移动通信运营商播放目标回复语音的过程中，发出打断语音后，便可从通话音频中提取人声音频（即目标客户发出的打断语音），并基于目标自动语音识别模块判断人声音频对应的文本内容是否为目标打断词，即基于目标自动语音识别模块对人声音频进行语音识别，并根据语音识别结果判断人声音频对应的文本内容是否为目标打断词。

具体的，在本步骤中，软交换子系统可以通过以下方式基于目标自动语音识别模块判断人声音频对应的文本内容是否为目标打断词：

其中，目标自动语音识别模块包含预置声学模型、预置语言模型和预置识别词网络。

（1）将人声音频输入至目标自动语音识别模块中，以便目标自动语音识别模块基于预置声学模型、预置语言模型和预置识别词网络对人声音频进行语音识别，其中，当人声音频中只包含目标打断词时，目标自动语音识别模块基于预置声学模型、预置语言模型和预置识别词网络对人声音频进行语音识别，能够将人声音频转换为文本内容（即目标打断词），而当人声音频中不包含目标打断词，或包含目标打断词和其他词语时，目标自动语音识别模块基于预置声学模型、预置语言模型和预置识别词网络对人声音频进行语音识别，无法将人声音频转为文本内容；

（2a）当目标自动语音识别模块输出目标打断词（即目标自动语音识别模块基于预置声学模型、预置语言模型和预置识别词网络将人声音频转换为文本内容）时，便可确定人声音频对应的文本内容为目标打断词；

（2b）当目标自动语音识别模块未输出目标打断词（即目标自动语音识别模块基于预置声学模型、预置语言模型和预置识别词网络无法将人声音频转换为文本内容）时，确定人声音频对应的文本内容为复杂文本，而并非为目标打断词。

进一步的，在本申请实施例中，需要预先训练预置声学模型和预置语言模型，以及预先建立预置识别词网络，其中，训练预置声学模型和预置语言模型，以及建立预置识别词网络的步骤具体如下：

（1）获取第一训练样本集，其中，第一训练样本集包含多个第一训练样本和多个第二训练样本，第一训练样本包括：任意一个预设打断词和该预设打断词对应的语音，第二训练样本包括：不包含任意预设打断词的训练文本和该训练文本对应的语音；使用第一训练样本集对第一预置模型进行训练，直至达到第一预设训练停止条件，从而获得预置声学模型，其中，第一预置模型具体为：GMM－HMM模型，第一预设训练停止条件可以但不限于为：当前训练轮数达到第一预设轮数阈值或当前训练时长达到第一预设时长阈值，第一预设轮数阈值可以但不限于为：10轮、20轮、30轮等等，第一预设时长阈值可以但不限于为：1小时、5小时、10小时等等；其中，在使用第一训练样本集对第一预置模型进行训练时，可以采用现有的GMM－HMM模型训练方法对第一预置模型进行训练，本申请实施例对此不再进行赘述。

（2）获取第二训练样本集，其中，第二训练样本集包含多个预设打断词和多个其他词语（为与预设打断词相关的词语）；使用第二训练样本集对第二预置模型进行训练，直至达到第二预设训练停止条件，从而获得预置语言模型，其中，第二预置模型具体为：N-Gram模型，第二预设训练停止条件可以但不限于为：当前训练轮数达到第二预设轮数阈值或当前训练时长达到第二预设时长阈值，第二预设轮数阈值可以但不限于为：10轮、20轮、30轮等等，第二预设时长阈值可以但不限于为：1小时、5小时、10小时等等；其中，在使用第二训练样本集对第二预置模型进行训练时，可以采用现有的N-Gram模型训练方法对第二预置模型进行训练，本申请实施例对此不再进行赘述。

（3）根据每个预设打断词对应的字间关系，建立预置识别词网络，从而使得目标自动语音识别模块基于预置识别词网络对人声音频进行语音识别时，能够根据每个预设打断词对应的字间关系，约束转换得到的文本内容对应的字间关系，从而提高目标自动语音识别模块识别人声音频的准确率。

需要进行说明的是，由于，无意义的语气助词并不会改变目标打断词的本义，因此，为了进一步提高目标自动语音识别模块识别人声音频的准确率，可以对预置声学模型、预置语言模型和预置识别词网络进行优化调整，从而使得当人声音频中包含目标打断词和无意义的语气助词时，目标自动语音识别模块基于预置声学模型、预置语言模型和预置识别词网络对人声音频进行语音识别，能够将人声音频转换为文本内容（即目标打断词）。

204a、若是，则根据目标打断词、目标自然语言理解模块和目标文字转语音模块生成目标打断回复语音。

在本申请实施例中，当基于目标自动语音识别模块判定通话音频中包含的人声音频对应的文本内容为目标打断词时，软交换子系统便可根据目标打断词、目标自然语言理解模块和目标文字转语音模块生成目标打断回复语音。

具体的，在本步骤中，软交换子系统可以通过以下方式根据目标打断词、目标自然语言理解模块和目标文字转语音模块生成目标打断回复语音：

其中，目标自然语言理解模块包含每个预设打断词与其对应的预设打断回复文本之间的第一映射关系；目标文字转语音模块包含每个预设打断回复文本与其对应的预设打断回复语音之间的第二映射关系。

（1）将目标打断词输入至目标自然语言理解模块中，以便目标自然语言理解模块根据目标打断词和第一映射关系，输出目标打断词对应的目标打断回复文本，即目标自然语言理解模块根据目标打断词在第一映射关系中查找目标打断词对应的目标打断回复文本，并输出查找到的目标打断回复文本；

（2）将目标打断词对应的目标打断回复文本输入至目标文字转语音模块中，以便目标文字转语音模块根据目标打断回复文本和第二映射关系，输出目标打断回复文本对应的目标打断回复语音，即目标文字转语音模块根据目标打断回复文本在第二映射关系中查找目标打断回复文本对应的目标打断回复语音，并输出查找到的目标打断回复语音。

205a、向目标移动通信运营商发送目标打断回复语音，以便目标移动通信运营商停止播放目标回复语音，并播放目标打断回复语音。

其中，关于步骤205a、向目标移动通信运营商发送目标打断回复语音，以便目标移动通信运营商停止播放目标回复语音，并播放目标打断回复语音，可以参考图1对应部分的描述，本发明实施例此处将不再赘述。

对于本申请实施例，与步骤204a并列的204b、若否，则向目标移动通信运营商发送停止播放指令，以便目标移动通信运营商停止播放目标回复语音。

其中，关于步骤204b、若否，则向目标移动通信运营商发送停止播放指令，以便目标移动通信运营商停止播放目标回复语音，可以参考图1对应部分的描述，本发明实施例此处将不再赘述。

为了实现上述目的，根据本申请的另一方面，本申请实施例还提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述所述的语音打断方法。

为了实现上述目的，根据本申请的另一方面，本申请实施例还提供了一种语音打断装置，所述装置包括存储介质；及一个或者多个处理器，所述存储介质与所述处理器耦合，所述处理器被配置为执行所述存储介质中存储的程序指令；所述程序指令运行时执行上述所述的语音打断方法。

进一步的，作为对上述图1及图2所示方法的实现，本申请另一实施例还提供了一种语音打断装置，该装置应用于软交换子系统。该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置应用于当客户发出打断语音时，软交换智能语音交互系统及时控制移动通信运营商停止播放回复语音，从而提高客户的用户体验，具体如图3所示，该装置包括：

接收单元301，用于接收通话音频，其中，所述通话音频为目标移动通信运营商为目标客户播放目标回复语音过程中，所述目标移动通信运营商采集获得的音频；

检测单元302，用于基于目标人声检测模块检测所述通话音频中是否包含人声音频，其中，所述目标人声检测模块为预先集成在所述软交换子系统中的功能模块；

判断单元303，用于当检测单元302检测出所述通话音频中包含人声音频时，基于目标自动语音识别模块判断所述人声音频对应的文本内容是否为目标打断词，其中，所述目标自动语音识别模块为预先集成在所述软交换子系统中的功能模块，所述目标打断词为多个预设打断词中的任意一个；

生成单元304，用于当判断单元303判定所述人声音频对应的文本内容为目标打断词时，根据所述目标打断词、目标自然语言理解模块和目标文字转语音模块生成目标打断回复语音，其中，所述目标自然语言理解模块和所述目标文字转语音模块为预先集成在所述软交换子系统中的功能模块；

第一发送单元305，用于向所述目标移动通信运营商发送所述目标打断回复语音，以便所述目标移动通信运营商停止播放所述目标回复语音，并播放所述目标打断回复语音；

第二发送单元306，用于当判断单元303判定所述人声音频对应的文本内容并非为目标打断词时，向所述目标移动通信运营商发送停止播放指令，以便所述目标移动通信运营商停止播放所述目标回复语音。

进一步的，如图4所示，所述目标自动语音识别模块包含预置声学模型、预置语言模型和预置识别词网络；判断单元303包括：

第一输入模块3031，用于将所述人声音频输入至所述目标自动语音识别模块中，以便所述目标自动语音识别模块基于所述预置声学模型、所述预置语言模型和所述预置识别词网络对所述人声音频进行语音识别；

第一确定模块3032，用于当所述目标自动语音识别模块输出所述目标打断词时，确定所述人声音频对应的文本内容为所述目标打断词；

第二确定模块3033，用于当所述目标自动语音识别模块未输出所述目标打断词时，确定所述人声音频对应的文本内容并非为所述目标打断词。

进一步的，如图4所示，所述目标自然语言理解模块包含每个所述预设打断词与其对应的预设打断回复文本之间的第一映射关系，所述目标文字转语音模块包含每个所述预设打断回复文本与其对应的预设打断回复语音之间的第二映射关系；生成单元304包括：

第二输入模块3041，用于将所述目标打断词输入至所述目标自然语言理解模块中，以便所述目标自然语言理解模块根据所述目标打断词和所述第一映射关系，输出所述目标打断词对应的目标打断回复文本；

第三输入模块3042，用于将所述目标打断回复文本输入至所述目标文字转语音模块中，以便所述目标文字转语音模块根据所述目标打断回复文本和所述第二映射关系，输出所述目标打断回复语音。

进一步的，如图4所示，该装置还包括：

第一获取单元307，用于在接收单元301接收通话音频之前，获取第一训练样本集，其中，所述第一训练样本集包含多个第一训练样本和多个第二训练样本，所述第一训练样本包括：任意一个所述预设打断词和所述预设打断词对应的语音，所述第二训练样本包括：不包含任意所述预设打断词的训练文本和所述训练文本对应的语音；

第一训练单元308，用于使用所述第一训练样本集对第一预置模型进行训练，直至达到第一预设训练停止条件，以获得所述预置声学模型；

第二获取单元309，用于获取第二训练样本集，其中，所述第二训练样本集包含多个所述预设打断词和多个其他词语，其中，所述其他词语为与所述预设打断词相关的词语；

第二训练单元310，用于使用所述第二训练样本集对第二预置模型进行训练，直至达到第二预设训练停止条件，以获得所述预置语言模型；

建立单元311，用于根据每个所述预设打断词对应的字间关系建立所述预置识别词网络。

进一步的，如图4所示，所述第一预置模型具体为：GMM－HMM模型，所述第二预置模型具体为：N-Gram模型。

本申请实施例提供一种语音打断方法及装置，本申请实施例能够在软交换子系统接收得到目标移动通信运营商发送的通话音频后，由软交换子系统基于目标人声检测模块检测通话音频中是否包含人声音频，即确定目标客户是否在目标移动通信运营商播放目标回复语音的过程中，发出打断语音；软交换子系统在基于目标人声检测模块检测出通话音频中包含人声音频后，便可从通话音频中提取人声音频（即目标客户发出的打断语音），并基于目标自动语音识别模块判断人声音频对应的文本内容是否为目标打断词，并在判定人声音频对应的文本内容为目标打断词时，根据目标打断词、目标自然语言理解模块和目标文字转语音模块生成目标打断回复语音，并向目标移动通信运营商发送目标打断回复语音，以便目标移动通信运营商在接收到目标打断回复语音后，可以及时停止播放目标回复语音，并播放目标打断回复语音，以及在判定人声音频对应的文本内容并非为目标打断词时，向目标移动通信运营商发送停止播放指令，以便目标移动通信运营商在接收到停止播放指令后，可以及时停止播放目标回复语音。由于，目标人声检测模块为预先集成在软交换子系统中的功能模块，因此，软交换子系统在接收到目标移动通信运营商发送的通话音频后，基于自身包含的目标人声检测模块便可检测通话音频中是否包含人声音频，不存在网络传输延迟，从而当目标客户发出打断语音时，可以及时控制目标移动通信运营商停止播放目标回复语音，进而可以提高目标客户的用户体验；并且，当目标客户发出的打断语音具体为某个预设打断词时，软交换子系统基于自身包含的目标自动语音识别模块、目标自然语言理解模块和目标文字转语音模块，可以生成相应的目标打断回复语音，并控制目标移动通信运营商在停止播放目标回复语音的基础上，播放目标打断回复语音，从而可以进一步提高目标客户的用户体验。

所述语音打断装置包括处理器和存储器，上述接收单元、检测单元、判断单元、生成单元、第一发送单元和第二发送单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来当客户发出打断语音时，软交换智能语音交互系统及时控制移动通信运营商停止播放回复语音，从而提高客户的用户体验。

本申请实施例提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述所述的语音打断方法。

存储介质可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本申请实施例还提供了一种语音打断装置，所述装置包括存储介质；及一个或者多个处理器，所述存储介质与所述处理器耦合，所述处理器被配置为执行所述存储介质中存储的程序指令；所述程序指令运行时执行上述所述的语音打断方法。

本申请实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：

进一步的，所述目标自动语音识别模块包含预置声学模型、预置语言模型和预置识别词网络；所述基于目标自动语音识别模块判断所述人声音频对应的文本内容是否为目标打断词，包括：

进一步的，所述目标自然语言理解模块包含每个所述预设打断词与其对应的预设打断回复文本之间的第一映射关系，所述目标文字转语音模块包含每个所述预设打断回复文本与其对应的预设打断回复语音之间的第二映射关系；所述根据所述目标打断词、目标自然语言理解模块和目标文字转语音模块生成目标打断回复语音，包括：

进一步的，在所述接收通话音频之前，所述方法还包括：

进一步的，所述第一预置模型具体为：GMM－HMM模型，所述第二预置模型具体为：N-Gram模型。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：接收通话音频，其中，所述通话音频为目标移动通信运营商为目标客户播放目标回复语音过程中，所述目标移动通信运营商采集获得的音频；基于目标人声检测模块检测所述通话音频中是否包含人声音频，其中，所述目标人声检测模块为预先集成在所述软交换子系统中的功能模块；若包含，则基于目标自动语音识别模块判断所述人声音频对应的文本内容是否为目标打断词，其中，所述目标自动语音识别模块为预先集成在所述软交换子系统中的功能模块，所述目标打断词为多个预设打断词中的任意一个；若是，则根据所述目标打断词、目标自然语言理解模块和目标文字转语音模块生成目标打断回复语音，并向所述目标移动通信运营商发送所述目标打断回复语音，以便所述目标移动通信运营商停止播放所述目标回复语音，并播放所述目标打断回复语音，其中，所述目标自然语言理解模块和所述目标文字转语音模块为预先集成在所述软交换子系统中的功能模块；若否，则向所述目标移动通信运营商发送停止播放指令，以便所述目标移动通信运营商停止播放所述目标回复语音。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种语音打断方法，其特征在于，所述方法应用于软交换子系统，包括：

接收通话音频，其中，所述通话音频为目标移动通信运营商为目标客户播放目标回复语音过程中，所述目标移动通信运营商采集获得的、所述目标客户侧的音频，所述目标客户为正在与所述目标移动通信运营商进行多轮对话的客户；

2.根据权利要求1所述的方法，其特征在于，所述目标自动语音识别模块包含预置声学模型、预置语言模型和预置识别词网络；所述基于目标自动语音识别模块判断所述人声音频对应的文本内容是否为目标打断词，包括：

3.根据权利要求1所述的方法，其特征在于，所述目标自然语言理解模块包含每个所述预设打断词与其对应的预设打断回复文本之间的第一映射关系，所述目标文字转语音模块包含每个所述预设打断回复文本与其对应的预设打断回复语音之间的第二映射关系；所述根据所述目标打断词、目标自然语言理解模块和目标文字转语音模块生成目标打断回复语音，包括：

4.根据权利要求2所述的方法，其特征在于，在所述接收通话音频之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述第一预置模型具体为：GMM－HMM模型，所述第二预置模型具体为：N-Gram模型。

6.一种语音打断装置，其特征在于，所述装置应用于软交换子系统，包括：

接收单元，用于接收通话音频，其中，所述通话音频为目标移动通信运营商为目标客户播放目标回复语音过程中，所述目标移动通信运营商采集获得的、所述目标客户侧的音频，所述目标客户为正在与所述目标移动通信运营商进行多轮对话的客户；

7.根据权利要求6所述的装置，其特征在于，所述目标自动语音识别模块包含预置声学模型、预置语言模型和预置识别词网络；所述判断单元包括：

8.根据权利要求6所述的装置，其特征在于，所述目标自然语言理解模块包含每个所述预设打断词与其对应的预设打断回复文本之间的第一映射关系，所述目标文字转语音模块包含每个所述预设打断回复文本与其对应的预设打断回复语音之间的第二映射关系；所述生成单元包括：

9.根据权利要求7所述的装置，其特征在于，所述装置还包括：

10.根据权利要求9所述的装置，其特征在于，所述第一预置模型具体为：GMM－HMM模型，所述第二预置模型具体为：N-Gram模型。

11.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至5中任一项所述的语音打断方法。

12.一种语音打断装置，其特征在于，所述装置包括存储介质；及一个或者多个处理器，所述存储介质与所述处理器耦合，所述处理器被配置为执行所述存储介质中存储的程序指令；所述程序指令运行时执行权利要求1至5中任一项所述的语音打断方法。