CN113506573A

CN113506573A - 生成回复语音的方法及装置

Info

Publication number: CN113506573A
Application number: CN202110898954.9A
Authority: CN
Inventors: 冯鑫; 张韶峰
Original assignee: Bairong Yunchuang Technology Co ltd
Current assignee: Bairong Yunchuang Technology Co ltd
Priority date: 2021-08-06
Filing date: 2021-08-06
Publication date: 2021-10-15
Anticipated expiration: 2041-08-06
Also published as: CN113506573B

Abstract

本申请公开一种生成回复语音的方法及装置，涉及自然语言处理技术领域。本申请的方法包括：接收待回复语音；基于目标自动语音识别模块判断待回复语音对应的文本内容是否为目标特定词，其中，目标自动语音识别模块为预先集成在软交换子系统中的功能模块，目标特定词为多个预设肯定词和多个预设否定词中的任意一个；若是，则根据目标特定词、目标自然语言理解模块和目标文字转语音模块生成待回复语音对应的回复语音，其中，目标自然语言理解模块和目标文字转语音模块为预先集成在软交换子系统中的功能模块；若否，则将待回复语音发送至智能语音子系统中，以便智能语音子系统生成待回复语音对应的回复语音。

Description

生成回复语音的方法及装置

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种生成回复语音的方法及装置。

背景技术

随着人工智能技术的不断发展，智能语音技术也得到了迅速发展。应用智能语音技术的软交换智能语音交互系统能够替代移动通信运营商客服与客户进行多轮对话，其中，软交换智能语音交互系统包含软交换子系统和智能语音子系统，移动通信运营商在接收到客户发出的通话语音后，将该通话语音发送至软交换子系统，以便软交换子系统将该通话语音发送至智能语音子系统，智能语音子系统在基于自动语音识别模块、自然语言理解模块、对话管理模块、自然语言生成模块和文字转语音模块，生成该通话语音对应的回复语音后，将该回复语音发送至软交换子系统，由软交换子系统将该回复语音发送至移动通信运营商，再由移动通信运行商将该回复语音反馈给客户，从而完成本轮对话。

为了保证识别复杂通话语音的准确率，智能语音子系统中的自动语音识别模块通常基于DNN-HMM（深度神经网络-隐马尔科夫）模型对通话语音进行语音识别，从而将通话语音转换为文本内容，然而，基于DNN-HMM模型对通话语音进行语音识别，耗费的时间较长；并且，通常情况下，软交换子系统与智能语音子系统部署在不同的服务器中，从而使得软交换子系统与智能语音子系统需要采用网络通信方式进行通信，因此，软交换子系统与智能语音子系统进行通信时，存在网络传输延迟。因此，现有的软交换智能语音交互系统在生成回复语音时，耗费的时间较长，从而导致客户的用户体验较差。

发明内容

本申请实施例提供一种生成回复语音的方法及装置，主要目的在于提高软交换智能语音交互系统生成回复语音的效率，从而提高客户的用户体验。

为解决上述技术问题，本申请实施例提供如下技术方案：

第一方面，本申请提供了一种生成回复语音的方法，该方法应用于软交换子系统，包括：

接收待回复语音；

基于目标自动语音识别模块判断所述待回复语音对应的文本内容是否为目标特定词，其中，所述目标自动语音识别模块为预先集成在所述软交换子系统中的功能模块，所述目标特定词为多个预设肯定词和多个预设否定词中的任意一个；

若是，则根据所述目标特定词、目标自然语言理解模块和目标文字转语音模块生成所述待回复语音对应的回复语音，其中，所述目标自然语言理解模块和所述目标文字转语音模块为预先集成在所述软交换子系统中的功能模块；

若否，则将所述待回复语音发送至智能语音子系统中，以便所述智能语音子系统生成所述待回复语音对应的回复语音。

可选的，所述目标自动语音识别模块包含预置声学模型、预置语言模型和预置识别词网络；所述基于目标自动语音识别模块判断所述待回复语音对应的文本内容是否为目标特定词，包括：

将所述待回复语音输入至所述目标自动语音识别模块中，以便所述目标自动语音识别模块基于所述预置声学模型、所述预置语言模型和所述预置识别词网络对所述待回复语音进行语音识别；

若所述目标自动语音识别模块输出所述目标特定词，则确定所述待回复语音对应的文本内容为所述目标特定词；

若所述目标自动语音识别模块未输出所述目标特定词，则确定所述待回复语音对应的文本内容并非为所述目标特定词。

可选的，所述目标自然语言理解模块包含每个所述预设肯定词与其对应的预设回复文本之间的第一映射关系、每个所述预设否定词与其对应的预设回复文本之间的第二映射关系，所述目标文字转语音模块包含每个所述预设回复文本与其对应的回复语音之间的第三映射关系；所述根据所述目标特定词、目标自然语言理解模块和目标文字转语音模块生成所述待回复语音对应的回复语音，包括：

将所述目标特定词输入至所述目标自然语言理解模块中，以便所述目标自然语言理解模块根据所述目标特定词、所述第一映射关系和所述第二映射关系，输出所述目标特定词对应的预设回复文本；

将所述目标特定词对应的预设回复文本输入至所述目标文字转语音模块中，以便所述目标文字转语音模块根据所述目标特定词对应的预设回复文本和所述第三映射关系，输出所述待回复语音对应的回复语音。

可选的，在所述接收待回复语音之前，所述方法还包括：

获取第一训练样本集，其中，所述第一训练样本集包含多个第一训练样本、多个第二训练样本和多个第三训练样本，所述第一训练样本包括：任意一个所述预设肯定词和所述预设肯定词对应的语音，所述第二训练样本包括：任意一个所述预设否定词和所述预设否定词对应的语音，所述第三训练样本包括：不包含任意所述预设肯定词和任意所述预设否定词的训练文本和所述训练文本对应的语音；

使用所述第一训练样本集对第一预置模型进行训练，直至达到第一预设训练停止条件，以获得所述预置声学模型；

获取第二训练样本集，其中，所述第二训练样本集包含多个所述预设肯定词、多个所述预设否定词和多个其他词语，所述其他词语为与所述预设肯定词或所述预设否定词相关的词语；

使用所述第二训练样本集对第二预置模型进行训练，直至达到第二预设训练停止条件，以获得所述预置语言模型；

根据每个所述预设肯定词对应的字间关系和每个所述预设否定词对应的字间关系，建立所述预置识别词网络。

可选的，所述第一预置模型具体为：GMM－HMM模型，所述第二预置模型具体为：N-Gram模型。

第二方面，本申请还提供一种生成回复语音的装置，该装置应用于软交换子系统，包括：

接收单元，用于接收待回复语音；

判断单元，用于基于目标自动语音识别模块判断所述待回复语音对应的文本内容是否为目标特定词，其中，所述目标自动语音识别模块为预先集成在所述软交换子系统中的功能模块，所述目标特定词为多个预设肯定词和多个预设否定词中的任意一个；

生成单元，用于当所述判断单元判定所述待回复语音对应的文本内容为所述目标特定词时，根据所述目标特定词、目标自然语言理解模块和目标文字转语音模块生成所述待回复语音对应的回复语音，其中，所述目标自然语言理解模块和所述目标文字转语音模块为预先集成在所述软交换子系统中的功能模块；

发送单元，用于当所述判断单元判定所述待回复语音对应的文本内容并非为所述目标特定词时，将所述待回复语音发送至智能语音子系统中，以便所述智能语音子系统生成所述待回复语音对应的回复语音。

可选的，所述目标自动语音识别模块包含预置声学模型、预置语言模型和预置识别词网络；所述判断单元包括：

第一输入模块，用于将所述待回复语音输入至所述目标自动语音识别模块中，以便所述目标自动语音识别模块基于所述预置声学模型、所述预置语言模型和所述预置识别词网络对所述待回复语音进行语音识别；

第一确定模块，用于当所述目标自动语音识别模块输出所述目标特定词时，确定所述待回复语音对应的文本内容为所述目标特定词；

第二确定模块，用于当所述目标自动语音识别模块未输出所述目标特定词时，确定所述待回复语音对应的文本内容并非为所述目标特定词。

可选的，所述目标自然语言理解模块包含每个所述预设肯定词与其对应的预设回复文本之间的第一映射关系、每个所述预设否定词与其对应的预设回复文本之间的第二映射关系，所述目标文字转语音模块包含每个所述预设回复文本与其对应的回复语音之间的第三映射关系；所述生成单元包括：

第二输入模块，用于将所述目标特定词输入至所述目标自然语言理解模块中，以便所述目标自然语言理解模块根据所述目标特定词、所述第一映射关系和所述第二映射关系，输出所述目标特定词对应的预设回复文本；

第三输入模块，用于将所述目标特定词对应的预设回复文本输入至所述目标文字转语音模块中，以便所述目标文字转语音模块根据所述目标特定词对应的预设回复文本和所述第三映射关系，输出所述待回复语音对应的回复语音。

可选的，所述装置还包括：

第一获取单元，用于在所述接收单元接收待回复语音之前，获取第一训练样本集，其中，所述第一训练样本集包含多个第一训练样本、多个第二训练样本和多个第三训练样本，所述第一训练样本包括：任意一个所述预设肯定词和所述预设肯定词对应的语音，所述第二训练样本包括：任意一个所述预设否定词和所述预设否定词对应的语音，所述第三训练样本包括：不包含任意所述预设肯定词和任意所述预设否定词的训练文本和所述训练文本对应的语音；

第一训练单元，用于使用所述第一训练样本集对第一预置模型进行训练，直至达到第一预设训练停止条件，以获得所述预置声学模型；

第二获取单元，用于获取第二训练样本集，其中，所述第二训练样本集包含多个所述预设肯定词、多个所述预设否定词和多个其他词语，所述其他词语为与所述预设肯定词或所述预设否定词相关的词语；

第二训练单元，用于使用所述第二训练样本集对第二预置模型进行训练，直至达到第二预设训练停止条件，以获得所述预置语言模型；

建立单元，用于根据每个所述预设肯定词对应的字间关系和每个所述预设否定词对应的字间关系，建立所述预置识别词网络。

第三方面，本申请的实施例提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行第一方面所述的生成回复语音的方法。

第四方面，本申请的实施例提供了一种生成回复语音的装置，所述装置包括存储介质；及一个或者多个处理器，所述存储介质与所述处理器耦合，所述处理器被配置为执行所述存储介质中存储的程序指令；所述程序指令运行时执行第一方面所述的生成回复语音的方法。

借由上述技术方案，本申请提供的技术方案至少具有下列优点：

本申请提供一种生成回复语音的方法及装置，本申请能够在软交换子系统接收到移动通信运营商发送的待回复语音后，由软交换子系统基于目标自动语音识别模块判断待回复语音对应的文本内容是否为目标特定词，并在判定待回复语音对应的文本内容为目标特定词时，根据目标特定词、目标自然语言理解模块和目标文字转语音模块生成待回复语音对应的回复语音，以及在判定待回复语音对应的文本内容并非为目标特定词时，将待回复语音发送至智能语音子系统中，以便由智能语音子系统生成待回复语音对应的回复语音。由于，目标自动语音识别模块、目标自然语言理解模块和目标文字转语音模块为预先集成在软交换子系统中的功能模块，并且，目标自动语音识别模块基于模型结构简单的声学模型对只包含目标特定词的待回复语音进行语音识别时，耗费的时间较短，因此，当待回复语音为只包含目标特定词的语音时，软交换子系统基于目标自动语音识别模块、目标自然语言理解模块和目标文字转语音模块便可快速生成该待回复语音对应的回复语音，从而可以提高软交换智能语音交互系统生成回复语音的效率，进而可以提高客户的用户体验。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过参考附图阅读下文的详细描述，本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本申请的若干实施方式，相同或对应的标号表示相同或对应的部分，其中：

图1示出了本申请实施例提供的一种生成回复语音的方法流程图；

图2示出了本申请实施例提供的另一种生成回复语音的方法流程图；

图3示出了本申请实施例提供的一种生成回复语音的装置的组成框图；

图4示出了本申请实施例提供的另一种生成回复语音的装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施方式。虽然附图中显示了本申请的示例性实施方式，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。

本申请实施例提供一种生成回复语音的方法，具体如图1所示，该方法应用于软交换子系统，该方法包括：

101、接收待回复语音。

其中，待回复语音即为客户与移动通信运营商进行多轮对话过程中，发出的通话语音。

在本申请实施例中，移动通信运营商在接收到客户发出的通话语音（即待回复语音）后，便会将待回复语音发送至软交换子系统，此时，软交换子系统便可接收得到移动通信运营商发送的待回复语音。

102、基于目标自动语音识别模块判断待回复语音对应的文本内容是否为目标特定词。

其中，目标特定词为多个预设肯定词和多个预设否定词中的任意一个，多个预设肯定词可以但不限于为：好的、对、没问题、是的等等，多个预设否定词可以但不限于为：不对、不行、有问题等等；目标自动语音识别模块为预先集成在软交换子系统中的功能模块，目标自动语音识别模块与智能语音子系统中的自动语音识别模块不同：为了保证识别复杂通话语音的准确率，智能语音子系统中的自动语音识别模块基于模型结构复杂的DNN-HMM模型对通话语音进行语音识别；而目标自动语音识别模块用于判断待回复语音对应的文本内容是否为某个预设肯定词或某个预设否定词（即判断待回复语音对应的文本内容是否为目标特定词），因此，目标自动语音识别模块仅需具备对只包含目标特定词的待回复语音进行语音识别的能力便可，从而使得目标自动语音识别模块可以基于模型结构简单的声学模型对待回复语音进行语音识别，由于，与基于模型结构复杂的DNN-HMM模型对通话语音进行语音识别相比，基于模型结构简单的声学模型对待回复语音进行语音识别，可以有效减少语音识别过程中的计算量，因此，可以有效减少对待回复语音进行语音识别所耗费的时间。

在本申请实施例中，软交换子系统在接收得到移动通信运营商发送的待回复语音后，便可基于目标自动语音识别模块对待回复语音进行语音识别，并根据语音识别结果判断待回复语音对应的文本内容是否为某个预设肯定词或某个预设否定词，即判断待回复语音对应的文本内容是否为目标特定词。

103a、若是，则根据目标特定词、目标自然语言理解模块和目标文字转语音模块生成待回复语音对应的回复语音。

其中，目标自然语言理解模块和目标文字转语音模块为预先集成在软交换子系统中的功能模块。

在本申请实施例中，当基于目标自动语音识别模块判断待回复语音对应的文本内容为目标特定词时，软交换子系统便可根据目标特定词、目标自然语言理解模块和目标文字转语音模块生成待回复语音对应的回复语音，从而无需将待回复语音发送至智能语音子系统中，由智能语音子系统生成待回复语音对应的回复语音。

对于本申请实施例，与步骤103a并列的103b、若否，则将待回复语音发送至智能语音子系统中，以便智能语音子系统生成待回复语音对应的回复语音。

在本申请实施例中，当基于目标自动语音识别模块判断待回复语音对应的文本内容并非为目标特定词时，软交换子系统需要将待回复语音发送至智能语音子系统中，以便由智能语音子系统基于自动语音识别模块、自然语言理解模块、对话管理模块、自然语言生成模块和文字转语音模块，生成待回复语音对应的回复语音。

本申请实施例提供一种生成回复语音的方法，本申请实施例能够在软交换子系统接收到移动通信运营商发送的待回复语音后，由软交换子系统基于目标自动语音识别模块判断待回复语音对应的文本内容是否为目标特定词，并在判定待回复语音对应的文本内容为目标特定词时，根据目标特定词、目标自然语言理解模块和目标文字转语音模块生成待回复语音对应的回复语音，以及在判定待回复语音对应的文本内容并非为目标特定词时，将待回复语音发送至智能语音子系统中，以便由智能语音子系统生成待回复语音对应的回复语音。由于，目标自动语音识别模块、目标自然语言理解模块和目标文字转语音模块为预先集成在软交换子系统中的功能模块，并且，目标自动语音识别模块基于模型结构简单的声学模型对只包含目标特定词的待回复语音进行语音识别时，耗费的时间较短，因此，当待回复语音为只包含目标特定词的语音时，软交换子系统基于目标自动语音识别模块、目标自然语言理解模块和目标文字转语音模块便可快速生成该待回复语音对应的回复语音，从而可以提高软交换智能语音交互系统生成回复语音的效率，进而可以提高客户的用户体验。

以下为了更加详细地说明，本申请实施例提供了另一种生成回复语音的方法，具体如图2所示，该方法应用于软交换子系统，该方法包括：

201、接收待回复语音。

其中，关于步骤201、接收待回复语音，可以参考图1对应部分的描述，本发明实施例此处将不再赘述。

202、基于目标自动语音识别模块判断待回复语音对应的文本内容是否为目标特定词。

具体的，在本步骤中，软交换子系统可以通过以下方式基于目标自动语音识别模块判断待回复语音对应的文本内容是否为目标特定词：

其中，目标自动语音识别模块包含预置声学模型、预置语言模型和预置识别词网络。

（1）将待回复语音输入至目标自动语音识别模块中，以便目标自动语音识别模块基于预置声学模型、预置语言模型和预置识别词网络对待回复语音进行语音识别，其中，当待回复语音中只包含目标特定词时，目标自动语音识别模块基于预置声学模型、预置语言模型和预置识别词网络对待回复语音进行语音识别，能够将待回复语音转换为文本内容（即目标特定词），而当待回复语音中不包含目标特定词，或包含目标特定词和其他词语时，目标自动语音识别模块基于预置声学模型、预置语言模型和预置识别词网络对待回复语音进行语音识别，无法将待回复语音转为文本内容；

（2a）当目标自动语音识别模块输出目标特定词（即目标自动语音识别模块基于预置声学模型、预置语言模型和预置识别词网络将待回复语音转换为文本内容）时，便可确定待回复语音对应的文本内容为目标特定词；

（2b）当目标自动语音识别模块未输出目标特定词（即目标自动语音识别模块基于预置声学模型、预置语言模型和预置识别词网络无法将待回复语音转换为文本内容）时，确定待回复语音对应的文本内容为复杂文本，而并非为目标特定词。

进一步的，在本申请实施例中，需要预先训练预置声学模型和预置语言模型，以及预先建立预置识别词网络，其中，训练预置声学模型和预置语言模型，以及建立预置识别词网络的步骤具体如下：

（1）获取第一训练样本集，其中，第一训练样本集包含多个第一训练样本、多个第二训练样本和多个第三训练样本，第一训练样本包括：任意一个预设肯定词和该预设肯定词对应的语音，第二训练样本包括：任意一个预设否定词和该预设否定词对应的语音，第三训练样本包括：不包含任意预设肯定词和任意预设否定词的训练文本和该训练文本对应的语音；使用第一训练样本集对第一预置模型进行训练，直至达到第一预设训练停止条件，从而获得预置声学模型，其中，第一预置模型具体为：GMM－HMM模型，第一预设训练停止条件可以但不限于为：当前训练轮数达到第一预设轮数阈值或当前训练时长达到第一预设时长阈值，第一预设轮数阈值可以但不限于为：10轮、20轮、30轮等等，第一预设时长阈值可以但不限于为：1小时、5小时、10小时等等；其中，在使用第一训练样本集对第一预置模型进行训练时，可以采用现有的GMM－HMM模型训练方法对第一预置模型进行训练，本申请实施例对此不再进行赘述。

（2）获取第二训练样本集，其中，第二训练样本集包含多个预设肯定词、多个预设否定词和多个其他词语（为与预设肯定词或预设否定词相关的词语）；使用第二训练样本集对第二预置模型进行训练，直至达到第二预设训练停止条件，从而获得预置语言模型，其中，第二预置模型具体为：N-Gram模型，第二预设训练停止条件可以但不限于为：当前训练轮数达到第二预设轮数阈值或当前训练时长达到第二预设时长阈值，第二预设轮数阈值可以但不限于为：10轮、20轮、30轮等等，第二预设时长阈值可以但不限于为：1小时、5小时、10小时等等；其中，在使用第二训练样本集对第二预置模型进行训练时，可以采用现有的N-Gram模型训练方法对第二预置模型进行训练，本申请实施例对此不再进行赘述。

（3）根据每个预设肯定词对应的字间关系和每个预设否定词对应的字间关系，建立预置识别词网络，从而使得目标自动语音识别模块基于预置识别词网络对待回复语音进行语音识别时，能够根据每个预设肯定词对应的字间关系和每个预设否定词对应的字间关系，约束转换得到的文本内容对应的字间关系，从而提高目标自动语音识别模块识别待回复语音的准确率。

需要进行说明的是，由于，无意义的语气助词并不会改变目标特定词的本义，因此，为了进一步提高目标自动语音识别模块识别待回复语音的准确率，可以对预置声学模型、预置语言模型和预置识别词网络进行优化调整，从而使得当待回复语音中包含目标特定词和无意义的语气助词时，目标自动语音识别模块基于预置声学模型、预置语言模型和预置识别词网络对待回复语音进行语音识别，能够将待回复语音转换为文本内容（即目标特定词）。

203a、若是，则根据目标特定词、目标自然语言理解模块和目标文字转语音模块生成待回复语音对应的回复语音。

在本申请实施例中，当基于目标自动语音识别模块判断待回复语音对应的文本内容为目标特定词时，软交换子系统便可根据目标特定词、目标自然语言理解模块和目标文字转语音模块生成待回复语音对应的回复语音。

具体的，在本步骤中，软交换子系统可以通过以下方式根据目标特定词、目标自然语言理解模块和目标文字转语音模块生成待回复语音对应的回复语音：

其中，目标自然语言理解模块包含每个预设肯定词与其对应的预设回复文本之间的第一映射关系、每个预设否定词与其对应的预设回复文本之间的第二映射关系；目标文字转语音模块包含每个预设回复文本与其对应的回复语音之间的第三映射关系。

（1）将目标特定词输入至目标自然语言理解模块中，以便目标自然语言理解模块根据目标特定词、第一映射关系和第二映射关系，输出目标特定词对应的预设回复文本，即当目标特定词为某个预设肯定词时，目标自然语言理解模块在第一映射关系中查找该预设肯定词对应的预设回复文本，并输出查找到的预设回复文本，当目标特定词为某个预设否定词时，目标自然语言理解模块在第二映射关系中查找该预设否定词对应的预设回复文本，并输出查找到的预设回复文本；

（2）将目标特定词对应的预设回复文本输入至目标文字转语音模块中，以便目标文字转语音模块根据目标特定词对应的预设回复文本和第三映射关系，输出待回复语音对应的回复语音，即目标文字转语音模块在第三映射关系中查找目标预设回复文本（即目标特定词对应的预设回复文本）对应的回复语音（即待回复语音对应的回复语音），并输出查找到的回复语音。

对于本申请实施例，与步骤203a并列的203b、若否，则将待回复语音发送至智能语音子系统中，以便智能语音子系统生成待回复语音对应的回复语音。

其中，关于步骤203b、若否，则将待回复语音发送至智能语音子系统中，以便智能语音子系统生成待回复语音对应的回复语音，可以参考图1对应部分的描述，本发明实施例此处将不再赘述。

为了实现上述目的，根据本申请的另一方面，本申请实施例还提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述所述的生成回复语音的方法。

为了实现上述目的，根据本申请的另一方面，本申请实施例还提供了一种生成回复语音的装置，所述装置包括存储介质；及一个或者多个处理器，所述存储介质与所述处理器耦合，所述处理器被配置为执行所述存储介质中存储的程序指令；所述程序指令运行时执行上述所述的生成回复语音的方法。

进一步的，作为对上述图1及图2所示方法的实现，本申请另一实施例还提供了一种生成回复语音的装置，该装置应用于软交换子系统。该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置应用于提高软交换智能语音交互系统生成回复语音的效率，从而提高客户的用户体验，具体如图3所示，该装置包括：

接收单元31，用于接收待回复语音；

判断单元32，用于基于目标自动语音识别模块判断所述待回复语音对应的文本内容是否为目标特定词，其中，所述目标自动语音识别模块为预先集成在所述软交换子系统中的功能模块，所述目标特定词为多个预设肯定词和多个预设否定词中的任意一个；

生成单元33，用于当判断单元32判定所述待回复语音对应的文本内容为所述目标特定词时，根据所述目标特定词、目标自然语言理解模块和目标文字转语音模块生成所述待回复语音对应的回复语音，其中，所述目标自然语言理解模块和所述目标文字转语音模块为预先集成在所述软交换子系统中的功能模块；

发送单元34，用于当判断单元32判定所述待回复语音对应的文本内容并非为所述目标特定词时，将所述待回复语音发送至智能语音子系统中，以便所述智能语音子系统生成所述待回复语音对应的回复语音。

进一步的，如图4所示，所述目标自动语音识别模块包含预置声学模型、预置语言模型和预置识别词网络；判断单元32包括：

第一输入模块321，用于将所述待回复语音输入至所述目标自动语音识别模块中，以便所述目标自动语音识别模块基于所述预置声学模型、所述预置语言模型和所述预置识别词网络对所述待回复语音进行语音识别；

第一确定模块322，用于当所述目标自动语音识别模块输出所述目标特定词时，确定所述待回复语音对应的文本内容为所述目标特定词；

第二确定模块323，用于当所述目标自动语音识别模块未输出所述目标特定词时，确定所述待回复语音对应的文本内容并非为所述目标特定词。

进一步的，如图4所示，所述目标自然语言理解模块包含每个所述预设肯定词与其对应的预设回复文本之间的第一映射关系、每个所述预设否定词与其对应的预设回复文本之间的第二映射关系，所述目标文字转语音模块包含每个所述预设回复文本与其对应的回复语音之间的第三映射关系；生成单元33包括：

第二输入模块331，用于将所述目标特定词输入至所述目标自然语言理解模块中，以便所述目标自然语言理解模块根据所述目标特定词、所述第一映射关系和所述第二映射关系，输出所述目标特定词对应的预设回复文本；

第三输入模块332，用于将所述目标特定词对应的预设回复文本输入至所述目标文字转语音模块中，以便所述目标文字转语音模块根据所述目标特定词对应的预设回复文本和所述第三映射关系，输出所述待回复语音对应的回复语音。

进一步的，如图4所示，该装置还包括：

第一获取单元35，用于在接收单元31接收待回复语音之前，获取第一训练样本集，其中，所述第一训练样本集包含多个第一训练样本、多个第二训练样本和多个第三训练样本，所述第一训练样本包括：任意一个所述预设肯定词和所述预设肯定词对应的语音，所述第二训练样本包括：任意一个所述预设否定词和所述预设否定词对应的语音，所述第三训练样本包括：不包含任意所述预设肯定词和任意所述预设否定词的训练文本和所述训练文本对应的语音；

第一训练单元36，用于使用所述第一训练样本集对第一预置模型进行训练，直至达到第一预设训练停止条件，以获得所述预置声学模型；

第二获取单元37，用于获取第二训练样本集，其中，所述第二训练样本集包含多个所述预设肯定词、多个所述预设否定词和多个其他词语，所述其他词语为与所述预设肯定词或所述预设否定词相关的词语；

第二训练单元38，用于使用所述第二训练样本集对第二预置模型进行训练，直至达到第二预设训练停止条件，以获得所述预置语言模型；

建立单元39，用于根据每个所述预设肯定词对应的字间关系和每个所述预设否定词对应的字间关系，建立所述预置识别词网络。

进一步的，如图4所示，所述第一预置模型具体为：GMM－HMM模型，所述第二预置模型具体为：N-Gram模型。

本申请实施例提供一种生成回复语音的方法及装置，本申请实施例能够在软交换子系统接收到移动通信运营商发送的待回复语音后，由软交换子系统基于目标自动语音识别模块判断待回复语音对应的文本内容是否为目标特定词，并在判定待回复语音对应的文本内容为目标特定词时，根据目标特定词、目标自然语言理解模块和目标文字转语音模块生成待回复语音对应的回复语音，以及在判定待回复语音对应的文本内容并非为目标特定词时，将待回复语音发送至智能语音子系统中，以便由智能语音子系统生成待回复语音对应的回复语音。由于，目标自动语音识别模块、目标自然语言理解模块和目标文字转语音模块为预先集成在软交换子系统中的功能模块，并且，目标自动语音识别模块基于模型结构简单的声学模型对只包含目标特定词的待回复语音进行语音识别时，耗费的时间较短，因此，当待回复语音为只包含目标特定词的语音时，软交换子系统基于目标自动语音识别模块、目标自然语言理解模块和目标文字转语音模块便可快速生成该待回复语音对应的回复语音，从而可以提高软交换智能语音交互系统生成回复语音的效率，进而可以提高客户的用户体验。

所述生成回复语音的装置包括处理器和存储器，上述接收单元、判断单元、生成单元和发送单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来提高软交换智能语音交互系统生成回复语音的效率，从而提高客户的用户体验。

本申请实施例提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述所述的生成回复语音的方法。

存储介质可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本申请实施例还提供了一种生成回复语音的装置，所述装置包括存储介质；及一个或者多个处理器，所述存储介质与所述处理器耦合，所述处理器被配置为执行所述存储介质中存储的程序指令；所述程序指令运行时执行上述所述的生成回复语音的方法。

本申请实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：

接收待回复语音；

进一步的，所述目标自动语音识别模块包含预置声学模型、预置语言模型和预置识别词网络；所述基于目标自动语音识别模块判断所述待回复语音对应的文本内容是否为目标特定词，包括：

进一步的，所述目标自然语言理解模块包含每个所述预设肯定词与其对应的预设回复文本之间的第一映射关系、每个所述预设否定词与其对应的预设回复文本之间的第二映射关系，所述目标文字转语音模块包含每个所述预设回复文本与其对应的回复语音之间的第三映射关系；所述根据所述目标特定词、目标自然语言理解模块和目标文字转语音模块生成所述待回复语音对应的回复语音，包括：

进一步的，在所述接收待回复语音之前，所述方法还包括：

进一步的，所述第一预置模型具体为：GMM－HMM模型，所述第二预置模型具体为：N-Gram模型。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：接收待回复语音；基于目标自动语音识别模块判断所述待回复语音对应的文本内容是否为目标特定词，其中，所述目标自动语音识别模块为预先集成在所述软交换子系统中的功能模块，所述目标特定词为多个预设肯定词和多个预设否定词中的任意一个；若是，则根据所述目标特定词、目标自然语言理解模块和目标文字转语音模块生成所述待回复语音对应的回复语音，其中，所述目标自然语言理解模块和所述目标文字转语音模块为预先集成在所述软交换子系统中的功能模块；若否，则将所述待回复语音发送至智能语音子系统中，以便所述智能语音子系统生成所述待回复语音对应的回复语音。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种生成回复语音的方法，其特征在于，所述方法应用于软交换子系统，包括：

接收待回复语音；

2.根据权利要求1所述的方法，其特征在于，所述目标自动语音识别模块包含预置声学模型、预置语言模型和预置识别词网络；所述基于目标自动语音识别模块判断所述待回复语音对应的文本内容是否为目标特定词，包括：

3.根据权利要求1所述的方法，其特征在于，所述目标自然语言理解模块包含每个所述预设肯定词与其对应的预设回复文本之间的第一映射关系、每个所述预设否定词与其对应的预设回复文本之间的第二映射关系，所述目标文字转语音模块包含每个所述预设回复文本与其对应的回复语音之间的第三映射关系；所述根据所述目标特定词、目标自然语言理解模块和目标文字转语音模块生成所述待回复语音对应的回复语音，包括：

4.根据权利要求2所述的方法，其特征在于，在所述接收待回复语音之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述第一预置模型具体为：GMM－HMM模型，所述第二预置模型具体为：N-Gram模型。

6.一种生成回复语音的装置，其特征在于，所述装置应用于软交换子系统，包括：

接收单元，用于接收待回复语音；

7.根据权利要求6所述的装置，其特征在于，所述目标自动语音识别模块包含预置声学模型、预置语言模型和预置识别词网络；所述判断单元包括：

8.根据权利要求6所述的装置，其特征在于，所述目标自然语言理解模块包含每个所述预设肯定词与其对应的预设回复文本之间的第一映射关系、每个所述预设否定词与其对应的预设回复文本之间的第二映射关系，所述目标文字转语音模块包含每个所述预设回复文本与其对应的回复语音之间的第三映射关系；所述生成单元包括：

9.根据权利要求7所述的装置，其特征在于，所述装置还包括：

10.根据权利要求9所述的装置，其特征在于，所述第一预置模型具体为：GMM－HMM模型，所述第二预置模型具体为：N-Gram模型。

11.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至5中任一项所述的生成回复语音的方法。

12.一种生成回复语音的装置，其特征在于，所述装置包括存储介质；及一个或者多个处理器，所述存储介质与所述处理器耦合，所述处理器被配置为执行所述存储介质中存储的程序指令；所述程序指令运行时执行权利要求1至5中任一项所述的生成回复语音的方法。