CN112071300B

CN112071300B - 语音会话方法、装置、计算机设备和存储介质

Info

Publication number: CN112071300B
Application number: CN202011258803.9A
Authority: CN
Inventors: 刘一帆; 刘夏冰; 袁丁; 刘云峰
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2021-04-06
Anticipated expiration: 2040-11-12
Also published as: CN112071300A

Abstract

本申请涉及一种语音会话方法、装置、计算机设备和存储介质。该方法包括：获取待生成语音的目标会话文本；对所述目标会话文本进行语义识别，得到所述目标会话文本中的目标分词对应的语义特征向量，基于所述目标分词对应的语义特征向量确定所述目标分词对应的情感韵律标签；确定所述目标会话文本中的语义边界，基于所述语义边界在所述目标会话文本中插入边界文本，得到第一会话文本；将所述第一会话文本以及所述目标分词对应的情感韵律标签输入到语音合成模型中，合成目标会话语音，其中，所述语音合成模型对所述边界文本进行编码，基于编码得到的向量得到所述目标会话语音中的语音停顿信息；输出所述目标会话语音。采用本方法能够提高会话效果。

Description

语音会话方法、装置、计算机设备和存储介质

技术领域

本申请涉及语音技术领域，特别是涉及一种语音会话方法、装置、计算机设备和存储介质。

背景技术

随着科学技术的发展，出现了语音合成技术。通过语音技术可以基于文本合成语音，使得会话效率高。例如，在会话时，可以获取会话的文本，基于该文本生成会话语音，控制会话机器人发出该会话语音，使得可以通过会话机器人进行语音会话，然而，会话机器人发出的语音通常是很生硬的，导致会话效果差。

发明内容

基于此，有必要针对上述技术问题，提供一种语音会话方法、装置、计算机设备和存储介质。

一种语音会话方法，所述方法包括：获取待生成语音的目标会话文本；对所述目标会话文本进行语义识别，得到所述目标会话文本中的目标分词对应的语义特征向量，基于所述目标分词对应的语义特征向量确定所述目标分词对应的情感韵律标签；确定所述目标会话文本中的语义边界，基于所述语义边界在所述目标会话文本中插入边界文本，得到第一会话文本；将所述第一会话文本以及所述目标分词对应的情感韵律标签输入到语音合成模型中，合成目标会话语音，其中，所述语音合成模型对所述边界文本进行编码，基于编码得到的向量得到所述目标会话语音中的语音停顿信息；输出所述目标会话语音。

在一些实施例中，所述将所述第一会话文本以及所述目标分词对应的情感韵律标签输入到语音合成模型中，合成目标会话语音包括：将所述第一会话文本以及所述目标分词对应的情感韵律标签输入到语音合成模型中，所述语音合成模型基于所述边界文本所表示的停顿程度进行编码，基于编码得到的向量得到所述目标会话语音中，所述边界文本对应的语音停顿时长。

在一些实施例中，所述在与目标会话用户进行语音会话的过程中，获取待生成语音的目标会话文本包括：在与所述目标会话用户进行语音会话的过程中，获取所述目标会话用户对应的用户语音会话消息；对所述用户语音会话消息进行意图识别，得到目标意图；基于所述目标意图确定所述用户语音会话消息对应的回复文本，作为待生成语音的目标会话文本。

在一些实施例中，所述对所述用户语音会话消息进行意图识别，得到目标意图包括：对所述用户语音会话消息进行文本识别，得到用户文本会话消息；将所述用户文本会话消息输入到意图识别模型中，所述意图识别模型对所述用户文本会话消息中的分词进行语义识别，得到所述用户文本会话消息对应的会话语义特征，基于所述会话语义特征确定目标意图。

在一些实施例中，所述方法还包括：对所述目标会话文本对应的分词进行词语类型识别，得到各个分词对应的目标词语类型；将所述目标会话文本对应的分词中，目标词语类型为通用词语类型的分词作为所述目标分词。

在一些实施例中，所述方法还包括：确定所述目标会话文本对应的分词中，目标词语类型为专用词语类型的专用词语对应的韵律标签添加规则；基于所述韵律标签添加规则确定所述专用词语对应的情感韵律标签。

在一些实施例中，所述对所述目标会话文本进行语义识别，得到所述目标会话文本中的目标分词对应的语义特征向量，基于所述目标分词对应的语义特征向量确定所述目标分词对应的情感韵律标签包括：将所述目标会话文本中的专用词语，替换为对应的专用词语类型的类型标识符，得到替换会话文本；将所述替换会话文本输入到情感韵律识别模型中，所述情感韵律识别模型对所述替换会话文本中的目标分词进行语义编码，得到所述目标分词对应的语义特征向量，基于所述目标分词对应的语义特征向量确定所述目标分词对应的情感韵律标签。

一种语音会话装置，所述装置包括：目标会话文本获取模块，用于获取待生成语音的目标会话文本；情感韵律标签确定模块，用于对所述目标会话文本进行语义识别，得到所述目标会话文本中的目标分词对应的语义特征向量，基于所述目标分词对应的语义特征向量确定所述目标分词对应的情感韵律标签；第一会话文本得到模块，用于确定所述目标会话文本中的语义边界，基于所述语义边界在所述目标会话文本中插入边界文本，得到第一会话文本；合成模块，用于将所述第一会话文本以及所述目标分词对应的情感韵律标签输入到语音合成模型中，合成目标会话语音，其中，所述语音合成模型对所述边界文本进行编码，基于编码得到的向量得到所述目标会话语音中的语音停顿信息；输出模块，用于输出所述目标会话语音。

在一些实施例中，所述合成模块用于：将所述第一会话文本以及所述目标分词对应的情感韵律标签输入到语音合成模型中，所述语音合成模型基于所述边界文本所表示的停顿程度进行编码，基于编码得到的向量得到所述目标会话语音中，所述边界文本对应的语音停顿时长。

在一些实施例中，所述目标会话文本获取模块包括：用户语音会话消息获取单元，用于在与所述目标会话用户进行语音会话的过程中，获取所述目标会话用户对应的用户语音会话消息；目标意图得到单元，用于对所述用户语音会话消息进行意图识别，得到目标意图；目标会话文本获取单元，用于基于所述目标意图确定所述用户语音会话消息对应的回复文本，作为待生成语音的目标会话文本。

在一些实施例中，所述目标意图得到单元用于：对所述用户语音会话消息进行文本识别，得到用户文本会话消息；将所述用户文本会话消息输入到意图识别模型中，所述意图识别模型对所述用户文本会话消息中的分词进行语义识别，得到所述用户文本会话消息对应的会话语义特征，基于所述会话语义特征确定目标意图。

在一些实施例中，所述装置还包括：词语类型识别模块，用于对所述目标会话文本对应的分词进行词语类型识别，得到各个分词对应的目标词语类型；目标分词获取模块，用于将所述目标会话文本对应的分词中，目标词语类型为通用词语类型的分词作为所述目标分词。

在一些实施例中，所述装置还包括：韵律标签添加规则获取模块，用于确定所述目标会话文本对应的分词中，目标词语类型为专用词语类型的专用词语对应的韵律标签添加规则；添加模块，用于基于所述韵律标签添加规则确定所述专用词语对应的情感韵律标签。

在一些实施例中，所述情感韵律标签确定模块用于：将所述目标会话文本中的专用词语，替换为对应的专用词语类型的类型标识符，得到替换会话文本；将所述替换会话文本输入到情感韵律识别模型中，所述情感韵律识别模型对所述替换会话文本中的目标分词进行语义编码，得到所述目标分词对应的语义特征向量，基于所述目标分词对应的语义特征向量确定所述目标分词对应的情感韵律标签。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：获取待生成语音的目标会话文本；对所述目标会话文本进行语义识别，得到所述目标会话文本中的目标分词对应的语义特征向量，基于所述目标分词对应的语义特征向量确定所述目标分词对应的情感韵律标签；确定所述目标会话文本中的语义边界，基于所述语义边界在所述目标会话文本中插入边界文本，得到第一会话文本；将所述第一会话文本以及所述目标分词对应的情感韵律标签输入到语音合成模型中，合成目标会话语音，其中，所述语音合成模型对所述边界文本进行编码，基于编码得到的向量得到所述目标会话语音中的语音停顿信息；输出所述目标会话语音。

在一些实施例中，处理器执行计算机程序时，还实现以下步骤：对所述目标会话文本对应的分词进行词语类型识别，得到各个分词对应的目标词语类型；将所述目标会话文本对应的分词中，目标词语类型为通用词语类型的分词作为所述目标分词。

在一些实施例中，处理器执行计算机程序时，还实现以下步骤：确定所述目标会话文本对应的分词中，目标词语类型为专用词语类型的专用词语对应的韵律标签添加规则；基于所述韵律标签添加规则确定所述专用词语对应的情感韵律标签。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：获取待生成语音的目标会话文本；对所述目标会话文本进行语义识别，得到所述目标会话文本中的目标分词对应的语义特征向量，基于所述目标分词对应的语义特征向量确定所述目标分词对应的情感韵律标签；确定所述目标会话文本中的语义边界，基于所述语义边界在所述目标会话文本中插入边界文本，得到第一会话文本；将所述第一会话文本以及所述目标分词对应的情感韵律标签输入到语音合成模型中，合成目标会话语音，其中，所述语音合成模型对所述边界文本进行编码，基于编码得到的向量得到所述目标会话语音中的语音停顿信息；输出所述目标会话语音。

上述语音会话方法、装置、计算机设备和存储介质，通过获取待生成语音的目标会话文本，对目标会话文本进行语义识别，得到目标会话文本中的目标分词对应的语义特征向量，基于目标分词对应的语义特征向量确定目标分词对应的情感韵律标签；确定目标会话文本中的语义边界，基于语义边界在目标会话文本中插入边界文本，得到第一会话文本；将第一会话文本以及目标分词对应的情感韵律标签输入到语音合成模型中，合成目标会话语音，其中，语音合成模型对边界文本进行编码，基于编码得到的向量得到目标会话语音中的语音停顿信息；输出目标会话语音，因此可以得到包含停顿以及情感的会话语音，使得语音会话更加真实，提高了会话效果。

附图说明

图1为一个实施例中语音会话方法的应用环境图；

图2为一个实施例中语音会话方法的流程示意图；

图3为一个实施例中联合模型的工作原理图；

图4为一个实施例中在与目标会话用户进行语音会话的过程中，获取待生成语音的目标会话文本的流程示意图；

图5为一个实施例中语音会话方法的流程示意图；

图6为一个实施例中语音会话方法的流程示意图；

图7为一个实施例中语音会话装置的结构框图；

图8为一个实施例中目标会话文本获取模块的结构框图；

图9为一个实施例中语音会话装置的结构框图；

图10为一个实施例中计算机设备的内部结构图；

图11为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的语音会话方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。服务器中可以安装有进行智能会话的机器人程序，称为智能外呼机器人，该智能外呼机器人可以执行本申请的语音会话方法，向终端102发送目标会话语音，这样终端102的用户可以与智能外呼机器人进行会话。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。可以理解，本申请实施例的语音会话方法，也可以是由另一终端执行的，例如可以由电话机器人执行，或者由电话机器人以及对应的服务器共同执行。或者，本申请的语音会话方法，可以是由会话机器人与用户直接面对面的进行会话。例如，在咨询场景中，一个用户可以向智能会话机器人咨询问题，智能会话机器人可以执行本申请实施例提供的语音会话方法，也可以是通过服务器执行本申请实施例提供的方法。

在一个实施例中，如图2所示，提供了一种语音会话方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S202，获取待生成语音的目标会话文本。

其中，会话可以是通过网络进行的，也可以是面对面的会话。会话文本可以是默认的，也可以是基于用户的语音进行回复的文本。

具体地，服务器可以获取用户的语音，基于该用户的语音确定回复的文本，作为待生成语音的目标会话文本。在确定回复的文本时，服务器可以将用户的语音转换为文本，该文本作为一个问题，基于预先建立的知识图谱，确定该问题对应的文本形式的答案，作为待生成语音的目标会话文本。

例如，在智能外呼场景中，可以通过智能电话机器人与用户进行电话沟通，当获取到用户电话中的语音“请问今天天气怎么样”，服务器可以获取今天的天气信息，例如文本“今天天气晴朗”，则该文本为待生成语音的目标会话文本。

在一些实施例中，可以在XLM(EXtensible Markup Language，可扩展标记语言)标记语言基础上，对回复文本进行文本正则处理，得到会话文本。例如可以将数字改为文本表示的数字。

步骤S204，对目标会话文本进行语义识别，得到目标会话文本中的目标分词对应的语义特征向量，基于目标分词对应的语义特征向量确定目标分词对应的情感韵律标签。

其中，语义是指语言的含义。语义识别可以通过预先训练的语言模型进行，例如可以基于预训练的BERT( Bidirectional Encoder Representations from Transformers)模型进行文本编码得到语义特征向量。目标分词是指对目标文本进行分词处理所得到的词，分词是将连续的字序列按照一定的规范重新组合成词序列的过程，分词的方法可以是基于字符串匹配的分词方法、基于理解的分词方法或者基于统计的分词方法的至少一个，例如，假设目标文本为“今天天气晴朗”，则分词后所得到的词序列可以表示为“今天/天气/晴朗”，其中“今天”“天气”以及“晴朗”等为目标分词。

情感韵律标签是表示情感韵律的标签，候选的情感韵律标签例如可以包括正常音、长音、重音以及短音。情感韵律标签可以是通过情感韵律识别模型识别得到的。情感韵律识别模型可以是预先经过有监督的训练得到的模型。例如，在模型训练前，可以预先对用于模型训练的训练语音进行情感韵律标签的人工标注，基于模型预测的韵律标签与预先标注的标签的差异得到模型损失值，采用梯度下降方法，朝着使模型损失值下降的方向调整模型的参数，直至模型收敛，模型收敛的条件例如可以是模型损失值小于预设阈值。

具体地，服务器可以对目标会话文本进行分词，得到多个目标分词，将多个目标分词组成的分词序列输入到语义识别模型中进行语义编码，得到各个目标分词对应的语义特征向量，可以将按照目标分词在目标会话文本中的顺序对语义特征向量进行排列，得到语义特征向量组成的特征向量序列，将特征向量序列输入到情感韵律解码模型中，识别得到各个目标分词对应的情感韵律标签。

步骤S206，确定目标会话文本中的语义边界，基于语义边界在目标会话文本中插入边界文本，得到第一会话文本。

其中，语义边界是指基于语义得到的边界，语义边界之间的文本，其语义可以是连贯的，用于表达一个完整的语义。语义边界所在的位置为需要进行停顿的位置。例如，假设一个目标会话文本为“今天天气很晴朗，适合去郊游”，则进行停顿的位置可以包括“气”与“很”之间的位置，以及“合”与“去”之间的位置。

语义边界可以是基于停顿识别模型识别得到的。停顿识别模型可以是预先经过有监督的训练得到的模型。例如，在模型训练时，可以对用于训练的训练语音进行停顿位置的人工标注，基于模型预测的停顿位置与预先标注的停顿位置的差异得到模型损失值，采用梯度下降方法，朝着使模型损失值下降的方向调整模型的参数，直至模型收敛，模型收敛的条件例如可以是模型损失值小于预设阈值。

边界文本可以是预先设置的文本，例如可以是用于表示停顿的边界符号，具体可以自定义，即边界符号是作为一个文本中的分词实体插入到文本中的。假设一个目标会话文本为“今天天气很晴朗”，得到“气”与“很”之间的位置为边界所在的位置，则第一会话文本为“今天天气“TD”很晴朗”，其中“TD”表示停顿符。

具体地，可以将目标会话文本输入到停顿识别模型中，停顿识别模型基于目标会话文本的语义识别得到目标会话文本中需要停顿的位置，即语义边界。在目标会话文本中插入表示停顿的边界符号，插入边界符号的目标会话文本为第一会话文本。

在一些实施例中，停顿识别模型与情感韵律识别模型是联合训练得到的，停顿识别模型包括文本编码模型以及停顿解码模型，情感韵律识别模型包括文本编码模型以及情感韵律解码模型。即停顿识别模型与情感韵律识别模型共享进行语义编码的文本编码模型，例如BERT模型。例如，如图3所示，对于目标会话文本，可以将目标会话文本输入到文本编码模型中，进行语音编码，得到目标会话文本中的目标分词对应的语义特征向量，然后将编码得到的语义特征向量输入到停顿解码模型中，得到停顿位置，将编码得到的语义特征向量输入到情感韵律解码模型中，识别得到情感韵律。在联合训练时，可以将情感韵律解码模型所对应的模型损失值与停顿解码模型所对应的模型损失值进行加权求和，得到综合的模型损失值，基于综合的模型损失值调整文本编码模型的模型参数，使得文本编码模型的模型参数能够平衡情感韵律识别与停顿识别的准确度，又能够提高模型训练的效率。

步骤S208，将第一会话文本以及目标分词对应的情感韵律标签输入到语音合成模型中，合成目标会话语音，其中，语音合成模型对边界文本进行编码，基于编码得到的向量得到目标会话语音中的语音停顿信息。

其中，语音合成模型可以是预先训练得到的模型。例如可以是Tacotron语音合成模型。在进行语音合成时，由于边界文本是作为一个实体加入到文本中的，可以视为一个词语，因此在进行编码时，可以对边界文本进行编码，使得最终合成的目标会话语音能够在预测得到的停顿位置停顿。而情感韵律标签是与目标分词对应的，例如加在目标分词的后边，表示该韵律为该目标分词的情感韵律，因此，语音合成模型可以基于该目标分词的情感韵律，合成具有该情感韵律的语音。

具体地，服务器可以将第一会话文本以及目标分词对应的情感韵律标签输入到语音合成模型中，得到语音停顿信息，基于语音停顿信息对语音进行停顿处理，得到目标会话语音。

在一些实施例中，服务器将第一会话文本以及目标分词对应的情感韵律标签输入到语音合成模型中，语音合成模型基于边界文本所表示的停顿程度进行编码，基于编码得到的向量得到目标会话语音中，边界文本对应的语音停顿时长。

具体地，停顿识别模型识别得到的停顿信息可以包括停顿的程度，例如高、中或者低。因此，服务器可以根据停顿的程度得到对应的边界符。得到停顿时长后，目标会话语音在该边界文本所对应的停顿位置，停顿该时长

语音停顿时长表示停顿的时间长度，例如可以是1秒、0.5秒等。不同的会话文本，其所对应的语音停顿时长可以不同。语音合成模型可以包括对停顿时长进行预测的停顿时长预测模型，在训练时，预先标注训练语音的停顿时长，基于停顿时长预测模型预测得到的停顿时长与标注的停顿时长的差异得到模型损失值，朝着使模型损失值变小的方向调整停顿时长预测模型的模型参数。

步骤S210，输出目标会话语音。

具体地，可以通过网络向对应的目标会话用户输出该目标会话语音。也可以是控制会话机器人直接播放该目标会话语音。即可以控制智能机器人按照合成的语音播放，使得播放的语音带有情感和停顿，交互更加真实。

上述语音会话方法中，通过获取待生成语音的目标会话文本，对目标会话文本进行语义识别，得到目标会话文本中的目标分词对应的语义特征向量，基于目标分词对应的语义特征向量确定目标分词对应的情感韵律标签；确定目标会话文本中的语义边界，基于语义边界在目标会话文本中插入边界文本，得到第一会话文本；将第一会话文本以及目标分词对应的情感韵律标签输入到语音合成模型中，合成目标会话语音，其中，语音合成模型对边界文本进行编码，基于编码得到的向量得到目标会话语音中的语音停顿信息；输出目标会话语音，因此可以得到包含停顿以及语音情感的会话语音，使得语音会话更加真实，提高了会话效果。

在一个实施例中，如图4所示，在与目标会话用户进行语音会话的过程中，获取待生成语音的目标会话文本包括：

步骤S402，在与目标会话用户进行语音会话的过程中，获取目标会话用户对应的用户语音会话消息。

其中，用户语音会话消息是目标会话用户发出的语音。目标会话用户是与机器人进行语音会话的用户。

具体地，目标会话用户可以进行语音提问，服务器将采集得到的用户的语音作为用户语音会话消息。

步骤S404，对用户语音会话消息进行意图识别，得到目标意图。

具体地，目标意图可以是基于目标用户的语音会话消息进行语义识别得到的，例如可以将用户语音会话消息转换为文本，提取文本中的关键词，基于关键词与意图的对应关系确定目标意图。

在一些实施例中，可以预先设置各个语音会话场景中，关键词组合与意图的对应关系，服务器可以对用户语音会话消息的文本进行关键词提取，得到多个关键词，多个关键词组合得到关键词组合，基于该关键词组合以及预先设置的对应关系获取对应的意图。

例如，假设用户语音会话消息是“麻烦提供下超期的信用卡账单”，则关键词组合是由“超期”和“信用卡账单”组成的，则目标意图为查询超期的信用卡账单。

在一些实施例中，对用户语音会话消息进行意图识别，得到目标意图包括：对用户语音会话消息进行文本识别，得到用户文本会话消息；将用户文本会话消息输入到意图识别模型中，意图识别模型对用户文本会话消息中的分词进行语义识别，得到用户文本会话消息对应的会话语义特征，基于会话语义特征确定目标意图。

具体地，意图识别模型可以包括文本编码模型以及意图解码模型。服务器可以对用户语音会话消息进行文本转换，得到文本形式的会话消息，然后将文本形式的会话消息输入到意图识别模型，意图识别模型中的文本编码模型进行语义编码，得到表示用户文本会话消息对应的语义的会话语义特征，基于意图解码模型对会话语义特征进行解码，得到目标意图。

步骤S406，基于目标意图确定用户语音会话消息对应的回复文本，作为待生成语音的目标会话文本。

具体地，得到目标意图之后，可以从知识库中查找该目标意图对应的文本，作为答复文本，该答复文本为待生成语音的目标会话文本。例如，目标会话文本可以是“您超期的信用卡账单有2个，以下是明细信息”。

本申请实施例中，通过识别得到用户语音会话消息的意图，再基于意图进行回复，可以提高目标会话文本的回复准确度。

在一些实施例中，还可以获取用户语音会话消息所展示的态度，在确定情感韵律标签时，将目标会话文本以及态度输入到情感韵律标签识别模型中，以基于态度对情感韵律标签进行调整。这样，目标会话语音可以灵活根据用户的态度自适应变化。

在一个实施例中，如图5所示，语音会话方法还可以包括以下步骤:

步骤S502，对目标会话文本对应的分词进行词语类型识别，得到各个分词对应的目标词语类型。

其中，候选的词语类型可以包括通用词语类型以及专用词语类型。专用的词语类型是特殊的词语类型，即是专用的词语。例如专用词语类型可以是电话号码、信用卡号码、身份证号、时间、日期、车牌号或者量词中的至少一个。时间例如为小时、分钟或者秒。量词例如为年龄或者一支等。通用词语类型是通用的，与专用词语类型不同，例如词语“今天”以及“天气”的类型为通用词语类型。

具体地，可以预先配置专用词语的匹配规则，基于专用词语的匹配规则对目标会话文本中的各个分词进行匹配，符合匹配规则的为专用词语，不符合的为通用词语。例如，对于身份证号码，其对应的匹配规则为有18位，且开头的前6位与地区代码集合中的一个地区代码匹配，第7位到第14符合日期的表示形式等。

步骤S504，将目标会话文本对应的分词中，目标词语类型为通用词语类型的分词作为目标分词。

具体地，服务器将目标会话文本对应的分词中，目标词语类型为通用词语类型的分词作为目标分词，对于目标分词，可以基于语义特征向量确定情感韵律标签，即执行步骤S204，对目标会话文本进行语义识别，得到目标会话文本中的目标分词对应的语义特征向量，基于目标分词对应的语义特征向量确定目标分词对应的情感韵律标签。而对于专用词语，由于是专用的，并不具备特定的语义，因此可以通过其他方式确定该分词对应的情感韵律标签。

本申请实施例中，通过将目标词语类型为通用词语类型的分词作为目标分词，基于通用词语类型的分词的语义确定其对应的情感韵律标签，因此能够提高确定情感韵律标签的效率。

在一些实施例中，如图6所示，语音会话方法还可以包括以下步骤：

步骤S602，确定目标会话文本对应的分词中，目标词语类型为专用词语类型的专用词语对应的韵律标签添加规则。

其中，韵律标签添加规则可以是预先设置的。预先设置了每种专用词语类型所对应的韵律标签添加规则，因此，得到专用词语之后，可以确定所对应的专用词语类型，获取该专用词语类型的韵律标签添加规则。例如，对于词语“13245678910”，假设得到其对应的专用词语类型为电话号码，则获取电话号码对应的韵律标签添加规则。

具体地，服务器可以对目标会话文本对应的分词进行词语类型识别，得到各个分词对应的目标词语类型，对于词语类型为专用词语类型的专用词语，则获取该专用词语类型所对应的预设的韵律标签添加规则。韵律标签添加规则中设置了专用词语中字符对应的情感韵律。

步骤S604，基于韵律标签添加规则确定专用词语对应的情感韵律标签。

具体地，得到韵律标签添加规则后，服务器可以基于韵律标签添加规则确定专用词语对应的情感韵律标签。例如，假设对于电话号码“13245678910”，对应的韵律标签添加规则为第3位以及第7位字符拖长音，则132中的“2”以及“4567”中的“7”将会标记为其对应的情感韵律标签为拖长音。得到专用词语对应的情感韵律标签后，将专用词语对应的情感韵律标签、第一会话文本与目标分词对应的情感韵律标签输入到语音合成模型中进行语音合成，使得专用词语对应的语音符合其对应的专用词语类型的语音情感韵律。

在一些实施例中，还可以预先设置专用词语类型对应的边界添加规则，例如设置了电话号码对应的边界为第三位与第四位之间、第七位与第八位之间，则对于电话号码“13245678910”，可以基于对应的边界规则添加对应的停顿标签，变为“132、4567、8910”，其中顿号表示停顿，即顿号可以为边界符。

在一些实施例中，对目标会话文本进行语义识别，得到目标会话文本中的目标分词对应的语义特征向量，基于目标分词对应的语义特征向量确定目标分词对应的情感韵律标签包括：将目标会话文本中的专用词语，替换为对应的专用词语类型的类型标识符，得到替换会话文本；将替换会话文本输入到情感韵律识别模型中，情感韵律识别模型对替换会话文本中的目标分词进行语义编码，得到目标分词对应的语义特征向量，基于目标分词对应的语义特征向量确定目标分词对应的情感韵律标签。

具体地，对于目标文本会话中的专用词语，例如电话号码以及信用卡号码，可以替换为其对应的类型标识符。各个专用词语对应的类型标识符是用于标识该词语所对应的专用词语类型的，例如对于电话号码，其对应的类型标识符可以为“tel”，对于信用卡号，其对应的类型标识符可以为“card”。举个例子，假设目标会话文本为“信用卡号码123456对应的账单有哪些”，则将信用卡号码“123456”，替换为其对应的类型标识符“card”，则替换会话文本为“我的信用卡号码是“card””。得到替换会话文本后，将替换会话文本输入到情感韵律识别模型中，情感韵律识别模型对替换会话文本中的目标分词以及类型标识符进行语义编码，得到目标分词对应的语义特征向量，由于在进行语义编码时，去除了无语义或者语义单一的专用词语，例如数字类型的专用词语，并融合了有语义的类型标识符进行编码的，因此目标分词的语义特征向量是融合了会话文本中的类型标识符所表示的语义，能够更好的体现该目标分词在会话文本中的语义。而对于专用词语，则可以通过对应的韵律标签添加规则确定韵律标签，无需通过情感韵律识别模型进行识别。

在一些实施例中，本申请实施例提供的语音数据的处理，可以是基于SSML（SpeechSynthesis Markup Language，语音合成标记语言）语言实现的。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种语音会话装置，包括：目标会话文本获取模块702、情感韵律标签确定模块704、第一会话文本得到模块706、合成模块708和输出模块710，其中：

目标会话文本获取模块702，用于获取待生成语音的目标会话文本；

情感韵律标签确定模块704，用于对目标会话文本进行语义识别，得到目标会话文本中的目标分词对应的语义特征向量，基于目标分词对应的语义特征向量确定目标分词对应的情感韵律标签；

第一会话文本得到模块706，用于确定目标会话文本中的语义边界，基于语义边界在目标会话文本中插入边界文本，得到第一会话文本；

合成模块708，用于将第一会话文本以及目标分词对应的情感韵律标签输入到语音合成模型中，合成目标会话语音，其中，语音合成模型对边界文本进行编码，基于编码得到的向量得到目标会话语音中的语音停顿信息；

输出模块710，用于输出目标会话语音。

在一些实施例中，合成模块708用于：将第一会话文本以及目标分词对应的情感韵律标签输入到语音合成模型中，语音合成模型基于边界文本所表示的停顿程度进行编码，基于编码得到的向量得到目标会话语音中，边界文本对应的语音停顿时长。

在一些实施例中，如图8所示，目标会话文本获取模块702包括：

用户语音会话消息获取单元802，用于在与目标会话用户进行语音会话的过程中，获取目标会话用户对应的用户语音会话消息；

目标意图得到单元804，用于对用户语音会话消息进行意图识别，得到目标意图；

目标会话文本获取单元806，用于基于目标意图确定用户语音会话消息对应的回复文本，作为待生成语音的目标会话文本。

在一些实施例中，目标意图得到单元804用于：对用户语音会话消息进行文本识别，得到用户文本会话消息；将用户文本会话消息输入到意图识别模型中，意图识别模型对用户文本会话消息中的分词进行语义识别，得到用户文本会话消息对应的会话语义特征，基于会话语义特征确定目标意图。

在一些实施例中，如图9所示，语音会话装置还包括：

词语类型识别模块902，用于对目标会话文本对应的分词进行词语类型识别，得到各个分词对应的目标词语类型；

目标分词获取模块904，用于将目标会话文本对应的分词中，目标词语类型为通用词语类型的分词作为目标分词。

在一些实施例中，语音会话装置还包括：韵律标签添加规则获取模块，用于确定目标会话文本对应的分词中，目标词语类型为专用词语类型的专用词语对应的韵律标签添加规则；添加模块，用于基于韵律标签添加规则确定专用词语对应的情感韵律标签。

在一些实施例中，情感韵律标签确定模块用于：将目标会话文本中的专用词语，替换为对应的专用词语类型的类型标识符，得到替换会话文本；将替换会话文本输入到情感韵律识别模型中，情感韵律识别模型对替换会话文本中的目标分词进行语义编码，得到目标分词对应的语义特征向量，基于目标分词对应的语义特征向量确定目标分词对应的情感韵律标签。

关于语音会话装置的具体限定可以参见上文中对于语音会话方法的限定，在此不再赘述。上述语音会话装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音会话数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音会话方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种语音会话方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10以及11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取待生成语音的目标会话文本；对所述目标会话文本进行语义识别，得到所述目标会话文本中的目标分词对应的语义特征向量，基于所述目标分词对应的语义特征向量确定所述目标分词对应的情感韵律标签；确定所述目标会话文本中的语义边界，基于所述语义边界在所述目标会话文本中插入边界文本，得到第一会话文本；将所述第一会话文本以及所述目标分词对应的情感韵律标签输入到语音合成模型中，合成目标会话语音，其中，所述语音合成模型对所述边界文本进行编码，基于编码得到的向量得到所述目标会话语音中的语音停顿信息；输出所述目标会话语音。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取待生成语音的目标会话文本；对所述目标会话文本进行语义识别，得到所述目标会话文本中的目标分词对应的语义特征向量，基于所述目标分词对应的语义特征向量确定所述目标分词对应的情感韵律标签；确定所述目标会话文本中的语义边界，基于所述语义边界在所述目标会话文本中插入边界文本，得到第一会话文本；将所述第一会话文本以及所述目标分词对应的情感韵律标签输入到语音合成模型中，合成目标会话语音，其中，所述语音合成模型对所述边界文本进行编码，基于编码得到的向量得到所述目标会话语音中的语音停顿信息；输出所述目标会话语音

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音会话方法，其特征在于，所述方法包括：

获取待生成语音的目标会话文本；

对所述目标会话文本对应的分词进行词语类型识别，得到各个分词对应的目标词语类型；

将所述目标会话文本对应的分词中，目标词语类型为通用词语类型的分词作为目标分词；

对所述目标会话文本进行语义识别，得到所述目标会话文本中的所述目标分词对应的语义特征向量，基于所述目标分词对应的语义特征向量确定所述目标分词对应的情感韵律标签；

确定所述目标会话文本中的语义边界，基于所述语义边界在所述目标会话文本中插入边界文本，得到第一会话文本；

将所述第一会话文本以及所述目标分词对应的情感韵律标签输入到语音合成模型中，合成目标会话语音，其中，所述语音合成模型对所述边界文本进行编码，基于编码得到的向量得到所述目标会话语音中的语音停顿信息；

输出所述目标会话语音。

2.根据权利要求1所述的方法，其特征在于，所述将所述第一会话文本以及所述目标分词对应的情感韵律标签输入到语音合成模型中，合成目标会话语音包括：

将所述第一会话文本以及所述目标分词对应的情感韵律标签输入到语音合成模型中，所述语音合成模型基于所述边界文本所表示的停顿程度进行编码，基于编码得到的向量得到所述目标会话语音中，所述边界文本对应的语音停顿时长。

3.根据权利要求1所述的方法，其特征在于，所述获取待生成语音的目标会话文本包括：

在与目标会话用户进行语音会话的过程中，获取所述目标会话用户对应的用户语音会话消息；

对所述用户语音会话消息进行意图识别，得到目标意图；

基于所述目标意图确定所述用户语音会话消息对应的回复文本，作为待生成语音的目标会话文本。

4.根据权利要求3所述的方法，其特征在于，所述对所述用户语音会话消息进行意图识别，得到目标意图包括：

对所述用户语音会话消息进行文本识别，得到用户文本会话消息；

将所述用户文本会话消息输入到意图识别模型中，所述意图识别模型对所述用户文本会话消息中的分词进行语义识别，得到所述用户文本会话消息对应的会话语义特征，基于所述会话语义特征确定目标意图。

5.根据权利要求1所述的方法，其特征在于，所述对所述目标会话文本对应的分词进行词语类型识别，得到各个分词对应的目标词语类型包括：

基于预先配置的专用词语的匹配规则，对所述目标会话文本中的各个分词进行匹配，符合所述匹配规则的词语的类型为专用词语类型，不符合所述匹配规则的词语的类型为通用词语类型。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定所述目标会话文本对应的分词中，目标词语类型为专用词语类型的专用词语对应的韵律标签添加规则；

基于所述韵律标签添加规则确定所述专用词语对应的情感韵律标签。

7.根据权利要求5所述的方法，其特征在于，所述对所述目标会话文本进行语义识别，得到所述目标会话文本中的目标分词对应的语义特征向量，基于所述目标分词对应的语义特征向量确定所述目标分词对应的情感韵律标签包括：

将所述目标会话文本中的专用词语，替换为对应的专用词语类型的类型标识符，得到替换会话文本；

将所述替换会话文本输入到情感韵律识别模型中，所述情感韵律识别模型对所述替换会话文本中的目标分词进行语义编码，得到所述目标分词对应的语义特征向量，基于所述目标分词对应的语义特征向量确定所述目标分词对应的情感韵律标签。

8.一种语音会话装置，其特征在于，所述装置包括：

目标会话文本获取模块，用于获取待生成语音的目标会话文本；

词语类型识别模块，用于对所述目标会话文本对应的分词进行词语类型识别，得到各个分词对应的目标词语类型；

目标分词获取模块，用于将所述目标会话文本对应的分词中，目标词语类型为通用词语类型的分词作为目标分词；

情感韵律标签确定模块，用于对所述目标会话文本进行语义识别，得到所述目标会话文本中的所述目标分词对应的语义特征向量，基于所述目标分词对应的语义特征向量确定所述目标分词对应的情感韵律标签；

第一会话文本得到模块，用于确定所述目标会话文本中的语义边界，基于所述语义边界在所述目标会话文本中插入边界文本，得到第一会话文本；

合成模块，用于将所述第一会话文本以及所述目标分词对应的情感韵律标签输入到语音合成模型中，合成目标会话语音，其中，所述语音合成模型对所述边界文本进行编码，基于编码得到的向量得到所述目标会话语音中的语音停顿信息；

输出模块，用于输出所述目标会话语音。

9.根据权利要求8所述的装置，其特征在于，所述合成模块用于：

10.根据权利要求8所述的装置，其特征在于，所述目标会话文本获取模块包括：

用户语音会话消息获取单元，用于在与目标会话用户进行语音会话的过程中，获取所述目标会话用户对应的用户语音会话消息；

目标意图得到单元，用于对所述用户语音会话消息进行意图识别，得到目标意图；

目标会话文本获取单元，用于基于所述目标意图确定所述用户语音会话消息对应的回复文本，作为待生成语音的目标会话文本。

11.根据权利要求10所述的装置，其特征在于，所述目标意图得到单元用于：

12.根据权利要求8所述的装置，其特征在于，所述词语类型识别模块用于：

13.根据权利要求8所述的装置，其特征在于，所述装置还包括：

韵律标签添加规则获取模块，用于确定所述目标会话文本对应的分词中，目标词语类型为专用词语类型的专用词语对应的韵律标签添加规则；

添加模块，用于基于所述韵律标签添加规则确定所述专用词语对应的情感韵律标签。

14.根据权利要求12所述的装置，其特征在于，所述情感韵律标签确定模块用于：

15.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。