CN113627196A

CN113627196A - 一种基于语境和Transformer的多语言对话机器人系统及其对话方法

Info

Publication number: CN113627196A
Application number: CN202110826108.6A
Authority: CN
Inventors: 庞文君; 杨猛; 许红波
Original assignee: Qianhai Qibao Technology Shenzhen Co ltd
Current assignee: Qianhai Qibao Technology Shenzhen Co ltd
Priority date: 2021-07-21
Filing date: 2021-07-21
Publication date: 2021-11-09

Abstract

本发明提供一种基于语境和Transformer的多语言对话机器人系统及其对话方法，该系统包括：目标语种识别器模块、语音识别模块、语音情绪识别模块、语音多语言融合器模块和语音合成模块；目标语种识别器模块对不同的语种进行识别；语音识别模块是得到识别后的文本问句；语音情绪识别模块对语音进行情绪识别；语音多语言融合器模块将目标语言结合语音情绪特征和多语言融合文本答案输出情绪化翻译结果；语音合成模块将答案文本通过语音合成输出语音答案。本发明通过自动识别目标语种和语音情绪，进行语义多语言融合进行答案选择，并通过基于语境的答案翻译，能够智能回答多语言的问题，降低了采用人工客服的时间成本和资金成本，提高了对话机器人回答能力。

Description

一种基于语境和Transformer的多语言对话机器人系统及其对话方法

技术领域

本发明涉及智能语音技术领域，具体涉及一种基于语境和Transformer的多语言对话机人系统及其对话方法。

背景技术

智能问答(Question Answering,QA)是指利用计算机自动回答用户所提出的问题以满足用户知识需求的问答系统。不同于现有的搜索引擎，问答系统是信息服务的一种高级形式，系统返回用户的不再是基于关键词匹配排序的文档列表，而是精准的自然语言答案。近年来，随着人工智能的飞速发展，智能问答已经成为备受关注且发展前景广泛的研究方向。现代的问答系统是融合知识库、信息检索、机器学习、自然语言理解等技术的人机对话服务。智能问答系统在很多方面不同于传统的信息检索系统：

1)系统的输入、输出都是自然语言；

2)需要考虑用户对话的上下文，即语境；

3)在不能理解用户意图的情况下，会请求用户补充信息。目前智能问答系统存在数据难收集(尤其是小语种)、跨语言能力差、多轮问答任务场景难度大等问题。

得益于深度学习、自然语言处理和机器翻译的快速发展，智能问答系统迎来了新的机遇和挑战。目前的智能问答系统性能，与人工智能的其他领域还存在很大的差距。虽然人工智能技术得到了长足的发展，但目前智能问答系统还存在着不够稳定、不够智能、跨语言对话能力不足等缺点。

而人工翻译来辅助人工客服或智能客服完成跨语言对话，具有翻译成本高，回答质量受个人影响大，主观性强等弱点。

因此，现有技术存在缺陷，需要进一步改进。

发明内容

针对现有技术存在的问题，本发明提供一种基于语境和Transformer的多语言对话机人系统及其对话方法。

为实现上述目的，本发明的具体方案如下：

本发明提供一种基于语境和Transformer的多语言对话机器人系统，包括：目标语种识别器模块、语音识别模块、语音情绪识别模块、语音多语言融合器模块以及语音合成模块；

所述目标语种识别器模块用朴素贝叶斯分类器对不同的语种进行识别；

所述语音识别模块是根据目标语种选择不同的语音识别引擎并得到识别后的文本问句；

所述语音情绪识别模块基于多模态语音情感分类算法对语音进行情绪识别；

所述语音多语言融合器模块是基于Transformer的端到端神经网络机器翻译引擎将不同语种的源语言文本翻译成不同语种的目标语言并结合语音情绪特征和多语言融合文本答案进行分类输出情绪化翻译结果；

所述语音合成模块将目标语言答案文本通过语音合成输出语音答案。

优选地，所述目标语种识别器模块用朴素贝叶斯分类器对不同的语种进行识别。

优选地，所述语音识别模块识别语音过程中将多语言融合文本经过BERT文本语义特征编码器处理得到文本语义特征向量。

优选地，所述语音情绪识别模块对语音进行情绪识别具体是将音频文件经过MDRE语音情感分类器处理得到音频情绪特征。

本发明还提供一种采用基于语境和Transformer的多语言对话机器人系统的对话方法，包括如下步骤：

S1：目标语种识别器模块，将客户的声音信息或文本信息通过目标语种识别器识别出目标语种；

S2：语音识别模块，根据目标语种选择不同的语音识别引擎并得到识别后的文本问句；

S3：语音情绪识别模块，对语音进行情绪识别，输出音频情绪特征向量；

S4：语音多语言融合器模块，将步骤S2中语音识别的结果先通过基于Transformer的基准语言翻译模块得到不同目标语言的答案文本并将多语言答案进行融合，最后融合步骤S3中得到音频情绪特征向量输出目标语言答案文本，即情绪化翻译结果；

S5：语音合成模块，将目标语言答案文本通过语音合成输出语音答案。

优选地，步骤S4具体包括：

S41，多语言融合文本经过文本语义特征编码器得到文本语义特征向量；

S42，对应音频文件经过语音情感分类器得到音频情绪特征向量；

S43，文本语义特征向量和音频情绪特征向量融合，得到融合后的特征；

S44，融合后的特征经过情绪化翻译器得到目标语言答案文本。

优选地，步骤S41具体包括：

S411，输入源语言通过通用表征器得到源语言句子的通用特征向量；

S412，源语言句子的通用特征向量通过Transformer编码器得到编码器输出向量；

S413，输入目标语言token，判断目标语言(解码时根据目标语言token来选择不同的语种解码器来进行解码得到翻译结果)；

S414，根据不同的目标语言，将编码器输出向量C送到对应的Transformer解码器进行解码，得到目标译文；

具体算法如下：

其中，

k(如1,2,3,…，n)表示语种编号，比如中文(k＝1),英文(k＝2),

t(1,2,3,…，T_k)表示目标语言的序列长度，

y_k为对应语种k的参考译文，

C_k为语种k对应的上下文向量。

优选地，步骤S43具体算法如下：

其中，

A，是音频情绪特征向量；

T，是文本语义特征向量。

优选地，步骤S44具体算法如下：

C2＝EncoderTransformer(concat(Z,T))；

其中，

m为目标语言答案文本的序列长度,

θ为模型参数，

y_<t表示y₁,y₂,…，y_t-1；

C为编码器输出向量C(上下文特征)。

采用本发明的技术方案，具有以下有益效果：

本发明提供一种基于语境和Transformer的多语言对话机器人系统及其对话方法，包括：目标语种识别器模块、语音识别模块、语音情绪识别模块、语音多语言融合器模块和语音合成模块；其中，目标语种识别器模块对不同的语种进行识别；语音识别模块是得到识别后的文本问句；语音情绪识别模块对语音进行情绪识别；语音多语言融合器模块将目标语言结合语音情绪特征和多语言融合文本答案输出情绪化翻译结果；语音合成模块将答案文本通过语音合成输出语音答案。本发明通过自动识别目标语种和语音情绪，进行语义多语言融合进行答案选择，并通过基于语境的答案翻译，能够智能回答多语言的问题，降低了采用人工客服的时间成本和资金成本，提高了对话机器人回答能力，从而支撑面向国际用户的对话机器人的应用研发。

附图说明

图1是基于语境和transformer的跨语言对话机器人框图；

图2是语音多语言融合器示意图；

图3是基于Transformer的基准语言翻译引擎；

图4是基于Transformer目标语言情绪化翻译模块。

具体实施方式

以下结合附图和具体实施例，对本发明进一步说明。

结合图1-图4对本发明进行具体说明。

本申请针对目前智能问答系统面临的对话数据难收集、不支持跨语言问答等痛点，解决各种业务场景中的智能客服问题。随着人工智能技术和自然语言技术发展，特别是随着深度学习技术的发展，自然语言理解得到长足的方法，使用在保险专业场景这个垂直领域，机器智能客服已经显示了它众多的优点，如知识丰富、客观性强、回复快速和低成本等优点，但也同时存在稳定性不足，跨语言对话能力弱以及语料缺乏等不足。

本发明能够将智能问答、语音情绪识别和机器翻译进行有机结合，能够克服智能问答系统现有的不足，同时能够最大限度的利用智能问答和机器翻译的优点。不但能够提升智能客服的稳定性，也能够利用机器翻译技术提高机器智能客服的跨语言对话能力。本发明通过自动识别目标语种和语音情绪，利用语音多语言融合器和自动化的基于语境的答案翻译，能够智能地回答跨语言的问题，降低了采用人工客服的时间成本和资金成本，提高了对话机器人回答能力，从而支撑面向国际用户的对话机器人的应用研发。

本申请可以为客户提供售前、售后咨询，产品推荐以及常见知识问题等能力。能够同时达到高准确率、快速回答、高可靠性、以及跨语言交互等优点。

如图1所示，本申请提出的基于语境和Transformer的跨语言对话机器人系统包含五大模块，包括目标语种识别器模块、语音识别模块、语音情绪识别模块、语音多语言融合器模块以及语音合成模块。其中，

目标语种识别器模块用的是朴素贝叶斯分类器对不同的语种进行识别；

语音识别模块是根据目标语种选择不同的语音识别引擎并得到识别后的文本问句；

语音情绪识别模块基于多模态语音情感分类算法对语音进行情绪识别；

语音多语言融合器模块是基于Transformer的端到端神经网络机器翻译引擎将不同语种的源语言文本翻译成不同语种的目标语言并结合语音情绪特征和多语言融合文本答案进行分类输出情绪化翻译结果；

语音合成模块将目标语言答案文本通过语音合成输出语音答案。

采用基于语境和Transformer的跨语言对话机器人系统，进行对话的方法，步骤如下：

S1：目标语种识别器模块，将客户的声音信息或文本信息通过目标语种识别器(朴素贝叶斯分类器)识别出目标语种；

具体的，步骤4中基于Transformer目标语言情绪化翻译模块，流程如图4所示：

S41，多语言融合文本经过文本语义特征编码器(如BERT)得到文本语义特征向量T；

text_ans＝concat(Y₁,Y₂,K,Y_n)；

T＝BERT(text_ans)；

S42，对应音频文件audio_vec经过语音情感分类器(如MDRE)得到音频情绪特征向量A；

A＝MDRE(audio_vec)；

具体算法如下：

其中，

A，是音频情绪特征向量；

T，是文本语义特征向量；

S44，融合后的特征经过情绪化翻译器得到目标语言答案文本；

具体算法如下：

C2＝EncoderTransformer(concat(Z,T))；

其中，

m为目标语言答案文本的序列长度,

θ为模型参数，

y_<t表示y₁,y₂,…，y_t-1。

更具体的说，步骤4中的基于Transformer的基准语言翻译引擎内部实现如图3所示：

S411，输入源语言(中、英或其他语言)通过通用表征器得到源语言句子的通用特征向量F(不同语言中具有相同意义的句子都表示成相同的特征向量)；

S412，源语言句子的通用特征向量F通过Transformer编码器得到编码器输出向量C(上下文特征)；

具体算法如下：

C＝EncoderTransformer(x₁,x₂,x₃,K,x_M)；

S413，输入目标语言token，，判断目标语言，(根据目标语言token，选择对应的语种解码器)；

具体算法如下：

其中，

k(如1,2,3,…，n)表示语种编号，比如中文(k＝1),英文(k＝2),

t(1,2,3,…，T_k)表示目标语言的序列长度，

y_k为对应语种k的参考译文，

C_k为语种k对应的上下文向量。

本申请具有如下创新点：

1)基于Transformer结构提出了多语言互译架构：不同语种的源语言句子通过通用表征器可以得到通用特征向量(不同语言中具有相同意义的句子都表示成相同的特征向量)，因而对于不同语种的输入句子共享Transformer编码，解码时根据目标语言token来选择不同的语种解码器来进行解码得到翻译结果。

2)神经机器翻译与智能对话系统有机结合。缓和了智能问答系统数据难收集(尤其是小语种)的问题，本申请在训练智能对话系统时，只需要中文对话数据就行，而中文数据相对其他多数语种而言要更易于收集。而和对话数据收集相比，收集用于神经机器翻译训练的各国平行语料要简单很多。

3)在生成目标语言答案文本前融合了多语言答案以及语音情绪特征，得到的答案文本更准确，更符合对话情景。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的保护范围内。

Claims

1.一种基于语境和Transformer的多语言对话机器人系统，其特征在于包括：

目标语种识别器模块、语音识别模块、语音情绪识别模块、语音多语言融合器模块以及语音合成模块；

所述目标语种识别器模块对不同的语种进行识别；

2.根据权利要求1所述的基于语境和Transformer的多语言对话机器人系统，其特征在于，所述目标语种识别器模块用朴素贝叶斯分类器对不同的语种进行识别。

3.根据权利要求1所述的基于语境和Transformer的多语言对话机器人系统，其特征在于，所述语音识别模块识别语音过程中将多语言融合文本经过BERT文本语义特征编码器处理得到文本语义特征向量。

4.根据权利要求1所述的基于语境和Transformer的多语言对话机器人系统，其特征在于，所述语音情绪识别模块对语音进行情绪识别具体是将音频文件经过MDRE语音情感分类器处理得到音频情绪特征。

5.一种基于语境和Transformer的多语言对话机器人系统的对话方法，其特征在于，包括如下步骤：

S1：目标语种识别器模块将客户的声音信息或文本信息通过目标语种识别器识别出目标语种；

S2：语音识别模块根据目标语种选择不同的语音识别引擎并得到识别后的文本问句；

S3：语音情绪识别模块对语音进行情绪识别，输出音频情绪特征向量；

S4：语音多语言融合器模块将步骤S2中语音识别的结果先通过基于Transformer的基准语言翻译模块得到不同目标语言的答案文本并将多语言答案进行融合，最后融合步骤S3中得到音频情绪特征向量输出目标语言答案文本，即情绪化翻译结果；

S5：语音合成模块将目标语言答案文本通过语音合成输出语音答案。

6.根据权利要求5所述的基于语境和Transformer的多语言对话机器人系统的对话方法，其特征在于，步骤S4具体包括：

7.根据权利要求6所述的基于语境和Transformer的多语言对话机器人系统的对话方法，其特征在于，步骤S41具体包括：

S413，输入目标语言token，判断目标语言；

S414，根据不同的目标语言，将编码器输出向量送到对应的Transformer解码器进行解码，得到目标译文；

具体算法如下：

其中，

k(如1,2,3,…，n)表示语种编号；

t(1,2,3,…，T_k)表示目标语言的序列长度，

y_k为对应语种k的参考译文，

C_k为语种k对应的上下文向量。

8.根据权利要求6所述的基于语境和Transformer的多语言对话机器人系统的对话方法，其特征在于，步骤S43具体算法如下：

其中，

A，是音频情绪特征向量；

T，是文本语义特征向量。

9.根据权利要求6所述的基于语境和Transformer的多语言对话机器人系统的对话方法，其特征在于，步骤S44具体算法如下：

C2＝EncoderTransformer(concat(Z,T))；

其中，

m为目标语言答案文本的序列长度,

θ为模型参数，

y_<t表示y₁,y₂,…，y_t-1；

C为编码器输出向量，上下文特征。