CN111128126B

CN111128126B - 多语种智能语音对话的方法及系统

Info

Publication number: CN111128126B
Application number: CN201911392129.0A
Authority: CN
Inventors: 张朋; 魏云波; 周琦
Original assignee: Haizhi Smart Shanghai Intelligent Technology Co ltd
Current assignee: Haizhi Smart Shanghai Intelligent Technology Co ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2023-04-07
Anticipated expiration: 2039-12-30
Also published as: CN111128126A

Abstract

本发明公开一种多语种智能语音对话的方法及系统，建立互联网端与手机端进行通信联系的通道；通过通讯服务器实现语音媒体信息流的传输；语音识别；语义分析；话术生成；文字转语音；语音播放。本发明的语种识别根据获取声音快速识别所属语种，判断是否需要切换通话语种；语音识别支持多种语种的语音识别，不同的语种有不同的处理方式；语义分析使用BERT与词库模型结合的方式，每个模型均基于不同语种及不同的应用场景分别训练；话术生成设置多语种话术组，其中每个语种需单独设置单套话术；文字转语音支持多种语种的文字转语音，包括人工录音模型和语音合成模型，从而实现在通话中根据客户交互中使用语言所属语种实时切换到对方语种与之交互。

Description

多语种智能语音对话的方法及系统

技术领域

本发明涉及互联网通讯技术领域，尤其是一种多语种智能语音对话的方法及系统。

背景技术

在现在很多智能外呼系统中，都是针对某种特定语言，前置性设计一套话术，比如创建一套中文话术，并以此话术和客户进行交互，如果出现客户听不懂该语言，则无法与客户进行有效沟通。这种现象在一些多语言的国家或一些需要跨国、跨语种沟通场景中尤其常见。

发明内容

为解决客户语言与智能外呼系统输出语言不匹配时，无法进行有效沟通以及客户调整了对话语言，智能外呼系统不能及时调整，有碍理解沟通的问题，本发明提供一种多语种智能语音对话的方法，让智能外呼系统更加智能地针对客户的语言进行自动切换到对方使用的语种进行交互。

为实现上述目的，本发明采用下述技术方案：

一种多语种智能语音对话的方法，包括以下步骤：

步骤1，建立互联网端与手机端进行通信联系的通道

通过外呼装置实现在互联网端基于websocket协议(一种在单个TCP连接上进行全双工通信的协议)以及webrtc协议(一种支持网页浏览器进行实时语音对话或视频对话的通讯协议)的基础上将互联网端和客户手机端通话信道打通；

步骤2，通过通讯服务器实现语音媒体信息流的传输

通道建立后，通过通讯服务器完成通道内通话双方媒体声音传输；使用电话软交换平台捕获经由通道传输的媒体声音流，并开三通将媒体声音导出；

步骤3，语音识别

步骤3.1，预处理：通过预加重、分帧和加窗等方式进行声音预处理。

步骤3.2，语种识别：将分帧加窗后的信号转换为语谱图，使用深度卷积神经网络针对语谱图数据进行特征提取，识别出相应语种；若识别出的语种非当前交互语种，则当前交互语种切换为识别出的语种类型。

步骤3.3，提取声学特征：(N维梅尔频率倒谱系数MFCC)对分帧加窗后的各帧信号进行快速傅里叶FFT变换得到相应的频谱信号，并对语音信号的频谱幅度谱取模平方得到语音信号的能量谱，能量谱通过一组梅尔滤波器组，计算每个滤波器的对数输出能量，带入离散余弦变换(DCT)得到MFCC系数，提取动态差分参数，得到N维MFCC参数；

步骤3.4，根据语种提取对应语音的声学特征：根据不同语种特点，使用类似步骤3.1和步骤3.2所述提取声学特征步骤，提取其他声学特征，包括不限于GFCC，PLP和MFSC等，并根据不同语种实际使用情况选用声学特征或对声学特征进行混合处理；

步骤3.5，静音检测：通过预训练的基于深度神经网络DNN和长短时记忆单元LSTM的混合网络结构进行静音检测；

步骤3.6，断句：根据静音检测结果及该语种对应预设阈值将语音流进行断句处理；

步骤3.7，语音转文字：通过声学模型(包括不限于GMM-HMM和DNN+CTC等)和语言模型(基于深度神经网络和长短时记忆单元)将语音转为对应语种文本信息输出；

步骤4，语义分析

步骤4.1，意图分析：即通过步骤3.5中获得的文本信息提取出对应意图序列；本方法中采用面向语言理解的深度双向变换预训练BERT模型与自定义词库模型相结合的方式实现；本方法的特征在于，语义分析中用到的模型库，每个模型均基于不同语种及不同的应用场景分别训练；并设定场景对应默认语种，在步骤3.2所述当前交互语种对应场景的模型不存在时使用；

步骤4.1.1，若步骤3.2所述当前交互语种对应场景的模型存在，则直接使用对应模型；

步骤4.1.2，若步骤3.2所述当前交互语种对应场景的模型不存在，将步骤3.5所述文本信息翻译成默认语种的文本信息，输入到默认语种对应的模型当中；

步骤4.2，BERT模型：步骤3.5或步骤4.1.2所述获得的对应句子级别的文本信息，输入基于BERT预训练模型用特定语种及场景的语料进行再训练后的模型，获得意图序列；将传统的词义分析提升至句子级别，采用的是双向语言模型的方式，能够更好的融合前后文的知识，获得意图更准确；但尽管BERT的预训练模型，通过前期的大量语料的无监督训练，为下游任务学习大量的先验的语言、句法和词义等信息，在特定语种及场景下，直接完全依赖BERT得到的结果往往不尽如人意，在尚未用本地语料库讲BERT模型训练到足够好时，需要引入自定义词库模型相结合实现；

步骤4.3，自定义词库模型：结合场景流程导向、知识库和话术训练等模块，将步骤3.5或步骤4.1.2所述获得的对应文本信息及目前会话流程节点信息输入到已训练的场景词库模型中，先提取到文本信息关键词，再输出文本信息对应的意图序列；结合自定义词库模型，更精准地贴合特定场景的专业词汇或语句，更好的完成词义消歧；场景词库模型中获取的意图序列，根据训练好的意图权重，更好的区分一句话在不同场景表达的意图，提升了语义分析在特定场景的准确度。

步骤5，话术生成：

步骤5.1，单套话术制作：根据场景会话要求，利用可视化流程图编辑、可视化编辑和导入等方式，为各场景设置基于该场景的对话交互流程，描述每个流程节点之间的关系，定义各种可能的意图需要导向的下一个节点，从而串联整个对话交互场景；每个节点及意图配备一条或多条交互话术；此外还设置一套知识库作为场景交互话术补充；

步骤5.2，话术组制作：话术组即单套话术的集合，用在一些复杂的交互场景，便于在多套话术间灵活切换；多语种智能语音对话系统，为每种使用到的语种单独制作一套完整的交互话术，组成一套多语种话术组，可在通话中用不同语种进行交互，满足通话中根据客户对话在不同语种间无缝灵活切换；

步骤5.3，话术生成：即在交互过程中的实时获得需要反馈的交互话术内容；

步骤5.3.1，根据步骤3.2所述当前交互语种，对应到多语种话术组中对应的一套交互话术；

步骤5.3.2，定位到当前节点，用步骤4.1所述获得意图匹配话术生成模块定义的意图，获得对应交互话术；

步骤5.3.3，匹配知识库，用步骤4.1所述获得意图匹配话术生成模块定义的意图，获得对应交互话术；

步骤5.3.4，经过步骤5.3.2和步骤5.3.3中意图匹配，至少获得一条对应交互话术；若获得不止一条交互话术，则根据其他信息(如通话历史等)按权重获取，若仍存在多条交互话术，则根据设置进行随机或顺序方式获取交互话术；

步骤6，文字转语音

步骤6.1，本系统及方法选中文字转语音存在人工录音模型、语音合成模型及两者结合多种实现方式；

步骤6.2，根据场景及预期使用的多个语种准备各语种的交互语音，可采用人工录制并训练对应声音模型用于后续关键参数合成，设置需要的语音特点(包括不限于性别、音色、语调和语速等)合成交互语音；

步骤6.3，交互语音及模型准备好后，经过播放语音进行试听和电话试打后选用适合的效果理想的交互语音及模型；

步骤6.4，若步骤3.2中所述当前语种对应的交互语音及模型已准备好，则直接调用交互语音及模型；

步骤6.4.1，若步骤5中所述生成的交互话术中不含有关键词参数，则直接选取对应准备好的交互话术声音；

步骤6.4.2，若步骤5中所述生成的交互话术中含有关键词参数，则将关键词参数文本信息输入到训练好的声音模型，得到合成好的关键词语音；再将关键词语音与上下文语音拼接合成完整的交互话术声音。

步骤6.5，若步骤3.2中所述当前交互语种对应的交互语音及模型未准备好，需翻译成当前交互语种对应的文字，再调用外接语音合成应用将翻译后的交互话术文本合成对应语音；

步骤6.5.1，若步骤5中所述生成的交互话术中不含有关键词参数，则直接翻译成当前交互语种对应的文字并调用外接语音合成应用合成交互话术语音；

步骤6.5.2，若步骤5中所述生成的交互话术中含有关键词参数，需要将其以文本形式拼接成完整的交互话术文字，再翻译成当前交互语种对应的文字并调用外接语音合成应用合成交互话术语音；

步骤7，语音播放

调用电话软交互的放音接口播放如步骤6中所述获得的交互话术语音。

进一步的，基于上述方法的一种多语种智能语音对话的系统，包括，外呼系统服务器，用于由客户的网络系统向手机客户端建立双向通讯通道；中间服务器，实现建立通讯通道后实现语音媒体信息流的传输以及获取语音媒体信息流中的信息，并连接语音分析模块对获取的语音数据进行分析；文件存储服务器，用于存储相关数据。

有益效果：

本发明的语种识别可以根据获取声音快速识别所属语种，判断是否需要切换通话语种，为后续通话交互做准备；语音识别可以支持多种语种的语音识别，不同的语种有不同的处理方式，有些需单独建模实现；语义分析可以使用BERT与词库模型结合的方式，每个模型均基于不同语种及不同的应用场景分别训练；话术生成可以设置多语种话术组，其中每个语种需单独设置单套话术；文字转语音可以支持多种语种的文字转语音，包括人工录音模型和语音合成模型；通过翻译可以弥补某些语种业务模型的缺失，支持大量语种，当未准备语种对应的语义分析和话术组时，将语音识别出的文本信息翻译成默认语种，并在话术生成后将回复交互话术文本信息翻译回客户使用语种，从而实现在通话中根据客户交互中使用语言所属语种实时切换到对方的语种与之交互。

附图说明

图1是本发明的整体流程图；

图2是本发明的多语种AI智能交互处理流程图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明提供一种多语种智能语音对话的方法，如图1所示，包括以下步骤：

步骤1，建立互联网端与手机端进行通信联系的通道

步骤2，通过通讯服务器实现语音媒体信息流的传输

如图2所示，步骤3，语音识别

如图2所示，步骤4，语义分析

如图2所示，步骤5，话术生成：

如图2所示，步骤6，文字转语音

步骤7，语音播放

基于上述方法的一种多语种智能语音对话的系统，包括，外呼系统服务器，用于由客户的网络系统向手机客户端建立双向通讯通道；中间服务器，实现建立通讯通道后实现语音媒体信息流的传输以及获取语音媒体信息流中的信息，并连接语音分析模块对获取的语音数据进行分析；文件存储服务器，用于存储相关数据。

具体可参照如下列表中的硬件和软件信息予以实现；

软件配置

以100路机器人为例：

实施例1：一通境外公司打给当地某中国居民的业务电话

AI机器人按照计划通过外呼装置中的通讯装置发起拨打请求经由通讯服务器转发，建立通讯通道；

AI机器人按照场景设置，使用默认语言如英语播放打招呼对应话术；

客户回应声音后，获取客户并判断客户使用语种，如为当前语种，则按照当前语种完成后续语音分析、语义分析、话术生成、文字转语音、语音播放各处理步骤,与客户进行沟通交流；

当客户听不懂时，回复“什么？”“听不懂”“可以说中文吗”“类似Can you speakChinese的对语种切换的请求”或出现了其他的中文描述；

若客户使用类似Can you speak Chinese的回复，客户使用的仍然是英文，按照英文语种，完成后续语音分析、语义分析、话术生成、文字转语音、语音播放各处理步骤与客户进行沟通交流,但播放的语音会是针对此场景设置的中文信息如“可以的”；

若客户使用中文回复，在语音分析的语种识别判断出客户使用的是中文，与原交互语种不同，设置当前交互语种为中文，并按照中文语种完成后续语音分析、语义分析、话术生成、文字转语音、语音播放各步骤与客户进行沟通交流。

实施例2：一通打给印度的业务电话

因为印度是一个民族众多，语言复杂的的国家，不同的地区可能会使用不同语种的语言；

AI机器人按照场景设置，使用默认语言如印地语播放打招呼语言；

监控客户回应声音进行语种识别，若客户使用的是“安达曼语”，当前交互语言设置为“安达曼语”，并通过语音分析将客户的语音转为对应文本信息；

语义识别时发现并没有对应模型，则将“安达曼语”对应文本信息，翻译成默认“印地语”对应文本信息；

话术生成部分将获得“印地语”需回复的交互话术文本信息；

文字转语音时，将“印地语”回复的交互话术文本信息翻译成“安达曼语”回复的交互话术文本信息；再合成“安达曼语”交互话术语音；

播放“安达曼语”交互话术语音；即可使用“安达曼语”与客户进行沟通。

本发明未涉及部分与现有技术相同或可采用现有技术加以实现。

对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种多语种智能语音对话的方法，其特征在于，包括以下步骤：

步骤1，建立互联网端与手机端进行通信联系的通道

通过外呼装置实现在互联网端基于websocket协议以及webrtc协议的基础上将互联网端和客户手机端通话信道打通；

步骤2，通过通讯服务器实现语音媒体信息流的传输

步骤3，语音识别

步骤3.1，预处理：通过包括预加重方式、分帧方式和加窗方式进行声音预处理；

步骤3.2，语种识别：将分帧加窗后的信号转换为语谱图，使用深度卷积神经网络针对语谱图数据进行特征提取，识别出相应语种；若识别出的语种非当前交互语种，则当前交互语种切换为识别出的语种类型；

步骤3.3，提取声学特征：对分帧加窗后的各帧信号进行快速傅里叶FFT变换得到相应的频谱信号，并对语音信号的频谱幅度谱取模平方得到语音信号的能量谱，能量谱通过一组梅尔滤波器组，计算每个滤波器的对数输出能量，带入离散余弦变换得到MFCC系数，提取动态差分参数，得到N维MFCC参数；

步骤3.4，根据语种提取对应语音的声学特征：根据不同语种特点，使用步骤3.1和步骤3.2所述提取声学特征步骤，提取其他声学特征，并根据不同语种实际使用情况选用声学特征或对声学特征进行混合处理；

步骤3.7，语音转文字：通过声学模型和语言模型将语音转为对应语种文本信息输出；

步骤4，语义分析

步骤4.1，意图分析：通过步骤3.5中获得的文本信息提取出对应意图序列；

步骤4.2，BERT模型：步骤3.5所述获得的对应句子级别的文本信息，输入基于BERT预训练模型用特定语种及场景的语料进行再训练后的模型，获得意图序列；

步骤4.3，自定义词库模型：结合包括场景流程导向模块、知识库模块和话术训练模块，将步骤3.5所述获得的对应文本信息及目前会话流程节点信息输入到已训练的场景词库模型中，先提取到文本信息关键词，再输出文本信息对应的意图序列；

步骤5，话术生成

步骤5.1，单套话术制作：根据场景会话要求，利用包括可视化流程图编辑方式、可视化编辑方式和导入方式，为各场景设置基于该场景的对话交互流程，描述每个流程节点之间的关系，定义各种可能的意图需要导向的下一个节点，从而串联整个对话交互场景；每个节点及意图配备一条或多条交互话术；此外还设置一套知识库作为场景交互话术补充；

步骤5.2，话术组制作：为每种使用到的语种单独制作一套完整的交互话术，组成一套多语种话术组，在通话中用不同语种进行交互，满足通话中根据客户对话在不同语种间无缝灵活切换；

步骤5.3，话术生成：在交互过程中实时获得需要反馈的交互话术内容；

步骤6，文字转语音

步骤6.1，选中文字转语音存在人工录音模型、语音合成模型，及两者结合多种实现方式；

步骤6.2，根据场景及预期使用的多个语种准备各语种的交互语音，采用人工录制并训练对应声音模型用于后续关键参数合成，设置需要的语音特点合成交互语音；

步骤7，语音播放

2.根据权利要求1所述的多语种智能语音对话的方法，其特征在于，所述步骤4.1包括以下子步骤：

步骤4.1.2，若步骤3.2所述当前交互语种对应场景的模型不存在，将步骤3.5所述文本信息翻译成默认语种的文本信息，输入到默认语种对应的模型当中。

3.根据权利要求1所述的多语种智能语音对话的方法，其特征在于，所述步骤5.3包括以下子步骤：

步骤5.3.4，经过步骤5.3.2和步骤5.3.3中意图匹配，至少获得一条对应交互话术；若获得不止一条交互话术，则根据其他信息按权重获取，若仍存在多条交互话术，则根据设置进行随机或顺序方式获取交互话术。

4.根据权利要求1所述的多语种智能语音对话的方法，其特征在于，所述步骤6.4包括以下子步骤：

5.一种多语种智能语音对话的系统，应用权利要求1-4任一一种方法，其特征在于，包括，

外呼系统服务器，用于由客户的网络系统向手机客户端建立双向通讯通道；

中间服务器，实现建立通讯通道后实现语音媒体信息流的传输以及获取语音媒体信息流中的信息，并连接语音分析模块对获取的语音数据进行分析；

文件存储服务器，用于存储相关数据。