CN111128126B - 多语种智能语音对话的方法及系统 - Google Patents

多语种智能语音对话的方法及系统 Download PDF

Info

Publication number
CN111128126B
CN111128126B CN201911392129.0A CN201911392129A CN111128126B CN 111128126 B CN111128126 B CN 111128126B CN 201911392129 A CN201911392129 A CN 201911392129A CN 111128126 B CN111128126 B CN 111128126B
Authority
CN
China
Prior art keywords
voice
language
interactive
model
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911392129.0A
Other languages
English (en)
Other versions
CN111128126A (zh
Inventor
张朋
魏云波
周琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Haizhi Smart Shanghai Intelligent Technology Co ltd
Original Assignee
Haizhi Smart Shanghai Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Haizhi Smart Shanghai Intelligent Technology Co ltd filed Critical Haizhi Smart Shanghai Intelligent Technology Co ltd
Priority to CN201911392129.0A priority Critical patent/CN111128126B/zh
Publication of CN111128126A publication Critical patent/CN111128126A/zh
Application granted granted Critical
Publication of CN111128126B publication Critical patent/CN111128126B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/72Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for transmitting results of analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开一种多语种智能语音对话的方法及系统,建立互联网端与手机端进行通信联系的通道;通过通讯服务器实现语音媒体信息流的传输;语音识别;语义分析;话术生成;文字转语音;语音播放。本发明的语种识别根据获取声音快速识别所属语种,判断是否需要切换通话语种;语音识别支持多种语种的语音识别,不同的语种有不同的处理方式;语义分析使用BERT与词库模型结合的方式,每个模型均基于不同语种及不同的应用场景分别训练;话术生成设置多语种话术组,其中每个语种需单独设置单套话术;文字转语音支持多种语种的文字转语音,包括人工录音模型和语音合成模型,从而实现在通话中根据客户交互中使用语言所属语种实时切换到对方语种与之交互。

Description

多语种智能语音对话的方法及系统
技术领域
本发明涉及互联网通讯技术领域,尤其是一种多语种智能语音对话的方法及系统。
背景技术
在现在很多智能外呼系统中,都是针对某种特定语言,前置性设计一套话术,比如创建一套中文话术,并以此话术和客户进行交互,如果出现客户听不懂该语言,则无法与客户进行有效沟通。这种现象在一些多语言的国家或一些需要跨国、跨语种沟通场景中尤其常见。
发明内容
为解决客户语言与智能外呼系统输出语言不匹配时,无法进行有效沟通以及客户调整了对话语言,智能外呼系统不能及时调整,有碍理解沟通的问题,本发明提供一种多语种智能语音对话的方法,让智能外呼系统更加智能地针对客户的语言进行自动切换到对方使用的语种进行交互。
为实现上述目的,本发明采用下述技术方案:
一种多语种智能语音对话的方法,包括以下步骤:
步骤1,建立互联网端与手机端进行通信联系的通道
通过外呼装置实现在互联网端基于websocket协议(一种在单个TCP连接上进行全双工通信的协议)以及webrtc协议(一种支持网页浏览器进行实时语音对话或视频对话的通讯协议)的基础上将互联网端和客户手机端通话信道打通;
步骤2,通过通讯服务器实现语音媒体信息流的传输
通道建立后,通过通讯服务器完成通道内通话双方媒体声音传输;使用电话软交换平台捕获经由通道传输的媒体声音流,并开三通将媒体声音导出;
步骤3,语音识别
步骤3.1,预处理:通过预加重、分帧和加窗等方式进行声音预处理。
步骤3.2,语种识别:将分帧加窗后的信号转换为语谱图,使用深度卷积神经网络针对语谱图数据进行特征提取,识别出相应语种;若识别出的语种非当前交互语种,则当前交互语种切换为识别出的语种类型。
步骤3.3,提取声学特征:(N维梅尔频率倒谱系数MFCC)对分帧加窗后的各帧信号进行快速傅里叶FFT变换得到相应的频谱信号,并对语音信号的频谱幅度谱取模平方得到语音信号的能量谱,能量谱通过一组梅尔滤波器组,计算每个滤波器的对数输出能量,带入离散余弦变换(DCT)得到MFCC系数,提取动态差分参数,得到N维MFCC参数;
步骤3.4,根据语种提取对应语音的声学特征:根据不同语种特点,使用类似步骤3.1和步骤3.2所述提取声学特征步骤,提取其他声学特征,包括不限于GFCC,PLP和MFSC等,并根据不同语种实际使用情况选用声学特征或对声学特征进行混合处理;
步骤3.5,静音检测:通过预训练的基于深度神经网络DNN和长短时记忆单元LSTM的混合网络结构进行静音检测;
步骤3.6,断句:根据静音检测结果及该语种对应预设阈值将语音流进行断句处理;
步骤3.7,语音转文字:通过声学模型(包括不限于GMM-HMM和DNN+CTC等)和语言模型(基于深度神经网络和长短时记忆单元)将语音转为对应语种文本信息输出;
步骤4,语义分析
步骤4.1,意图分析:即通过步骤3.5中获得的文本信息提取出对应意图序列;本方法中采用面向语言理解的深度双向变换预训练BERT模型与自定义词库模型相结合的方式实现;本方法的特征在于,语义分析中用到的模型库,每个模型均基于不同语种及不同的应用场景分别训练;并设定场景对应默认语种,在步骤3.2所述当前交互语种对应场景的模型不存在时使用;
步骤4.1.1,若步骤3.2所述当前交互语种对应场景的模型存在,则直接使用对应模型;
步骤4.1.2,若步骤3.2所述当前交互语种对应场景的模型不存在,将步骤3.5所述文本信息翻译成默认语种的文本信息,输入到默认语种对应的模型当中;
步骤4.2,BERT模型:步骤3.5或步骤4.1.2所述获得的对应句子级别的文本信息,输入基于BERT预训练模型用特定语种及场景的语料进行再训练后的模型,获得意图序列;将传统的词义分析提升至句子级别,采用的是双向语言模型的方式,能够更好的融合前后文的知识,获得意图更准确;但尽管BERT的预训练模型,通过前期的大量语料的无监督训练,为下游任务学习大量的先验的语言、句法和词义等信息,在特定语种及场景下,直接完全依赖BERT得到的结果往往不尽如人意,在尚未用本地语料库讲BERT模型训练到足够好时,需要引入自定义词库模型相结合实现;
步骤4.3,自定义词库模型:结合场景流程导向、知识库和话术训练等模块,将步骤3.5或步骤4.1.2所述获得的对应文本信息及目前会话流程节点信息输入到已训练的场景词库模型中,先提取到文本信息关键词,再输出文本信息对应的意图序列;结合自定义词库模型,更精准地贴合特定场景的专业词汇或语句,更好的完成词义消歧;场景词库模型中获取的意图序列,根据训练好的意图权重,更好的区分一句话在不同场景表达的意图,提升了语义分析在特定场景的准确度。
步骤5,话术生成:
步骤5.1,单套话术制作:根据场景会话要求,利用可视化流程图编辑、可视化编辑和导入等方式,为各场景设置基于该场景的对话交互流程,描述每个流程节点之间的关系,定义各种可能的意图需要导向的下一个节点,从而串联整个对话交互场景;每个节点及意图配备一条或多条交互话术;此外还设置一套知识库作为场景交互话术补充;
步骤5.2,话术组制作:话术组即单套话术的集合,用在一些复杂的交互场景,便于在多套话术间灵活切换;多语种智能语音对话系统,为每种使用到的语种单独制作一套完整的交互话术,组成一套多语种话术组,可在通话中用不同语种进行交互,满足通话中根据客户对话在不同语种间无缝灵活切换;
步骤5.3,话术生成:即在交互过程中的实时获得需要反馈的交互话术内容;
步骤5.3.1,根据步骤3.2所述当前交互语种,对应到多语种话术组中对应的一套交互话术;
步骤5.3.2,定位到当前节点,用步骤4.1所述获得意图匹配话术生成模块定义的意图,获得对应交互话术;
步骤5.3.3,匹配知识库,用步骤4.1所述获得意图匹配话术生成模块定义的意图,获得对应交互话术;
步骤5.3.4,经过步骤5.3.2和步骤5.3.3中意图匹配,至少获得一条对应交互话术;若获得不止一条交互话术,则根据其他信息(如通话历史等)按权重获取,若仍存在多条交互话术,则根据设置进行随机或顺序方式获取交互话术;
步骤6,文字转语音
步骤6.1,本系统及方法选中文字转语音存在人工录音模型、语音合成模型及两者结合多种实现方式;
步骤6.2,根据场景及预期使用的多个语种准备各语种的交互语音,可采用人工录制并训练对应声音模型用于后续关键参数合成,设置需要的语音特点(包括不限于性别、音色、语调和语速等)合成交互语音;
步骤6.3,交互语音及模型准备好后,经过播放语音进行试听和电话试打后选用适合的效果理想的交互语音及模型;
步骤6.4,若步骤3.2中所述当前语种对应的交互语音及模型已准备好,则直接调用交互语音及模型;
步骤6.4.1,若步骤5中所述生成的交互话术中不含有关键词参数,则直接选取对应准备好的交互话术声音;
步骤6.4.2,若步骤5中所述生成的交互话术中含有关键词参数,则将关键词参数文本信息输入到训练好的声音模型,得到合成好的关键词语音;再将关键词语音与上下文语音拼接合成完整的交互话术声音。
步骤6.5,若步骤3.2中所述当前交互语种对应的交互语音及模型未准备好,需翻译成当前交互语种对应的文字,再调用外接语音合成应用将翻译后的交互话术文本合成对应语音;
步骤6.5.1,若步骤5中所述生成的交互话术中不含有关键词参数,则直接翻译成当前交互语种对应的文字并调用外接语音合成应用合成交互话术语音;
步骤6.5.2,若步骤5中所述生成的交互话术中含有关键词参数,需要将其以文本形式拼接成完整的交互话术文字,再翻译成当前交互语种对应的文字并调用外接语音合成应用合成交互话术语音;
步骤7,语音播放
调用电话软交互的放音接口播放如步骤6中所述获得的交互话术语音。
进一步的,基于上述方法的一种多语种智能语音对话的系统,包括,外呼系统服务器,用于由客户的网络系统向手机客户端建立双向通讯通道;中间服务器,实现建立通讯通道后实现语音媒体信息流的传输以及获取语音媒体信息流中的信息,并连接语音分析模块对获取的语音数据进行分析;文件存储服务器,用于存储相关数据。
有益效果:
本发明的语种识别可以根据获取声音快速识别所属语种,判断是否需要切换通话语种,为后续通话交互做准备;语音识别可以支持多种语种的语音识别,不同的语种有不同的处理方式,有些需单独建模实现;语义分析可以使用BERT与词库模型结合的方式,每个模型均基于不同语种及不同的应用场景分别训练;话术生成可以设置多语种话术组,其中每个语种需单独设置单套话术;文字转语音可以支持多种语种的文字转语音,包括人工录音模型和语音合成模型;通过翻译可以弥补某些语种业务模型的缺失,支持大量语种,当未准备语种对应的语义分析和话术组时,将语音识别出的文本信息翻译成默认语种,并在话术生成后将回复交互话术文本信息翻译回客户使用语种,从而实现在通话中根据客户交互中使用语言所属语种实时切换到对方的语种与之交互。
附图说明
图1是本发明的整体流程图;
图2是本发明的多语种AI智能交互处理流程图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明提供一种多语种智能语音对话的方法,如图1所示,包括以下步骤:
步骤1,建立互联网端与手机端进行通信联系的通道
通过外呼装置实现在互联网端基于websocket协议(一种在单个TCP连接上进行全双工通信的协议)以及webrtc协议(一种支持网页浏览器进行实时语音对话或视频对话的通讯协议)的基础上将互联网端和客户手机端通话信道打通;
步骤2,通过通讯服务器实现语音媒体信息流的传输
通道建立后,通过通讯服务器完成通道内通话双方媒体声音传输;使用电话软交换平台捕获经由通道传输的媒体声音流,并开三通将媒体声音导出;
如图2所示,步骤3,语音识别
步骤3.1,预处理:通过预加重、分帧和加窗等方式进行声音预处理。
步骤3.2,语种识别:将分帧加窗后的信号转换为语谱图,使用深度卷积神经网络针对语谱图数据进行特征提取,识别出相应语种;若识别出的语种非当前交互语种,则当前交互语种切换为识别出的语种类型。
步骤3.3,提取声学特征:(N维梅尔频率倒谱系数MFCC)对分帧加窗后的各帧信号进行快速傅里叶FFT变换得到相应的频谱信号,并对语音信号的频谱幅度谱取模平方得到语音信号的能量谱,能量谱通过一组梅尔滤波器组,计算每个滤波器的对数输出能量,带入离散余弦变换(DCT)得到MFCC系数,提取动态差分参数,得到N维MFCC参数;
步骤3.4,根据语种提取对应语音的声学特征:根据不同语种特点,使用类似步骤3.1和步骤3.2所述提取声学特征步骤,提取其他声学特征,包括不限于GFCC,PLP和MFSC等,并根据不同语种实际使用情况选用声学特征或对声学特征进行混合处理;
步骤3.5,静音检测:通过预训练的基于深度神经网络DNN和长短时记忆单元LSTM的混合网络结构进行静音检测;
步骤3.6,断句:根据静音检测结果及该语种对应预设阈值将语音流进行断句处理;
步骤3.7,语音转文字:通过声学模型(包括不限于GMM-HMM和DNN+CTC等)和语言模型(基于深度神经网络和长短时记忆单元)将语音转为对应语种文本信息输出;
如图2所示,步骤4,语义分析
步骤4.1,意图分析:即通过步骤3.5中获得的文本信息提取出对应意图序列;本方法中采用面向语言理解的深度双向变换预训练BERT模型与自定义词库模型相结合的方式实现;本方法的特征在于,语义分析中用到的模型库,每个模型均基于不同语种及不同的应用场景分别训练;并设定场景对应默认语种,在步骤3.2所述当前交互语种对应场景的模型不存在时使用;
步骤4.1.1,若步骤3.2所述当前交互语种对应场景的模型存在,则直接使用对应模型;
步骤4.1.2,若步骤3.2所述当前交互语种对应场景的模型不存在,将步骤3.5所述文本信息翻译成默认语种的文本信息,输入到默认语种对应的模型当中;
步骤4.2,BERT模型:步骤3.5或步骤4.1.2所述获得的对应句子级别的文本信息,输入基于BERT预训练模型用特定语种及场景的语料进行再训练后的模型,获得意图序列;将传统的词义分析提升至句子级别,采用的是双向语言模型的方式,能够更好的融合前后文的知识,获得意图更准确;但尽管BERT的预训练模型,通过前期的大量语料的无监督训练,为下游任务学习大量的先验的语言、句法和词义等信息,在特定语种及场景下,直接完全依赖BERT得到的结果往往不尽如人意,在尚未用本地语料库讲BERT模型训练到足够好时,需要引入自定义词库模型相结合实现;
步骤4.3,自定义词库模型:结合场景流程导向、知识库和话术训练等模块,将步骤3.5或步骤4.1.2所述获得的对应文本信息及目前会话流程节点信息输入到已训练的场景词库模型中,先提取到文本信息关键词,再输出文本信息对应的意图序列;结合自定义词库模型,更精准地贴合特定场景的专业词汇或语句,更好的完成词义消歧;场景词库模型中获取的意图序列,根据训练好的意图权重,更好的区分一句话在不同场景表达的意图,提升了语义分析在特定场景的准确度。
如图2所示,步骤5,话术生成:
步骤5.1,单套话术制作:根据场景会话要求,利用可视化流程图编辑、可视化编辑和导入等方式,为各场景设置基于该场景的对话交互流程,描述每个流程节点之间的关系,定义各种可能的意图需要导向的下一个节点,从而串联整个对话交互场景;每个节点及意图配备一条或多条交互话术;此外还设置一套知识库作为场景交互话术补充;
步骤5.2,话术组制作:话术组即单套话术的集合,用在一些复杂的交互场景,便于在多套话术间灵活切换;多语种智能语音对话系统,为每种使用到的语种单独制作一套完整的交互话术,组成一套多语种话术组,可在通话中用不同语种进行交互,满足通话中根据客户对话在不同语种间无缝灵活切换;
步骤5.3,话术生成:即在交互过程中的实时获得需要反馈的交互话术内容;
步骤5.3.1,根据步骤3.2所述当前交互语种,对应到多语种话术组中对应的一套交互话术;
步骤5.3.2,定位到当前节点,用步骤4.1所述获得意图匹配话术生成模块定义的意图,获得对应交互话术;
步骤5.3.3,匹配知识库,用步骤4.1所述获得意图匹配话术生成模块定义的意图,获得对应交互话术;
步骤5.3.4,经过步骤5.3.2和步骤5.3.3中意图匹配,至少获得一条对应交互话术;若获得不止一条交互话术,则根据其他信息(如通话历史等)按权重获取,若仍存在多条交互话术,则根据设置进行随机或顺序方式获取交互话术;
如图2所示,步骤6,文字转语音
步骤6.1,本系统及方法选中文字转语音存在人工录音模型、语音合成模型及两者结合多种实现方式;
步骤6.2,根据场景及预期使用的多个语种准备各语种的交互语音,可采用人工录制并训练对应声音模型用于后续关键参数合成,设置需要的语音特点(包括不限于性别、音色、语调和语速等)合成交互语音;
步骤6.3,交互语音及模型准备好后,经过播放语音进行试听和电话试打后选用适合的效果理想的交互语音及模型;
步骤6.4,若步骤3.2中所述当前语种对应的交互语音及模型已准备好,则直接调用交互语音及模型;
步骤6.4.1,若步骤5中所述生成的交互话术中不含有关键词参数,则直接选取对应准备好的交互话术声音;
步骤6.4.2,若步骤5中所述生成的交互话术中含有关键词参数,则将关键词参数文本信息输入到训练好的声音模型,得到合成好的关键词语音;再将关键词语音与上下文语音拼接合成完整的交互话术声音。
步骤6.5,若步骤3.2中所述当前交互语种对应的交互语音及模型未准备好,需翻译成当前交互语种对应的文字,再调用外接语音合成应用将翻译后的交互话术文本合成对应语音;
步骤6.5.1,若步骤5中所述生成的交互话术中不含有关键词参数,则直接翻译成当前交互语种对应的文字并调用外接语音合成应用合成交互话术语音;
步骤6.5.2,若步骤5中所述生成的交互话术中含有关键词参数,需要将其以文本形式拼接成完整的交互话术文字,再翻译成当前交互语种对应的文字并调用外接语音合成应用合成交互话术语音;
步骤7,语音播放
调用电话软交互的放音接口播放如步骤6中所述获得的交互话术语音。
基于上述方法的一种多语种智能语音对话的系统,包括,外呼系统服务器,用于由客户的网络系统向手机客户端建立双向通讯通道;中间服务器,实现建立通讯通道后实现语音媒体信息流的传输以及获取语音媒体信息流中的信息,并连接语音分析模块对获取的语音数据进行分析;文件存储服务器,用于存储相关数据。
具体可参照如下列表中的硬件和软件信息予以实现;
Figure BDA0002345252900000131
Figure BDA0002345252900000141
软件配置
以100路机器人为例:
Figure BDA0002345252900000142
实施例1:一通境外公司打给当地某中国居民的业务电话
AI机器人按照计划通过外呼装置中的通讯装置发起拨打请求经由通讯服务器转发,建立通讯通道;
通道建立后,通过通讯服务器完成通道内通话双方媒体声音传输;使用电话软交换平台捕获经由通道传输的媒体声音流,并开三通将媒体声音导出;
AI机器人按照场景设置,使用默认语言如英语播放打招呼对应话术;
客户回应声音后,获取客户并判断客户使用语种,如为当前语种,则按照当前语种完成后续语音分析、语义分析、话术生成、文字转语音、语音播放各处理步骤,与客户进行沟通交流;
当客户听不懂时,回复“什么?”“听不懂”“可以说中文吗”“类似Can you speakChinese的对语种切换的请求”或出现了其他的中文描述;
若客户使用类似Can you speak Chinese的回复,客户使用的仍然是英文,按照英文语种,完成后续语音分析、语义分析、话术生成、文字转语音、语音播放各处理步骤与客户进行沟通交流,但播放的语音会是针对此场景设置的中文信息如“可以的”;
若客户使用中文回复,在语音分析的语种识别判断出客户使用的是中文,与原交互语种不同,设置当前交互语种为中文,并按照中文语种完成后续语音分析、语义分析、话术生成、文字转语音、语音播放各步骤与客户进行沟通交流。
实施例2:一通打给印度的业务电话
因为印度是一个民族众多,语言复杂的的国家,不同的地区可能会使用不同语种的语言;
AI机器人按照计划通过外呼装置中的通讯装置发起拨打请求经由通讯服务器转发,建立通讯通道;
通道建立后,通过通讯服务器完成通道内通话双方媒体声音传输;使用电话软交换平台捕获经由通道传输的媒体声音流,并开三通将媒体声音导出;
AI机器人按照场景设置,使用默认语言如印地语播放打招呼语言;
监控客户回应声音进行语种识别,若客户使用的是“安达曼语”,当前交互语言设置为“安达曼语”,并通过语音分析将客户的语音转为对应文本信息;
语义识别时发现并没有对应模型,则将“安达曼语”对应文本信息,翻译成默认“印地语”对应文本信息;
话术生成部分将获得“印地语”需回复的交互话术文本信息;
文字转语音时,将“印地语”回复的交互话术文本信息翻译成“安达曼语”回复的交互话术文本信息;再合成“安达曼语”交互话术语音;
播放“安达曼语”交互话术语音;即可使用“安达曼语”与客户进行沟通。
本发明未涉及部分与现有技术相同或可采用现有技术加以实现。
对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (5)

1.一种多语种智能语音对话的方法,其特征在于,包括以下步骤:
步骤1,建立互联网端与手机端进行通信联系的通道
通过外呼装置实现在互联网端基于websocket协议以及webrtc协议的基础上将互联网端和客户手机端通话信道打通;
步骤2,通过通讯服务器实现语音媒体信息流的传输
通道建立后,通过通讯服务器完成通道内通话双方媒体声音传输;使用电话软交换平台捕获经由通道传输的媒体声音流,并开三通将媒体声音导出;
步骤3,语音识别
步骤3.1,预处理:通过包括预加重方式、分帧方式和加窗方式进行声音预处理;
步骤3.2,语种识别:将分帧加窗后的信号转换为语谱图,使用深度卷积神经网络针对语谱图数据进行特征提取,识别出相应语种;若识别出的语种非当前交互语种,则当前交互语种切换为识别出的语种类型;
步骤3.3,提取声学特征:对分帧加窗后的各帧信号进行快速傅里叶FFT变换得到相应的频谱信号,并对语音信号的频谱幅度谱取模平方得到语音信号的能量谱,能量谱通过一组梅尔滤波器组,计算每个滤波器的对数输出能量,带入离散余弦变换得到MFCC系数,提取动态差分参数,得到N维MFCC参数;
步骤3.4,根据语种提取对应语音的声学特征:根据不同语种特点,使用步骤3.1和步骤3.2所述提取声学特征步骤,提取其他声学特征,并根据不同语种实际使用情况选用声学特征或对声学特征进行混合处理;
步骤3.5,静音检测:通过预训练的基于深度神经网络DNN和长短时记忆单元LSTM的混合网络结构进行静音检测;
步骤3.6,断句:根据静音检测结果及该语种对应预设阈值将语音流进行断句处理;
步骤3.7,语音转文字:通过声学模型和语言模型将语音转为对应语种文本信息输出;
步骤4,语义分析
步骤4.1,意图分析:通过步骤3.5中获得的文本信息提取出对应意图序列;
步骤4.2,BERT模型:步骤3.5所述获得的对应句子级别的文本信息,输入基于BERT预训练模型用特定语种及场景的语料进行再训练后的模型,获得意图序列;
步骤4.3,自定义词库模型:结合包括场景流程导向模块、知识库模块和话术训练模块,将步骤3.5所述获得的对应文本信息及目前会话流程节点信息输入到已训练的场景词库模型中,先提取到文本信息关键词,再输出文本信息对应的意图序列;
步骤5,话术生成
步骤5.1,单套话术制作:根据场景会话要求,利用包括可视化流程图编辑方式、可视化编辑方式和导入方式,为各场景设置基于该场景的对话交互流程,描述每个流程节点之间的关系,定义各种可能的意图需要导向的下一个节点,从而串联整个对话交互场景;每个节点及意图配备一条或多条交互话术;此外还设置一套知识库作为场景交互话术补充;
步骤5.2,话术组制作:为每种使用到的语种单独制作一套完整的交互话术,组成一套多语种话术组,在通话中用不同语种进行交互,满足通话中根据客户对话在不同语种间无缝灵活切换;
步骤5.3,话术生成:在交互过程中实时获得需要反馈的交互话术内容;
步骤6,文字转语音
步骤6.1,选中文字转语音存在人工录音模型、语音合成模型,及两者结合多种实现方式;
步骤6.2,根据场景及预期使用的多个语种准备各语种的交互语音,采用人工录制并训练对应声音模型用于后续关键参数合成,设置需要的语音特点合成交互语音;
步骤6.3,交互语音及模型准备好后,经过播放语音进行试听和电话试打后选用适合的效果理想的交互语音及模型;
步骤6.4,若步骤3.2中所述当前语种对应的交互语音及模型已准备好,则直接调用交互语音及模型;
步骤6.5,若步骤3.2中所述当前交互语种对应的交互语音及模型未准备好,需翻译成当前交互语种对应的文字,再调用外接语音合成应用将翻译后的交互话术文本合成对应语音;
步骤7,语音播放
调用电话软交互的放音接口播放如步骤6中所述获得的交互话术语音。
2.根据权利要求1所述的多语种智能语音对话的方法,其特征在于,所述步骤4.1包括以下子步骤:
步骤4.1.1,若步骤3.2所述当前交互语种对应场景的模型存在,则直接使用对应模型;
步骤4.1.2,若步骤3.2所述当前交互语种对应场景的模型不存在,将步骤3.5所述文本信息翻译成默认语种的文本信息,输入到默认语种对应的模型当中。
3.根据权利要求1所述的多语种智能语音对话的方法,其特征在于,所述步骤5.3包括以下子步骤:
步骤5.3.1,根据步骤3.2所述当前交互语种,对应到多语种话术组中对应的一套交互话术;
步骤5.3.2,定位到当前节点,用步骤4.1所述获得意图匹配话术生成模块定义的意图,获得对应交互话术;
步骤5.3.3,匹配知识库,用步骤4.1所述获得意图匹配话术生成模块定义的意图,获得对应交互话术;
步骤5.3.4,经过步骤5.3.2和步骤5.3.3中意图匹配,至少获得一条对应交互话术;若获得不止一条交互话术,则根据其他信息按权重获取,若仍存在多条交互话术,则根据设置进行随机或顺序方式获取交互话术。
4.根据权利要求1所述的多语种智能语音对话的方法,其特征在于,所述步骤6.4包括以下子步骤:
步骤6.4.1,若步骤5中所述生成的交互话术中不含有关键词参数,则直接选取对应准备好的交互话术声音;
步骤6.4.2,若步骤5中所述生成的交互话术中含有关键词参数,则将关键词参数文本信息输入到训练好的声音模型,得到合成好的关键词语音;再将关键词语音与上下文语音拼接合成完整的交互话术声音。
5.一种多语种智能语音对话的系统,应用权利要求1-4任一一种方法,其特征在于,包括,
外呼系统服务器,用于由客户的网络系统向手机客户端建立双向通讯通道;
中间服务器,实现建立通讯通道后实现语音媒体信息流的传输以及获取语音媒体信息流中的信息,并连接语音分析模块对获取的语音数据进行分析;
文件存储服务器,用于存储相关数据。
CN201911392129.0A 2019-12-30 2019-12-30 多语种智能语音对话的方法及系统 Active CN111128126B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911392129.0A CN111128126B (zh) 2019-12-30 2019-12-30 多语种智能语音对话的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911392129.0A CN111128126B (zh) 2019-12-30 2019-12-30 多语种智能语音对话的方法及系统

Publications (2)

Publication Number Publication Date
CN111128126A CN111128126A (zh) 2020-05-08
CN111128126B true CN111128126B (zh) 2023-04-07

Family

ID=70504793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911392129.0A Active CN111128126B (zh) 2019-12-30 2019-12-30 多语种智能语音对话的方法及系统

Country Status (1)

Country Link
CN (1) CN111128126B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111754977A (zh) * 2020-06-16 2020-10-09 普强信息技术(北京)有限公司 一种基于互联网的语音实时合成系统
CN112017654A (zh) * 2020-07-17 2020-12-01 武汉赛思云科技有限公司 一种基于人机语音交互实现无界面办公方法及系统
CN111916052B (zh) * 2020-07-30 2021-04-27 北京声智科技有限公司 一种语音合成方法及装置
CN111933118B (zh) * 2020-08-17 2022-11-15 思必驰科技股份有限公司 进行语音识别优化的方法、装置及应用其的智能语音对话系统
CN112131359A (zh) * 2020-09-04 2020-12-25 交通银行股份有限公司太平洋信用卡中心 一种基于图形化编排智能策略的意图识别方法及电子设备
CN112015879B (zh) * 2020-09-14 2024-03-26 百可录(北京)科技有限公司 基于文本结构化管理的人机交互引擎实现方法及装置
CN113762450A (zh) * 2020-09-29 2021-12-07 浙江思考者科技有限公司 Ai神经元知识库智脑系统
CN112233650A (zh) * 2020-10-09 2021-01-15 安徽讯呼信息科技有限公司 一种人工智能语音的交互方法
CN112185363B (zh) * 2020-10-21 2024-02-13 北京猿力未来科技有限公司 音频处理方法及装置
CN112331178A (zh) * 2020-10-26 2021-02-05 昆明理工大学 一种用于低信噪比环境下的语种识别特征融合方法
CN112309399B (zh) * 2020-10-30 2023-02-24 上海淇玥信息技术有限公司 一种基于语音执行任务的方法、装置和电子设备
CN112364662A (zh) * 2020-11-13 2021-02-12 中国科学院软件研究所 一种基于神经网络的意图识别方法及电子装置
CN112866086B (zh) * 2021-01-06 2023-01-31 招商银行股份有限公司 智能外呼的信息推送方法、装置、设备及存储介质
CN113257226B (zh) * 2021-03-28 2022-06-28 昆明理工大学 一种基于gfcc的改进特征参数的语种识别方法
CN113077536B (zh) * 2021-04-20 2024-05-28 深圳追一科技有限公司 一种基于bert模型的嘴部动作驱动模型训练方法及组件
CN113160821A (zh) * 2021-04-30 2021-07-23 中天智领(北京)科技有限公司 一种基于语音识别的控制方法及装置
CN113705240B (zh) * 2021-08-03 2024-04-19 科大讯飞(北京)有限公司 基于多语种分支模型的文本处理方法及相关装置
CN113794808B (zh) * 2021-09-01 2024-01-30 北京亿心宜行汽车技术开发服务有限公司 代驾电话下单方法及系统
CN115376490A (zh) * 2022-08-19 2022-11-22 北京字跳网络技术有限公司 一种语音识别方法、装置及电子设备
CN115831094B (zh) * 2022-11-08 2023-08-15 北京数美时代科技有限公司 一种多语种语音识别方法、系统、存储介质和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104505091A (zh) * 2014-12-26 2015-04-08 湖南华凯文化创意股份有限公司 人机语音交互方法及系统
CN107995376A (zh) * 2017-11-07 2018-05-04 平安科技(深圳)有限公司 一种用户报案处理方法及终端设备
CN109427334A (zh) * 2017-09-01 2019-03-05 王阅 一种基于人工智能的人机交互方法及系统
CN110209791A (zh) * 2019-06-12 2019-09-06 百融云创科技股份有限公司 一种多轮对话智能语音交互系统及装置
CN110335595A (zh) * 2019-06-06 2019-10-15 平安科技(深圳)有限公司 基于语音识别的插问对话方法、装置及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4254402A3 (en) * 2018-04-16 2023-12-20 Google LLC Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104505091A (zh) * 2014-12-26 2015-04-08 湖南华凯文化创意股份有限公司 人机语音交互方法及系统
CN109427334A (zh) * 2017-09-01 2019-03-05 王阅 一种基于人工智能的人机交互方法及系统
CN107995376A (zh) * 2017-11-07 2018-05-04 平安科技(深圳)有限公司 一种用户报案处理方法及终端设备
CN110335595A (zh) * 2019-06-06 2019-10-15 平安科技(深圳)有限公司 基于语音识别的插问对话方法、装置及存储介质
CN110209791A (zh) * 2019-06-12 2019-09-06 百融云创科技股份有限公司 一种多轮对话智能语音交互系统及装置

Also Published As

Publication number Publication date
CN111128126A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN111128126B (zh) 多语种智能语音对话的方法及系统
CN110049270B (zh) 多人会议语音转写方法、装置、系统、设备及存储介质
CN111246027B (zh) 一种实现人机协同的语音通讯系统及方法
WO2022083083A1 (zh) 一种声音变换系统以及声音变换系统的训练方法
Cox et al. Speech and language processing for next-millennium communications services
US20020152071A1 (en) Human-augmented, automatic speech recognition engine
WO2008084476A2 (en) Vowel recognition system and method in speech to text applications
CN102903361A (zh) 一种通话即时翻译系统和方法
CN111477216A (zh) 一种用于对话机器人的音意理解模型的训练方法及系统
CN111508501B (zh) 一种电话机器人中带口音的语音识别方法及系统
CN103003876A (zh) 修改经由声音通道的对话中的语音质量
CN111294471B (zh) 一种智能电话应答方法和系统
CN112131359A (zh) 一种基于图形化编排智能策略的意图识别方法及电子设备
CN114818649A (zh) 基于智能语音交互技术的业务咨询处理方法及装置
US20190121860A1 (en) Conference And Call Center Speech To Text Machine Translation Engine
JPH10504404A (ja) 音声認識のための方法および装置
CN116631412A (zh) 一种通过声纹匹配判断语音机器人的方法
CN112420050B (zh) 一种语音识别方法、装置和电子设备
CN109616116B (zh) 通话系统及其通话方法
CN102196100A (zh) 通话即时翻译系统及方法
CN111696576A (zh) 一种智能语音机器人话术测试系统
CN116933806A (zh) 一种同传翻译系统及同传翻译终端
US20040143436A1 (en) Apparatus and method of processing natural language speech data
AT&T
KR101233655B1 (ko) 음성인식 기반 국제회의 통역 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230307

Address after: Building C, No.888, Huanhu West 2nd Road, Lingang New District, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai

Applicant after: Haizhi smart (Shanghai) Intelligent Technology Co.,Ltd.

Address before: No. 1628, suzhao Road, Minhang District, Shanghai

Applicant before: Shanghai Haokun Information Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant