CN107665706B - 快速语音交互方法及系统 - Google Patents

快速语音交互方法及系统 Download PDF

Info

Publication number
CN107665706B
CN107665706B CN201610616071.3A CN201610616071A CN107665706B CN 107665706 B CN107665706 B CN 107665706B CN 201610616071 A CN201610616071 A CN 201610616071A CN 107665706 B CN107665706 B CN 107665706B
Authority
CN
China
Prior art keywords
semantic understanding
information
word
result
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610616071.3A
Other languages
English (en)
Other versions
CN107665706A (zh
Inventor
吴奎
陈凌辉
黄鑫
陈志刚
王智国
胡郁
刘庆峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201610616071.3A priority Critical patent/CN107665706B/zh
Publication of CN107665706A publication Critical patent/CN107665706A/zh
Application granted granted Critical
Publication of CN107665706B publication Critical patent/CN107665706B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种快速语音交互方法及系统,该方法包括:实时接收用户语音输入;对语音输入信息进行实时语音识别,得到语音识别结果;基于预先构建的语义理解模型对当前语音识别结果进行实时语义理解,得到模型输出结果;根据所述模型输出结果确定是否有正确完整的语义理解结果;如果是,则根据所述语义理解结果生成交互结果,并将所述交互结果反馈给用户;否则,继续对语音输入信息进行实时语音识别。本发明可以减小语音交互的反馈延迟,提升用户体验。

Description

快速语音交互方法及系统
技术领域
本发明涉及语音信号处理、人机交互领域,具体涉及一种快速语音交互方法及系统。
背景技术
随着人工智能技术的进步,人机语音交互也取得了长足的发展,各种语音助手APP和人机交互机器人大肆兴起。这些语音助手和机器人与用户进行交互的流程通常如下:
(1)通过语音或者设定操作进行唤醒;
(2)通过语音后端点检测判断用户是否说完;
(3)检测到用户说完后,将识别结果传入语义理解引擎,进行语义理解;
(4)根据语义理解结果,系统做出响应。
在上述流程中,语音识别和语义理解是串行进行的,即系统检测到语音后端点后才将语音识别结果送入语义理解引擎。语音后端点检测需要设定静寂时长,通常为0.8s-1.8s之间,因此从用户真正说完的时间点到获得系统返回交互理解结果的时间,不考虑语义理解引擎耗时,至少存在一个静寂时长这样一个硬延迟。且在噪声环境下,后端点检测精度不高,会带来更大的硬延迟,影响用户体验。
发明内容
本发明提供一种快速语音交互方法及系统,以减小语音交互的反馈延迟,提升用户体验。
为此,本发明提供如下技术方案:
一种快速语音交互方法,包括:
实时接收用户语音输入;
对语音输入信息进行实时语音识别,得到语音识别结果;
基于预先构建的语义理解模型对当前语音识别结果进行实时语义理解,得到模型输出结果;
根据所述模型输出结果确定是否有正确完整的语义理解结果;
如果是,则根据所述语义理解结果生成交互结果,并将所述交互结果反馈给用户;
否则,继续对语音输入信息进行实时语音识别。
优选地,所述方法还包括按以下方式构建所述语义理解模型:
确定模型拓扑结构;
收集人机交互文本数据作为训练数据;
对所述训练数据中用户提问或回答语句文本进行分词,并以单轮回答或提问为单位,获取分词词串;
对所述分词词串中的每个词,依据对话历史信息,依次对语义理解结果进行赋值,并标注业务类别、以及信息槽或状态槽,直至已标注词串能够表达一个正确完整的信息输入时,停止标注并丢弃后续的词串;
基于训练数据及其赋值信息和标注信息,训练得到语义理解模型。
优选地,所述模型拓扑结构采用RNN模型,包括输入层、中间隐层和输出层;
所述输入层的输入包括:当前词的词向量wn(t)、截止到上一个词的隐层向量h(t-1)、对话历史信息,其中,所述对话历史信息包括:截止到上一个词语义理解后的业务分类信息c(t-1)、以及信息槽填充情况s(t-1)或状态槽填充情况st(t-1);
所述输出层的输出包括:语义理解结果p(t)。
优选地,所述输出层的输出还包括:截止到当前词语义理解后的业务分类信息c(t)、以及截止到当前词语义理解后的信息槽填充情况s(t)或状态槽填充情况st(t);或者
所述方法还包括:利用文法匹配的方式得到所述对话历史信息。
优选地,所述信息槽填充情况s(t)为二值一维向量。
优选地,所述基于预先构建的语义理解模型对所述实时语音识别结果进行实时语义理解,得到模型输出结果包括:
获取所述实时语音识别结果中的当前词及其词向量wn(t);
将当前词向量wn、截止到上一个词的隐层向量h(t-1)、、以及对话历史信息输入所述语义理解模型,得到模型输出的截止到当前词的语义理解结果p(t)。
优选地,所述根据所述语义理解结果生成交互结果具体为:根据所述语义理解结果生成响应文本;
所述将所述交互结果反馈给用户包括:通过语音播报的方式将所述响应文本反馈给用户。
优选地,所述根据所述语义理解结果生成响应文本包括:
根据所述业务分类信息c(t),获得得分最高的业务;
根据所述信息槽填充情况s(t)查找所述得分最高的业务对应的信息槽填充情况;
如果所述得分最高的业务对应的信息槽均已填充,则生成应答文本;
否则,根据所述得分最高的业务对应的未填充的信息槽,生成提问文本。
一种快速语音交互系统,包括:
接收模块,用于实时接收用户语音输入;
语音识别模块,用于对语音输入信息进行实时语音识别,得到语音识别结果;
语义理解模块,用于基于预先构建的语义理解模型对当前语音识别结果进行实时语义理解,得到模型输出结果;
判断模块,用于根据所述模型输出结果确定是否有正确完整的语义理解结果;如果是,则触发响应模块根据所述语义理解结果生成交互结果;否则,触发所述语音识别模块继续对语音输入信息进行实时语音识别;
所述响应模块,用于根据所述语义理解结果生成交互结果;
反馈模块,用于将所述交互结果反馈给用户。
优选地,所述系统还包括语义理解模型构建模块,用于构建所述语义理解模型;所述语义理解模型构建模块包括:
拓扑结构确定单元,用于确定模型拓扑结构;
训练数据收集单元,用于收集人机交互文本数据作为训练数据;
分词单元,用于对所述训练数据中用户提问或回答语句文本进行分词,并以单轮回答或提问为单位,获取分词词串;
标注单元,用于对所述分词词串中的每个词,依据对话历史信息,依次对语义理解结果进行赋值,并标注业务类别、以及信息槽或状态槽,直至已标注词串能够表达一个正确完整的信息输入时,停止标注并丢弃后续的词串;
训练单元,用于基于训练数据及其赋值信息和标注信息,训练得到语义理解模型。
优选地,所述模型拓扑结构采用RNN模型,包括输入层、中间隐层和输出层;
所述输入层的输入包括:当前词的词向量wn(t)、截止到上一个词的隐层向量h(t-1)、对话历史信息,其中,所述对话历史信息包括:截止到上一个词语义理解后的业务分类信息c(t-1)、以及信息槽填充情况s(t-1)或状态槽填充情况st(t-1);
所述输出层的输出包括:语义理解结果p(t)。
优选地,所述输出层的输出还包括:截止到当前词语义理解后的业务分类信息c(t)、以及截止到当前词语义理解后的信息槽填充情况s(t)或状态槽填充情况st(t);或者
所述语义理解模型构建模块还包括:
对话历史信息获取单元,用于利用文法匹配的方式得到对话历史信息。
优选地,所述信息槽填充情况s(t)为二值一维向量。
优选地,所述语义理解模块,具体用于获取当前语音识别结果中的当前词及其词向量wn(t),将当前词向量wn(t)、截止到上一个词的隐层向量h(t-1)、以及对话历史信息输入所述语义理解模型,得到模型输出的语义理解结果p(t)。
优选地,所述响应模块,具体用于根据所述语义理解结果生成响应文本;
所述反馈模块,具体用于通过语音播报的方式将所述响应文本反馈给用户。
优选地,所述响应模块包括:
业务确定单元,用于根据所述业务分类信息c(t),获得得分最高的业务;
查找单元,用于根据所述信息槽填充情况s(t)查找所述得分最高的业务对应的信息槽填充情况;
文本生成单元,用于在所述得分最高的业务对应的信息槽均已填充时,生成应答文本;否则,根据所述得分最高的业务对应的未填充的信息槽,生成提问文本。
本发明实施例提供的快速语音交互方法及系统,通过并行地进行实时语音识别和语义理解,可以更快速地获取用户输入语音的语义信息,进而可以更快速地对用户要求进行响应,且响应内容可以根据用户输入语音的语义信息合理设计。相较于传统的语音交互方案,本发明实施例的快速语音交互方法及系统能对实时的语音识别结果进行实时语义理解,一旦得到正确完整的语义理解结果后,即可立即做出响应,从而可以快速实现自然多轮交互,最大程度上降低了语音交互系统的响应延迟,提升了用户体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例中构建语义理解模型的流程图;
图2是本发明实施例中语义理解模型的拓扑结构示意图;
图3是本发明实施例中业务分类示意图;
图4是本发明实施例快速语音交互方法的流程图;
图5是本发明实施例快速语音交互系统的一种结构示意图;
图6是本发明实施例中语义理解模型构建模块的一种具体结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
在人与人之间的对话过程中,对话双方在实时获得对方说话内容的同时,会对对话内容进行理解,能够无延迟地响应对方说话内容。鉴于此,为了实现接近真实人人交互的人机交互,本发明提出了一种快速语音交互方法及系统,基于实时语义理解实现人机交互并支持多轮对话,缓解了语音后端点检测带来的硬延迟,从而减小了交互系统的反馈延迟,提升了用户体验。
例如,有下面的人机交互需求:
人:我想订一张票
机:您想订火车票还是飞机票
人:火车票
机:好的,你想从哪里出发,到哪里?
这个例子中,在“机器”已经知道“用户”的需求是订票的情况下,“用户”在说火车票时,“机器”只要听到前面火车两字就知道“用户”是要订火车票,“机器”即可做出响应,无需等待“用户”全部说完。
具体地,在本发明实施例中,对实时语音识别结果,基于预先构建的语义理解模型进行实时语义理解,得到模型输出结果,根据所述模型输出结果判断如果有正确完整的语义理解结果,则生成响应文本并通过语音播报的方式将所述响应文本反馈给用户;否则,继续对语音输入信息进行实时语音识别。
下面首先对所述语义理解模型的构建过程进行详细说明。
如图1所示,是本发明实施例中构建语义理解模型的流程图,包括以下步骤:
步骤101,确定模型拓扑结构。
所述模型拓扑结构采用RNN(Recurrent Neural Networks,循环神经网络),如图2所示示例,包括输入层、中间隐层和输出层。其中:输入层的输入包括:当前词的词向量wn(t)、截止到上一个词的隐层向量h(t-1)、截止到上一个词语义理解后的业务分类信息c(t-1)和信息槽填充情况s(t-1);输出层的输出包括三部分:截止到当前词的语义理解后的业务分类信息c(t)和信息槽填充情况s(t)、语义理解结果p(t)。
下面对本发明实施例中的语义理解模型各层进行详细说明。
1.输入层包括以下几部分:
(1)当前词的词向量wn(t),即实时语音识别时当前新获得的词wn对应的词向量。具体可以使用word2vect方式,将其映射成一个词向量wn(t),该向量一般为50-100维,比如在可以为80维。
(2)RNN模型截止到上一个词wn-1的隐层向量h(t-1),该向量一般为512-2048维,比如可以取为1024维。
(3)对话历史信息,具体包括:截止到上一个词语义理解后的业务分类信息c(t-1)、以及信息槽填充情况s(t-1)或状态槽填充情况st(t-1),也就是说,针对不同的业务应用,对话历史信息可以包括c(t-1)和s(t-1),或者对话历史信息可以包括c(t-1)和st(t-1)。其中:
本次交互中,截止到上一个词wn-1语义理解后的业务分类信息,用向量c(t-1)表示。如果业务的个数为N,则该向量大小为N+1,相当于增加了一个额外的业务,该额外业务表示用户当前交互没有任何意图。交互刚开始时,业务概率都为0。比如图3所示,对于订票业务,可以将业务分成两级,其中一级业务为订票,二级业务如火车票、汽车票、飞机票、电影票这四个订票业务;其他一级业务如查天气、音乐、闲聊等对应的二级业务就是自身。
需要说明的是,向量c(t-1)表示的是属于相应二级业务的概率。比如,如果用户输入“我想订一张票”,此时属于订票业务,则向量c(t-1)中订票一级业务下的四种二级业务火车票、汽车票、飞机票、电影票对应维的概率为0.25,其余业务类别下的二级业务对应概率为0。
所述信息槽表示业务当前所包含的信息单元,如当前业务为订火车票业务,当前业务所包含的信息单元为出发地、目的地、出发时间、座次。本次交互中,截止到上一个词wn-1的信息槽填充情况,用一个二值向量s(t-1)表示,其维数为所有信息槽的个数,作为对话历史的表示。比如对于订火车票业务,涉及的信息单元包括出发地、目的地、出发时间、座次,因此信息槽的填充情况可以用一个大小为4的一维二值向量进行表示,1表示对应的信息单元的值已经确定,0表示没有确定。语音交互刚开启时,所有的信息槽中向量的值均为0。比如,对于用户语音输入的“我想订一张票”,此时不涉及到相关业务下的任何信息槽,所有信息槽都为0;对于后续的交互,如果用户需要订火车票业务,用户语音输入“从北京到合肥”,则在语义理解到“京”时,订火车票业务下的“出发城市”的信息槽为1,在语义理解到“肥”时,订火车票业务下的“出发城市”和“目的城市”的信息槽为1,其余依旧为0。
需要说明的是,信息槽向量由两部分构成:业务共享的信息槽和业务独有的信息槽。如火车和航班查询业务,出发城市、目的城市、出发时间这些信息槽是可以共享的,但火车查询业务和航班查询业务都还有各自独立的信息槽,如火车查询业务有车次信息槽,航班查询业务有航空公司信息槽。
另外,需要说明的是,在一次交互中(包括一次单轮交互和一次多轮交互),只要业务类型未发生改变,信息槽的内容就不需要重置,而如果业务类型发生了改变:一种是一级业务类型未变,只是二级业务类型发生了改变,此时,公共信息槽信息保留,而二级业务独有的信息槽信息进行清空;另一种是一级业务类型发生了改变,那么依据前面语音内容填充的信息槽信息都清空。
在本发明实施例中,所述状态槽表示业务当前的状态信息。本次交互中,截止到上一个词wn-1的状态槽填充情况,使用二值向量st(t-1)表示,其中1表示状态被填充,0表示状态未被填充,大小为业务的状态总数。如音乐业务中,业务所处的状态可以为“初始状态、播放状态、暂停状态”,所述业务状态槽大小为3;如用户说“放一首刘德华的忘情水”,则业务的“播放状态”被填充。
2.中间隐层h(t):该向量一般为512-2048维,比如可以取为1024维。
3.输出层包括:
截止到当前词wn语义理解后的语义理解结果p(t)。语义理解结果p(t)可以是一个大小为1的一维二值向量,其中一个值(比如1)表示截止到词wn其语义是一个正确且完整的语义理解结果,而另一个值(比如0)则表示不是一个正确且完整的语义理解结果;语义理解结果p(t)还可以是截止到词wn其语义是一个正确且完整的语义理解结果的得分,如果该得分大于设定阈值,则表明截止到词wn其语义是一个正确且完整的语义理解结果,否则不是一个正确且完整的语义理解结果。
需要说明的是,在实际应用中,所述对话历史信息可以由文法匹配的方法得到,如“帮我订一张火车票,从合肥到北京”,通过文法“帮我订张train_ticket,从from-city到to-city”,对用户语音数据识别结果进行匹配后,可以得到业务类型为订火车票业务,出发城市和目的城市分别为合肥和北京,相应的出发地和目的地信息槽被填充;所述对话历史信息也可以由语义理解模型的输出得到,即在语义理解模型的输出层的输出中增加以下信息:截止到当前词wn语义理解后的业务分类信息c(t)、以及截止到当前词wn语义理解后的信息槽填充情况s(t)或状态槽填充情况st(t)。
步骤102,收集人机交互文本数据作为训练数据。
在构建语义理解模型时,需要收集大量人机交互的文本数据,比如收集5000轮人机交互数据。
步骤103,对所述训练数据中用户提问或回答语句文本进行分词,并以单轮回答或提问为单位,获取分词词串。
步骤104,对所述分词词串中的每个词,依据对话历史信息,依次对语义理解结果进行赋值,并标注业务类别、以及信息槽或状态槽,直至已标注词串能够表达一个正确完整的信息输入时,停止标注并丢弃后续的词串。
比如,获得分词词串w(N)=w1、w2、…、wN,对于其中每个词wn,依据对话历史信息,对语义理解结果p(t)进行0、1赋值,并标注信息槽和业务类别。当词串ws(n)=w1w2…wn能够表达一个正确完整的信息输入时,停止标注,丢弃后面的词串。
例如:机器提问“你需要订什么票”,用户有以下几种回答:
用户第一种回答“汽车票”,此时词串到“汽车”就能够表达一个正确完整的信息输入,后面的“票”就可以不用再作标注;
用户第二种回答“汽车票,哦不,火车票吧”,此时词串到“汽车票,哦不,火车”就能够表达一个正确完整的信息输入,后面的“票”就可以不用再作标注;
用户第三种回答“汽车票,哦你最近在干什么啊”,此时词串到“汽车”就能够表达一个正确完整的信息输入,后面的“票,哦你最近在干什么啊”就可以不用再作标注。
步骤105,基于训练数据及其赋值信息和标注信息,训练得到语义理解模型。
对于语义理解RNN模型的训练,可以采用现有的RNN模型训练方法,具体训练过程在此不再详细描述。
如图4所示,是本发明实施例快速语音交互方法的流程图,包括以下步骤:
步骤401,实时接收用户语音输入。
步骤402,对语音输入信息进行实时语音识别,得到语音识别结果。
所述实时语音识别即实时识别出截止到当前时刻用户所说的内容。具体地,由声学模型和语言模型构成解码网络,解码网络包含截止到当前时刻,所有候选的识别结果路径,从当前时刻选取解码得分最大的识别结果路径作为当前时刻的识别结果。接收到新输入的语音后,重新选取得分最大的识别结果路径,并更新之前的识别结果。
步骤403,基于预先构建的语义理解模型对当前语音识别结果进行实时语义理解,得到模型输出结果。
具体地,对最新识别的词wn,获取其词向量wn(t),截止到上一个词wn-1语的隐层向量h(t-1),另外还需要获取对话历史信息,即截止到上一个词wn-1语义理解后的业务分类信息c(t-1)、以及截止到上一个词wn-1语义理解后的信息槽填充信息s(t-1)或状态槽填充信息st(t-1),将上述这些信息作为语义理解模型的输入,得到在获得词当前词wn语义理解后的语义理解结果p(t)。在其它实施例中,模型输出结果还可以包括:业务分类信息c(t)、以及信息槽填充信息s(t)或状态槽填充信息st(t)。
步骤404,根据所述模型输出结果确定是否有正确完整的语义理解结果。如果是,则执行步骤405;否则执行步骤402,继续对语音输入信息进行实时语音识别。
前面提到,语义理解模型的输出中的语义理解结果p(t)可以是一个大小为1的一维二值向量,其中一个取值表示截止到词wn其语义是一个正确且完整的语义理解结果,如使用1表示,而另一个取值则表示不是一个正确且完整的语义理解结果,如使用0表示;语义理解结果p(t)还可以是截止到词wn其语义是一个正确且完整的语义理解结果的得分,如果该得分大于设定阈值,则确定截止到词wn有正确完整的语义理解结果。
步骤405,根据所述语义理解结果生成交互结果,并将所述交互结果反馈给用户。
所述交互结果可以是响应文本,也可以是对应所述语义理解结果的一个具体操作。对此本发明实施例不做限定。如果是响应文本,可以通过语音播报的方式将所述响应文本反馈给用户;如果是一个具体操作,可以将该操作的结果呈现给用户。
在生成响应文本时,可以首先根据业务分类信息,获得得分最高的业务,作为用户的真实意图,然后查找该业务对应的信息槽填充情况;如果该业务对应的信息槽均已填充,则生成应答文本,比如对于查询操作,执行相应的操作获得查询结果,根据该查询结果生成应答文本;否则,根据该业务对应的未填充的信息槽,生成提问文本,通过语音播报的方式反馈给用户,要求用户补充信息,直到这些信息槽被填满,完成完整的交互。
以订火车票业务为例,其包括出发地、目的地、出发时间、座次四个信息槽,交互开始后,当用户说了“我想订一张明天的火车票”,经过语义理解模型后,信息槽向量的填充情况为(0,0,1,0),该情况表明出发地、目的地和座次对应的信息槽的值缺失,因此可以向用户提问,比如生成提问文本“您想从什么地方到什么地方”,从而使用户继续语音交互,以确定目的地和出发地。
需要说明的是,在实际应用中,可以预先建立针对不同业务信息槽填充情况的提问文本,比如将这些文本保存在一个文本库中,在需要生成提问文本时,根据业务分类类型及信息槽填充情况,查询文本库,得到相应的提问文本。
本发明实施例提供的快速语音交互方法,可以应用于单轮交互模式或多轮交互模式中,在单轮交互中,如果得到完整的语义理解结果,则可以不再继续接收用户语音;在多轮交互中,如果得到完整的语义理解结果,则可以不再继续接收以当前词为结尾的子句后面的语音,但需要接收下一句的语音,具体可以通过VAD(语音活动侦测)检测,判断句子是否结束。
本发明实施例提供的快速语音交互方法,通过并行地进行实时语音识别和语义理解,可以更快速地获取用户输入语音的语义信息,进而可以更快速地对用户要求进行响应,且响应内容可以根据用户输入语音的语义信息合理设计。相较于传统的语音交互方案,本发明实施例的快速语音交互方法能对实时的语音识别结果进行实时语义理解,一旦得到正确完整的语义理解结果后,即可立即做出响应,实现自然多轮交互,最大程度上降低了语音交互的响应延迟,提升了用户体验。
相应地,本发明实施例还提供一种快速语音交互系统,如图5所示,是该系统的一种结构示意图。
在该实施例中,所述系统包括:
接收模块501,用于实时接收用户语音输入;
语音识别模块502,用于对语音输入信息进行实时语音识别,得到语音识别结果;
语义理解模块503,用于基于预先构建的语义理解模型500对当前语音识别结果进行实时语义理解,得到模型输出结果;
判断模块504,用于根据所述模型输出结果确定是否有正确完整的语义理解结果;如果是,则触发响应模块505根据所述语义理解结果生成交互结果;否则,触发所述语音识别模块502继续对语音输入信息进行实时语音识别;
所述响应模块505,用于根据所述语义理解结果生成交互结果;
反馈模块506,用于将所述交互结果反馈给用户。
在实际应用中,所述语义理解模型可以由语义理解模型构建模块离线构建,语义理解模型构建模块可以独立于本发明实施例的快速语音交互系统,也可以集成于该系统中,对此本发明不做限定。
如图6所示,是本发明实施例中语义理解模型构建模块的一种具体结构示意图,包括以下各单元:
拓扑结构确定单元61,用于确定模型拓扑结构;所述模型拓扑结构采用RNN模型,包括输入层、中间隐层和输出层;所述输入层的输入包括:当前词的词向量wn(t)、截止到上一个词的隐层向量h(t-1)、对话历史信息,其中,所述对话历史信息包括:截止到上一个词语义理解后的业务分类信息c(t-1)、以及信息槽填充情况s(t-1)或状态槽填充情况st(t-1);所述输出层的输出包括:语义理解结果p(t)。其中,信息槽填充情况s(t)为二值一维向量,语义理解结果p(t)为一维向量;
需要说明的是,在实际应用中,所述对话历史信息可以由语义模型的输出直接得到,即在语义模型的输出中还进一步包括:截止到当前词语义理解后的业务分类信息c(t)、以及截止到当前词语义理解后的信息槽填充情况s(t)或状态槽填充情况st(t)。所述对话历史信息还可以由相应的对话历史信息获取单元(图中未示)利用文法匹配的方式得到对话历史信息。
训练数据收集单元62,用于收集人机交互文本数据作为训练数据;
分词单元63,用于对所述训练数据中用户提问或回答语句文本进行分词,并以单轮回答或提问为单位,获取分词词串;
标注单元64,用于对所述分词词串中的每个词,依据对话历史信息,依次对语义理解结果进行赋值,并标注业务类别、以及信息槽或状态槽,直至已标注词串能够表达一个正确完整的信息输入时,停止标注并丢弃后续的词串;
训练单元65,用于基于训练数据及其赋值信息和标注信息,训练得到语义理解模型。
相应地,上述语义理解模块503具体用于获取当前语音识别结果中的当前词及其词向量wn(t),将当前词向量wn(t)、截止到上一个词的隐层向量h(t-1)、以及对话历史信息输入所述语义理解模型,得到模型输出的语义理解结果p(t)。
所述响应模块505生成的交互结果可以是响应文本,也可以是对应所述语义理解结果的一个具体操作。对此本发明实施例不做限定。如果是响应文本,所述反馈模块506可以通过语音播报的方式将所述响应文本反馈给用户;如果是一个具体操作,所述反馈模块506可以将该操作的结果呈现给用户。
上述响应模块505的一种具体结构可以包括以下各单元:
业务确定单元,用于根据所述业务分类信息c(t),获得得分最高的业务;
查找单元,用于根据所述信息槽填充情况s(t)查找所述得分最高的业务对应的信息槽填充情况;
文本生成单元,用于在所述得分最高的业务对应的信息槽均已填充时,生成应答文本;否则,根据所述得分最高的业务对应的未填充的信息槽,生成提问文本。
本发明实施例提供的快速语音交互系统,通过并行地进行实时语音识别和语义理解,可以更快速地获取用户输入语音的语义信息,进而可以更快速地对用户要求进行响应,且响应内容可以根据用户输入语音的语义信息合理设计。相较于传统的语音交互系统,本发明实施例的快速语音交互系统能对实时的语音识别结果进行实时语义理解,一旦得到正确完整的语义理解结果后,系统可以及时地做出响应,实现自然多轮交互,最大程度上降低了交互系统的响应延迟,提升了用户体验。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及系统;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (16)

1.一种快速语音交互方法,其特征在于,包括:
实时接收用户语音输入;
对语音输入信息进行实时语音识别,得到语音识别结果;
基于预先构建的语义理解模型对当前语音识别结果进行实时语义理解,得到模型输出结果;
根据所述模型输出结果确定是否有正确完整的语义理解结果,包括:根据截止到当前词的语义理解结果的向量取值或者得分,确定语义理解是否正确且完整;
如果是,则根据所述语义理解结果生成交互结果,并将所述交互结果反馈给用户;
否则,继续对语音输入信息进行实时语音识别。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括按以下方式构建所述语义理解模型:
确定模型拓扑结构;
收集人机交互文本数据作为训练数据;
对所述训练数据中用户提问或回答语句文本进行分词,并以单轮回答或提问为单位,获取分词词串;
对所述分词词串中的每个词,依据对话历史信息,依次对语义理解结果进行赋值,并标注业务类别、以及信息槽或状态槽,直至已标注词串能够表达一个正确完整的信息输入时,停止标注并丢弃后续的词串;
基于训练数据及其赋值信息和标注信息,训练得到语义理解模型。
3.根据权利要求2所述的方法,其特征在于,所述模型拓扑结构采用RNN模型,包括输入层、中间隐层和输出层;
所述输入层的输入包括:当前词的词向量wn(t)、截止到上一个词的隐层向量h(t-1)、对话历史信息,其中,所述对话历史信息包括:截止到上一个词语义理解后的业务分类信息c(t-1)、以及信息槽填充情况s(t-1)或状态槽填充情况st(t-1);
所述输出层的输出包括:语义理解结果p(t)。
4.根据权利要求3所述的方法,其特征在于,所述输出层的输出还包括:截止到当前词语义理解后的业务分类信息c(t)、以及截止到当前词语义理解后的信息槽填充情况s(t)或状态槽填充情况st(t);或者
所述方法还包括:利用文法匹配的方式得到所述对话历史信息。
5.根据权利要求3所述的方法,其特征在于,所述信息槽填充情况为二值向量。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述基于预先构建的语义理解模型对所述实时语音识别结果进行实时语义理解,得到模型输出结果包括:
获取所述实时语音识别结果中的当前词及其词向量wn(t);
将当前词向量wn、截止到上一个词的隐层向量h(t-1)、以及对话历史信息输入所述语义理解模型,得到模型输出的截止到当前词的语义理解结果p(t)。
7.根据权利要求1至5任一项所述的方法,其特征在于,
所述根据所述语义理解结果生成交互结果具体为:根据所述语义理解结果生成响应文本;
所述将所述交互结果反馈给用户包括:通过语音播报的方式将所述响应文本反馈给用户。
8.根据权利要求7所述的方法,其特征在于,所述根据所述语义理解结果生成响应文本包括:
根据所述业务分类信息c(t),获得得分最高的业务;
根据所述信息槽填充情况s(t)查找所述得分最高的业务对应的信息槽填充情况;
如果所述得分最高的业务对应的信息槽均已填充,则生成应答文本;
否则,根据所述得分最高的业务对应的未填充的信息槽,生成提问文本。
9.一种快速语音交互系统,其特征在于,包括:
接收模块,用于实时接收用户语音输入;
语音识别模块,用于对语音输入信息进行实时语音识别,得到语音识别结果;
语义理解模块,用于基于预先构建的语义理解模型对当前语音识别结果进行实时语义理解,得到模型输出结果;
判断模块,用于根据所述模型输出结果确定是否有正确完整的语义理解结果,包括:根据截止到当前词的语义理解结果的向量取值或者得分,确定语义理解是否正确且完整;如果是,则触发响应模块根据所述语义理解结果生成交互结果;否则,触发所述语音识别模块继续对语音输入信息进行实时语音识别;
所述响应模块,用于根据所述语义理解结果生成交互结果;
反馈模块,用于将所述交互结果反馈给用户。
10.根据权利要求9所述的系统,其特征在于,所述系统还包括语义理解模型构建模块,用于构建所述语义理解模型;所述语义理解模型构建模块包括:
拓扑结构确定单元,用于确定模型拓扑结构;
训练数据收集单元,用于收集人机交互文本数据作为训练数据;
分词单元,用于对所述训练数据中用户提问或回答语句文本进行分词,并以单轮回答或提问为单位,获取分词词串;
标注单元,用于对所述分词词串中的每个词,依据对话历史信息,依次对语义理解结果进行赋值,并标注业务类别、以及信息槽或状态槽,直至已标注词串能够表达一个正确完整的信息输入时,停止标注并丢弃后续的词串;
训练单元,用于基于训练数据及其赋值信息和标注信息,训练得到语义理解模型。
11.根据权利要求10所述的系统,其特征在于,所述模型拓扑结构采用RNN模型,包括输入层、中间隐层和输出层;
所述输入层的输入包括:当前词的词向量wn(t)、截止到上一个词的隐层向量h(t-1)、对话历史信息,其中,所述对话历史信息包括:截止到上一个词语义理解后的业务分类信息c(t-1)、以及信息槽填充情况s(t-1)或状态槽填充情况st(t-1);
所述输出层的输出包括:语义理解结果p(t)。
12.根据权利要求11所述的系统,其特征在于,所述输出层的输出还包括:截止到当前词语义理解后的业务分类信息c(t)、以及截止到当前词语义理解后的信息槽填充情况s(t)或状态槽填充情况st(t);或者
所述语义理解模型构建模块还包括:
对话历史信息获取单元,用于利用文法匹配的方式得到对话历史信息。
13.根据权利要求11所述的系统,其特征在于,所述信息槽填充情况为二值向量。
14.根据权利要求9至13任一项所述的系统,其特征在于,
所述语义理解模块,具体用于获取当前语音识别结果中的当前词及其词向量wn(t),将当前词向量wn(t)、截止到上一个词的隐层向量h(t-1)、以及对话历史信息输入所述语义理解模型,得到模型输出的语义理解结果p(t)。
15.根据权利要求9至13任一项所述的系统,其特征在于,
所述响应模块,具体用于根据所述语义理解结果生成响应文本;
所述反馈模块,具体用于通过语音播报的方式将所述响应文本反馈给用户。
16.根据权利要求15所述的系统,其特征在于,所述响应模块包括:
业务确定单元,用于根据所述业务分类信息c(t),获得得分最高的业务;
查找单元,用于根据所述信息槽填充情况s(t)查找所述得分最高的业务对应的信息槽填充情况;
文本生成单元,用于在所述得分最高的业务对应的信息槽均已填充时,生成应答文本;否则,根据所述得分最高的业务对应的未填充的信息槽,生成提问文本。
CN201610616071.3A 2016-07-29 2016-07-29 快速语音交互方法及系统 Active CN107665706B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610616071.3A CN107665706B (zh) 2016-07-29 2016-07-29 快速语音交互方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610616071.3A CN107665706B (zh) 2016-07-29 2016-07-29 快速语音交互方法及系统

Publications (2)

Publication Number Publication Date
CN107665706A CN107665706A (zh) 2018-02-06
CN107665706B true CN107665706B (zh) 2021-05-04

Family

ID=61115835

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610616071.3A Active CN107665706B (zh) 2016-07-29 2016-07-29 快速语音交互方法及系统

Country Status (1)

Country Link
CN (1) CN107665706B (zh)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509619B (zh) * 2018-04-04 2021-05-04 科大讯飞股份有限公司 一种语音交互方法及设备
CN108364650B (zh) * 2018-04-18 2024-01-19 北京声智科技有限公司 语音识别结果的调整装置及方法
CN108538294B (zh) * 2018-04-27 2020-11-17 科大讯飞股份有限公司 一种语音交互方法及装置
CN110634486A (zh) * 2018-06-21 2019-12-31 阿里巴巴集团控股有限公司 一种语音处理方法及设备
CN110827795A (zh) * 2018-08-07 2020-02-21 阿里巴巴集团控股有限公司 语音输入结束判断方法、装置、设备、系统以及存储介质
CN110890089B (zh) * 2018-08-17 2022-08-19 珠海格力电器股份有限公司 语音识别方法及装置
CN109540160A (zh) * 2018-10-18 2019-03-29 深圳壹账通智能科技有限公司 一种基于语音交互的最佳路径分析方法及相关设备
CN109634692A (zh) * 2018-10-23 2019-04-16 蔚来汽车有限公司 车载对话系统及用于其的处理方法和系统
CN109473104B (zh) * 2018-11-07 2021-11-30 思必驰科技股份有限公司 语音识别网络延时优化方法及装置
CN109637519B (zh) * 2018-11-13 2020-01-21 百度在线网络技术(北京)有限公司 语音交互实现方法、装置、计算机设备及存储介质
CN111314564A (zh) * 2018-12-11 2020-06-19 中兴通讯股份有限公司 基于互动式语音应答的通信方法、系统和装置
CN111429895B (zh) * 2018-12-21 2023-05-05 广东美的白色家电技术创新中心有限公司 多轮交互的语义理解方法、装置及计算机存储介质
CN109712619B (zh) * 2018-12-24 2020-12-11 出门问问信息科技有限公司 一种解耦对话假设并执行的方法、装置及语音交互系统
CN109461440A (zh) * 2018-12-27 2019-03-12 广州云趣信息科技有限公司 一种获取多轮语音通话最大可能意图的方法和智能设备
CN111460106A (zh) * 2019-01-02 2020-07-28 中国移动通信有限公司研究院 一种信息交互方法、装置及设备
CN111400463B (zh) * 2019-01-03 2023-06-06 百度在线网络技术(北京)有限公司 对话响应方法、装置、设备和介质
CN111813900B (zh) * 2019-04-10 2023-12-08 北京猎户星空科技有限公司 多轮对话处理方法、装置、电子设备及存储介质
CN110059161A (zh) * 2019-04-23 2019-07-26 深圳市大众通信技术有限公司 一种基于文本分类技术的电话语音机器人系统
CN112131885A (zh) * 2019-06-24 2020-12-25 北京猎户星空科技有限公司 语义识别方法、装置、电子设备及存储介质
CN110619873A (zh) * 2019-08-16 2019-12-27 北京小米移动软件有限公司 音频处理方法、装置及存储介质
CN112581938B (zh) * 2019-09-30 2024-04-09 华为技术有限公司 基于人工智能的语音断点检测方法、装置和设备
CN112992132A (zh) * 2019-12-02 2021-06-18 浙江思考者科技有限公司 一种ai智能语音交互程序桥接一键申请小程序
CN111128168A (zh) * 2019-12-30 2020-05-08 斑马网络技术有限公司 语音控制方法、装置及存储介质
CN111368538B (zh) * 2020-02-29 2023-10-24 平安科技(深圳)有限公司 语音交互方法、系统、终端及计算机可读存储介质
CN113362828B (zh) * 2020-03-04 2022-07-05 阿波罗智联(北京)科技有限公司 用于识别语音的方法和装置
CN111402894B (zh) * 2020-03-25 2023-06-06 北京声智科技有限公司 语音识别方法及电子设备
CN111583923B (zh) * 2020-04-28 2023-11-14 北京小米松果电子有限公司 信息控制方法及装置、存储介质
CN111539741B (zh) * 2020-05-15 2023-02-24 支付宝(杭州)信息技术有限公司 识别操作风险的方法、系统和非暂时性存储介质
CN111696535B (zh) * 2020-05-22 2021-10-26 百度在线网络技术(北京)有限公司 基于语音交互的信息核实方法、装置、设备和计算机存储介质
CN112053687A (zh) * 2020-07-31 2020-12-08 出门问问信息科技有限公司 一种语音处理方法、装置、计算机可读存储介质及设备
CN111862980A (zh) * 2020-08-07 2020-10-30 斑马网络技术有限公司 一种增量语义处理方法
CN111916082A (zh) * 2020-08-14 2020-11-10 腾讯科技(深圳)有限公司 语音交互方法、装置、计算机设备和存储介质
CN112101045B (zh) * 2020-11-02 2021-12-14 北京淇瑀信息科技有限公司 一种多模态语义完整性识别方法、装置及电子设备
CN112700769A (zh) * 2020-12-26 2021-04-23 科大讯飞股份有限公司 一种语义理解方法、装置、设备以及计算机可读存储介质
CN112836030B (zh) * 2021-01-29 2023-04-25 成都视海芯图微电子有限公司 一种智能对话系统及方法
CN113035180A (zh) * 2021-03-22 2021-06-25 建信金融科技有限责任公司 语音输入完整性判断方法、装置、电子设备和存储介质
CN113643696A (zh) * 2021-08-10 2021-11-12 阿波罗智联(北京)科技有限公司 语音处理方法、装置、设备、存储介质及程序

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7200559B2 (en) * 2003-05-29 2007-04-03 Microsoft Corporation Semantic object synchronous understanding implemented with speech application language tags
CN103035243B (zh) * 2012-12-18 2014-12-24 中国科学院自动化研究所 长语音连续识别及识别结果实时反馈方法和系统
JP2014203207A (ja) * 2013-04-03 2014-10-27 ソニー株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
US9646634B2 (en) * 2014-09-30 2017-05-09 Google Inc. Low-rank hidden input layer for speech recognition neural network
US20160180214A1 (en) * 2014-12-19 2016-06-23 Google Inc. Sharp discrepancy learning
CN105744057B (zh) * 2016-01-21 2019-02-22 平安科技(深圳)有限公司 一种智能语音对话交互方法和装置
CN105787560B (zh) * 2016-03-18 2018-04-03 北京光年无限科技有限公司 基于循环神经网络的对话数据交互处理方法及装置

Also Published As

Publication number Publication date
CN107665706A (zh) 2018-02-06

Similar Documents

Publication Publication Date Title
CN107665706B (zh) 快速语音交互方法及系统
CN107316643B (zh) 语音交互方法及装置
CN107240398B (zh) 智能语音交互方法及装置
CN107665704B (zh) 语音指令检测模型构建方法、检测方法及系统、人机交互方法及设备
CN107665708B (zh) 智能语音交互方法及系统
CN105512228B (zh) 一种基于智能机器人的双向问答数据处理方法和系统
US10679613B2 (en) Spoken language understanding system and method using recurrent neural networks
KR102170563B1 (ko) 인공 지능에 기반한 휴먼 머신 인터랙티브 방법 및 장치
CN107437415B (zh) 一种智能语音交互方法及系统
US9589563B2 (en) Speech recognition of partial proper names by natural language processing
CN112017645B (zh) 一种语音识别方法及装置
US9390426B2 (en) Personalized advertisement device based on speech recognition SMS service, and personalized advertisement exposure method based on partial speech recognition SMS service
CN108538294B (zh) 一种语音交互方法及装置
US11132994B1 (en) Multi-domain dialog state tracking
CN112242144A (zh) 基于流式注意力模型的语音识别解码方法、装置、设备以及计算机可读存储介质
CN103177721A (zh) 语音识别方法和系统
CN114596844A (zh) 声学模型的训练方法、语音识别方法及相关设备
CN111128175B (zh) 口语对话管理方法及系统
CN114911932A (zh) 基于主题语义增强的异构图结构多会话者情感分析方法
CN116821290A (zh) 面向多任务对话的大语言模型训练方法和交互方法
DE112022000504T5 (de) Interaktive Inhaltsausgabe
CN106649278A (zh) 扩展口语对话系统语料库的方法和系统
US10929601B1 (en) Question answering for a multi-modal system
WO2023172442A1 (en) Shared encoder for natural language understanding processing
CN114372476B (zh) 语义截断检测方法、装置、设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant