CN107665708A - 智能语音交互方法及系统 - Google Patents
智能语音交互方法及系统 Download PDFInfo
- Publication number
- CN107665708A CN107665708A CN201610615976.9A CN201610615976A CN107665708A CN 107665708 A CN107665708 A CN 107665708A CN 201610615976 A CN201610615976 A CN 201610615976A CN 107665708 A CN107665708 A CN 107665708A
- Authority
- CN
- China
- Prior art keywords
- word
- rejection
- speech recognition
- speech data
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000003993 interaction Effects 0.000 claims abstract description 99
- 230000002452 interceptive effect Effects 0.000 claims abstract description 48
- 230000004044 response Effects 0.000 claims abstract description 32
- 238000001514 detection method Methods 0.000 claims description 47
- 230000002618 waking effect Effects 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 7
- 241001269238 Data Species 0.000 claims description 6
- 235000013399 edible fruits Nutrition 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 230000001960 triggered effect Effects 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000009414 blockwork Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000035922 thirst Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种智能语音交互方法及系统,该方法包括:接收语音数据;对所述语音数据进行语音识别,得到语音识别结果;根据预先构建的基于语义层面的拒识判断模型对所述语音识别结果进行拒识判断,得到模型输出结果;根据所述模型输出结果确定所述语音数据是否为人机交互语音数据;如果是,则对所述语音识别结果进行语义理解,根据语义理解结果生成交互结果,所述交互结果包括响应文本。利用本发明,可减少噪声语音数据对人机交互的影响,降低人机交互系统的误响应。
Description
技术领域
本发明涉及语音信号处理、人机交互领域,具体涉及一种智能语音交互方法及系统。
背景技术
近年来,随着人工智能技术的迅猛发展,语音识别、语义理解、语音合成等技术也随之进入了实用水平。人们越来越来渴望可以自然便捷地与机器进行交流,从传统的一问一答的语音交互系统到目前较流行的多轮问答的语音交互系统,人机交互越来越接近人人交互,在用户体验上有了很大的提升。然而由于实际的交互环境复杂多变,经常会有各种噪声语音的输入,引起交互系统的误响应。为了防止这种情况的出现,现有交互系统一般采用唤醒词机制,即在接收语音数据后,先进行唤醒词识别,识别到唤醒词后,机器被唤醒,然后再进行后续交互。
然而,由于在实际语音交互时,交互环境经常是复杂多变的,现有系统并不能防止交互过程中噪声的输入;在语音交互过程中,机器接收的语音数据经常会存在噪声,如背景噪声、机器自身的播报声、非交互语音(如人人交谈的语音)等,都会对交互过程产生影响,干扰交互系统,导致机器的误响应,尤其是人人交谈的语音,现有系统无法判断当前人人交谈的语音数据是否是人机交互语音数据,从而在很大程度上引起机器的误响应,增加了系统负载,降低了用户体验。
发明内容
本发明提供一种智能语音交互方法及系统,以减少噪声语音数据对人机交互的影响,降低人机交互系统的误响应。
为此,本发明提供如下技术方案:
一种智能语音交互方法,包括:
接收语音数据;
对所述语音数据进行语音识别,得到语音识别结果;
根据预先构建的基于语义层面的拒识判断模型对所述语音识别结果进行拒识判断,得到模型输出结果;
根据所述模型输出结果确定所述语音数据是否为人机交互语音数据;
如果是,则对所述语音识别结果进行语义理解,根据语义理解结果生成交互结果,所述交互结果包括响应文本。
优选地,所述方法还包括:按以下方式构建拒识判断模型:
确定拒识判断模型拓扑结构;
收集大量人机交互语音数据及其对应的语音识别文本;
对所述语音识别文本中用户提问或回答语句文本进行分词,并以单轮回答或提问为单位,获取分词词串;
提取所述分词词串中各词的语义特征,并标注拒识判断结果;
基于所述人机交互语音数据及其标注信息和分词词串中各词的语义特征,训练得到拒识判断模型。
优选地,所述模型拓扑结构采用RNN模型,包括输入层、中间隐层和输出层;
所述输入层的输入包括:语音识别文本包含每个词的语义特征;
所述输出层的输出包括:拒识判断结果。
优选地,所述输入层的输入还包括:语音识别文本的对话历史状态特征,所述对话历史状态特征包括:上一轮交互的响应文本信息,及上一轮交互语音识别文本对信息槽的填充情况。
优选地,所述语义特征包括以下任意一项或多项:词向量、词置信度、词时长、词TF-IDF得分、词有效语音得分均值。
优选地,所述根据预先构建的基于语义层面的拒识判断模型对当前语音识别结果进行拒识判断,得到模型输出结果包括:
获取所述语音识别结果包含每个词的语义特征及所述语音识别结果的对话历史状态特征;
将所述语音识别结果包含每个词的语义特征及所述语音识别结果的对话历史状态特征输入所述拒识判断模型,得到模型输出的拒识判断结果。
优选地,所述方法还包括:
在对所述语音数据进行语音识别之前,对所述语音数据进行唤醒词检测;
如果检测到唤醒词,则执行对所述语音数据进行语音识别的步骤;
如果未检测到唤醒词,则判断接收的语音数据与上次用户交互的时间间隔是否超过预设时间;
如果否,则执行对所述语音数据进行语音识别的步骤。
优选地,所述方法还包括:
在对所述语音数据进行唤醒词检测之前,获取用户当前状态;
如果用户当前状态满足第一预设条件,则执行对所述语音数据进行唤醒词检测的步骤。
优选地,所述方法还包括:
在对所述语音数据进行语音识别之前,获取用户当前状态;
如果用户当前状态满足第二预设条件,则执行对所述语音数据进行语音识别的步骤。
一种智能语音交互系统,包括:
接收模块,用于接收语音数据;
语音识别模块,用于对所述语音数据进行语音识别,得到语音识别结果;
语义层拒识判断模块,用于根据预先构建的基于语义层面的拒识判断模型对所述语音识别结果进行拒识判断,得到模型输出结果;
确定模块,用于根据所述模型输出结果确定所述语音数据是否为人机交互语音数据;如果是,则触发语义理解模块对当前语音识别结果进行语义理解;
所述语义理解模块,用于对当前语音识别结果进行语义理解;
响应模块,用于根据所述语义理解模块得到的语义理解结果生成交互结果,所述交互结果包括响应文本。
优选地,所述系统还包括:模型构建模块,用于构建拒识判断模型:所述模型构建模块包括:
拓扑结构确定单元,用于确定拒识判断模型拓扑结构;
训练数据收集单元,用于收集大量人机交互语音数据及其对应的语音识别文本;
分词单元,用于对所述语音识别文本中用户提问或回答语句文本进行分词,并以单轮回答或提问为单位,获取分词词串;
语义特征提取单元,用于提取所述分词词串中各词的语义特征;
标注单元,用于标注拒识判断结果;
训练单元,用于基于所述人机交互语音数据及其标注信息和各词的语义特征,训练得到拒识判断模型。
优选地,所述模型拓扑结构采用RNN模型,包括输入层、中间隐层和输出层;
所述输入层的输入包括:当前语音识别结果包含每个词的语义特征;
所述输出层的输出包括:拒识判断结果。
优选地,所述输入层的输入还包括:所述语音识别结果的对话历史状态特征,所述对话历史状态特征包括:上一轮交互的响应文本信息,及上一轮交互语音识别文本对信息槽的填充情况。
优选地,所述语义特征包括以下任意一项或多项:词向量、词置信度、词时长、词TF-IDF得分、词有效语音得分均值。
优选地,所述语义层拒识判断模块包括:
信息获取单元,用于获取所述语音识别结果包含每个词的语义特征及所述语音识别结果的对话历史状态特征;
判断单元,用于将所述语音识别结果包含每个词的语义特征及所述语音识别结果的对话历史状态特征输入所述拒识判断模型,得到模型输出的拒识判断结果。
优选地,所述系统还包括:
交互逻辑检测模块,用于从交互逻辑层面对所述语音数据进行拒识检测;所述交互逻辑检测模块包括:
唤醒词检测单元,用于对所述语音数据进行唤醒词检测;如果检测到唤醒词,则触发所述语音识别模块对所述语音数据进行语音识别;如果未检测到唤醒词,则触发超时检测单元;
所述超时检测单元,用于检测所述接收模块接收的语音数据与上次用户交互的时间间隔是否超过预设时间;如果否,则触发所述语音识别模块对所述语音数据进行语音识别。
优选地,所述系统还包括:
用户状态检测模块,用于在所述交互逻辑模块对所述语音数据进行拒识检测之前,获取用户当前状态;并在用户当前状态满足第一预设条件时,触发所述交互逻辑检测模块工作。
优选地,所述用户状态检测模块,还用于在所述语音识别模块对所述语音数据进行语音识别之前,获取用户当前状态;并在用户当前状态满足第二预设条件时,触发所述语音识别模块工作。
本发明实施例提供的智能语音交互方法及系统,从语义层面对接收的语音数据进行拒识判断,具体地,对接收的语音数据进行语音识别,然后根据预先构建的基于语义层面的拒识判断模型对当前语音识别结果进行拒识判断,从而有效地确定所述语音数据是否为人机交互语音数据。如果是人机交互语音数据,才会进一步对其进行语义理解,进而生成交互结果。本发明实施例提供的方案有效地减少了噪声语音数据对人机交互的影响,降低了人机交互系统的误响应。
另外,本发明实施例的方案还可结合其它不同层面对接收的语音数据进行拒识判断,比如,从交互逻辑上、以及用户当前状态,不仅进一步提高了判断结果的准确性,而且,提高了人机交互效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例中基于语义层面的拒识判断模型的构建流程图;
图2是本发明实施例中拒识判断模型的一种结构示意图;
图3是本发明实施例智能语音交互方法的一种流程图;
图4是本发明实施例智能语音交互方法的另一种流程图;
图5是本发明实施例智能语音交互系统的一种结构示意图;
图6是本发明实施例中模型构建模块的结构示意图;
图7是本发明实施例智能语音交互系统的另一种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
本发明实施例提供的智能语音交互方法及系统,从语义层面对接收的语音数据进行拒识判断,具体地,对接收的语音数据进行语音识别,然后根据预先构建的基于语义层面的拒识判断模型对当前语音识别结果进行拒识判断,从而有效地确定所述语音数据是否为人机交互语音数据。
下面首先对所述拒识判断模型及其构建过程进行详细说明。
如图1所示,是本发明实施例中基于语义层面的拒识判断模型的构建流程图,包括以下步骤:
步骤101,确定拒识判断模型拓扑结构。
在本发明实施例中,所述拒识判断模型拓扑结构采用神经网络,比如RNN(Recurrent Neural Networks,循环神经网络),如图2所示,包括输入层、中间隐层和输出层。其中:输入层的输入包括:语音识别文本包含每个词的语义特征,还可进一步包括:语音识别文本的对话历史状态特征,所述对话历史状态特征包括:上一轮交互的响应文本信息,及所述识别文本对信息槽的填充情况。
下面对本发明实施例中的拒识判断模型各层进行详细说明。
1.输入层包括:
(1)语音识别文本包含每个词的语义特征,所述语义特征包括以下任意一项或多项:词向量、词置信度、词时长、词TF-IDF(Term Frequency–Inverse Document Frequency)得分、词有效语音得分均值,各特征的详细说明如下:
词向量,具体可以使用word2vect方法提取,具体提取过程与现有技术相同,在此不再详述;
词置信度,可以直接根据语音识别时的解码结果得到;
词时长,是指每个词对应语音数据的时长,可以根据每个词对应语音数据的时间长度得到,一般使用帧数表示;
词TF-IDF得分,其中,TF为当前词在句子中出现的频率,IDF为逆向文档频率,具体计算方法为出现当前词的文档数与语料库中总文档数比值的对数,即:
其中,Nw为出现当前词的文档数,N为语料库总文档数;
词有效语音得分均值,是指当前词对应的每帧语音数据是有效语音的得分的平均值,每帧语音数据是有效语音数据的得分可以通过语音识别时的有效语音检测VAD(VoiceActivity Detection)模型得到。
(2)对话历史状态特征,具体包括:上一轮交互的响应文本信息,及上一轮交互语音识别文本对信息槽的填充情况。其中:
所述上一轮交互的响应信息是指针对上一轮人机交互语音,进行语义理解后,系统产生的响应文本信息。
所述信息槽表示业务当前所包含的信息单元,如当前业务为订火车票业务,当前业务所包含的信息单元为出发地、目的地、出发时间、座次。
信息槽填充情况,可以用一个二值向量s(t-1)表示,其维数为所有信息槽的个数,作为对话历史的表示。比如对于订火车票业务,涉及的信息单元包括出发地、目的地、出发时间、座次,因此信息槽的填充情况可以用一个大小为4的一维二值向量进行表示,1表示对应的信息单元的值已经确定,0表示没有确定。语音交互刚开启时,所有的信息槽中向量的值均为0。比如,对于用户语音输入的“我想订一张票”,此时不涉及到相关业务下的任何信息槽,所有信息槽都为0;对于后续的交互,如果用户需要订火车票业务,用户语音输入“从北京到合肥”,则在语义理解后,订火车票业务下的“出发城市”和“目的城市”的信息槽为1,其余依旧为0。
需要说明的是,信息槽向量由两部分构成:业务共享的信息槽和业务独有的信息槽。如火车和航班查询业务,出发城市、目的城市、出发时间这些信息槽是可以共享的,但火车查询业务和航班查询业务都还有各自独立的信息槽,如火车查询业务有车次信息槽,航班查询业务有航空公司信息槽。
另外,需要说明的是,在一次交互中(包括一次单轮交互和一次多轮交互),只要业务类型未发生改变,信息槽的内容就不需要重置,而如果业务类型发生了改变:一种是一级业务类型未变,只是二级业务类型发生了改变,此时,公共信息槽信息保留,而二级业务独有的信息槽信息进行清空;另一种是一级业务类型发生了改变,那么依据前面语音内容填充的信息槽信息都清空。
在实际应用中,上述对话历史状态特征为可选项,也就是说,在拒识判断模型训练时,可以综合该特征来训练,也可以不考虑该特征。
2.中间隐层h(t):该向量一般为512-2048维,比如可以取为1024维。
在图2所示RNN网络中,隐层节点之间存在连接,一个词对应隐层节点的输入信息包含当前词的语义特征及前一个词隐层的输出特征(第一个词除外)。
3.输出层包括:拒识判断结果p(t)。
所述拒识判断结果p(t)可以是一个大小为1的一维二值向量,其中一个值(比如1)表示所述语音识别文本对应的语音数据为人机交互语音,而另一个值(比如0)则表示所述语音识别文本对应的语音数据为非人机交互语音;拒识判断结果p(t)还可以是所述语音数据是人机交互语音的得分,如果该得分大于设定阈值,则表明所述语音数据是人机交互语音,否则不是人机交互语音。
需要说明的是,在实际应用中,所述对话历史状态特征中的上一轮交互语音识别文本对信息槽的填充情况可以由文法匹配的方法得到,如“帮我订一张火车票,从合肥到北京”,通过文法“帮我订张train_ticket,从from-city到to-city”,对语音数据的识别结果进行匹配后,可以得到业务类型为订火车票业务,出发城市和目的城市分别为合肥和北京,相应的出发地和目的地信息槽被填充;所述上一轮交互语音识别文本对信息槽的填充情况也可以由拒识判断模型的输出得到,即在拒识判断模型的输出层的输出中增加以下信息:信息槽填充情况s(t)。
步骤102,收集大量人机交互语音数据及其对应的语音识别文本。
步骤103,对所述语音识别文本中用户提问或回答语句文本进行分词,并以单轮回答或提问为单位,获取分词词串。
步骤104,提取所述分词词串中各词的语义特征,并标注拒识判断结果。
步骤105,基于所述人机交互语音数据及其标注信息和各词的语义特征,训练得到拒识判断模型。
前面提到,拒识判断模型的输入还可进一步包括:对话历史状态特征。相应地,在上述步骤104中,还需要获取对话历史状态特征,而且,所述对话历史状态特征中的上一轮交互识别文本对信息槽的填充情况可以通过文法匹配方法得到,也可以根据拒识判断模型的输出得到,对此本发明实施例不做限定。
本发明实施例中,如图2所示,图中w1,w2,w3,w4,...weos表示当前语音识别文本中的各词。拒识判断模型训练时,直接输入当前语音识别文本包含的每个词的语义特征,及当前语音识别文本的对话历史状态特征,先根据当前语音识别文本包含的每个词的语义特征得到当前语音识别文本的语义特征,然后再将所述语音识别文本的语义特征与当前语音识别文本的对话历史状态特征一起作为输出层的输入,从输出层得到拒识结果。当前语音识别文本的语义特征为当前语音识别文本包含的最后一个词的隐层的输出。
基于上述拒识判断模型,本发明实施例提供的智能语音交互方法的一种流程如图3所示,包括以下步骤:
步骤301,接收语音数据。
步骤302,对所述语音数据进行语音识别,得到语音识别结果。
步骤303,根据预先构建的基于语义层面的拒识判断模型对所述语音识别结果进行拒识判断,得到模型输出结果。
具体地,获取所述语音识别结果中包含每个词的语义特征,将其输入所述拒识判断模型,得到模型输出的拒识判断结果p(t)。
需要说明的是,如果拒识判断模型的输入还包括:对话历史状态特征,则在上述步骤303中,还需要获取上一轮交互的响应文本信息、以及上一轮交互语音识别文本对信息槽的填充情况。
步骤304,根据所述模型输出结果确定所述语音数据是否为人机交互语音数据;如果是,则执行步骤305;否则,拒识所述语音数据。
步骤305,对所述语音识别结果进行语义理解。
步骤306,根据语义理解结果生成交互结果,所述交互结果包括响应文本。
针对不同的业务,所述交互结果可以仅包括响应文本,也可以同时包括响应文本及相应操作,对此本发明实施例不做限定。如果是响应文本,可以通过语音播报的方式将所述响应文本反馈给用户;如果是一个具体操作,可以将该操作的结果呈现给用户。如用户想听刘德华的忘情水,系统搜索到后提示“正在为您播放刘德华的忘情水”,然后开始播放,如果没有搜索到,则提示“没有找到刘德华的忘情水这首歌”。另外,需要说明的是,与不同操作对应的响应文本可以不同,也可以相同,比如通过一个特定向量表示系统执行了交互语音指示的操作。
在生成响应文本时,可以首先根据业务分类信息,获得得分最高的业务,作为用户的真实意图,然后查找该业务对应的信息槽填充情况;如果该业务对应的信息槽均已填充,则生成应答文本,比如对于查询操作,执行相应的操作获得查询结果,根据该查询结果生成应答文本;否则,根据该业务对应的未填充的信息槽,生成提问文本,通过语音播报的方式反馈给用户,要求用户补充信息,直到这些信息槽被填满,完成完整的交互。
另外,如果接收到的是系统应该拒识的语音,也就是说,根据模型输出结果确定所述语音数据不是人机交互语音数据的情况下,系统不会给予任何反馈。
本发明实施例提供的智能语音交互方法,从语义层面对接收的语音数据进行拒识判断,从而有效地确定所述语音数据是否为人机交互语音数据。如果是人机交互语音数据,才会进一步对其进行语义理解,进而生成交互结果。本发明实施例提供的方案有效地减少了噪声语音数据对人机交互的影响,降低了人机交互系统的误响应。
进一步地,本发明实施例的方法还可结合其它不同层面对接收的语音数据进行拒识判断,比如,从交互逻辑上、以及用户当前状态,不仅可以进一步提高判断结果的准确性,而且,可以提高人机交互效率。
如图4所示,是本发明实施例智能语音交互方法的另一种流程图。
步骤401,接收语音数据。
步骤402,对所述语音数据进行唤醒词检测,以确定接收的语音数据中是否包含设定的唤醒词。如果检测到,则执行步骤404;否则,执行步骤403。
步骤403,判断接收的语音数据与上次用户交互的时间间隔是否超过预设时间。如果未超过,则执行步骤404;否则拒识所述语音数据。
步骤404,从语义层面对所述语音数据进行拒识判断,以确定所述语音数据是否为人机交互语音数据。如果是,则执行步骤405;否则,拒识所述语音数据。
从语义层面对所述语音数据进行拒识判断可以参照图3中的步骤302至步骤304。
步骤405,对语音识别结果进行语义理解。
步骤406,根据语义理解结果生成交互结果,所述交互结果包括响应文本。
与图3所示实施例相比,在该实施例中,不仅从语义层面对接收的语音数据进行拒识判断,而且,从交互逻辑上对接收的语音数据进行拒识判断,具体地,为了防止误唤醒,交互逻辑设置了唤醒词机制,即用户首次交互时的语音数据必须包含相应的唤醒词,否则用户将无法进行交互,如使用“叮咚叮咚”作为唤醒词;为了防止交互结束后,系统仍长时间处于交互模式中,设置了超时机制,即当接收的语音数据与上次交互的时间未超过预设时间,则认为是用户的连续交互,所述语音数据不需要包含唤醒词;否则,则认为接收的语音数据是新的交互输入,需要包含唤醒词。结合交互逻辑上的判断,可以进一步提高人机交互响应的可靠性。
另外,在本发明方法其它实施例中,还可进一步根据用户当前状态进行拒识判断,所述用户当前状态是指用户与机器交互时所处的状态,如用户的面部朝向、用户的眼睛注视方向、用户是否处于移动的状态、用户旁边是否有其他人及用户离机器的距离等。用户的面部朝向、用户的眼睛注视方向、用户是否处于移动的状态及用户旁边是否有其他人可以通过在机器上安装摄像头进行检测;用户离机器的距离可以通过声源空间定位技术或红外技术检测得到。
利用用户当前状态辅助语音数据的拒识判断,可以有效拒识掉人人交谈的噪声语音,有效降低系统的误响应情况。具体辅助时,可以预先确定相应规则,判断用户所处的状态是否满足所述规则来辅助拒识判断,举例如下:
如机器在未唤醒状态时,检测到用户面部朝向机器或者眼睛注视方向是机器所处方向,则认为用户是在与机器进行交互,否则,认为用户并不是与机器交互,拒识用户的语音数据。具体地,在对所述语音数据进行唤醒词检测之前,获取用户当前状态;如果用户当前状态满足第一预设条件(比如用户面部朝向机器或者眼睛注视方向是机器所处方向),则执行对所述语音数据进行唤醒词检测的步骤;否则拒识所述语音数据。
如当用户旁边有其他人时,检测用户说话时的面部朝向或眼睛注视的方向是不是机器所处的方向,如果是,则认为用户是在与机器进行交互,接收用户的语音数据;否则,拒识用户的语音数据。具体地,在对所述语音数据进行语音识别之前,获取用户当前状态;如果用户当前状态满足第二预设条件(比如用户面部朝向或眼睛注视的方向是否为机器所处的方向),则执行对所述语音数据进行语音识别的步骤;否则拒识所述语音数据。
再比如,当用户与机器交互时,一直处于来回走动的状态时,需要检测用户与机器的距离,当用户与机器的距离较远时,可以通过询问用户“是否需要继续交互”来确定是否结束本次的交互,如果结束本次交互,拒识后续用户说话的语音数据。
当然,在实际应用中,利用用户当前状态进行拒识的检测可以在整个交互过程中的任何一个阶段,而且,在不同的阶段的用户当前状态需满足的条件也会有所不同。具体在哪个阶段进行检测以及检测的具体条件可以根据实际应用环境及需要来设定,对此本发明实施例不做限定。
相应地,本发明实施例还提供一种智能语音交互系统,如图5所示,是本发明实施例智能语音交互系统的一种结构示意图。
在该实施例中,所述系统包括:
接收模块51,用于接收语音数据;
语音识别模块52,用于对所述语音数据进行语音识别,得到语音识别结果;
语义层拒识判断模块53,用于根据预先构建的基于语义层面的拒识判断模型对所述语音识别结果进行拒识判断,得到模型输出结果;
确定模块54,用于根据所述模型输出结果确定所述语音数据是否为人机交互语音数据;如果是,则触发语义理解模块55对所述语音识别结果进行语义理解;
所述语义理解模块55,用于对所述语音识别结果进行语义理解;
响应模块56,用于根据所述语义理解模块55得到的语义理解结果生成交互结果,所述交互结果包括响应文本。
所述拒识判断模块可以由相应的模型构建模块预先根据收集的大量人机交互语音数据及其对应的语音识别文本训练得到。如图6所示,是本发明实施例中模型构建模块的结构示意图,包括:
拓扑结构确定单元61,用于确定拒识判断模型拓扑结构;拒识判断模型拓扑结构在前面已有详细说明,在此不再赘述;
训练数据收集单元62,用于收集大量人机交互语音数据及其对应的语音识别文本;
分词单元63,用于对所述语音识别文本中用户提问或回答语句文本进行分词,并以单轮回答或提问为单位,获取分词词串;
语义特征提取单元64,用于提取所述分词词串中各词的语义特征;
标注单元65,用于标注拒识判断结果;
训练单元66,用于基于所述人机交互语音数据及其标注信息和各词的语义特征,训练得到拒识判断模型。
本发明实施例提供的智能语音交互系统,从语义层面对接收的语音数据进行拒识判断,从而有效地确定所述语音数据是否为人机交互语音数据。如果是人机交互语音数据,才会进一步对其进行语义理解,进而生成交互结果。本发明实施例提供的方案有效地减少了噪声语音数据对人机交互的影响,降低了人机交互系统的误响应。
另外,本发明实施例的系统还可结合其它不同层面对接收的语音数据进行拒识判断,比如,从交互逻辑上、以及用户当前状态,不仅可以进一步提高判断结果的准确性,而且,可以提高人机交互效率。
如图7所示,是本发明实施例智能语音交互系统的另一种结构示意图。
与图5所示实施例的区别在于,在该实施例中,所述系统还包括:交互逻辑检测模块71,用于从交互逻辑层面对所述语音数据进行拒识检测。该交互逻辑检测模块71具体包括:
唤醒词检测单元,用于对所述语音数据进行唤醒词检测;如果检测到唤醒词,则触发语音识别模块62对接收模块61接收的语音数据进行语音识别;如果未检测到唤醒词,则触发超时检测单元;
所述超时检测单元,用于检测所述接收模块61接收的语音数据与上次用户交互的时间间隔是否超过预设时间;如果否,则触发语音识别模块62对接收模块61接收的语音数据进行语音识别。
该实施例中,本发明系统不仅从语义层面对接收的语音数据进行拒识判断,而且,从交互逻辑上对接收的语音数据进行拒识判断,具体地,为了防止误唤醒,交互逻辑设置了唤醒词机制,即用户首次交互时的语音数据必须包含相应的唤醒词,否则用户将无法进行交互,如使用“叮咚叮咚”作为唤醒词;为了防止交互结束后,系统仍长时间处于交互模式中,设置了超时机制,即当接收的语音数据与上次交互的时间未超过预设时间,则认为是用户的连续交互,所述语音数据不需要包含唤醒词;否则,则认为接收的语音数据是新的交互输入,需要包含唤醒词。结合交互逻辑上的判断,可以进一步提高人机交互响应的可靠性。
另外,在本发明系统其它实施例中,还可进一步包括用户状态检测模块(未图示),用于获取用户当前状态,并根据用户当前状态进行拒识检测。
比如,用户状态检测模块可以在所述交互逻辑模块对所述语音数据进行拒识检测之前,获取用户当前状态;并在用户当前状态满足第一预设条件时,触发所述交互逻辑检测模块工作。再比如,用户状态检测模块还可以在所述语音识别模块对所述语音数据进行语音识别之前,获取用户当前状态;并在用户当前状态满足第二预设条件时,触发所述语音识别模块工作。当然,所述用户状态检测模块根据用户当前状态进行拒识检测的具体方式及条件可以根据实际应用环境及应用需求来设定,对此本发明实施例不做限定。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及系统;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (18)
1.一种智能语音交互方法,其特征在于,包括:
接收语音数据;
对所述语音数据进行语音识别,得到语音识别结果;
根据预先构建的基于语义层面的拒识判断模型对所述语音识别结果进行拒识判断,得到模型输出结果;
根据所述模型输出结果确定所述语音数据是否为人机交互语音数据;
如果是,则对所述语音识别结果进行语义理解,根据语义理解结果生成交互结果,所述交互结果包括响应文本。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:按以下方式构建拒识判断模型:
确定拒识判断模型拓扑结构;
收集大量人机交互语音数据及其对应的语音识别文本;
对所述语音识别文本中用户提问或回答语句文本进行分词,并以单轮回答或提问为单位,获取分词词串;
提取所述分词词串中各词的语义特征,并标注拒识判断结果;
基于所述人机交互语音数据及其标注信息和分词词串中各词的语义特征,训练得到拒识判断模型。
3.根据权利要求2所述的方法,其特征在于,所述模型拓扑结构采用RNN模型,包括输入层、中间隐层和输出层;
所述输入层的输入包括:语音识别文本包含每个词的语义特征;
所述输出层的输出包括:拒识判断结果。
4.根据权利要求3所述的方法,其特征在于,所述输入层的输入还包括:语音识别文本的对话历史状态特征,所述对话历史状态特征包括:上一轮交互的响应文本信息,及上一轮交互语音识别文本对信息槽的填充情况。
5.根据权利要求4所述的方法,其特征在于,所述语义特征包括以下任意一项或多项:词向量、词置信度、词时长、词TF-IDF得分、词有效语音得分均值。
6.根据权利要求1所述的方法,其特征在于,所述根据预先构建的基于语义层面的拒识判断模型对当前语音识别结果进行拒识判断,得到模型输出结果包括:
获取所述语音识别结果包含每个词的语义特征及所述语音识别结果的对话历史状态特征;
将所述语音识别结果包含每个词的语义特征及所述语音识别结果的对话历史状态特征输入所述拒识判断模型,得到模型输出的拒识判断结果。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:
在对所述语音数据进行语音识别之前,对所述语音数据进行唤醒词检测;
如果检测到唤醒词,则执行对所述语音数据进行语音识别的步骤;
如果未检测到唤醒词,则判断接收的语音数据与上次用户交互的时间间隔是否超过预设时间;
如果否,则执行对所述语音数据进行语音识别的步骤。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
在对所述语音数据进行唤醒词检测之前,获取用户当前状态;
如果用户当前状态满足第一预设条件,则执行对所述语音数据进行唤醒词检测的步骤。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
在对所述语音数据进行语音识别之前,获取用户当前状态;
如果用户当前状态满足第二预设条件,则执行对所述语音数据进行语音识别的步骤。
10.一种智能语音交互系统,其特征在于,包括:
接收模块,用于接收语音数据;
语音识别模块,用于对所述语音数据进行语音识别,得到语音识别结果;
语义层拒识判断模块,用于根据预先构建的基于语义层面的拒识判断模型对所述语音识别结果进行拒识判断,得到模型输出结果;
确定模块,用于根据所述模型输出结果确定所述语音数据是否为人机交互语音数据;如果是,则触发语义理解模块对当前语音识别结果进行语义理解;
所述语义理解模块,用于对当前语音识别结果进行语义理解;
响应模块,用于根据所述语义理解模块得到的语义理解结果生成交互结果,所述交互结果包括响应文本。
11.根据权利要求10所述的系统,其特征在于,所述系统还包括:模型构建模块,用于构建拒识判断模型:所述模型构建模块包括:
拓扑结构确定单元,用于确定拒识判断模型拓扑结构;
训练数据收集单元,用于收集大量人机交互语音数据及其对应的语音识别文本;
分词单元,用于对所述语音识别文本中用户提问或回答语句文本进行分词,并以单轮回答或提问为单位,获取分词词串;
语义特征提取单元,用于提取所述分词词串中各词的语义特征;
标注单元,用于标注拒识判断结果;
训练单元,用于基于所述人机交互语音数据及其标注信息和各词的语义特征,训练得到拒识判断模型。
12.根据权利要求11所述的系统,其特征在于,所述模型拓扑结构采用RNN模型,包括输入层、中间隐层和输出层;
所述输入层的输入包括:当前语音识别结果包含每个词的语义特征;
所述输出层的输出包括:拒识判断结果。
13.根据权利要求12所述的系统,其特征在于,所述输入层的输入还包括:所述语音识别结果的对话历史状态特征,所述对话历史状态特征包括:上一轮交互的响应文本信息,及上一轮交互语音识别文本对信息槽的填充情况。
14.根据权利要求13所述的系统,其特征在于,所述语义特征包括以下任意一项或多项:词向量、词置信度、词时长、词TF-IDF得分、词有效语音得分均值。
15.根据权利要求10所述的系统,其特征在于,所述语义层拒识判断模块包括:
信息获取单元,用于获取所述语音识别结果包含每个词的语义特征及所述语音识别结果的对话历史状态特征;
判断单元,用于将所述语音识别结果包含每个词的语义特征及所述语音识别结果的对话历史状态特征输入所述拒识判断模型,得到模型输出的拒识判断结果。
16.根据权利要求10至15任一项所述的系统,其特征在于,所述系统还包括:
交互逻辑检测模块,用于从交互逻辑层面对所述语音数据进行拒识检测;所述交互逻辑检测模块包括:
唤醒词检测单元,用于对所述语音数据进行唤醒词检测;如果检测到唤醒词,则触发所述语音识别模块对所述语音数据进行语音识别;如果未检测到唤醒词,则触发超时检测单元;
所述超时检测单元,用于检测所述接收模块接收的语音数据与上次用户交互的时间间隔是否超过预设时间;如果否,则触发所述语音识别模块对所述语音数据进行语音识别。
17.根据权利要求16所述的系统,其特征在于,所述系统还包括:
用户状态检测模块,用于在所述交互逻辑模块对所述语音数据进行拒识检测之前,获取用户当前状态;并在用户当前状态满足第一预设条件时,触发所述交互逻辑检测模块工作。
18.根据权利要求17所述的系统,其特征在于,
所述用户状态检测模块,还用于在所述语音识别模块对所述语音数据进行语音识别之前,获取用户当前状态;并在用户当前状态满足第二预设条件时,触发所述语音识别模块工作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610615976.9A CN107665708B (zh) | 2016-07-29 | 2016-07-29 | 智能语音交互方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610615976.9A CN107665708B (zh) | 2016-07-29 | 2016-07-29 | 智能语音交互方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107665708A true CN107665708A (zh) | 2018-02-06 |
CN107665708B CN107665708B (zh) | 2021-06-08 |
Family
ID=61114611
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610615976.9A Active CN107665708B (zh) | 2016-07-29 | 2016-07-29 | 智能语音交互方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107665708B (zh) |
Cited By (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509619A (zh) * | 2018-04-04 | 2018-09-07 | 科大讯飞股份有限公司 | 一种语音交互方法及设备 |
CN108536668A (zh) * | 2018-02-26 | 2018-09-14 | 科大讯飞股份有限公司 | 唤醒词评估方法及装置、存储介质、电子设备 |
CN108538294A (zh) * | 2018-04-27 | 2018-09-14 | 科大讯飞股份有限公司 | 一种语音交互方法及装置 |
CN108766438A (zh) * | 2018-06-21 | 2018-11-06 | Oppo广东移动通信有限公司 | 人机交互方法、装置、存储介质及智能终端 |
CN109448701A (zh) * | 2018-09-19 | 2019-03-08 | 易诚博睿(南京)科技有限公司 | 一种智能语音识别到语义理解的结果统计系统及方法 |
CN109493863A (zh) * | 2018-12-26 | 2019-03-19 | 广州灵聚信息科技有限公司 | 一种智能唤醒方法和装置 |
CN109614474A (zh) * | 2018-06-05 | 2019-04-12 | 安徽省泰岳祥升软件有限公司 | 多轮会话的流程配置单元、方法及智能机器人交互系统 |
CN109785051A (zh) * | 2018-12-25 | 2019-05-21 | 南京硅基智能科技有限公司 | 一种基于二维码对商场进行语音交互的方法 |
CN109785838A (zh) * | 2019-01-28 | 2019-05-21 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备及存储介质 |
CN109785836A (zh) * | 2019-01-28 | 2019-05-21 | 三星电子(中国)研发中心 | 交互方法和装置 |
CN109858946A (zh) * | 2018-12-25 | 2019-06-07 | 南京硅基智能科技有限公司 | 一种基于二维码对商场内商店进行引路的方法 |
CN109871916A (zh) * | 2018-12-25 | 2019-06-11 | 南京硅基智能科技有限公司 | 一种二维码扫码进行语音交互的方法 |
CN109871129A (zh) * | 2019-03-22 | 2019-06-11 | 深圳追一科技有限公司 | 人机交互方法、装置、客服设备和存储介质 |
CN110046221A (zh) * | 2019-03-01 | 2019-07-23 | 平安科技(深圳)有限公司 | 一种机器对话方法、装置、计算机设备及存储介质 |
CN110335600A (zh) * | 2019-07-09 | 2019-10-15 | 四川长虹电器股份有限公司 | 家电设备的多模态交互方法及系统 |
CN110556105A (zh) * | 2018-05-31 | 2019-12-10 | 丰田自动车株式会社 | 语音交互系统、其处理方法及其程序 |
CN110718223A (zh) * | 2019-10-28 | 2020-01-21 | 百度在线网络技术(北京)有限公司 | 用于语音交互控制的方法、装置、设备和介质 |
CN110718225A (zh) * | 2019-11-25 | 2020-01-21 | 深圳康佳电子科技有限公司 | 一种语音控制方法、终端以及存储介质 |
CN110808050A (zh) * | 2018-08-03 | 2020-02-18 | 蔚来汽车有限公司 | 语音识别方法及智能设备 |
CN110992947A (zh) * | 2019-11-12 | 2020-04-10 | 北京字节跳动网络技术有限公司 | 一种基于语音的交互方法、装置、介质和电子设备 |
CN111046150A (zh) * | 2018-10-15 | 2020-04-21 | 阿里巴巴集团控股有限公司 | 人机交互处理系统及其方法、存储介质、电子设备 |
CN111317316A (zh) * | 2018-12-13 | 2020-06-23 | 南京硅基智能科技有限公司 | 模拟指定人声进行人机对话的照片框 |
CN111321928A (zh) * | 2018-12-13 | 2020-06-23 | 南京硅基智能科技有限公司 | 基于ai模拟逝去人声进行人机对话的墓碑 |
CN111319048A (zh) * | 2018-12-13 | 2020-06-23 | 南京硅基智能科技有限公司 | 基于ai模拟逝去人声进行人机对话的保姆机器人 |
CN111317642A (zh) * | 2018-12-13 | 2020-06-23 | 南京硅基智能科技有限公司 | 基于ai模拟逝去人声进行人机对话的骨灰盒 |
CN111354360A (zh) * | 2020-03-17 | 2020-06-30 | 北京百度网讯科技有限公司 | 语音交互处理方法、装置和电子设备 |
CN111370004A (zh) * | 2018-12-25 | 2020-07-03 | 阿里巴巴集团控股有限公司 | 人机交互方法、语音处理方法及设备 |
WO2020140840A1 (zh) * | 2019-01-04 | 2020-07-09 | 优奈柯恩(北京)科技有限公司 | 用于唤醒可穿戴设备的方法及装置 |
CN111462741A (zh) * | 2020-03-02 | 2020-07-28 | 北京声智科技有限公司 | 语音数据处理方法、装置及存储介质 |
CN111583956A (zh) * | 2020-04-30 | 2020-08-25 | 联想(北京)有限公司 | 语音处理方法和装置 |
CN111583907A (zh) * | 2020-04-15 | 2020-08-25 | 北京小米松果电子有限公司 | 信息处理方法、装置及存储介质 |
CN111580773A (zh) * | 2020-04-15 | 2020-08-25 | 北京小米松果电子有限公司 | 信息处理方法、装置及存储介质 |
CN111583919A (zh) * | 2020-04-15 | 2020-08-25 | 北京小米松果电子有限公司 | 信息处理方法、装置及存储介质 |
CN112000787A (zh) * | 2020-08-17 | 2020-11-27 | 上海小鹏汽车科技有限公司 | 语音交互方法、服务器和语音交互系统 |
CN112116926A (zh) * | 2019-06-19 | 2020-12-22 | 北京猎户星空科技有限公司 | 音频数据的处理方法及装置、模型训练方法及装置 |
CN113223501A (zh) * | 2021-04-27 | 2021-08-06 | 北京三快在线科技有限公司 | 一种语音交互业务的执行方法及执行装置 |
CN113221580A (zh) * | 2021-07-08 | 2021-08-06 | 广州小鹏汽车科技有限公司 | 语义拒识方法、语义拒识装置、交通工具及介质 |
CN113689847A (zh) * | 2020-05-18 | 2021-11-23 | 阿里巴巴集团控股有限公司 | 语音交互方法、装置及语音芯片模组 |
US11205431B2 (en) | 2019-01-02 | 2021-12-21 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, apparatus and device for presenting state of voice interaction device, and storage medium |
CN113822020A (zh) * | 2021-11-22 | 2021-12-21 | 湖北亿咖通科技有限公司 | 文本处理方法、设备、存储介质及程序产品 |
CN114203178A (zh) * | 2021-12-10 | 2022-03-18 | 镁佳(北京)科技有限公司 | 一种智能语音系统拒识方法、装置及计算机设备 |
CN114283794A (zh) * | 2021-12-14 | 2022-04-05 | 达闼科技(北京)有限公司 | 噪音过滤方法、装置、电子设备和计算机可读存储介质 |
CN115376513A (zh) * | 2022-10-19 | 2022-11-22 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器及计算机可读存储介质 |
WO2022267405A1 (zh) * | 2021-06-24 | 2022-12-29 | 达闼机器人股份有限公司 | 语音交互方法、系统、电子设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101068122B1 (ko) * | 2008-12-15 | 2011-09-28 | 한국전자통신연구원 | 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법 |
CN102945671A (zh) * | 2012-10-31 | 2013-02-27 | 四川长虹电器股份有限公司 | 语音识别方法 |
CN102945672A (zh) * | 2012-09-29 | 2013-02-27 | 深圳市国华识别科技开发有限公司 | 一种多媒体设备语音控制系统及方法 |
CN105100898A (zh) * | 2015-08-13 | 2015-11-25 | 海信集团有限公司 | 一种电视机智能开启方法及系统 |
CN105321518A (zh) * | 2014-08-05 | 2016-02-10 | 中国科学院声学研究所 | 一种低资源嵌入式语音识别的拒识方法 |
CN105469423A (zh) * | 2015-11-16 | 2016-04-06 | 北京师范大学 | 一种基于连续吸引子神经网络的在线目标跟踪方法 |
CN105529030A (zh) * | 2015-12-29 | 2016-04-27 | 百度在线网络技术(北京)有限公司 | 语音识别处理方法和装置 |
CN105556594A (zh) * | 2013-12-26 | 2016-05-04 | 松下知识产权经营株式会社 | 声音识别处理装置、声音识别处理方法以及显示装置 |
CN105575386A (zh) * | 2015-12-18 | 2016-05-11 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN105783191A (zh) * | 2016-04-01 | 2016-07-20 | 北京云知声信息技术有限公司 | 一种语音控制空调的方法、装置及系统 |
-
2016
- 2016-07-29 CN CN201610615976.9A patent/CN107665708B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101068122B1 (ko) * | 2008-12-15 | 2011-09-28 | 한국전자통신연구원 | 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법 |
CN102945672A (zh) * | 2012-09-29 | 2013-02-27 | 深圳市国华识别科技开发有限公司 | 一种多媒体设备语音控制系统及方法 |
CN102945671A (zh) * | 2012-10-31 | 2013-02-27 | 四川长虹电器股份有限公司 | 语音识别方法 |
CN105556594A (zh) * | 2013-12-26 | 2016-05-04 | 松下知识产权经营株式会社 | 声音识别处理装置、声音识别处理方法以及显示装置 |
CN105321518A (zh) * | 2014-08-05 | 2016-02-10 | 中国科学院声学研究所 | 一种低资源嵌入式语音识别的拒识方法 |
CN105100898A (zh) * | 2015-08-13 | 2015-11-25 | 海信集团有限公司 | 一种电视机智能开启方法及系统 |
CN105469423A (zh) * | 2015-11-16 | 2016-04-06 | 北京师范大学 | 一种基于连续吸引子神经网络的在线目标跟踪方法 |
CN105575386A (zh) * | 2015-12-18 | 2016-05-11 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN105529030A (zh) * | 2015-12-29 | 2016-04-27 | 百度在线网络技术(北京)有限公司 | 语音识别处理方法和装置 |
CN105783191A (zh) * | 2016-04-01 | 2016-07-20 | 北京云知声信息技术有限公司 | 一种语音控制空调的方法、装置及系统 |
Non-Patent Citations (1)
Title |
---|
FRANCOIS CHOLLET: "stateful LSTM,"https://keras.io/examples/lstm_stateful/"", 《KERAS DOCUMENTATION》 * |
Cited By (69)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108536668B (zh) * | 2018-02-26 | 2022-06-07 | 科大讯飞股份有限公司 | 唤醒词评估方法及装置、存储介质、电子设备 |
CN108536668A (zh) * | 2018-02-26 | 2018-09-14 | 科大讯飞股份有限公司 | 唤醒词评估方法及装置、存储介质、电子设备 |
CN108509619A (zh) * | 2018-04-04 | 2018-09-07 | 科大讯飞股份有限公司 | 一种语音交互方法及设备 |
CN108538294A (zh) * | 2018-04-27 | 2018-09-14 | 科大讯飞股份有限公司 | 一种语音交互方法及装置 |
CN108538294B (zh) * | 2018-04-27 | 2020-11-17 | 科大讯飞股份有限公司 | 一种语音交互方法及装置 |
CN110556105A (zh) * | 2018-05-31 | 2019-12-10 | 丰田自动车株式会社 | 语音交互系统、其处理方法及其程序 |
CN110556105B (zh) * | 2018-05-31 | 2022-11-15 | 丰田自动车株式会社 | 语音交互系统、其处理方法及其程序 |
CN109614474A (zh) * | 2018-06-05 | 2019-04-12 | 安徽省泰岳祥升软件有限公司 | 多轮会话的流程配置单元、方法及智能机器人交互系统 |
CN108766438A (zh) * | 2018-06-21 | 2018-11-06 | Oppo广东移动通信有限公司 | 人机交互方法、装置、存储介质及智能终端 |
CN108766438B (zh) * | 2018-06-21 | 2020-12-01 | Oppo广东移动通信有限公司 | 人机交互方法、装置、存储介质及智能终端 |
CN110808050A (zh) * | 2018-08-03 | 2020-02-18 | 蔚来汽车有限公司 | 语音识别方法及智能设备 |
CN110808050B (zh) * | 2018-08-03 | 2024-04-30 | 蔚来(安徽)控股有限公司 | 语音识别方法及智能设备 |
CN109448701A (zh) * | 2018-09-19 | 2019-03-08 | 易诚博睿(南京)科技有限公司 | 一种智能语音识别到语义理解的结果统计系统及方法 |
CN111046150A (zh) * | 2018-10-15 | 2020-04-21 | 阿里巴巴集团控股有限公司 | 人机交互处理系统及其方法、存储介质、电子设备 |
CN111046150B (zh) * | 2018-10-15 | 2023-04-25 | 阿里巴巴集团控股有限公司 | 人机交互处理系统及其方法、存储介质、电子设备 |
CN111317316A (zh) * | 2018-12-13 | 2020-06-23 | 南京硅基智能科技有限公司 | 模拟指定人声进行人机对话的照片框 |
CN111321928A (zh) * | 2018-12-13 | 2020-06-23 | 南京硅基智能科技有限公司 | 基于ai模拟逝去人声进行人机对话的墓碑 |
CN111319048A (zh) * | 2018-12-13 | 2020-06-23 | 南京硅基智能科技有限公司 | 基于ai模拟逝去人声进行人机对话的保姆机器人 |
CN111317642A (zh) * | 2018-12-13 | 2020-06-23 | 南京硅基智能科技有限公司 | 基于ai模拟逝去人声进行人机对话的骨灰盒 |
CN109785051A (zh) * | 2018-12-25 | 2019-05-21 | 南京硅基智能科技有限公司 | 一种基于二维码对商场进行语音交互的方法 |
CN109858946A (zh) * | 2018-12-25 | 2019-06-07 | 南京硅基智能科技有限公司 | 一种基于二维码对商场内商店进行引路的方法 |
CN111370004A (zh) * | 2018-12-25 | 2020-07-03 | 阿里巴巴集团控股有限公司 | 人机交互方法、语音处理方法及设备 |
CN109871916A (zh) * | 2018-12-25 | 2019-06-11 | 南京硅基智能科技有限公司 | 一种二维码扫码进行语音交互的方法 |
CN109493863A (zh) * | 2018-12-26 | 2019-03-19 | 广州灵聚信息科技有限公司 | 一种智能唤醒方法和装置 |
US11205431B2 (en) | 2019-01-02 | 2021-12-21 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, apparatus and device for presenting state of voice interaction device, and storage medium |
WO2020140840A1 (zh) * | 2019-01-04 | 2020-07-09 | 优奈柯恩(北京)科技有限公司 | 用于唤醒可穿戴设备的方法及装置 |
EP3890342A4 (en) * | 2019-01-04 | 2022-01-19 | Matrixed Reality Technology Co., Ltd. | METHOD AND APPARATUS FOR AWAKENING A PORTABLE DEVICE |
CN109785836A (zh) * | 2019-01-28 | 2019-05-21 | 三星电子(中国)研发中心 | 交互方法和装置 |
CN109785838B (zh) * | 2019-01-28 | 2021-08-31 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备及存储介质 |
CN109785838A (zh) * | 2019-01-28 | 2019-05-21 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备及存储介质 |
CN110046221B (zh) * | 2019-03-01 | 2023-12-22 | 平安科技(深圳)有限公司 | 一种机器对话方法、装置、计算机设备及存储介质 |
CN110046221A (zh) * | 2019-03-01 | 2019-07-23 | 平安科技(深圳)有限公司 | 一种机器对话方法、装置、计算机设备及存储介质 |
WO2020177282A1 (zh) * | 2019-03-01 | 2020-09-10 | 平安科技(深圳)有限公司 | 一种机器对话方法、装置、计算机设备及存储介质 |
CN109871129B (zh) * | 2019-03-22 | 2022-03-11 | 深圳追一科技有限公司 | 人机交互方法、装置、客服设备和存储介质 |
CN109871129A (zh) * | 2019-03-22 | 2019-06-11 | 深圳追一科技有限公司 | 人机交互方法、装置、客服设备和存储介质 |
CN112116926A (zh) * | 2019-06-19 | 2020-12-22 | 北京猎户星空科技有限公司 | 音频数据的处理方法及装置、模型训练方法及装置 |
CN110335600A (zh) * | 2019-07-09 | 2019-10-15 | 四川长虹电器股份有限公司 | 家电设备的多模态交互方法及系统 |
CN110718223A (zh) * | 2019-10-28 | 2020-01-21 | 百度在线网络技术(北京)有限公司 | 用于语音交互控制的方法、装置、设备和介质 |
JP2021067939A (ja) * | 2019-10-28 | 2021-04-30 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声インタラクション制御のための方法、装置、機器及び媒体 |
JP7146869B2 (ja) | 2019-10-28 | 2022-10-04 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | 音声インタラクション制御のための方法、装置、機器及び媒体 |
US11503155B2 (en) | 2019-10-28 | 2022-11-15 | Baidu Online Network Technology (Beijing) Co., Ltd. | Interactive voice-control method and apparatus, device and medium |
CN110718223B (zh) * | 2019-10-28 | 2021-02-12 | 百度在线网络技术(北京)有限公司 | 用于语音交互控制的方法、装置、设备和介质 |
CN110992947A (zh) * | 2019-11-12 | 2020-04-10 | 北京字节跳动网络技术有限公司 | 一种基于语音的交互方法、装置、介质和电子设备 |
CN110992947B (zh) * | 2019-11-12 | 2022-04-22 | 北京字节跳动网络技术有限公司 | 一种基于语音的交互方法、装置、介质和电子设备 |
CN110718225A (zh) * | 2019-11-25 | 2020-01-21 | 深圳康佳电子科技有限公司 | 一种语音控制方法、终端以及存储介质 |
CN111462741B (zh) * | 2020-03-02 | 2024-02-02 | 北京声智科技有限公司 | 语音数据处理方法、装置及存储介质 |
CN111462741A (zh) * | 2020-03-02 | 2020-07-28 | 北京声智科技有限公司 | 语音数据处理方法、装置及存储介质 |
CN111354360A (zh) * | 2020-03-17 | 2020-06-30 | 北京百度网讯科技有限公司 | 语音交互处理方法、装置和电子设备 |
CN111583919A (zh) * | 2020-04-15 | 2020-08-25 | 北京小米松果电子有限公司 | 信息处理方法、装置及存储介质 |
CN111583907A (zh) * | 2020-04-15 | 2020-08-25 | 北京小米松果电子有限公司 | 信息处理方法、装置及存储介质 |
CN111583907B (zh) * | 2020-04-15 | 2023-08-15 | 北京小米松果电子有限公司 | 信息处理方法、装置及存储介质 |
CN111580773A (zh) * | 2020-04-15 | 2020-08-25 | 北京小米松果电子有限公司 | 信息处理方法、装置及存储介质 |
CN111583919B (zh) * | 2020-04-15 | 2023-10-13 | 北京小米松果电子有限公司 | 信息处理方法、装置及存储介质 |
CN111580773B (zh) * | 2020-04-15 | 2023-11-14 | 北京小米松果电子有限公司 | 信息处理方法、装置及存储介质 |
CN111583956A (zh) * | 2020-04-30 | 2020-08-25 | 联想(北京)有限公司 | 语音处理方法和装置 |
CN111583956B (zh) * | 2020-04-30 | 2024-03-26 | 联想(北京)有限公司 | 语音处理方法和装置 |
CN113689847A (zh) * | 2020-05-18 | 2021-11-23 | 阿里巴巴集团控股有限公司 | 语音交互方法、装置及语音芯片模组 |
CN112000787A (zh) * | 2020-08-17 | 2020-11-27 | 上海小鹏汽车科技有限公司 | 语音交互方法、服务器和语音交互系统 |
CN112000787B (zh) * | 2020-08-17 | 2021-05-14 | 上海小鹏汽车科技有限公司 | 语音交互方法、服务器和语音交互系统 |
CN113223501B (zh) * | 2021-04-27 | 2022-11-04 | 北京三快在线科技有限公司 | 一种语音交互业务的执行方法及执行装置 |
CN113223501A (zh) * | 2021-04-27 | 2021-08-06 | 北京三快在线科技有限公司 | 一种语音交互业务的执行方法及执行装置 |
WO2022267405A1 (zh) * | 2021-06-24 | 2022-12-29 | 达闼机器人股份有限公司 | 语音交互方法、系统、电子设备及存储介质 |
CN113221580B (zh) * | 2021-07-08 | 2021-10-12 | 广州小鹏汽车科技有限公司 | 语义拒识方法、语义拒识装置、交通工具及介质 |
CN113221580A (zh) * | 2021-07-08 | 2021-08-06 | 广州小鹏汽车科技有限公司 | 语义拒识方法、语义拒识装置、交通工具及介质 |
CN113822020B (zh) * | 2021-11-22 | 2022-07-08 | 亿咖通(湖北)技术有限公司 | 文本处理方法、设备、存储介质 |
CN113822020A (zh) * | 2021-11-22 | 2021-12-21 | 湖北亿咖通科技有限公司 | 文本处理方法、设备、存储介质及程序产品 |
CN114203178A (zh) * | 2021-12-10 | 2022-03-18 | 镁佳(北京)科技有限公司 | 一种智能语音系统拒识方法、装置及计算机设备 |
CN114283794A (zh) * | 2021-12-14 | 2022-04-05 | 达闼科技(北京)有限公司 | 噪音过滤方法、装置、电子设备和计算机可读存储介质 |
CN115376513A (zh) * | 2022-10-19 | 2022-11-22 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107665708B (zh) | 2021-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107665708A (zh) | 智能语音交互方法及系统 | |
CN107437415B (zh) | 一种智能语音交互方法及系统 | |
CN108000526B (zh) | 用于智能机器人的对话交互方法及系统 | |
CN110717339B (zh) | 语义表示模型的处理方法、装置、电子设备及存储介质 | |
CN105427858B (zh) | 实现语音自动分类的方法及系统 | |
CN105512228B (zh) | 一种基于智能机器人的双向问答数据处理方法和系统 | |
US20210233521A1 (en) | Method for speech recognition based on language adaptivity and related apparatus | |
CN107240398B (zh) | 智能语音交互方法及装置 | |
CN106328166B (zh) | 人机对话异常检测系统及方法 | |
CN107665706B (zh) | 快速语音交互方法及系统 | |
CN107993665B (zh) | 多人会话场景中发言人角色确定方法、智能会议方法及系统 | |
CN103065630B (zh) | 用户个性化信息语音识别方法及系统 | |
CN108984530A (zh) | 一种网络敏感内容的检测方法及检测系统 | |
CN107239440A (zh) | 一种垃圾文本识别方法和装置 | |
CN108763326A (zh) | 一种基于特征多样化的卷积神经网络的情感分析模型构建方法 | |
CN106897263A (zh) | 基于深度学习的机器人对话交互方法及装置 | |
CN107766506A (zh) | 一种基于层次化注意力机制的多轮对话模型构建方法 | |
CN109637537B (zh) | 一种自动获取标注数据优化自定义唤醒模型的方法 | |
CN107767861A (zh) | 语音唤醒方法、系统及智能终端 | |
EP4125029B1 (en) | Electronic apparatus, controlling method of thereof and non-transitory computer readable recording medium | |
CN112466302B (zh) | 语音交互的方法、装置、电子设备和存储介质 | |
CN109545207A (zh) | 一种语音唤醒方法及装置 | |
CN111672098A (zh) | 虚拟对象标记方法、装置、电子设备以及存储介质 | |
CN110517668B (zh) | 一种中英文混合语音识别系统及方法 | |
CN105183717A (zh) | 一种基于随机森林和用户关系的osn用户情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |