CN110910866A - 一种对话处理方法、设备及计算机可读存储介质 - Google Patents
一种对话处理方法、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110910866A CN110910866A CN201911190062.2A CN201911190062A CN110910866A CN 110910866 A CN110910866 A CN 110910866A CN 201911190062 A CN201911190062 A CN 201911190062A CN 110910866 A CN110910866 A CN 110910866A
- Authority
- CN
- China
- Prior art keywords
- sound signal
- sound
- confidence
- signal
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 26
- 230000005236 sound signal Effects 0.000 claims abstract description 170
- 238000000034 method Methods 0.000 claims abstract description 56
- 239000013598 vector Substances 0.000 claims abstract description 47
- 238000012545 processing Methods 0.000 claims abstract description 46
- 238000007477 logistic regression Methods 0.000 claims abstract description 24
- 230000008569 process Effects 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims description 17
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000002452 interceptive effect Effects 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 9
- 238000012790 confirmation Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000002618 waking effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明实施例公开了一种对话处理方法、设备及计算机可读存储介质,所述方法包括:在执行指定任务过程中,获取声音信号;对所述声音信号进行处理,获得对应所述声音信号的拼接向量;通过逻辑回归模型对所述拼接向量进行预测,获得对应所述声音信号的置信度;确定所述置信度是否满足所述置信度阈值;当确定所述置信度满足所述置信度阈值时,确定所述声音信号为待执行指令,应用本发明实施例能够提高语音交互的便利性。
Description
技术领域
本发明涉及语音处理技术领域,尤其涉及一种对话处理方法、设备及计算机可读存储介质。
背景技术
智能语音交互是基于语音输入的交互模式,通过说话就可以得到反馈结果。其原理是通过实时监听获得外界的声音信号,一旦监听到的声音信号中包含唤醒词时,设备就会被唤醒。唤醒的设备对外界的声音信号进行采集,并将采集到的声音信号进行数据处理,获取并执行对应声音信号的指令。通过语音交互,用户虽然能够简单方便地操作智能设备。但是,在用户进行语音输入的过程中,用户容易出现说错、改变想法等场景。在该情况下,用户需要再次通过唤醒词才能唤醒设备,增加了语音交互过程中的不便利性。
发明内容
本发明实施例为了有效克服现有技术所存在的上述缺陷,创造性地提供一种对话处理方法、设备及计算机可读存储介质,提高了语音交互的便利性。
本发明一方面提供一种对话处理方法,所述方法包括:在执行指定任务过程中,获取声音信号;对所述声音信号进行处理,获得对应所述声音信号的拼接向量;通过逻辑回归模型对所述拼接向量进行预测,获得对应所述声音信号的置信度;确定所述置信度是否满足所述置信度阈值;当确定所述置信度满足所述置信度阈值时,确定所述声音信号为待执行指令。
在一种可实施方式中,在确定所述声音信号为待执行指令之后,所述方法还包括:停止执行所述指定任务;响应所述待执行指令,以对用户产生交互行为。
在一种可实施方式中,在确定置信度是否满足置信度阈值之后,所述方法还包括:当确定所述置信度不满足所述置信度阈值时,丢弃所述声音信号。
在一种可实施方式中,对所述声音信号进行处理,获得对应所述声音信号的拼接向量,包括:通过解码器对所述声音信号进行解码,获得对应所述声音信号的解码置信度;通过声音分类器对所述声音信号进行识别,获得对应所述声音信号的声音置信度;获得对应所述声音信号的文本信号,通过文本分类器对所述文本信号进行转换,获得对应所述文本信号的文本置信度;对所述解码置信度、声音置信度和所述文本置信度进行拼接,获得所述拼接向量。
在一种可实施方式中,所述逻辑回归模型通过模型训练获得,用于模型训练的训练数据由上一轮声音信号数据和当前声音信号数据拼接而成。
本发明另一方面提供一种对话处理设备,所述设备包括:获取模块,用于在执行指定任务过程中,获取声音信号;处理模块,用于对所述声音信号进行处理,获得对应所述声音信号的拼接向量;预测模块,用于通过逻辑回归模型对所述拼接向量进行预测,获得对应所述声音信号的置信度;第一确定模块,用于确定所述置信度是否满足所述置信度阈值;第二确定模块,用于当确定所述置信度满足所述置信度阈值时,确定所述声音信号为待执行指令。
在一种可实施方式中,所述设备还包括:停止模块,用于停止执行所述指定任务;响应模块,用于响应所述待执行指令,以对用户产生交互行为。
在一种可实施方式中,所述第二确定模块,还用于当确定所述置信度不满足所述阈值时,丢弃所述声音信号。
在一种可实施方式中,所述处理模块,包括:解码子模块,用于通过解码器对所述声音信号进行解码,获得对应所述声音信号的解码置信度;识别子模块,用于通过声音分类器对所述声音信号进行识别,获得对应所述声音信号的声音置信度;转换子模块,用于获得对应所述声音信号的文本信号,通过文本分类器对所述文本信号进行转换,获得对应所述文本信号的文本置信度;拼接子模块,用于对所述解码置信度、声音置信度和所述文本置信度进行拼接,获得所述拼接向量。
本发明另一方面提供一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于本发明一方面提供任一项所述的一种对话处理方法。
本发明提供的一种对话处理方法、设备及计算机可读存储介质,用于设备对声音信号进行处理,尤其应用于正在执行指定任务过程中的设备对声音信号的处理。通过该对话处理方法,在设备接收并处理指定任务时,能够同时对环境中的声音信号进行接收和处理,无需通过唤醒词或其他方式进行再次唤醒以用于对声音信号的接收和处理,有利于设备在执行任务过程及时修改或改变指定任务,还有利于用户在说错、改变想法的场景中,快速改变执行任务。应用该对话处理方法,在设备执行任务过程中,无需重新唤醒设备就可以下达新的指令,提高交互过程中的效率和方便性。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1为本发明一实施例所提供的一种对话处理方法的一种实现流程示意图;
图2为本发明一实施例所提供的一种对话处理方法中执行待执行指令的实现流程示意图;
图3为本发明一实施例所提供的一种对话处理方法丢弃声音信号的一种具体实现流程示意图;
图4为本发明一实施例所提供的一种对话处理方法声音信号处理的一种具体实现流程示意图;
图5为本发明一实施例所提供的一对话处理设备的一种组成结构图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书中的一些方面相一致的方法、装置或设备的例子。
图1为本发明一实施例所提供的一种对话处理方法的一种实现流程示意图。
参见图1,本发明实施例一方面提供一种对话处理方法,方法包括:步骤101,在执行指定任务过程中,获取声音信号;步骤102,对声音信号进行处理,获得对应声音信号的拼接向量;步骤103,通过逻辑回归模型对拼接向量进行预测,获得对应声音信号的置信度;步骤104,确定置信度是否满足置信度阈值;步骤105,当确定置信度满足置信度阈值时,确定声音信号为待执行指令。
本发明实施例提供的一种对话处理方法,用于设备对声音信号进行处理,尤其应用于正在执行指定任务过程中的设备对声音信号的处理。通过该对话处理方法,在设备接收并处理指定任务的过程中,能够同时对环境中的声音信号进行采集和处理,无需通过唤醒词或其他方式对设备进行再次唤醒,在处理指定任务中的设备就能够进行对声音信号的接收和处理,有利于设备在执行指定任务过程中,根据用户的需求,及时修改、改变、停止指定任务;还有利于用户在说错、改变想法的场景中,快速对正在执行的任务进行修改、改变、停止。应用该对话处理方法,在执行任务过程中,无需多次唤醒设备,提高语音交互过程中的效率和方便性。
具体的,本发明实施例的方法包括在执行指定任务过程中,获取声音信号。在该方法中,由设备获取声音信号,设备可以是具有信号接收功能和数据处理功能的终端,如智能耳机、智能手机、智能音箱、智能电脑或其他智能终端。指定任务为设备在获取声音信号时正在执行的任务,该指定任务的具体类型不受限制,且对应该指定任务的指示方式同样不受限制,设备可以通过接收对应指定任务的声音信号,获得对应指定任务的指令;可以通过接收第三方终端的发送信号,获得对应指定任务的指令,例如,指定任务可以是播报天气、播报歌曲、播放视频、录制视频、打开某软件等等;设备可以通过获得对应指定任务的声音信号,获得对应指定任务的指令,也可以通过接收第三方终端的发送信号,获得对应指定任务的指令。
本发明实施例的方法还包括对声音信号进行处理,获得对应声音信号的拼接向量。在获得声音信号后,通过对声音信号进行信号的转换处理,使声音信号转换成拼接向量。向量转换方式可以通过解码器、声音分类器和文本分类器中的任一种或多种进行转换,获得对应声音信号的拼接向量。
本发明实施例的方法还包括通过逻辑回归模型对拼接向量进行预测,获得对应声音信号的置信度。在获得拼接向量之后,将拼接向量输入逻辑回归模型,通过逻辑回归模型对拼接向量进行预测,逻辑回归模型用于预测对应声音信号的置信度,从而获得对应声音信号的置信度。置信度用于评价声音信号的可靠性。
本发明实施例的方法还包括确定置信度是否满足置信度阈值;当确定置信度满足置信度阈值时,确定声音信号为待执行指令。在获得置信度后,通过比较置信度和置信度阈值,能够判断该声音信号是否为用户的目标意图,置信度阈值可以根据实际情况对进行参数调整。在满足置信度阈值后,认为声音信号为用户的目标意图,确定声音信号为待执行指令。在用于逻辑回归模型训练的训练数据样本选择上,选择将指定任务对应的数据和与指定任务具有相关性的声音信号共同作为训练数据样本,获得的逻辑回归模型能够通过置信度阈值的比较,确定声音信号所对应的待执行指令是否与指定任务相关,可以将与指定任务相关的声音信号所对应的置信度确定为满足置信度范围,即当与指定任务相关的声音信号确定为满足置信度范围时,确定声音信号为待执行指令。需要进一步补充的是,确定声音信号为待执行指令,对应待执行指令的待执行任务可以为任一类型的任务,如可以是播报天气、播报歌曲、播放视频、录制视频、打开某软件等等。
图2为本发明一实施例所提供的一种对话处理方法中执行待执行指令的实现流程示意图。
参见图2,在本发明实施例中,在确定声音信号为待执行指令之后,方法还包括:步骤201,停止执行指定任务;步骤202,响应待执行指令,以对用户产生交互行为。
在确定与声音信号对应的待执行指令后,需要对待执行指令进行响应,由于在确定声音信号为待执行指令的同时,设备仍然在执行指定任务,且由于声音信号与指定任务之间具有关联,因此,在执行待执行指令前,优选为停止执行指定任务,然后执行待执行指令。当然,在确定声音信号为待执行指令之后,还可以选择先执行完成指定任务后,执行待执行指令。是否停止指定任务可以预先设置。需要补充的是,当在确定声音信号为待执行指令之后,设备响应的待执行指令可以为对应待执行指令的直接任务,也可以为输出是否执行待执行指令的语音。例如,当设备正在播放Y的歌时,接收到声音信号为“播放Z的歌”,在确认对应“播放Z的歌”的声音信号满足置信度阈值后,设备可以停止播放Y的歌,然后播放Z的歌;设备也可以先输出语音“是否要播放Z的歌”在获得用户确认后,再进行Z的歌的播放。
图3为本发明一实施例所提供的一种对话处理方法丢弃声音信号的一种具体实现流程示意图。
参见图3,在本发明实施例中,在确定置信度是否满足置信度阈值之后,方法还包括:步骤301,当确定置信度不满足置信度阈值时,丢弃声音信号。
当确定置信度不满足置信度阈值时,意味着设备所接收的声音信号不是用户目标意图的可靠性较大,此时声音信号可能是环境声音、用户错误输入或其他原因造成,声音信号为非用户请求,不能作为具有指示目的声音信号,判定为用户此时并不是想和语音助手交互,选择不对该声音信号进行响应,即丢弃该声音信号。
图4为本发明一实施例所提供的一种对话处理方法声音信号处理的一种具体实现流程示意图。
参见图4,在本发明实施例中,步骤102,对声音信号进行处理,获得对应声音信号的拼接向量,包括:步骤1021,通过解码器对声音信号进行解码,获得对应声音信号的解码置信度;步骤1022,通过声音分类器对声音信号进行识别,获得对应声音信号的声音置信度;步骤1023,获得对应声音信号的文本信号,通过文本分类器对文本信号进行转换,获得对应文本信号的文本置信度;步骤1024,对解码置信度、声音置信度和文本置信度进行拼接,获得拼接向量。
该方法包括通过解码器对声音信号进行解码,获得对应声音信号的解码置信度。解码器的原理为,用于在给定输入特征序列的情况下,从主要由声学模型、声学上下文、发音词典和语言模型等知识源构成的搜索空间中,通过维特比搜索方法,获取对应声音信号的最佳词串,完成解码。同时,在解码完成之后,在输出最佳词串的同时,一并输出最佳词串对应的概率,将该概率作为解码置信度。需要理解的是,在通过解码器解码之前,需要将声音信号通过预处理转换为特征序列。
该方法还包括通过声音分类器对声音信号进行识别,获得对应声音信号的声音置信度。该步骤具体包括,首先,利用LSTM循环神经网络对声音信号进行处理,识别出声音信号的相关特征。然后,通过全连接神经网络对相关特征进行计算,获得对应相关特征的判断结果,将判断结果作为声音置信度。其中,声音信号以向量形式输入至LSTM循环神经网络,通过LSTM循环神经网络计算处理,得到对应声音信号的相关特征同样以向量形式输出。需要理解的是,以向量形式输入至LSTM循环神经网络的声音信号可以为通过预处理转换获得的特征序列。在获得相关特征后,将相关特征输入一个sigmoid函数,通过函数计算能够获得一个0-1之间的值,将该值确定为声音置信度。
该方法还包括获得对应声音信号的文本信号,通过文本分类器对文本信号进行转换,获得对应文本信号的文本置信度。该步骤具体包括,通过语音识别模型识别出对应声音信号的文本信息,然后将文本信息进行分词处理,获得分词结果。然后将分词结果通过word2vec模型进行转换,得到对应分词结果的向量。之后,将对于分词结果的向量通过卷积神经网络模型进行处理,得到文本置信度。需要补充的是,上述各类模型均是已经建立好,并通过样本数据完成训练的模型,可用于对目标数据的预测。该方法在获得解码置信度、声音置信度和文本置信度后,对上述三个参数进行拼接,以获得拼接向量,拼接向量为一维向量。该拼接向量用于输入逻辑回归模型,通过逻辑回归模型进行处理,最终得到一个0到1之间的数字作为对应声音信号的置信度。
在本发明实施例中,逻辑回归模型通过模型训练获得,用于模型训练的训练数据由上一轮声音信号数据和当前声音信号数据拼接而成。
需要说明的是,上一轮声音信号数据和当前声音信号数据具有关联性。当需要声音信号所对应的指令需要与设备正在执行的指定任务之间具有关联时,在进行逻辑回归模型训练时,其用于逻辑回归训练的训练数据为由上一轮声音信号数据和当前声音信号数据拼接而成的数据。可以理解的是,上一轮声音信号数据用于对应指定任务,当前声音信号用于对应待执行指令。如此,在进行置信度判断的时候,当声音信号对应的置信度满足置信度阈值时,可认为当前声音信号与指定任务之间具有关联性,用户具有对指定任务具有关联性的意图,如改变指定任务的意图、纠正指定任务的意图、补充指定任务的意图、修改指定任务的意图等。如此,在设备运行时,当用户具有对指定任务具有关联性的意图时,能够不需要再次唤醒的情况下,使设备响应用户的语音指令。
为方便上述实施例的理解,以下提供若干实时场景。
在第一个实施场景中,应用该对话处理方法的设备为智能耳机,该智能耳机具有数据处理功能。
首先,用户通过唤醒词唤醒智能耳机,并通过语音输入第一次命令“今天天气怎么样”智能耳机接收对应“今天天气怎么样”的声音信号后,通过数据处理响应该指令,对今天的天气信号进行播报。
然后,在智能耳机对今天天气进行播报的过程中,智能耳机仍然持续对外界环境中的声音信号进行采集。此时,用户继续提问“明天天气呢”智能耳机接收到对应“明天天气呢”的声音信号后,通过对声音信号进行处理,获得对应该声音信号的拼接向量,再通过逻辑回归模型对拼接向量进行预测,获得声音信号的置信度。
在一种情况中,当智能耳机确定置信度满足置信度阈值后,智能耳机停止播放今天天气的播报,进行明天天气的播报。在另一种情况中,当智能耳机确定置信度满足置信度阈值后,智能耳机播放完今天天气的播报,然后进行明天天气的播报。在再一种情况中,当智能耳机确定置信度满足置信度阈值后,智能耳机停止今天天气的播放,并询问“是否要进行明天天气的播放”的确认语音,在获得用户确认后,进行明天天气的播放。用户的确认方式可以为通过声音确认,也可以为通过按钮确认。若用户未确认,继续播放完今天的天气,即继续进行指定任务的执行。
在第二个实施场景中,应用该对话处理方法的设备为智能音箱,该智能音箱具有数据处理功能。
当智能音箱正在播放Y的歌的时候,智能耳机仍然持续对外界环境中的声音信号进行采集。此时,用户发出声音信号“Z”,其中Z为歌手名。智能音箱接收到对应“Z”的声音信号后,通过对声音信号进行处理,获得对应该声音信号的拼接向量,再通过逻辑回归模型对拼接向量进行预测,获得声音信号的置信度。
在一种情况中,当智能音箱确定置信度满足置信度阈值后,智能音箱停止播放Y的歌,进行Z的歌的播放。在另一种情况中,当智能音箱确定置信度满足置信度阈值后,智能音箱播放完当前的歌后,在下一首播放Z的歌。在再一种情况中,当智能音箱确定置信度满足置信度阈值后,智能音箱停止Y的歌的播放,并询问“是否要播放Z的歌”的确认语音,在获得用户确认后,播放Z的歌。用户的确认方式可以为通过声音确认,也可以为通过按钮确认。
在第三个实施场景中,应用该对话处理方法的设备为智能手机,该智能手机具有数据处理功能。首先,用户通过唤醒词唤醒智能手机,并通过语音输入第一次命令“今天天气怎么样”智能手机接收对应“今天天气怎么样”的声音信号后,通过数据处理响应该指令,对今天的天气信号进行播报。
然后,在智能手机对今天天气进行播报的过程中,智能手机仍然持续对外界环境中的声音信号进行采集。此时,用户发出声音“Y地点要怎么走”智能手机接收到对应“Y地点要怎么走”的声音信号后,通过对声音信号进行处理,获得对应该声音信号的拼接向量,再通过逻辑回归模型对拼接向量进行预测,获得声音信号的置信度。由于逻辑回归模型由具有关联性的训练数据训练获得,而“今天天气怎么样”和“Y地点要怎么走”无关联性,因此对应“Y地点要怎么走”的拼接向量在进行预测后,其获得的置信度进行判断后,不满足置信度阈值后,智能耳机丢弃该声音信号,继续进行今天天气的播报。
图5为本发明一实施例所提供的一对话处理设备的一种组成结构图。
参见图5,本发明实施例另一方面提供一种对话处理设备,设备包括:获取模块501,用于在执行指定任务过程中,获取声音信号;处理模块502,用于对声音信号进行处理,获得对应声音信号的拼接向量;预测模块503,用于通过逻辑回归模型对拼接向量进行预测,获得对应声音信号的置信度;第一确定模块504,用于确定置信度是否满足置信度阈值;第二确定模块505,用于当确定置信度满足置信度阈值时,确定声音信号为待执行指令。
在本发明实施例中,设备还包括:停止模块506,用于停止执行指定任务;响应模块507,用于响应待执行指令,以对用户产生交互行为。
在本发明实施例中,第二确定模块505,还用于当确定置信度不满足阈值时,丢弃声音信号。
在本发明实施例中,处理模块502,包括:解码子模块5021,用于通过解码器对声音信号进行解码,获得对应声音信号的解码置信度;识别子模块5022,用于通过声音分类器对声音信号进行识别,获得对应声音信号的声音置信度;转换子模块5023,用于获得对应声音信号的文本信号,通过文本分类器对文本信号进行转换,获得对应文本信号的文本置信度;拼接子模块5024,用于对解码置信度、声音置信度和文本置信度进行拼接,获得拼接向量。
本发明实施例另一方面提供一种计算机可读存储介质,存储介质包括一组计算机可执行指令,当指令被执行时用于本发明实施例一方面提供任一项的一种对话处理方法。
这里需要指出的是:以上实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果,对于本发明实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解,为节约篇幅,因此不再赘述。
本发明实施例中,多个步骤之间的实现顺序在不影响实现目的的情况下可以替换。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种对话处理方法,其特征在于,所述方法包括:
在执行指定任务过程中,获取声音信号;
对所述声音信号进行处理,获得对应所述声音信号的拼接向量;
通过逻辑回归模型对所述拼接向量进行预测,获得对应所述声音信号的置信度;
确定所述置信度是否满足所述置信度阈值;
当确定所述置信度满足所述置信度阈值时,确定所述声音信号为待执行指令。
2.根据权利要求1所述的方法,其特征在于,在确定所述声音信号为待执行指令之后,所述方法还包括:
停止执行所述指定任务;
响应所述待执行指令,以对用户产生交互行为。
3.根据权利要求1所述的方法,其特征在于,在确定置信度是否满足置信度阈值之后,所述方法还包括:
当确定所述置信度不满足所述置信度阈值时,丢弃所述声音信号。
4.根据权利要求1所述的方法,其特征在于,对所述声音信号进行处理,获得对应所述声音信号的拼接向量,包括:
通过解码器对所述声音信号进行解码,获得对应所述声音信号的解码置信度;
通过声音分类器对所述声音信号进行识别,获得对应所述声音信号的声音置信度;
获得对应所述声音信号的文本信号,通过文本分类器对所述文本信号进行转换,获得对应所述文本信号的文本置信度;
对所述解码置信度、声音置信度和所述文本置信度进行拼接,获得所述拼接向量。
5.根据权利要求1所述的方法,其特征在于,所述逻辑回归模型通过模型训练获得,用于模型训练的训练数据由上一轮声音信号数据和当前声音信号数据拼接而成。
6.一种对话处理设备,其特征在于,所述设备包括:
获取模块,用于在执行指定任务过程中,获取声音信号;
处理模块,用于对所述声音信号进行处理,获得对应所述声音信号的拼接向量;
预测模块,用于通过逻辑回归模型对所述拼接向量进行预测,获得对应所述声音信号的置信度;
第一确定模块,用于确定所述置信度是否满足所述置信度阈值;
第二确定模块,用于当确定所述置信度满足所述置信度阈值时,确定所述声音信号为待执行指令。
7.根据权利要求6所述的设备,其特征在于,所述设备还包括:
停止模块,用于停止执行所述指定任务;
响应模块,用于响应所述待执行指令,以对用户产生交互行为。
8.根据权利要求6所述的设备,其特征在于,所述第二确定模块,还用于当确定所述置信度不满足所述阈值时,丢弃所述声音信号。
9.根据权利要求6所述的设备,其特征在于,所述处理模块,包括:
解码子模块,用于通过解码器对所述声音信号进行解码,获得对应所述声音信号的解码置信度;
识别子模块,用于通过声音分类器对所述声音信号进行识别,获得对应所述声音信号的声音置信度;
转换子模块,用于获得对应所述声音信号的文本信号,通过文本分类器对所述文本信号进行转换,获得对应所述文本信号的文本置信度;
拼接子模块,用于对所述解码置信度、声音置信度和所述文本置信度进行拼接,获得所述拼接向量。
10.一种计算机可读存储介质,其特征在于,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行权利要求1-5任一项所述的一种对话处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911190062.2A CN110910866B (zh) | 2019-11-28 | 2019-11-28 | 一种对话处理方法、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911190062.2A CN110910866B (zh) | 2019-11-28 | 2019-11-28 | 一种对话处理方法、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110910866A true CN110910866A (zh) | 2020-03-24 |
CN110910866B CN110910866B (zh) | 2022-07-29 |
Family
ID=69820100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911190062.2A Active CN110910866B (zh) | 2019-11-28 | 2019-11-28 | 一种对话处理方法、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110910866B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9218819B1 (en) * | 2013-03-01 | 2015-12-22 | Google Inc. | Customizing actions based on contextual data and voice-based inputs |
CN107799116A (zh) * | 2016-08-31 | 2018-03-13 | 科大讯飞股份有限公司 | 多轮交互并行语义理解方法和装置 |
CN109101537A (zh) * | 2018-06-27 | 2018-12-28 | 北京慧闻科技发展有限公司 | 基于深度学习的多轮对话数据分类方法、装置和电子设备 |
CN109461446A (zh) * | 2018-12-24 | 2019-03-12 | 出门问问信息科技有限公司 | 一种识别用户目标请求的方法、装置、系统及存储介质 |
CN110010125A (zh) * | 2017-12-29 | 2019-07-12 | 深圳市优必选科技有限公司 | 一种智能机器人的控制方法、装置、终端设备及介质 |
CN110377716A (zh) * | 2019-07-23 | 2019-10-25 | 百度在线网络技术(北京)有限公司 | 对话的交互方法、装置及计算机可读存储介质 |
-
2019
- 2019-11-28 CN CN201911190062.2A patent/CN110910866B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9218819B1 (en) * | 2013-03-01 | 2015-12-22 | Google Inc. | Customizing actions based on contextual data and voice-based inputs |
CN107799116A (zh) * | 2016-08-31 | 2018-03-13 | 科大讯飞股份有限公司 | 多轮交互并行语义理解方法和装置 |
CN110010125A (zh) * | 2017-12-29 | 2019-07-12 | 深圳市优必选科技有限公司 | 一种智能机器人的控制方法、装置、终端设备及介质 |
CN109101537A (zh) * | 2018-06-27 | 2018-12-28 | 北京慧闻科技发展有限公司 | 基于深度学习的多轮对话数据分类方法、装置和电子设备 |
CN109461446A (zh) * | 2018-12-24 | 2019-03-12 | 出门问问信息科技有限公司 | 一种识别用户目标请求的方法、装置、系统及存储介质 |
CN110377716A (zh) * | 2019-07-23 | 2019-10-25 | 百度在线网络技术(北京)有限公司 | 对话的交互方法、装置及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110910866B (zh) | 2022-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108320733B (zh) | 语音数据处理方法及装置、存储介质、电子设备 | |
CN111564164A (zh) | 一种多模态情感识别方法及装置 | |
CN111161714B (zh) | 一种语音信息处理方法、电子设备及存储介质 | |
CN111081280B (zh) | 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法 | |
CN110782891B (zh) | 一种音频处理方法、装置、计算设备及存储介质 | |
CN111161728B (zh) | 一种智能设备的唤醒方法、装置、设备及介质 | |
CN114550705B (zh) | 对话推荐方法、模型的训练方法、装置、设备及介质 | |
CN110706707B (zh) | 用于语音交互的方法、装置、设备和计算机可读存储介质 | |
CN111261151A (zh) | 一种语音处理方法、装置、电子设备及存储介质 | |
CN111179915A (zh) | 基于语音的年龄识别方法及装置 | |
CN113192535B (zh) | 一种语音关键词检索方法、系统和电子装置 | |
CN115798518B (zh) | 一种模型训练方法、装置、设备及介质 | |
CN111833902A (zh) | 唤醒模型训练方法、唤醒词识别方法、装置及电子设备 | |
CN111583933B (zh) | 一种语音信息的处理方法、装置、设备及介质 | |
CN110837758A (zh) | 一种关键词输入方法、装置及电子设备 | |
CN115457938A (zh) | 识别唤醒词的方法、装置、存储介质及电子装置 | |
CN111128174A (zh) | 一种语音信息的处理方法、装置、设备及介质 | |
CN110910866B (zh) | 一种对话处理方法、设备及计算机可读存储介质 | |
CN111128134A (zh) | 声学模型训练方法和语音唤醒方法、装置及电子设备 | |
CN113838462B (zh) | 语音唤醒方法、装置、电子设备及计算机可读存储介质 | |
CN110060662B (zh) | 语音识别方法及装置 | |
CN114005436A (zh) | 语音端点的确定方法、装置及存储介质 | |
CN112017662B (zh) | 控制指令确定方法、装置、电子设备和存储介质 | |
CN110556099B (zh) | 一种命令词控制方法及设备 | |
CN111798849A (zh) | 一种机器人指令识别方法、装置及电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220620 Address after: 210033 floor 10, building D11, Hongfeng science and Technology Park, Nanjing Economic and Technological Development Zone, Jiangsu Province Applicant after: New Technology Co.,Ltd. Address before: 100044 1001, 10th floor, office building a, 19 Zhongguancun Street, Haidian District, Beijing Applicant before: MOBVOI INFORMATION TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |