CN109697981A - 一种语音交互方法、装置、设备及存储介质 - Google Patents

一种语音交互方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109697981A
CN109697981A CN201910002548.2A CN201910002548A CN109697981A CN 109697981 A CN109697981 A CN 109697981A CN 201910002548 A CN201910002548 A CN 201910002548A CN 109697981 A CN109697981 A CN 109697981A
Authority
CN
China
Prior art keywords
text
detected
detection model
voice
primary detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910002548.2A
Other languages
English (en)
Other versions
CN109697981B (zh
Inventor
张刚
朱凯华
高聪
王丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910002548.2A priority Critical patent/CN109697981B/zh
Publication of CN109697981A publication Critical patent/CN109697981A/zh
Priority to JP2019184263A priority patent/JP6851447B2/ja
Priority to US16/601,631 priority patent/US20200211545A1/en
Application granted granted Critical
Publication of CN109697981B publication Critical patent/CN109697981B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提出一种语音交互方法、装置、设备及存储介质,其中方法包括:判断收音时长是否超时;如果未超时,则对待检测语音信号进行语音识别,得到待检测文本;对所述待检测文本进行初次检测;当所述初次检测结果为未通过时,返回执行所述判断的步骤。本发明实施例能够降低语音交互过程中对语音信号的误识别率,提高用户体验。

Description

一种语音交互方法、装置、设备及存储介质
技术领域
本发明涉及语音交互技术领域,尤其涉及一种语音交互方法、装置、设备及存储介质。
背景技术
传统的语音交互设备采用一问一答的方式进行。在语音交互时,用户首先需要唤醒设备(一般采用用户说出固定的唤醒词的方式唤醒设备),然后发出语音指令,设备响应该语音指令。响应的方式包括语音播报、屏幕呈现等方式。完成一轮语音交互之后,如果用户希望开始下一轮语音交互,则需要重新唤醒设备,并发出语音指令。
在上述方式中,由于每一次语音交互均需要唤醒设备,造成用户的使用体验不佳。因此,目前出现了支持一次唤醒多次交互的语音交互技术。采用这种技术,在初次语音交互时,用户需要唤醒设备。完成初次语音交互之后,语音交互设备开启计时器。在计时器未超时的情况下,如果用户希望开始下一轮语音交互,则可以直接发出语音指令,而无需重新唤醒设备。可见,这种交互方式更接近于真实的人类对话,能够给用户带来较好的使用体验。
但是,这种一次唤醒多次交互的语音交互技术的缺点是容易受到非指令的人声干扰,出现误识别。例如,语音交互设备被唤醒之后,在计时器未超时的情况下,可能接收到语音指令以外的其他语音信号。例如人与人对话中发出的声音,或者广播、电视等设备中发出的语音等。此时,语音交互设备会将该语音信号误认为是语音指令,并对该语音信号进行响应,从而造成一次错误的人机交互,影响用户体验。
发明内容
本发明实施例提供一种语音交互方法及装置,以至少解决现有技术中的以上技术问题。
第一方面,本发明实施例提供了一种语音交互方法,包括:
判断收音时长是否超时;
如果未超时,则对待检测语音信号进行语音识别,得到待检测文本;
对所述待检测文本进行初次检测;当所述初次检测结果为未通过时,返回执行所述判断的步骤。
在一种实施方式中,还包括:
当所述初次检测结果为通过时,对所述待检测文本进行二次检测;
当所述二次检测结果为通过时,响应所述待检测文本,并返回执行所述判断的步骤。
在一种实施方式中,对所述待检测文本进行初次检测,包括:采用预设的初次检测模型对所述待检测文本进行语法和/或语义检测;
所述对所述待检测文本进行二次检测,包括:采用预设的二次检测模型对所述待检测文本进行上下文逻辑关系检测。
在一种实施方式中,所述初次检测模型的建立方式为:
采用多个指令文本及多个非指令文本训练所述初次检测模型;
所述指令文本为语音指令对应的文本;所述非指令文本为语音指令以外的其他语音信号对应的文本。
在一种实施方式中,所述初次检测包括:
将所述待检测文本输入所述初次检测模型;
当所述初次检测模型预测出所述待检测文本为指令文本时,初次检测结果为通过;当所述初次检测模型预测出所述待检测文本为非指令文本时,初次检测结果为不通过。
在一种实施方式中,所述二次检测模型的建立方式为:
采用多组语音交互文本及多组非语音交互文本训练所述二次检测模型;
每组所述语音交互文本包括至少两轮语音交互过程中的语音指令对应的文本及针对该文本的响应结果;所述至少两轮语音交互过程为存在上下文逻辑关系的语音交互过程;
每组所述非语音交互文本包括至少两条不存在逻辑关系的语音指令对应的文本。
在一种实施方式中,所述二次检测包括:
将所述待检测文本、所述待检测文本的历史语音指令所对应的历史指令文本以及针对所述历史指令文本的历史响应结果输入所述二次检测模型;
当所述二次检测模型预测出所述待检测文本与所述历史指令文本及历史响应结果存在上下文逻辑关系时,二次检测结果为通过;当所述二次检测模型预测出所述待检测文本与所述历史指令文本及历史响应结果不存在上下文逻辑关系时,二次检测结果为不通过。
第二方面,本发明实施例还提出一种语音交互装置,包括:
判断模块,用于判断收音时长是否超时;
识别模块,用于当所述收音时长未超时时,对待检测语音信号进行语音识别,得到待检测文本;
初次检测模块,用于对所述待检测文本进行初次检测,当所述初次检测结果为未通过时,指示所述判断模块进行判断。
在一种实施方式中,还包括:
二次检测模块,用于当所述初次检测结果为通过时,对所述待检测文本进行二次检测;
响应模块,用于当所述二次检测结果为通过时,响应所述待检测文本,并指示所述判断模块进行判断。
在一种实施方式中,所述初次检测模块,用于采用预设的初次检测模型对所述待检测文本进行语法和/或语义检测;
所述二次检测模块,用于采用预设的二次检测模型对所述待检测文本进行上下文逻辑关系检测。
在一种实施方式中,所述初次检测模型的建立方式为:
采用多个指令文本及多个非指令文本训练所述初次检测模型;
所述指令文本为语音指令对应的文本;所述非指令文本为语音指令以外的其他语音信号对应的文本。
在一种实施方式中,所述初次检测模块,用于将所述待检测文本输入所述初次检测模型;
当所述初次检测模型预测出所述待检测文本为指令文本时,初次检测结果为通过;当所述初次检测模型预测出所述待检测文本为非指令文本时,初次检测结果为不通过。
在一种实施方式中,所述二次检测模型的建立方式为:
采用多组语音交互文本及多组非语音交互文本训练所述二次检测模型;
每组所述语音交互文本包括至少两轮语音交互过程中的语音指令对应的文本及针对该文本的响应结果;所述至少两轮语音交互过程为存在上下文逻辑关系的语音交互过程;
每组所述非语音交互文本包括至少两条不存在逻辑关系的语音指令对应的文本。
在一种实施方式中,所述二次检测模块,用于将所述待检测文本、所述待检测文本的历史语音指令所对应的历史指令文本以及针对所述历史指令文本的历史响应结果输入所述二次检测模型;
当所述二次检测模型预测出所述待检测文本与所述历史指令文本及历史响应结果存在上下文逻辑关系时,二次检测结果为通过;当所述二次检测模型预测出所述待检测文本与所述历史指令文本及历史响应结果不存在上下文逻辑关系时,二次检测结果为不通过。
第三方面,本发明实施例提供了一种语音交互设备,所述设备的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,所述设备的结构中包括处理器和存储器,所述存储器用于存储支持所述设备执行上述语音交互方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述设备还可以包括通信接口,用于与其他设备或通信网络通信。
第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储语音交互设备所用的计算机软件指令,其包括用于执行上述语音交互方法所涉及的程序。
上述技术方案中的一个技术方案具有如下优点或有益效果:
本发明实施例提出的语音交互方法,在语音交互设备被唤醒之后,判断收音时长是否超时。在收音时长未超时的情况下,接收待检测语音信号,并对待检测语音信号进行语音识别,得到待检测文本。之后,对待检测文本进行后续处理。通过这种方式,降低了语音交互过程中对语音信号的误识别率,从而提高用户体验。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1为本发明实施例的一种语音交互方法实现流程图;
图2为本发明实施例的另一种语音交互方法实现流程图;
图3为本发明实施例的一种语音交互过程实现流程图;
图4为本发明实施例的一种语音交互装置结构示意图;
图5为本发明实施例的另一种语音交互装置结构示意图;
图6为本发明实施例的一种语音交互设备结构示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
本发明实施例主要提供了一种语音交互方法和装置,下面分别通过以下实施例进行技术方案的展开描述。
如图1为本发明实施例的一种语音交互方法实现流程图,包括:
S11:判断收音时长是否超时;如果未超时,则执行步骤S12;
S12:对待检测语音信号进行语音识别,得到待检测文本;
S13:对所述待检测文本进行初次检测;当所述初次检测结果为未通过时,返回执行步骤S11。
如图2为本发明实施例的一种语音交互方法实现流程图,包括:
S11:判断收音时长是否超时;如果未超时,则执行步骤S12;
S12:对待检测语音信号进行语音识别,得到待检测文本;
S13:对所述待检测文本进行初次检测;当所述初次检测结果为未通过时,返回执行步骤S11;当初次检测结果为通过时,执行步骤S24;
S24:对所述待检测文本进行二次检测;当二次检测结果为通过时,执行步骤S25;
S25:响应所述待检测文本,返回执行步骤S11。
本发明实施例可以应用于语音交互设备,包括具有语音交互功能的各种设备,包括但不限于:智能音箱、带屏幕智能音箱、带有语音交互功能的电视机、智能手表、故事机及车载智能语音设备。
在本发明实施例中,可以在语音交互设备被唤醒之后,执行步骤S11。当语音交互设备接收到语音信号时,将该语音信号作为待检测语音。语音交互设备可以对待检测语音所对应的待检测文本进行两次误识别检测,包括初次检测和二次检测。
其中,对待检测文本进行初次检测,可以包括:采用预设的初次检测模型对待检测文本进行语法和/或语义检测。例如,判断待检测文本是否符合人类对语音交互设备发出的语音指令的语法和/或语义特点。
对待检测文本进行二次检测,可以包括:采用预设的二次检测模型对待检测文本进行上下文逻辑关系检测。例如,判断待检测文本与之前至少一次语音交互过程是否存在上下文逻辑关系。
在一种可能的实施方式中,初次检测模型的建立方式为:采用多个指令文本及多个非指令文本训练初次检测模型。其中,指令文本为用户向语音交互设备发出的语音指令所对应的文本,可以称为正样本;非指令文本为语音指令以外的其他语音信号所对应的文本,可以称为负样本。在建立初次检测模型的过程中,可以将指令文本或非指令文本输入初次检测模型,由初次检测模型预测接收到的文本是否为正样本,并判断预测结果是否与真实情况相符合。根据判断结果调整初次检测模型的参数,使初次检测模型预测的准确率满足预设的要求。
在对待检测文本进行初次检测时,可以将待检测文本输入初次检测模型。如果初次检测模型预测出该待检测文本为指令文本,则检测结果为通过;如果初次检测模型预测出该待检测文本为非指令文本,则检测结果为不通过。
在一种可能的实施方式中,二次检测模型的建立方式为:采用多组语音交互文本及多组非语音交互文本训练所述二次检测模型。
其中,语音交互文本可以称为正样本,每组语音交互文本可以包括至少两轮语音交互过程中的语音指令对应的文本及针对该文本的响应结果;所述至少两轮语音交互过程为存在上下文逻辑关系的语音交互过程。
例如,以下语音交互过程中的文本及响应结果为正样本:
用户:今天天气怎样?
设备:今天天气晴朗。最低温度20度,最高温度27度。
用户:明天呢?
设备:明天有阵雨,出门记得带雨伞。
用户:持续多久?
设备:下午两点左右有短暂阵雨。
上述语音交互过程中,进行了三轮语音交互。每一轮语音交互都与上一轮语音交互存在逻辑关系。在第二轮语音交互中,用户发出的语音指令为“明天呢?”,该语音指令单独存在时没有精确的含义;但是,联系上一轮语音交互的内容,即可以得出该语音指令的含义为“明天天气怎样?”。同理,在第三轮语音交互中,用户发出的语音指令为“持续多久?”,该语音指令单独存在时没有精确的含义;但是,联系上一轮语音交互的内容,即可以得出该语音指令的含义为“明天的阵雨持续多久?”。
非语音交互文本可以称为负样本,包括至少两条不存在逻辑关系的语音指令对应的文本。
在建立二次检测模型的过程中,可以将语音交互文本或非语音交互文本输入二次检测模型,由二次检测模型预测接收到的文本是否为正样本,并判断预测结果是否与真实情况相符合。根据判断结果调整二次检测模型的参数,使二次检测模型预测的准确率满足预设的要求。
在一种可能的实施方式中,在对待检测文本进行二次检测时,将待检测文本、所述待检测文本的历史语音指令所对应的历史指令文本以及针对所述历史指令文本的历史响应结果输入所述二次检测模型。如果二次检测模型预测出该待检测文本与历史指令文本及历史响应结果存在上下文逻辑关系,则二次检测结果为通过;如果二次检测模型预测出待检测文本与历史指令文本及历史响应结果不存在上下文逻辑关系,则二次检测结果为不通过。其中,历史语音指令可以包括待检测语音之前的至少一条语音指令。
如图3为本发明实施例提出的一种语音交互过程流程图,包括:
S31:语音交互设备接收语音信号,对该语音信号进行语音识别,得到对应的文本数据。语音交互设备检测到该文本数据中包含唤醒词,因此,语音交互设备被唤醒。
S32:判断等待语音信号输入的时间(即收音时长)是否超时,如果超时,则结束当前流程。如果未超时,则执行步骤S33。
S33:接收待检测语音信号。该待检测语音信号可能是由用户发出的,也可能是由具备声音播放功能的设备发出的。
S34:对该待检测语音信号进行语音识别,得到待检测文本。
S35:采用预设的初次检测模型,对该待检测文本进行初次检测。当初次检测通过时,执行步骤S36。当初次检测未通过时,返回执行步骤S32。在进行初次检测时,可以将待检测文本输入初次检测模型,如果初次检测模型预测出该待检测文本为指令文本,则初次检测通过;如果初次检测模型预测出该待检测文本为非指令文本,则初次检测未通过。
S36:采用预设的二次检测模型,对该待检测文本进行二次检测。当二次检测通过时,执行步骤S37。当二次检测未通过时,返回执行步骤S32。在进行二次检测时,可以将待检测文本、之前至少一轮语音交互过程中的历史指令文本及历史响应结果输入二次检测模型,如果二次检测模型预测出该待检测文本与历史指令文本及历史响应结果存在上下文逻辑关系,则二次检测通过;如果二次检测模型预测出该待检测文本与历史指令文本及历史响应结果不存在上下文逻辑关系,则二次检测未通过。
S37:对待检测文本进行响应。之后,返回执行步骤S32。
为避免检测过于严格导致对语音指令所对应文本的检测无法通过,出现语音交互设备对用户语音指令没有响应的情况,在一种可能的实施方式中,可以在步骤S35的初次检测通过的情况下,对该待检测文本做出初步响应。之后,可以结合上下文逻辑关系、语音交互设备对用户需求的理解和满足情况等综合因素进一步进行二次检测。
此外,在步骤S33之后,并在步骤S34之前,可以进一步包括:根据待检测语音信号的声音来源、信噪比、声音强度及声纹特征中的至少一项,对待检测语音信号进行检测,如果检测通过,则进一步执行步骤S34;否则,返回执行步骤S32。在一种可能的实施方式中,可以分别针对声音来源、信噪比、声音强弱及声纹特征对待检测语音信号打分。之后,将各个分数加权求和,得到针对待检测语音信号的综合得分。当该综合得分超过预设分数门限时,对待检测语音信号的检测通过;否则,对待检测语音信号的检测不通过。
其中,针对声音来源对待检测语音信号打分的方式可以包括:确定声音来源与语音交互设备的距离,根据预先存储的距离与第一分数的对应关系,确定针对声音来源对待检测语音信号打分的结果。例如,当声音来源与语音交互设备的距离为0时,表示该待检测语音信号是由语音交互设备发出的,则针对声音来源对待检测语音信号打分的结果为0。
针对信噪比对待检测语音信号打分的方式可以包括:确定待检测语音信号的信噪比,根据预先存储的信噪比与第二分数的对应关系,确定针对信噪比对待检测语音信号打分的结果。例如,信噪比越大,针对信噪比对待检测语音信号打分的结果越高。
针对声音强弱对待检测语音信号打分的方式可以包括:确定待检测语音信号的声音强度,根据预先存储的声音强度与第三分数的对应关系,确定针对声音强度对待检测语音信号打分的结果。例如,声音强度越低,针对声音强度对待检测语音信号打分的结果越低。
针对声纹特征对待检测语音信号打分的方式可以包括:确定待检测语音信号的声纹特征。比较待检测语音信号的声纹特征与包含唤醒词的语音信号的声纹特征是否相同。根据比较结果,确定针对声纹特征对待检测语音信号打分的结果。例如,如果比较结果不同,表示该待检测语音信号与包含唤醒词的语音信号不是由同一个人发出的,则针对声纹特征对待检测语音信号打分的结果为0。
对待检测语音信号从上述各个角度进行打分之后,可以将各个分数加权求和,得到针对待检测语音信号的综合得分。加权求和计算所采用的权值可以根据预设的规则设置,也可以由用户自行设置。
本发明实施例还提出一种语音交互装置。参见图4,图4为本发明实施例的一种语音交互装置结构示意图,包括:
判断模块401,用于判断收音时长是否超时;
识别模块402,用于当所述收音时长未超时时,对待检测语音信号进行语音识别,得到待检测文本;
初次检测模块403,用于对所述待检测文本进行初次检测,当所述初次检测结果为未通过时,指示所述判断模块401进行判断。
本发明实施例还提出另一种语音交互装置。参见图5,图5为本发明实施例的一种语音交互装置结构示意图,包括:
判断模块401,用于判断收音时长是否超时;
识别模块402,用于当所述收音时长未超时时,对待检测语音信号进行语音识别,得到待检测文本;
初次检测模块403,用于对所述待检测文本进行初次检测,当所述初次检测结果为未通过时,指示所述判断模块401进行判断;
二次检测模块504,用于当所述初次检测结果为通过时,对所述待检测文本进行二次检测;
响应模块505,用于当所述二次检测结果为通过时,响应所述待检测文本,并指示所述判断模块401进行判断。
在一种可能的实施方式中,所述二次检测模块504还可以用于当所述二次检测结果为未通过时,指示所述判断模块401进行判断。
在一种可能的实施方式中,所述初次检测模块403,用于采用预设的初次检测模型对所述待检测文本进行语法和/或语义检测;
所述二次检测模块504,用于采用预设的二次检测模型对所述待检测文本进行上下文逻辑关系检测。
在一种可能的实施方式中,初次检测模型的建立方式为:
采用多个指令文本及多个非指令文本训练所述初次检测模型;
所述指令文本为语音指令对应的文本;所述非指令文本为语音指令以外的其他语音信号对应的文本。
在一种可能的实施方式中,所述初次检测模块403,用于将所述待检测文本输入所述初次检测模型;
当所述初次检测模型预测出所述待检测文本为指令文本时,初次检测结果为通过;当所述初次检测模型预测出所述待检测文本为非指令文本时,初次检测结果为不通过。
在一种可能的实施方式中,所述二次检测模型的建立方式为:
采用多组语音交互文本及多组非语音交互文本训练所述二次检测模型;
每组所述语音交互文本包括至少两轮语音交互过程中的语音指令对应的文本及针对该文本的响应结果;所述至少两轮语音交互过程为存在上下文逻辑关系的语音交互过程;
每组所述非语音交互文本包括至少两条不存在逻辑关系的语音指令对应的文本。
在一种可能的实施方式中,所述二次检测模块504,用于将所述待检测文本、所述待检测文本的历史语音指令所对应的历史指令文本以及针对所述历史指令文本的历史响应结果输入所述二次检测模型;
当所述二次检测模型预测出所述待检测文本与所述历史指令文本及历史响应结果存在上下文逻辑关系时,二次检测结果为通过;当所述二次检测模型预测出所述待检测文本与所述历史指令文本及历史响应结果不存在上下文逻辑关系时,二次检测结果为不通过。
本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
本发明实施例还提出一种语音交互设备,如图6为本发明实施例的语音交互设备结构示意图,包括:
存储器11和处理器12,存储器11存储有可在处理器12上运行的计算机程序。所述处理器12执行所述计算机程序时实现上述实施例中的语音交互方法。所述存储器11和处理器12的数量可以为一个或多个。
所述设备还可以包括:
通信接口13,用于与外界设备进行通信,进行数据交换传输。
存储器11可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
如果存储器11、处理器12和通信接口13独立实现,则存储器11、处理器12和通信接口13可以通过总线相互连接并完成相互之间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线,外部设备互连(PCI,PeripheralComponent Interconnect)总线或扩展工业标准体系结构(EISA,Extended IndustryStandard Architecture)等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器11、处理器12和通信接口13集成在一块芯片上,则存储器11、处理器12和通信接口13可以通过内部接口完成相互间的通信。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
综上所述,本发明实施例提出的语音交互方法和装置,在语音交互设备被唤醒之后,判断收音时长是否超时。在收音时长未超时的情况下,接收待检测语音信号,并对待检测语音信号进行语音识别,得到待检测文本。之后,可以对待检测文本进行两次检测,并在检测通过时响应待检测文本;如果检测未通过,则不对待检测文本进行处理,返回继续判断收音时长是否超时。在收音时长超时的情况下,不再接收语音信号。通过这种方式,降低了语音交互过程中对语音信号的误识别率,从而提高用户体验。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (16)

1.一种语音交互方法,其特征在于,包括:
判断收音时长是否超时;
如果未超时,则对待检测语音信号进行语音识别,得到待检测文本;
对所述待检测文本进行初次检测;当所述初次检测结果为未通过时,返回执行所述判断的步骤。
2.根据权利要求1所述的方法,其特征在于,还包括:
当所述初次检测结果为通过时,对所述待检测文本进行二次检测;
当所述二次检测结果为通过时,响应所述待检测文本,返回执行所述判断的步骤。
3.根据权利要求2所述的方法,其特征在于,
所述对所述待检测文本进行初次检测,包括:采用预设的初次检测模型对所述待检测文本进行语法和/或语义检测;
所述对所述待检测文本进行二次检测,包括:采用预设的二次检测模型对所述待检测文本进行上下文逻辑关系检测。
4.根据权利要求3所述的方法,其特征在于,所述初次检测模型的建立方式为:
采用多个指令文本及多个非指令文本训练所述初次检测模型;
所述指令文本为语音指令对应的文本;所述非指令文本为语音指令以外的其他语音信号对应的文本。
5.根据权利要求4所述的方法,其特征在于,所述初次检测包括:
将所述待检测文本输入所述初次检测模型;
当所述初次检测模型预测出所述待检测文本为指令文本时,初次检测结果为通过;当所述初次检测模型预测出所述待检测文本为非指令文本时,初次检测结果为不通过。
6.根据权利要求3所述的方法,其特征在于,所述二次检测模型的建立方式为:
采用多组语音交互文本及多组非语音交互文本训练所述二次检测模型;
每组所述语音交互文本包括至少两轮语音交互过程中的语音指令对应的文本及针对该文本的响应结果;所述至少两轮语音交互过程为存在上下文逻辑关系的语音交互过程;
每组所述非语音交互文本包括至少两条不存在逻辑关系的语音指令对应的文本。
7.根据权利要求6所述的方法,其特征在于,所述二次检测包括:
将所述待检测文本、所述待检测文本的历史语音指令所对应的历史指令文本以及针对所述历史指令文本的历史响应结果输入所述二次检测模型;
当所述二次检测模型预测出所述待检测文本与所述历史指令文本及历史响应结果存在上下文逻辑关系时,二次检测结果为通过;当所述二次检测模型预测出所述待检测文本与所述历史指令文本及历史响应结果不存在上下文逻辑关系时,二次检测结果为不通过。
8.一种语音交互装置,其特征在于,包括:
判断模块,用于判断收音时长是否超时;
识别模块,用于当所述收音时长未超时时,对待检测语音信号进行语音识别,得到待检测文本;
初次检测模块,用于对所述待检测文本进行初次检测,当所述初次检测结果为未通过时,指示所述判断模块进行判断。
9.根据权利要求8所述的装置,其特征在于,还包括:
二次检测模块,用于当所述初次检测结果为通过时,对所述待检测文本进行二次检测;
响应模块,用于当所述二次检测结果为通过时,响应所述待检测文本,并指示所述判断模块进行判断。
10.根据权利要求9所述的装置,其特征在于,所述初次检测模块,用于采用预设的初次检测模型对所述待检测文本进行语法和/或语义检测;
所述二次检测模块,用于采用预设的二次检测模型对所述待检测文本进行上下文逻辑关系检测。
11.根据权利要求10所述的装置,其特征在于,所述初次检测模型的建立方式为:
采用多个指令文本及多个非指令文本训练所述初次检测模型;
所述指令文本为语音指令对应的文本;所述非指令文本为语音指令以外的其他语音信号对应的文本。
12.根据权利要求11所述的装置,其特征在于,所述初次检测模块,用于将所述待检测文本输入所述初次检测模型;
当所述初次检测模型预测出所述待检测文本为指令文本时,初次检测结果为通过;当所述初次检测模型预测出所述待检测文本为非指令文本时,初次检测结果为不通过。
13.根据权利要求10所述的装置,其特征在于,所述二次检测模型的建立方式为:
采用多组语音交互文本及多组非语音交互文本训练所述二次检测模型;
每组所述语音交互文本包括至少两轮语音交互过程中的语音指令对应的文本及针对该文本的响应结果;所述至少两轮语音交互过程为存在上下文逻辑关系的语音交互过程;
每组所述非语音交互文本包括至少两条不存在逻辑关系的语音指令对应的文本。
14.根据权利要求13所述的装置,其特征在于,所述二次检测模块,用于将所述待检测文本、所述待检测文本的历史语音指令所对应的历史指令文本以及针对所述历史指令文本的历史响应结果输入所述二次检测模型;
当所述二次检测模型预测出所述待检测文本与所述历史指令文本及历史响应结果存在上下文逻辑关系时,二次检测结果为通过;当所述二次检测模型预测出所述待检测文本与所述历史指令文本及历史响应结果不存在上下文逻辑关系时,二次检测结果为不通过。
15.一种语音交互设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
16.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN201910002548.2A 2019-01-02 2019-01-02 一种语音交互方法、装置、设备及存储介质 Active CN109697981B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910002548.2A CN109697981B (zh) 2019-01-02 2019-01-02 一种语音交互方法、装置、设备及存储介质
JP2019184263A JP6851447B2 (ja) 2019-01-02 2019-10-07 音声対話方法、装置、設備、記憶媒体、及びプログラム
US16/601,631 US20200211545A1 (en) 2019-01-02 2019-10-15 Voice interaction method, apparatus and device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910002548.2A CN109697981B (zh) 2019-01-02 2019-01-02 一种语音交互方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109697981A true CN109697981A (zh) 2019-04-30
CN109697981B CN109697981B (zh) 2021-03-09

Family

ID=66232479

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910002548.2A Active CN109697981B (zh) 2019-01-02 2019-01-02 一种语音交互方法、装置、设备及存储介质

Country Status (3)

Country Link
US (1) US20200211545A1 (zh)
JP (1) JP6851447B2 (zh)
CN (1) CN109697981B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111312221A (zh) * 2020-01-20 2020-06-19 宁波舜韵电子有限公司 基于语音控制的智能吸油烟机
CN111916052A (zh) * 2020-07-30 2020-11-10 北京声智科技有限公司 一种语音合成方法及装置
CN113470634A (zh) * 2020-04-28 2021-10-01 海信集团有限公司 语音交互设备的控制方法、服务器及语音交互设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113674739B (zh) * 2021-07-20 2023-12-19 北京字节跳动网络技术有限公司 一种时间确定方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106205615A (zh) * 2016-08-26 2016-12-07 王峥嵘 一种基于语音交互的控制方法及系统
CN108509619A (zh) * 2018-04-04 2018-09-07 科大讯飞股份有限公司 一种语音交互方法及设备
CN109065046A (zh) * 2018-08-30 2018-12-21 出门问问信息科技有限公司 语音唤醒的方法、装置、电子设备及计算机可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3906327B2 (ja) * 2002-03-29 2007-04-18 独立行政法人産業技術総合研究所 音声入力モード変換システム
JP4060237B2 (ja) * 2003-05-30 2008-03-12 日本電信電話株式会社 音声対話システム、音声対話方法及び音声対話プログラム
KR102429260B1 (ko) * 2015-10-12 2022-08-05 삼성전자주식회사 음성 에이전트 기반의 제어 명령 처리 장치 및 방법과, 에이전트 장치
JP6908461B2 (ja) * 2016-11-02 2021-07-28 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 情報処理方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106205615A (zh) * 2016-08-26 2016-12-07 王峥嵘 一种基于语音交互的控制方法及系统
CN108509619A (zh) * 2018-04-04 2018-09-07 科大讯飞股份有限公司 一种语音交互方法及设备
CN109065046A (zh) * 2018-08-30 2018-12-21 出门问问信息科技有限公司 语音唤醒的方法、装置、电子设备及计算机可读存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111312221A (zh) * 2020-01-20 2020-06-19 宁波舜韵电子有限公司 基于语音控制的智能吸油烟机
CN111312221B (zh) * 2020-01-20 2022-07-22 宁波舜韵电子有限公司 基于语音控制的智能吸油烟机
CN113470634A (zh) * 2020-04-28 2021-10-01 海信集团有限公司 语音交互设备的控制方法、服务器及语音交互设备
CN113470634B (zh) * 2020-04-28 2024-05-17 海信集团有限公司 语音交互设备的控制方法、服务器及语音交互设备
CN111916052A (zh) * 2020-07-30 2020-11-10 北京声智科技有限公司 一种语音合成方法及装置

Also Published As

Publication number Publication date
CN109697981B (zh) 2021-03-09
JP2020109475A (ja) 2020-07-16
JP6851447B2 (ja) 2021-03-31
US20200211545A1 (en) 2020-07-02

Similar Documents

Publication Publication Date Title
CN109697981A (zh) 一种语音交互方法、装置、设备及存储介质
US10339166B1 (en) Systems and methods for providing natural responses to commands
CN109448725A (zh) 一种语音交互设备唤醒方法、装置、设备及存储介质
CN101031958B (zh) 语音端点指示器
CN103971685B (zh) 语音命令识别方法和系统
CN110534099A (zh) 语音唤醒处理方法、装置、存储介质及电子设备
CN105529028A (zh) 语音解析方法和装置
US11615784B2 (en) Control method and control apparatus for speech interaction
CN108735210A (zh) 一种语音控制方法及终端
CN107360157A (zh) 一种用户注册方法、装置及智能空调器
CN109754788B (zh) 一种语音控制方法、装置、设备及存储介质
EP3593346B1 (en) Graphical data selection and presentation of digital content
CN109119070A (zh) 一种语音端点检测方法、装置、设备及存储介质
CN109166571A (zh) 家电设备的唤醒词训练方法、装置及家电设备
CN110349579A (zh) 语音唤醒处理方法及装置、电子设备及存储介质
CN105760084B (zh) 语音输入的控制方法和装置
CN108766431A (zh) 一种基于语音识别的自动唤醒方法及电子设备
CN109979437A (zh) 语音识别方法、装置、设备和存储介质
CN110956958A (zh) 搜索方法、装置、终端设备及存储介质
CN108960836A (zh) 语音支付方法、装置及系统
CN109410946A (zh) 一种识别语音信号的方法、装置、设备及存储介质
CN111048068A (zh) 语音唤醒方法、装置、系统及电子设备
CN112687296B (zh) 音频不流利的识别方法、装置、设备及可读存储介质
US11481188B1 (en) Application launch delay and notification
CN113129902B (zh) 一种语音处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20190430

Assignee: Shanghai Xiaodu Technology Co.,Ltd.

Assignor: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

Contract record no.: X2021990000330

Denomination of invention: The invention relates to a voice interaction method, a device, a device and a storage medium

Granted publication date: 20210309

License type: Common License

Record date: 20210531

EE01 Entry into force of recordation of patent licensing contract