CN112992137A - 语音交互方法和装置、存储介质及电子装置 - Google Patents

语音交互方法和装置、存储介质及电子装置 Download PDF

Info

Publication number
CN112992137A
CN112992137A CN202110130678.1A CN202110130678A CN112992137A CN 112992137 A CN112992137 A CN 112992137A CN 202110130678 A CN202110130678 A CN 202110130678A CN 112992137 A CN112992137 A CN 112992137A
Authority
CN
China
Prior art keywords
voice
target
preset
target voice
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110130678.1A
Other languages
English (en)
Other versions
CN112992137B (zh
Inventor
王伟龙
苏腾荣
任学磊
李永松
范振礼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Haier Technology Co Ltd
Haier Smart Home Co Ltd
Original Assignee
Qingdao Haier Technology Co Ltd
Haier Smart Home Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Haier Technology Co Ltd, Haier Smart Home Co Ltd filed Critical Qingdao Haier Technology Co Ltd
Priority to CN202110130678.1A priority Critical patent/CN112992137B/zh
Publication of CN112992137A publication Critical patent/CN112992137A/zh
Application granted granted Critical
Publication of CN112992137B publication Critical patent/CN112992137B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供了一种语音交互方法和装置、存储介质及电子装置,上述方法包括:从多个预设分类中确定获取到的目标语音所属的分类;确定所述目标语音所属的分类与前一语音所属的分类之间的关联度,其中,所述前一语音是在获取所述目标语音之前获取到的、且所述前一语音被响应;根据所述关联度,确定是否对所述目标语音进行响应。通过本发明,解决了相关技术中在与设备进行语音交互时,设备容易误识别,进而误响应的技术问题。

Description

语音交互方法和装置、存储介质及电子装置
技术领域
本发明涉及物联网技术领域,具体而言,涉及一种语音交互方法和装置、存储介质及电子装置。
背景技术
随着智能语音应用技术的不断成熟,越来越多的家用设备应用了语音交互技术,使用者想要实现听歌、查天气、控制家电等目的,只需要对家电说出指令即可。相关技术中的一种语音交互方式为:采用一次唤醒,一次发问,一次答复的方式,例如:使用者将智能设备唤醒,设备进入唤醒模式,使用者说出语音指令“今天天气如何?”,设备经过查询播报“今天天气晴……”。然而,上述语音交互方式在设备控制或媒体播报场景下显得非常繁琐,因此相关技术中还存在以下语音交互方式:语音设备被唤醒后进行一段时间的持续拾音,以让用户和设备进行连续长时间交互。但是在用户和设备进行连续长时间交互的时候,设备容易误识别,进而误响应。比如使用者的使用环境可能比较嘈杂,使用者说出“今天天气如何?”,智能设备播报“今天天气晴……”并持续拾音,此时周围人说了句“天气不错,出去走走”,于是智能设备以为是在跟它聊天,于是就打断了之前的播报。为了解决上述技术问题,目前的现有技术可以通过调节持续拾音的时间门限来寻找和用户需求的平衡点减少识别到环境噪声的机率,这种方式只是缓解了问题,并且效果并不理想;也可以通过更大量的样本训练和集成更大的声学模型来提高对环境噪声的抑制,这种方案难度大,并且对终端设备的性能和空间要求比较高,不利于终端的低成本推广。由此可见,现有技术并没有很好解决上述技术问题。
针对相关技术中,在与设备进行语音交互时,设备容易误识别,进而误响应的技术问题,尚未提出有效的技术方案。
发明内容
本发明实施例提供了一种语音交互方法和装置、存储介质及电子装置,以至少解决相关技术中在与设备进行语音交互时,设备容易误识别,进而误响应的技术问题。
根据本发明的一个实施例,提供了一种语音交互方法,包括:从多个预设分类中确定获取到的目标语音所属的分类;确定所述目标语音所属的分类与前一语音所属的分类之间的关联度,其中,所述前一语音是在获取所述目标语音之前获取到的、且所述前一语音被响应;根据所述关联度,确定是否对所述目标语音进行响应。
在一个示例性实施例中,所述方法还包括:在根据所述关联度确定对所述目标语音进行响应的情况下,对拾音时间进行重置,并在重置的拾音时间内进行拾音;其中,在从多个预设分类中确定获取到的目标语音所属的分类之前,所述方法还包括:通过滤波器对麦克风拾取到的第一声音信号进行滤波,得到所述目标语音,其中,所述滤波器用于从所述第一声音信号中滤除回音信号,所述回音信号为扬声器播放的声音信号产生的回音。
在一个示例性实施例中,在通过滤波器对麦克风拾取到的声音信号进行滤波之前,所述方法还包括:控制所述扬声器播放预设声音信号,并获取所述麦克风在所述扬声器播放所述预设声音信号的同时拾取到的第二声音信号;确定所述预设声音信号的逆信号,并将所述逆信号与所述第二声音信号进行叠加,得到第三声音信号;根据所述第三声音信号创建所述滤波器。
在一个示例性实施例中,所述从多个预设分类中确定获取到的目标语音所属的分类,包括:将所述目标语音转换为目标文本;对所述目标文本进行自然语言理解识别,得到所述目标语音对应的语义;将所述多个预设分类中,与所述目标语音对应的语义匹配的分类确定为所述目标语音所属的分类。
在一个示例性实施例中,所述根据所述关联度,确定是否对所述目标语音进行响应,包括:在所述关联度小于预设关联度阈值的情况下,禁止对所述目标语音进行响应,并在预设的拾音时间内继续进行拾音;在所述关联度大于或等于所述预设关联度阈值的情况下,执行对所述目标语音的响应。
在一个示例性实施例中,在所述关联度小于预设关联度阈值的情况下,所述方法还包括:在获取到属于目标分类、且数量大于预设数量阈值的多个语音信号的情况下,确定对最近一次获取到的语音信号进行响应,并增大所述目标分类与所述前一语音所属的分类之间的关联度,其中,所述目标分类为所述目标语音所属的分类,所述多个语音信号是在获取所述目标语音之后获取到的。
根据本发明的另一实施例,提供了一种语音交互装置,包括:第一确定模块,用于从多个预设分类中确定获取到的目标语音所属的分类;第二确定模块,用于确定所述目标语音所属的分类与前一语音所属的分类之间的关联度,其中,所述前一语音是在获取所述目标语音之前获取到的、且所述前一语音被响应;第三确定模块,用于根据所述关联度,确定是否对所述目标语音进行响应。
根据本发明的另一个实施例,提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述方法。
根据本发明的另一个实施例,提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述方法。
通过本发明,从多个预设分类中确定获取到的目标语音所属的分类;确定所述目标语音所属的分类与前一语音所属的分类之间的关联度,其中,所述前一语音是在获取所述目标语音之前获取到的、且所述前一语音被响应;根据所述关联度,确定是否对所述目标语音进行响应。由于可以根据目标语音所属的分类与前一语音所属的分类之间的关联度,确认所述目标语音所属与前一语音所属之间联系,进而确定是否对所述目标语音进行响应。因此,解决了相关技术中在与设备进行语音交互时,设备容易误识别,进而误响应的技术问题,降低了设备的误响应率,以及实现了复杂环境下,用户和设备连续长时间交互时,设备识别以及响应用户命令的准确率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的移动终端的硬件结构框图;
图2是根据本发明实施例的语音交互方法的流程图;
图3是根据本发明一可选实施例的回音消除装置的结构框图(一);
图4是根据本发明一可选实施例的回音消除装置的结构框图(二);
图5是根据本发明一可选实施例的获取目标语音所属的分类的流程示意图;
图6是根据本发明一可选实施例的意图过滤系统的工作流程示意图;
图7是根据本发明实施例的智能设备的结构框图(一);
图8是根据本发明实施例的智能设备的结构框图(二)。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的移动终端的硬件结构框图,如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的语音交互方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
基于上述的移动终端或网络架构,在本实施例中提供了一种语音交互方法,可以应用于智能设备或服务器,图2是根据本发明实施例的语音交互方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,从多个预设分类中确定获取到的目标语音所属的分类;
步骤S204,确定所述目标语音所属的分类与前一语音所属的分类之间的关联度,其中,所述前一语音是在获取所述目标语音之前获取到的、且所述前一语音被响应;
步骤S206,根据所述关联度,确定是否对所述目标语音进行响应。
通过上述步骤S202至步骤S206,从多个预设分类中确定获取到的目标语音所属的分类;确定所述目标语音所属的分类与前一语音所属的分类之间的关联度,其中,所述前一语音是在获取所述目标语音之前获取到的、且所述前一语音被响应;根据所述关联度,确定是否对所述目标语音进行响应。由于可以根据所述目标语音所属的分类与前一语音所属的分类之间的关联度,确认所述目标语音所属与前一语音所属之间联系,进而确定是否对所述目标语音进行响应。因此,解决了相关技术中在与设备进行语音交互时,设备容易误识别,进而误响应的技术问题,降低了设备的误响应率,以及实现了复杂环境下,用户和设备连续长时间交互时,设备识别以及响应用户命令的准确率。
需要说明的是,目标语音可以由智能设备获取。其中,在上述实施例由智能设备执行的情况下,智能设备根据获取到的目标语音,通过执行上述实施例中的语音交互方法确定是否对目标语音进行响应。在上述实施例由服务器执行的情况下,智能设备可以将获取到的目标语音发送给服务器,并由服务器执行上述实施例中的语音交互方法确定智能设备是否对目标语音进行响应,并将确定结果发送给智能设备,智能设备根据接收到的确定结果对目标语音进行响应或不进行响应。
其中,前一语音被响应包括但不限于前一语音被智能设备响应,即智能设备对第一语音进行了响应。
在一个可选实施例中,在根据所述关联度确定对所述目标语音进行响应的情况下,对拾音时间进行重置,并在重置的拾音时间内进行拾音;其中,在从多个预设分类中确定获取到的目标语音所属的分类之前,所述方法还包括:通过滤波器对麦克风拾取到的第一声音信号进行滤波,得到所述目标语音,其中,所述滤波器用于从所述第一声音信号中滤除回音信号,所述回音信号为扬声器播放的声音信号产生的回音。
可选地,所述麦克风和所述扬声器可以位于所述智能设备中。需要说明的是,智能设备具有拾音时间,智能设备在拾音时间内通过麦克风持续进行拾音。
需要说明的是,所述智能设备被唤醒后在该智能设备预设的拾音时间内持续进行拾音,即智能设备进行一段时间的持续拾音,使得用户和所述智能设备进行连续长时间交互。可选地,所述智能设备被唤醒后首次获取前一语音后,在根据前一语音所属的分类确定对前一语音进行响应的情况下,对所述智能设备对应的拾音时间进行重置,并在重置的拾音时间内继续拾音,以及在拾取的声音信号中获取到所述目标语音,确定所述目标语音所属的分类与前一语音所属的分类之间的关联度,确定所述智能设备是否对目标语音响应,如果所述智能设备对目标语音响应,则对所述智能设备对应的拾音时间再次进行重置,并在重置的拾音时间内进行拾音。
图3是根据本发明一可选实施例的回音消除装置的结构框图(一),如图3所示:设备包括扬声器与麦克风,麦克风拾取第一声音信号并将第一声音信号发送给滤波器滤波,其中第一声音信号包括目标语音与回音信号,回音信号为扬声器播放的声音信号产生的回音,回音信号存在于用户和所述设备进行连续交互的情况下,比如空调响应“天气”语音,向用户播放天气信息的时候,用户又发出了目标语音,因为麦克风不能识别用户以及设备自身的语音,所以此时麦克风会同时收集到目标语音与“天气”语音(“天气”语音即是回音信号)。通过滤波器,就可以从麦克风拾取到的第一声音信号中滤波得到目标语音。举例说明,使用者说出“今天天气如何?”,智能设备经过查询播报“今天天气晴……”,此时设备还在持续拾音中,有可能识别到自己播报的“今天天气晴……”,于是打断了当前播报,开启了下一轮播报,甚至这种情况会无限次的循环下去。通过上述技术手段,就可以避免设备被自身播报语音干扰的情况。
需要说明的是,上述实施例中的设备可以是智能音箱等语音助手、具备语音交互功能的冰箱、空调等各种家电设备。
在一个可选实施例中,在所述通过滤波器对麦克风拾取到的声音信号进行滤波之前,所述方法还包括:控制所述扬声器播放预设声音信号,并获取所述麦克风在所述扬声器播放所述预设声音信号的同时拾取到的第二声音信号;确定所述预设声音信号的逆信号,并将所述逆信号与所述第二声音信号进行叠加,得到第三声音信号;根据所述第三声音信号创建所述滤波器。
其中,预设声音信号的逆信号用于抵消预设声音信号,因此通过将预设声音信号的逆信号与第二声音信号进行叠加,可以抵消第二声音信号中的预设声音信号。可选地,逆信号包括但不限于与预设声音信号幅度相同、相位相反的信号。
需要说明的是,用户和所述设备进行连续交互的情况下,麦克风无法区分用户的语音和设备的扬声器播放的声音产生的回音,所以此时麦克风会同时收集到的语音和设备的扬声器播放的声音产生的回音,通过滤波器,就可以从麦克风收集到的声音中滤波得到所需要的用户的语音。
预设声音信号是为创建滤波器所预设的声音信号,第二声音信号中包括了扬声器播放的预设声音信号所产生的回音。本发明通过确定所述预设声音信号的逆信号,并将所述逆信号与所述第二声音信号进行叠加,得到第三声音信号,根据所述第三声音信号创建所述滤波器,从而可以使用所述滤波器就可以滤除麦克风拾取的第一声音信号中的回音信号,进而得到目标语音。
图4是根据本发明一可选实施例的回音消除装置的结构框图(二),如图4所示:
麦克风会同时收集到用户的语音和扬声器播报的声音信号产生的回音(设备包括麦克风以及扬声器)。
滤波器是根据预设声音信号的逆信号与麦克风拾取的第二声音信号进行叠加生成的第三声音信号所创建的。
处理器控制扬声器播报语音,并且可以根据扬声器播报语音,生成扬声器播报语音的逆信号。
本发明为了消除设备回声,使用了AEC(声学回声消除),其中,将麦克风拾取到的信号A混合一个播报信号C的逆信号,以此来消除麦克风中的信号C。但实际应用中这个情况会相对复杂一些,首先发送给扬声器的音频信号C我们是准确知道的,但是这与麦克风拾取到的音频还是有一定的差异,因为扬声器发出的音频会被环境中的障碍物进行多次反射,这些反射的声音会不同时间到达麦克风,而且每个反射又会不同频率的被环境的表面吸收或阻挡,最后麦克风拾取到的反射声音与原始信号是有一定差异的。要从麦克风中去除播放的音频信号,首先就知道播放的音频达到麦克风的样子,将麦克风音频与扬声器音频进行比较,得到一个新的脉冲响应,这个脉冲响应就是本发明滤波器的基础,通过这个滤波器就可以将播放信号从麦克风信号中很好的过滤掉了,这样我们就得到一个相对纯粹的环境音信号B。可选地,信号A可以是上述实施例中的第二声音信号,信号C可以是上述实施例中的预设声音信号,环境音信号B可以看作是使用所述滤波器得到的滤除所述预设声音信号的反射信号(即回音)后得到的所述第三声音信号。
需要说明的是,根据所述第三声音信号创建所述滤波器,就可以确定滤波器的频率响应,之后,就可以直接使用滤波器。比如通过滤波器对麦克风拾取到的第一声音信号进行滤波时,滤波器就可以通过从第一声音信号中滤除回音信号,进而得到目标语音。
图5是根据本发明一可选实施例的获取目标语音所属的分类的流程示意图,如图5所示:
步骤S502,将所述目标语音转换为目标文本;
步骤S504,对所述目标文本进行自然语言理解识别,得到所述目标语音对应的语义;
步骤S506,将所述多个预设分类中,与所述目标语音对应的语义匹配的分类确定为所述目标语音所属的分类。
需要说明的是,通过自然语言处理就可以得到将所述目标语音转换为目标文本的语义,进而确定为所述目标语音所属的分类。比如当目标语音是“天气”或者“今天天气如何”等语音时,通过自然语言处理就可以确定上述目标语音转换为目标文本的语义应该是用户在询问天气状况,上述目标语音对应的分类是“天气查询领域”。
在一个可选实施例中,所述根据所述关联度,确定是否对所述目标语音进行响应,包括:在所述关联度小于预设关联度阈值的情况下,禁止对所述目标语音进行响应,并在预设的拾音时间内继续进行拾音;在所述关联度大于或等于所述预设关联度阈值的情况下,执行对所述目标语音的响应。
其中,在所述关联度小于预设关联度阈值的情况下,确定不对所述目标语音进行响应;在所述关联度大于或等于所述预设关联度阈值的情况下,确定对所述目标语音进行响应,并可以执行对目标语音的响应。
需要说明的是,当所述关联度小于于预设阈值时,也就是说,所述目标语音所属的分类与前一语音所属的分类不属于相似领域,所述设备对所述目标语音不进行响应,并在所述设备预设的拾音时间内继续进行拾音。当所述关联度大于或者等于预设阈值时,也就是说,所述目标语音所属的分类与前一语音所属的分类一致或者属于相似领域,所述设备对所述目标语音进行响应,对所述设备对应的拾音时间进行重置,并在重置的拾音时间内进行拾音。
举例说明:用户唤醒空调后首次说“打开空调”,空调响应上述前一语音命令,空调开启,同时重置计时器并继续拾音(其中,通过重置计时器可以重置设备对应的拾音时间)。假如此时空调识别到目标语音为“天气”,天气语音的类别属于天气查询,而打开空调语音属于设备控制领域,二者差异较大,所述关联度小于预设阈值,于是不对所述目标语音进行响应,空调继续拾音。此时空调识别到目标语音为“制冷模式”,“制冷模式”属于设备控制领域,所述关联度大于预设阈值,空调响应制冷模式语音,同时重置计时器并继续拾音。假如计时器为一分钟,之后一分钟内一直没有识别到设备控制的指令,计时器超时,自动退出拾音。每次对所述目标语音进行响应的情况下,对所述设备对应的拾音时间进行重置,可以避免漏拾音以及多次语音响应不一致的问题。
在所述关联度小于预设关联度阈值的情况下,所述方法还包括:在获取到属于目标分类、且数量大于预设数量阈值的多个语音信号的情况下,确定对最近一次获取到的语音信号进行响应,并增大所述目标分类与所述前一语音所属的分类之间的关联度,其中,所述目标分类为所述目标语音所属的分类,所述多个语音信号是在获取所述目标语音之后获取到的。
需要说明的是,所述目标语音所属的分类与前一语音所属的分类之间的关联度小于预设关联度阈值时,存在以下处理方式:当用户多次发出与前一语音所属的分类的关联度小于预设关联度阈值的所述目标语音,设备检测到的所述目标语音数量大于预设数量阈值时,设备可以对所述目标语音进行响应。举例说明,用户唤醒空调后首次说“打开空调”,空调响应上述前一语音命令,空调开启,同时重置计时器并继续拾音。假如此时空调识别到目标语音为“天气”,天气语音的类别属于天气查询,而打开空调语音属于设备控制领域,二者差异较大,所述关联度小于预设阈值,于是不对所述目标语音进行响应,空调继续拾音。如果后续空调多次检测到关于“天气”的语音,说明用户就是想要查询天气状况,当空调检测到的“天气”的语音的数量大于预设数量阈值时,设备可以对“天气”的语音进行响应,并增大天气查询领域与设备控制领域之间的关联度。通过上述技术手段,可以根据用户的使用习惯对分类之间的关联度进行调整,从而可以使得设备的语音响应更加符合用户的使用习惯,从而可以提升设备响应目标语音的准确度,并改善用户体验。
为了更好的理解上述技术方案,使用以下可选流程图用于说明设备与人交互中,设备通过语音分类的方法确定是否对用户进行响应。
图6是根据本发明一可选实施例的意图过滤系统工作的流程示意图,如图6所示:
用户先唤醒设备,设备处于持续拾音状态,用户说出指令词,经过ASR系统将音频转化为文本,再经过NLP(自然语言处理)系统,分析用户的意图,得到若干意图信息,我们根据意图信息将用户指令划分为若干领域,如:设备控制、家电知识库、媒体资源点拨、天气查询、日程闹钟等,通过比对当前指令与之前N次发话的领域相似度来决策是否响应本地发话。
步骤S601:用户唤醒设备;
步骤S602:设备处于持续拾音状态;
步骤S603:设备判断拾音是否超时,如果拾音超时,执行步骤S604;如果拾音未超时,执行步骤S605;
步骤S604:设备退出拾音;
步骤S605:对设备拾取到的语音,通过ASR(自动语音识别技术)将音频转化为文本;
步骤S606:通过NLP(自然语言处理)系统,分析上述文本,得到若干用户意图信息;
步骤S607:根据意图信息将用户指令划分为若干领域(即上述实施例中的分类),如:设备控制、家电知识库、媒体资源点拨、天气查询、日程闹钟等,比对当前指令与之前N次发话的领域相似度(即上述实施例中的关联度);
步骤S608:在领域相似度小于阈值的情况下,确定不响应上述拾取到的语音;
步骤S609:在领域相似度大于或等于阈值的情况下,确定响应上述拾取到的语音,并对设备对应的拾音时间进行重置。
通过本发明,从多个预设分类中确定设备获取到的目标语音所属的分类;确定所述目标语音所属的分类与前一语音所属的分类之间的关联度,其中,所述前一语音是在获取所述目标语音之前获取到的、且所述设备对所述前一语音进行了响应;根据所述关联度,确定是否对所述目标语音进行响应。由于可以根据所述目标语音所属的分类与前一语音所属的分类之间的关联度,确认所述目标语音所属与前一语音所属之间联系,进而确定是否对所述目标语音进行响应。因此,解决了相关技术中用户和设备进行连续长时间交互的时候,设备容易误识别,进而误响应的技术问题,从而实现了复杂环境下,用户和设备连续长时间交互时,设备识别以及响应用户命令的准确率。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例该的方法。
实施例2
在本实施例中还提供了一种语音交互装置,图7是根据本发明实施例的智能设备的结构框图(一),如图7所示,包括:
第一确定模块72,从多个预设分类中确定获取到的目标语音所属的分类;
第二确定模块74,用于确定所述目标语音所属的分类与前一语音所属的分类之间的关联度,其中,所述前一语音是在获取所述目标语音之前获取到的、且所述前一语音被响应;
第三确定模块76,用于根据所述关联度,确定是否对所述目标语音进行响应。
通过上述装置,从多个预设分类中确定取到的目标语音所属的分类;确定所述目标语音所属的分类与前一语音所属的分类之间的关联度,其中,所述前一语音是在获取所述目标语音之前获取到的、且所述前一语音被响应;根据所述关联度,确定是否对所述目标语音进行响应。由于可以根据所述目标语音所属的分类与前一语音所属的分类之间的关联度,确认所述目标语音所属与前一语音所属之间联系,进而确定是否对所述目标语音进行响应。因此,解决了相关技术中在与设备进行语音交互时,设备容易误识别,进而误响应的技术问题,降低了设备的误响应率,以及实现了复杂环境下,用户和设备连续长时间交互时,设备识别以及正确响应用户命令的准确率。
在一个可选的实施例中,如图8所示,所述装置还包括拾音模块82和滤波模块84,其中:所述拾音模块82,用于:在根据所述关联度确定对所述目标语音进行响应的情况下,对拾音时间进行重置,并在重置的拾音时间内进行拾音;所述滤波模块84,用于通过滤波器对麦克风拾取到的第一声音信号进行滤波,得到所述目标语音,其中,所述滤波器用于从所述第一声音信号中滤除回音信号,所述回音信号为扬声器播放的声音信号产生的回音。
在一个示例性实施例中,所述装置还包括创建模块,用于:控制所述扬声器播放预设声音信号,并获取所述麦克风在所述扬声器播放所述预设声音信号的同时拾取到的第二声音信号;确定所述预设声音信号的逆信号,并将所述逆信号与所述第二声音信号进行叠加,得到第三声音信号;根据所述第三声音信号创建所述滤波器。
在一个示例性实施例中,上述第一确定模块72还用于将所述目标语音转换为目标文本;对所述目标文本进行自然语言理解识别,得到所述目标语音对应的语义;将所述多个预设分类中,与所述目标语音对应的语义匹配的分类确定为所述目标语音所属的分类。
在一个示例性实施例中,上述第三确定模块76还用于在所述关联度小于预设关联度阈值的情况下,禁止对所述目标语音进行响应,所述拾音模块82还用于在预设的拾音时间内继续进行拾音;第三确定模块76还用于在所述关联度大于或等于所述预设关联度阈值的情况下,执行对所述目标语音的响应。
在一个示例性实施例中,上述第三确定模块76还用于在获取到属于目标分类、且数量大于预设数量阈值的多个语音信号的情况下,确定对最近一次获取到的语音信号进行响应,并增大所述目标分类与所述前一语音所属的分类之间的关联度,其中,所述目标分类为所述目标语音所属的分类,所述多个语音信号为在获取所述目标语音之后获取到的。
实施例3
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,从多个预设分类中确定获取到的目标语音所属的分类;
S2,确定所述目标语音所属的分类与前一语音所属的分类之间的关联度,其中,所述前一语音是在获取所述目标语音之前获取到的、且所述前一语音被响应;
S3,根据所述关联度,确定是否对所述目标语音进行响应。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-ONly Memory,简称为ROM)、随机存取存储器(RaNdom Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
实施例4
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,从多个预设分类中确定获取到的目标语音所属的分类;
S2,确定所述目标语音所属的分类与前一语音所属的分类之间的关联度,其中,所述前一语音是在获取所述目标语音之前获取到的、且所述前一语音被响应;
S3,根据所述关联度,确定是否对所述目标语音进行响应。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种语音交互方法,其特征在于,包括:
从多个预设分类中确定获取到的目标语音所属的分类;
确定所述目标语音所属的分类与前一语音所属的分类之间的关联度,其中,所述前一语音是在获取所述目标语音之前获取到的、且所述前一语音被响应;
根据所述关联度,确定是否对所述目标语音进行响应。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在根据所述关联度确定对所述目标语音进行响应的情况下,对拾音时间进行重置,并在重置的拾音时间内进行拾音;
其中,在从多个预设分类中确定获取到的目标语音所属的分类之前,所述方法还包括:
通过滤波器对麦克风拾取到的第一声音信号进行滤波,得到所述目标语音,其中,所述滤波器用于从所述第一声音信号中滤除回音信号,所述回音信号为扬声器播放的声音信号产生的回音。
3.根据权利要求2所述的方法,其特征在于,在通过滤波器对麦克风拾取到的声音信号进行滤波之前,所述方法还包括:
控制所述扬声器播放预设声音信号,并获取所述麦克风在所述扬声器播放所述预设声音信号的同时拾取到的第二声音信号;
确定所述预设声音信号的逆信号,并将所述逆信号与所述第二声音信号进行叠加,得到第三声音信号;
根据所述第三声音信号创建所述滤波器。
4.根据权利要求1所述的方法,其特征在于,所述从多个预设分类中确定获取到的目标语音所属的分类,包括:
将所述目标语音转换为目标文本;
对所述目标文本进行自然语言理解识别,得到所述目标语音对应的语义;
将所述多个预设分类中,与所述目标语音对应的语义匹配的分类确定为所述目标语音所属的分类。
5.根据权利要求1所述的方法,其特征在于,所述根据所述关联度,确定是否对所述目标语音进行响应,包括:
在所述关联度小于预设关联度阈值的情况下,禁止对所述目标语音进行响应,并在预设的拾音时间内继续进行拾音;
在所述关联度大于或等于所述预设关联度阈值的情况下,执行对所述目标语音的响应。
6.根据权利要求5所述的方法,其特征在于,在所述关联度小于预设关联度阈值的情况下,所述方法还包括:
在获取到属于目标分类、且数量大于预设数量阈值的多个语音信号的情况下,确定对最近一次获取到的语音信号进行响应,并增大所述目标分类与所述前一语音所属的分类之间的关联度,其中,所述目标分类为所述目标语音所属的分类,所述多个语音信号是在获取所述目标语音之后获取到的。
7.一种语音交互装置,其特征在于,包括:
第一确定模块,用于从多个预设分类中确定获取到的目标语音所属的分类;
第二确定模块,用于确定所述目标语音所属的分类与前一语音所属的分类之间的关联度,其中,所述前一语音是在获取所述目标语音之前获取到的、且所述前一语音被响应;
第三确定模块,用于根据所述关联度,确定是否对所述目标语音进行响应。
8.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至6任一项中所述的方法。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至6任一项中所述的方法。
CN202110130678.1A 2021-01-29 2021-01-29 语音交互方法和装置、存储介质及电子装置 Active CN112992137B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110130678.1A CN112992137B (zh) 2021-01-29 2021-01-29 语音交互方法和装置、存储介质及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110130678.1A CN112992137B (zh) 2021-01-29 2021-01-29 语音交互方法和装置、存储介质及电子装置

Publications (2)

Publication Number Publication Date
CN112992137A true CN112992137A (zh) 2021-06-18
CN112992137B CN112992137B (zh) 2022-12-06

Family

ID=76345905

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110130678.1A Active CN112992137B (zh) 2021-01-29 2021-01-29 语音交互方法和装置、存储介质及电子装置

Country Status (1)

Country Link
CN (1) CN112992137B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101346895A (zh) * 2005-10-26 2009-01-14 日本电气株式会社 回声抑制方法及设备
CN101547261A (zh) * 2008-03-27 2009-09-30 富士通株式会社 关联赋予装置、关联赋予方法和记录介质
CN106971722A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种设置有关联度的远程语音识别系统及方法
CN107301213A (zh) * 2017-06-09 2017-10-27 腾讯科技(深圳)有限公司 智能问答方法及装置
CN108052366A (zh) * 2017-12-27 2018-05-18 努比亚技术有限公司 应用图标显示方法、终端及存储介质
US20190096400A1 (en) * 2017-09-26 2019-03-28 Baidu Online Network Technology (Beijing) Co., Ltd Method and apparatus for providing voice service
US20200004786A1 (en) * 2018-06-29 2020-01-02 Alibaba Group Holding Limited Corpus generating method and apparatus, and human-machine interaction processing method and apparatus
CN111209325A (zh) * 2019-12-31 2020-05-29 深信服科技股份有限公司 业务系统接口识别方法、装置及存储介质
CN111429895A (zh) * 2018-12-21 2020-07-17 广东美的白色家电技术创新中心有限公司 多轮交互的语义理解方法、装置及计算机存储介质
CN111427444A (zh) * 2018-12-24 2020-07-17 中移(杭州)信息技术有限公司 一种智能设备的控制方法和设备
CN111782779A (zh) * 2020-05-28 2020-10-16 厦门快商通科技股份有限公司 语音问答方法、系统、移动终端及存储介质
CN112256229A (zh) * 2020-09-11 2021-01-22 北京三快在线科技有限公司 人机语音交互方法、装置、电子设备及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101346895A (zh) * 2005-10-26 2009-01-14 日本电气株式会社 回声抑制方法及设备
CN101547261A (zh) * 2008-03-27 2009-09-30 富士通株式会社 关联赋予装置、关联赋予方法和记录介质
CN106971722A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种设置有关联度的远程语音识别系统及方法
CN107301213A (zh) * 2017-06-09 2017-10-27 腾讯科技(深圳)有限公司 智能问答方法及装置
US20190096400A1 (en) * 2017-09-26 2019-03-28 Baidu Online Network Technology (Beijing) Co., Ltd Method and apparatus for providing voice service
CN108052366A (zh) * 2017-12-27 2018-05-18 努比亚技术有限公司 应用图标显示方法、终端及存储介质
US20200004786A1 (en) * 2018-06-29 2020-01-02 Alibaba Group Holding Limited Corpus generating method and apparatus, and human-machine interaction processing method and apparatus
CN111429895A (zh) * 2018-12-21 2020-07-17 广东美的白色家电技术创新中心有限公司 多轮交互的语义理解方法、装置及计算机存储介质
CN111427444A (zh) * 2018-12-24 2020-07-17 中移(杭州)信息技术有限公司 一种智能设备的控制方法和设备
CN111209325A (zh) * 2019-12-31 2020-05-29 深信服科技股份有限公司 业务系统接口识别方法、装置及存储介质
CN111782779A (zh) * 2020-05-28 2020-10-16 厦门快商通科技股份有限公司 语音问答方法、系统、移动终端及存储介质
CN112256229A (zh) * 2020-09-11 2021-01-22 北京三快在线科技有限公司 人机语音交互方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN112992137B (zh) 2022-12-06

Similar Documents

Publication Publication Date Title
CN107454508B (zh) 麦克风阵列的电视机及电视系统
US11996092B1 (en) Noise cancellation for open microphone mode
CN109326289B (zh) 免唤醒语音交互方法、装置、设备及存储介质
CN111223497B (zh) 一种终端的就近唤醒方法、装置、计算设备及存储介质
CN112037789A (zh) 设备唤醒方法、装置、存储介质及电子装置
CN110223690A (zh) 基于图像与语音融合的人机交互方法及装置
CN108922528B (zh) 用于处理语音的方法和装置
CN110767225B (zh) 一种语音交互方法、装置及系统
CN108932947B (zh) 语音控制方法及家电设备
CN110875045A (zh) 一种语音识别方法、智能设备和智能电视
CN109920416A (zh) 一种语音控制方法、装置、存储介质及控制系统
CN109448710B (zh) 语音处理方法及装置、家电设备、存储介质电子装置
CN113470634A (zh) 语音交互设备的控制方法、服务器及语音交互设备
CN112820290A (zh) 家电设备及其语音控制方法、语音装置、计算机存储介质
CN114402385A (zh) 具有分布式麦克风的声学分区
CN112002319A (zh) 智能设备的语音识别方法及装置
CN112992137B (zh) 语音交互方法和装置、存储介质及电子装置
CN110197663B (zh) 一种控制方法、装置及电子设备
CN112071306A (zh) 语音控制方法、系统、可读存储介质及网关设备
CN112837694B (zh) 设备唤醒方法、装置、存储介质及电子装置
CN113889116A (zh) 语音信息的处理方法和装置、存储介质及电子装置
CN114283773A (zh) 用于语音设备降低环境噪声的方法和装置、存储介质
CN110797048B (zh) 语音信息的获取方法及装置
CN113488036A (zh) 一种多轮语音交互方法、终端及服务器
CN110895937A (zh) 语音控制信令的获取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant