CN112002320A - 语音唤醒方法、装置、电子设备和存储介质 - Google Patents

语音唤醒方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN112002320A
CN112002320A CN202010795017.6A CN202010795017A CN112002320A CN 112002320 A CN112002320 A CN 112002320A CN 202010795017 A CN202010795017 A CN 202010795017A CN 112002320 A CN112002320 A CN 112002320A
Authority
CN
China
Prior art keywords
audio signal
wake
processing
awakening
processing result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010795017.6A
Other languages
English (en)
Inventor
张秀云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Priority to CN202010795017.6A priority Critical patent/CN112002320A/zh
Publication of CN112002320A publication Critical patent/CN112002320A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)

Abstract

本公开是关于一种语音唤醒方法、装置、电子设备和存储介质,所述语音唤醒方法应用于智能设备,包括:获取所述智能设备采集的音频信号,并确定所述音频信号的预处理结果,其中,所述预处理结果包括音频信号为唤醒词或非唤醒词;响应于所述预处理结果包括音频信号为唤醒词,确定所述音频信号的至少一级唤醒处理结果;根据最后一级的唤醒处理结果确定并执行唤醒指令,其中,所述唤醒指令包括唤醒智能设备或保持智能设备为待机状态。降低了唤醒处理等相关步骤的运行频率,或者说以低功耗的预处理步骤替代了高功耗的唤醒处理等相关步骤,因此在保证唤醒精度的情况下降低了智能设备的功耗。

Description

语音唤醒方法、装置、电子设备和存储介质
技术领域
本公开涉及智能设备技术领域,具体涉及一种语音唤醒方法、装置、电子设备和存储介质。
背景技术
随着科学技术的进步,智能音箱、智能机器人、智能移动终端等智能设备的功能越来越丰富,形态越来越多样化,性能越来越优异。处于待机状态的智能设备,尤其是一些带电池或发热量较大的设备,既希望能随时通过语音唤醒,又希望功耗尽可能低,否则会带来续航过短或因过热而不稳定的问题。但是为了随时能够被语音唤醒,智能设备需要对环境内的音频信号进行识别,这导致智能设备用于语音唤醒的功耗较高。
发明内容
为克服相关技术中存在的问题,本公开实施例提供一种语音唤醒方法、装置、电子设备和存储介质,用以解决相关技术中的缺陷。
根据本公开实施例的第一方面,提供一种语音唤醒方法,应用于智能设备,所述方法包括:
获取所述智能设备采集的音频信号,并确定所述音频信号的预处理结果,其中,所述预处理结果包括音频信号为唤醒词或非唤醒词;
响应于所述预处理结果包括音频信号为唤醒词,确定所述音频信号的至少一级唤醒处理结果;
根据最后一级的唤醒处理结果确定并执行唤醒指令,其中,所述唤醒指令包括唤醒智能设备或保持智能设备为待机状态。
在一个实施例中,所述获取所述音频信号的预处理结果,包括:
获取所述音频信号的语音激活检测结果,其中,所述语音激活检测结果包括音频信号为人声或非人声;
响应于所述语音激活检测结果包括音频信号为人声,获取所述音频信号的预唤醒处理结果,其中,所述预唤醒处理结果包括音频信号为唤醒词或非唤醒词;
将所述预唤醒处理结果确定为音频信号的预处理结果。
在一个实施例中,获取所述音频信号的预唤醒处理结果之前,还包括:对所述音频信号进行预降噪处理。
在一个实施例中,还包括:
响应于所述预处理结果包括音频信号为非唤醒词,重新获取所述智能设备采集的音频信号。
在一个实施例中,所述确定所述音频信号的至少一级唤醒处理结果之前,还包括:
依次对所述音频信号进行噪声抑制处理、波束形成处理和去混响处理。
在一个实施例中,所述确定所述音频信号的至少一级唤醒处理结果之前,还包括:
对所述音频信号进行回声消除处理。
在一个实施例中,所述唤醒处理结果包括音频信号为唤醒词或非唤醒词;
所述确定所述音频信号的至少一级唤醒处理结果,包括:
每一级确定唤醒处理结果后,响应于所述唤醒处理结果包括音频信号为唤醒词,确定下一级唤醒处理结果,响应于所述唤醒处理结果包括音频信号为非唤醒词,重新获取所述智能设备采集的音频信号;
所述根据最后一级的唤醒处理结果确定唤醒指令,包括:
响应于最后一级的唤醒处理结果包括音频信号为唤醒词,确定唤醒指令为唤醒智能设备,响应于最后一级的唤醒处理结果包括音频信号为非唤醒词,确定唤醒指令为保持智能设备为待机状态。
根据本公开实施例的第二方面,提供一种语音唤醒装置,应用于智能设备,所述装置包括:
预处理模块,用于获取所述智能设备采集的音频信号,并确定所述音频信号的预处理结果,其中,所述预处理结果包括音频信号为唤醒词或非唤醒词;
唤醒处理模块,用于响应于所述预处理结果包括音频信号为唤醒词,确定所述音频信号的至少一级唤醒处理结果;
指令模块,用于根据最后一级的唤醒处理结果确定并执行唤醒指令,其中,所述唤醒指令包括唤醒智能设备或保持智能设备为待机状态。
在一个实施例中,所述预处理模块具体用于:
获取所述音频信号的语音激活检测结果,其中,所述语音激活检测结果包括音频信号为人声或非人声;
响应于所述语音激活检测结果包括音频信号为人声,获取所述音频信号的预唤醒处理结果,其中,所述预唤醒处理结果包括音频信号为唤醒词或非唤醒词;
将所述预唤醒处理结果确定为音频信号的预处理结果。
在一个实施例中,获取所述音频信号的预唤醒处理结果之前,所述预处理模块还用于:对所述音频信号进行预降噪处理。
在一个实施例中,所述预处理模块还用于:
响应于所述预处理结果包括音频信号为非唤醒词,重新获取所述智能设备采集的音频信号。
在一个实施例中,还包括降噪模块,用于:
依次对所述音频信号进行噪声抑制处理、波束形成处理和去混响处理。
在一个实施例中,还包括降噪模块,用于:
对所述音频信号进行回声消除处理。
在一个实施例中,所述唤醒处理结果包括音频信号为唤醒词或非唤醒词;
所述唤醒处理模块具体用于:
每一级确定唤醒处理结果后,响应于所述唤醒处理结果包括音频信号为唤醒词,确定下一级唤醒处理结果,响应于所述唤醒处理结果包括音频信号为非唤醒词,重新获取所述智能设备采集的音频信号;
所述指令模块具体用于:
响应于最后一级的唤醒处理结果包括音频信号为唤醒词,确定唤醒指令为唤醒智能设备,响应于最后一级的唤醒处理结果包括音频信号为非唤醒词,确定唤醒指令为保持智能设备为待机状态。
根据本公开实施例的第三方面,提供一种电子设备,所述电子设备包括存储器、处理器,所述存储器用于存储可在处理器上运行的计算机指令,所述处理器用于在执行所述计算机指令时基于第一方面任一项所述的语音唤醒方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现第一方面任一项所述的方法。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开通过获取所述智能设备采集的音频信号,并对所述音频信号进行预处理以得到预处理结果,也就是能够确定音频信号是否为唤醒词,当预处理结果确定音频信号为唤醒词时,则依次对音频信号进行至少一级唤醒处理以得到每一级唤醒处理结果,当能够得到最后一级的唤醒处理结果,则根据最后一级唤醒处理结果确定是否唤醒智能设备。由于在多级唤醒处理之前增加了预处理步骤,能够根据预处理结果确定音频信号是否为唤醒词,虽然预处理结果的准确度低于唤醒处理的准确度,需要通过至少一级唤醒处理对音频信号进行进一步的高精度的处理,但是预处理步骤能够识别并过滤掉很大一部分音频信号,降低了唤醒处理等相关步骤的运行频率,或者说以低功耗的预处理步骤替代了高功耗的唤醒处理等相关步骤,因此在保证唤醒精度的情况下降低了智能设备的功耗。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是本公开一示例性实施例示出的语音唤醒方法的过程图;
图2是本公开另一示例性实施例示出的语音唤醒方法的过程图;
图3是本公开又一示例性实施例示出的语音唤醒方法的流程图;
图4是本公开又一示例性实施例示出的语音唤醒方法的过程图;
图5是本公开一示例性实施例示出的语音唤醒装置的结构示意图;
图6是本公开一示例性实施例示出的电子设备框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
随着科学技术的进步,智能音箱、智能机器人、智能移动终端等智能设备的功能越来越丰富,形态越来越多样化,性能越来越优异。处于待机状态的智能设备,尤其是一些带电池或发热量较大的设备,既希望能随时通过语音唤醒,又希望功耗尽可能低,否则会带来续航过短或因过热而不稳定的问题。但是为了随时能够被语音唤醒,智能设备需要对环境内的音频信号进行识别,这导致智能设备用于语音唤醒的功耗较高。
首先,本公开提供一种语音唤醒方法,请参照附图1,其示出了该方法的音频信号处理过程。首先,对音频信号进行降噪处理,降噪处理的结果可以导致音频信号的两种处理路径,其中,一种情况是降噪处理后的音频信号为静音等不含有效声音,因此对该音频信号的处理结束,进而重新获取新的音频信号,另一种情况是降噪处理后音频信号含有有效声音,因此接下来对该音频信号继续进行唤醒处理。唤醒处理可以包括多级唤醒,例如一级唤醒和二级唤醒,与降噪处理的结果相似,每一级唤醒处理的结果也可以进一步导致音频信号的两种处理途径,也就是唤醒处理结果识别出了唤醒词,则对音频信号进行下一级唤醒处理,直至最后一级唤醒结果识别出了唤醒词,则唤醒智能音箱等智能设备,唤醒处理结果未识别出唤醒词,则对该音频信号的处理结束,进而重新获取新的音频信号。该方法中,降噪处理、一级唤醒和二级唤醒等每一级处理都能过滤掉一部分非唤醒词音频,因此能够准确的识别唤醒词并唤醒智能设备,但是环境内声音较多较杂,智能设备自身还有可能产生声音,而前端的降噪处理以及一级唤醒处理等算法复杂,需要大量运算资源和存储空间,运行过程功耗较高,如果智能设备为自身的电池供电,待机状态的功耗将导致待机时长缩短。
另外,本公开还提供另一种语音唤醒方法,请参照附图2,其示出了该方法的音频信号处理过程,该方法在图1所示出的方法的基础之上,为智能设备增加数字信号处理芯片(DSP芯片),数字信号处理芯片上设置用于过滤音频信号的算法,也就是经过DSP芯片上的算法处理,如果确定为非唤醒词则过滤掉,也就是对该音频信号的处理结束,并重新获取音频信号,如果确定为唤醒词则进一步利用智能设备的固有硬件对音频设备进行如图1所示处理流程,并最终确定是否唤醒智能设备。也就是说,为智能设备设置了额外的前置芯片,利用该前置芯片上的算法对音频信号进行过滤,以减少智能设备的前端的降噪处理的运行频率,进而降低了智能设备的运行功耗。但是额外增加硬件(即DSP芯片)会增加设备的复杂程度,增加成本,而且DSP芯片上能容纳的算法大小有限,因此对音频处理的精度较低,容易造成对音频信号的误过滤,从而降低了设备唤醒的准确率,使唤醒词对应的音频在部分情况下无法唤醒设备。
基于此,本公开至少一个实施例提供了一种应用于智能设备的语音唤醒方法,请参照附图3,其示出了该语音唤醒方法的流程,包括步骤S301至步骤S303。
其中,所述智能设备可以是智能音箱、智能机器人等设备,还可以是智能手机、平板电脑、桌面型/膝上型/手持型计算机、笔记本电脑、超级移动个人计算机(ultra-mobilepersonal computer,UMPC)、上网本,以及蜂窝电话、个人数字助理(personal digitalassistant,PDA)、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备等包括触摸屏的设备,本公开的实施例无意对该终端设备的具体形态进行限定。
在步骤S301中,获取所述智能设备采集的音频信号,并确定所述音频信号的预处理结果,其中,所述预处理结果包括音频信号为唤醒词或非唤醒词。
其中,智能设备具有音频采集部件,例如麦克风。智能设备的音频采集部件可以按照预设的频率采集环境内的音频信号,音频信号可以是环境内的任何声音,也包括智能设备自身发出的任何声音。
本步骤获取到音频采集部件采集到的全部音频信号,并对音频信号进行预处理,预处理的目的是确定音频信号是否为唤醒词,例如唤醒词为“小X同学”,则预处理的目的是确定音频信号是否为“小X同学”。设置在多级唤醒处理(下文对此将进行详细介绍)前的预处理的准确率低于唤醒处理的准确度,但是预处理步骤能够识别并过滤掉很大一部分音频信号,也就是降低了用于过滤这一部分音频信号的功耗。
在步骤S302中,响应于所述预处理结果包括音频信号为唤醒词,确定所述音频信号的至少一级唤醒处理结果。
本步骤中,当音频信号经过步骤S301的预处理后,可以被确定为为唤醒词而被过滤掉,也可以被确定为唤醒词,但为保证音频信号的识别准确率,还需对经过了预处理的音频信号进行进一步的唤醒处理,其中,唤醒处理可以为一级唤醒处理,也可以为多级唤醒处理。唤醒处理的结果包括音频信号为唤醒词或非唤醒词,每一级唤醒处理结果也包括音频信号为唤醒词或非唤醒词。
在一个示例中,唤醒处理分为多级唤醒处理,每一级确定唤醒处理结果后,响应于所述唤醒处理结果包括音频信号为唤醒词,确定下一级唤醒处理结果,响应于所述唤醒处理结果包括音频信号为非唤醒词,重新获取所述智能设备采集的音频信号。也就是说,音频信号依次经过各级唤醒处理的过滤,被任一级唤醒处理过滤掉的音频信号都最终确定其为非唤醒词,不再进行后续级别的唤醒处理。其中,各级唤醒处理结果的准确率(或精度)此次递增,且第一级唤醒处理结果的准确率(或精度)高于预处理结果的准确率(或精度),既非唤醒词在靠近前端的处理中被准确识别并过滤的可能性低于其在靠近后端的处理中被准确识别并过滤的可能性,因此与唤醒词差别较大的音频信号(这一部分音频信号为音频信号的绝大部分)能够在预处理和较低级的唤醒处理等前端处理中被准确识别和过滤,与唤醒词差别较小的音频信号(即与唤醒词相近的音频信号,这一部分音频信号为音频信号中的一小部分)需要在较高级的唤醒处理等后端处理中被准确识别和过滤。
其中,各级唤醒处理的算法复杂程度与精度成正比,也就是越高级的唤醒处理对应的算法越复杂,精度越高,进而该算法对应的存储空间以及该算法运行时的功耗就越高。例如,各级唤醒处理的算法通过神经网络模型实现,则越高级的唤醒处理对应的神经网络的复杂程度越高。
其中,对音频信号进行唤醒处理之前,还可以对音频信号进行降噪处理,例如可以对音频信号依次进行噪声抑制处理(NS)、波束形成处理(BF)和去混响处理。另外,当智能设备自身有音频发出的情况下,还可以对音频信号进行回声消除处理(AEC),这种情况下可以不再对音频信号进行噪声抑制处理(NS)。
在步骤S303中,根据最后一级的唤醒处理结果确定并执行唤醒指令,其中,所述唤醒指令包括唤醒智能设备或保持智能设备为待机状态。
在一个示例中,响应于最后一级的唤醒处理结果包括音频信号为唤醒词,确定唤醒指令为唤醒智能设备,响应于最后一级的唤醒处理结果包括音频信号为非唤醒词,确定唤醒指令为保持智能设备为待机状态。也就是最后一级唤醒处理同样是对音频信号进行过滤,当确定音频信号为非唤醒词时,将该音频信号过滤掉,也就是不满足唤醒条件,因此确定唤醒指令保持智能设备为待机状态,并执行该指令,也就是保持智能设备为待机状态;当确定音频信号为唤醒词时,则将该处理结果作为最终的识别结果,也就是整个语音唤醒方法将该音频信号确定为唤醒词,此时满足唤醒条件,因此确定唤醒指令为唤醒智能设备,并执行该指令,也就是唤醒智能设备。
本公开的实施例中,通过获取所述智能设备采集的音频信号,并对所述音频信号进行预处理以得到预处理结果,也就是能够确定音频信号是否为唤醒词,当预处理结果确定音频信号为唤醒词时,则依次对音频信号进行至少一级唤醒处理以得到每一级唤醒处理结果,当能够得到最后一级的唤醒处理结果,则根据最后一级唤醒处理结果确定是否唤醒智能设备。由于在多级唤醒处理之前增加了预处理步骤,能够根据预处理结果确定音频信号是否为唤醒词,虽然预处理结果的准确度低于唤醒处理的准确度,需要通过至少一级唤醒处理对音频信号进行进一步的高精度的处理,但是预处理步骤能够识别并过滤掉很大一部分音频信号,降低了唤醒处理等相关步骤的运行频率,或者说以低功耗的预处理步骤替代了高功耗的唤醒处理等相关步骤,因此在保证唤醒精度的情况下降低了智能设备的功耗。
在本公开的一些实施例中,按照下述方式获取所述音频信号的预处理结果:首先,获取所述音频信号的语音激活检测结果,其中,所述语音激活检测结果包括音频信号为人声或非人声;接下来,响应于所述语音激活检测结果包括音频信号为人声,获取所述音频信号的预唤醒处理结果,其中,所述预唤醒处理结果包括音频信号为唤醒词或非唤醒词;最后,将所述预唤醒处理结果确定为音频信号的预处理结果。
其中,通过对音频信号进行语音激活检测(VAD),能够检测环境声量,并判断是否为人声,当环境相对安静或只有非人声的情况,则可以直接将该音频信号过滤掉,而不必进行后续的预唤醒处理。而当环境内存在人声时,则进一步对该音频信号进行预唤醒处理,从而确定该人声是否为唤醒词。预唤醒处理结果的准确率(或精度)低于最低一级唤醒处理结果的准确率(或精度),也就是说,预唤醒处理对应的算法较之最低一级唤醒处理对应的算法还简单,因此预唤醒处理对应的算法需要的存储空间小,运行时的功耗较低,因此能够进一步降低整个预处理的功耗,更进一步降低整个语音唤醒过程的功耗。
在一个示例中,对音频信号进行语音激活检测(VAD)之后,对音频信号进行预唤醒处理之前,还可以对音频信号进行预降噪处理,例如可以对音频信号进行噪音抑制处理,从而能够增加音频信号的信噪比,提高后续预唤醒处理的准确率。
在本公开的一些实施例中,响应于所述预处理结果包括音频信号为非唤醒词,重新获取所述智能设备采集的音频信号。也就是说,预处理结果为非唤醒词时,则在预处理步骤完成了音频信号的过滤,因此结束对该音频信号的处理,不必进行后续的唤醒处理,可以重新获取音频信号。
请参照附图4,其示出了本公开一个实施例中智能设备的语音唤醒的过程。音频信号依次经过预处理、降噪处理和唤醒处理三个处理过程,任何一个处理过程中确定音频信号为非唤醒词,则结束音频信号的处理,该音频信号被过滤掉,也就是该音频信号未唤醒智能设备,需重新获取音频信号;当音频信号成功经过三个处理过程,并且在最后一个过程中确定为唤醒词时,可以成功唤醒智能设备。其中,预处理过程包括语音激活检测(VAD)处理、噪声抑制(NS)处理和预唤醒处理;降噪处理包括噪声抑制(NS)或回声消除(AEC)处理、波束成形(BF)处理和去混响处理;唤醒处理包括一级唤醒处理和二级唤醒处理。
根据本公开实施例的第二方面,提供一种语音唤醒装置,应用于智能设备,请参照附图5,其示出了该装置的结构,所述装置包括:
预处理模块501,用于获取所述智能设备采集的音频信号,并确定所述音频信号的预处理结果,其中,所述预处理结果包括音频信号为唤醒词或非唤醒词;
唤醒处理模块502,用于响应于所述预处理结果包括音频信号为唤醒词,确定所述音频信号的至少一级唤醒处理结果;
指令模块503,用于根据最后一级的唤醒处理结果确定并执行唤醒指令,其中,所述唤醒指令包括唤醒智能设备或保持智能设备为待机状态。
在一个实施例中,所述预处理模块具体用于:
获取所述音频信号的语音激活检测结果,其中,所述语音激活检测结果包括音频信号为人声或非人声;
响应于所述语音激活检测结果包括音频信号为人声,获取所述音频信号的预唤醒处理结果,其中,所述预唤醒处理结果包括音频信号为唤醒词或非唤醒词;
将所述预唤醒处理结果确定为音频信号的预处理结果。
在一个实施例中,获取所述音频信号的预唤醒处理结果之前,所述预处理模块还用于:对所述音频信号进行预降噪处理。
在一个实施例中,所述预处理模块还用于:
响应于所述预处理结果包括音频信号为非唤醒词,重新获取所述智能设备采集的音频信号。
在一个实施例中,还包括降噪模块,用于:
依次对所述音频信号进行噪声抑制处理、波束形成处理和去混响处理。
在一个实施例中,还包括降噪模块,用于:
对所述音频信号进行回声消除处理。
在一个实施例中,所述唤醒处理结果包括音频信号为唤醒词或非唤醒词;
所述唤醒处理模块具体用于:
每一级确定唤醒处理结果后,响应于所述唤醒处理结果包括音频信号为唤醒词,确定下一级唤醒处理结果,响应于所述唤醒处理结果包括音频信号为非唤醒词,重新获取所述智能设备采集的音频信号;
所述指令模块具体用于:
响应于最后一级的唤醒处理结果包括音频信号为唤醒词,确定唤醒指令为唤醒智能设备,响应于最后一级的唤醒处理结果包括音频信号为非唤醒词,确定唤醒指令为保持智能设备为待机状态。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在第一方面有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
根据本公开实施例的第三方面,请参照附图6,其示例性的示出了一种电子设备的框图。例如,装置600可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图6,装置600可以包括以下一个或多个组件:处理组件602,存储器604,电源组件606,多媒体组件608,音频组件610,输入/输出(I/O)的接口612,传感器组件614,以及通信组件616。
处理组件602通常控制装置600的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件602可以包括一个或多个处理器620来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件602可以包括一个或多个模块,便于处理组件602和其他组件之间的交互。例如,处理部件602可以包括多媒体模块,以方便多媒体组件608和处理组件602之间的交互。
存储器604被配置为存储各种类型的数据以支持在设备600的操作。这些数据的示例包括用于在装置600上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件606为装置600的各种组件提供电力。电力组件606可以包括电源管理系统,一个或多个电源,及其他与为装置600生成、管理和分配电力相关联的组件。
多媒体组件608包括在所述装置600和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件608包括一个前置摄像头和/或后置摄像头。当装置600处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件610被配置为输出和/或输入音频信号。例如,音频组件610包括一个麦克风(MIC),当装置600处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中,音频组件610还包括一个扬声器,用于输出音频信号。
I/O接口612为处理组件602和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件614包括一个或多个传感器,用于为装置600提供各个方面的状态评估。例如,传感器组件614可以检测到装置600的打开/关闭状态,组件的相对定位,例如所述组件为装置600的显示器和小键盘,传感器组件614还可以检测装置600或装置600一个组件的位置改变,用户与装置600接触的存在或不存在,装置600方位或加速/减速和装置600的温度变化。传感器组件614还可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件614还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件616被配置为便于装置600和其他设备之间有线或无线方式的通信。装置600可以接入基于通信标准的无线网络,如WiFi,2G或3G,4G或6G或它们的组合。在一个示例性实施例中,通信部件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件616还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述电子设备的供电方法。
第四方面,本公开在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器604,上述指令可由装置600的处理器620执行以完成上述电子设备的供电方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (16)

1.一种语音唤醒方法,其特征在于,应用于智能设备,所述方法包括:
获取所述智能设备采集的音频信号,并确定所述音频信号的预处理结果,其中,所述预处理结果包括音频信号为唤醒词或非唤醒词;
响应于所述预处理结果包括音频信号为唤醒词,确定所述音频信号的至少一级唤醒处理结果;
根据最后一级的唤醒处理结果确定并执行唤醒指令,其中,所述唤醒指令包括唤醒智能设备或保持智能设备为待机状态。
2.根据权利要求1所述的语音唤醒方法,其特征在于,所述获取所述音频信号的预处理结果,包括:
获取所述音频信号的语音激活检测结果,其中,所述语音激活检测结果包括音频信号为人声或非人声;
响应于所述语音激活检测结果包括音频信号为人声,获取所述音频信号的预唤醒处理结果,其中,所述预唤醒处理结果包括音频信号为唤醒词或非唤醒词;
将所述预唤醒处理结果确定为音频信号的预处理结果。
3.根据权利要求2所述的语音唤醒方法,其特征在于,获取所述音频信号的预唤醒处理结果之前,还包括:对所述音频信号进行预降噪处理。
4.根据权利要求1所述的语音唤醒方法,其特征在于,还包括:
响应于所述预处理结果包括音频信号为非唤醒词,重新获取所述智能设备采集的音频信号。
5.根据权利要求2至4任一项所述的语音唤醒方法,其特征在于,所述确定所述音频信号的至少一级唤醒处理结果之前,还包括:
依次对所述音频信号进行噪声抑制处理、波束形成处理和去混响处理。
6.根据权利要求2至4任一项所述的语音唤醒方法,其特征在于,所述确定所述音频信号的至少一级唤醒处理结果之前,还包括:
对所述音频信号进行回声消除处理。
7.根据权利要求1至4任一项所述的语音唤醒方法,其特征在于,所述唤醒处理结果包括音频信号为唤醒词或非唤醒词;
所述确定所述音频信号的至少一级唤醒处理结果,包括:
每一级确定唤醒处理结果后,响应于所述唤醒处理结果包括音频信号为唤醒词,确定下一级唤醒处理结果,响应于所述唤醒处理结果包括音频信号为非唤醒词,重新获取所述智能设备采集的音频信号;
所述根据最后一级的唤醒处理结果确定唤醒指令,包括:
响应于最后一级的唤醒处理结果包括音频信号为唤醒词,确定唤醒指令为唤醒智能设备,响应于最后一级的唤醒处理结果包括音频信号为非唤醒词,确定唤醒指令为保持智能设备为待机状态。
8.一种语音唤醒装置,其特征在于,应用于智能设备,所述装置包括:
预处理模块,用于获取所述智能设备采集的音频信号,并确定所述音频信号的预处理结果,其中,所述预处理结果包括音频信号为唤醒词或非唤醒词;
唤醒处理模块,用于响应于所述预处理结果包括音频信号为唤醒词,确定所述音频信号的至少一级唤醒处理结果;
指令模块,用于根据最后一级的唤醒处理结果确定并执行唤醒指令,其中,所述唤醒指令包括唤醒智能设备或保持智能设备为待机状态。
9.根据权利要求8所述的语音唤醒装置,其特征在于,所述预处理模块具体用于:
获取所述音频信号的语音激活检测结果,其中,所述语音激活检测结果包括音频信号为人声或非人声;
响应于所述语音激活检测结果包括音频信号为人声,获取所述音频信号的预唤醒处理结果,其中,所述预唤醒处理结果包括音频信号为唤醒词或非唤醒词;
将所述预唤醒处理结果确定为音频信号的预处理结果。
10.根据权利要求9所述的语音唤醒装置,其特征在于,获取所述音频信号的预唤醒处理结果之前,所述预处理模块还用于:对所述音频信号进行预降噪处理。
11.根据权利要求8所述的语音唤醒装置,其特征在于,所述预处理模块还用于:
响应于所述预处理结果包括音频信号为非唤醒词,重新获取所述智能设备采集的音频信号。
12.根据权利要求9至11任一项所述的语音唤醒装置,其特征在于,还包括降噪模块,用于:
依次对所述音频信号进行噪声抑制处理、波束形成处理和去混响处理。
13.根据权利要求9至11任一项所述的语音唤醒装置,其特征在于,还包括降噪模块,用于:
对所述音频信号进行回声消除处理。
14.根据权利要求8至11任一项所述的语音唤醒装置,其特征在于,所述唤醒处理结果包括音频信号为唤醒词或非唤醒词;
所述唤醒处理模块具体用于:
每一级确定唤醒处理结果后,响应于所述唤醒处理结果包括音频信号为唤醒词,确定下一级唤醒处理结果,响应于所述唤醒处理结果包括音频信号为非唤醒词,重新获取所述智能设备采集的音频信号;
所述指令模块具体用于:
响应于最后一级的唤醒处理结果包括音频信号为唤醒词,确定唤醒指令为唤醒智能设备,响应于最后一级的唤醒处理结果包括音频信号为非唤醒词,确定唤醒指令为保持智能设备为待机状态。
15.一种电子设备,其特征在于,所述电子设备包括存储器、处理器,所述存储器用于存储可在处理器上运行的计算机指令,所述处理器用于在执行所述计算机指令时基于权利要求1至7中任一项所述的语音唤醒方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7中任一项所述的方法。
CN202010795017.6A 2020-08-10 2020-08-10 语音唤醒方法、装置、电子设备和存储介质 Pending CN112002320A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010795017.6A CN112002320A (zh) 2020-08-10 2020-08-10 语音唤醒方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010795017.6A CN112002320A (zh) 2020-08-10 2020-08-10 语音唤醒方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN112002320A true CN112002320A (zh) 2020-11-27

Family

ID=73462897

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010795017.6A Pending CN112002320A (zh) 2020-08-10 2020-08-10 语音唤醒方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN112002320A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112562742A (zh) * 2020-12-29 2021-03-26 苏州思必驰信息科技有限公司 语音处理方法和装置
CN112863545A (zh) * 2021-01-13 2021-05-28 北京字节跳动网络技术有限公司 性能测试方法、装置、电子设备及计算机可读存储介质
CN113160802A (zh) * 2021-03-12 2021-07-23 北京声智科技有限公司 语音处理方法、装置、设备及存储介质
CN115827075A (zh) * 2022-11-21 2023-03-21 小米汽车科技有限公司 设备控制方法、装置、设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3032535A1 (en) * 2014-12-11 2016-06-15 MediaTek, Inc Voice wakeup detecting device and method
US20160232899A1 (en) * 2015-02-06 2016-08-11 Fortemedia, Inc. Audio device for recognizing key phrases and method thereof
CN106157950A (zh) * 2016-09-29 2016-11-23 合肥华凌股份有限公司 语音控制系统及其唤醒方法、唤醒装置和家电、协处理器
CN108538297A (zh) * 2018-03-12 2018-09-14 恒玄科技(上海)有限公司 一种基于无线麦克风阵列的智能语音交互方法及交互系统
CN108538305A (zh) * 2018-04-20 2018-09-14 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及计算机可读存储介质
CN109036428A (zh) * 2018-10-31 2018-12-18 广东小天才科技有限公司 一种语音唤醒设备、方法及计算机可读存储介质
WO2019126880A1 (en) * 2017-12-29 2019-07-04 Fluent.Ai Inc. A low-power keyword spotting system
CN110858483A (zh) * 2018-08-23 2020-03-03 深圳市冠旭电子股份有限公司 智能设备、语音唤醒方法、语音唤醒装置及存储介质
CN111199733A (zh) * 2018-11-19 2020-05-26 珠海全志科技股份有限公司 多级识别语音唤醒方法及装置、计算机存储介质及设备
CN111326146A (zh) * 2020-02-25 2020-06-23 北京声智科技有限公司 语音唤醒模板的获取方法、装置、电子设备及计算机可读存储介质
CN111429901A (zh) * 2020-03-16 2020-07-17 云知声智能科技股份有限公司 一种面向IoT芯片的多级语音智能唤醒方法及系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3032535A1 (en) * 2014-12-11 2016-06-15 MediaTek, Inc Voice wakeup detecting device and method
US20160232899A1 (en) * 2015-02-06 2016-08-11 Fortemedia, Inc. Audio device for recognizing key phrases and method thereof
CN106157950A (zh) * 2016-09-29 2016-11-23 合肥华凌股份有限公司 语音控制系统及其唤醒方法、唤醒装置和家电、协处理器
WO2019126880A1 (en) * 2017-12-29 2019-07-04 Fluent.Ai Inc. A low-power keyword spotting system
CN108538297A (zh) * 2018-03-12 2018-09-14 恒玄科技(上海)有限公司 一种基于无线麦克风阵列的智能语音交互方法及交互系统
CN108538305A (zh) * 2018-04-20 2018-09-14 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及计算机可读存储介质
CN110858483A (zh) * 2018-08-23 2020-03-03 深圳市冠旭电子股份有限公司 智能设备、语音唤醒方法、语音唤醒装置及存储介质
CN109036428A (zh) * 2018-10-31 2018-12-18 广东小天才科技有限公司 一种语音唤醒设备、方法及计算机可读存储介质
CN111199733A (zh) * 2018-11-19 2020-05-26 珠海全志科技股份有限公司 多级识别语音唤醒方法及装置、计算机存储介质及设备
CN111326146A (zh) * 2020-02-25 2020-06-23 北京声智科技有限公司 语音唤醒模板的获取方法、装置、电子设备及计算机可读存储介质
CN111429901A (zh) * 2020-03-16 2020-07-17 云知声智能科技股份有限公司 一种面向IoT芯片的多级语音智能唤醒方法及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112562742A (zh) * 2020-12-29 2021-03-26 苏州思必驰信息科技有限公司 语音处理方法和装置
CN112562742B (zh) * 2020-12-29 2022-10-21 思必驰科技股份有限公司 语音处理方法和装置
CN112863545A (zh) * 2021-01-13 2021-05-28 北京字节跳动网络技术有限公司 性能测试方法、装置、电子设备及计算机可读存储介质
CN112863545B (zh) * 2021-01-13 2023-10-03 抖音视界有限公司 性能测试方法、装置、电子设备及计算机可读存储介质
CN113160802A (zh) * 2021-03-12 2021-07-23 北京声智科技有限公司 语音处理方法、装置、设备及存储介质
CN113160802B (zh) * 2021-03-12 2023-09-26 北京声智科技有限公司 语音处理方法、装置、设备及存储介质
CN115827075A (zh) * 2022-11-21 2023-03-21 小米汽车科技有限公司 设备控制方法、装置、设备及存储介质
CN115827075B (zh) * 2022-11-21 2024-02-23 小米汽车科技有限公司 设备控制方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108510987B (zh) 语音处理方法及装置
CN112002320A (zh) 语音唤醒方法、装置、电子设备和存储介质
JP7166294B2 (ja) オーディオ処理方法、装置及び記憶媒体
CN109599104B (zh) 多波束选取方法及装置
CN111968635B (zh) 语音识别的方法、装置及存储介质
CN111063354B (zh) 人机交互方法及装置
JP7453443B2 (ja) ホットワード認識および受動的支援
CN108806714B (zh) 调节音量的方法和装置
CN112185388B (zh) 语音识别方法、装置、设备及计算机可读存储介质
US10885298B2 (en) Method and device for optical fingerprint recognition, and computer-readable storage medium
CN107437412B (zh) 一种声学模型处理方法、语音合成方法、装置及相关设备
US20230206937A1 (en) Speech processing method and apparatus and apparatus for speech processing
CN111862972A (zh) 语音交互服务方法、装置、设备及存储介质
CN111259675B (zh) 基于神经网络计算的方法和装置
CN110428828B (zh) 一种语音识别方法、装置和用于语音识别的装置
CN113491097A (zh) 语音播报的控制方法、装置、存储介质及电子设备
CN113077807B (zh) 一种语音数据的处理方法、装置及电子设备
CN110047494B (zh) 设备响应方法、设备及存储介质
CN116030804A (zh) 一种语音唤醒方法、语音唤醒装置及存储介质
CN107124505B (zh) 录制方法及装置
CN115691479A (zh) 语音检测方法、装置、电子设备及存储介质
CN114255762A (zh) 一种语音识别方法、装置及电子设备
CN115495039A (zh) 音频播放设备、控制方法、装置、电子设备及存储介质
CN116935843A (zh) 语音控制方法、装置和远场语音设备
CN113138674A (zh) 一种输入的方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination