CN107591151B - 远场语音唤醒方法、装置和终端设备 - Google Patents

远场语音唤醒方法、装置和终端设备 Download PDF

Info

Publication number
CN107591151B
CN107591151B CN201710725764.0A CN201710725764A CN107591151B CN 107591151 B CN107591151 B CN 107591151B CN 201710725764 A CN201710725764 A CN 201710725764A CN 107591151 B CN107591151 B CN 107591151B
Authority
CN
China
Prior art keywords
wake
audio signal
engine
voice
microphone array
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710725764.0A
Other languages
English (en)
Other versions
CN107591151A (zh
Inventor
耿雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710725764.0A priority Critical patent/CN107591151B/zh
Publication of CN107591151A publication Critical patent/CN107591151A/zh
Priority to US16/031,751 priority patent/US20190066671A1/en
Application granted granted Critical
Publication of CN107591151B publication Critical patent/CN107591151B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Abstract

本申请提出一种远场语音唤醒方法、装置和终端设备,其中,上述远场语音唤醒方法包括:在远场语音唤醒状态下,对麦克风阵列获取的音频信号进行侦测;当在所述音频信号中侦测到唤醒词时,将所述麦克风阵列获取的音频信号发送给在线语音唤醒引擎;接收所述在线语音唤醒引擎发送的确认信息,所述确认信息是所述在线语音唤醒引擎在所述音频信号中识别到所述唤醒词之后发送的;开启语音助手进行语音识别。本申请实现了基于离线和在线结合的方式来进行远场语音唤醒的应用,以减少远场语音唤醒的误识别,提高用户体验。

Description

远场语音唤醒方法、装置和终端设备
技术领域
本申请涉及语音唤醒技术领域,尤其涉及一种远场语音唤醒方法、装置和终端设备。
背景技术
在现有的远场语音唤醒技术中,采用麦克风阵列拾取说话人的声音,经过回声消除算法后,输入到硬件终端离线语音唤醒引擎,当识别到唤醒词后开始进行远场语音识别。
但是,现有方案中,麦克风阵列信号经过回声消除降噪等算法后进行离线语音唤醒,受限于硬件终端的运算能力及存储容量,离线识别的声学模型相对简单,因而语音唤醒性能也随之降低,从而使远场语音唤醒在噪声环境,尤其是有人声噪声的环境里会导致误唤醒率升高,进而影响了用户体验。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种远场语音唤醒方法,以实现基于离线和在线结合的方式来进行远场语音唤醒的应用,以减少远场语音唤醒的误识别,提高用户体验。
本申请的第二个目的在于提出一种远场语音唤醒装置。
本申请的第三个目的在于提出一种终端设备。
本申请的第四个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本申请第一方面实施例提出一种远场语音唤醒方法,包括:在远场语音唤醒状态下,对麦克风阵列获取的音频信号进行侦测;当在所述音频信号中侦测到唤醒词时,将所述麦克风阵列获取的音频信号发送给在线语音唤醒引擎;接收所述在线语音唤醒引擎发送的确认信息,所述确认信息是所述在线语音唤醒引擎在所述音频信号中识别到所述唤醒词之后发送的;开启语音助手进行语音识别。
本申请实施例的远场语音唤醒方法中,在远场语音唤醒状态下,对麦克风阵列获取的音频信号进行侦测,当在上述音频信号中侦测到唤醒词时,将上述麦克风阵列获取的音频信号发送给在线语音唤醒引擎,接收上述在线语音唤醒引擎发送的确认信息之后,开启语音助手进行语音识别,由于上述确认信息是在线语音唤醒引擎在上述音频信号中识别到上述唤醒词之后发送的,因此实现了在利用离线语音唤醒识别到唤醒词后再经过在线语音唤醒的二次确认,从而大大减少了误唤醒,提升了用户体验。
为达上述目的,本申请第二方面实施例提出了一种远场语音唤醒装置,包括:侦测模块,用于在远场语音唤醒状态下,对麦克风阵列获取的音频信号进行侦测;发送模块,用于当所述侦测模块在所述音频信号中侦测到唤醒词时,将所述麦克风阵列获取的音频信号发送给在线语音唤醒引擎;接收模块,用于接收所述在线语音唤醒引擎发送的确认信息,所述确认信息是所述在线语音唤醒引擎在所述音频信号中识别到所述唤醒词之后发送的;开启模块,用于开启语音助手进行语音识别。
本申请实施例的远场语音唤醒装置中,在远场语音唤醒状态下,侦测模块对麦克风阵列获取的音频信号进行侦测,当在上述音频信号中侦测到唤醒词时,发送模块将上述麦克风阵列获取的音频信号发送给在线语音唤醒引擎,接收模块接收上述在线语音唤醒引擎发送的确认信息之后,开启模块开启语音助手进行语音识别,由于上述确认信息是在线语音唤醒引擎在上述音频信号中识别到上述唤醒词之后发送的,因此实现了在利用离线语音唤醒识别到唤醒词后再经过在线语音唤醒的二次确认,从而大大减少了误唤醒,提升了用户体验。
为达上述目的,本申请第三方面实施例提出了一种终端设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上所述的方法。
为达上述目的,本申请第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请远场语音唤醒方法一个实施例的流程图;
图2为本申请远场语音唤醒方法另一个实施例的流程图;
图3为本申请远场语音唤醒方法再一个实施例的流程图;
图4为本申请远场语音唤醒装置一个实施例的结构示意图;
图5为本申请终端设备一个实施例的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
图1为本申请远场语音唤醒方法一个实施例的流程图,如图1所示,上述远场语音唤醒方法可以包括:
步骤101,在远场语音唤醒状态下,对麦克风阵列获取的音频信号进行侦测。
本实施例中,在远场语音唤醒状态下,离线语音唤醒引擎对麦克风阵列获取的音频信号进行侦测。
其中,上述远场语音唤醒状态即为上电之后,离线语音唤醒引擎开启的状态。
步骤102,当在上述音频信号中侦测到唤醒词时,将上述麦克风阵列获取的音频信号发送给在线语音唤醒引擎。
本实施例中,当在上述音频信号中侦测到唤醒词时,离线语音唤醒引擎将上述麦克风阵列获取的音频信号发送给在线语音唤醒引擎。
具体地,在接收到麦克风阵列获取的音频信号之后,离线语音唤醒引擎可以缓存上述麦克风阵列获取的音频信号,缓存上述麦克风阵列获取的音频信号的步骤可以与步骤101并行执行,也可以先后执行,本实施例对此不作限定。然后在上述音频信号中侦测到唤醒词之后,离线语音唤醒引擎可以将缓存的音频信号发送给在线语音唤醒引擎。
步骤103,接收在线语音唤醒引擎发送的确认信息,上述确认信息是上述在线语音唤醒引擎在上述音频信号中识别到上述唤醒词之后发送的。
由于在线语音识别(即云端语音识别)的运算能力很强,所以在线识别的声学模型比较复杂,性能更好,因此可以利用离线语音唤醒识别到唤醒词后再经过在线语音唤醒的二次确认,从而大大减少误唤醒,提升用户体验。
步骤104,开启语音助手进行语音识别。
图2为本申请远场语音唤醒方法另一个实施例的流程图,如图2所示,本申请图1所示实施例中,步骤102之后,还可以包括:
步骤201,接收上述在线语音唤醒引擎发送的错误信息,上述错误信息是在线语音唤醒引擎在上述音频信号中未识别到所述唤醒词之后发送的。
然后,返回执行步骤101。
本实施例中,如果在线语音唤醒引擎在上述音频信号中未识别到唤醒词,则上述在线语音唤醒引擎向离线语音唤醒引擎返回错误信息,接收到上述在线语音唤醒引擎发送的错误信息之后,离线语音唤醒引擎不会启动语音助手,而是返回执行步骤101,继续对上述麦克风阵列获取的音频信号进行侦测。
图3为本申请远场语音唤醒方法再一个实施例的流程图,如图3所示,本申请图1所示实施例中,步骤101可以包括:
步骤301,在远场语音唤醒状态下,对上述麦克风阵列拾取的音频信号进行回声消除和降噪处理。
步骤302,对处理后的音频信号进行侦测。
本实施例中,麦克风阵列拾取音频信号之后,需要先对上述麦克风阵列拾取的音频信号进行回声消除和降噪处理,例如采用回波抵消(Acoustic Echo Cancellation;以下简称:AEC)算法对上述麦克风阵列拾取的音频信号进行回声消除和降噪处理,然后离线语音唤醒引擎再对处理后的音频信号进行侦测。
上述远场语音唤醒方法中,在远场语音唤醒状态下,对麦克风阵列获取的音频信号进行侦测,当在上述音频信号中侦测到唤醒词时,将上述麦克风阵列获取的音频信号发送给在线语音唤醒引擎,接收上述在线语音唤醒引擎发送的确认信息之后,开启语音助手进行语音识别,由于上述确认信息是在线语音唤醒引擎在上述音频信号中识别到上述唤醒词之后发送的,因此实现了在利用离线语音唤醒识别到唤醒词后再经过在线语音唤醒的二次确认,从而大大减少了误唤醒,提升了用户体验。
图4为本申请远场语音唤醒装置一个实施例的结构示意图,本申请实施例中的远场语音唤醒装置可以作为离线语音唤醒引擎实现本申请实施例提供的远场语音唤醒方法。如图4所示,上述远场语音唤醒装置可以包括:侦测模块41、发送模块42、接收模块43和开启模块44;
其中,侦测模块41,用于在远场语音唤醒状态下,对麦克风阵列获取的音频信号进行侦测;本实施例中,在远场语音唤醒状态下,侦测模块41对麦克风阵列获取的音频信号进行侦测。
其中,上述远场语音唤醒状态即为上电之后,远场语音唤醒装置开启的状态。
发送模块42,用于当侦测模块41在上述音频信号中侦测到唤醒词时,将上述麦克风阵列获取的音频信号发送给在线语音唤醒引擎;本实施例中,当侦测模块41在上述音频信号中侦测到唤醒词时,发送模块42将上述麦克风阵列获取的音频信号发送给在线语音唤醒引擎。
具体地,在接收到麦克风阵列获取的音频信号之后,离线语音唤醒引擎可以缓存上述麦克风阵列获取的音频信号,缓存上述麦克风阵列获取的音频信号的步骤可以与侦测模块41对麦克风阵列获取的音频信号进行侦测的步骤并行执行,也可以先后执行,本实施例对此不作限定。然后在侦测模块41在上述音频信号中侦测到唤醒词之后,发送模块42可以将缓存的音频信号发送给在线语音唤醒引擎。
接收模块43,用于接收上述在线语音唤醒引擎发送的确认信息,上述确认信息是在线语音唤醒引擎在上述音频信号中识别到上述唤醒词之后发送的;由于在线语音识别(即云端语音识别)的运算能力很强,所以在线识别的声学模型比较复杂,性能更好,因此可以利用离线语音唤醒识别到唤醒词后再经过在线语音唤醒的二次确认,从而大大减少误唤醒,提升用户体验。
开启模块44,用于开启语音助手进行语音识别。
进一步地,接收模块43,还用于在发送模块42将上述麦克风阵列发送的音频信号发送给在线语音唤醒引擎之后,接收在线语音唤醒引擎发送的错误信息,上述错误信息是在线语音唤醒引擎在上述音频信号中未识别到上述唤醒词之后发送的。
本实施例中,如果在线语音唤醒引擎在上述音频信号中未识别到唤醒词,则上述在线语音唤醒引擎向离线语音唤醒引擎返回错误信息,接收模块43接收到上述在线语音唤醒引擎发送的错误信息之后,离线语音唤醒引擎不会启动语音助手,而是继续由侦测模块41继续对麦克风阵列获取的音频信号进行侦测。
本实施例中,侦测模块41,具体用于对上述麦克风阵列拾取的音频信号进行回声消除和降噪处理,对处理后的音频信号进行侦测。
本实施例中,麦克风阵列拾取音频信号之后,侦测模块41需要先对上述麦克风阵列拾取的音频信号进行回声消除和降噪处理,例如采用AEC算法对上述麦克风阵列拾取的音频信号进行回声消除和降噪处理,然后侦测模块41再对处理后的音频信号进行侦测。
上述远场语音唤醒装置中,在远场语音唤醒状态下,侦测模块41对麦克风阵列获取的音频信号进行侦测,当在上述音频信号中侦测到唤醒词时,发送模块42将上述麦克风阵列获取的音频信号发送给在线语音唤醒引擎,接收模块43接收上述在线语音唤醒引擎发送的确认信息之后,开启模块44开启语音助手进行语音识别,由于上述确认信息是在线语音唤醒引擎在上述音频信号中识别到上述唤醒词之后发送的,因此实现了在利用离线语音唤醒识别到唤醒词后再经过在线语音唤醒的二次确认,从而大大减少了误唤醒,提升了用户体验。
图5为本申请终端设备一个实施例的结构示意图,如图5所示,上述终端设备可以包括存储器、处理器及存储在上述存储器上并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程序时,可以实现本申请实施例提供的远场语音唤醒方法。
其中,上述终端设备可以为智能音箱、智能家居(例如:智能电视、智能洗衣机或者智能冰箱)或者智能汽车等,本实施例对上述终端设备的具体形态不作限定。
图5示出了适于用来实现本申请实施方式的示例性终端设备12的框图。图5显示的终端设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,终端设备12以通用计算设备的形式表现。终端设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
终端设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被终端设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。终端设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
终端设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该终端设备12交互的设备通信,和/或与使得该终端设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,终端设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器20通过总线18与终端设备12的其它模块通信。应当明白,尽管图5中未示出,可以结合终端设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本申请实施例提供的远场语音唤醒方法。
本申请还提供一种非临时性计算机可读存储介质,其上存储有计算机程序,上述计算机程序被处理器执行时实现本申请实施例提供的远场语音唤醒方法。
上述非临时性计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory;以下简称:ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory;以下简称:EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network;以下简称:LAN)或广域网(Wide Area Network;以下简称:WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(Random AccessMemory;以下简称:RAM),只读存储器(Read Only Memory;以下简称:ROM),可擦除可编辑只读存储器(Erasable Programmable Read Only Memory;以下简称:EPROM)或闪速存储器,光纤装置,以及便携式光盘只读存储器(Compact Disc Read Only Memory;以下简称:CD-ROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(ProgrammableGate Array;以下简称:PGA),现场可编程门阵列(Field Programmable Gate Array;以下简称:FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种远场语音唤醒方法,其特征在于,包括:
在远场语音唤醒状态下,采用离线语音唤醒引擎对麦克风阵列获取的音频信号进行侦测;
当在所述音频信号中侦测到唤醒词时,将所述麦克风阵列获取的音频信号发送给在线语音唤醒引擎;
接收所述在线语音唤醒引擎发送的确认信息,所述确认信息是所述在线语音唤醒引擎在所述音频信号中识别到所述唤醒词之后发送的;
开启语音助手进行语音识别。
2.根据权利要求1所述的方法,其特征在于,所述将所述麦克风阵列获取的音频信号发送给在线语音唤醒引擎之后,还包括:
接收所述在线语音唤醒引擎发送的错误信息,所述错误信息是所述在线语音唤醒引擎在所述音频信号中未识别到所述唤醒词之后发送的;
返回执行所述对麦克风阵列获取的音频信号进行侦测的步骤。
3.根据权利要求1或2所述的方法,其特征在于,所述对麦克风阵列获取的音频信号进行侦测包括:
对所述麦克风阵列拾取的音频信号进行回声消除和降噪处理;
对处理后的音频信号进行侦测。
4.一种远场语音唤醒装置,其特征在于,包括:
侦测模块,用于在远场语音唤醒状态下,采用离线语音唤醒引擎对麦克风阵列获取的音频信号进行侦测;
发送模块,用于当所述侦测模块在所述音频信号中侦测到唤醒词时,将所述麦克风阵列获取的音频信号发送给在线语音唤醒引擎;
接收模块,用于接收所述在线语音唤醒引擎发送的确认信息,所述确认信息是所述在线语音唤醒引擎在所述音频信号中识别到所述唤醒词之后发送的;
开启模块,用于开启语音助手进行语音识别。
5.根据权利要求4所述的装置,其特征在于,
所述接收模块,还用于在所述发送模块将所述麦克风阵列获取的音频信号发送给在线语音唤醒引擎之后,接收所述在线语音唤醒引擎发送的错误信息,所述错误信息是所述在线语音唤醒引擎在所述音频信号中未识别到所述唤醒词之后发送的。
6.根据权利要求4或5所述的装置,其特征在于,
所述侦测模块,具体用于对所述麦克风阵列拾取的音频信号进行回声消除和降噪处理,对处理后的音频信号进行侦测。
7.一种终端设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-3中任一所述的方法。
8.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-3中任一所述的方法。
CN201710725764.0A 2017-08-22 2017-08-22 远场语音唤醒方法、装置和终端设备 Active CN107591151B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710725764.0A CN107591151B (zh) 2017-08-22 2017-08-22 远场语音唤醒方法、装置和终端设备
US16/031,751 US20190066671A1 (en) 2017-08-22 2018-07-10 Far-field speech awaking method, device and terminal device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710725764.0A CN107591151B (zh) 2017-08-22 2017-08-22 远场语音唤醒方法、装置和终端设备

Publications (2)

Publication Number Publication Date
CN107591151A CN107591151A (zh) 2018-01-16
CN107591151B true CN107591151B (zh) 2021-03-16

Family

ID=61042455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710725764.0A Active CN107591151B (zh) 2017-08-22 2017-08-22 远场语音唤醒方法、装置和终端设备

Country Status (2)

Country Link
US (1) US20190066671A1 (zh)
CN (1) CN107591151B (zh)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134360A (zh) * 2018-02-09 2019-08-16 阿拉的(深圳)人工智能有限公司 智能语音播报方法、播报装置、存储介质及智能音箱
CN108538297B (zh) * 2018-03-12 2020-12-04 恒玄科技(上海)股份有限公司 一种基于无线麦克风阵列的智能语音交互方法及交互系统
CN108564947B (zh) * 2018-03-23 2021-01-05 北京小米移动软件有限公司 远场语音唤醒的方法、装置和存储介质
CN108538305A (zh) 2018-04-20 2018-09-14 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及计算机可读存储介质
CN108847231B (zh) * 2018-05-30 2021-02-02 出门问问信息科技有限公司 远场语音识别方法、装置及系统
CN108804010B (zh) * 2018-05-31 2021-07-30 北京小米移动软件有限公司 终端控制方法、装置及计算机可读存储介质
JP6633139B2 (ja) * 2018-06-15 2020-01-22 レノボ・シンガポール・プライベート・リミテッド 情報処理装置、プログラム及び情報処理方法
CN109065037B (zh) * 2018-07-10 2023-04-25 瑞芯微电子股份有限公司 一种基于语音交互的音频流控制方法
CN109218899A (zh) * 2018-08-29 2019-01-15 出门问问信息科技有限公司 一种语音交互场景的识别方法、装置及智能音箱
CN109448708A (zh) * 2018-10-15 2019-03-08 四川长虹电器股份有限公司 远场语音唤醒系统
CN109215656A (zh) * 2018-11-14 2019-01-15 珠海格力电器股份有限公司 语音遥控装置装置及方法、存储介质、电子装置
CN109461456B (zh) * 2018-12-03 2022-03-22 云知声智能科技股份有限公司 一种提升语音唤醒成功率的方法
CN111354341A (zh) * 2018-12-04 2020-06-30 阿里巴巴集团控股有限公司 语音唤醒方法及装置、处理器、音箱和电视机
CN109493861A (zh) * 2018-12-05 2019-03-19 百度在线网络技术(北京)有限公司 利用语音控制电器的方法、装置、设备和可读存储介质
CN109658935B (zh) * 2018-12-29 2021-02-26 苏州思必驰信息科技有限公司 多通道带噪语音的生成方法及系统
CN111784971B (zh) * 2019-04-04 2022-01-14 北京地平线机器人技术研发有限公司 报警处理方法和系统、计算机可读存储介质和电子设备
CN110223687B (zh) * 2019-06-03 2021-09-28 Oppo广东移动通信有限公司 指令执行方法、装置、存储介质及电子设备
CN110610699B (zh) * 2019-09-03 2023-03-24 北京达佳互联信息技术有限公司 语音信号处理方法、装置、终端、服务器及存储介质
CN110941455B (zh) * 2019-11-27 2024-02-20 北京声智科技有限公司 主动唤醒方法、装置及电子设备
EP3836582B1 (en) * 2019-12-09 2024-01-31 Google LLC Relay device for voice commands to be processed by a voice assistant, voice assistant and wireless network
CN111161714B (zh) * 2019-12-25 2023-07-21 联想(北京)有限公司 一种语音信息处理方法、电子设备及存储介质
CN111007943A (zh) * 2019-12-27 2020-04-14 北京明略软件系统有限公司 一种电子音箱的唤醒方法和电子音箱
CN111179931B (zh) * 2020-01-03 2023-07-21 青岛海尔科技有限公司 用于语音交互的方法、装置及家用电器
CN111402875A (zh) * 2020-03-06 2020-07-10 斑马网络技术有限公司 用于车机的语音测试用音频的合成方法、装置及电子设备
CN111968642A (zh) * 2020-08-27 2020-11-20 北京百度网讯科技有限公司 语音数据处理方法、装置及智能车辆
CN112185388B (zh) * 2020-09-14 2024-04-09 北京小米松果电子有限公司 语音识别方法、装置、设备及计算机可读存储介质
CN112259076B (zh) * 2020-10-12 2024-03-01 北京声智科技有限公司 语音交互方法、装置、电子设备及计算机可读存储介质
CN112599143A (zh) * 2020-11-30 2021-04-02 星络智能科技有限公司 降噪方法、语音采集设备及计算机可读存储介质
CN112634922A (zh) * 2020-11-30 2021-04-09 星络智能科技有限公司 语音信号处理方法、设备及计算机可读存储介质
CN112698872A (zh) * 2020-12-21 2021-04-23 北京百度网讯科技有限公司 语音数据处理的方法、装置、设备及存储介质
CN112929724B (zh) * 2020-12-31 2022-09-30 海信视像科技股份有限公司 显示设备、机顶盒及远场拾音唤醒控制方法
CN113129904B (zh) * 2021-03-30 2022-08-23 北京百度网讯科技有限公司 声纹判定方法、装置、系统、设备和存储介质
CN115223548B (zh) * 2021-06-29 2023-03-14 达闼机器人股份有限公司 语音交互方法、语音交互设备及存储介质
CN113707143A (zh) * 2021-08-20 2021-11-26 珠海格力电器股份有限公司 语音处理方法、装置、电子设备和存储介质
CN114143651A (zh) * 2021-11-26 2022-03-04 思必驰科技股份有限公司 用于骨传导耳机的语音唤醒方法和装置
CN114512136B (zh) * 2022-03-18 2023-09-26 北京百度网讯科技有限公司 模型训练、音频处理方法、装置、设备、存储介质及程序

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106796784A (zh) * 2014-08-19 2017-05-31 努恩斯通讯公司 用于语音验证的系统及方法
WO2017138934A1 (en) * 2016-02-10 2017-08-17 Nuance Communications, Inc. Techniques for spatially selective wake-up word recognition and related systems and methods

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080027731A1 (en) * 2004-04-12 2008-01-31 Burlington English Ltd. Comprehensive Spoken Language Learning System
US20140006825A1 (en) * 2012-06-30 2014-01-02 David Shenhav Systems and methods to wake up a device from a power conservation state
US20140122078A1 (en) * 2012-11-01 2014-05-01 3iLogic-Designs Private Limited Low Power Mechanism for Keyword Based Hands-Free Wake Up in Always ON-Domain
CN102999161B (zh) * 2012-11-13 2016-03-02 科大讯飞股份有限公司 一种语音唤醒模块的实现方法及应用
US9484022B2 (en) * 2014-05-23 2016-11-01 Google Inc. Training multiple neural networks with different accuracy
CN106448664A (zh) * 2016-10-28 2017-02-22 魏朝正 一种通过语音控制智能家居设备的系统及方法
EP3535751A4 (en) * 2016-11-10 2020-05-20 Nuance Communications, Inc. METHOD FOR LANGUAGE-INDEPENDENT WAY RECOGNITION
CN106653022B (zh) * 2016-12-29 2020-06-23 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法和装置
CN106782585B (zh) * 2017-01-26 2020-03-20 芋头科技(杭州)有限公司 一种基于麦克风阵列的拾音方法及系统
US10311876B2 (en) * 2017-02-14 2019-06-04 Google Llc Server side hotwording
US20180293974A1 (en) * 2017-04-10 2018-10-11 Intel IP Corporation Spoken language understanding based on buffered keyword spotting and speech recognition
US10475449B2 (en) * 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106796784A (zh) * 2014-08-19 2017-05-31 努恩斯通讯公司 用于语音验证的系统及方法
WO2017138934A1 (en) * 2016-02-10 2017-08-17 Nuance Communications, Inc. Techniques for spatially selective wake-up word recognition and related systems and methods

Also Published As

Publication number Publication date
CN107591151A (zh) 2018-01-16
US20190066671A1 (en) 2019-02-28

Similar Documents

Publication Publication Date Title
CN107591151B (zh) 远场语音唤醒方法、装置和终端设备
JP6683234B2 (ja) 音声データ処理方法、装置、設備及びプログラム
CN107527630B (zh) 语音端点检测方法、装置和计算机设备
US11074924B2 (en) Speech recognition method, device, apparatus and computer-readable storage medium
CN107622770B (zh) 语音唤醒方法及装置
CN107577449B (zh) 唤醒语音的拾取方法、装置、设备及存储介质
US9613626B2 (en) Audio device for recognizing key phrases and method thereof
JP6713035B2 (ja) ファーフィールド音声機能の実現方法、設備、システム、記憶媒体及びプログラム
JP2019185011A (ja) アプリケーションプログラムをウェイクアップする処理方法、装置及び記憶媒体
JP2019128939A (ja) ジェスチャーによる音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体
JP2019128938A (ja) 読話による音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体
CN107886944B (zh) 一种语音识别方法、装置、设备及存储介质
CN108681440A (zh) 一种智能设备音量控制方法及系统
CN108986833A (zh) 基于麦克风阵列的拾音方法、系统、电子设备及存储介质
CN109036396A (zh) 一种第三方应用的交互方法及系统
CN111343344B (zh) 语音异常检测方法、装置、存储介质及电子设备
CN109756818B (zh) 双麦克风降噪方法、装置、存储介质及电子设备
US20190043496A1 (en) Distributed speech processing
US10861462B2 (en) Dual pipeline architecture for wakeup phrase detection with speech onset detection
CN113053368A (zh) 语音增强方法、电子设备和存储介质
CN111402877A (zh) 基于车载多音区的降噪方法、装置、设备和介质
CN109358755B (zh) 用于移动终端的手势检测方法、装置和移动终端
CN110941455B (zh) 主动唤醒方法、装置及电子设备
WO2019187549A1 (ja) 情報処理装置および情報処理方法
CN111724805A (zh) 用于处理信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant