CN111145752B

CN111145752B - 智能音频装置、方法、电子设备及计算机可读介质

Info

Publication number: CN111145752B
Application number: CN202010007936.2A
Authority: CN
Inventors: 耿雷
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2020-01-03
Filing date: 2020-01-03
Publication date: 2022-08-02
Anticipated expiration: 2040-01-03
Also published as: KR20210087880A; JP2021110945A; CN111145752A; US20210210093A1; EP3846162A1

Abstract

本公开提供了一种智能音频装置，其包括：前置芯片，其内设置多种语音算法模块；主控芯片，与所述前置芯片信号连接，用于基于用户请求采用多线程方式调用前置芯片内的语音算法模块。该智能音频装置成本低、功耗低、使用寿命长，而且能提升用户体验。本公开还提供了一种音频装置调用方法、电子设备及计算机可读介质。

Description

智能音频装置、方法、电子设备及计算机可读介质

技术领域

本公开实施例涉及计算机技术领域，特别涉及智能音频装置、方法、电子设备及计算机可读介质。

背景技术

随着语音识别技术的发展，越来越多的智能硬件设备具备了语音交互功能，而语音交互的质量与前端音频信号的降噪处理密切相关。通用的降噪处理方式有两种，其一，通过前端音频数字信号处理芯片来降噪，如数字信号处理器(DSP)或专用集成电路(ASIC)；其二，在主控芯片上通过软件处理来降噪。这两种降噪处理方式均存在不同程度的缺陷。

发明内容

本公开实施例提供一种智能音频装置、方法、电子设备及计算机可读介质。

第一方面，本公开实施例提供一种智能音频装置，其包括：

前置芯片，其内设置多种语音算法模块；

主控芯片，与所述前置芯片信号连接，用于基于用户请求采用多线程方式调用前置芯片内的语音算法模块。

在一些实施例中，所述语音算法模块，包括：

语音唤醒算法模块，用于根据所述用户请求唤醒所述主控芯片；

前端信号处理模块，用于对前端信号进行降噪处理。

在一些实施例中，所述前端信号处理模块，包括：

语音识别前端信号处理模块，用于对前端语音信号进行降噪处理，获得语音识别引擎信号；

通讯前端信号处理模块，用于对前端通讯信号进行降噪处理，获得通讯应用信号。

在一些实施例中，所述主控芯片包括：

语音识别模块，用于对语音信号进行识别处理；

和/或，通讯应用模块，用于与其他通讯模块进行通信。

在一些实施例中，所述装置还包括：

通信接口，用于所述前置芯片与所述主控芯片的信号传输。

在一些实施例中，所述通信接口包括通用I/O接口、集成电路总线接口和串行外设接口中的至少一种。

在一些实施例中，所述装置还包括：

麦克风，与所述前置芯片信号连接，用于接收语音信息并将其传送至所述前置芯片。

在一些实施例中，所述前置芯片还包括：

回声消除模块，与所述语音算法模块信号连接，用于对接收的所述语音信息进行回声消除处理。

第二方面，本公开实施例提供一种音频装置调用方法，其包括：

依据用户请求采用多线程方式调用前置芯片内的不同语音算法。

在一些实施例中，所述依据用户请求采用多线程方式调用前置芯片内的不同语音算法，包括：

接收唤醒请求；其中，所述唤醒请求为所述用户请求；

响应所述唤醒请求进入工作模式；

发送调用所述前置芯片内的语音识别前端信号处理算法的指令，以使前置芯片切换至所述语音识别前端信号处理算法模式。

在一些实施例中，所述发送调用语音识别算法模块之后，包括：

接收通讯请求；其中，所述通讯请求为用户请求；

响应所述通讯请求发送调用所述前置芯片内的所述通讯前端信号处理算法。

在一些实施例中，在通讯结束后，还包括：

在一些实施例中，在无语音交互时，发送调用所述前置芯片内的语音唤醒算法的指令，以使所述前置芯片切换至语音唤醒算法模式。

第三方面，本公开实施例提供一种电子设备，其包括：

一个或多个处理器；

存储器，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器上述任意一种音频装置调用方法；

一个或多个I/O接口，连接在所述处理器与存储器之间，配置为实现所述处理器与存储器的信息交互。

第四方面，本公开实施例提供一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现上述任意一种音频装置调用方法。

本公开实施例提供的智能音频装置，在前置芯片内设置多种语音算法模块，主控芯片基于用户请求采用多线程方式调用前置芯片内的语音算法模块，因此，语音唤醒算法能够设置在前置芯片内，低运算量、低成本的主控芯片即可满足应用需求，从而降低主控芯片的成本，进而降低智能音频装置的总成本；而且，主控芯片可以根据需要调整运行频率，降低主控芯片的功耗，并延长使用寿命。另外，采用多线程方式调用前置芯片内的语音算法模块，提高智能音频装置的灵活性，满足用户的不同需求，从而提高了用户体验。

附图说明

附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开的实施例一起用于解释本公开，并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述，以上和其它特征和优点对本领域技术人员将变得更加显而易见，在附图中：

图1为本公开实施例的智能音频装置的结构示意图；

图2为本公开实施例的智能音频装置的结构示意图；

图3为本公开实施例提供的音频装置调用方法的流程图；

图4为本公开实施例提供的音频装置调用方法的流程图；

图5为本公开实施例提供的一种电子设备的组成框图。

具体实施方式

为使本领域的技术人员更好地理解本发明的技术方案，下面结合附图对本发明提供的智能音频装置、方法、电子设备及计算机可读介质进行详细描述。

在下文中将参考附图更充分地描述示例实施例，但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之，提供这些实施例的目的在于使本公开透彻和完整，并将使本领域技术人员充分理解本公开的范围。

在不冲突的情况下，本公开各实施例及实施例中的各特征可相互组合。

如本文所使用的，术语“和/或”包括一个或多个相关列举条目的任何和所有组合。

本文所使用的术语仅用于描述特定实施例，且不意欲限制本公开。如本文所使用的，单数形式“一个”和“该”也意欲包括复数形式，除非上下文另外清楚指出。还将理解的是，当本说明书中使用术语“包括”和/或“由……制成”时，指定存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组。

除非另外限定，否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本文明确如此限定。

本公开实施例是针对音频前置芯片采用单线程工作方式，即音频前置芯片上电后在一种模式下工作，无法根据后端的实际应用(如语音识别、通讯应用和语音唤醒等)调整工作方式，以优化工作频率，从而导致智能硬件设备整体功耗较高。另外，由于音频前置芯片是单线程工作，无法针对后端的通讯应用将语音唤醒算法调整，用户体验差。

第一方面，本公开实施例提供一种智能音频装置。图1为本公开实施例的智能音频装置的结构示意图。参阅图1，智能音频装置包括：

前置芯片10，其内设置多种语音算法模块；其中，每种语音算法模块对应一种语音算法模式。

主控芯片20，与前置芯片10信号连接，用于基于用户请求采用多线程方式调用前置芯片内的语音算法模块。

其中，用户请求包括但不限于语音唤醒请求、语音识别请求和通讯请求。

在一些实施例中，前置芯片10和主控芯片20通过通信接口30信号连接。其中，通信接口包括但不限于通用I/O接口、集成电路总线(Inter-Integrated Circuit，I2C)接口和串行外设接口(Serial Peripheral Interface，SPI)中的至少一种。在一些实施例中，前置芯片10和主控芯片20借助通信接口30可以实现控制信号、复位信号、唤醒终端信号、算法处理后的音频信号的传输。

在一些实施例中，智能音频装置上电后，前置芯片10处于语音唤醒模式，主控芯片20处于待机模式。

图2为本公开实施例的智能音频装置的结构示意图。如图2所示，前置芯片10内设置的语音算法模块包括语音唤醒算法模块11、语音识别前端信号处理模块12和通讯前端信号处理模块13，其中，语音唤醒算法模块11用于根据用户请求唤醒主控芯片20。例如，当主控芯片20处于待机模式时，语音唤醒算法模块11基于用户的唤醒请求唤醒主控芯片20，使主控芯片20进入工作模式。语音识别前端信号处理模块12，用于对前端语音信号进行降噪处理，并获得语音识别引擎信号。通讯前端信号处理模块13，用于对前端通讯信号进行降噪处理，并获得通讯应用信号。

前端信号处理模块12用于对前端信号进行降噪处理。其中，前端信号是前置芯片10接收到的信号。在一些实施例中，前端信号可以为前端语音信号、前端通讯信号等。前端信号处理模块12对前端信号降噪处理后，通过通信接口传送至主控芯片20。

主控芯片20包括语音识别模块21和通讯应用模块22，其中，语音识别模块21，用于对语音信号进行识别处理。语音识别模块21响应语音识别引擎信号开启，并对输入的语音信号进行识别处理。例如，语音识别模块21可以对字、词、短句或长句进行识别，以确定用户请求。通讯应用模块22，用于与其他通讯模块进行通信。通讯应用模块22响应通讯应用信号开启，并与其他通讯模块进行通信。其中，其他通讯模块可以为其他智能音频装置，也可以为手机、IPAD等具备通讯的模块。

需要说明的是，当主控芯片20的处理能力不足以满足用户需求时，主控芯片20还可以将语音信号发送至运算能力更强的云服务器，由云服务器进行语音信号的识别。

智能音频装置进一步还包括麦克风40，麦克风40与前置芯片10信号连接，用于接收语音信息，并将语音信息传送至前置芯片10。在一些实施例中，麦克风40采用麦克风阵列，即多个麦克风与前置芯片10连接。在一些实施例中，麦克风40与前置芯片10之间设置有模数转换50，用于将麦克风40获得的模拟信号转换为数字信号。

在一些实施例中，前置芯片10还包括语音活动检测(Voice Activity Detection，VAD)模块14和回声消除模块15。其中，语音活动检测模块14信号连接在模数转换50和语音唤醒算法模块11之间，用于从声音信号流里识别和消除长时间的静音期。回声消除模块15信号连接在模数转换50和前端信号处理模块之间，用于对接收的语音信息进行回声消除处理。

在一些实施例中，智能音频装置还包括功放模块60和扬声器70，功放模块60与主控芯片20信号连接，用于对主控芯片20输出的语音信号进行放大，并将放大后的语音信号输入值扬声器70。扬声器70用于播放放大的语音信号。

在一些实施例中，前置芯片10采集功放模块60的语音信号，该语音信号可以作为前置芯片10消除回声的参考信号。

第二方面，本公开实施例提供一种音频装置调用方法。本公开实施例音频装置调用方法依据用户请求采用多线程方式调用前置芯片内的语音算法模块。

图3为本公开实施例提供的音频装置调用方法的流程图。参照图3，音频装置调用方法包括：

301，接收唤醒请求。

在一些实施例中，智能音频装置上电之后，前端芯片处于语音唤醒模式，语音活动检测模块和语音唤醒算法模块能够获得唤醒信息。当前端芯片获得唤醒请求时，将该唤醒请求发送至主控芯片，如可以通过通用I/O接口向主控芯片发送唤醒请求。

302，响应唤醒请求进入工作模式。

在一些实施例中，智能音频装置上电之后，主控芯片处于待机模式。当主控芯片收到唤醒请求后，进入工作模式。

303，发送调用前置芯片内的语音识别前端信号处理算法的指令。

由于前置芯片是多线程运行方式，主控芯片进入工作模式后，可以向前置芯片发送调用语音识别前端信号处理算法的指令，以使前置芯片由语音唤醒算法模式切换至语音识别前端信号处理算法模式。语音识别前端信号处理算法可以对语音信号进行回声消除处理，回声消除后的语音信息发送至主控芯片的语音识别模块，由语音识别模块对语音信息进行识别。

在一些实施例中，主控芯片前置芯片通过I2C总线接口或SPI接口向前置芯片发送调用语音识别前端信号处理算法的指令。

图4为本公开实施例提供的音频装置调用方法的流程图。参照图4，音频装置调用方法包括：

401，接收唤醒请求。

402，响应唤醒请求进入工作模式。

403，发送调用前置芯片内的语音识别前端信号处理算法的指令。

需要说明的是，步骤401至步骤403与步骤301至步骤303相同，在此不再赘述。

404，接收通讯请求。

当主控芯片接收前置芯片传送的语音信息后，对语音信息进行识别，并可以进行语音交互。

405，响应通讯请求发送调用前置芯片内的通讯前端信号处理算法。

当主控芯片识别到语音命令为要求进行通讯的指令时，可以通过I2C总线接口或SPI接口向前置芯片发送调用通讯前端信号处理算法的指令。前置芯片接收到调用通讯前端信号处理算法的指令后，切换算法模式至通讯前端信号处理算法。

前置芯片通过通讯前端信号处理算法对语音信息进行回声消除处理，并将回声消除处理后的语音信息发送至主控芯片的通讯应用模块，通过通讯应用模块实现与其他通讯模块的通信。

在一些实施例中，音频装置调用方法还进一步包括：

406，发送调用前置芯片内的语音识别前端信号处理算法的指令，以使前置芯片切换至语音识别前端信号处理算法模式。

当通讯结束后，主控芯片向前置芯片再次通过I2C总线接口或SPI接口发送调用前置芯片内的语音识别前端信号处理算法的指令，以使前置芯片再次切换至语音识别前端信号处理算法模式，进行语音交互。

407，在无语音交互时，发送调用前置芯片内的语音唤醒算法的指令。

在一些实施例中，当预设时间段内无语音交互时，主控芯片通过I2C总线接口或SPI接口向前置芯片发送调用语音唤醒算法的指令，使前置芯片再次处于语音唤醒模式。同时，主控芯片切换至低功耗的待机模式。

本公开实施例提供的音频装置调用方法，主控芯片依据用户请求调用前置芯片内的不同语音算法，由于主控芯片是以多线程方式调用前置芯片内的语音算法，因此，语音唤醒算法能够设置在前置芯片内，低运算量、低成本的主控芯片即可满足应用需求，从而降低主控芯片的成本，进而降低智能音频装置的总成本；而且，主控芯片可以根据需要调整运行频率，降低主控芯片的功耗，并延长使用寿命。另外，采用多线程方式调用前置芯片内的语音算法模块，提高智能音频装置的灵活性，满足用户的不同需求，从而提高了用户体验。

第三方面，参照图5，本公开实施例提供一种电子设备，其包括：

一个或多个处理器501；

存储器502，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现上述任意一项的音频装置调用方法；

一个或多个I/O接口503，连接在处理器与存储器之间，配置为实现处理器与存储器的信息交互。

其中，处理器501为具有数据处理能力的器件，其包括但不限于中央处理器(CPU)等；存储器502为具有数据存储能力的器件，其包括但不限于随机存取存储器(RAM，更具体如SDRAM、DDR等)、只读存储器(ROM)、带电可擦可编程只读存储器(EEPROM)、闪存(FLASH)；I/O接口(读写接口)503连接在处理器501与存储器502间，能实现处理器501与存储器502的信息交互，其包括但不限于数据总线(Bus)等。

在一些实施例中，处理器501、存储器502和I/O接口503通过总线504相互连接，进而与计算设备800的其他组件连接。

第四方面，本公开实施例提供一种计算机可读介质，其上存储有计算机程序，程序被处理器执行时实现上述任意一种音频装置调用方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其它数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其它的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其它传输机制之类的调制数据信号中的其它数据，并且可包括任何信息递送介质。

本文已经公开了示例实施例，并且虽然采用了具体术语，但它们仅用于并仅应当被解释为一般说明性含义，并且不用于限制的目的。在一些实例中，对本领域技术人员显而易见的是，除非另外明确指出，否则可单独使用与特定实施例相结合描述的特征、特性和/或元素，或可与其它实施例相结合描述的特征、特性和/或元件组合使用。因此，本领域技术人员将理解，在不脱离由所附的权利要求阐明的本公开的范围的情况下，可进行各种形式和细节上的改变。

Claims

1.一种智能音频装置，其包括：

前置芯片，其内设置多种语音算法模块；其中，每种语音算法模块对应一种语音算法模式；

主控芯片，与所述前置芯片信号连接，用于基于用户请求采用多线程方式调用前置芯片内的语音算法模块；其中，所述用户请求包括：语音唤醒请求、语音识别请求和通讯请求；并且，所述语音算法模块包括：

2.根据权利要求1所述的装置，其中，所述主控芯片包括：

语音识别模块，用于对语音信号进行识别处理；

通讯应用模块，用于与其他通讯模块进行通信。

3.根据权利要求1所述的装置，其中，所述装置还包括：

通信接口，用于所述前置芯片与所述主控芯片的信号传输。

4.根据权利要求3所述的装置，其中，所述通信接口包括通用I/O接口、集成电路总线接口和串行外设接口中的至少一种。

5.根据权利要求1所述的装置，其中，所述装置还包括：

6.根据权利要求1-5任意一项所述的装置，其中，所述前置芯片还包括：

7.一种音频装置调用方法，其中，所述音频装置为权利要求1-6任一所述的智能音频装置；其包括：

依据用户请求采用多线程方式调用前置芯片内的不同语音算法；其中，所述用户请求包括：语音唤醒请求、语音识别请求和通讯请求。

8.根据权利要求7所述的方法，其中，所述依据用户请求采用多线程方式调用前置芯片内的不同语音算法，包括：

接收唤醒请求；其中，所述唤醒请求为所述用户请求；

响应所述唤醒请求进入工作模式；

9.根据权利要求8所述的方法，其中，所述发送调用语音识别算法模块之后，包括：

接收通讯请求；其中，所述通讯请求为用户请求；

10.根据权利要求9所述的方法，其中，在通讯结束后，还包括：

11.根据权利要求10所述的方法，其中，在无语音交互时，发送调用所述前置芯片内的语音唤醒算法的指令，以使所述前置芯片切换至语音唤醒算法模式。

12.一种电子设备，其包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据权利要求8-11任意一项所述的方法；

13.一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现根据权利要求8-11任意一项所述的方法。