CN112185426A

CN112185426A - 一种语音端点检测设备及方法

Info

Publication number: CN112185426A
Application number: CN202011056671.1A
Authority: CN
Inventors: 马跃; 潘淞; 杨青; 李金亭
Original assignee: Qingdao Xinxin Microelectronics Technology Co Ltd
Current assignee: Qingdao Xinxin Microelectronics Technology Co Ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-01-05
Anticipated expiration: 2040-09-30
Also published as: CN112185426B

Abstract

本发明公开了一种语音端点检测设备及方法，该设备包括：音频输入部件和语音端点检测部件：所述音频输入部件，被配置为采集音频数据，并发送至语音端点检测部件；所述语音端点检测部件，被配置为对接收的音频数据进行高通滤波，并根据得到的音频数据进行语音端点检测。本发明提供的方案，用以准确检测音频数据中的语音端点，提高语音端点检测的准确度，降低误检率。

Description

一种语音端点检测设备及方法

技术领域

本发明涉及音频处理领域，特别涉及一种语音端点检测设备及方法。

背景技术

随着人工智能的快速发展，智能设备的发展重心逐渐演变为如何使用户快速便捷的与智能设备进行交互。其中语音唤醒功能的实现极大的方便了用户与智能设备的交互。具备语音唤醒功能的智能设备能够在检测到用户发出相关语音时及时进行响应，完成与用户的交互。而在语音检测中，需要进行实时的语音端点检测，来确定用户发出的语音的起止点，从而对用户的语音进行采集。

目前智能设备采用的语音端点检测方法大多先通过数字麦克风采集音频数据，再根据采集的音频数据检测语音端点。但在系统初始化或改变数字麦克风采集音频信号的采样频率(或时钟频率)时，无论音频数据中实际是否存在语音端点，都会触发生成存在语音端点的检测结果。因此，现有的语音端点检测方法存在语音端点的误检问题，导致语音端点检测的准确度较低。

发明内容

本发明实施例提供了一种语音端点检测设备及方法，用以准确检测音频数据中的语音端点，提高语音端点检测的准确度，降低误检率。

根据本发明实施例的第一方面，提供一种语音端点检测设备，包括音频输入部件和语音端点检测部件：

所述音频输入部件，被配置为采集音频数据，并发送至语音端点检测部件；

所述语音端点检测部件，被配置为对接收的音频数据进行高通滤波，并根据得到的音频数据进行语音端点检测。

上述实施例中，语音端点检测设备通过对采集的音频数据进行高通滤波，能够滤除音频数据中可能存在的低频干扰数据，避免低频干扰数据对语音端点检测结果的影响，进而减少语音端点检测中的误检问题，提高语音端点检测的准确度。

在某些实施例中，所述语音端点检测部件还被配置为：

利用预设截止频率的无限长单位冲激响应滤波器，对所述音频数据进行高通滤波。

无限长单位冲激响应滤波器能够以较小的阶数实现较好的高通滤波效果，而阶数小时，滤波器的复杂度相应也小。因此，上述实施例中，能够在保证较好的滤波效果的同时，采用结构相对简单的滤波器对音频数据进行滤波，降低了数据处理的复杂程度。

在某些实施例中，所述语音端点检测设备还包括：直接存储器存取控制器；

所述直接存储器存取控制器被配置为通过直接存储器访问总线，与所述语音端点检测部件进行握手，并在握手成功后接收所述语音端点检测部件通过握手信号发送的音频数据；和/或

所述直接存储器存取控制器被配置为通过直接存储器访问总线，与所述音频输入部件进行握手，并在握手成功后接收所述音频输入部件通过握手信号发送的音频数据。

上述实施例中，直接存储器存取控制器在与语音端点检测部件或音频输入部件握手后，能通过握手信号接收音频数据，能够减少对CPU的占用，解决了音频数据传输过程中CPU占用率过高的问题，同时提高了多通路音频数据传输的稳定性。

在某些实施例中，所述语音端点检测部件还被配置为：

若确定所述音频数据的声音能量由低于预设阈值变为高于所述预设阈值，则将接收到的音频数据发送到所述直接存储器存取控制器，以使所述直接存储器存取控制器传输所述音频数据。

上述实施例中，语音端点检测部件能根据音频数据的声音能量判断是否检测到语音端点，实现实时检测音频数据中的语音端点，并在检测到语音端点时进行音频数据传输。

在某些实施例中，所述音频数据为多路音频数据中任一路音频数据，所述语音端点检测部件还被配置为：

若确定所述音频数据的声音能量由低于预设阈值变为高于所述预设阈值，则向所述音频输入部件发送时间同步信号，以使所述音频输入部件根据所述时间同步信号，同步采集并传输所述多路音频数据中其它各路音频数据。

上述实施例中，语音端点检测部件根据音频数据声音能量的变化，能够确定是否检测到语音端点，进而对音频输入部件进行音频信号采集的控制，能够保证采集到的多路音频数据为包含语音的有用数据，同时利用时间同步信号保证了从不同输入通路采集的多路音频数据的同步性。

在某些实施例中，所述音频输入部件还被配置为：

根据所述语音端点检测部件发送的时间同步信号，同步采集所述多路音频数据中其它各路音频数据，并与所述音频数据同步，将采集的所述其它各路音频数据发送到所述直接存储器存取控制器，以使所述直接存储器存取控制器传输所述音频数据。

上述实施例中，音频输入部件根据语音端点检测部件的控制，能够对包含语音的多路音频数据即有用数据进行采集，避免采集不必要的无用数据，因此，能降低一定的功耗，同时利用时间同步信号保证了从不同输入通路采集的多路音频数据的同步性。

在某些实施例中，所述语音端点检测部件还被配置为：

若确定进行设备初始化或更改采集音频数据的采样频率，则延迟对应的预设时间后，对接收的音频数据进行高通滤波。

语音端点检测设备进行设备初始化或更改采集音频数据的采样频率时，可能导致语音端点的误检问题。因此，上述实施例中，通过进行预设时间的延时，在初始化或采样频率变化过程中暂时中断语音端点检测，能够避免初始化或采样频率变化时触发检测到语音端点，消除上述误触发问题。

根据本发明实施例的第二方面，提供一种语音端点检测方法，应用于语音端点检测设备中，该方法包括：

所述语音端点检测设备采集音频数据；

所述语音端点检测设备对采集的音频数据进行高通滤波，并根据得到的音频数据进行语音端点检测。

在某些实施例中，所述语音端点检测设备对采集的音频数据进行高通滤波，包括：

所述语音端点检测设备利用预设截止频率的无限长单位冲激响应滤波器，对所述音频数据进行高通滤波。

所述语音端点检测设备若确定进行设备初始化或更改采集音频数据的采样频率，则延迟对应的预设时间后，对采集的音频数据进行高通滤波。

根据本发明实施例的第三方面，提供一种芯片，所述芯片与智能设备中的存储器耦合，使得所述芯片在运行时调用所述存储器中存储的程序指令，实现本申请实施例上述各个方面以及各个方面涉及的任一可能涉及的方法。

根据本发明实施例的第四方面，提供一种计算机可读存储介质，该计算机存储介质存储有程序指令，当其在计算机上运行时，使得计算机执行本发明实施例上述各个方面以及各个方面涉及的任一可能涉及的方法。

根据本发明实施例的第五方面，提供一种计算机程序产品，当所述计算机程序产品在电子设备上运行时，使得所述电子设备执行实现本申请实施例上述各个方面以及各个方面涉及的任一可能涉及的方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例中提供的一种语音端点检测设备的架构示意图；

图2为本发明实施例中提供的一种语音端点检测设备的架构示意图；

图3为本发明实施例中提供的一种安静环境下语音端点检测设备初始化时检测到的音频信号示意图；

图4为本发明实施例中提供的一种安静环境下语音端点检测设备切换时钟时检测到的音频信号示意图；

图5为本发明实施例中提供的一种数字麦克产生的直流分量信号的频谱示意图；

图6为本发明实施例中提供的一种有限长单位冲激响应滤波器的频率响应示意图；

图7为本发明实施例中提供的一种无限长单位冲激响应滤波器的频率响应示意图；

图8为本发明实施例中提供的一种数字麦克产生的直流分量信号附加正弦波音频信号后的音频数据示意图；

图9为本发明实施例中提供的一种音频数据滤波后的示意图；

图10为本发明实施例中提供的一种音频数据滤波后的示意图；

图11为本发明实施例中提供的一种无限长单位冲激响应滤波器的结构示意图；

图12为本发明实施例中提供的一种语音端点检测方法的示意图；

图13为本发明实施例中提供的一种语音端点检测方法的流程示意图；

图14为本发明实施例中提供的一种语音端点检测设备的结构示意图。

具体实施方式

下面将结合附图，对本发明实施例提供的一种语音端点检测设备及方法的具体实施方式进行详细地说明。需要说明的是，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；文本中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

为了方便理解，下面对本发明实施例中涉及的名词进行解释：

1)SoC(System on Chip，系统级芯片)：也称片上系统，SoC是一个有专用目标的集成电路，其中包含完整系统并有嵌入软件的全部内容，是信息系统核心的芯片集成，能够将系统关键部件集成在一块芯片上，实现从确定系统功能开始，到软/硬件划分，并完成设计的整个过程。

2)语音端点检测(Voice Activity Detection，VAD)：也叫语音活动检测，是对音频数据中语音和非语音的区域进行区分，就是从音频数据中鉴别语音的出现和结束，准确的定位出语音的开始点和结束点，进而根据定位的语音端点，去掉静音和噪声等无关数据，找到一段语音真正有效的内容。

本发明实施例提出一种语音端点检测设备及方法，用以检测音频数据中的语音端点，从而提高语音端点检测的准确度，降低误检率。

本发明实施例中，语音端点检测设备为能够执行本发明实施例提供的语音端点检测方法的智能设备，例如手机、平板电脑等智能终端设备或者智能音箱等智能家居设备等；或者，语音端点检测设备为集成系统装置，例如片上系统SoC等，智能设备可利用该语音端点检测设备进行语音端点检测。

图1为本发明实施例提供的一种语音端点检测设备的架构示意图，如图所示，该语音端点检测设备包括音频输入部件101和语音端点检测部件102：

所述音频输入部件101，被配置为采集音频数据，并发送至语音端点检测部件。

所述语音端点检测部件(Voice Activity Detect，VAD)102，被配置为对接收的音频数据进行高通滤波，并根据得到的音频数据进行语音端点检测。

本发明一些实施例中，语音端点检测设备还包括直接存储器存取控制器(DirectMemory Access Controller，DMAC)103，用于对音频部件采集的音频数据或者语音端点检测部件发送的数据进行传输，以用于后续的语音识别等处理。

本发明一些实施例中，语音端点检测设备还包括电源管理部件(Power ManageUnit，PMU)104、语音通路(Audio Path)105、中央处理器(Central Processing Unit，CPU)106、自然处理器(Natural Processing Unit，NPU)107等其它外设部件。其中，电源管理部件PMU用于控制语音端点检测设备中各部件的工作模式与待机模式的切换，从而实现低功耗控制；语音通路用于对音频模块采集的音频数据进行传输；中央处理器CPU和自然处理器NPU用于对音频输入部件、语音端点检测部件与直接存储器存取控制器DMAC的数据交互进行控制。

音频输入部件包括至少一个数字麦克风(Digital Microphone，DMIC)，用于监听及采集输入的音频数据，并转换为数字音频数据。例如，如图1中所示，多通路音频输入场景中，音频输入部件包括两个DMIC，其中每个DMIC可以分为左右声道输入，因此，两个DMIC采集的音频数据为四通路音频数据。

本发明一些实施例中，作为一种可选的实施方式，上述语音通路可以集成到音频输入部件，即，音频输入部件包括至少一个DMIC和语音通路，其中，DMIC用于采集音频数据，语音通路用于传输采集到的语音数据。

本申请实施例中，音频采集模块采集音频数据后，将采集的其中一路音频数据发送到语音端点检测部件，语音端点检测部件根据接收的音频数据进行语音端点检测，并在检测到语音端点时，通过外围总线(Advanced Peripheral Bus，APB将音频数据发送到DMAC，同时，音频输入部件将采集的其它各路音频数据，通过语音通路和外围总线发送到DMAC。DMAC接收到音频数据后，将该音频数据传输到对应的存储器进行存储，或者将该音频数据传输到其它相关处理部件进行后续处理。其中，DMAC根据CPU的控制，接收并传输语音端点检测部件和音频输入部件发送的音频数据。

本发明实施例中，语音端点包括语音起始点。语音端点检测部件根据音频数据的声音能量(音频能量)来检测语音端点，当确定音频数据的声音能量由低于预设阈值变为高于该预设阈值时，则确定检测到语音起始点，并将接收到的音频数据发送到DMAC，由DMAC继续传输所述音频数据。

本发明一些实施例中，作为一种可选的实施方式，语音端点检测部件确定检测到语音起始点后，实时将接收到的音频数据发送到DMAC。

作为另一种可选的实施方式，语音端点检测部件确定检测到语音起始点后，按照设定的数据量向DMAC发送接收到的音频数据。具体的，语音端点检测部件暂存接收到的音频数据，在每次确定接收到的音频数据的数据量积累到超过设定阈值时，将积累的音频数据发送到DMAC。

本申请一些实施例中，语音端点检测部件处于设备的AON(Always on，始终开启)电源域部分中，CPU、DMAC、语音通路处于可唤醒电源域中。因此，语音端点检测部件始终处于工作模式，CPU、DMAC、语音通路等未被唤醒时处于关闭状态，以降低功耗，被唤醒后切换为工作模式，进行音频数据的传输处理。

具体的，语音端点检测部件实时对音频输入部件发送的单通路音频数据或者多通路音频数据的其中一路音频数据进行语音端点检测，其中，语音端点检测部件在未检测到语音端点时，处于低功耗工作模式，采用较小的输出采样频率、滤波器采样倍率工作，并控制音频输入部件在对应的较小时钟频率下采集音频数据，并且音频输入部件仅将采集的其中一路音频数据发送到语音端点检测部件，因此语音端点检测部件和音频输入部件的功耗都相对较小。语音端点检测部件检测到语音起始端点时，向电源管理部件PMU发送唤醒信号，由PMU唤醒可唤醒电源域中其它相关部件如CPU、DMAC、语音通路等，以使其它相关部件转为工作模式(正常功耗模式)，配合语音端点检测部件和音频输入部件进行音频数据的传输；并且，语音端点检测部件转换为正常工作模式，采用满足正常情况下需求的较大的采样频率、滤波器采样倍率工作，并控制音频输入部件在对应的较大时钟频率下采集音频数据，并且音频输入部件将采集的其中一路音频数据发送到语音端点检测部件，将采集的其它各路音频数据发送到语音通路，从而通过语音通路传输音频数据。后续语音端点检测部件确定停止向DMAC发送音频数据时，例如其它部件在一段预设时间内未检测到语音信息时，则语音端点检测部件可以再通过PMU关闭可唤醒电源域中其它相关部件，并转换为低功耗工作模式，重新采用较小的输出采样频率、滤波器采样倍率工作，并控制音频输入部件在较小的时钟频率下采集音频数据，从而节省功耗。

本发明一些实施例中，可唤醒电源域中其它相关部件被唤醒后可以采用晶振提供工作时钟。语音检测模块则可以采用RC电路来提供工作时钟，从而进一步减小语音端点检测模块的功耗。

上述实施例中，语音端点检测部件未检测到语音端点的低功耗工作模式下的功耗远低于正常工作模式，且设备处于低功耗工作模式的时间远超处于正常工作状态的时间，因此减少了大量的功耗。

下面结合多通路音频数据传输场景，对本发明实施例提供的语音端点检测设备进行说明。

图2为本发明实施例提供的一种语音端点检测设备的架构示意图。如图所示，图1中所示的语音通路105分为语音输入模块(Audio RX)和语音输出模块(Audio TX)，本申请实施例中音频输入部件主要利用语音通路的语音输入模块对采集的音频数据进行传输。语音端点检测部件102包括脉冲密度调制器(Pulse Density Modulation，PDM)、数据处理模块、集成电路内置高频总线(Inter-IC Sound，I2S)、静态随机存取存储器SRAM等。其中，语音端点检测部件能接收PDM信号或I2S信号输入。SRAM用于存储语音端点检测部件进行语音端点检测过程中的相关数据，例如，存储音频输入部件发送的音频数据等。

语音端点检测部件在检测语音端点的基础上也负责语音信号传输，即，语音端点检测部件在根据音频输入部件发送的其中一路音频数据进行语音端点检测，并在检测到语音起始点后，还用于将该路音频数据发送到DMAC。

本申请一些实施例中，通过语音端点检测部件对多通路音频数据输入的同步性进行控制。具体的，语音端点检测部件检测到语音起始端点并唤醒其它相关部件后，向音频输入部件及其它相关部件发送时间同步信号，控制音频输入部件根据该时间同步信号，同步采集多通路音频数据中其它各路音频数据，并控制其它相关部件根据该时间同步信号，与语音端点检测部件同步传输采集的多通路音频数据，例如，语音端点检测部件将该时间同步信号发送到语音通路后，语音通路能够根据该时间同步信号，完成与语音端点检测部件的时间同步，从而保证向DMAC发送的音频数据与语音端点检测模块向DMAC发送的音频数据保持时间同步。

本申请一些实施例中，DMAC接收语音端点检测部件发送的音频数据时，利用APB传输数据的功能，将APB作为直接存储器访问总线(DMA BUS)，与语音端点检测部件进行握手，并在握手成功后接收语音端点检测部件通过握手信号发送的音频数据。DMAC接收音频输入部件发送的音频数据时，也可以将外围总线APB作为直接存储器访问总线，与音频输入部件进行握手，并在握手成功后接收语音端点检测部件通过握手信号发送的音频数据。

握手是数据通信中信息或数据传输开始之前，在收发两端之间建立通信的过程，握手建立后通过握手信号进行信息传输。上述DMAC通过与语音端点检测部件或音频输入部件握手，通过握手信号收发音频数据，因此，无需CPU对DMAC进行控制，避免了对CPU的占用，提高了多路传输的稳定性。

本申请一些实施例中，当设备上电初始化后，语音端点检测部件启动，进入低功耗工作模式，并控制音频输入部件以低采样频率采集音频数据，并且语音端点检测部件实时地对输入的PDM数据进行检测，确定检测到语音起始点时，唤醒其它相关部件，语音端点检测部件与其它的多路音频输入由低功耗工作模式转换为采用较高时钟频率的正常工作模式，并开启语音端点检测部件和其它多路输入通道的音频数据传输。语音端点检测部件的数据处理模块生成一个同步信号控制其它的多通路输入，实现所有输入通路为同步输入。

音频输入部件和语音端点检测部件通过与DMAC的握手(Handshake)进行通信，利用握手信号，通过直接存储器访问总线(DMA BUS)实现多路、稳定地通过DMAC传输数据。因此，能够实现多通路音频数据同步输入，同时多个语音通路与DMAC握手，可以不通过CPU而直接进行数据的搬运，即CPU不再耗费大量的时间进行传输数据的控制操作，从而方便CPU进行其它的操作。

上述方案中，音频输入部件和语音端点检测部件进行音频数据采集及语音端点检测过程中，当语音端点检测部件进行初始化或者切换时钟频率(采样频率)时，会触发语音端点检测模块检测到语音端点，但该过程实际为语音端点检测的误触发。因此，本申请实施例中，在配置语音端点检测部件的初始化参数或时钟切换和开启语音端点检测模式之间设置延时来消除误触发问题。即，确定进行初始化或时钟切换时，语音端点检测部件设置为在预设时间内不进行语音端点检测，在预设时间之后再启动语音端点检测，其中，预设时间根据完成初始化或时钟切换所需的时间设置。

上述方式对应的中断语音端点检测的时间较长，可能会对语音端点检测的准确性造成影响。鉴于此，本申请实施例中对安静环境下产生触发异常语音端点检测的数据进行数据输出分析。如图3所示，为安静环境下语音端点检测部件进行初始化时检测到的音频信号(数据)示意图。如图所示，数据初始化时语音端点检测部件接收到一段振幅值由高到低的数据，该段数据产生后振幅逐渐消减，且此段数据的音频能量值会超过语音端点检测的预设阈值，因此造成了语音端点检测误触发的现象。

此外，如图4所示，为安静环境下语音端点检测部件进行时钟切换时检测到的音频信号(数据)示意图。如图所示，语音端点检测部件由低功耗工作模式下较小的时钟频率切换至正常工作模式下较大的时钟频率时会造成一定的数值偏移，影响语音端点检测的准确度。

基于上述问题，本发明实施中通过对相关部件进行硬件测试后，发现语音端点检测部件检测到的如上述图3或图4所示的异常数据，是由音频输入部件中采集音频数据的数字麦克产生的直流分量信号造成的。在初始化过程中，数字麦克的时钟从无到有的接入等过程会引起数字麦克内部充放电，导致数字麦克的输入产生一定的偏移，造成上述的语音端点误触发问题。而低功耗工作模式与正常工作模式的时钟频率不同，数字麦克收到语音端点检测部件发送的时钟频率，会随语音端点检测部件在低功耗工作模式与正常工作模式间的时钟频率的切换而改变，这也会引起数字麦克内部的充放电，进而使数字麦克采集到的音频数据有一定程度的偏移，影响语音端点的检测结果。

对上述数字麦克产生的直流分量信号进行快速傅里叶变换(Fast FourierTransform，FFT)后得到的频谱图如图5所示，分析图中数据能够确定该直流分量为频率不足1Hz的信号。因此，本申请实施例中语音端点检测部件通过对接收的音频数据进行高通滤波，来滤除数字麦克产生的直流分量信号，就能保证音频数据的准确性，进而进行准确的语音端点检测。其中，对音频数据进行高通滤波的截止频率高于1Hz。

鉴于目前人类低音的基音频率最低为55Hz，在55Hz以上的频率能够覆盖人类正常说话的声音频率，因此，本申请实施例中对音频数据进行高通滤波的截止频率需高于1Hz，且低于55Hz。

本申请一些实施例中，为了排除其它低频声音的干扰，语音端点检测模块采用截止频率为55Hz的高通滤波器对音频数据进行滤波。

本申请一些实施例中，根据阶数和滤波效果选择对音频数据进行高通滤波采用的高通滤波器，保证在满足滤波效果的需求的同时，选择阶数较小的滤波器，从而降低数据处理的复杂度。

作为一种可选的实施方式，语音端点检测部件可以采用有限长单位冲激响应滤波器(Finite Impulse Response，FIR)或无限长单位冲激响应滤波器(Infinite ImpulseResponse，IIR)对音频数据进行高通滤波处理。

如图6和图7所示，分别为FIR滤波器与IIR滤波器达到相同频率响应的示意图，对比如图6与图7的数据，能够确定为达到相同的频率响应，FIR滤波器所需的阶数为799，IIR滤波器所需的阶数仅为2，即FIR滤波器所需的阶数远大于IIR滤波器，具体实现时比较复杂。因此，本申请实施例中可以选择IIR滤波器对音频数据进行高通滤波。

本申请实施例中，IIR滤波器的具体参数可根据实际需求设置，例如可以设置为采样频率16KHz，截止频率55Hz，阶数为2。

本申请一些实施例中，为保证音频数据的有效频率不受到滤波的影响，对图3所示的初始化过程中数字麦克产生的直流分量信号附加55Hz的正弦波音频信号，得到图8所示的数据，图中的数据带有偏移量，即因为数字麦克校准不足导致数据偏离0值。采用基于上述参数设置的IIR滤波器对如图8所示的数据进行滤波处理后得到的数据如图9所示，基本为正弦波音频信号，因此能够确定经过滤波后的数据因为初始化过程中时钟接入导致数字麦克产生的直流分量信号及其导致的数值偏移也被优化，图中的数据不再偏离0值，同时正弦音频信号没有受到影响。

采用基于上述参数设置的IIR滤波器对如图4所示的时钟切换过程中数字麦克产生的直流分量信号进行滤波处理后得到的信号如图10所示，对比图4的原始数据可知，图中经过滤波后的数据受到直流分量影响的时间大大减少。因此，对音频数据进行高通滤波可以在优化掉直流分量的情况下，不影响音频数据的采集，降低了工作模式切换时的时钟频率切换对音频数据采集的影响。

本发明一些实施例中，语音端点检测部件采用的IIR高通滤波器的结构如图11所示，IIR采用3级流水线设计，第一级为零点与极点移位寄存器与系数的乘法运算，第二级为零点与极点的累加运算，第三极为零点累加结果与极点累加结果的减法运算。对应的差分方程如下：

Y(n)＝[B(n)×X(n)+…+B(1)×X(1)+B(0)×X(0)]-[A(n)×Y(0)+…+A(1)×Y(n-1)]

其中，X(0)为滤波器输入数据对应的序列，X(1)为X(0)进行一次延时处理后的序列，以此类推，X(n)为X(0)进行n次延时处理后的序列，n为预设正整数；B(n)为X(n)对应的头参数，Y(n)为滤波器输出数据对应的序列。

通过上述方式对音频数据进行高通滤波后再进行语音端点检测，能够尽可能降低初始化或时钟切换时所需的延时时间，保证语音端点检测的连续性和准确性。语音端点检测部件对音频数据进行高通滤波后进行语音端点检测所需的延时时间与直接对音频数据进行语音端点检测所需的延时时间对比如下表1所示：

表1不同语音端点检测方式初始化或时钟切换所需时延对比

需要延时的时间	初始化	时钟切换
			不采用高通滤波方式	2s	800ms
采用高通滤波方式	15ms	3ms

根据表1可得，采用高通滤波方式时，初始化过程所需延时的时间为不采用高通滤波方式的0.75％，时钟切换过程所需延时的时间为不采用高通滤波方式的0.375％。因此，采用高通滤波方式的语音端点检测方法所需延时的时间大大缩减，实际实施时，基本能够避免数字麦克的直流分量问题所产生的影响。

本申请实施例中，语音端点检测部件可以在语音端点检测的全过程中，对所有输入的音频数据进行高通滤波后，再检测语音端点；或者，可以在确定进行初始化或时钟频率切换时，开始对输入的音频数据进行高通滤波后，再检测语音端点，在初始化或时钟频率切换完成后，不再采用高通滤波方式，直接根据输入的音频数据检测语音端点。

本发明实施例提供一种语音端点检测方法，应用于语音端点检测设备。如图12所示，该方法包括：

步骤S1201，语音端点检测设备采集音频数据；

步骤S1202，所述语音端点检测设备对采集的音频数据进行高通滤波，并根据得到的音频数据进行语音端点检测。

本发明一些实施例中，所述语音端点检测设备利用预设截止频率的无限长单位冲激响应滤波器，对所述音频数据进行高通滤波。

本发明一些实施例中，所述语音端点检测设备若确定进行设备初始化或更改采集音频数据的采样频率，则延迟对应的预设时间后，对采集的音频数据进行高通滤波，其中，设备初始化或更改采集音频数据的采样频率分别对应不同的预设时间。

本发明一些实施例中，所述语音端点包括语音起始点，所述语音端点检测设备若确定所述音频数据的声音能量由低于预设阈值变为高于所述预设阈值，则确定检测到语音起始点。

本发明一些实施例中，音频输入部件发送至语音端点检测部件的音频数据为多路音频数据中任一路音频数据或者为所述多路音频数据中至少一路音频数据。音频输入部件采集多路音频数据时，始终将其中任一路或至少一路音频数据发送到语音端点检测部件，以使语音端点检测部件根据所述音频数据检测语音端点。

所述语音端点检测设备若确定所述音频数据的声音能量由低于预设阈值变为高于所述预设阈值，则同步采集并传输所述多路音频数据中各路音频数据。

由于本发明实施例中上述语音端点检测方法的原理与本发明实施例的语音端点检测设备的配置原理相同，因此该语音端点检测方法的具体实施可以参见语音端点检测设备的实施例，重复之处不再赘述。

参照图13，为本发明实施例提供的一种语音端点检测方法的完整流程示意图。以多通路语音输入为例，如图所示，该方法流程包括：

步骤S1301，音频输入部件根据语音端点检测部件发送的低时钟频率，实时采集至少一个输入通路输入的音频数据，并发送到语音端点检测部件；

其中，低时钟频率为低于语音端点检测部件正常工作模式下所需的时钟频率的时钟频率值。

步骤S1302，语音端点检测部件以低时钟频率工作，接收音频输入部件发送的音频数据，并采用IIR滤波器对所述音频数据进行滤波处理；

步骤S1303，语音端点检测部件检测到语音起始点时，切换到以高时钟频率工作，并向PMU发送唤醒信号，向音频输入部件和语音通路发送时间同步信号；

其中，高时钟频率为语音端点检测部件正常工作模式下所需的时钟频率。

步骤S1304，PMU接收到唤醒信号后，控制音频输入部件其余输入通路和语音通路启动；

步骤S1305，音频输入部件和语音通路接收时间同步信号，音频输入部件采集其余各通路音频数据，并发送到语音通路；

步骤S1306，语音端点检测部件和语音通路分别与DMAC握手后，通过握手信号，同步将自身的各通路音频数据发送到DMAC；

步骤S1307，DMAC将接收到音频数据发送到对应的存储器进行存储；

步骤S1308，CPU确定停止DMAC接收音频数据时，控制PMU关闭音频输入部件其余输入通路和语音通路，同时语音端点检测部件切换到以低时钟频率工作，并向音频输入部件发送该低时钟频率。

并执行步骤S1301。

上述具体实施流程仅是对本申请实施例适用方法流程的举例说明，其中各步骤的执行顺序可根据实际需求进行相应调整，还可以增加其它步骤，或减少部分步骤。

关于上述各步骤的具体实施方式，可以参见前述语音端点检测设备及方法的具体实施例，此处不再重述。

需要说明的是，上述各实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

本发明实施例还提供一种语音端点检测设备，如图14所示，为本发明实施例提供的一种语音端点检测设备的结构示意图。图14所示的语音端点检测设备1400仅是一个范例，并且语音端点检测设备1400可以具有比图14中所示的更多的或者更少的部件，可以组合两个或多个的部件，或者可以具有不同的部件配置。例如可以组合或者包括如图1或图2所示的架构中的全部或部分部件。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

如图14所示，语音端点检测设备1400包括：通信组件1410、存储器1420、处理器1430、音频电路1440、开关按键1450、以及电源1460等部件。

通信组件1410用于进行信号的接收与发送，例如，将接收的数据发送到处理器1430进行处理等。通信组件1410可以是WiFi(Wireless Fidelity，电路无线保真)模块或射频模块等短距离无线传输模块，或者移动通信等无线传输模块。

其中，通信组件1410可实现与其它智能设备之间的通信，例如在语音端点设备用于为其它智能设备提供语音端点检测功能时，可用于与其它设备进行信息交互，以接收或向其它设备输出信息等。

存储器1420可用于存储软件程序及数据。处理器1430通过运行存储在存储器1420的软件程序或数据，从而执行语音端点检测设备1400的各种功能以及数据处理。存储器1420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其它易失性固态存储器件。存储器1420存储有使得语音端点检测设备1400能运行的操作系统。本申请中存储器1420可以存储操作系统及各种应用程序，还可以存储执行本申请实施例所述语音端点检测设备的控制方法的代码。

音频电路1440、扬声器1441、麦克风1442可提供传输音频数据的音频接口。音频电路1440可将接收到的音频数据转换后的电信号，传输到扬声器1441，由扬声器1441转换为声音信号输出。语音端点检测设备1400还可配置音量按钮，用于调节声音信号的音量。另一方面，麦克风1442可用于采集音频数据，将采集的声音信号转换为电信号，或者将语音数据输出至存储器1420以便进一步处理等。

处理器1430是语音端点检测设备1400的控制中心，利用各种接口和线路连接整个语音端点检测设备1400的各个部分，通过运行或执行存储在存储器1420内的软件程序，以及调用存储在存储器1420内的数据，执行语音端点检测设备1400的各种功能和处理数据。在一些实施例中，处理器1430可包括一个或多个处理单元。本申请实施例中的处理器1430可以运行操作系统、应用程序、执行服务器发送的操作指令以及本申请实施例的控制方法等。

语音端点检测设备1400还可以包括为各个部件供电的电源1460。电源1460可以是市电电源，也可以是充电电池。电源可以通过电源管理系统与处理器1430逻辑相连，从而通过电源管理系统实现管理充电、放电以及功耗等功能。语音端点检测设备1400还可配置有开关按键1450，用于切断或接通电源，或者说用于控制语音端点检测设备1400的开机或关机，通常，语音端点检测设备1400处于接通电源的状态，以随时接收音频数据等。

语音端点检测设备1400还可以包括至少一种传感器1470等。

应当理解的是，本申请实施例所限定的技术方案仅是对语音端点检测设备的设备或控制方法的示例性说明而非任何限定。

本发明实施例还提供一种计算机可读存储介质，包括指令，当其在智能设备上运行时，使得智能设备执行上述实施例提供的语音端点检测方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得在计算机或其它可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种语音端点检测设备，其特征在于，包括音频输入部件和语音端点检测部件：

2.根据权利要求1所述的语音端点检测设备，其特征在于，所述语音端点检测部件还被配置为：

3.根据权利要求1所述的语音端点检测设备，其特征在于，还包括：直接存储器存取控制器；

4.根据权利要求3所述的语音端点检测设备，其特征在于，所述语音端点检测部件还被配置为：

5.根据权利要求3所述的语音端点检测设备，其特征在于，所述音频数据为多路音频数据中任一路音频数据，所述语音端点检测部件还被配置为：

6.根据权利要求5所述的语音端点检测设备，其特征在于，所述音频输入部件还被配置为：

7.根据权利要求1～6任一所述的语音端点检测设备，其特征在于，所述语音端点检测部件还被配置为：

8.一种语音端点检测方法，其特征在于，应用于语音端点检测设备中，包括：

所述语音端点检测设备采集音频数据；

9.根据权利要求8所述的语音端点检测方法，其特征在于，所述语音端点检测设备对采集的音频数据进行高通滤波，包括：

10.根据权利要求8所述的语音端点检测方法，其特征在于，所述语音端点检测设备对采集的音频数据进行高通滤波，包括：