CN103745723A

CN103745723A - 一种音频信号识别方法及装置

Info

Publication number: CN103745723A
Application number: CN201410014107.1A
Authority: CN
Inventors: 王欢良; 薛峰; 周强; 赵鹏程; 惠寅华
Original assignee: Suzhou Speech Information Technology Co Ltd
Current assignee: AI Speech Ltd; Suzhou Speech Information Technology Co Ltd
Priority date: 2014-01-13
Filing date: 2014-01-13
Publication date: 2014-04-23

Abstract

本发明公开了一种音频信号识别方法及装置，属于计算机技术领域。该方法包括：检测当前音频信号是否由非语音信号跳转为语音信息；如果当前音频信号由非语音信号跳转为语音信号，采集当前图像信号；根据该当前图像信号的嘴部区域的视觉特征，检测用户嘴唇是否移动；如果用户嘴唇移动，对该当前音频信号进行识别。本发明如果检测到音频信号由非语音信号跳转至语音信号，系统进一步检测用户是否有唇动，提高了语音识别的准确性。

Description

一种音频信号识别方法及装置

技术领域

本发明涉及计算机技术领域，特别涉及一种音频信号识别方法及装置。

背景技术

随着智能终端的普及，越来越多的智能设备和智能家居出现，并被广泛使用，在这些设备上，人机交互是非常核心的功能。

在现有技术中，用户可以通过手动操作控制智能终端，实现人机交互，也可以通过自然语音来控制智能终端，实现人机交互。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

在用户双手比较繁忙且有噪声的交互环境中，用户通过自然语言与智能终端进行人机交互时，智能终端无法准确检测用户语音的起始点，导致语言识别错误率增大，且额外增加系统的数据处理量，浪费功耗。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种音频信号识别方法及装置。所述技术方案如下：

一方面，提供了一种音频信号识别方法，所述方法包括：

检测当前音频信号是否由非语音信号跳转为语音信息；

如果当前音频信号由非语音信号跳转为语音信号，采集当前图像信号；

根据所述当前图像信号的嘴部区域的视觉特征，检测用户嘴唇是否移动；

如果用户嘴唇移动，对所述当前音频信号进行识别。

可选地，如果用户嘴唇移动，对所述采集到的音频信号进行识别之后，所述方法还包括：

如果用户嘴唇静止不动，继续检测当前音频信号。

可选地，所述方法还包括：

如果检测到当前音频信号由语音信号跳转至非语音信号，且当前图像信号中用户嘴唇静止不动时，停止对所述采集到的音频信号进行识别。

可选地，所述方法还包括：

如果检测到当前音频信号由语音信号跳转至非语音信号，且当前图像信号中用户嘴唇移动时，继续检测当前音频信号。

另一方面，提供了一种音频信号识别装置，所述装置包括：

音频信号检测模块，用于检测当前音频信号是否由非语音信号跳转为语音信息；

图形信号采集模块，用于如果当前音频信号由非语音信号跳转为语音信号，采集当前图像信号；

唇动检测模块，用于根据所述当前图像信号的嘴部区域的视觉特征，检测用户嘴唇是否移动；

音频信号识别模块，用于如果用户嘴唇移动，对所述当前音频信号进行识别。

可选地，所述音频信号检测模块还用于如果用户嘴唇静止不动，继续检测当前音频信号。

可选地，所述音频信号识别模块还用于如果检测到当前音频信号由语音信号跳转至非语音信号，且当前图像信号中用户嘴唇静止不动时，停止对所述采集到的音频信号进行识别。

可选地，所述音频信号识别模块还用于如果检测到当前音频信号由语音信号跳转至非语音信号，且当前图像信号中用户嘴唇移动时，继续检测当前音频信号。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例提供的方法，如果检测到音频信号由非语音信号跳转至语音信号，系统进一步检测用户是否有唇动，提高了语音识别的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的音频信号识别方法流程图；

图2是本发明实施例提供的音频信号识别方法流程图；

图3是本发明实施例提供的音频信号识别方法流程图；

图4是本发明实施例提供的语音检测器内部的4种状态之间的关系；

图5是本发明实施例提供的音频信号起始点识别方法流程图；

图6是本发明实施例提供的音频信号结束点识别方法流程图；

图7是本发明实施例提供的音频信号识别装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的音频信号识别方法流程图。参见图1，该实施例包括：

101、检测当前音频信号是否由非语音信号跳转为语音信息；

102、如果当前音频信号由非语音信号跳转为语音信号，采集当前图像信号；

103、根据该当前图像信号的嘴部区域的视觉特征，检测用户嘴唇是否移动；

104、如果用户嘴唇移动，对该当前音频信号进行识别。

可选地，如果用户嘴唇移动，对该采集到的音频信号进行识别之后，该方法还包括：

如果用户嘴唇静止不动，继续检测当前音频信号。

可选地，该方法还包括：

如果检测到当前音频信号由语音信号跳转至非语音信号，且当前图像信号中用户嘴唇静止不动时，停止对该采集到的音频信号进行识别。

可选地，该方法还包括：

在本发明实施例中，音频信号识别方法应用于配置有音频识别系统的终端。该终端配置有麦克风和摄像头。该音频识别系统至少包括声音采集器、语音检测器、唇动检测器和语言识别器。其中，该声音采集器用于采集音频信号；该语音检测器用于不断分析处理该声音采集器送来的音频信号，根据音频信号的能量和频谱等特征，判断当前音频信号是语音信号还是非语音信号。该唇动检测器用于接收到该语音检测器的信号之后，打开摄像头，对采集的图像信号进行分析处理；该语音识别器用于接收该语音检测器发送的音频信号，进行分析和处理，利用语音识别技术得到语音信号对应的文本内容并输出，如图2所示。

图3是本发明实施例提供的音频信号识别方法流程图。参见图3，该实施例包括：

301、声音采集器采集音频信号，并将采集到的音频信号发送至语音检测器；

在本发明实施例中，声音采集器可以利用麦克风不断采集音频信号。

302、当语音检测器接收到音频信号时，语音检测器检测当前音频信号是否由非语音信号跳转为语音信息；

在本发明实施例中，该语音检测器可以采用语音活动检测(VAD)算法检测语音信号，如果检测结果是当前语音信号从非语音信号跳转为语音信号，则执行步骤303；如果检测结果是当前语音信号未发生跳转，则继续检测。

在本发明实施例中，语音检测器内部维持4种状态，分别是：

非语音状态：表示为“0”，表示当前音频片段是非语音；

语音状态：表示为“1”，表示当前音频片段是语音；

疑似语音状态：表示为“2”，表示当前音频被语音检测器判定为语音且之前时刻语音检测器处于状态“0”或者“2”；

疑似非语音状态：表示为“3”，表示当前音频被语音检测器判定为非语音且之前时刻语音检测器处于状态“1”或者“3”。

303、如果当前音频信号由非语音信号跳转为语音信号，开启摄像头采集当前图像信号；

304、唇动检测器根据该当前图像信号的嘴部区域的视觉特征，检测用户嘴唇是否移动；

在本发明实施例中，如果唇动检测器接收到的是信号“1”，则判断当前时刻用户嘴唇是否在移动；如果接收到的信号是“0”，则判断当前时刻用户嘴唇是否静止。如果检测到用户嘴唇的运动，则向语音检测器发送信号“1”；如果检测到用户嘴唇静止，则向语音检测器发送信号“0”。

在本发明实施例中，该唇动检测器将检测结果发送至语音检测器，使得语音检测器结合音频信号以及唇动检测器的检测结果设置语音检测器的状态。

例如，如果当前语音检测器处于状态“2”，则语音检测器发信号“1”到唇动检测器；如果当前语音检测器处于状态“3”，则语音检测器发信号“0”到唇动检测器。如果语音检测器从唇动检测器收到信号“1”，且当前状态处于状态“2”，则语音检测器状态设置为“1”，表示当前音频是语音；如果语音检测器从唇动检测器收到信号“0”，且当前状态处于状态“2”，则语音检测器状态设置为“0”，表示当前音频仍然是非语音；如果语音检测器从唇动检测器收到信号“0”，且当前状态处于状态“3”，则语音检测器状态设置为“0”，表示当前音频是非语音；如果语音检测器从唇动检测器收到信号“1”，且当前状态处于状态“1”，则语音检测器状态设置为“1”，表示当前音频仍然是语音。如果语音检测器状态为“1”，则把收到的音频信号发送到语音识别器；如果语音检测器状态为“0”，则停止发送音频信号到语音识别器。

如图4所示，语音检测器内部的4种状态之间的关系。如果语音检测器状态为“0”时收到的音频被检测为非语音，则语音检测器一直停留在状态“0”；如果语音检测器状态为“0”时收到的音频被检测为语音，则语音检测器进入状态“2”;如果语音检测器状态为“2”时收到的音频被检测为非语音或者唇动检测器返回信号“0”，则语音检测器返回状态“0”;如果语音检测器状态为“2”时收到的音频被检测为语音，则语音检测器停留在状态“2”；如果语音检测器状态为“2”时收到的音频被检测为语音，且收到唇动检测器的信号“1”，则语音检测器进入状态“1”；如果语音检测器状态为“1”时收到的音频被检测为语音，则语音检测器一直停留在状态“1”；如果语音检测器状态为“1”时收到的音频被检测为非语音，则语音检测器进入状态“3”；如果语音检测器状态为“3”时收到的音频被检测为非语音，则语音检测器停留在状态“3”；如果语音检测器状态为“3”时收到的音频被检测为非语音，且从唇动检测器收到信号为“0”，则语音检测器进入状态“0”；如果语音检测器状态为“3”时收到的音频被检测为语音或者唇动检测器返回信号“1”，则语音检测器返回状态“1”。

305、如果用户嘴唇移动，语音识别器对该当前音频信号进行识别；

在本发明实施例中，音频信号的起始点检测的流程如图5所示，音频信号的结束点检测的流程如图6所示。终端配置的麦克风一直处理开启状态，不断采集音频信号，传送到语音检测器；语音检测器对接收到的音频信号进行分析处理，如果当前状态为0，且当前音频信号被判断为语音，则发送信号“1”到唇动检测器，并把状态设置为2；如果当前状态为1，且音频信号被判断为非语音，则发送信号“0”到唇动检测器，并把状态设置为3；唇动检测器收到信号“1”后，启动摄像头，根据采集的图像，分析判断用户嘴唇是否在动，如果在移动，则向语音检测器发送信号“1”，关闭摄像头，否则发送信号“0”；唇动检测器接收到信号“0”后，启动摄像头，根据采集的图像，分析判断用户嘴唇是否在动，如果没有移动，则向语音检测器发送信号“0”，关闭摄像头，否则发送信号“1”；语音检测器接处于状态“2”时收到唇动检测器发送的信号“1”，则语音检测器设置当前状态为“1”，表示当前音频信号是语音；否则语音检测器设置当前状态为“0”，表示当前音频信号仍然是非语音；语音检测器处于状态“3”时收到唇动检测器发送的信号“0”，则语音检测器状态设置为“0”表示当前音频信号为非语音；否则语音检测器设置当前状态为“1”，表示当前音频信号仍然是语音。

306、如果检测到当前音频信号由语音信号跳转至非语音信号，且当前图像信号中用户嘴唇静止不动时，停止对该采集到的音频信号进行识别。

在本发明实施例中，如果语音检测器检测结果是当前信号从语音信号跳转为非语音信号，则打开摄像头采集图像，从图像中检测并定位跟踪用户唇部的动作，如果检测到用户嘴唇静止不动，停止向语音识别器发送音频信号，语音识别器输出识别结果并复位。

为了进一步显示本发明的有益效果，以下仅以两个应用环境下的语音交互进行阐述：

例一，车载环境下的语音交互

在车载环境中，人们的四肢都是繁忙的，无法方便地操控智能设备，完成信息查询、设备控制等任务。语音是一个非常自然的方式。但是当前的语音识别器对噪声是敏感的，只能识别语音段。因此，需要采用VAD来检测语音段的起始点和结束点。由于车载环境的噪声非常复杂，单纯依赖声学特征的VAD方法精度和可靠性不高。通过摄像头，采集用户唇部图像，然后采用唇动检测方法检测用户唇动信息，可以辅助VAD来提高语音起始点和结束点的检测精度。

车载的摄像头和麦克风安置在用户正前方，麦克风不断采集音频信号，语音检测模块通过分析音频信号来发现非语音到语音的跳变时刻，同时，如果唇动检测器发现该时刻用户嘴唇有移动，则认为该时刻是语音的起始点；如果语音检测器发现从语音到非语音的跳变时刻，同时，如果唇动检测器发现该时刻用户嘴唇是静止的，则认为该时刻是语音的结束点。如果发现了语音的起始点，则后续采集的音频被送到语音识别器进行识别，然后根据识别结果进行语音分析和理解，完成相应任务；如果发现了语音的结束点，则后续采集的音频停止送往语音识别。

例二：远距离声控环境

在智能家居环境中，用户可以随时随地地用语音来控制家中的各种智能设备。典型的情况是，用户可以远距离地用语音来和智能电视交互。用户和智能电视是不直接接触的，也不需要操控遥控器。用户只需要面对电视说出自己的意图即可。这就要求智能电视可以随时精确检测用户的语音段。在家用环境中，噪声也是非常严重的。单纯依靠声学特征来检测语音的起始和结束点是不可行的。通过采用摄像头和唇动检测算法，智能电视可以获取用户唇动或静止的信息。然后利用该信息来辅助声学语音检测方法，可以显著提高语音起始和结束点的精度。

在智能设备上放置定向的摄像头和麦克风，用户只需要要在电视正前方就可以和电视进行交互。麦克风不断采集音频信号，利用声学特征来判断当前语音片段是语音还是非语音。如果语音检测器检测到当前时刻的音频片段是一个从非语音到语音的转换点，同时，如果唇动检测器发现该时刻用户嘴唇有移动，则认为该时刻是语音的起始点；如果语音检测器发现当前音频片段是从语音到非语音的跳变时刻，同时，如果唇动检测器发现该时刻用户嘴唇是静止的，则认为该时刻是语音的结束点。如果发现了语音的起始点，则后续采集的音频被送到语音识别器进行识别，然后根据识别结果进行语音分析和理解，完成相应任务；如果发现了语音的结束点，则后续采集的音频停止送往语音识别。

图7是本发明实施例提供的音频信号识别装置结构示意图。参见图7，该装置包括：音频信号检测模块701、图形信号采集模块702、唇动检测模块703和音频信号识别模块704。

音频信号检测模块701用于检测当前音频信号是否由非语音信号跳转为语音信息；音频信号检测模块701与图形信号采集模块702连接，图形信号采集模块702用于如果当前音频信号由非语音信号跳转为语音信号，采集当前图像信号；图形信号采集模块702与唇动检测模块703连接，唇动检测模块703用于根据该当前图像信号的嘴部区域的视觉特征，检测用户嘴唇是否移动；唇动检测模块703与音频信号识别模块704连接，音频信号识别模块704用于如果用户嘴唇移动，对该当前音频信号进行识别。

可选地，该音频信号检测模块701还用于如果用户嘴唇静止不动，继续检测当前音频信号。

可选地，该音频信号识别模块704还用于如果检测到当前音频信号由语音信号跳转至非语音信号，且当前图像信号中用户嘴唇静止不动时，停止对该采集到的音频信号进行识别。

可选地，该音频信号识别模块704还用于如果检测到当前音频信号由语音信号跳转至非语音信号，且当前图像信号中用户嘴唇移动时，继续检测当前音频信号。

本发明实施例提供的装置，如果检测到音频信号由非语音信号跳转至语音信号，系统进一步检测用户是否有唇动，提高了语音识别的准确性。

需要说明的是：上述实施例提供的音频信号识别装置在音频信号识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频信号识别装置与音频信号识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频信号识别方法，其特征在于，所述方法包括：

检测当前音频信号是否由非语音信号跳转为语音信息；

如果用户嘴唇移动，对所述当前音频信号进行识别。

2.根据权利要求1所述的方法，其特征在于，如果用户嘴唇移动，对所述采集到的音频信号进行识别之后，所述方法还包括：

如果用户嘴唇静止不动，继续检测当前音频信号。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.一种音频信号识别装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，所述音频信号检测模块还用于如果用户嘴唇静止不动，继续检测当前音频信号。

7.根据权利要求5所述的装置，其特征在于，所述音频信号识别模块还用于如果检测到当前音频信号由语音信号跳转至非语音信号，且当前图像信号中用户嘴唇静止不动时，停止对所述采集到的音频信号进行识别。

8.根据权利要求5所述的装置，其特征在于，所述音频信号识别模块还用于如果检测到当前音频信号由语音信号跳转至非语音信号，且当前图像信号中用户嘴唇移动时，继续检测当前音频信号。