CN109145853A

CN109145853A - 用于识别噪音的方法和装置

Info

Publication number: CN109145853A
Application number: CN201811012843.8A
Authority: CN
Inventors: 李财瑜
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-08-31
Filing date: 2018-08-31
Publication date: 2019-01-04

Abstract

本申请实施例公开了用于识别噪音的方法和装置。该方法的一具体实施方式包括：响应于从所连接的麦克风接收到音频数据，从与该麦克风配合使用的摄像头获取图像序列；响应于确定该图像序列中的图像中包括人脸图像，从该人脸图像中提取嘴唇区域的特征点；根据所提取的特征点的位置的变化，确定该人脸图像对应的用户是否有唇部动作；基于确定结果，确定该音频数据对应的音频是否为噪音。该实施方式实现了在语音交互过程中对噪音的识别。

Description

用于识别噪音的方法和装置

技术领域

本申请实施例涉及计算机技术领域，具体涉及用于识别噪音的方法和装置。

背景技术

随着人工智能技术的飞速发展，语音识别技术也得到了越来越广泛的应用。在实际应用中，语音采集环境中的噪音会对语音识别结果产生影响。

相关的技术通常是利用环形或者线形多路麦克风阵列采集声音，对特定区域内的声音进行放大，同时对其他区域内的声音进行抑制处理。从而实现对其他区域内的噪音进行抑制。

发明内容

本申请实施例提出了用于识别噪音的方法和装置。

第一方面，本申请实施例提供了一种用于识别噪音的方法，该方法包括：响应于从所连接的麦克风接收到音频数据，从与麦克风配合使用的摄像头获取图像序列；响应于确定图像序列中的图像中包括人脸图像，从人脸图像中提取嘴唇区域的特征点；根据所提取的特征点的位置的变化，确定人脸图像对应的用户是否有唇部动作；基于确定结果，确定音频数据对应的音频是否为噪音。

在一些实施例中，确定人脸图像对应的用户是否有唇部动作，包括：确定所提取的特征点的位置的变化幅度是否大于或等于预设的阈值；响应于确定大于或等于预设的阈值，确定人脸图像对应的用户有唇部动作；响应于确定小于预设的阈值，确定人脸图像对应的用户没有唇部动作。

在一些实施例中，确定音频数据对应的音频是否为噪音，包括：响应于确定人脸图像对应的用户没有唇部动作，确定音频数据对应的音频为噪音。

在一些实施例中，该方法还包括：响应于检测到与麦克风配合使用的扬声器正在播放，控制扬声器继续播放。

在一些实施例中，确定音频数据对应的音频是否为噪音，包括：响应于确定人脸图像对应的用户有唇部动作，确定音频数据对应的音频非噪音。

第二方面，本申请实施例提供了一种用于识别噪音的装置，该装置包括：图像获取单元，被配置成响应于从所连接的麦克风接收到音频数据，从与麦克风配合使用的摄像头获取图像序列；特征提取单元，被配置成响应于确定图像序列中的图像中包括人脸图像，从人脸图像中提取嘴唇区域的特征点；唇动确定单元，被配置成根据所提取的特征点的位置的变化，确定人脸图像对应的用户是否有唇部动作；噪音识别单元，被配置成基于确定结果，确定音频数据对应的音频是否为噪音。

在一些实施例中，唇动确定单元包括：比较模块，被配置成确定所提取的特征点的位置的变化幅度是否大于或等于预设的阈值；确定模块，被配置成响应于确定大于或等于预设的阈值，确定人脸图像对应的用户有唇部动作；响应于确定小于预设的阈值，确定人脸图像对应的用户没有唇部动作。

在一些实施例中，噪音识别单元进一步被配置成：响应于确定人脸图像对应的用户没有唇部动作，确定音频数据对应的音频为噪音。

在一些实施例中，该装置还包括：播放控制单元，被配置成响应于检测到与麦克风配合使用的扬声器正在播放，控制扬声器继续播放。

在一些实施例中，噪音识别单元进一步被配置成：响应于确定人脸图像对应的用户有唇部动作，确定音频数据对应的音频非噪音。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括：控制器，包括一个或多个处理器；存储装置，其上存储有一个或多个程序；麦克风，用于接收音频数据；摄像头，用于获取图像序列；扬声器；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

第四方面，本申请实施例提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

本申请实施例提供的用于识别噪音的方法和装置，响应于从所连接的麦克风接收到音频数据，通过与麦克风配合使用的摄像头获取图像序列。然后，响应于确定图像序列中的图像中包括人脸图像，从人脸图像中提取嘴唇区域的特征点。之后，根据所提取的特征点的位置的变化，确定人脸图像对应的用户是否有唇部动作。最后，基于确定结果，确定音频数据对应的音频是否为噪音，从而实现了在语音交互过程中对噪音的识别。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请的一个实施例可以应用于其中的示例性系统架构图；

图2是根据本申请的用于识别噪音的方法的一个实施例的流程图；

图3是根据本申请实施例的用于识别噪音的方法的一个应用场景的示意图；

图4是根据本申请的用于识别噪音的方法的又一个实施例的流程图；

图5是根据本申请的用于识别噪音的装置的一个实施例的结构示意图；

图6是适于用来实现本申请实施例的电子设备的硬件结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请实施例的用于识别噪音的方法或用于识别噪音的装置的示例性架构100。

如图1所示，系统架构100可以包括音频采集设备101，图像采集设备102，网络103和控制器104。音频采集设备101例如可以是麦克风或者由多个麦克风组成的麦克风阵列。图像采集设备102例如可以是摄像头。网络103用以在音频采集设备101、图像采集设备102、和控制器104之间提供通信链路的介质。网络103可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

音频采集设备101和图像采集设备102通过网络103与控制器104交互，以接收或发送信息等。

控制器104可以是实现各种控制功能的控制器，例如对音频采集设备101所采集的音频和图像采集设备102所采集的图像进行分析处理并生成分析结果的集成控制器。控制器104可以从音频采集设备101和图像采集设备102分别接收音频数据和图像序列。之后，控制器104可以确定图像序列中包括人脸图像，并且从人脸图像中提取嘴唇区域的特征点。接下来，控制器104可以根据所提取的特征点的位置的变化，确定人脸图像对应的用户是否有唇部动作，并生成确定结果。最后，控制器104可以基于确定结果，确定上述从音频采集设备101采集的音频是否为噪音

需要说明的是，控制器可以是硬件，也可以是软件。当控制器104为硬件时，可以实现成多个设备组成的分布式设备集群，也可以实现成单个设备。当控制器为软件时，可以安装在上述所列举的设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，音频采集设备101和图像采集设备102可以与控制器104集成为一个电子设备。此时，可以不存在网络103。上述电子设备可以包括但不限于智能手机、膝上型便携计算机和提供问询服务的智能机器人等等。

还需要说明的是，本申请实施例所提供的用于识别噪音的方法一般由控制器104执行，相应地，用于识别噪音的装置一般设置于控制器104中。

应该理解，图1中的音频采集设备、图像采集设备、网络和控制器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的音频采集设备、图像采集设备、网络和控制器。

继续参考图2，示出了根据本申请的用于识别噪音的方法的一个实施例的流程200。该用于识别噪音的方法包括以下步骤：

步骤201，响应于从所连接的麦克风接收到音频数据，从与麦克风配合使用的摄像头获取图像序列。

在本实施例中，用于识别噪音的方法的执行主体(如图1所示的控制器104)可以接收音频数据。上述执行主体响应于从所连接的麦克风接收到音频数据，可以从与麦克风配合使用的摄像头获取图像序列。其中，上述执行主体可以与上述麦克风通信连接。上述通信连接可以是各种类型的连接，例如有线、无线通信链路或者光纤电缆。上述麦克风可以是一个，也可以是由多个麦克风组成的阵列。麦克风阵列可以是环形阵列，也可以是线形阵列。上述音频数据可以是通过上述麦克风采集到的语音经过模数转换所得到的数字化的声音数据。上述与麦克风配合使用的摄像头可以是放置在麦克风附近的摄像头。作为示例，上述摄像头可以是与上述麦克风或麦克风阵列中最近的麦克风距离不超过1米的摄像头。作为又一示例，上述摄像头也可以是拍摄上述麦克风阵列的拾音区域的摄像头。其中，麦克风阵列的拾音区域可以是麦克风阵列利用波束成形技术选择将该区域内的声音进行放大、而将其他区域的声音进行抑制的区域。上述图像序列可以是与上述麦克风配合使用的摄像头拍摄的、与上述音频数据所对应的音频在同一时间采集的视频，也可以是从上述视频帧中每隔预设数量顺序选取一帧而组成的图像序列。作为示例，在采集上述音频数据的时间段内，上述摄像头在同一时间段内采集的视频中包括100个图像。上述执行主体可以选取第一个图像。然后，每隔4个再选取1个图像。最终获取包括20个图像的图像序列。

在本实施例中，上述执行主体可以通过各种方式获取上述图像序列。作为示例，上述执行主体响应于接收到音频数据，可以从上述摄像头直接获取所拍摄的视频帧作为图像序列。作为又一示例，上述执行主体响应于接收到音频数据，可以检测上述音频数据的起始时间和结束时间。接下来，上述执行主体可以根据上述摄像头所拍摄的图像的拍摄时间，顺序选取拍摄时间在上述音频数据的起始时间和结束时间之间的图像，获取到图像序列。可选地，上述顺序选取图像可以是逐个选取，也可以是每隔预设数量选取。

在本实施例的一些可选的实现方式中，上述麦克风和摄像头安装在需要采集音频和图像的场景中。例如，将用于提供问询服务的智能设备安装在银行接待厅。将上述麦克风和摄像头安装在上述智能设备附近区域，使得麦克风和摄像头能够采集到正在使用上述智能设备的用户的语音和图像。其中，上述智能设备中可以包括控制器。上述控制器与上述麦克风和摄像头通信连接，使得上述智能设备中的控制器可以响应于从所连接的麦克风接收到音频数据，从与麦克风配合使用的摄像头获取图像序列。

在本实施例的一些可选的实现方式中，上述麦克风和摄像头可以集成在带有控制器的电子设备中。例如，用于提供导诊服务的智能机器人中包括麦克风、摄像头和控制器，上述麦克风和摄像头与控制器通信连接。上述智能机器人中的控制器可以响应于从上述麦克风接收到音频数据，从上述摄像头获取正在使用上述智能机器人的用户的图像序列。

步骤202，响应于确定图像序列中的图像中包括人脸图像，从人脸图像中提取嘴唇区域的特征点。

在本实施例中，上述执行主体可以响应于确定从步骤201获取的图像序列中的图像中包括人脸图像，从人脸图像中提取嘴唇区域的特征点。对于上述图像序列中的图像，上述执行主体可以通过人脸识别技术确定该图像中是否包括人脸图像。响应于确定包括，上述执行主体可以从人脸图像中提取嘴唇区域的特征点，并且记录特征点的位置。可选地，嘴唇区域可以包括嘴唇轮廓以及嘴唇轮廓所围成的区域。可选地，嘴唇区域也可以指根据人脸几何特征进行唇部粗定位所得到的区域。作为示例，可以根据经验将嘴唇区域确定为所确定的人脸图像的下三分之一，且距离左右人脸边界距离为人脸宽度的四分之一的区域。相应地，每个人脸图像对应着从该人脸图像中提取的特征点。并且，上述执行主体可以从每张人脸图像中提取相同的特征点。需要说明的是，上述人脸识别技术是目前广泛研究和应用的公知技术，在此不再赘述。

可选地，上述特征点可以是用于表征嘴唇轮廓的点，也可以是能够用其位置变化幅度来确定嘴唇是否动作的点。作为示例，上述执行主体可以从每张人脸图像中提取左、右嘴角点，上嘴唇的上、下边缘点，下嘴唇的上、下边缘点作为嘴唇区域的特征点。

在本实施例中，上述图像序列中的图像中可以包括一个人脸图像，也可以包括多个人脸图像。在图像中包括多个人脸图像时，可选地，上述执行主体可以从人脸图像尺寸较大的人脸图像中提取嘴唇区域的特征点；也可以从每个人脸图像中分别提取嘴唇区域的特征点。

在本实施例的一些可选的实现方式中，上述执行主体可以首先通过各种方法确定人脸图像中的嘴唇轮廓，再从嘴唇轮廓中提取嘴唇特征点。可选地，可以利用人脸图像的亮度和梯度信息，通过主动轮廓模型(Active contour model，又被称为“Snakes”)提取嘴唇轮廓。可选地，可以使用可变形模板(Deformable Templates)方法来提取嘴唇轮廓。可选地，还可以使用主动形状模型(Active Shape Models,ASM)来提取嘴唇轮廓及特征点。

在本实施例的一些可选的实现方式中，对于图像序列中的每个图像，上述执行主体可以确定该图像中是否包括人脸图像。然后，上述执行主体可以从人脸图像中提取嘴唇区域的特征。可选地，特征点的确定可以根据技术人员的经验来选取，也可以根据预先训练的嘴唇特征模型来确定。可选地，上述嘴唇特征模型可以是利用机器学习方法和训练样本对现有的深度卷积神经网络(例如DenseBox、VGGNet、ResNet、SegNet等)进行有监督训练而得到的卷积神经网络。

在本实施例的一些可选的实现方式中，对于图像序列中的包括人脸图像的图像，上述执行主体还可以对人脸图像进行人脸特征的提取，生成与图像序列对应的人脸图像特征值序列。然后，上述执行主体可以将人脸图像特征值序列中相邻的特征值进行相似计算。可选地，上述相似计算可以是余弦距离计算，也可以是欧式距离计算。可选地，通过上述相似计算，还可以将计算的结果映射到百分制，得到相似度得分。接下来，上述执行主体根据相似计算结果是否满足条件，确定上述人脸图像特征值所对应的人脸图像是否为同一用户的人脸图像。可选地，上述条件可以是余弦距离小于预设阈值，也可以是相似度得分大于预设阈值。可以理解，对于嘴唇区域的特征点的位置的变化是针对同一个人而言的。

步骤203，根据所提取的特征点的位置的变化，确定人脸图像对应的用户是否有唇部动作。

在本实施例中，上述执行主体可以根据步骤202所提取的特征点的位置的变化，确定人脸图像对应的用户是否有唇部动作。其中，特征点的位置可以用坐标来表示。相应地，特征点的位置的变化可以用位移的大小来表示。可选地，特征点的位置的变化可以是相对于该特征点在此前相邻一个图像中的位置，也可以是相对于该特征点在包含人脸图像的图像序列中第一个图像中的位置。作为示例，图像序列包括4个显示有人脸图像的图像，从每张人脸图像中提取X特征点得到X₁、X₂、X₃、X₄并记录其位置，并将上述X特征点在各自图像中的位置坐标转换至同一坐标系下的坐标，例如X₁(x₁,y₁)，X₂(x₂,y₂)，X₃(x₃,y₃)，X₄(x₄,y₄)。相应地，X特征点的位置的变化可以用位移的大小来表示，也可以用位移水平分量或竖直分量的大小来表示。上述位移可以是也可以是

在本实施例的一些可选的实现方式中，上述执行主体可以根据步骤202所提取的每个特征点及其位置信息，生成一个特征点位置向量。其中，特征点位置向量用于表征该特征点的位置变化情况。作为示例，上述执行主体可以确定图像序列包括3个显示有人脸图像的图像。可以理解，图像序列中的图像按照拍摄时间的先后顺序排列。然后，上述执行主体可以选取上嘴唇的下边缘点A和下嘴唇的上边缘点B作为嘴唇特征点。接下来，上述执行主体可以选取第2张图与第1张图，对相应的特征点位置坐标进行比较。之后，上述执行主体可以确定点A位置坐标上移5个像素点，点B位置坐标下移3个像素点。然后，上述执行主体可以继续选取第3张图与第2张图，对相应的特征点位置坐标进行比较。之后，上述执行主体可以确定点A位置坐标下移2个像素点，点B位置坐标上移1个像素点。最后，上述执行主体可以生成特征向量[5,-2,-3,1]。

在本实施例的一些可选的实现方式中，上述执行主体可以将生成的特征点位置向量输入至预先训练的唇动检测模型，得到唇部动作确定结果。其中，唇动检测模型用于表征特征点位置向量和唇部动作确定结果之间的关系。

可选地，上述唇动检测模型可以是本领域技术人员基于大量统计计算而预先制定的、用于表征特征点位置向量与唇部动作确定结果之间的对应关系的对应关系表；也可以是利用机器学习方法和训练样本对朴素贝叶斯模型(Naive Bayesian Model，NBM)、卷积神经网络(Convolutional Neural Network,CNN)、支持向量机(Support Vector Machine,SVM)等可以用于分类的模型进行有监督的训练而得到的。

步骤204，基于确定结果，确定音频数据对应的音频是否为噪音。

在本实施例中，上述执行主体可以基于步骤203的确定结果，确定音频数据对应的音频是否为噪音。上述音频通常是用户的语音。上述噪音通常指的是不应该作为音频输入被采集到的音频，而不仅仅指嘈杂、刺耳的声音。

在本实施例的一些可选的实现方式中，上述执行主体可以响应于确定人脸图像对应的用户没有唇部动作，确定音频数据对应的音频为噪音。

在本实施例的一些可选的实现方式中，上述执行主体可以响应于确定人脸图像对应的用户有唇部动作，确定音频数据对应的音频非噪音。

继续参见图3，图3是根据本实施例的用于识别噪音的方法的应用场景的一个示意图。在图3的应用场景中，用户301面向摄像头准备提问，此时位于用户301身后的用户302大声喊：“往前走，开始登机了。”麦克风303可以采集到用户302的语音，形成音频数据，再通过网络305发送给控制器306。控制器306响应于接收到上述音频数据，可以获取通过摄像头304采集的、拍摄时间在上述音频数据起始采集时间和采集结束时间之间的图像序列。之后，控制器306响应于确定上述图像序列中包括用户301的人脸图像，可以从用户301的人脸图像中提取嘴唇区域的特征点。然后，控制器306可以根据图像序列中的图像中嘴唇区域特征点的位置无变化，确定用户301没有唇部动作。最后，控制器可以根据用户301没有唇部动作，确定上述音频数据所对应的语音为噪音。

本申请的上述实施例提供的方法，通过响应于从所连接的麦克风接收到音频数据，从与麦克风配合使用的摄像头获取图像序列。之后可以响应于确定图像序列中的图像中包括人脸图像，从人脸图像中提取嘴唇区域的特征点。接下来，可以根据所提取的特征点的位置的变化，确定人脸图像对应的用户是否有唇部动作。最后，基于确定结果，可以确定音频数据对应的音频是否为噪音。从而可以避免将来自语音拾取区域的噪音误当作用户的语音，实现了对噪音的识别。

进一步参考图4，其示出了用于识别噪音的方法的又一个实施例的流程400。该用于识别噪音的方法的流程400，包括以下步骤：

步骤401，响应于从所连接的麦克风接收到音频数据，从与麦克风配合使用的摄像头获取图像序列。

步骤402，响应于确定图像序列中的图像中包括人脸图像，从人脸图像中提取嘴唇区域的特征点。

需要说明的是，上述步骤401至步骤402的具体处理及其所带来的技术效果可以参考图2对应的实施例中的步骤201至步骤202，在此不再赘述。

步骤403，根据所提取的特征点的位置的变化，确定所提取的特征点的位置的变化幅度是否大于或等于预设的阈值。

在本实施例中，上述执行主体可以根据步骤402所提取的特征点的位置的变化，确定所提取的特征点的位置的变化幅度是否大于或等于预设的阈值。需要说明的是，对于特征点的位置的变化的相关说明可以参考图2对应的实施例中的步骤203，在此不再赘述。相应地，上述特征点的位置的变化幅度可以是上述位移的大小集合中最大的数值。作为示例，X特征点的位置的变化可以用位移的大小来表示，也可以用位移水平分量或竖直分量的大小来表示。上述位移可以是也可以是相应地，上述位移的大小可以是x₁、x₂、x₃，也可以是x₁′、x₂′、x₃′。因此，上述特征点的位置的变化幅度可以是x₁、x₂、x₃中最大的数值，也可以是x₁′、x₂′、x₃′中最大的数值。

根据经验和统计结果，对于嘴唇区域的不同特征点，可以用不同的变化幅度来确定是否有唇部动作。相应地，可以针对不同特征点预设不同数值的阈值。上述针对不同特征点预设不同数值的阈值可以通过对应关系表来确定。上述对应关系表可以是相关领域的技术人员根据经验和大量统计计算而制成的。

在本实施例的一些可选的实现方式中，对于每个嘴唇区域选取一个特征点的情况，上述执行主体可以将该特征点的位置变化幅度与相应的预设阈值进行比较，确定该特征点的位置变化幅度是否大于或等于预设阈值。

在本实施例的一些可选的实现方式中，对于每个嘴唇区域选取多个特征点的情况，上述执行主体可以将多个特征点的位置变化幅度分别与相应的预设阈值进行比较，确定每个特征点的位置变化幅度是否大于或等于该特征点所对应的预设阈值。

步骤404，响应于确定大于或等于预设的阈值，确定人脸图像对应的用户有唇部动作；响应于确定小于预设的阈值，确定人脸图像对应的用户没有唇部动作。

在本实施例中，响应于确定大于或等于预设的阈值，上述执行主体可以确定人脸图像对应的用户有唇部动作。

在本实施例的一些可选的实现方式中，对于每个嘴唇区域选取一个特征点的情况，响应于特征点的位置变化幅度大于或等于上述预设阈值，确定上述人脸图像对应的用户有唇部动作。响应于特征点的位置变化幅度小于上述预设阈值，确定上述人脸图像对应的用户没有唇部动作。

在本实施例的一些可选的实现方式中，对于每个嘴唇区域选取多个特征点的情况，可选地，上述执行主体可以响应于上述所有特征点的位置变化幅度大于或等于上述预设阈值，确定上述人脸图像对应的用户有唇部动作；响应于存在特征点的位置变化幅度小于上述预设阈值，确定上述人脸图像对应的用户没有唇部动作。可选地，上述执行主体可以响应于存在特征点的位置变化幅度大于或等于上述预设阈值，确定上述人脸图像对应的用户有唇部动作；响应于上述所有特征点的位置变化幅度小于上述预设阈值，确定上述人脸图像对应的用户没有唇部动作。可选地，上述执行主体可以响应于超过预设比例的特征点的位置变化幅度大于或等于上述预设阈值，确定上述人脸图像对应的用户有唇部动作；否则确定上述人脸图像对应的用户没有唇部动作。预设比例可以是人为设定的数值，例如50％。

步骤405，响应于确定人脸图像对应的用户没有唇部动作，确定音频数据对应的音频为噪音。

在本实施例中，响应于通过步骤404确定人脸图像对应的用户没有唇部动作，上述执行主体可以确定音频数据对应的音频为噪音。上述噪音通常指的是不应该作为音频输入被采集到的音频，而不仅仅指嘈杂、刺耳的声音。

步骤406，响应于检测到与麦克风配合使用的扬声器正在播放，控制扬声器继续播放。

在本实施例中，响应于检测到与麦克风配合使用的扬声器正在播放，上述执行主体可以控制扬声器继续播放。其中，上述与麦克风配合使用的扬声器可以是放置在麦克风附近的扬声器。作为示例，上述扬声器可以是与上述麦克风或麦克风阵列中最近的麦克风距离不超过1米的扬声器。作为又一示例，上述扬声器也可以是面向上述麦克风或麦克风阵列的拾音区域的扬声器。可选地，上述扬声器也可以与上述麦克风、摄像头以及作为执行主体的控制器集成在同一个电子设备中。通常，如果在扬声器播放时接收到语音输入，与上述扬声器通信连接的、支持“打断模式”的控制器会控制上述扬声器停止播放。其中，“打断模式”可以指在扬声器播放过程中，与之通信连接的控制器接收到语音输入，则向上述扬声器发出表征停止播放的信息，并且对上述语音输入进行处理。其中，上述处理可以包括但不限于语音识别，语义分析等等。

在本实施例的一些应用场景中，上述执行主体还可以是带有答疑和指导功能的智能机器人，上述智能机器人中可以包括能够执行上述步骤401-406的控制器、存储装置、麦克风、摄像头、扬声器。当上述智能机器人回答用户A上次的提问，正通过语音播报：“您查询的XX次列车的发车时……”此时，在用户A身后的用户B大声说：“你的票在我这里。”上述智能机器人可以采集到用户B的语音，获取相应的图像序列。此时，由于用户A仍在使用上述智能机器人。根据通常的使用习惯，用户A可以处于距离上述智能机器人较近的位置。因此在上述图像中，用户A的人脸图像仍然可以处于图像中的显著位置。然后，智能机器人可以确定上述图像序列中包括用户A的人脸图像。接下来，从用户A的人脸图像中提取嘴唇区域的特征点。之后，智能机器人可以根据上述图像中嘴唇区域特征点的位置变化情况，确定用户A没有唇部动作。之后，智能机器人根据用户A没有唇部动作，可以确定上述音频数据所对应的语音(即用户B的语音)为噪音。最后，智能机器人响应于当前扬声器正在播放，控制继续播放上述没有播报完全的语句：“间是18时20分。”

从图4中可以看出，与图2对应的实施例相比，本实施例中的用于识别噪音的方法的流程400体现了确定人脸图像对应的用户是否有唇部动作的步骤，以及响应于确定音频数据对应的音频为噪音以及检测到与麦克风配合使用的扬声器正在播放，控制扬声器继续播放的步骤。由此，本实施例描述的方案可以在识别出噪声之后，响应于检测到与麦克风配合使用的扬声器正在播放，控制扬声器继续播放，从而实现了在语音交互过程中减少噪音对正在进行的播放的误打断次数。

进一步参考图5，作为对上述各图所示方法的实现，本申请提供了用于识别噪音的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例提供的用于识别噪音的装置500包括图像获取单元501、特征提取单元502、唇动确定单元503和噪音识别单元504。其中，图像获取单元501，被配置成响应于从所连接的麦克风接收到音频数据，从与麦克风配合使用的摄像头获取图像序列；特征提取单元502，被配置成响应于确定图像序列中的图像中包括人脸图像，从人脸图像中提取嘴唇区域的特征点；唇动确定单元503，被配置成根据所提取的特征点的位置的变化，确定人脸图像对应的用户是否有唇部动作；噪音识别单元504，被配置成基于确定结果，确定音频数据对应的音频是否为噪音。

在本实施例中，用于识别噪音的装置500中：图像获取单元501、特征提取单元502、唇动确定单元503和噪音识别单元504的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201、步骤202、步骤203和步骤204的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，上述唇动确定单元503可以包括比较模块(图5中未示出)和确定模块(图5中未示出)。其中，上述比较模块可以被配置成确定所提取的特征点的位置的变化幅度是否大于或等于预设的阈值；上述确定模块可以被配置成响应于确定大于或等于预设的阈值，确定人脸图像对应的用户有唇部动作；响应于确定小于预设的阈值，确定人脸图像对应的用户没有唇部动作。

在本实施例的一些可选的实现方式中，上述噪音识别单元504可以进一步被配置成：响应于确定人脸图像对应的用户没有唇部动作，确定音频数据对应的音频为噪音。

在本实施例的一些可选的实现方式中，上述用于识别噪音的装置500还包括播放控制单元(图5中未示出)。其中，上述播放控制单元可以被配置成响应于检测到与麦克风配合使用的扬声器正在播放，控制扬声器继续播放。

在本实施例的一些可选的实现方式中，上述噪音识别单元504可以进一步被配置成：响应于确定人脸图像对应的用户有唇部动作，确定音频数据对应的音频非噪音。

本申请的上述实施例提供的装置，图像获取单元501响应于从所连接的麦克风接收到音频数据，从与麦克风配合使用的摄像头获取图像序列。然后，特征提取单元502响应于确定图像序列中的图像中包括人脸图像，从人脸图像中提取嘴唇区域的特征点。接下来，唇动确定单元503根据所提取的特征点的位置的变化，确定人脸图像对应的用户是否有唇部动作。最后，噪音识别单元504基于上述确定结果，确定音频数据对应的音频是否为噪音，从而实现了在语音交互过程中对噪音的识别。

下面参考图6，其示出了适于用来实现本申请实施例的电子设备的硬件结构示意图600。图6示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示，电子设备的硬件结构600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括用于接收音频数据的麦克风606、用于获取图像序列的摄像头607等的输入部分；包括扬声器608、以及诸如液晶显示器(LCD)等的输出部分；包括硬盘等的存储部分609；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分610。通信部分610经由诸如因特网的网络执行通信处理。驱动器611也根据需要连接至I/O接口605。可拆卸介质612，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器611上，以便于从其上读出的计算机程序根据需要被安装入存储部分609。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分610从网络上被下载和安装，和/或从可拆卸介质612被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本申请的方法中限定的上述功能。

需要说明的是，本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括面向目标的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器，包括图像获取单元、特征提取单元、唇动确定单元和噪音识别单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，图像获取单元还可以被描述为“响应于从所连接的麦克风接收到音频数据，从与麦克风配合使用的摄像头获取图像序列的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：响应于从所连接的麦克风接收到音频数据，从与麦克风配合使用的摄像头获取图像序列；响应于确定图像序列中的图像中包括人脸图像，从人脸图像中提取嘴唇区域的特征点；根据所提取的特征点的位置的变化，确定人脸图像对应的用户是否有唇部动作；基于确定结果，确定音频数据对应的音频是否为噪音。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于识别噪音的方法，包括：

响应于从所连接的麦克风接收到音频数据，从与所述麦克风配合使用的摄像头获取图像序列；

响应于确定所述图像序列中的图像中包括人脸图像，从所述人脸图像中提取嘴唇区域的特征点；

根据所提取的特征点的位置的变化，确定所述人脸图像对应的用户是否有唇部动作；

基于确定结果，确定所述音频数据对应的音频是否为噪音。

2.根据权利要求1所述的方法，其中，所述确定所述人脸图像对应的用户是否有唇部动作，包括：

确定所提取的特征点的位置的变化幅度是否大于或等于预设的阈值；

响应于确定大于或等于预设的阈值，确定所述人脸图像对应的用户有唇部动作；

响应于确定小于预设的阈值，确定所述人脸图像对应的用户没有唇部动作。

3.根据权利要求1或2所述的方法，其中，所述确定所述音频数据对应的音频是否为噪音，包括：

响应于确定所述人脸图像对应的用户没有唇部动作，确定所述音频数据对应的音频为噪音。

4.根据权利要求3所述的方法，其中，所述方法还包括：

响应于检测到与所述麦克风配合使用的扬声器正在播放，控制所述扬声器继续播放。

5.根据权利要求1或2所述的方法，其中，所述确定所述音频数据对应的音频是否为噪音，包括：

响应于确定所述人脸图像对应的用户有唇部动作，确定所述音频数据对应的音频非噪音。

6.一种用于识别噪音的装置，包括：

图像获取单元，被配置成响应于从所连接的麦克风接收到音频数据，从与所述麦克风配合使用的摄像头获取图像序列；

特征提取单元，被配置成响应于确定所述图像序列中的图像中包括人脸图像，从所述人脸图像中提取嘴唇区域的特征点；

唇动确定单元，被配置成根据所提取的特征点的位置的变化，确定所述人脸图像对应的用户是否有唇部动作；

噪音识别单元，被配置成基于确定结果，确定所述音频数据对应的音频是否为噪音。

7.根据权利要求6所述的装置，其中，所述唇动确定单元包括：

比较模块，被配置成确定所提取的特征点的位置的变化幅度是否大于或等于预设的阈值；

确定模块，被配置成响应于确定大于或等于预设的阈值，确定所述人脸图像对应的用户有唇部动作；响应于确定小于预设的阈值，确定所述人脸图像对应的用户没有唇部动作。

8.根据权利要求6或7所述的装置，其中，所述噪音识别单元进一步被配置成：

9.根据权利要求8所述的装置，其中，所述装置还包括：

播放控制单元，被配置成响应于检测到与所述麦克风配合使用的扬声器正在播放，控制所述扬声器继续播放。

10.根据权利要求6或7所述的装置，其中，所述噪音识别单元进一步被配置成：

11.一种电子设备，包括：

控制器，包括一个或多个处理器；

存储装置，其上存储有一个或多个程序；

麦克风，用于接收音频数据；

摄像头，用于获取图像序列；

扬声器；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。

12.一种计算机可读介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如权利要求1-5中任一所述的方法。