CN107026934A

CN107026934A - 一种声源定位方法和装置

Info

Publication number: CN107026934A
Application number: CN201610970977.5A
Authority: CN
Inventors: 王乐临
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2016-10-27
Filing date: 2016-10-27
Publication date: 2017-08-08
Anticipated expiration: 2036-10-27
Also published as: EP3531674B1; US20190253802A1; KR20190067902A; EP3531674A4; US10575096B2; EP3531674A1; WO2018077109A1; KR102305066B1; CN107026934B

Abstract

本发明公开了一种声源定位方法和装置，以解决现有的定向拾取目标语音时拾取精度低下的问题。该方法应用于顶部具有两个麦克风的终端上，该两个麦克风分别位于终端的正面和背面：终端处于视频通话状态时，确定摄像头的摄像范围内是否存在目标用户时，利用两个麦克风采集声音信号，并基于采集到的声音信号计算两个麦克风之间的声压差；利用两个麦克风的声压差，判断是否满足利用声压差判断声源方向的条件；在满足条件时基于两个麦克风的声压差，确定出声音信号中是否包含后向声音信号；若确定出该声音信号中包含后向声音信号，将该声音信号中的后向声音信号进行滤除，这样，在低信噪比场景下基于声压差进行声源定位，能够提高目标声源的拾取精度。

Description

一种声源定位方法和装置

技术领域

本发明涉及终端技术领域，尤其涉及一种声源定位方法和装置。

背景技术

语音处理设备在采集或输入语音信号时，不可避免地要受到各种噪声的干扰。在实际语音通信系统中，常见的噪声包括平稳类噪声和方向性干扰声源，这些噪声易对目标语音信号产生干扰，严重降低采集语音的听觉舒适度和可懂度。传统的噪声估计及单通道语音增强算法对方向性干扰噪声的抑制效果很不理想。为此，需要根据实际情况，设计一些含有干扰噪声抑制能力的系统，从而达到定向拾取目标语音的目的，抑制其他噪声的能力。

现有的声源定位算法大多采用波束形成和基于时延差的声源定位等技术，对声场中的声源方位进行定位，然后利用固定波束或自适应波束的方法，达到降低束外干扰声源，定向拾音的目的。

基于手机的视频通话场景，一般说话人会面对手机前置或后置摄像头，进行视频通话。采用现有的波束形成技术，可以达到拾取摄像头同方向的声源信号的目的。但是，当说话人不在摄像头能够摄取的范围内时，如果还使用现有的基于时延差的声源定位技术，去定位摄像头前方是否还有说话人，则可能出现误判。尤其当摄像头前方有其他的声源时，基本无法区分。同时，现有的基于时延差的声源定位技术，在低信噪比场景下，由于目标声源的方位信息被噪声源方位信息混叠较重，此时基于时延差的声源定位算法将目标声源定位成噪声源，进而导致目标声源被当做束外噪声进行误抑制，使得目标声源的拾取精度低下。

发明内容

本发明实施例提供一种声源定位方法和装置，以解决现有的定向拾取目标语音时，声源定位容易出现误判的问题，造成目标声源的拾取精度低下的问题。

本发明实施例提供的具体技术方案如下：

第一方面，本发明实施例提供一种声源定位方法，所述方法应用于顶部具有两个麦克风的终端上，所述两个麦克风分别位于所述终端的正面和背面，所述方法包括：

所述终端处于视频通话状态时，确定所述终端的摄像头的摄像范围内是否存在目标用户；若确定在所述摄像范围内存在目标用户，则利用所述两个麦克风采集声音信号，并基于采集到的声音信号计算所述两个麦克风之间的声压差；利用所述两个麦克风的声压差，判断是否满足利用声压差判断声源方向的条件；若满足所述条件，则基于所述两个麦克风的声压差，确定出所述声音信号中是否包含后向声音信号，所述后向声音信号为位于所述摄像头后方的声音信号；若确定出所述声音信号中包含后向声音信号，将所述声音信号中的后向声音信号进行滤除。

这样，当说话的用户不在波束范围内时，可通过摄像头检测到摄像范围内存在目标用户时，采用基于声压差的方法判断声源方向，防止说话的用户由于离开波束范围波束导致声音被当做噪声误抑制，并在满足利用声压差判断声源方向的条件时，利用个麦克风的声压差，确定出所述声音信号中是否包含后向声音信号，从而将所述声音信号中的后向声音信号进行滤除，提升目标声源的定位准确度和目标声源的拾取精度。

结合第一方面，一种可能的设计中，所述确定在所述摄像范围内存在目标用户，包括：

利用人像识别技术在所述摄像范围内检测出存在任一用户；或，

利用人脸识别技术在所述摄像范围内检测出存在脸部特征与预存的人脸模板相同的用户；或

利用唇部运动检测技术，检测出存在唇部发生运动的用户。

结合第一方面，一种可能的设计中，所述利用所述两个麦克风采集声音信号，并基于采集到的声音信号计算所述两个麦克风之间的声压差，包括：

利用所述两个麦克风采集当前帧或频点的声音信号，分别为S1、S2；

基于S1、S2，利用快速傅里叶变换FFT算法计算S1、S2的功率谱，分别为P1、P2；

根据P1、P2，利用以下公式计算所述两个麦克风之间的声压差；

其中，ILD_now表示当前帧或频点对应的两个麦克风的声压差；；P₁表示顶部正面麦克风在当前帧或频点对应的声音功率谱，P₂表示顶部背面麦克风在当前帧或频点对应的声音功率谱。

结合第一方面，一种可能的设计中，所述利用所述两个麦克风的声压差，判断是否满足利用声压差判断声源方向的条件，包括：

利用当前帧或频点对应的所述两个麦克风的声压差，计算所述两个麦克风在当前帧或频点对应的声压差的最大值和声压差的最小值；

在所述两个麦克风在当前帧或频点对应的声压差的最大值与声压差的最小值之差大于第一门限值时，确定满足利用声压差判断声源方向的条件；

在所述声压差的最大值与所述声压差的最小值之差不大于第一门限值时，确定不满足利用声压差判断声源方向的条件。

这种设计中，当终端顶部正面和背面两个麦克风的声压差存在显著差别时，认为当前的两个麦克风的声压差信息有效。从而利用声压差信息判断声源方位，提高目标声源的定位准确度。

结合第一方面，一种可能的设计中，所述利用当前帧或频点对应的所述两个麦克风的声压差，计算所述两个麦克风在当前帧或频点对应的声压差的最大值和声压差的最小值，包括：

在当前帧或频点对应的两个麦克风的声压差不大于上一帧或频点对应的声压差的最大值时，利用以下公式计算所述两个麦克风在当前帧或频点对应的声压差的最大值，

ILD_max＝α_low*ILD_now+(1-α_low)*ILD_max’；

在当前帧或频点对应的两个麦克风的声压差大于上一帧或频点对应的声压差的最大值时，利用以下公式计算所述两个麦克风在当前帧或频点对应的声压差的最大值，

ILD_max＝α_fast*ILD_now+(1-α_fast)*LD_max′；

在当前帧或频点对应的两个麦克风的声压差大于上一帧或频点对应的声压差的最小值时，利用以下公式计算所述两个麦克风在当前帧或频点对应的声压差的最小值，

ILD_min＝α_low*ILD_now+(1-α_low)*ILD_min‘；

在当前帧或频点对应的两个麦克风的声压差不大于上一帧或频点对应的声压差的最小值时，利用以下公式计算所述两个麦克风在当前帧或频点对应的声压差的最小值，

ILD_min＝α_fast*ILD_now+(1-α_fast)*ILD_min，’；

其中，ILD_now表示当前帧或频点对应的两个麦克风的声压差，ILD_max表示当前帧或频点对应的声压差的最大值，ILD_max’表示上一帧或频点对应的声压差的最大值，ILD_min表示当前帧或频点对应的声压差的最小值，ILD_max’表示上一帧或频点对应的声压差的最小值，α_fast、α_low表示预设的步长值，且α_fast>α_low。

结合第一方面，一种可能的设计中，所述基于所述两个麦克风的声压差，确定出所述声音信号中是否包含后向声音信号，包括：

在所述两个麦克风在当前帧或频点对应的声压差小于第二门限值时，确定所述声音信号中包含后向声音信号；

在所述两个麦克风在当前帧或频点对应的声压差不小于第二门限值时，确定所述声音信号中不包含后向声音信号。

这种设计中，由于终端厚度一般比较薄，顶部正面和背面两个麦克风距离较近，利用时延差的声源定位不是很准确，在满足终端顶部正面和背面各包括一个麦克风的条件下，利用声压差判断声源方向，能够有效区分采集的声音信号是前向声音信号还是后向声音信号，提高目标声源的定位准确度，实现方式简单。

结合第一方面，一种可能的设计中，所述若确定出所述声音信号中包含后向声音信号，将所述声音信号中的后向声音信号进行滤除，包括：

若确定出所述声音信号中包含后向声音信号时，以顶部背面麦克风采集的声音信号作为参考信号，控制所述终端的自适应滤波器滤除顶部正面麦克风采集的声音信号中的后向声音信号。

结合第一方面，一种可能的设计中，若所述终端在底部左面还包括一个麦克风时，所述方法还包括：

在所述两个麦克风在当前帧或频点对应的声压差不小于第二门限值时，针对底部左面麦克风和顶部正面麦克风采集到的声音信号进行时延差定位，得到声音信号的上下方位角；

在所述上下方位角大于第一预设角度时，确定所述声音信号中包含次级噪声信号；

在所述上下方位角不大于第一预设角度时，确定所述声音信号中不包含次级噪声信号，所述次级噪声信号为位于所述摄像头前方的噪声信号；

若确定出所述声音信号中包含次级噪声信号时，以顶部背面麦克风采集的声音信号作为参考信号，控制所述终端的自适应滤波器滤除顶部正面麦克风采集的声音信号中的次级噪声信号。

这种设计中，在顶部正面和背面各包括一个麦克风的前提下，增加了底部左面的麦克风。利用顶部正面的麦克风和底部左面的麦克风进行时延差定位，实现声音信号的上下方向的区分，进一步提高目标声源的定位准确度，实现方式简单。

结合第一方面，一种可能的设计中，若所述终端在底部左面和底部右面各包括一个麦克风时，所述方法还包括：

在所述两个麦克风在当前帧或频点对应的声压差不小于第二门限值时，针对底部左面麦克风和顶部正面麦克风采集到的声音信号进行时延差定位，得到声音信号的上下方位角，针对底部左面麦克风和顶部正面麦克风采集到的声音信号进行时延差定位，得到声音信号的左右方位角；

在所述上下方位角大于第一预设角度或所述上下方位角大于第二预设角度，确定所述声音信号中包含次级噪声信号；

在所述上下方位角不大于第一预设角度且所述上下方位角不大于第二预设角度，确定所述声音信号中不包含次级噪声信号，所述次级噪声信号为位于所述摄像头前方的噪声信号。

这种设计中，在顶部正面和背面各包括一个麦克风的前提下，增加了底部左面和右面的两个麦克风。利用顶部正面的麦克风和底部左面的麦克风进行时延差定位，实现声音信号的上下方向的区分，利用底部左面的麦克风和底部右面的麦克风进行时延差定位，实现声音信号的左右方向的区分，从而实现声源的空间定位，进一步提高目标声源的定位准确度，实现方式简单。

第二方面，本发明实施例提供一种声源定位装置，所述装置应用于顶部具有两个麦克风的终端上，所述两个麦克风分别位于所述终端的正面和背面，所述装置包括：

第一确定单元，用于在所述终端处于视频通话状态时，确定所述终端的摄像头的摄像范围内是否存在目标用户；

计算单元，用于在所述确定单元确定出所述摄像范围内存在目标用户时，利用所述两个麦克风采集声音信号，并基于采集到的声音信号计算所述两个麦克风之间的声压差；

判断单元，用于利用所述两个麦克风的声压差，判断是否满足利用声压差判断声源方向的条件；

第二确定确定单元，用于在满足所述条件时，基于所述两个麦克风的声压差，确定出所述声音信号中是否包含后向声音信号，所述后向声音信号为位于所述摄像头后方的声音信号；

处理单元，用于在所述第二确定单元确定出所述声音信号中包含后向声音信号时，将所述声音信号中的后向声音信号进行滤除。

结合第二方面，一种可能的设计中，所述第一确定单元具体用于：

利用唇部运动检测技术，检测出存在唇部发生运动的用户。

结合第二方面，一种可能的设计中，所述计算单元具体用于：

其中，ILD_now表示当前帧或频点对应的两个麦克风的声压差；P₁表示顶部正面麦克风在当前帧或频点对应的声音功率谱，P₂表示顶部背面麦克风在当前帧或频点对应的声音功率谱。

结合第二方面，一种可能的设计中，所述判断单元具体用于：

ILD_max＝α_low*ILD_now+(1-α_low)*ILD_max’；

ILD_max＝α_fast*ILD_now+(1-α_fast)*LD_max′；

ILD_min＝α_low*ILD_now+(1-α_low)*ILD_min‘；

ILD_min＝α_fast*ILD_now+(1-α_fast)*ILD_min，’；

结合第二方面，一种可能的设计中，所述第二确定单元具体用于：

结合第二方面，一种可能的设计中，所述处理单元具体用于：

结合第二方面，一种可能的设计中，所述第二确定单元还用于：

所述处理单元，还用于若确定出所述声音信号中包含次级噪声信号时，以顶部背面麦克风采集的声音信号作为参考信号，控制所述终端的自适应滤波器滤除顶部正面麦克风采集的声音信号中的次级噪声信号。

在所述上下方位角不大于第一预设角度且所述上下方位角不大于第二预设角度，确定所述声音信号中不包含次级噪声信号，所述次级噪声信号为位于所述摄像头前方的噪声信号；

第三方面，本发明实施例提供一种终端设备，该终端设备具有实现上述方法中终端行为的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。

在一种可选的实现方案中，该终端设备的结构中包括麦克风、处理器和摄像头。

所述处理器被配置为支持终端设备执行上述方法中相应的功能，具体包括：在终端处于视频通话状态时，确定所述终端的摄像头的摄像范围内是否存在目标用户；若确定在所述摄像范围内存在目标用户，则利用所述两个麦克风采集声音信号，并基于采集到的声音信号计算所述两个麦克风之间的声压差；利用所述两个麦克风的声压差，判断是否满足利用声压差判断声源方向的条件；若满足所述条件，则基于所述两个麦克风的声压差，确定出所述声音信号中是否包含后向声音信号，所述后向声音信号为位于所述摄像头后方的声音信号；若确定出所述声音信号中包含后向声音信号，将所述声音信号中的后向声音信号进行滤除。

该终端设备还可以包括存储器和无线射频电路，所述存储器用于与处理器耦合，其保存终端必要的程序指令和数据，所述无线射频电路用于与各种网络制式的无线网络设备进行网络通信。

第四方面，本发明实施例提供一种计算机存储介质，用于储存为上述第一方面所述的终端所用的计算机软件指令，其包含用于执行上述方面所设计的程序。

通过上述方案，本发明的实施例中终端处于视频通话状态时，在低信噪比场景下，采用基于声压差的方法来判断声源方向，能够防止目标声源被当做束外噪声进行误抑制，从而提高目标声源的定位准确度和拾取精度。

附图说明

图1为终端的结构示意图；

图2A、图2B或图2C为本发明实施例中终端上的麦克风布局示意图；

图3为本发明实施例中声源定位方法的流程图；

图4A为终端前后两个麦克风能量相差dB数与ILD的关系示意图；

图4B为利用麦克风进行声源定位的声源方向判断示意图；

图5为基于相位差的声源定位技术原理图；

图6为广义互相关声源定位方法实现示意图；

图7为本发明实施例中的声源定位装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中，终端，可以是向用户提供语音和/或数据连通性的设备，具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备，比如：移动电话(或称为“蜂窝”电话)，可以是便携式、袖珍式、手持式、可穿戴设备(如智能手表、智能手环等)、平板电脑、个人电脑(PC，Personal Computer)、PDA(Personal Digital Assistant，个人数字助理)、POS(Point of Sales，销售终端)、车载电脑等。

图1示出了终端100的一种可选的硬件结构示意图。

参考图1所示，终端100可以包括射频单元110、存储器120、输入单元130、显示单元140、摄像头150、音频电路160、扬声器161、麦克风162、处理器170、外部接口180、电源190等部件，所述麦克风162可以是模拟麦克风或数字麦克风，能够实现正常的麦克风拾音功能，且麦克风的数量至少为2个，且麦克风的布局必须满足一定要求，具体可参阅图2A、图2B和图2C所示，可通过操作系统获取到底层麦克风采集到的声音数据，并保存在存储器120上，可实现基本的通话功能。

本领域技术人员可以理解，图1仅仅是便携式多功能装置的举例，并不构成对便携式多功能装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

所述输入单元130可用于接收输入的数字或字符信息，以及产生与所述便携式多功能装置的用户设置以及功能控制有关的键信号输入。具体地，输入单元130可包括触摸屏131以及其他输入设备132。所述触摸屏131可收集用户在其上或附近的触摸操作(比如用户使用手指、关节、触笔等任何适合的物体在触摸屏上或在触摸屏附近的操作)，并根据预先设定的程序驱动相应的连接装置。触摸屏可以检测用户对触摸屏的触摸动作，将所述触摸动作转换为触摸信号发送给所述处理器170，并能接收所述处理器170发来的命令并加以执行；所述触摸信号至少包括触点坐标信息。所述触摸屏131可以提供所述终端100和用户之间的输入界面和输出界面。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触摸屏。除了触摸屏131，输入单元130还可以包括其他输入设备。具体地，其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键132、开关按键133等)、轨迹球、鼠标、操作杆等中的一种或多种。

所述显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端100的各种菜单。进一步的，触摸屏131可覆盖显示面板141，当触摸屏131检测到在其上或附近的触摸操作后，传送给处理器170以确定触摸事件的类型，随后处理器170根据触摸事件的类型在显示面板141上提供相应的视觉输出。在本实施例中，触摸屏与显示单元可以集成为一个部件而实现终端100的输入、输出、显示功能；为便于描述，本发明实施例以触摸显示屏代表触摸屏和显示单元的功能集合；在某些实施例中，触摸屏与显示单元也可以作为两个独立的部件。

所述存储器120可用于存储指令和数据，存储器120可主要包括存储指令区和存储数据区，存储数据区可存储关节触摸手势与应用程序功能的关联关系；存储指令区可存储操作系统、至少一个功能所需的指令等；所述指令可使处理器170执行以下方法，具体方法包括：所述终端处于视频通话状态时，确定所述终端的摄像头150的摄像范围内是否存在目标用户；若确定在所述摄像范围内存在目标用户，则利用所述两个麦克风162采集声音信号，并基于采集到的声音信号计算所述两个麦克风之间的声压差；利用所述两个麦克风的声压差，判断是否满足利用声压差判断声源方向的条件；若满足所述条件，则基于所述两个麦克风的声压差，确定出所述声音信号中是否包含后向声音信号，所述后向声音信号为位于所述摄像头后方的声音信号；若确定出所述声音信号中包含后向声音信号，将所述声音信号中的后向声音信号进行滤除。

处理器170是终端100的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器120内的指令以及调用存储在存储器120内的数据，执行终端100的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器170可包括一个或多个处理单元；优选的，处理器170可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器170中。在一些实施例中，处理器、存储器、可以在单一芯片上实现，在一些实施例中，他们也可以在独立的芯片上分别实现。在本发明实施例中，处理器170还用于调用存储器中的指令以实现声源定位功能。

所述射频单元110可用于收发信息或通话过程中信号的接收和发送，特别地，将基站的下行信息接收后，给处理器170处理；另外，将设计上行的数据发送给基站。通常，RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，射频单元110还可以通过无线通信与网络设备和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，GSM)、通用分组无线服务(General PacketRadio Service，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

音频电路160、扬声器161、麦克风162可提供用户与终端100之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号，传输到扬声器161，由扬声器161转换为声音信号输出；另一方面，麦克风162将收集的声音信号转换为电信号，由音频电路160接收后转换为音频数据，再将音频数据输出处理器170处理后，经射频单元110以发送给比如另一终端，或者将音频数据输出至存储器120以便进一步处理，音频电路也可以包括耳机插孔163，用于提供音频电路和耳机之间的连接接口。

终端100还包括给各个部件供电的电源190(比如电池)，优选的，电源可以通过电源管理系统与处理器170逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

终端100还包括外部接口180，所述外部接口可以是标准的Micro USB接口，也可以使多针连接器，可以用于连接终端100与其他装置进行通信，也可以用于连接充电器为终端100充电。

尽管未示出，终端100还可以包括闪光灯、无线保真(wireless fidelity，WiFi)模块、蓝牙模块、各种传感器等，在此不再赘述。

图2所示的终端在视频通话场景中，用户使用移动终端例如手机，进行视频通话时，用户一般会面对手机前置摄像头。此时，手机背部方向的干扰噪声源，容易被定位成目标声源，进而导致目标声源被当做束外噪声进行误抑制，声源定位容易出现误判，准确性较差。因此，本发明实施例提供一种声源定位方法和装置，以提高声源定位的准确性，降低误判。

其中，终端100上的麦克风布局，可以为图2A、图2B或图2C中的任意一种布局。

图2A、图2B或图2C中的mic布局属于典型的直列式(endfire)布局。麦克风数量增多时，可以对波束的拾音范围进行更好的区分，使波束范围更准确，可实现空间3D声源定位。

采用图2A中的mic布局时，只能有效区分前后的信号。由于终端例如手机一般较薄，两个mic距离较近，利用时延差的定位不是很准确，而利用声压差的定位无法有效设定波束边界。当使用图2B中的mic布局时，增加了底部mic，可进行手机上下方向的声源方位区分。当使用图2C中的mic布局时，底部两个mic，可进行手机左右的声源方位区分，可实现空间3D的声源定位。

参阅图3所示，本发明实施例提供一种声源定位方法，所述方法可以应用在顶部具有两个麦克风的终端上，所述两个麦克风分别位于所述终端的正面和背面，所述终端可以为图1所示的终端100，具体流程包括如下步骤：

步骤31：终端处于视频通话状态时，确定所述终端的摄像头的摄像范围内是否存在目标用户。

具体的，所述终端处于视频通话状态时，在所述终端的摄像头的摄像范围内存在目标用户，可以包括以下三种情形：

第一种情形：利用人像识别技术在所述摄像范围内检测出存在任一用户。

第二种情形：利用人脸识别技术在所述摄像范围内检测出存在脸部特征与预存的人脸模板相同的用户。

第三种情形：利用唇部运动检测技术，检测出存在唇部发生运动的用户。

步骤32：若确定在所述摄像范围内存在目标用户，则利用所述两个麦克风采集声音信号，并基于采集到的声音信号计算所述两个麦克风之间的声压差。

具体的，利用所述两个麦克风采集声音信号，并基于采集到的声音信号计算所述两个麦克风之间的声压差，可以通过以下过程实现：

所述终端利用所述终端的顶部正面和背面两个麦克风采集声音信号，分别为S1、S2；基于S1、S2，利用快速傅里叶变换(Fast Fourier Transformation，FFT)算法计算S1、S2的功率谱，分别为P1、P2；根据P1、P2，利用以下公式计算所述两个麦克风之间的声压差。

其中，所述两个麦克风的声压差的计算方法具体过程如下：

首先将所述两个麦克风采集到的声音信号x(n)发送到FFT模块，FFT模块负责对采集到的声音信号进行时频变换，得到信号的频谱。具体的，FFT模块采用短时傅立叶变换(Short-Time Fourier Transform，STFT)对信号进行处理。

这里以顶部正面和背面两个麦克风为例，假定两个麦克风拾取的声音信号为x_i(n)，其中i＝1，2，经过傅里叶变换后得到信号x_i(k，l)，k代表发送频点，l代表帧数。则信号的功率谱计算两个mic的声压差(interaural leveldifference，ILD)采用如下公式计算：

图4A为顶部正面和背面两个mic能量相差分贝(dB)数与ILD的关系。

如图4A所示，ILD的取值范围是-1～1。1代表当前帧或频点顶部正面麦克风能量显著大于顶部背面麦克风能量，属于前向声音信号，-1代表当前帧或频点顶部背面麦克风能量显著大于顶部正面麦克风能量，属于后向声音信号。

步骤33：利用所述两个麦克风的声压差，判断是否满足利用声压差判断声源方向的条件。

具体的，利用所述两个麦克风的声压差，判断是否满足利用声压差判断声源方向的条件，包括以下过程：

利用当前帧或频点对应的所述两个麦克风的声压差，计算所述两个麦克风在当前帧或频点对应的声压差的最大值和声压差的最小值；在所述两个麦克风在当前帧或频点对应的声压差的最大值与声压差的最小值之差大于第一门限值时，确定满足利用声压差判断声源方向的条件；在所述声压差的最大值与所述声压差的最小值之差不大于第一门限值时，确定不满足利用声压差判断声源方向的条件。

这里，用ILD_max表示当前帧或频点对应的声压差的最大值，ILD_min表示当前帧或频点对应的声压差的最小值，ILD_max和ILD_min在某一初始时刻的初始值可以设为0或者设为初始时刻对应的顶部正面和顶部背面两个麦克风的声压差，具体的，当ILD_max-ILD_min＞第一门限时，认为当前ILD信息有效，否则认为当前ILD信息无效，不执行步骤34基于ILD的声源的前后向判别，其中，ILDmax就是基于当前帧或频点对应的两个麦克风的声压差计算的声压差的最大值，ILDmin就是基于当前帧或频点对应的两个麦克风的声压差计算的声压差的最小值。

其中，ILD_max、ILD_min计算方法如下：

ILD_max＝α_low*ILD_now+(1-α_1ow)*ILD_max’；

ILD_max＝α_fast*ILD_now+(1-α_fast)*LD_max′；

ILD_min＝α_low*ILD_now+(1-α_low)*ILD_min‘；

ILD_min＝α_fast*ILD_now+(1-α_fast)*ILD_min，’；

其中α_fast、α_low表示预设的步长值，且α_fast＞α_low，建议分别为0.95和0.05，ILD_now表示当前帧或频点对应的两个麦克风的声压差，ILD_max’表示上一帧或频点对应的声压差的最大值，ILD_min’表示上一帧或频点对应的声压差的最小值，由此可知ILD_max表示是基于当前帧或频点的声压差ILD_now和上一帧或频点的声压差最大值进行平滑得到的，ILD_min是基于当前帧上一帧或频点的声压差最小值进行平滑得到的。

步骤34：若满足所述条件，则基于所述两个麦克风的声压差，确定出所述声音信号中是否包含后向声音信号，所述后向声音信号为位于所述摄像头后方的声音信号。

需要说明的是，本发明实施例中的摄像头后方依据开启的摄像头的方位来具体确定，如果终端开启的是前置摄像头，摄像头后方指的是终端背面之后的方向；如果终端开启的是后置摄像头，摄像头后方指的是终端正面之前的方向。此外，后向声音信号属于需要滤除的噪声信号。

进一步的，基于终端的顶部正面和背面两个麦克风的声压差，确定所述声音信号中是否包含噪声信号，并在确定出所述声音信号中包括噪声信号时，将噪声信号滤除，具体的，可以包括以下三种情形：

第一种情形：如图2A所示，仅在终端的顶部正面和背面各具有1个麦克风的布局情形下，在所述两个麦克风在当前帧或频点对应的声压差小于第二门限值时，确定所述声音信号中包含后向声音信号；在所述两个麦克风在当前帧或频点对应的声压差不小于第二门限值时，确定所述声音信号中不包含后向声音信号；若确定出所述声音信号中包含后向声音信号时，以顶部背面麦克风采集的声音信号作为参考信号，控制所述终端的自适应滤波器滤除顶部正面麦克风采集的声音信号中的后向声音信号。

这种情形下的后向声音信号即为待滤出的噪声信号。

第二种情形：如图2B所示，仅在终端的顶部正面和背面以及底部左面各具有1个麦克风的布局情形下，其中底部左面的麦克风与顶部正面的麦克风之间的连线呈垂直方向，此时，在所述两个麦克风在当前帧或频点对应的声压差小于第二门限值时，确定所述声音信号中包含后向声音信号；在所述两个麦克风在当前帧或频点对应的声压差不小于第二门限值时，针对底部左面麦克风和顶部正面麦克风采集到的声音信号进行时延差定位，得到声音信号的上下方位角；在所述上下方位角大于第一预设角度时，确定所述声音信号中包含次级噪声信号；在所述上下方位角不大于第一预设角度时，确定所述声音信号中不包含次级噪声信号；若确定出所述声音信号中包含次级噪声信号时，以顶部背面麦克风采集的声音信号作为参考信号，控制所述终端的自适应滤波器滤除顶部正面麦克风采集的声音信号中的次级噪声信号和后向声音信号。

第三种情形：如图2C所示，在终端的顶部正面和背面以及底部左面和右面各具有1个麦克风的布局情形下，其中底部左面的麦克风与顶部正面的麦克风之间的连线呈垂直方向，底部左面的麦克风与底部右面的麦克风之间的连线呈水平方向，此时，在所述两个麦克风在当前帧或频点对应的声压差小于第二门限值时，确定所述声音信号中包含后向声音信号；在所述两个麦克风在当前帧或频点对应的声压差不小于第二门限值时，若所述终端在底部左面和底部右面各包括一个麦克风时，针对底部左面麦克风和顶部正面麦克风采集到的声音信号进行时延差定位，得到声音信号的上下方位角，针对底部左面麦克风和顶部正面麦克风采集到的声音信号进行时延差定位，得到声音信号的左右方位角；在所述上下方位角大于第一预设角度或所述上下方位角大于第二预设角度，确定所述声音信号中包含次级噪声信号；在所述上下方位角不大于第一预设角度且所述上下方位角不大于第二预设角度，确定所述声音信号中不包含次级噪声信号；若确定出所述声音信号中包含次级噪声信号时，以顶部背面麦克风采集的声音信号作为参考信号，控制所述终端的自适应滤波器滤除顶部正面麦克风采集的声音信号中的次级噪声信号和后向声音信号。

上述第二种情形和第三种情形下的次级噪声信号和后向声音信号都属于需要滤除的噪声信号，其中，所述次级噪声信号为位于所述摄像头前方的噪声信号。

由此可知，可以利用终端前后两个麦克风声压差信息，进行前后向的声源方位估计。同时，也可以利用时延差信息进行前后向的声源方位估计，如图4B中θ₁角，即为利用前后麦克风的时延差进行方位估计得到的角度值。具体计算方法参照图5中的时延差计算方法。这里前后麦克风分别指的是顶部正面和背面的麦克风。

当底部存在麦克风时，类似图2B中的麦克风布局。增加了底部左面麦克风，图4B中用mic2表示，此时利用底部的mic2和前mic，采用基于时延差的方位角估计方法，计算θ₂。当底部具有两个麦克风时，类似图2C中的麦克风布局。增加了底部左面和右面麦克风，图4B中分别用mic2、mic1表示，此时可利用底部mic1和底部mic2，采用基于时延差的方位角估计方法，计算θ₃。如图4B中所示，前后mic可对x、y、z轴中的x轴进行角度解析，前mic和底部mic2可对y轴进行角度解析，底部mic1和底部mic2可对z轴进行方位角解析。

此时，通过三个角度值θ₁、θ₂、θ₃，即可实现空间的声源定位功能。这里目的是为了定位出目标声源是否在摄像头可见范围内。

已知，摄像头的视场角在终端上的显示，为两个开角，开角1对应z轴方向，开角2对应y轴方向。那么本算法首先利用声压差或时延差的角度估计方法，区分了前后向的声源信号，接下来就是利用θ₂对y轴的开角进行约束，当θ₂大于摄像头的开角2时，此时的声音信号为噪声声源，即后向声音信号，反之为目标声源，即前向声音信号。θ₃同理，当θ₃大于开角1时，为噪声声源，即后向声音信号，反之为目标声源，即前向声音信号。

由此可知，基于声压差的声源定位方法，在麦克风布局为图2A所示的情形下，可以得到当前帧或频点的声音信号为前向声音信号还是后向声音信号，在当前帧信号为前向声音信号时，认为是目标声源，输出语音活动检测(Voice Activity Detection，VAD)标志为0；在当前帧或频点的声音信号为后向声音信号时，认为是噪声声源，输出VAD标志为1；在麦克风布局为图2B和图2C所示的情形下，可以得到当前帧或频点的声音信号为前向声音信号还是后向声音信号，在当前帧或频点的声音信号为后向声音信号时，认为是噪声声源，输出VAD标志为1；在当前帧信号为前向声音信号时，进一步的确定是否包括次级噪声信号，若不包括次级噪声信号，则认为是目标声源，输出语音活动检测(Voice ActivityDetection，VAD)标志为0；否则，输出VAD标志为1；VAD标志默认为0。

需要说明的是，在当前ILD信息无效时，即利用顶部正面和背面两个麦克风的声压差，确定不满足利用声压差判断声源方向的条件，此时，使用传统的基于相位差的声源定位技术进行声源定位判断，具体方法如下所示：

如图5所示，当远场声源信号平行入射时，由于入射角的不同，信号到达两个mic存在时间差，时间差信息对于任一频率的波形信号来说，就是其相位的变化量，即相位差。

当入射角为0°，相位差f为频率，c为声速，d为mic间距，0°入射时，这里等于0，180°入射时等于π。图5中h可理解为两个mic的相位差，d为两个mic的最大相位差，入射角＝asin(h/d)。其中，最大相位差为两个mic的相位差为频点复数信号的相位角差(复数可用三角函数表示为x+yi＝|A|(cosθ+i sinθ)，A为复数的模)。

基于整帧的相位差声源定位方法有很多种，比较常见的是广义互相关(GCC)声源定位方法，GCC实现方法如图6所示：

图6中的x₁，x₂为两个mic的一帧时域样点，FFT为快速傅里叶变换，通过计算得到的峰值索引τ₁₂，即对应的时延样点数，则入射角可按下式进行计算：c为声速，d为mic间距，Fs为采样率。

基于相位差的声源定位方法，可以得到当前帧信号的整帧及频点入射角，当整帧和频点入射角都在波束拾取范围外(波束范围事先设定好)时，认为是后向声音信号即为噪声声源，输出VAD标志为1；否则认为是前向声音信号即为目标声源，输出VAD标志为0，VAD标志默认为0。

具体的，在VAD标志输出为0时，将顶部后面麦克风采集的声音信号作为参考信号，控制所述终端的自适应滤波器滤除顶部正面麦克风采集的声音信号中的噪声信号。具体的实现过程为：将VAD标志输出给波束形成器，可选的，采用归一化最小均方误差(NLMS)滤波器，NLMS需要用参考信号自适应产生期望信号，并用期望信号减去目标信号，从而得到残差信号，并以残差最小为设计导向。NLMS的滤波器步长，通过上述声源定位结果进行指导，当判断为前向声音信号即目标声源时，滤波器步长为0，不更新。当判断为后向声音信号即为噪声源时，滤波器步长最大，进行更新。这里滤波器的参考信号使用的是与目标用户相反方向的信号。比如：说话人在屏幕正前方时，参考信号选取终端顶部背面mic的信号。反之亦然。将更新好的滤波器系数乘以输入(in)信号，得到滤除后向噪声成分的输出信号。

进一步的，针对波束后的信号，再利用声源定位结果，指导波束后的后处理降噪。当频点的声源定位结果为噪声时，更新该频点的噪声能量，并使用传统的维纳滤波算法，进行后处理增益压制。对波束形成后的信号，进行进一步的降噪处理。

接着，将后处理处理后的信号，送给回声消除模块，进行进一步的回声消除。由于波束形成及后处理部分，本身对回声信号已有一定的消除作用。因为该场景下，喇叭所处的位置一般在手机的底部或背部，喇叭产生的信号方位，属于噪声方位。所以，相较于传统的回声消除技术，麦克风阵列的波束形成及后处理技术，会使回声更小，更易于消除。

因为中高频信号被终端遮挡时，可产生显著的遮挡效应。当低信噪比或多声源场景时，时延差信息已经非常浑浊，是多个方位声源的混合。基于时延差的声源定位的结果呈现随机性。此时，声压差信息，虽然也是混合的。但是只要终端正面和背面的声源，在两个mic上产生的声压差，有相对的差异性，即可利用进行声源定位，尤其视频通话场景，当说话人、噪声源等声源，距离终端不是很远时，该声压差信息更加可靠。

基于上述实施例，如图7所示，基于上述实施例提供的声源定位方法，本发明实施例提供一种声源定位装置700，所述装置700应用于顶部具有两个麦克风的终端上，所述两个麦克风分别位于所述终端的正面和背面，如图7所示，该装置700包括第一确定单元701、计算单元702、判断单元703、第二确定单元704和处理单元705，其中：

第一确定单元701，用于在所述终端处于视频通话状态时，确定所述终端的摄像头的摄像范围内是否存在目标用户；

计算单元702，用于在所述确定单元701确定出所述摄像范围内存在目标用户时，利用所述两个麦克风采集声音信号，并基于采集到的声音信号计算所述两个麦克风之间的声压差；

判断单元703，用于利用所述两个麦克风的声压差，判断是否满足利用声压差判断声源方向的条件；

第二确定单元704，还用于在满足所述条件时，基于所述两个麦克风的声压差，确定出所述声音信号中是否包含后向声音信号，所述后向声音信号为位于所述摄像头后方的声音信号；

处理单元705，用于在所述第二确定单元704确定出所述声音信号中包含后向声音信号时，将所述声音信号中的后向声音信号进行滤除。

可选的，所述第一确定单元701具体用于：

利用唇部运动检测技术，检测出存在唇部发生运动的用户。

可选的，所述计算单元702具体用于：

可选的，所述判断单元703具体用于：

ILD_max＝α_low*ILD_now+(1-α_low)*ILD_max’；

ILD_max＝α_fast*ILD_now+(1-α_fast)*LD_max′；

ILD_min＝α_low*ILD_now+(1-α_low)*ILD_min‘；

ILD_min＝α_fast*ILD_now+(1-α_fast)*ILD_min，’；

可选的，所述第二确定单元704具体用于：

可选的，所述处理单元705具体用于：

可选的，所述第二确定单元704还用于：

所述处理单元705，还用于若确定出所述声音信号中包含次级噪声信号时，以顶部背面麦克风采集的声音信号作为参考信号，控制所述终端的自适应滤波器滤除顶部正面麦克风采集的声音信号中的次级噪声信号。

可选的，所述第二确定单元704还用于：

需要说明的是，本发明实施例中的装置700的各个单元的功能实现以及交互方式可以进一步参照相关方法实施例的描述，在此不再赘述。

应理解以上装置700中的各个单元的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。例如，以上各个单元可以为单独设立的处理元件，也可以集成在终端的某一个芯片中实现，此外，也可以以程序代码的形式存储于控制器的存储元件中，由控制器的某一个处理元件调用并执行以上各个单元的功能。此外各个单元可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个单元可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。该处理元件可以是通用处理器，例如中央处理器(英文：central processing unit，简称：CPU)，还可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(英文：application-specific integrated circuit，简称：ASIC)，或，一个或多个微处理器(英文：digital signal processor，简称：DSP)，或，一个或者多个现场可编程门阵列(英文：field-programmable gate array，简称：FPGA)等。

基于上述实施例，本发明实施例还提供了一种具有声源定位功能的终端，该终端的硬件实现可参考图1及其相关描述。其中：

执行本发明方案的程序代码保存在存储器120中，用于指令处理器170与麦克风162、摄像头150配合执行图3所示的声源定位方法，具体包括：在所述终端处于视频通话状态时，确定所述终端的摄像头150的摄像范围内是否存在目标用户；在所述确定单元确定出所述摄像范围内存在目标用户时，利用所述两个麦克风162采集声音信号，并基于采集到的声音信号计算所述两个麦克风之间的声压差；利用所述两个麦克风的声压差，判断是否满足利用声压差判断声源方向的条件；在满足所述条件时，基于所述两个麦克风的声压差，确定出所述声音信号中是否包含后向声音信号，所述后向声音信号为位于所述摄像头150后方的声音信号；在确定出所述声音信号中包含后向声音信号时，将所述声音信号中的后向声音信号进行滤除。

可选的，所述处理器170具体用于：

利用唇部运动检测技术，检测出存在唇部发生运动的用户。

可选的，所述处理器170具体用于：

ILD_max＝α_low*ILD_now+(1-α_low)*ILD_max’；

ILD_max＝α_fast*ILD_now+(1-α_fast)*LD_max′；

ILD_min＝α_low*ILD_now+(1-α_low)*ILD_min‘；

ILD_min＝α_fast*ILD_now+(1-α_fast)*ILD_min，’；

可选的，所述处理器170具体用于：

可选的，处理器170还用于：

该终端的其他可选实现方式可参考图2～图6所示的流程中终端的处理过程。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种声源定位方法，其特征在于，所述方法应用于顶部具有两个麦克风的终端上，所述两个麦克风分别位于所述终端的正面和背面，所述方法包括：

所述终端处于视频通话状态时，确定所述终端的摄像头的摄像范围内是否存在目标用户；

若确定在所述摄像范围内存在目标用户，则利用所述两个麦克风采集声音信号，并基于采集到的声音信号计算所述两个麦克风之间的声压差；

利用所述两个麦克风的声压差，判断是否满足利用声压差判断声源方向的条件；

若满足所述条件，则基于所述两个麦克风的声压差，确定出所述声音信号中是否包含后向声音信号，所述后向声音信号为位于所述摄像头后方的声音信号；

若确定出所述声音信号中包含后向声音信号，将所述声音信号中的后向声音信号进行滤除。

2.如权利要求1所述的方法，其特征在于，所述确定在所述摄像范围内存在目标用户，包括：

利用唇部运动检测技术，检测出存在唇部发生运动的用户。

3.如权利要求1所述的方法，其特征在于，所述利用所述两个麦克风采集声音信号，并基于采集到的声音信号计算所述两个麦克风之间的声压差，包括：

4.如权利要求3所述的方法，其特征在于，所述利用所述两个麦克风的声压差，判断是否满足利用声压差判断声源方向的条件，包括：

5.如权利要求4所述的方法，其特征在于，所述利用当前帧或频点对应的所述两个麦克风的声压差，计算所述两个麦克风在当前帧或频点对应的声压差的最大值和声压差的最小值，包括：

ILD_max＝α_low*ILD_now+(1-α_low)*ILD_max’；

ILD_max＝α_fast*ILD_now+(1-α_fast)*LD_max′；

ILD_min＝α_low*ILD_now+(1-α_low)*ILD_min‘；

ILD_min＝α_fast*ILD_now+(1-α_fast)*ILD_min，’；

其中，ILD_now表示当前帧或频点对应的两个麦克风的声压差，ILD_max表示当前帧或频点对应的声压差的最大值，ILD_max’表示上一帧或频点对应的声压差的最大值，ILD_min表示当前帧或频点对应的声压差的最小值，ILD_min’表示上一帧或频点对应的声压差的最小值，α_fast、α_low表示预设的步长值，且α_fast>α_low。

6.如权利要求1-5任一项所述的方法，其特征在于，所述基于所述两个麦克风的声压差，确定出所述声音信号中是否包含后向声音信号，包括：

7.如权利要求6所述的方法，其特征在于，所述若确定出所述声音信号中包含后向声音信号，将所述声音信号中的后向声音信号进行滤除，包括：

8.如权利要求1-5任一项所述的方法，其特征在于，若所述终端在底部左面还包括一个麦克风时，所述方法还包括：

9.如权利要求1-5任一项所述的方法，其特征在于，若所述终端在底部左面和底部右面各包括一个麦克风时，所述方法还包括：

10.一种声源定位装置，其特征在于，所述装置应用于顶部具有两个麦克风的终端上，所述两个麦克风分别位于所述终端的正面和背面，所述装置包括：

第二确定单元，用于在满足所述条件时，基于所述两个麦克风的声压差，确定出所述声音信号中是否包含后向声音信号，所述后向声音信号为位于所述摄像头后方的声音信号；

11.如权利要求10所述的装置，其特征在于，所述第一确定单元具体用于：

利用唇部运动检测技术，检测出存在唇部发生运动的用户。

12.如权利要求10所述的装置，其特征在于，所述计算单元具体用于：

13.如权利要求12所述的装置，其特征在于，所述判断单元具体用于：

14.如权利要求13所述的装置，其特征在于，所述判断单元具体用于：

ILD_max＝α_low*ILD_now+(1-α_low)*ILD_max’；

ILD_max＝α_fast*ILD_now+(1-α_fast)*LD_max′；

ILD_min＝α_low*ILD_now+(1-α_low)*ILD_min‘；

ILD_min＝α_fast*ILD_now+(1-α_fast)*ILD_min，’；

15.如权利要求10-14任一项所述的装置，其特征在于，所述第二确定单元具体用于：

16.如权利要求15所述的装置，其特征在于，所述处理单元具体用于：

17.如权利要求10-14任一项所述的装置，其特征在于，所述第二确定单元还用于：

18.如权利要求10-14任一项所述的装置，其特征在于，所述第二确定单元还用于：

19.一种终端设备，其特征在于，包括：麦克风、摄像头、存储器、处理器，所述存储器用于存储计算机程序，所述处理器用于读取所述存储器中存储的所述计算机程序并实现如权利要求1～9任一项所述的方法。

20.如权利要求19所述的终端设备，所述终端设备还包括天线系统、所述天线系统在处理器的控制下，收发无线通信信号实现与移动通信网络的无线通信。

21.如果权利要求20所述的终端设备，所述移动通信网络包括以下的一种或多种：GSM网络、CDMA网络、3G网络、FDMA、TDMA、PDC、TACS、AMPS、WCDMA、TDSCDMA、WIFI以及LTE网络。