CN108958699B

CN108958699B - 语音拾取方法及相关产品

Info

Publication number: CN108958699B
Application number: CN201810822597.6A
Authority: CN
Inventors: 郑志勇; 柳明
Original assignee: Oppo Chongqing Intelligent Technology Co Ltd
Current assignee: Oppo Chongqing Intelligent Technology Co Ltd
Priority date: 2018-07-24
Filing date: 2018-07-24
Publication date: 2021-12-07
Anticipated expiration: 2038-07-24
Also published as: CN108958699A

Abstract

本申请实施例公开了一种语音拾取方法，应用于电子设备，所述电子设备包括主麦克风和副麦克风，其中：获取所述主麦克风输入的目标音频信号；确定所述目标音频信号的目标音色特征；若所述目标音色特征与预设音色特征匹配失败，确定所述主麦克风被堵塞，获取所述主麦克风输入的第一音频信号和所述副麦克风输入的第二音频信号；对所述第一音频信号和所述第二音频信号进行处理得到目标语音。采用本申请，可提高语音拾取质量。

Description

语音拾取方法及相关产品

技术领域

本申请涉及通信技术领域，主要涉及了一种语音拾取方法及相关产品。

背景技术

目前，电子设备(如手机)设置了多个麦克风，包括单个主麦克风和多个副麦克风，其中：主麦克风主要作为输入麦克风，副麦克风主要作为降噪麦克风，可抑制拾取范围内的环境噪声，提高语音拾取质量。

发明内容

本申请实施例提供了一种语音拾取方法及相关产品，可提高语音拾取质量，便于提高用户体验。

第一方面，本申请实施例提供一种语音拾取方法，应用于电子设备，所述电子设备包括主麦克风和副麦克风，其中：

获取所述主麦克风输入的目标音频信号；

确定所述目标音频信号的目标音色特征；

若所述目标音色特征与预设音色特征匹配失败，确定所述主麦克风被堵塞，获取所述主麦克风输入的第一音频信号和所述副麦克风输入的第二音频信号；

对所述第一音频信号和所述第二音频信号进行处理，得到目标语音。

第二方面，本申请实施例提供一种语音拾取装置，应用于电子设备，所述电子设备包括主麦克风和副麦克风，其中：

获取单元，用于获取所述主麦克风输入的目标音频信号；

确定单元，用于确定所述目标音频信号的目标音色特征；若所述目标音色特征与预设音色特征匹配失败，确定所述主麦克风被堵塞；

所述获取单元，还用于获取所述主麦克风输入的第一音频信号和所述副麦克风输入的第二音频信号；

处理单元，用于对所述第一音频信号和所述第二音频信号进行处理，得到目标语音。

第三方面，本申请实施例提供一种电子设备，包括处理器、存储器、通信接口以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，所述程序包括用于如第一方面中所描述的部分或全部步骤的指令。

第四方面，本申请实施例提供了一种计算机可读存储介质，其中，所述计算机可读存储介质存储计算机程序，其中，所述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。

第五方面，本申请实施例提供了一种计算机程序产品，其中，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

实施本申请实施例，将具有如下有益效果：

采用了上述的语音拾取方法及相关产品之后，应用于包括主麦克风和副麦克风的电子设备。所述电子设备获取所述主麦克风输入的目标音频信号，确定所述目标音频信号的目标音色特征，若所述目标音色特征与预设音色特征匹配失败，确定所述主麦克风被堵塞，获取所述主麦克风输入的第一音频信号和所述副麦克风输入的第二音频信号，对所述第一音频信号和所述第二音频信号进行处理得到目标语音。也就是说，根据目标音频信号的目标音色特征和预设音色特征进行匹配，若匹配失败，确定主麦克风被堵塞，通过主麦克风和副麦克风同时采集音频信号，提高语音提取质量，便于提高用户体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1A为本申请实施例提供的一种语音拾取方法的流程示意图；

图1B为本申请实施例提供的一种电子设备的侧面示意图；

图1C为本申请实施例提供的一种电子设备的正面示意图；

图1D为本申请实施例提供的另一种电子设备的侧面示意图；

图2为本申请实施例提供的一种语音拾取装置的结构示意图；

图3为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例所涉及到的电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备，以及各种形式的用户设备(user equipment，UE)，移动台(mobile station，MS)，终端设备(terminaldevice)等等。为方便描述，上面提到的设备统称为电子设备。下面对本申请实施例进行详细介绍。

请参照图1A，本申请实施例提供一种语音拾取方法的流程示意图。该语音拾取方法应用于电子设备，请参照图1B和图1C，其中：图1B为电子设备的侧面示意图，图1C为电子设备的正面示意图。如图1B所示，主麦克风12位于电子设备100的底端的侧面。如图1C所示，副麦克风14位于电子设备100的顶端的正面，听筒15旁边。

需要说明的是，本申请所涉及的电子设备可能包括多个副麦克风，如图1D所示的另一种电子设备的侧面示意图，如图1D所示，副麦克风14位于电子设备100的顶端。此外还可位于电子设备的背面的闪光灯的边上，在此不做限定。

若主麦克风故障时，可选取多个副麦克风中的一个副麦克风作为主麦克风，对于选取方法不做限定，可多个副麦克风分别采集音频信号，根据音频信号的强度确定作为主麦克风的副麦克风；也可确定目标用户的位置，根据其位置选取作为主麦克风的副麦克风等。

具体的，如图1A所示，一种语音拾取方法，包括：

S101：获取主麦克风输入的目标音频信号。

在本申请实施例中，目标音频信号为电子设备运行通话或录音类型的应用或功能时主麦克风所输入的音频信号，可以是完整的音频信号，也可以是指定时长内的音频信号。本申请对于指定时长不做限定，可为1秒等较短的时间，则在主麦克风故障时，选用备选方案，从而提高故障处理能力和语音拾取质量。

上述的通话或录音类型的应用或功能包括通话应用、视频通话功能、语音通话功能、发送语音信息功能、录音功能、录制视频功能等，在此也不做限定。

S102：确定所述目标音频信号的目标音色特征。

在本申请实施例中，可采用声音识别技术对目标音频信号进行解析，从而得到目标音色特征，对于具体的解析方法不做限定。

可选的，所述确定所述目标音频信号的目标音色特征包括：根据所述目标图像确定所述目标用户的身体状态和面部状态；确定所述目标音频信号的音调变化曲线；根据所述音调变化曲线、所述身体状态和所述面部状态确定所述目标音色特征。

在可选实施例中，电子设备还包括摄像头，如图1C所示的电子设备包括前置摄像头16。需要说明的是，本申请以前置摄像头举例，可旋转的摄像头和后者摄像头也可为上述方法所提及的摄像头，获取摄像头采集的目标用户的目标图像。

由于不同身体状态下，声音特征不同，例如：感冒时声音可能沙哑一些，身体虚弱时声音较小，运动后声音急促等。

面部状态包括面部表情，还包括面部装饰，例如：口罩、眼镜、耳环，耳机等。由于不同面部表情下，声音特征也不同，例如：高兴时声音愉快，沮丧时声音低沉等。而口罩和耳机的佩戴易影响发声。

可以理解，通过目标图像可确定目标用户的面部状态和身体状态，对目标音频信号进行声音识别以确定音调变化曲线，从而根据音调变化曲线、身体状态和面部状态确定目标音色特征，可提高确定目标音色特征的准确性，便于提高确定主麦克风是否被堵塞的准确性。

S103：若所述目标音色特征与预设音色特征匹配失败，确定所述主麦克风被堵塞，获取所述主麦克风输入的第一音频信号和副麦克风输入的第二音频信号。

在本申请实施例中，预设音色特征用于确定主麦克风是否被堵塞，即在目标音色特征与预设音色特征匹配成功时，确定主麦克风被堵塞。

对于目标音色特征与预设音色特征的匹配方法不做限定，可将目标音频信号划分为多个片段，根据多个片段中每一片段对应的音色特征与预设音色特征进行匹配得到多个匹配值，然后获取多个匹配值的平均值或加权平均值以得到目标匹配值，根据目标匹配值与预设匹配值确定主麦克风是否被堵塞，即在目标匹配值小于预设匹配值时，确定主麦克风未被堵塞；在目标匹配值大于或等于预设匹配值时，确定主麦克风未被堵塞。

对于确定预设音色特征的方法不做限定，可对多条语音拾取记录进行分析统计，以得到与音色特征对应的映射关系，从而在确定映射关系对应的目标对象时，可快速确定预设音色特征，并提高确定预设音色特征的准确性。

可选的，所述方法还包括：获取摄像头采集的目标图像；根据所述目标图像确定所述目标用户的发声状态；确定所述电子设备的环境状态；根据所述发声状态和所述环境状态确定所述预设音色特征。

如上述的，可通过摄像头采集目标用户的目标图像，由于目标图像可反映目标用户的面部状态和身体状态，而不同的面部状态和身体状态对应不同的声音特征，则可预先录入目标用户处于不同身体状态和不同面部状态对应的音频信号，从而确定不同身体状态和不同面部状态对应的预设声音特征，即在确定身体状态和面部状态时，可快速确定预设音色特征，并提高确定预设音色特征的准确性。

进一步的，所述根据所述目标图像确定发声状态包括：根据所述目标图像确定所述目标用户的身体状态和面部状态；根据所述身体状态和所述面部状态确定所述发声状态。

可以理解，先确定目标图像中目标用户的身体状态，再根据身体状态确定发声状态，可提高确定发声状态的准确性，即提高了预设声音特征的准确性，便于提高获取目标音色特征和预设音色特征之间的目标匹配值的准确性。

在可选实施例中，环境状态包括目标用户与电子设备之间的目标距离，也可包括电子设备所处的位置信息，例如：地理位置、环境空间大小等，还可包括环境声音。

由于不同环境状态下，声音特征不同，例如：环境声音较大时，音量可能偏大，噪声较多；环境空间偏大时，音量可能偏小；目标距离较远时，音量偏小等，则可根据环境状态确定预设音色特征，从而提高预设音色特征的准确性。

对于获取目标用户与电子设备之间的目标距离不做限定，可通过脑电波传感器获取目标用户的脑电波信号，然后根据脑电波信号的强弱确定目标距离；也可通过接近传感器直接获取目标用户与电子设备之间的目标距离等。

其中，脑电波传感器用于采集脑电波信号，脑电波(electroencephalogram，EEG)是在大脑在活动时，大量神经元同步发生的突触后电位经总和后形成的生理指标记录，记录了大脑活动时的电波变化，是脑神经细胞的电生理活动在大脑皮层或头皮表面的总体反映。

在其中一个示例中，所述电子设备还包括脑电波传感器，所述方法还包括：所述根据所述脑电波信号确定所述目标用户与所述电子设备之间的目标距离包括：通过脑电波传感器获取目标用户的脑电波信号；确定所述脑电波信号的目标活跃度和目标信号强度；从预设的映射关系集中选取与所述目标活跃度对应的目标映射关系；根据所述目标映射关系确定与所述目标信号强度对应的目标距离。

本申请对于脑电波信号的解析方法不作限定，可以采用频域分析方法，也可以是经典的时频域结合分析方法，比如时空模式分析、统计分析、空间滤波、快速傅里叶变换、自回归模型系数，小波和小波包的系数均值和方差、双语估计以及希尔伯特黄变换等。

在本申请中，可采用上述的解析方法对脑电波信号进行解析，根据解析脑电波信号之后得到特征参数，其中，特征参数可以是频率数据、幅度数据、能量数据和相位数据中的至少一种数据。在得到特征参数之后，可对特征参数进行处理或直接根据特征参数进行匹配，从而确定目标活跃度和目标信号强度。

本申请对于目标活跃度的获取方法不作限定，可选的，获取满足预设条件的目标特征参数；获取所述目标特征参数对应的能量谱；根据所述能量谱确定所述目标活跃度。

其中，对于预设条件不作限定，例如，当特征参数为频率数据，且预设条件为大于13Hz时，则目标特征参数的频率大于13Hz。可以理解，本申请仅获取满足预设条件的目标特征参数对应的能量谱，从而根据能量谱确定目标活跃度，便于根据目标活跃度的准确性。

本申请实施例对于目标信号强度的获取方法不作限定，可根据特征参数确定所述目标信号强度，即直接根据脑电波信号对应的特征参数确定目标信号强度；也可以生成脑电波信号对应的脑电图，获取模板脑电图集合中与所述脑电图匹配的目标模板脑电图，确定所述目标模板脑电图对应的信号强度为所述目标信号强度。

在本申请中，映射关系集包括多组映射关系，每一组映射关系对应一种活跃度，每一组映射关系为信号强度与距离之间的映射关系。

可以理解，通过脑电波传感器获取目标用户的脑电波信号，对脑电波信号进行解析可确定脑电波信号的目标活跃度和目标信号强度，根据预先存储的映射关系集选取与目标活跃度对应的目标映射关系，再根据目标映射关系和目标信号强度确定目标距离，考虑了目标用户的脑电波信号的活跃度对脑电波信号的影响，从而提高了确定目标距离的准确性。

在本申请中，可在主麦克风附近设置一个接近传感器，如图1B所示上述的接近传感器13位于主麦克风的附近，且采用无孔结构，用于确定与所述电子设备之间的目标距离，即确定目标用户是否接近与主麦克风。

接近传感器其类型可包括光电型和磁力型等。接近传感器的接近事件上报阈值的形式可以为一个值域范围(Xmin，Xmax)。其中，Xmin为接近传感器的最小值，Xmax为接近传感器的最大值。当电子设备对接近传感器设置为(Xmin，Xmax)中一个接近事件上报阈值时，通过接近传感器获取目标用户与电子设备之间的距离，再根据所述距离是否大于接近事件上报阈值向系统上报接近事件。常用于在通话模式下，若用户头部接近电子设备，通知电子设备将触控显示屏的背光灯进行熄灭。

在可选实施例中，可通过副麦克风输入的参考音频信号进行确定，即对参考音频信号进行解析以确定拾取范围和环境声音，从而提高语音拾取质量。

地理位置可通过电子设备支持的全球定位系统(global positioning system，GPS)功能或位置服务，在电子设备开启GPS或调用位置服务之后获取电子设备的当前位置；也可以通过无线网络、蓝牙或其他红外设备等无线通讯网络获取当前位置，由于上述无线通讯网络只能在有限区域内进行连接，因此可通过无线通讯网络的地址或域名获取电子设备的当前位置；还可以借助电子设备的应用程序中调用的位置信息获取当前位置，上述应用程序可以是导航应用、公交车查询应用、共享单车应用、天气应用、外卖应用等等，在此不再赘述。

环境空间大小可通过接近传感器包括的接近光传感器发射多个不同方向的红外线，获取每一红外线的发射回来的时间确定各个方向的距离，从而估算环境空间大小。

可以理解，在可选实施例中，获取所述摄像头采集目标用户的目标图像，根据所述目标图像确定所述目标用户的发声状态，确定所述电子设备的环境状态，根据所述发声状态和所述环境状态确定所述预设音色特征。也就是说，根据目标用户的目标图像确定目标用户的发声状态，再确定电子设备的环境状态，由于不同环境状态和不同发声状态下，声音特征不同，根据环境状态和发声状态确定预设声音特征，可提高确定预设声音特征的准确性，便于确定主麦克风的准确性。

当主麦克风被堵塞时，难以采集完整的音频数据。在本申请实施例中，若确定主麦克风被堵塞时，可通过主麦克风和副麦克风同时采集音频信号，从而提高语音提取质量。

在本申请中对于如何获取主麦克风输入的第一音频信号和副麦克风输入的第二音频信号不做限定，可选的，所述获取所述主麦克风输入的第一音频信号和所述副麦克风输入的第二音频信号包括：获取所述目标音色特征和所述预设音色特征之间的目标匹配值；根据所述目标距离和所述目标匹配值获取所述主麦克风的第一工作参数；根据所述目标距离获取所述副麦克风的第二工作参数；获取所述主麦克风按照所述第一工作参数采集的所述第一音频信号和所述副麦克风按照所述第二工作参数采集的所述第二音频信号。

在可选实施例中，上述的工作参数包括拾取范围、功率、电流、电压等，在此不做限定。

可以理解，根据目标距离获取副麦克风的第二工作参数，根据目标音色特征和预设预设特征之间的匹配值和目标距离获取主麦克风的第一工作参数，再分别按照对应的工作参数采集音频信号，从而得到第一音频信号和第二音频信号，提高了提取第一音频信号和第二音频信号的质量和准确性。

S104：对所述第一音频信号和所述第二音频信号进行处理得到目标语音。

在本申请实施例中，在获取第一音频信号和第二音频信号之后，将第一音频信号和第二音频信号处理为单声道数据，则电子设备可传输或存储上述的单声道数据。

可选的，所述对所述第一音频信号和所述第二音频信号进行处理得到目标语音包括：获取所述第一音频信号和所述第二音频信号对应的音调变化曲线；获取所述第一音频信号对应的第一文本和第一音频信号对应的第二文本；按照时间顺序对所述第一文本和所述第二文本进行去重复操作得到目标文本；按照所述音调变化曲线对所述目标文本进行合成得到所述目标语音。

可以理解，获取第一音频信号和第二音频信对应的音调变化曲线，再对第一音频信号和第二音频信号进行文字识别得到第一音频信号对应的第一文本和第二音频信号对应的第二文本，从而按照音调变化曲线对目标文本进行合成得到目标语音，可提高目标语音的还原度和语音质量。

进一步的，对所述第一音频信号和所述第二音频信号进行声音识别，可得到在第一音频信号中目标用户对应的多个第一音频片段和第二音频信号中目标用户对应的多个第二音频片段，然后获取所述多个第一音频片段和所述多个第二音频片段对应的所述音调变化曲线；获取所述多个第一音频片段对应的所述第一文本和所述多个第二音频片段对应的所述第二文本。也就是说，预先提取第一音频信号和第二音频信号中的目标用户的音频片段，再执行后续步骤，从而提高合成的效率和准确性。

在如图1A所示的语音拾取方法中，电子设备获取主麦克风输入的目标音频信号，确定所述目标音频信号的目标音色特征，若所述目标音色特征与预设音色特征匹配失败，确定所述主麦克风被堵塞，获取所述主麦克风输入的第一音频信号和副麦克风输入的第二音频信号，对所述第一音频信号和所述第二音频信号进行处理得到目标语音。也就是说，根据目标音频信号的目标音色特征和预设音色特征进行匹配，若匹配失败，确定主麦克风被堵塞，通过主麦克风和副麦克风同时采集音频信号，提高语音提取质量，便于提高用户体验。

与图1A的实施例一致，请参照图2，图2是本申请实施例提供的一种语音拾取装置的结构示意图，所述装置应用于电子设备，所述电子设备包括主麦克风和副麦克风。如图2所示，上述语音拾取装置200包括：

获取单元201用于获取所述主麦克风输入的目标音频信号；

确定单元202用于确定所述目标音频信号的目标音色特征；若所述目标音色特征与预设音色特征匹配失败，确定所述主麦克风被堵塞；

所述获取单元201还用于获取所述主麦克风输入的第一音频信号和所述副麦克风输入的第二音频信号；

处理单元203用于对所述第一音频信号和所述第二音频信号进行处理得到目标语音。

可以理解，获取单元201获取主麦克风输入的目标音频信号，确定单元202确定所述目标音频信号的目标音色特征，若所述目标音色特征与预设音色特征匹配失败，确定所述主麦克风被堵塞，获取单元201获取所述主麦克风输入的第一音频信号和所述副麦克风输入的第二音频信号，处理单元203对所述第一音频信号和所述第二音频信号进行处理得到目标语音。也就是说，根据目标音频信号的目标音色特征和预设音色特征进行匹配，若匹配失败，确定主麦克风被堵塞，通过主麦克风和副麦克风同时采集音频信号，提高语音提取质量，便于提高用户体验。

在一个可能的示例中，所述电子设备还包括摄像头，所述获取单元201还用于获取所述摄像头采集目标用户的目标图像；

所述确定单元202还用于根据所述目标图像确定所述目标用户的发声状态；确定所述电子设备的环境状态；根据所述发声状态和所述环境状态确定所述预设音色特征。

可以理解，根据目标用户的目标图像确定目标用户的发声状态，再确定电子设备的环境状态，由于不同环境状态和不同发声状态下，声音特征不同，根据环境状态和发声状态确定预设声音特征，可提高确定预设声音特征的准确性，便于确定主麦克风的准确性。

在一个可能的示例中，在所述根据所述目标图像确定所述目标用户的发声状态方面，所述确定单元202具体用于根据所述目标图像确定所述目标用户的身体状态和面部状态；根据所述身体状态和所述面部状态确定所述发声状态。

在一个可能的示例中，在所述确定所述目标音频信号的目标音色特征方面，所述确定单元202具体用于确定所述目标音频信号的音调变化曲线；根据所述音调变化曲线、所述身体状态和所述面部状态确定所述目标音色特征。

在一个可能的示例中，所述环境状态包括所述目标用户与所述电子设备之间的目标距离，在所述获取所述主麦克风输入的第一音频信号和所述副麦克风输入的第二音频信号方面，所述获取单元201具体用于获取所述目标音色特征和所述预设音色特征之间的目标匹配值；根据所述目标距离和所述目标匹配值获取所述主麦克风的第一工作参数；根据所述目标距离获取所述副麦克风的第二工作参数；获取所述主麦克风按照所述第一工作参数采集的所述第一音频信号和所述副麦克风按照所述第二工作参数采集的所述第二音频信号。

与图1A的实施例一致，请参照图3，图3是本申请实施例提供的一种电子设备的结构示意图。如图3所示，该电子设备300包括处理器310、存储器320、通信接口330以及一个或多个程序340，其中，通信接口330包括主麦克风和副麦克风，上述一个或多个程序340被存储在上述存储器320中，并且被配置由上述处理器310执行，上述程序340包括用于执行以下步骤的指令：

获取所述主麦克风输入的目标音频信号；

确定所述目标音频信号的目标音色特征；

对所述第一音频信号和所述第二音频信号进行处理得到目标语音。

可以理解，电子设备300获取所述主麦克风输入的目标音频信号，确定所述目标音频信号的目标音色特征，若所述目标音色特征与预设音色特征匹配失败，确定所述主麦克风被堵塞，获取所述主麦克风输入的第一音频信号和所述副麦克风输入的第二音频信号，对所述第一音频信号和所述第二音频信号进行处理得到目标语音。也就是说，根据目标音频信号的目标音色特征和预设音色特征进行匹配，若匹配失败，确定主麦克风被堵塞，通过主麦克风和副麦克风同时采集音频信号，提高语音提取质量，便于提高用户体验。

在一个可能的示例中，所述通信接口330还包括摄像头，所述程序340中的指令还用于执行以下操作：

获取所述摄像头采集目标用户的目标图像；

根据所述目标图像确定所述目标用户的发声状态；

确定所述电子设备的环境状态；

根据所述发声状态和所述环境状态确定所述预设音色特征。

在一个可能的示例中，在所述根据所述目标图像确定发声状态方面，所述程序340中的指令具体用于执行以下操作：

根据所述目标图像确定所述目标用户的身体状态和面部状态；

根据所述身体状态和面部状态确定所述发声状态。

在一个可能的示例中，在所述确定所述目标音频信号的目标音色特征方面，所述程序340中的指令具体用于执行以下操作：

确定所述目标音频信号的音调变化曲线；

根据所述音调变化曲线、所述身体状态和所述面部状态确定所述目标音色特征。

在一个可能的示例中，所述环境状态包括所述目标用户与所述电子设备之间的目标距离，在所述获取所述主麦克风输入的第一音频信号和所述副麦克风输入的第二音频信号方面，所述程序340中的指令具体用于执行以下操作：

获取所述目标音色特征和所述预设音色特征之间的目标匹配值；

根据所述目标距离和所述目标匹配值获取所述主麦克风的第一工作参数；

根据所述目标距离获取所述副麦克风的第二工作参数；

获取所述主麦克风按照所述第一工作参数采集的所述第一音频信号和所述副麦克风按照所述第二工作参数采集的所述第二音频信号。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于存储计算机程序，该计算机程序使得计算机执行如方法实施例中记载的任一方法的部分或全部步骤，计算机包括电子设备。

本申请实施例还提供一种计算机程序产品，计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，计算机程序可操作来使计算机执行如方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包，计算机包括电子设备。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模式并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模式的形式实现。

集成的单元如果以软件程序模式的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(read-only memory，ROM)、随机存取存储器(randomaccess memory，RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、ROM、RAM、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音拾取方法，其特征在于，应用于电子设备，所述电子设备包括主麦克风、副麦克风和摄像头，所述方法包括：

获取所述主麦克风输入的目标音频信号；

确定所述目标音频信号的目标音色特征；

若所述目标音色特征与预设音色特征匹配失败，确定所述主麦克风被堵塞，获取所述主麦克风输入的第一音频信号和所述副麦克风输入的第二音频信号；其中，所述目标音色特征与预设音色特征匹配失败是根据目标匹配值确定的，所述目标匹配值是根据由所述目标音频信号划分得到的多个片段对应的多个匹配值得到的，所述多个匹配值是将所述多个片段中每一片段对应的音色特征与所述预设音色特征进行匹配得到的；

对所述第一音频信号和所述第二音频信号进行处理，得到目标语音；

所述方法还包括：获取所述摄像头采集目标用户的目标图像；根据所述目标图像确定所述目标用户的身体状态和面部状态，所述面部状态包括面部表情和面部装饰；根据所述身体状态和面部状态确定发声状态；根据所述发声状态确定所述预设音色特征；

所述确定所述目标音频信号的目标音色特征，包括：确定所述目标音频信号的音调变化曲线；根据所述音调变化曲线、所述身体状态和所述面部状态确定所述目标音色特征。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定所述电子设备的环境状态；

所述根据所述发声状态确定所述预设音色特征包括：

根据所述发声状态和所述环境状态确定所述预设音色特征。

3.根据权利要求2所述的方法，其特征在于，所述环境状态包括所述目标用户与所述电子设备之间的目标距离，所述获取所述主麦克风输入的第一音频信号和所述副麦克风输入的第二音频信号，包括：

根据所述目标距离获取所述副麦克风的第二工作参数；

4.一种语音拾取装置，其特征在于，应用于电子设备，所述电子设备包括主麦克风、副麦克风和摄像头，所述装置包括：

获取单元，用于获取所述主麦克风输入的目标音频信号；

确定单元，用于确定所述目标音频信号的目标音色特征；若所述目标音色特征与预设音色特征匹配失败，确定所述主麦克风被堵塞；其中，所述目标音色特征与预设音色特征匹配失败是根据目标匹配值确定的，所述目标匹配值是根据由所述目标音频信号划分得到的多个片段对应的多个匹配值得到的，所述多个匹配值是将所述多个片段中每一片段对应的音色特征与所述预设音色特征进行匹配得到的；

处理单元，用于对所述第一音频信号和所述第二音频信号进行处理，得到目标语音；

所述获取单元，还用于获取所述摄像头采集目标用户的目标图像；

所述确定单元，还用于根据所述目标图像确定所述目标用户的身体状态和面部状态，所述面部状态包括面部表情和面部装饰；根据所述身体状态和面部状态确定发声状态；根据所述发声状态确定所述预设音色特征；

所述确定单元，在所述确定所述目标音频信号的目标音色特征方面，具体用于确定所述目标音频信号的音调变化曲线；根据所述音调变化曲线、所述身体状态和所述面部状态确定所述目标音色特征。

5.根据权利要求4所述的装置，其特征在于，所述确定单元，还用于确定所述电子设备的环境状态；

所述确定单元，在所述根据所述发声状态确定所述预设音色特征方面，具体用于根据所述发声状态和所述环境状态确定所述预设音色特征。

6.根据权利要求5所述的装置，其特征在于，所述环境状态包括所述目标用户与所述电子设备之间的目标距离，在所述获取所述主麦克风输入的第一音频信号和所述副麦克风输入的第二音频信号方面，所述获取单元具体用于获取所述目标音色特征和所述预设音色特征之间的目标匹配值；根据所述目标距离和所述目标匹配值获取所述主麦克风的第一工作参数；根据所述目标距离获取所述副麦克风的第二工作参数；获取所述主麦克风按照所述第一工作参数采集的所述第一音频信号和所述副麦克风按照所述第二工作参数采集的所述第二音频信号。

7.一种电子设备，其特征在于，包括处理器、存储器、通信接口以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行权利要求1-3任一项方法中的步骤的指令。

8.一种计算机可读存储介质，其特征在于，其用于存储计算机程序，其中，所述计算机程序使得计算机执行如权利要求1-3任一项所述的方法。