CN110491384B

CN110491384B - 一种语音数据处理方法及装置

Info

Publication number: CN110491384B
Application number: CN201910807754.0A
Authority: CN
Inventors: 姜馨; 彭方振; 张柳新
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2022-04-22
Anticipated expiration: 2039-08-29
Also published as: CN110491384A

Abstract

本申请提供一种语音数据处理方法及装置，识别第一对象使用终端当前的使用模式，如果使用模式表明终端所处环境存在目标对象声源，获取目标对象声源的语音数据，以通过终端当前的使用模式对终端所处环境中的目标对象声源进行精确定位，以在存在目标对象声源时获取目标对象声源的语音数据，降低终端所处环境下噪声数据对目标对象声源的语音数据的影响。并且在获取到目标对象声源的语音数据后，将目标对象声源的语音数据转换为目标个数数据，以使用模式相匹配的展示方式展示目标格式数据，实现语音数据的可视化展示。

Description

一种语音数据处理方法及装置

技术领域

本申请属于语音处理技术领域，尤其涉及一种语音数据处理方法及装置。

背景技术

目前语音处理技术在可穿戴设备上被广泛应用，例如AR(Augmented Reality，增强现实)眼镜可以获取佩戴者的语音数据(如定向采集佩戴者的语音)，识别语音数据包括的内容，通过AR眼镜或者其他与AR眼镜通信的终端显示语音数据包括的内容。

发明内容

有鉴于此，本申请的目的在于提供一种语音数据处理方法及装置，实现在不同使用模式下目标对象声源的精确定位和语音数据的可视化。技术方案如下：

本申请提供一种语音数据处理方法，所述方法包括：

识别第一对象使用终端当前的使用模式；

如果所述使用模式表明所述终端所处环境存在目标对象声源，获取所述目标对象声源的语音数据；

将所述目标对象声源的语音数据转换为目标格式数据；

以所述使用模式相匹配的展示方式展示所述目标格式数据。

优选的，所述识别第一对象使用终端当前的使用模式包括：

基于所述终端所处环境的图像数据，识别所述终端当前的使用模式；

和/或

基于所述终端所处环境的语音数据，识别所述终端当前的使用模式。

优选的，所述基于所述终端所处环境的图像数据，识别所述终端当前的使用模式包括：

获取所述图像数据对应的图像中的人物区域和/或所述图像数据对应的图像中人脸的特征数据；

基于所述人物区域在图像中的占比和/或所述人脸的特征数据，得到所述终端当前的使用模式。

优选的，所述图像数据中满足第一预设条件的所述人物区域和/或特征数据对应的人物为所述目标对象声源。

优选的，所述基于所述终端所处环境的语音数据，识别所述终端当前的使用模式包括：

基于所述终端所处环境的语音数据的音量和/或持续时长，识别所述终端当前的使用模式。

优选的，所述音量和/或持续时长满足第二预设条件的语音数据对应的声源为所述目标对象声源。

优选的，所述如果所述使用模式表明所述终端所处环境存在目标对象声源，获取所述目标对象声源的语音数据包括：

获取第一采集设备采集到的语音数据，忽略第二采集设备采集到的语音数据，所述第一采集设备的采集范围覆盖所述目标对象声源所在位置，所述第二采集设备的采集范围没有覆盖所述目标对象声源所在位置；

或者

所述如果所述使用模式表明所述终端所处环境存在目标对象声源，获取所述目标对象声源的语音数据包括：

获取第一采集设备采集到的第一语音数据以及第二采集设备采集到的第二语音数据，所述第一采集设备的采集范围覆盖所述目标对象声源所在位置，所述第二采集设备的采集范围没有覆盖所述目标对象声源所在位置；

基于所述第二语音数据对所述第一语音数据进行处理，得到所述目标对象声源的语音数据。

优选的，所述展示方式包括：将所述目标格式数据投影到所述目标对象声源所处位置和将所述目标格式数据显示在所述终端的显示区域。

优选的，所述方法还包括：如果所述使用模式表明所述终端所处环境没有目标对象声源，禁止获取语音数据；

所述禁止获取语音数据包括：关闭所述终端的语音采集设备，或者忽略所述语音采集设备采集到的语音数据。

本申请还提供一种语音数据处理装置，所述装置包括：

识别单元，用于识别第一对象使用终端当前的使用模式；

获取单元，用于如果所述使用模式表明所述终端所处环境存在目标对象声源，获取所述目标对象声源的语音数据；

转换单元，用于将所述目标对象声源的语音数据转换为目标格式数据；

展示单元，用于以所述使用模式相匹配的展示方式展示所述目标格式数据。

本申请还提供一种终端，所述终端包括：处理器和显示器；

所述处理器，用于识别第一对象使用终端当前的使用模式，如果所述使用模式表明所述终端所处环境存在目标对象声源，获取所述目标对象声源的语音数据，将所述目标对象声源的语音数据转换为目标格式数据，以所述使用模式相匹配的展示方式在所述显示器中展示所述目标格式数据。

本申请还提供一种存储介质，所述存储介质中存储有计算机程序代码，所述计算机程序代码执行时实现上述语音数据处理方法。

从上述技术方案可知，识别第一对象使用终端当前的使用模式，如果使用模式表明终端所处环境存在目标对象声源，获取目标对象声源的语音数据，以通过终端当前的使用模式对终端所处环境中的目标对象声源进行精确定位，以在存在目标对象声源时获取目标对象声源的语音数据，降低终端所处环境下噪声数据对目标对象声源的语音数据的影响。并且在获取到目标对象声源的语音数据后，将目标对象声源的语音数据转换为目标个数数据，以使用模式相匹配的展示方式展示目标格式数据，实现语音数据的可视化展示。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种语音数据处理方法的流程图；

图2是本申请实施例提供的另一种语音数据处理方法的流程图；

图3是本申请实施例提供的一种应用语音数据处理方法的终端的示意图；

图4是图3所示终端执行语音数据处理方法的流程图；

图5是本申请实施例提供的一种目标格式数据展示的示意图；

图6是本申请实施例提供的另一种目标格式数据展示的示意图；

图7是本申请实施例提供的再一种语音数据处理方法的流程图；

图8是本申请实施例提供的一种语音数据处理装置的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，其示出了本申请实施例提供的一种语音数据处理方法，用以实现在不同使用模式下目标对象声源的精确定位和语音数据的可视化，可以包括以下步骤：

101：识别第一对象使用终端当前的使用模式。可以理解的是：第一对象使用终端是第一对象(用户)当前使用的一终端，如用户佩戴的具有语音采集功能的可穿戴设备或者是用户使用的手机等电子设备。

其中识别终端当前的使用模式的目的是为了确定终端所处环境是否存在目标对象声源，目标对象声源是终端所处环境中除第一对象之外另一个处于讲话中的对象，以便于对目标对象声源的语音数据进行自动识别。在本实施例中识别终端当前的使用模式包括但不限于如下方式：

一种识别终端当前的使用模式的方式是：在终端的显示区域中显示各个使用模式，获取第一对象从各个使用模式中选取的使用模式。

另一种识别终端当前的使用模式的方式是：采集第一对象的语音数据或采集第一对象的身体部位的图像数据，基于第一对象的语音数据或第一对象的身体部位的图像数据，识别终端当前的使用模式。例如第一对象的语音数据包括终端的使用模式的关键词，基于第一对象的语音数据中的关键词确定终端当前的使用模式，如第一对象的语音数据中的关键词为“使用模式1”，则确定终端当前的使用模式为“使用模式1”。对于第一对象的身体部位的图像数据可以是但不限于是第一对象的手势，并预先设置不同手势对应的使用模式，由此通过采集到的第一对象的手势可以确定终端当前的使用模式。

在上述两种识别终端当前的使用模式的方式中，确定目标对象声源的方式可以是由第一对象指定，如获取终端所处环境的图像数据，从图像数据对应的图像中指定目标对象声源，或者将第一对象的手势所指对象作为目标对象声源。

再一种识别终端当前的使用模式的方式是：基于终端所处环境的环境数据，识别终端当前的使用模式，其中终端所处环境的环境数据包括：终端所处环境的图像数据和/或语音数据，由此可以基于终端所处环境的图像数据和/或语音数据，识别终端当前的使用模式。下面对基于图像数据和/或语音数据进行使用模式的识别进行说明：

终端所处环境的图像数据是指终端所处环境中除第一对象所在位置之外其他位置的图像数据，图像数据可以通过终端的摄像头获取，那么在获取图像数据时可以将终端的摄像头的拍摄范围对准除第一对象所在位置之外的其他位置，以得到终端所处环境其他位置的图像数据，以通过图像数据确定终端所处环境是否有除第一对象之外处于讲话中的对象，进而基于是否有处于讲话中的对象确定终端当前的使用模式。

在本实施例中基于图像数据识别终端当前的使用模式的一种手段是：获取图像数据对应的图像中的人物区域，基于人物区域在图像中的占比，得到终端当前的使用模式，其中人物区域在图像中的占比用于指示该人物与第一对象之间的距离，而人物与第一对象之间的距离越近说明其与第一对象进行对话的可能性越大，人物与第一对象之间的距离越远说明其与第一对象进行对话的可能性越小但第一对象倾听该人物讲话的可能性越大，为此本实施例可以通过设置人物区域在图像中的预设比例范围，通过当前采集到的图像数据对应的图像中人物区域在图像中的占比与预设比例范围，得到终端当前的使用模式。

例如预设比例范围可以包括单一的预设比例，如果当前采集到的图像数据对应的图像中人物区域在图像中的占比大于或等于该预设比例，确定终端当前的使用模式为对话模式(表示第一对象与采集到的图像中的人物处于对话中)；如果当前采集到的图像数据对应的图像中人物区域在图像中的占比小于该预设比例，确定终端当前的使用模式为倾听模式(表示第一对象正在听采集到的图像中的人物讲话)，当然预设比例范围还可以包括多个预设比例或者设置一个范围，同样可以确定终端当前的使用模式，对此本实施例不再阐述。

在本实施例中基于图像数据识别终端当前的使用模式的另一种手段是：获取图像数据对应的图像中人脸的特征数据，基于人脸的特征数据，得到终端当前的使用模式。其中基于人脸的特征数据得到终端当前的使用模式的方式可以是基于人脸的特征数据对应区域的至少部分是否显示在图像中和显示至少部分区域的人脸的数量中的至少一种得到终端当前的使用模式。

例如人脸的特征数据对应的全部区域显示在图像中且数量为一个，说明通过图像数据可以识别到唯一人物，此时可以确定终端处于对话模式；如果人脸的特征数据对应的全部区域显示在图像中且数量为至少两个，说明通过图像数据可以识别到多个人物，此时可以确定终端处于倾听模式。

在本实施例中基于图像数据识别终端当前的使用模式的再一种手段是：获取图像数据对应的图像中的人物区域和人脸的特征数据，基于人物区域在图像中的占比和人脸的特征数据，得到终端当前的使用模式，相对于前述两种方式来说通过人物区域在图像中的占比和人脸的特征数据相结合来确定终端当前的使用模式，提高使用模式识别的准确度，对于两者结合方式可以是通过两者识别到同一个使用模式，则将该使用模式确定为终端当前的使用模式，对于人物区域在图像中的占比和人脸的特征数据对应的使用模式的识别请参阅上述实施例中的说明，对此本实施例不再阐述。

在本实施例中基于图像数据识别终端当前的使用模式的再一种手段是：调用预设机器学习模型，得到与图像数据匹配的使用模式，其中预设机器学习模型是通过对已知使用不同的图像数据进行训练得到，例如终端的使用模式包括：对话模式、倾听模式和噪声模式，通过与这三种模式匹配的图像数据对机器学习模型(如神经网络模型)进行训练，得到预设机器学习模型。在获取到终端所处环境的图像数据之后，通过该预设机器学习模型预测获取到的图像数据匹配的使用模式。

相对应的图像数据中满足第一预设条件的人物区域对应的人物为目标对象声源，如第一预设条件可以是上述预设比例范围，如人物区域在图像中的占比大于或等于上述预设比例的人物为目标对象声源。又或者第一预设条件可以是上述人脸的特征数据对应区域的至少部分显示在图像中，符合这一特征的人脸对应的人物为目标对象声源，又或者第一预设条件为上述预设比例范围和人脸的特征数据对应区域的至少部分显示在图像中相结合来得到目标对象声源，当然第一预设条件还可以采用其他手段，具体本实施例不再阐述。

对于终端所处环境的语音数据来说，终端所处环境的语音数据是指终端所处环境中除第一对象之外其他对象的语音数据，语音数据可以通过终端的麦语音采集设备获取，那么在获取语音数据时可以将终端的语音采集设备的采集范围覆盖除第一对象所在位置之外的其他位置，以得到终端所处环境其他对象的语音数据，以通过语音数据确定终端所处环境是否有除第一对象之外处于讲话中的对象，进而基于是否有处于讲话中的对象确定终端当前的使用模式。

在本实施例中基于语音数据识别终端当前的使用模式的一种手段是：基于终端所处环境的语音数据的音量，识别终端当前的使用模式。可以理解的是不同对象的音量不同，如车辆、人、动物等的音量不同，为此本实施例可通过采集到的语音数据的音量确定是否含有处于讲话中的人物，然后基于是否含有处于讲话中的人物识别终端当前的使用模式。

例如如果没有含有处于讲话中的人物，确定终端当前的使用模式为噪声模式，如果含有处于讲话中的人物则可以确定终端当前的使用模式为对话模式或倾听模式，对于对话模式或倾听模式可以进一步结合处于讲话中的人物的数量和处于讲话中的人物是否有一个音量突出的人物来确定，如果处于讲话中的人物的数量为至少两个则确定为倾听模式，否则确定为对话模式；如果处于讲话中的人物中有一个音量突出的人物，则确定为对话模式，否则确定为倾听模式，其中音量突出的人物可以表示为一个人物的音量大于其他人物的音量。或者本实施例还可以基于语音数据中人物的音量是否大于其他对象的音量来确定终端当前的使用模式，对此本实施例不再阐述。

在本实施例中基于语音数据识别终端当前的使用模式的另一种手段是：基于终端所处环境的语音数据的持续时长，识别终端当前的使用模式。一般情况下，人物在讲话时其持续时长大于其他对象的发出声音时的持续时长，为此本实施例可预先设置一个预设时长，如果语音数据的持续时长大于该预设时长，则确定终端当前的使用模式是非噪声模式，如上述对话模式和倾听模式中的一种。或者也可以通过判断语音数据中是否有一个声音的持续时长大于其他对象的持续时长来判断，对此本实施例不再阐述。

在本实施例中基于语音数据识别终端当前的使用模式的再一种手段是：基于终端所处环境的语音数据的音量和持续时长，识别终端当前的使用模式，相对于前述两种方式来说通过音量和持续时长相结合来确定终端当前的使用模式，提高使用模式识别的准确度，对于两者结合方式可以是通过两者识别到同一个使用模式，则将该使用模式确定为终端当前的使用模式，对于音量和持续时长对应的使用模式的识别请参阅上述实施例中的说明，对此本实施例不再阐述。

相对应的，音量和/或持续时长满足第二预设条件的语音数据对应的声源为目标对象声源。其中第二预设条件可以是上述通过采集到的语音数据的音量确定是否含有处于讲话中的人物，则处于讲话中的人物为目标对象声源，和/或第二预设条件为上述预设时长，则语音数据的持续时长大于预设时长的声源为目标对象声源，对于第二预设条件的其他方式本实施例不再一一阐述。

相对于上述方式，本实施例还可以基于终端所处环境的图像数据和语音数据，识别终端当前的使用模式，以通过图像数据和语音数据来精确划分终端的使用模式，这样可以通过图像数据和语音数据相互辅助来确定终端的使用模式，提高使用模式识别的准确度。

例如终端的使用模式包括对话模式、倾听模式和噪声模式，对话模式和倾听模式表明终端所处环境存在目标对象声源，噪声模式表明终端所处环境没有目标对象声源。那么基于图像数据和语音数据识别终端当前的使用模式时，可通过图像数据识别是否处于对话模式，例如通过图像数据识别出唯一的一个处于讲话中的人物，则确定终端处于对话模式中，可以执行目标对象声源的获取，如果识别出不存在唯一的处于讲话中的人物，说明终端可能处于倾听模式或噪声模式，则通过语音数据进行使用模式的二次识别，如通过语音数据的音量和持续时长确定出存在唯一声源(即处于讲话中的人物)，由此确定终端处于倾听模式；如果通过语音数据的音量和持续时长没有确定出唯一声源，则确定终端处于噪声模式。

相对应的在基于图像数据和语音数据识别终端当前的使用模式时，目标对象声源则可以是图像数据中满足第一预设条件的人物区域和/或特征数据对应的人物，音量和/或持续时长满足第二预设条件的语音数据对应的声源。

通过上述终端所处环境的图像数据和/或语音数据，不仅能够识别终端当前的使用模式，还能够在识别使用模式的同时确定出目标对象声源，实现对目标对象声源的精确定位。

102：如果使用模式表明终端所处环境存在目标对象声源，获取目标对象声源的语音数据。在通过对终端的使用模式识别过程中，可以定位出目标对象声源在终端所处环境的位置，因此为了降低终端所处环境的噪声对目标对象声源的影响，本实施例可以基于目标对象声源在终端所处环境的位置，获取目标对象声源的语音数据。其中获取目标对象声源的语音数据的方式包括但不限于如下两种方式：

一种方式是：获取第一采集设备采集到的语音数据，忽略第二采集设备采集到的语音数据，其中第一采集设备的采集范围覆盖目标对象声源所在位置，第二采集设备的采集范围没有覆盖目标对象声源所在位置，从而忽略第二采集设备采集到的语音数据对目标对象声源的语音数据的影响。

另一种方式是：获取第一采集设备采集到的第一语音数据以及第二采集设备采集到的第二语音数据，基于第二语音数据对第一语音数据进行处理，得到目标对象声源的语音数据，其中第一采集设备的采集范围覆盖目标对象声源所在位置，第二采集设备的采集范围没有覆盖目标对象声源所在位置。这种方式相对于上一方式的优点在于：第一采集设备的采集范围不单单对应目标对象声源，其还可能覆盖其他对象，导致第一采集设备采集到的第一语音数据包括目标对象声源的语音数据和其他对象的语音数据，第二采集设备采集的第二语音数据可能会与第一语音数据对应除目标对象声源之外的同一个对象，从而能够基于第二语音数据对第一语音数据中的噪声数据(即除目标对象声源的语音数据之外的数据)进行去燥处理，提高目标对象声源的语音数据的准确度和纯净度。

103：将目标对象声源的语音数据转换为目标格式数据。其中目标格式数据可以是对于第一对象来说便于第一对象查看的格式的数据，例如目标格式数据可以是文本数据或通过动画效果展示语音数据的内容的动画数据。

例如第一对象的听力有问题，那么目标格式数据则可以是文本数据，通过语音识别技术，将目标对象声源的语音数据中的内容转换成文字，具体过程本实施例不再阐述。又例如第一对象的年龄偏小，语音和文字形式都不能提高第一对象的关注度，则通过语音识别技术识别出目标对象声源的语音数据中的内容，确定语音数据中的内容对应的故事情节，以动画效果展示该故事情节，从而提高第一对象对目标格式数据的关注度。

104：以使用模式相匹配的展示方式展示目标格式数据，以实现对目标声源对象的语音数据的可视化展示。其中展示方式包括：将目标格式数据投影到目标对象声源所在位置和目标格式数据显示在终端的显示区域，在实际应用中可以为使用模式配置这两种展示方式中的一种方式进行展示。

例如使用模式为对话模式时，可以将目标格式数据投影到目标对象声源所在位置，这样第一对象在与目标对象声源对话过程中，目标格式数据投影到目标对象声源所在位置可以使得第一对象在阅览目标格式数据时第一对象的视线停留在目标对象声源所在位置，避免第一对象阅览目标格式数据时的视线偏移，使第一对象的注意力集中。例如可以将目标格式数据投影到目标对象声源的脸部位置，目标对象声源的脸部位置可通过终端所处环境的图像数据和/或语音数据确定，对此本实施例不再阐述。

请参阅图2，其示出了本申请实施例提供的另一种语音数据处理方法的流程图，在图1基础上还可以包括以下步骤：

105：如果使用模式表明终端所处环境没有目标对象声源，禁止获取语音数据，从而可以节省终端的资源消耗。在本实施例中禁止获取语音数据的方式包括但不限于：关闭终端的语音采集设备或者忽略语音采集设备采集到的语音数据，其中关闭终端的语音采集设备的方式可以节省语音采集设备的使用，并且降低语音采集设备对终端的资源占用。

下面通过执行本实施例提供的语音数据处理方法的终端进行说明，实施语音数据处理方法的可以是具备拍摄功能和语音数据采集功能的电子设备，或者是能够从其他设备中获得图像数据和语音数据的设备，例如本实施例可通过一可穿戴设备执行，如图3所示，可通过图3所示的眼镜实施语音数据处理方法，该眼镜包括摄像头和麦克风阵列(语音采集设备的一种方式，图3中除摄像头之外的每个圆点视为一个麦克风，多个麦克风组成麦克风阵列)，通过摄像头获取图像数据以及通过麦克风阵列获取语音数据，以辅助实施上述语音数据处理方法，其中图3所示眼镜可佩戴在听力有问题的第一对象，以通过将目标对象声源的语音数据转换为文本数据(目标格式数据的一种方式)来辅助第一对象，其实施的语音数据处理方法的流程如图4所示，可以包括以下步骤：

401：通过摄像头获取眼镜所处环境的图像数据以及通过麦克风阵列获取眼镜所处环境的语音数据，其中图像数据可以是佩戴眼镜的第一对象前方区域的图像数据，这是因为第一对象在佩戴眼镜时摄像头的拍摄范围针对第一对象前方区域，所以摄像头会自动拍摄到第一对象前方区域的图像。而麦克风阵列中任一麦克风的采集范围可能不同或部分重叠，因此通过麦克风阵列可以采集到多个区域的语音数据。

402：获取图像数据中对应的图像中的人物区域和图像数据对应的图像中人脸的特征数据。

403：基于人物区域在图像中的占比和人脸的特征数据，确定是否有处于讲话中的对象，如果没有执行步骤404，如果有执行步骤410。

例如基于人物区域在图像中的占比确定人物相对于第一对象的距离，以及基于人脸的特征数据确定人物是否面对第一对象，如果人物相对于第一对象的距离小于预设距离且人物面对第一对象，则确定有处于讲话中的对象。

404：获取语音数据的音量和持续时长。

405：基于语音数据的音量和持续时长，确定是否有唯一的目标对象声源，如果有执行步骤406，如果没有执行步骤409。

例如如果语音数据中有一对象的音量大于其他对象的音量且持续时长大于预设时长，则确定该对象为唯一的目标对象声源。

406：确定终端当前的使用模式为倾听模式，其中倾听模式适用于第一对象处于剧场、会议、演讲和听课等场景。

407：通过麦克风阵列中采集范围覆盖目标对象声源所在位置的麦克风采集第一语音数据，通过其他麦克风采集第二语音数据，基于第二语音数据对第一语音数据进行去燥处理，得到目标对象声源的语音数据。

408：将目标对象声源的语音数据转换为文本数据，并将文本数据显示在眼镜的屏幕上，如显示在眼镜的镜片上，进一步显示在眼镜的镜片的下半部分区域，以降低第一对象对环境中其他事物的观看，如图5所示。

409：确定终端当前的使用模式为噪声模式，禁止获取语音数据。

410：确定终端当前的使用模式为对话模式。

411：通过图像数据识别处于讲话中的对象所在位置(处于讲话中的对象为目标对象声源)。

412：通过麦克风阵列中采集范围覆盖目标对象声源所在位置的麦克风采集第一语音数据，通过其他麦克风采集第二语音数据，基于第二语音数据对第一语音数据进行去燥处理，得到目标对象声源的语音数据。

413：将目标对象声源的语音数据转换为文本数据，并将文本数据投影在目标对象声源所在位置，如图6所示将文本数据投影在目标对象声源的脸部。

借由上述技术方案可知，在第一对象佩戴执行本实施例提供的语音数据处理方法的可穿戴设备时，能够将目标对象声源的语音数据转换为文本数据展示出来，从而辅助第一对象获知语音数据中的内容。

请参阅图7，其示出了本申请实施例提供的再一种语音数据处理方法的流程图，可以包括以下步骤：

701：识别第一对象使用终端当前的使用模式。在本实施例中终端当前的使用模式的可通过用户指定或基于终端所处环境的图像数据确定，具体请参阅上述方法实施例中的相关说明，对此本实施例不再阐述。

702：如果使用模式表明终端所处环境存在目标对象声源，开启终端的语音采集设备，这意味着终端的语音采集设备在确定终端所处环境存在目标对象声源之前一直处于关闭状态，从而可以节省语音采集设备的使用，以降低语音采集设备对终端的资源占用。

并且使用模式表明终端所处环境存在目标对象声源可以作为开启终端的语音采集设备的一种唤醒方式，使得语音采集设备可以在第一对象不知情的情况下自动唤醒，相对于现有通过特定内容唤醒语音采集设备来说，可以为第一对象提供一种更加自然的唤醒方式。例如本实施例无需第一对象向终端输入“hey siri”等特定内容就可以开启终端的语音采集设备。

在这里需要说明的一点是：如果使用模式表明终端所处环境没有目标对象声源，则可以禁止开启终端的语音采集设备，这样可以减少语音采集设备对噪声的采集。

703：通过终端的语音采集设备获取目标对象声源的语音数据。

704：将目标对象声源的语音数据转换为目标格式数据。

705：以使用模式相匹配的展示方式展示目标格式数据，以实现对目标声源对象的语音数据的可视化展示。

上述步骤703至步骤705：执行过程请参阅上述步骤102至步骤104的说明，对此本实施例不再阐述。

从上述技术方案可知，将使用模式表明终端所处环境存在目标对象声源作为开启终端的语音采集设备的一种唤醒方式，使得语音采集设备可以在第一对象不知情的情况下自动唤醒，相对于现有通过特定内容唤醒语音采集设备来说，可以为第一对象提供一种更加自然的唤醒方式。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

与上述方法实施例相对应，本申请实施例还提供一种语音数据处理装置，其结构如图8所示，可以包括：识别单元10、获取单元20、转换单元30和展示单元40。

识别单元10，用于识别第一对象使用终端当前的使用模式。其中识别终端当前的使用模式的目的是为了确定终端所处环境是否存在目标对象声源，目标对象声源是终端所处环境中除第一对象之外另一个处于讲话中的对象，以便于对目标对象声源的语音数据进行自动识别。在本实施例中识别单元10识别终端当前的使用模式包括但不限于如下方式：

一种方式是：在终端的显示区域中显示各个使用模式，获取第一对象从各个使用模式中选取的使用模式。

另一种方式是：采集第一对象的语音数据或采集第一对象的身体部位的图像数据，基于第一对象的语音数据或第一对象的身体部位的图像数据，识别终端当前的使用模式。

再一种方式是：基于终端所处环境的环境数据，识别终端当前的使用模式，例如基于终端所处环境的图像数据和/或语音数据，识别终端当前的使用模式；其中基于图像数据识别终端当前的使用模式的手段包括：获取图像数据对应的图像中的人物区域和/或图像数据对应的图像中人脸的特征数据；基于人物区域在图像中的占比和/或人脸的特征数据，得到终端当前的使用模式。相对应的图像数据中满足第一预设条件的人物区域和/或特征数据对应的人物为目标对象声源；基于语音数据识别终端当前的使用模式的手段包括：基于终端所处环境的语音数据的音量和/或持续时长，识别终端当前的使用模式。相对应的音量和/或持续时长满足第二预设条件的语音数据对应的声源为目标对象声源。

对于上述识别终端当前的使用模式的方式的执行过程请参阅上述方法实施例中的相关说明，对此本实施例不再阐述。

获取单元20，用于如果使用模式表明终端所处环境存在目标对象声源，获取目标对象声源的语音数据。在通过对终端的使用模式识别过程中，可以定位出目标对象声源在终端所处环境的位置，因此为了降低终端所处环境的噪声对目标对象声源的影响，本实施例可以基于目标对象声源在终端所处环境的位置，获取目标对象声源的语音数据。其中获取单元20获取目标对象声源的语音数据的方式包括但不限于如下两种方式：

另一种方式是：获取第一采集设备采集到的第一语音数据以及第二采集设备采集到的第二语音数据，基于第二语音数据对第一语音数据进行处理，得到目标对象声源的语音数据，其中第一采集设备的采集范围覆盖目标对象声源所在位置，第二采集设备的采集范围没有覆盖目标对象声源所在位置。

转换单元30，用于将目标对象声源的语音数据转换为目标格式数据。其中目标格式数据可以是对于第一对象来说便于第一对象查看的格式的数据，例如目标格式数据可以是文本数据或通过动画效果展示语音数据的内容的动画数据，具体请参阅上述方法实施例中的相关说明，对此本实施例不再阐述。

展示单元40，用于以使用模式相匹配的展示方式展示目标格式数据，以实现对目标声源对象的语音数据的可视化展示。其中展示方式包括：将目标格式数据投影到目标对象声源所在位置和目标格式数据显示在终端的显示区域，在实际应用中可以为使用模式配置这两种展示方式中的一种方式进行展示。

此外本实施例提供的语音数据处理装置还可以包括：控制单元，用于如果使用模式表明终端所处环境没有目标对象声源，禁止获取语音数据，从而可以节省终端的资源消耗。在本实施例中禁止获取语音数据的方式包括但不限于：关闭终端的语音采集设备或者忽略语音采集设备采集到的语音数据，其中关闭终端的语音采集设备的方式可以节省语音采集设备的使用，并且降低语音采集设备对终端的资源占用。

控制单元，还用于如果使用模式表明终端所处环境存在目标对象声源，开启终端的语音采集设备，以将使用模式表明终端所处环境存在目标对象声源作为开启终端的语音采集设备的一种唤醒方式，使得语音采集设备可以在第一对象不知情的情况下自动唤醒，相对于现有通过特定内容唤醒语音采集设备来说，可以为第一对象提供一种更加自然的唤醒方式。

本申请实施例还提供一种终端，终端包括：处理器和显示器。

处理器，用于识别第一对象使用终端当前的使用模式，如果使用模式表明终端所处环境存在目标对象声源，获取目标对象声源的语音数据，将目标对象声源的语音数据转换为目标格式数据，以使用模式相匹配的展示方式在显示器中展示目标格式数据，对于处理器的执行过程请参阅上述方法实施例中的相关说明，对此本实施例不再阐述。

本申请实施例还提供一种存储介质，存储介质中存储有计算机程序代码，计算机程序代码执行时实现上述语音数据处理方法。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种语音数据处理方法，其特征在于，所述方法包括：

基于终端所处环境的环境数据，识别第一对象使用终端当前的使用模式；

将所述目标对象声源的语音数据转换为目标格式数据；

以所述使用模式相匹配的展示方式展示所述目标格式数据，如果用于识别所述使用模式的环境数据从满足第一条件变化为满足第二条件，终端的使用模式从与所述第一条件匹配的第一使用模式切换为与所述第二条件匹配的第二使用模式，展示目标格式数据的展示方式从与所述第一使用模式匹配的展示方式切换为与所述第二使用模式匹配的展示方式，使得展示目标格式数据的展示方式随使用模式的变化而变化。

2.根据权利要求1所述的方法，其特征在于，所述识别第一对象使用终端当前的使用模式包括：

和/或

3.根据权利要求2所述的方法，其特征在于，所述基于所述终端所处环境的图像数据，识别所述终端当前的使用模式包括：

4.根据权利要求3所述的方法，其特征在于，所述图像数据中满足第一预设条件的所述人物区域和/或特征数据对应的人物为所述目标对象声源。

5.根据权利要求2或3所述的方法，其特征在于，所述基于所述终端所处环境的语音数据，识别所述终端当前的使用模式包括：

6.根据权利要求5所述的方法，其特征在于，所述音量和/或持续时长满足第二预设条件的语音数据对应的声源为所述目标对象声源。

7.根据权利要求1所述的方法，其特征在于，所述如果所述使用模式表明所述终端所处环境存在目标对象声源，获取所述目标对象声源的语音数据包括：

或者

8.根据权利要求1至7任意一项所述的方法，其特征在于，所述展示方式包括：将所述目标格式数据投影到所述目标对象声源所处位置和将所述目标格式数据显示在所述终端的显示区域。

9.根据权利要求1至7任意一项所述的方法，其特征在于，所述方法还包括：如果所述使用模式表明所述终端所处环境没有目标对象声源，禁止获取语音数据；

10.一种语音数据处理装置，其特征在于，所述装置包括：

识别单元，用于基于终端所处环境的环境数据，识别第一对象使用终端当前的使用模式；

展示单元，用于以所述使用模式相匹配的展示方式展示所述目标格式数据，如果用于识别所述使用模式的环境数据从满足第一条件变化为满足第二条件，终端的使用模式从与所述第一条件匹配的第一使用模式切换为与所述第二条件匹配的第二使用模式，展示目标格式数据的展示方式从与所述第一使用模式匹配的展示方式切换为与所述第二使用模式匹配的展示方式，使得展示目标格式数据的展示方式随使用模式的变化而变化。