CN114356068B

CN114356068B - 一种数据处理方法、装置和电子设备

Info

Publication number: CN114356068B
Application number: CN202011043936.4A
Authority: CN
Inventors: 王合心
Original assignee: Beijing Sogou Intelligent Technology Co Ltd
Current assignee: Beijing Sogou Intelligent Technology Co Ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2023-08-25
Anticipated expiration: 2040-09-28
Also published as: CN114356068A

Abstract

本发明实施例提供了一种数据处理方法、装置和电子设备，其中，所述方法包括：在播放目标音频数据时，获取所述目标音频数据中讲话人的关联信息；依据所述关联信息，构造虚拟录音场景，其中，所述虚拟录音场景与所述目标音频数据的真实录音场景对应；进而在播放音频数据的同时，对录制该音频数据时的真实录音场景进行还原，增强录音播放效果，提高用户体验。

Description

一种数据处理方法、装置和电子设备

技术领域

本发明涉及数据处理技术领域，特别是涉及一种数据处理方法、装置和电子设备。

背景技术

近年来，录音设备作为专业领域的产品，发展迅速并进入大众领域。记者、学生、教师等各种群体，通常都需要录音设备进行录音。此外各种电视节目、电影、音乐等录制也需要使用到录音设备。

目前，在播放录音设备中的音频时，通常仅展示音波动画；无法很好的还原出录制该音频数据时的场景，录音播放效果差。

发明内容

本发明实施例提供一种数据处理方法，以提高录音播放效果。

相应的，本发明实施例还提供了一种数据处理装置和一种电子设备，用以保证上述方法的实现及应用。

为了解决上述问题，本发明实施例公开了一种数据处理方法，具体包括：在播放目标音频数据时，获取所述目标音频数据中讲话人的关联信息；依据所述关联信息，构造虚拟录音场景，其中，所述虚拟录音场景与所述目标音频数据的真实录音场景对应。

可选地，所述关联信息包括用户信息和位置信息，所述依据所述关联信息，构造虚拟录音场景，包括:依据所述讲话人的用户信息，确定所述讲话人对应的虚拟人物；依据所述讲话人的位置信息和对应的虚拟人物，构造虚拟录音场景。

可选地，所述讲话人包括多个，所述依据所述讲话人的位置信息和对应的虚拟人物，构造虚拟录音场景，包括：确定所述目标音频数据录制时的录音模式；从预设的虚拟场景中，选取所述录音模式匹配的目标虚拟场景；在所述目标虚拟场景中，依据所述讲话人的位置信息将各虚拟人物放置在对应讲话人的位置，得到的虚拟录音场景。

可选地，所述用户信息包括以下至少一种：用户性别、用户年龄和用户性格类型；所述依据讲话人的用户信息，确定讲话人对应的虚拟人物，包括：

获取预设的虚拟人物的描述信息，所述描述信息包括以下至少一种：人物性别、人物年龄和人物性格类型；针对每一个虚拟人物，将所述讲话人的用户性别与所述虚拟人物的人物年龄进行比对，和/或将所述讲话人的用户年龄与所述虚拟人物的人物年龄进行比对，和/或将所述讲话人的用户性格类型与所述虚拟人物的人物性别进行比对；将人物性别与所述讲话人的用户性别匹配，和/或人物年龄与所述讲话人的用户年龄匹配，和/或人物性格类型与所述讲话人的用户性格类型匹配的虚拟人物，确定为讲话人对应的虚拟人物。

可选地，所述虚拟录音场景中包括所述讲话人对应的虚拟人物，所述的方法还包括：依据所述关联信息，控制所述虚拟录音场景中的虚拟人物的动作。

可选地，所述关联信息包括声音信息，所述依据所述关联信息，控制所述虚拟录音场景中的虚拟人物的动作，包括：依据所述讲话人的声音信息，控制所述虚拟录音场景中虚拟人物的动作。

可选地，所述声音信息包括以下至少一种：语速、语调、语气；所述依据所述讲话人的声音信息，控制所述虚拟录音场景中虚拟人物的动作，包括以下至少一个步骤：依据所述讲话人的语速，控制所述虚拟录音场景中虚拟人物的嘴部动作；依据所述讲话人的语速和/或语调和/或语气，控制所述虚拟录音场景中虚拟人物的面部表情；依据所述讲话人的语速和/或语调和/或语气，控制所述虚拟录音场景中虚拟人物的肢体动作。

可选地，所述的方法还包括：在录制所述目标音频数据的过程中，基于所述目标音频数据进行性别识别，确定所述讲话人的用户性别；和/或，基于所述目标音频数据进行性格类型识别，确定所述讲话人的用户性格类型；和/或，基于所述目标音频数据进行年龄识别，确定所述讲话人的用户年龄；和/或，基于所述目标音频数据进行语速识别，确定所述讲话人的语速；和/或，基于所述目标音频数据进行语气识别，确定所述讲话人的语气；和/或，基于所述目标音频数据进行语调识别，确定所述讲话人的语调。

本发明实施例还公开了一种数据处理装置，具体包括：获取模块，用于在播放目标音频数据时，获取所述目标音频数据中讲话人的关联信息；构建模块，用于依据所述关联信息，构造虚拟录音场景，其中，所述虚拟录音场景与所述目标音频数据的真实录音场景对应。

可选地，所述关联信息包括用户信息和位置信息，所述构建模块，包括:虚拟人物确定子模块，用于依据所述讲话人的用户信息，确定所述讲话人对应的虚拟人物；场景构建子模块，用于依据所述讲话人的位置信息和对应的虚拟人物，构造虚拟录音场景。

可选地，所述讲话人包括多个，所述场景构建子模块，用于确定所述目标音频数据录制时的录音模式；从预设的虚拟场景中，选取所述录音模式匹配的目标虚拟场景；在所述目标虚拟场景中，依据所述讲话人的位置信息将各虚拟人物放置在对应讲话人的位置，得到的虚拟录音场景。

可选地，所述用户信息包括以下至少一种：用户性别、用户年龄和用户性格类型；所述虚拟人物确定子模块，用于获取预设的虚拟人物的描述信息，所述描述信息包括以下至少一种：人物性别、人物年龄和人物性格类型；针对每一个虚拟人物，将所述讲话人的用户性别与所述虚拟人物的人物年龄进行比对，和/或将所述讲话人的用户年龄与所述虚拟人物的人物年龄进行比对，和/或将所述讲话人的用户性格类型与所述虚拟人物的人物性别进行比对；将人物性别与所述讲话人的用户性别匹配，和/或人物年龄与所述讲话人的用户年龄匹配，和/或人物性格类型与所述讲话人的用户性格类型匹配的虚拟人物，确定为讲话人对应的虚拟人物。

可选地，所述虚拟录音场景中包括所述讲话人对应的虚拟人物，所述的装置还包括：控制模块，用于依据所述关联信息，控制所述虚拟录音场景中的虚拟人物的动作。

可选地，所述关联信息包括声音信息，所述控制模块，用于依据所述讲话人的声音信息，控制所述虚拟录音场景中虚拟人物的动作。

可选地，所述声音信息包括以下至少一种：语速、语调、语气；所述控制模块，包括：嘴部动作控制子模块，用于依据所述讲话人的语速，控制所述虚拟录音场景中虚拟人物的嘴部动作；面部表情控制子模块，用于依据所述讲话人的语速和/或语调和/或语气，控制所述虚拟录音场景中虚拟人物的面部表情；肢体动作控制子模块，用于依据所述讲话人的语速和/或语调和/或语气，控制所述虚拟录音场景中虚拟人物的肢体动作。

可选地，所述的装置还包括：识别模块，用于在录制所述目标音频数据的过程中，基于所述目标音频数据进行性别识别，确定所述讲话人的用户性别；和/或，基于所述目标音频数据进行性格类型识别，确定所述讲话人的用户性格类型；和/或，基于所述目标音频数据进行年龄识别，确定所述讲话人的用户年龄；和/或，基于所述目标音频数据进行语速识别，确定所述讲话人的语速；和/或，基于所述目标音频数据进行语气识别，确定所述讲话人的语气；和/或，基于所述目标音频数据进行语调识别，确定所述讲话人的语调。

本发明实施例还公开了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如本发明实施例任一所述的数据处理方法。

本发明实施例还公开了一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：在播放目标音频数据时，获取所述目标音频数据中讲话人的关联信息；依据所述关联信息，构造虚拟录音场景，其中，所述虚拟录音场景与所述目标音频数据的真实录音场景对应。

可选地，所述用户信息包括以下至少一种：用户性别、用户年龄和用户性格类型；所述依据讲话人的用户信息，确定讲话人对应的虚拟人物，包括：获取预设的虚拟人物的描述信息，所述描述信息包括以下至少一种：人物性别、人物年龄和人物性格类型；针对每一个虚拟人物，将所述讲话人的用户性别与所述虚拟人物的人物年龄进行比对，和/或将所述讲话人的用户年龄与所述虚拟人物的人物年龄进行比对，和/或将所述讲话人的用户性格类型与所述虚拟人物的人物性别进行比对；将人物性别与所述讲话人的用户性别匹配，和/或人物年龄与所述讲话人的用户年龄匹配，和/或人物性格类型与所述讲话人的用户性格类型匹配的虚拟人物，确定为讲话人对应的虚拟人物。

可选地，所述虚拟录音场景中包括所述讲话人对应的虚拟人物，还包含用于进行以下操作的指令：依据所述关联信息，控制所述虚拟录音场景中的虚拟人物的动作。

可选地，还包含用于进行以下操作的指令：在录制所述目标音频数据的过程中，基于所述目标音频数据进行性别识别，确定所述讲话人的用户性别；和/或，基于所述目标音频数据进行性格类型识别，确定所述讲话人的用户性格类型；和/或，基于所述目标音频数据进行年龄识别，确定所述讲话人的用户年龄；和/或，基于所述目标音频数据进行语速识别，确定所述讲话人的语速；和/或，基于所述目标音频数据进行语气识别，确定所述讲话人的语气；和/或，基于所述目标音频数据进行语调识别，确定所述讲话人的语调。

本发明实施例包括以下优点：

本发明实施例中，可以在播放目标音频数据时，获取所述目标音频数据中讲话人的关联信息；然后依据所述关联信息，构造与所述目标音频数据的真实录音场景对应虚拟录音场景；进而在播放音频数据的同时，对录制该音频数据时的真实录音场景进行还原，增强录音播放效果，提高用户体验。

附图说明

图1是本发明的一种数据处理方法实施例的步骤流程图；

图2a是本发明的一种数据处理方法可选实施例的步骤流程图；

图2b是本发明实施例的一种虚拟录音场景的示意图；

图3是本发明的另一种数据处理方法可选实施例的步骤流程图；

图4是本发明的一种数据处理装置实施例的结构框图；

图5是本发明的一种数据处理装置可选实施例的结构框图；

图6根据一示例性实施例示出的一种用于数据处理的电子设备的结构框图；

图7是本发明根据另一示例性实施例示出的一种用于数据处理的电子设备的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明的核心构思之一在于，在播放目标音频数据的同时，构造与目标音频数据的真实录音场景对应的虚拟录音场景，实现对录制目标音频数据时的真实录音场景进行还原，增强录音播放效果，提高用户体验。

其中，所述目标音频数据可以是存储在录音设备中的音频数据，对应的，可以由录音设备执行本发明实施例提供的数据处理方法；其中，所述录音设备可以指具有录音功能的设备，如录音笔、翻译笔、翻译机等，本发明实施例对此不作限制。当然，当录音设备与其它设备连接时，可以由其他设备执行本发明实施例提供的数据处理方法。此外，所述目标音频数据也可以是存储在其它设备中的音频数据，进而可以由其它设备执行本发明实施例提供的数据处理方法；本发明实施例对执行本发明实施例提供的数据处理方法的设备不作限制。其中，所述其它设备可以是指除录音设备之外设备，可以是终端设备，也可以是服务器。

参照图1，示出了本发明的一种数据处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤102、在播放目标音频数据时，获取所述目标音频数据中讲话人的关联信息。

步骤104、依据所述关联信息，构造虚拟录音场景，其中，所述虚拟录音场景与所述目标音频数据的真实录音场景对应。

本发明实施例中，可以将用户所需播放的音频数据，称为目标音频数据。其中，用户可以从录音设备中选择目标音频数据，也可以从其他电子设备中选择目标音频数据，本发明实施例对此不作限制。

待接收到用户的播放指令后，可以播放目标音频数据；并在播放目标音频数据的同时，构造与录制目标音频数据时的真实录音场景所对应的虚拟录音场景。进而在播放目标音频数据的同时，展示目标录音数据对应的录音场景，增强录音播放效果；从而提高用户体验。

其中，可以获取目标音频数据中讲话人的关联信息；然后可以基于目标音频数据中讲话人的关联信息，构造对应的虚拟录音场景。

本发明实施例中，所述目标音频数据中的讲话人可以是一个，也可以是多个；当目标音频数据中讲话人为多个时，可以获取目标音频数据中各讲话人的关联信息。

其中，所述关联信息可以包括在讲话人讲话过程中，与讲话人相关联的所有的信息，如讲话人的声音信息如语速、语调，用户信息如性别、年龄等等；本发明实施例对此不作限制。

综上，本发明实施例中，可以在播放目标音频数据时，获取所述目标音频数据中讲话人的关联信息；然后依据所述关联信息，构造与所述目标音频数据的真实录音场景对应虚拟录音场景；进而在播放音频数据的同时，对录制该音频数据时的真实录音场景进行还原，增强录音播放效果，提高用户体验。

以下以目标音频数据中的讲话人包括多个为例，对如何构造虚拟录音场景进行说明。

参照图2a，示出了本发明的一种数据处理方法可选实施例的步骤流程图，具体可以包括如下步骤：

步骤202、在播放目标音频数据时，获取所述目标音频数据中讲话人的关联信息；所述关联信息包括用户信息和位置信息。

本发明实施例中，所述关联信息可以包括用户信息和位置信息，所述用户信息可以包括以下至少一种：用户性别、用户年龄和用户性格类型，当然还可以包括其他信息如用户体型、用户国籍/语言等等，本发明实施例对此不作限制。

其中，可以在录制目标音频数据过程中，确定目标音频数据中讲话人对应关联信息中的用户信息；可以包括如下方法：在录制所述目标音频数据的过程中，基于所述目标音频数据进行性别识别，确定所述讲话人的用户性别；和/或基于所述目标音频数据进行性格类型识别，确定所述讲话人的用户性格类型；和/或，基于所述目标音频数据进行年龄识别，确定所述讲话人的用户年龄。

其中，在录制目标音频数据过程中，可以进行VAD(Voice Activity Detection，语音端点检测)，并在检测到语音消失时，可以获取检测到语音消失的时刻1与时刻2之间录制的目标音频数据进行识别，确定该目标音频数据中讲话人以及确定各讲话人对应的用户信息。其中，时刻2是指与时刻1距离最近的检测到语音出现的时刻。

其中，对时刻1与时刻2之间录制的目标音频数据进行识别过程中，在识别出该段目标音频数据中的各讲话人后，可以采用各讲话人对应的用户标识对该段目标音频数据进行标识；其中，所述用户标识用于唯一标识讲话人。然后可以针对该段目标音频数据中每个讲话人的音频片段进行如下处理：对该讲话人对应的音频片段进行性别识别、性格类型识别和年龄识别，确定该段音频片段对应的用户性别、用户性格类型和用户年龄；并将用户性别、用户性格类型和用户年龄，与该讲话人对应的用户标识进行关联。

本发明实施例中，针对每个讲话人对应的音频片段，可以对该音频片段进行特征提取，得到对应的声音特征信息；然后基于声音特征信息进行性别识别、年龄识别和性格类型识别。一个示例中，可以将该音频片段输入至性别识别模型中，由性别识别模型提取该音频片段对应的声音特征信息，然后基于该声音特征信息进行性别识别，并输出性别识别结果(即用户性别)。一个示例中，可以将该音频片段输入至年龄识别模型中，由年龄识别模型，提取该音频片段对应的声音特征信息，然后基于该声音特征信息进行年龄识别，并输出年龄识别结果(即用户年龄)。其中，所述年龄识别结果可以是具体的年龄数值，也可以是年龄数值区间，本发明实施例对此不作限制。一个示例中，可以将该音频片段输入至性格类型识别模型中，由性格类型识别模型，提取该音频片段对应的声音特征信息，然后基于该声音特征信息进行性格类型识别，并输出性格类型识别结果(即用户性格类型)。当然，上述性格类型识别模型、年龄识别模型和性别模型，可以是一个模型；本发明实施例对此不作限制。

本发明实施例中，可以在录制目标音频数据过程中，确定目标音频数据中讲话人对应关联信息中的位置信息，可以包括：在录制目标音频数据过程中，根据声源定位，确定目标音频数据中各讲话人的位置信息。

步骤204、依据所述讲话人的用户信息，确定所述讲话人对应的虚拟人物。

步骤206、依据所述讲话人的位置信息和对应的虚拟人物，构造虚拟录音场景。

本发明实施例中，可以先基于各讲话人的用户信息，确定各讲话人对应的虚拟人物；然后再基于各讲话人的位置信息和对应的虚拟人物，进行场景构建，得到对应的虚拟录音场景。

本发明实施例中，可以预先设置多个虚拟人物，并配置各虚拟人物的描述信息，所述描述信息可以包括以下至少一张：人物性别、人物年龄和人物性格类型。当然，还可以包括其他的信息如虚拟人物的出处如**动画、**电视剧等等，服饰特征等等。其中，可以由系统自动设置，也可以是由用户自定义设置，本发明实施例对此不作限制。其中，人物年龄可以是具体的年龄数值，也可以是年龄数值空间。

本发明实施例中，一种所述依据讲话人的用户信息，确定讲话人对应的虚拟人物的实现方式，可以包括如下子步骤S22-S26：

子步骤S22、获取预设的虚拟人物的描述信息，所述描述信息包括：人物性别、人物年龄和人物性格类型。

子步骤S24、针对每一个虚拟人物，针对每一个虚拟人物，将所述讲话人的用户性别与所述虚拟人物的人物年龄进行比对，和/或将所述讲话人的用户年龄与所述虚拟人物的人物年龄进行比对，和/或将所述讲话人的用户性格类型与所述虚拟人物的人物性别进行比对。

子步骤S26、将人物性别与所述讲话人的用户性别匹配，和/或人物年龄与所述讲话人的用户年龄匹配，和/或人物性格类型与所述讲话人的用户性格类型匹配的虚拟人物，确定为讲话人对应的虚拟人物。

本发明实施例中，针对一个讲话人，可以将该讲话人的用户信息分别与预设的各虚拟人物的描述信息进行比对，确定与该讲话人对应匹配的虚拟人物。其中，针对一个虚拟人物，可以将该讲话人的用户性别与该虚拟人物的人物性别比对，和/或将该讲话人的用户年龄与该虚拟人物的人物年龄进行比对，和/或将该讲话人的用户性格类型和该虚拟人物的人物性格类型进行比对。然后将人物性别与所述讲话人的用户性别匹配，和/或人物年龄与所述讲话人的用户年龄匹配，和/或人物性格类型与所述讲话人的用户性格类型匹配的虚拟人物，确定为讲话人对应的虚拟人物。

当存在人物性别与所述讲话人的用户性别匹配，和/或人物年龄与所述讲话人的用户年龄匹配，和/或人物性格类型与所述讲话人的用户性格类型匹配的虚拟人物包括多个时，可以基于该讲话人对应用户信息中其他维度的信息进行筛选如语言，选取出一个虚拟人物，作为该讲话人对应的虚拟人物。

本发明实施例中，所述依据所述讲话人的位置信息和对应的虚拟人物，构造虚拟录音场景的一种实现方式，包括如下子步骤S42-子步骤46：

子步骤S42、确定所述目标音频数据录制时的录音模式。

子步骤S44、从预设的虚拟场景中，选取所述录音模式匹配的目标虚拟场景。

子步骤S46、在所述目标虚拟场景中，依据所述讲话人的位置信息将各虚拟人物放置在对应讲话人的位置，得到的虚拟录音场景。

本发明实施例中，可以预先设置多个虚拟场景，所述虚拟场景可以是二维虚拟场景如图片，也可以是三维的虚拟场景；本发明实施例对此不作限制。其中，所述虚拟场景可以由系统设置，也可以由用户自定义设置，本发明实施例对此不作限制。

在构建虚拟录音场景时，可以确定录制目标音频数据时，所选用的录音模式；然后根据录音模式，从预设的多个虚拟场景中，选取与录音模式匹配的目标虚拟场景。其中，所述录音模式包括多种，如会议模式、听课模式、采访模式、音乐会模式等等。例如，录音模式为会议模式，可以选取出会议室图片，作为目标虚拟场景；录音模式为听课模式，可以选取出课堂图片/报告厅图片，作为目标虚拟场景；等等。再依据各讲话人的位置信息进行位置映射，确定各讲话人对应虚拟人物在该目标虚拟场景中的位置信息；然后基于各虚拟人物在该目标虚拟场景中的位置信息放置各虚拟人物，进而将各虚拟人物放置在对应讲话人的位置，得到的虚拟录音场景。

本发明的一个可选实施例中，在将各虚拟人物放置在对应讲话人的位置后，可以在与各虚拟人物对应的位置处，展示与各虚拟人物对应讲话人的至少部分用户信息，得到虚拟录音场景；使得构造的虚拟录音场景更直观。

例如：假设目标音频数据对应的录音模式为会议模式，所包含的讲话人为6个，这6个讲话人围绕会议桌而坐。其中，3个男生、3个女生，年龄均为25～36岁，性格类型分别为：活泼、暴躁、忧郁、腼腆、稳健、喜怒无常；构建出的虚拟录音场景可参照图2b。

综上，本发明实施例中，可以先依据所述讲话人的用户信息，确定所述讲话人对应的虚拟人物；然后依据所述讲话人的位置信息和对应的虚拟人物，构造虚拟录音场景，进而能够构建出包含各讲话人对应虚拟人物的虚拟录音场景，使得录音播放更加生动，进一步提高录音播放效果。

其次，本发明实施例中，在依据讲话人的用户信息，确定讲话人对应的虚拟人物的过程中，可以获取预设的虚拟人物的描述信息，并针对每一个虚拟人物，将所述讲话人的用户性别与所述虚拟人物的人物年龄进行比对，和/或将所述讲话人的用户年龄与所述虚拟人物的人物年龄进行比对，和/或将所述讲话人的用户性格类型与所述虚拟人物的人物性别进行比对；然后将人物性别与所述讲话人的用户性别匹配，和/或人物年龄与所述讲话人的用户年龄匹配，和/或人物性格类型与所述讲话人的用户性格类型匹配的虚拟人物，确定为讲话人对应的虚拟人物；进而能够将与讲话人的性别、年龄和性格类型任一项匹配的虚拟人物放置在虚拟录音场景中，使得虚拟录音场景中虚拟人物形象，与真实录音场景中讲话人的形象更加贴切，从而使得音频播放更加生动，进一步提高了录音播放效果。

再次，本发明实施例中，在依据所述讲话人的位置信息和对应的虚拟人物，构造虚拟录音场景的过程中，可以确定所述目标音频数据录制时的录音模式，然后从预设的虚拟场景中，选取所述录音模式匹配的目标虚拟场景；再在所述目标虚拟场景中，依据所述讲话人的位置信息将各虚拟人物放置对应讲话人的位置，得到的虚拟录音场景；进而能够在虚拟录音场景中还原真实录音场景中各讲话人的位置，从而使得音频播放更加生动，进一步提高了录音播放效果。

参照图3，示出了本发明的另一种数据处理方法可选实施例的步骤流程图。

步骤302、在播放目标音频数据时，获取所述目标音频数据中讲话人的关联信息。

本发明实施例中，所述讲话人的关联信息还可以包括声音信息，所述声音信息可以包括所有与声音相关的信息，可以包括以下至少一种：语速、语调、语气；当然所述声音信息还可以包括其他的信息，本发明实施例对此不作限制。

本发明实施例中，可以在录制目标音频数据的过程中，确定目标音频数据中讲话人对应关联信息中的声音信息；可以包括如下方法：在录制所述目标音频数据的过程中，基于所述目标音频数据进行语速识别，确定所述讲话人的语速；和/或，基于所述目标音频数据进行语气识别，确定所述讲话人的语气；和/或，基于所述目标音频数据进行语调识别，确定所述讲话人的语调。

其中，在录制目标音频数据过程中，可以进行VAD(Voice Activity Detection，语音端点检测)，并在检测到语音消失时，可以获取检测到语音消失的时刻1与时刻2之间录制的目标音频数据进行识别，确定该目标音频数据中讲话人以及确定各讲话人对应的声音信息。其中，时刻2是指与时刻1距离最近的检测到语音出现的时刻。

其中，对时刻1与时刻2之间录制的目标音频数据进行识别过程中，在识别出该段目标音频数据中的各讲话人后，可以采用各讲话人对应的用户标识对该段目标音频数据进行标识。然后可以针对该段目标音频数据中每个讲话人的音频片段进行如下处理：对该讲话人对应的音频片段进行语速识别、语气识别和语调识别，确定该音频片段对应的该讲话人的语速、语气和语调。并将语调、语气和语调，与该讲话人对应的用户标识进行关联。

本发明实施例中，针对每个讲话人的音频片段，可以对该音频片段进行语音识别，得到对应的识别文本；然后可以基于该识别文本的文本长度和该音频片段对应的时长，计算该音频片段对应的语速。以及可以对该识别文本进行语义分析，确定对应的语气和语调。

步骤304、依据所述关联信息，构造虚拟录音场景，其中，所述虚拟录音场景与所述目标音频数据的真实录音场景对应。

步骤304，可以参照上述步骤204-步骤206，在此不再赘述。

步骤306、依据所述关联信息，控制所述虚拟录音场景中的虚拟人物的动作。

本发明实施例中，在构造虚拟录音场景后，在每个讲话人讲话时，可以基于该讲话人的关联信息，控制虚拟录音场景中该讲话人对应虚拟人物的动作；进而能够更生动地刻画虚拟录音场景中各虚拟人物，使得虚拟录音场景更贴近真实录音场景，进一步提高录音播放效果。

本发明实施例中，一种依据所述关联信息，控制所述虚拟录音场景中的虚拟人物的动作的方式可以包括：依据所述讲话人的声音信息，控制所述虚拟录音场景中虚拟人物的动作。其中，所述动作可以包括：嘴部动作、面部动作和肢体动作；进而可对虚拟人物的嘴部动作、面部动作和主体动作进行控制。

本发明的一个示例中，所述依据所述讲话人的声音信息，控制所述虚拟录音场景中虚拟人物的动作，包括以下至少一个步骤：

依据所述讲话人的语速，控制所述虚拟录音场景中虚拟人物的嘴部动作。其中，在播放每个讲话人的音频数据时，可以根据该讲话人的语速，控制该讲话人对应虚拟人物嘴部动作的快慢。例如，语速快时，控制虚拟人物嘴部快速张合；语速慢时，控制虚拟人物嘴部慢速张合。当然，还可以按照该讲话人对应音频数据的识别文本对应的发音，控制该讲话人对应虚拟人物的嘴型变化；等等。

依据所述讲话人的语气，控制所述虚拟录音场景中虚拟人物的面板表情。例如，在播放每个讲话人的音频数据时，若该讲话人的语调是惊讶语气，可以控制该讲话人对应虚拟人物面部展示惊讶的表情；若该讲话人的语气是疑问语气，可以控制该讲话人对应虚拟人物面部展示疑问的表情。

依据所述讲话人的语调，控制所述虚拟录音场景中虚拟人物的面板表情。例如，在播放每个讲话人的音频数据时，若该讲话人的语调是低音调，可以控制该讲话人对应虚拟人物面部展示失落或高冷的表情；若该讲话人的语调是高音调，可以控制该讲话人对应虚拟人物面部展示兴奋或生气的表情。

本发明实施例中，还可以依据所述讲话人的语速和/或语调和/或语气，确定该讲话人的情绪；然后在播放每个讲话人的音频数据时，可以根据该讲话人的情绪，控制该讲话人对应虚拟人物的面部表情。例如，若该讲话人的情绪是悲伤，可以控制该讲话人对应虚拟人物面部展示悲伤的表情；若该讲话人的语调是激动，可以控制该讲话人对应虚拟人物面部展示激动的表情。

本发明实施例中，可以依据所述讲话人的语速和/或语调和/或语气，控制所述虚拟录音场景中虚拟人物的肢体动作。其中，在播放每个讲话人的音频数据时，可以根据该讲话人的语速，控制该讲话人对应虚拟人物的肢体动作。例如，若该讲话人的语速比较慢，可以控制该讲话人对应虚拟人物慢速摆动手部；若该讲话人的语速比较快，可以控制该讲话人对应虚拟人物快速摆动手部。在播放每个讲话人的音频数据时，可以根据该讲话人的语气，控制该讲话人对应虚拟人物的肢体动作。例如，若该讲话人的语气是惊讶语气，可以控制该讲话人对应虚拟人物摆出手部捂嘴的动作；若该讲话人的语气是疑问语气，可以控制该讲话人对应虚拟人物摆出手部挠头的动作。在播放每个讲话人的音频数据时，可以根据该讲话人的语调，控制该讲话人对应虚拟人物的肢体动作。例如，若该讲话人的语调是高音调，可以控制该讲话人对应虚拟人物抬起手部的动作；若该讲话人的语调是低音调，可以控制该讲话人对应虚拟人物将手部放在膝盖或桌面。在播放每个讲话人的音频数据时，可以根据该讲话人的语速和/或语调和/或语气，确定该讲话人的情绪；然后依据该讲话人的情绪，控制该讲话人对应虚拟人物的肢体动作。例如，若该讲话人的情绪是悲伤，可以控制该讲话人对应虚拟人物摆出手部擦泪的动作；若该讲话人的语调是激动，可以控制该讲话人对应虚拟人物面手舞足蹈。

由于不同性别、不同年龄、以及不同人物性格的用户，采用同一语音数据表达同一情绪的方式不同；例如，男士表达悲伤情绪和女士表达悲伤情绪的面部表情不同，肢体动作也不同。进而本发明的一个可选实施例中，可以结合讲话人的用户信息和讲话人的声音信息，共同控制讲话人对应虚拟人物的动作，进而能够控制虚拟人物展示出更符合讲话人特性的动作。

综上，本发明实施例中，在播放目标音频数据的同时，构造虚拟录音场景后，还可以控制虚拟录音场景中虚拟人物的动作；使得虚拟录音场景更贴近真实录音场景，进一步提高录音播放效果。

其次，本发明实施例中，可以依据所述讲话人的语速，控制所述虚拟录音场景中虚拟人物的嘴部动作；和/或依据所述讲话人的语速和/或语调和/或语气，控制所述虚拟录音场景中虚拟人物的面部表情；和/或依据所述讲话人的语速和/或语调和/或语气，控制所述虚拟录音场景中虚拟人物的肢体动作；进而通过对虚拟人物的嘴部动作、面部动作和肢体动作进行控制，实现在播放讲话人的音频片段时，控制虚拟录音场景中的虚拟人物模拟讲话人的动作，使得虚拟录音场景更生动，进一步提高录音播放效果。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图4，示出了本发明的一种数据处理装置实施例的结构框图，具体可以包括如下模块：

获取模块402，用于在播放目标音频数据时，获取所述目标音频数据中讲话人的关联信息；

构建模块404，用于依据所述关联信息，构造虚拟录音场景，其中，所述虚拟录音场景与所述目标音频数据的真实录音场景对应。

参照图5，示出了本发明的一种数据处理装置可选实施例的结构框图。

本发明一个可选的实施例中，所述关联信息包括用户信息和位置信息，所述构建模块404，包括:

虚拟人物确定子模块4042，用于依据所述讲话人的用户信息，确定所述讲话人对应的虚拟人物；

场景构建子模块4044，用于依据所述讲话人的位置信息和对应的虚拟人物，构造虚拟录音场景。

本发明一个可选的实施例中，所述讲话人包括多个，

所述场景构建子模块4044，用于确定所述目标音频数据录制时的录音模式；从预设的虚拟场景中，选取所述录音模式匹配的目标虚拟场景；在所述目标虚拟场景中，依据所述讲话人的位置信息将各虚拟人物放置在对应讲话人的位置，得到的虚拟录音场景。

本发明一个可选的实施例中，所述用户信息包括以下至少一种：用户性别、用户年龄和用户性格类型；

所述虚拟人物确定子模块4042，用于获取预设的虚拟人物的描述信息，所述描述信息包括以下至少一种：人物性别、人物年龄和人物性格类型；针对每一个虚拟人物，将所述讲话人的用户性别与所述虚拟人物的人物年龄进行比对，和/或将所述讲话人的用户年龄与所述虚拟人物的人物年龄进行比对，和/或将所述讲话人的用户性格类型与所述虚拟人物的人物性别进行比对；将人物性别与所述讲话人的用户性别匹配，和/或人物年龄与所述讲话人的用户年龄匹配，和/或人物性格类型与所述讲话人的用户性格类型匹配的虚拟人物，确定为讲话人对应的虚拟人物。

本发明一个可选的实施例中，所述虚拟录音场景中包括所述讲话人对应的虚拟人物，所述的装置还包括：

控制模块406，用于依据所述关联信息，控制所述虚拟录音场景中的虚拟人物的动作。

本发明一个可选的实施例中，所述关联信息包括声音信息，

所述控制模块406，用于依据所述讲话人的声音信息，控制所述虚拟录音场景中虚拟人物的动作。

本发明一个可选的实施例中，所述声音信息包括以下至少一种：语速、语调、语气；所述控制模块，包括：

嘴部动作控制子模块4062，用于依据所述讲话人的语速，控制所述虚拟录音场景中虚拟人物的嘴部动作；

面部表情控制子模块4064，用于依据所述讲话人的语速和/或语调和/或语气，控制所述虚拟录音场景中虚拟人物的面部表情；

肢体动作控制子模块4066，用于依据所述讲话人的语速和/或语调和/或语气，控制所述虚拟录音场景中虚拟人物的肢体动作。

本发明一个可选的实施例中，所述的装置还包括：

识别模块408，用于在录制所述目标音频数据的过程中，基于所述目标音频数据进行性别识别，确定所述讲话人的用户性别；和/或，基于所述目标音频数据进行性格类型识别，确定所述讲话人的用户性格类型；和/或，基于所述目标音频数据进行年龄识别，确定所述讲话人的用户年龄；和/或，基于所述目标音频数据进行语速识别，确定所述讲话人的语速；和/或，基于所述目标音频数据进行语气识别，确定所述讲话人的语气；和/或，基于所述目标音频数据进行语调识别，确定所述讲话人的语调。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图6是根据一示例性实施例示出的一种用于数据处理的电子设备600的结构框图。例如，电子设备600可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图6，电子设备600可以包括以下一个或多个组件：处理组件602，存储器604，电力组件606，多媒体组件608，音频组件610，输入/输出(I/O)的接口612，传感器组件614，以及通信组件616。

处理组件602通常控制电子设备600的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件602可以包括一个或多个处理器620来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。例如，处理部件602可以包括多媒体模块，以方便多媒体组件608和处理组件602之间的交互。

存储器604被配置为存储各种类型的数据以支持在电子设备600的操作。这些数据的示例包括用于在电子设备600上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件606为电子设备600的各种组件提供电力。电力组件606可以包括电源管理系统，一个或多个电源，及其他与为电子设备600生成、管理和分配电力相关联的组件。

多媒体组件608包括在所述电子设备600和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件608包括一个前置摄像头和/或后置摄像头。当电子设备600处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件610被配置为输出和/或输入音频信号。例如，音频组件610包括一个麦克风(MIC)，当电子设备600处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中，音频组件610还包括一个扬声器，用于输出音频信号。

I/O接口612为处理组件602和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器，用于为电子设备600提供各个方面的状态评估。例如，传感器组件614可以检测到电子设备600的打开/关闭状态，组件的相对定位，例如所述组件为电子设备600的显示器和小键盘，传感器组件614还可以检测电子设备600或电子设备600一个组件的位置改变，用户与电子设备600接触的存在或不存在，电子设备600方位或加速/减速和电子设备600的温度变化。传感器组件614可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件614还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件616被配置为便于电子设备600和其他设备之间有线或无线方式的通信。电子设备600可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件614经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件614还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器604，上述指令可由电子设备600的处理器620执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行一种数据处理方法，所述方法包括：在播放目标音频数据时，获取所述目标音频数据中讲话人的关联信息；依据所述关联信息，构造虚拟录音场景，其中，所述虚拟录音场景与所述目标音频数据的真实录音场景对应。

图7是本发明根据另一示例性实施例示出的一种用于数据处理的电子设备700的结构示意图。该电子设备700可以是服务器，该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)722(例如，一个或一个以上处理器)和存储器732，一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器722可以设置为与存储介质730通信，在服务器上执行存储介质730中的一系列指令操作。

服务器还可以包括一个或一个以上电源726，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口758，一个或一个以上键盘756，和/或，一个或一个以上操作系统741，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

在示例性实施例中，服务器经配置以由一个或者一个以上中央处理器722执行一个或者一个以上程序包含用于进行以下操作的指令：在播放目标音频数据时，获取所述目标音频数据中讲话人的关联信息；依据所述关联信息，构造虚拟录音场景，其中，所述虚拟录音场景与所述目标音频数据的真实录音场景对应。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种数据处理方法、一种数据处理装置和一种电子设备，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种数据处理方法，其特征在于，包括：

在播放目标音频数据时，获取所述目标音频数据中讲话人的关联信息，所述讲话人包括多个，所述关联信息包括用户信息和位置信息，所述用户信息是通过对目标音频数据进行识别后得到的；

依据所述关联信息，构造虚拟录音场景，其中，所述虚拟录音场景与所述目标音频数据的真实录音场景对应；

其中，所述依据所述关联信息，构造虚拟录音场景，包括:

依据所述讲话人的用户信息，确定所述讲话人对应的虚拟人物；

确定所述目标音频数据录制时的录音模式；

从预设的虚拟场景中，选取所述录音模式匹配的目标虚拟场景；

在所述目标虚拟场景中，依据所述讲话人的位置信息将各虚拟人物放置在对应讲话人的位置，得到的虚拟录音场景。

2.根权利要求1所述的方法，其特征在于，所述用户信息包括以下至少一种：用户性别、用户年龄和用户性格类型；

所述依据讲话人的用户信息，确定讲话人对应的虚拟人物，包括：

获取预设的虚拟人物的描述信息，所述描述信息包括以下至少一种：人物性别、人物年龄和人物性格类型；

针对每一个虚拟人物，将所述讲话人的用户性别与所述虚拟人物的人物年龄进行比对，和/或将所述讲话人的用户年龄与所述虚拟人物的人物年龄进行比对，和/或将所述讲话人的用户性格类型与所述虚拟人物的人物性别进行比对；

将人物性别与所述讲话人的用户性别匹配，和/或人物年龄与所述讲话人的用户年龄匹配，和/或人物性格类型与所述讲话人的用户性格类型匹配的虚拟人物，确定为讲话人对应的虚拟人物。

3.根据权利要求1所述的方法，其特征在于，所述虚拟录音场景中包括所述讲话人对应的虚拟人物，所述的方法还包括：

依据所述关联信息，控制所述虚拟录音场景中的虚拟人物的动作。

4.根据权利要求3所述的方法，其特征在于，所述关联信息包括声音信息，所述依据所述关联信息，控制所述虚拟录音场景中的虚拟人物的动作，包括：

依据所述讲话人的声音信息，控制所述虚拟录音场景中虚拟人物的动作。

5.根据权利要求4所述的方法，其特征在于，所述声音信息包括以下至少一种：语速、语调、语气；

所述依据所述讲话人的声音信息，控制所述虚拟录音场景中虚拟人物的动作，包括以下至少一个步骤：

依据所述讲话人的语速，控制所述虚拟录音场景中虚拟人物的嘴部动作；

依据所述讲话人的语速和/或语调和/或语气，控制所述虚拟录音场景中虚拟人物的面部表情；

依据所述讲话人的语速和/或语调和/或语气，控制所述虚拟录音场景中虚拟人物的肢体动作。

6.一种数据处理装置，其特征在于，包括：

获取模块，用于在播放目标音频数据时，获取所述目标音频数据中讲话人的关联信息，所述讲话人包括多个，所述关联信息包括用户信息和位置信息，所述用户信息是通过对目标音频数据进行识别后得到的；

构建模块，用于依据所述关联信息，构造虚拟录音场景，其中，所述虚拟录音场景与所述目标音频数据的真实录音场景对应；

其中，所述构建模块，包括：

虚拟人物确定子模块，用于依据所述讲话人的用户信息，确定所述讲话人对应的虚拟人物；

场景构建子模块，用于确定所述目标音频数据录制时的录音模式；从预设的虚拟场景中，选取所述录音模式匹配的目标虚拟场景；在所述目标虚拟场景中，依据所述讲话人的位置信息将各虚拟人物放置在对应讲话人的位置，得到的虚拟录音场景。

7.一种电子设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

其中，所述依据所述关联信息，构造虚拟录音场景，包括:

确定所述目标音频数据录制时的录音模式；

8.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如方法权利要求1-5任一所述的数据处理方法。