CN112633110A

CN112633110A - 数据处理方法和装置

Info

Publication number: CN112633110A
Application number: CN202011492748.XA
Authority: CN
Inventors: 王响; 王恺; 廉士国
Original assignee: China United Network Communications Group Co Ltd; Unicom Big Data Co Ltd
Current assignee: China United Network Communications Group Co Ltd; Unicom Big Data Co Ltd
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-04-09
Anticipated expiration: 2040-12-16
Also published as: CN112633110B

Abstract

本申请实施例提供了一种数据处理方法和装置，先采集目标对象输入的包括音频数据和视频数据的第一信息；分别对音频数据进行语音识别，得到音频数据对应的语音描述信息，并对视频数据进行图像识别，得到视频数据对应的图像描述信息；将语音描述信息和图像描述信息一并输入至自然语言理解算法，并通过运用自然语言理解算法对语音描述信息和图像描述信息进行综合处理，得到第一信息对应的响应信息；无需再将语音描述信息和图像描述信息各自对应的响应信息进行拼凑，避免了在拼凑时出现语言与动作不协调的情况，从而提高了响应效果。

Description

数据处理方法和装置

技术领域

本发明涉及多模态数据处理领域，尤其涉及一种数据处理方法和装置。

背景技术

随着科技的不断发展和进步，对于数据处理的要求越来越高，特别是在人机交互领域，通过计算机技术构建虚拟的人物形象，并赋予其与现实世界中的用户进行互动的能力成为当前研究的热点。

现有技术中，虚拟人物在与用户进行互动时，分别采集用户输入的音频和视频，运用多模态交互系统，对采集到的音频和视频分别进行简单的分析处理，得到各个数据对应的虚拟人物的行为表现数据；虚拟人物再对音频对应的行为表现数据和视频对应的行为表现数据进行拼凑，输出与用户输入信息对应的响应信息，从而完成与用户的互动。

但是，通过对音频和视频单独处理，使得在输出响应时，需要对音频对应的行为表现数据和视频对应的行为表现数据进行拼凑，这样可能会因为拼凑不契合而使得虚拟人物出现语言与动作不协调的情况，从而导致响应效果较差。

发明内容

本申请实施例提供了一种数据处理方法和装置，使得响应信息的语音和视频更加契合，从而提高了响应效果。

第一方面，本申请实施例提供了一种数据处理方法，所述数据处理方法包括：

采集目标对象输入的第一信息；其中，所述第一信息包括音频数据和视频数据。

分别对所述音频数据进行语音识别，得到所述音频数据对应的语音描述信息，并对所述视频数据进行图像识别，得到所述视频数据对应的图像描述信息。

将所述语音描述信息和所述图像描述信息输入至自然语言理解算法，得到所述第一信息对应的响应信息。

输出所述响应信息。

在一种可能的实现方式中，所述将所述语音描述信息和所述图像描述信息输入至自然语言理解算法，得到所述第一信息对应的响应信息，包括：

将所述语音描述信息和所述图像描述信息输入至所述自然语言理解算法，得到所述响应信息对应的描述信息。

根据所述响应信息对应的描述信息确定所述第一信息对应的响应信息。

在一种可能的实现方式中，所述根据所述响应信息对应的描述信息确定所述第一信息对应的响应信息，包括：

对所述响应信息对应的描述信息中的音频描述信息进行转换，得到所述音频描述信息对应的音素序列。

对所述响应信息对应的描述信息中的图像描述信息进行编码，得到所述图像描述信息对应的编码序列。

将所述音素序列和所述编码序列输入至语音合成网络，得到所述第一信息对应的响应信息。

在一种可能的实现方式中，所述对所述视频数据进行图像识别，得到所述视频数据对应的图像描述信息，包括：

确定所述目标对象在视频中的人物遮罩。

基于所述人物遮罩对所述视频数据进行筛选，得到所述视频数据对应的图像描述信息。

在一种可能的实现方式中，所述确定所述目标对象在视频中的人物遮罩，包括：

根据语音定位算法确定所述目标对象的位置。

根据所述目标对象的位置、及音频采集设备与视频采集设备之间的位置关系，确定所述目标对象在视频中的人物遮罩。

在一种可能的实现方式中，所述输出所述响应信息，包括：

确定所述响应信息对应的控制参数。

根据所述响应信息对应的控制参数控制虚拟人物输出所述响应信息。

第二方面，本申请实施例提供了一种数据处理装置，所述数据处理装置包括：

采集单元，用于采集目标对象输入的第一信息；其中，所述第一信息包括音频数据和视频数据。

处理单元，用于分别对所述音频数据进行语音识别，得到所述音频数据对应的语音描述信息，并对所述视频数据进行图像识别，得到所述视频数据对应的图像描述信息。

所述处理单元，还用于将所述语音描述信息和所述图像描述信息输入至自然语言理解算法，得到所述第一信息对应的响应信息。

输出单元，用于输出所述响应信息。

在一种可能的实现方式中，所述处理单元，具体用于将所述语音描述信息和所述图像描述信息输入至所述自然语言理解算法，得到所述响应信息对应的描述信息；根据所述响应信息对应的描述信息确定所述第一信息对应的响应信息。

在一种可能的实现方式中，所述处理单元，具体用于对所述响应信息对应的描述信息中的音频描述信息进行转换，得到所述音频描述信息对应的音素序列；对所述响应信息对应的描述信息中的图像描述信息进行编码，得到所述图像描述信息对应的编码序列；将所述音素序列和所述编码序列输入至语音合成网络，得到所述第一信息对应的响应信息。

在一种可能的实现方式中，所述处理单元，具体用于确定所述目标对象在视频中的人物遮罩；并基于所述人物遮罩对所述视频数据进行筛选，得到所述视频数据对应的图像描述信息。

在一种可能的实现方式中，所述处理单元，具体用于根据语音定位算法确定所述目标对象的位置；根据所述目标对象的位置、及音频采集设备与视频采集设备之间的位置关系，确定所述目标对象在视频中的人物遮罩。

在一种可能的实现方式中，所述输出单元，具体用于确定所述响应信息对应的控制参数；根据所述响应信息对应的控制参数控制虚拟人物输出所述响应信息。

第三方面，本申请实施例还提供了一种数据处理装置，该数据处理装置可以包括存储器和处理器；其中，

所述存储器，用于存储计算机程序。

所述处理器，用于读取所述存储器存储的计算机程序，并根据所述存储器中的计算机程序执行上述第一方面任一种可能的实现方式中所述的数据处理方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现上述第一方面任一种可能的实现方式中所述的数据处理方法。

第五方面，本申请实施例还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时，实现上述第一方面任一种可能的实现方式中所述的数据处理方法。

由此可见，本申请实施例提供了一种数据处理方法和装置，先采集目标对象输入的包括音频数据和视频数据的第一信息；分别对音频数据进行语音识别，得到音频数据对应的语音描述信息，并对视频数据进行图像识别，得到视频数据对应的图像描述信息；将语音描述信息和图像描述信息一并输入至自然语言理解算法，并通过运用自然语言理解算法对语音描述信息和图像描述信息进行综合处理，得到第一信息对应的响应信息；无需再将语音描述信息和图像描述信息各自对应的响应信息进行拼凑，避免了在拼凑时出现语言与动作不协调的情况，从而提高了响应效果。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1为本申请实施例提供的一种数据处理方法的应用场景示意图；

图2为本申请实施例提供的一种数据处理方法的流程示意图；

图3为本申请实施例提供的另一种数据处理方法的流程示意图；

图4为本申请实施例提供的一种数据处理装置的结构示意图；

图5为本申请实施例提供的另一种数据处理装置的结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本发明的实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A，B可以是单数或者复数。在本发明的文字描述中，字符“/”一般表示前后关联对象是一种“或”的关系。

本申请实施例提供的技术方案可以应用于信息交互场景中。例如，可以应用在人机交互系统中。示例的，请参见图1所示，图1为本申请实施例提供的一种人机交互系统的示意图，在该人机交互系统中，可以包括至少一个有屏终端，例如有屏机器人，或者有屏音箱等。用户与有屏终端屏幕上的虚拟人物进行交互时，有屏终端中可以包括四个模块，该四个模块主要包括语音采集模块、视频采集模块、语音处理模块、视频处理模块、数据融合模块以及输出模块。

用户与有屏终端屏幕上的虚拟人物进行交互时，语音采集模块主要用于采集用户输入的语音数据，并将采集到的语音数据发送给语音处理模块，语音处理模块主要用于对语音数据进行分析，得到语音数据对应的行为表现数据，并将语音数据对应的行为表现数据发送给数据融合模块；视频采集模块主要用于采集用户输入的视频数据，并将采集到的视频数据发送给视频处理模块，视频处理模块主要用于对视频数据进行分析，得到视频数据对应的行为表现数据，并将视频数据对应的行为表现数据发送给数据融合模块；数据融合模块主要用于对语音数据对应的行为表现数据和视频数据对应的行为表现数据进行拼凑融合，融合结合即为最终需要输出的响应消息，并将该响应消息发送给输出模块，以使输出模块输出该响应消息，从而完成与用户之间的交互。

但由于对音频数据和视频数据单独处理，使得需要再对语音数据对应的行为表现数据和视频数据对应的行为表现数据进行拼凑融合，这样可能会因为拼凑不契合而使得虚拟人物出现语言与动作不协调的情况，从而导致响应效果较差。

为了避免因拼凑不契合而使得虚拟人物出现语言与动作不协调的情况，从而导致响应效果较差，可以通过对目标对象的音频数据进行语音识别，并对视频数据进行图像识别，得到对应的语音描述信息和视频描述信息，从而保证对输入信息进行准确的处理；为了使响应信息中的语音和视频更加契合，实现虚拟人输出的语音和动作更加协调，可以运用自然语言理解算法对该语音描述信息和该视频描述信息同时进行处理，并输出其对应的响应信息，这样可以避免因拼凑不契合而使得虚拟人物出现语言与动作不协调的情况，可以在一定程度提高响应效果。

基于上述构思，本申请实施例提供了一种数据处理方法，先采集目标对象输入的第一信息；其中，第一信息包括音频数据和视频数据；分别对音频数据进行语音识别，得到音频数据对应的语音描述信息，并对视频数据进行图像识别，得到视频数据对应的图像描述信息；将语音描述信息和图像描述信息输入至自然语言理解算法，得到第一信息对应的响应信息；输出响应信息。

其中，语音描述信息可以理解为目标对象的音频数据对应的文字信息，图像描述信息可以理解为目标对象在视频数据中的表现对应的文字信息；例如穿着白色连衣裙的长发女生，做出疑问的表情并说“你是谁”，则得到的目标对象的音频数据对应的文字信息为文字“你是谁”，视频数据中的表现对应的文字信息为文字“女性”、“白色连衣裙”、“疑问”。

自然语音理解算法是人工智能的核心部分，自然语言理解算法根据计算机中存储的词汇、句法规则、语义规则、推理规则和主题知识对输入的文字信息进行分析理解，并输出文字信息对应的响应文字信息。

由此可见，本申请实施例中，在对采集到的目标对象的信息进行处理时，先采集目标对象输入的包括音频数据和视频数据的第一信息；分别对音频数据进行语音识别，得到音频数据对应的语音描述信息，并对视频数据进行图像识别，得到视频数据对应的图像描述信息；将语音描述信息和图像描述信息一并输入至自然语言理解算法，并通过运用自然语言理解算法对语音描述信息和图像描述信息进行综合处理，得到第一信息对应的响应信息；无需再将语音描述信息和图像描述信息各自对应的响应信息进行拼凑，避免了在拼凑时出现语言与动作不协调的情况，从而提高了响应效果。

下面，将通过具体的实施例对本申请提供的数据处理方法进行详细地说明。可以理解的是，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2为本申请实施例提供的一种数据处理方法的流程示意图。该数据处理方法可以由软件和/或硬件装置执行，例如，该硬件装置可以为数据处理装置，该数据处理装置可以为终端或者终端中的处理芯片。示例的，请参见图1所示，该数据处理方法可以包括：

S201、采集目标对象输入的第一信息。

其中，第一信息包括音频数据和视频数据。

示例的，在采集目标对象输入的第一信息时，使用音频采集设备采集目标对象的音频数据，并使用视频采集设备采集目标对象的视频数据，采集的设备可根据需求进行选择，在此，本申请实施例对于具体使用的采集设备不做任何限制。

可以理解的是，当音频采集设备采集到的音频数据除了包括目标对象的音频数据之外，还包括目标对象周围的环境音频数据时，对采集到的音频数据进行端点检测，将语音时段和非语音时段分开，准确地确定出目标对象的音频数据的起始点；并使用维纳滤波的方法对采集到的音频数据进行语音增强，消除周围环境音频数据对目标对象的音频数据的影响，使得处理后的音频数据仅包含目标对象的音频数据；同理，当视频采集设备采集到的视频数据除了包括目标对象的视频数据之外，还包括目标对象周围的人物以及环境的视频数据时，根据语音定位算法确定目标对象在视频中的位置；根据目标对象在视频中的位置、及音频采集设备与视频采集设备之间的位置关系，确定目标对象在视频中的人物遮罩，从而消除目标对象周围的人物以及环境的视频数据对目标对象的视频数据的影响，使得处理后的视频数据仅包括目标对象的视频数据。

可以理解的是，本申请只是以进行端点检测和语音增强为例对语音识别进行说明，但并不代表本申请实施例仅局限于此。

当然，若音频采集设备采集到的音频数据仅包括目标对象的音频数据，且视频采集设备采集到的视频数据仅包括目标对象的视频数据，则可以直接对音频数据进行语音识别，得到音频数据对应的语音描述信息，并对视频数据进行图像识别，得到视频数据对应的图像描述信息，即执行下述S202：

S202、分别对音频数据进行语音识别，得到音频数据对应的语音描述信息，并对视频数据进行图像识别，得到视频数据对应的图像描述信息。

示例的，在对音频数据进行语音识别，得到音频数据对应的语音描述信息时，使用语音识别网络对处理后的仅包含目标对象的音频数据进行语音识别处理，得到音频数据对应的语音描述信息，其中，音频数据对应的语音描述信息为文字描述；同理，在对视频数据进行图像识别，得到视频数据对应的图像描述信息时，使用视频处理软件将处理后的仅包括目标对象的视频数据转换为一帧一帧的图像数据，使用图像识别网络对图像数据逐帧进行图像识别处理，提取每一帧图像中目标对象的特征信息，得到视频数据对应的图像描述信息，即目标对象的视频数据对应的图像描述信息，该图像描述信息为文字描述。示例的，目标对象的特征信息可以包括目标对象的性别、衣着、面部表情、肢体动作等信息。

示例的，在使用视频处理软件将处理后的仅包括目标对象的视频数据转换为一帧一帧的图像数据时，可以使用python软件中的算法，也可以使用photoshop软件，当然，也可以使用其他的视频处理软件或算法，具体可以根据实际需要进行设置，在此，本申请实施例不做任何限制。

在分别获取到语音描述信息和图像描述信息后，就可以将该语音描述信息和图像描述信息输入至自然语言理解算法，从而得到第一信息对应的响应信息，即执行下述S203：

S203、将语音描述信息和图像描述信息输入至自然语言理解算法，得到第一信息对应的响应信息。

示例的，在将语音描述信息和图像描述信息输入至自然语言理解算法，得到第一信息对应的响应信息时，是先将语音描述信息和图像描述信息输入至自然语言理解算法，得到响应信息对应的描述信息，其中，响应信息对应的描述信息为文字描述；对响应信息对应的描述信息中的音频描述信息进行转换，得到音频描述信息对应的音素序列；对响应信息对应的描述信息中的图像描述信息进行编码，得到图像描述信息对应的编码序列；将音素序列和编码序列输入至语音合成网络，得到第一信息对应的响应信息。其中，语音合成网络是一个多模态语音合成网络，能够将响应信息中的音频和图像进行较好的结合。

在将语音描述信息和图像描述信息输入至自然语言理解算法，得到第一信息对应的响应信息后，就可以输出该响应信息。

S204、输出响应信息。

示例的，在输出响应信息时，在一种可能的实现方式中，可以直接输出响应信息；在另一种可能的实现方式中，可以控制虚拟人物输出响应信息。在控制虚拟人物输出响应信息时，其具体过程为：先确定响应信息对应的控制参数；根据响应信息对应的控制参数控制虚拟人物输出响应信息。可以理解的是，响应信息对应的控制参数包括虚拟人物的应答语言参数、面部表情参数以及肢体动作参数，本申请实施例只是以响应信息对应的控制参数包括虚拟人物的应答语言参数、面部表情参数以及肢体动作参数为例进行说明，但并不代表本申请实施例仅局限于此。

由此可见，本申请实施例提供的数据处理方法，先采集目标对象输入的包括音频数据和视频数据的第一信息；分别对音频数据进行语音识别，得到音频数据对应的语音描述信息，并对视频数据进行图像识别，得到视频数据对应的图像描述信息；将语音描述信息和图像描述信息一并输入至自然语言理解算法，并通过运用自然语言理解算法对语音描述信息和图像描述信息进行综合处理，得到第一信息对应的响应信息；无需再将语音描述信息和图像描述信息各自对应的响应信息进行拼凑，避免了在拼凑时出现语言与动作不协调的情况，从而提高了响应效果。

为了便于理解本申请实施例提供的数据处理方法，下面，将以用户与虚拟人物的互动为例，对本申请实施例提供的技术方案进行详细的描述，具体的可参见图3所示，图3为本申请实施例提供的另一种数据处理方法的流程示意图。

当用户在虚拟人物的屏幕面前与虚拟人物进行互动时，假设用户对虚拟人物微笑招手并说“你好”，则用户输入的第一信息包括音频数据“你好”和视频数据，视频数据包括用户微笑招手等图像数据，此时，音频采集设备采集音频数据“你好”，通常情况下，在实际采集场景中，音频采集设备采集到的音频数据不仅包括用户的音频数据“你好”，而且也会包括周围环境的声音数据；视频采集设备采集到的视频数据不仅包括用户的视频数据，而且也会包括周围环境的视频数据。

为了消除周围环境音频数据对目标对象的音频数据的影响，可以对音频采集设备采集到的音频数据进行端点检测，确定用户音频数据“你好”的起始点，再使用维纳滤波的方法将用户的音频数据进行语音增强，去除周围环境的声音数据，避免周围环境声音的影响，得到仅含有用户声音的音频数据；同理，为了消除目标对象周围的人物以及环境的视频数据对用户的视频数据的影响，可以根据语音定位算法确定用户在视频采集设备采集到的视频数据中的位置；根据用户在视频中的位置、及音频采集设备与视频采集设备之间的位置关系，确定用户在视频中的人物遮罩，从而消除目标对象周围的人物以及环境的视频数据对用户的视频数据的影响，使得处理后的视频数据为仅含有用户行为的视频数据。

在对仅含有用户声音和行为的音频数据和视频数据进行处理时，将仅含有用户音频数据“你好”的音频数据传输到语音识别网络中，语音识别网络对仅含有用户音频数据“你好”的音频数据进行语音识别处理，生成仅含有用户音频数据“你好”的音频数据对应的语音描述信息，即文字“你好”；使用python软件中的算法将仅含有用户行为的视频数据转换为一帧一帧的图像数据，将图像数据传输到图像识别网络中，使用图像识别网络对图像数据逐帧进行图像识别处理，提取每一帧图像中用户的特征信息，生成仅含有用户行为的视频数据对应的图像描述信息，即生成文字：“女性”、“年轻”、“微笑”、“摆手”、“白色上衣”、“红色裙子”。

在得到语音描述信息和图像描述信息后，将该语音描述信息和图像描述信息对应的文字以向量的形式传输给自然语言理解模块，通过自然语言理解算法对其进行处理，得到用户输入的信息对应的响应信息，即描述虚拟人物的应答信息对应的文字描述信息，包括应答语言“你好呀”、目标表情“微笑”和目标动作“摆手”。将虚拟人物的应答语言对应的文字描述信息“你好呀”转化为对应的音素序列，对目标表情和目标动作对应的文字描述信息“微笑”、“摆手”进行编码处理，形成对应的编码序列，并将音素序列和编码序列传输给语音合成网络；语音合成网络通过多模态语音合成模块对其进行分析处理，得到虚拟人物的应答语言参数、面部表情参数以及肢体动作参数，根据得到的参数，虚拟人说出“你好呀”并同时做出“微笑摆手”的动作，完成与用户的互动。可以看出，通过运用自然语言理解算法对语音描述信息“你好”和图像描述信息“女性”、“年轻”、“微笑”、“摆手”、“白色上衣”、以及“红色裙子”进行综合处理，得到第一信息对应的响应信息；无需再将语音描述信息“你好”和图像描述信息“女性”、“年轻”、“微笑”、“摆手”、“白色上衣”、以及“红色裙子”各自对应的响应信息进行拼凑，避免了在拼凑时出现语言与动作不协调的情况，从而提高了响应效果。

图4为本申请实施例提供的一种数据处理装置40的结构示意图，示例的，请参见图4所示，该数据处理装置40可以包括：

采集单元401，用于采集目标对象输入的第一信息；其中，第一信息包括音频数据和视频数据。

处理单元402，用于分别对音频数据进行语音识别，得到音频数据对应的语音描述信息，并对视频数据进行图像识别，得到视频数据对应的图像描述信息。

处理单元402，还用于将语音描述信息和图像描述信息输入至自然语言理解算法，得到第一信息对应的响应信息。

输出单元403，用于输出响应信息。

可选的，处理单元402，具体用于将语音描述信息和图像描述信息输入至自然语言理解算法，得到响应信息对应的描述信息；根据响应信息对应的描述信息确定第一信息对应的响应信息。

可选的，处理单元402，具体用于对响应信息对应的描述信息中的音频描述信息进行转换，得到音频描述信息对应的音素序列；对响应信息对应的描述信息中的图像描述信息进行编码，得到图像描述信息对应的编码序列；将音素序列和编码序列输入至语音合成网络，得到第一信息对应的响应信息。

可选的，处理单元402，具体用于确定目标对象在视频中的人物遮罩；并基于人物遮罩对视频数据进行筛选，得到视频数据对应的图像描述信息。

可选的，处理单元402，具体用于根据语音定位算法确定目标对象的位置；根据目标对象的位置、及音频采集设备与视频采集设备之间的位置关系，确定目标对象在视频中的人物遮罩。

可选的，输出单元403，具体用于确定响应信息对应的控制参数；根据响应信息对应的控制参数控制虚拟人物输出响应信息。

图5为本申请实施例提供的另一种数据处理装置50的结构示意图，示例的，请参见图5所示，该数据处理装置50可以包括处理器501和存储器502；

其中，

所述存储器502，用于存储计算机程序。

所述处理器501，用于读取所述存储器502存储的计算机程序，并根据所述存储器502中的计算机程序执行上述任一实施例中的数据处理方法的技术方案。

可选地，存储器502既可以是独立的，也可以跟处理器501集成在一起。当存储器502是独立于处理器501之外的器件时，数据处理装置50还可以包括：总线，用于连接存储器502和处理器501。

可选地，本实施例还包括：通信接口，该通信接口可以通过总线与处理器501连接。处理器501可以控制通信接口来实现上述数据处理装置50的接收和发送的功能。

本发明实施例所示的数据处理装置50，可以执行上述任一实施例中的数据处理方法的技术方案，其实现原理以及有益效果与数据处理方法的实现原理及有益效果类似，可参见数据处理方法的实现原理及有益效果，此处不再进行赘述。

本发明实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现上述任一实施例中的数据处理方法的技术方案，其实现原理以及有益效果与数据处理方法的实现原理及有益效果类似，可参见数据处理方法的实现原理及有益效果，此处不再进行赘述。

本申请实施例还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时，实现上述任一实施例中的数据处理方法的技术方案，其实现原理以及有益效果与数据处理方法的实现原理及有益效果类似，可参见数据处理方法的实现原理及有益效果，此处不再进行赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所展示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元展示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例方法的部分步骤。

应理解的是，上述处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital SignalProcessor，简称：DSP)、专用集成电路(英文：Application Specific IntegratedCircuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本发明附图中的总线并不限定仅有一根总线或一种类型的总线。

上述计算机可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

采集目标对象输入的第一信息；其中，所述第一信息包括音频数据和视频数据；

分别对所述音频数据进行语音识别，得到所述音频数据对应的语音描述信息，并对所述视频数据进行图像识别，得到所述视频数据对应的图像描述信息；

将所述语音描述信息和所述图像描述信息输入至自然语言理解算法，得到所述第一信息对应的响应信息；

输出所述响应信息。

2.根据权利要求1所述的方法，其特征在于，所述将所述语音描述信息和所述图像描述信息输入至自然语言理解算法，得到所述第一信息对应的响应信息，包括：

将所述语音描述信息和所述图像描述信息输入至所述自然语言理解算法，得到所述响应信息对应的描述信息；

3.根据权利要求2所述的方法，其特征在于，所述根据所述响应信息对应的描述信息确定所述第一信息对应的响应信息，包括：

对所述响应信息对应的描述信息中的音频描述信息进行转换，得到所述音频描述信息对应的音素序列；

对所述响应信息对应的描述信息中的图像描述信息进行编码，得到所述图像描述信息对应的编码序列；

4.根据权利要求1-3任一项所述的方法，其特征在于，所述对所述视频数据进行图像识别，得到所述视频数据对应的图像描述信息，包括：

确定所述目标对象在视频中的人物遮罩；

5.根据权利要求4所述的方法，其特征在于，所述确定所述目标对象在视频中的人物遮罩，包括：

根据语音定位算法确定所述目标对象的位置；

6.根据权利要求1-3任一项所述的方法，其特征在于，所述输出所述响应信息，包括：

确定所述响应信息对应的控制参数；

7.一种数据处理装置，其特征在于，包括：

采集单元，用于采集目标对象输入的第一信息；其中，所述第一信息包括音频数据和视频数据；

处理单元，用于分别对所述音频数据进行语音识别，得到所述音频数据对应的语音描述信息，并对所述视频数据进行图像识别，得到所述视频数据对应的图像描述信息；

所述处理单元，还用于将所述语音描述信息和所述图像描述信息输入至自然语言理解算法，得到所述第一信息对应的响应信息；

输出单元，用于输出所述响应信息。

8.根据权利要求7所述的装置，其特征在于，

所述处理单元，具体用于将所述语音描述信息和所述图像描述信息输入至所述自然语言理解算法，得到所述响应信息对应的描述信息；根据所述响应信息对应的描述信息确定所述第一信息对应的响应信息。

9.根据权利要求8所述的装置，其特征在于，

所述处理单元，具体用于对所述响应信息对应的描述信息中的音频描述信息进行转换，得到所述音频描述信息对应的音素序列；对所述响应信息对应的描述信息中的图像描述信息进行编码，得到所述图像描述信息对应的编码序列；将所述音素序列和所述编码序列输入至语音合成网络，得到所述第一信息对应的响应信息。

10.根据权利要求7-9任一项所述的装置，其特征在于，

所述处理单元，具体用于确定所述目标对象在视频中的人物遮罩；并基于所述人物遮罩对所述视频数据进行筛选，得到所述视频数据对应的图像描述信息。

11.根据权利要求10所述的装置，其特征在于，

所述处理单元，具体用于根据语音定位算法确定所述目标对象的位置；根据所述目标对象的位置、及音频采集设备与视频采集设备之间的位置关系，确定所述目标对象在视频中的人物遮罩。

12.根据权利要求7-9任一项所述的装置，其特征在于，

所述输出单元，具体用于确定所述响应信息对应的控制参数；根据所述响应信息对应的控制参数控制虚拟人物输出所述响应信息。

13.一种数据处理装置，其特征在于，包括存储器和处理器；其中，

所述存储器，用于存储计算机程序；

所述处理器，用于读取所述存储器存储的计算机程序，并根据所述存储器中的计算机程序执行上述权利要求1-7任一项所述的一种数据处理方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现上述权利要求1-7任一项所述的一种数据处理方法。

15.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时，实现上述权利要求1-7任一项所述的一种数据处理方法。