CN110166844B

CN110166844B - 一种数据处理方法和装置、一种用于数据处理的装置

Info

Publication number: CN110166844B
Application number: CN201910295572.XA
Authority: CN
Inventors: 樊博; 孟凡博; 刘恺; 段文君; 陈汉英; 陈伟; 王砚峰
Original assignee: Beijing Sogou Technology Development Co Ltd; Sogou Hangzhou Intelligent Technology Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2019-04-12
Filing date: 2019-04-12
Publication date: 2022-05-31
Anticipated expiration: 2039-04-12
Also published as: CN110166844A

Abstract

本发明实施例提供了一种数据处理方法和装置、一种用于数据处理的装置，其中的方法具体包括：确定待处理文本对应的时长特征；所述待处理文本涉及至少两种语言；依据所述时长特征，确定所述待处理文本对应的目标语音序列；依据所述时长特征，确定所述待处理文本对应的目标图像序列；所述目标图像序列为依据文本样本及其对应的图像样本得到；所述文本样本对应的语言包括：所述待处理文本涉及的所有语言；对所述目标语音序列和所述目标图像序列进行融合，以得到对应的目标视频。本发明实施例可以缩短目标视频的生成时间，节省人力成本，以及可以适用于至少两种语言对应的待处理文本。

Description

一种数据处理方法和装置、一种用于数据处理的装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种数据处理方法和装置、一种用于数据处理的装置。

背景技术

目前，众多内容表达场景需要人类参与，如新闻播报场景、教学场景、医疗场景、客服场景、法律场景等。

以新闻播报场景为例，媒体工作者可以通过视频新闻的方式，向观众传达新闻的内容。

在实际应用中，视频新闻通常需要漫长的录制过程，导致视频新闻的时效性较差，进而使得视频新闻无法应用于时效性较高的内容表达场景，如突发新闻场景等。并且，视频新闻的播报需要耗费媒体工作者较多的人力成本，使得媒体行业的工作效率较低。

发明内容

鉴于上述问题，本发明实施例提出了一种克服上述问题或者至少部分地解决上述问题的数据处理方法、数据处理装置及用于数据处理的装置，本发明实施例可以缩短目标视频的生成时间，节省人力成本，以及可以适用于至少两种语言对应的待处理文本。

为了解决上述问题，本发明公开了一种数据处理方法，包括：

确定待处理文本对应的时长特征；所述待处理文本涉及至少两种语言；

依据所述时长特征，确定所述待处理文本对应的目标语音序列；

依据所述时长特征，确定所述待处理文本对应的目标图像序列；所述目标图像序列为依据文本样本及其对应的图像样本得到；所述文本样本对应的语言包括：所述待处理文本涉及的所有语言；

对所述目标语音序列和所述目标图像序列进行融合，以得到对应的目标视频。

另一方面，本发明公开了一种数据处理装置，包括：

时长确定模块，用于确定待处理文本对应的时长特征；所述待处理文本涉及至少两种语言；

语音确定模块，用于依据所述时长特征，确定所述待处理文本对应的目标语音序列；

图像确定模块，用于依据所述时长特征，确定所述待处理文本对应的目标图像序列；所述目标图像序列为依据文本样本及其对应的图像样本得到；所述文本样本对应的语言包括：所述待处理文本涉及的所有语言；以及

融合模块，用于对所述目标语音序列和所述目标图像序列进行融合，以得到对应的目标视频。

再一方面，本发明公开了一种用于数据处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

本发明实施例包括以下优点：

本发明实施例的目标语音序列可以与目标发声体的音色相匹配，目标图像序列可以在目标实体图像的基础上得到，由此可以通过得到的目标视频实现由目标实体图像按照目标发声体的音色对待处理文本进行表达；由于上述目标视频可由机器生成，故可以缩短目标视频的生成时间，进而可以提高目标视频的时效性，使得目标视频可以适用于时效性较高的内容表达场景，如突发新闻场景等

并且，目标视频目标实体图像按照目标发声体的音色对待处理文本进行表达，相对于按照人工方式对待处理文本进行表达，可以节省人力成本，且可以提高相关行业的工作效率。

另外，上述文本样本可以包括：待处理文本涉及的所有语言，因此，依据上述文本样本及其图像样本得到的目标图像序列，可以适用于至少两种语言对应的待处理文本。

并且，目标语音序列和目标图像序列的确定过程中分别利用了待处理文本对应的时长特征，该时长特征可以提高目标语音序列和目标图像序列之间的同步性。

附图说明

图1是本发明的一种数据处理方法实施例一的步骤流程图；

图2是本发明的一种数据处理方法实施例二的步骤流程图；

图3是本发明的一种数据处理方法实施例三的步骤流程图；

图4是本发明的一种数据处理装置实施例的结构框图；

图5是本发明的一种用于数据处理的装置作为设备时的结构框图；及

图6是本发明的一些实施例中服务端的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

针对传统视频新闻的录制时间长的技术问题，本发明实施例提供了一种通过机器生成文本对应的目标视频的方案，该方案具体可以包括：确定待处理文本对应的时长特征；所述待处理文本涉及至少两种语言；依据所述时长特征，确定所述待处理文本对应的目标语音序列；依据所述时长特征，确定所述待处理文本对应的目标图像序列；所述目标图像序列可以为依据文本样本及其对应的图像样本得到；所述文本样本对应的语言包括：所述待处理文本涉及的所有语言；对所述目标语音序列和所述目标图像序列进行融合，以得到对应的目标视频。

本发明实施例可以应用于新闻播报场景、教学场景、医疗场景、客服场景、法律场景等内容表达场景。

本发明实施例的目标视频可以包括：待处理文本对应的目标语音序列、以及待处理文本对应的目标图像序列。

本发明实施例，待处理文本可以涉及至少两种语言，如中文、日文、韩文、英文、法文、德文、阿拉伯文等语言中的至少两种等。则目标语音序列、以及目标图像序列也可以涉及至少两种语言，因此本发明实施例可以适用于多语言的内容表达场景。

例如，在新闻播报场景，文本可以为新闻稿。新闻稿中可以包括：第一语言和新闻事件对应国家的第二语言，例如，第一语言可以为中文，第二语言可以英文。当然，除了第一语言和第二语言之外，文本还可以涉及第三语言、第四语言等语言。

又如，在客服场景，文本可以为用户输入的问题文本，该问题文本中可以包括：作为母语的第一语言和作为非母语的第二语言。例如，问题文本涉及计算机故障，问题文本可以包括：计算机故障对应的英文文本、以及用户归纳和总结的中文文本。

再如，在会议主持场景，文本可以为会议发言稿，该会议发言稿中可以包括：多语言用户对应的多种语言。

可以理解，涉及至少两种语言的文本可以应用于任意的内容表达场景，本发明实施例对于具体的内容表达场景不加以限制。

在实际应用中，可以利用TTS(语音合成，Text To Speech)技术，将文本转换为目标语音序列对应的目标语音，目标语音序列可以表征为波形的形式。可以理解，可以按照语音合成参数，得到符合需求的目标语音序列。

可选地，语音合成参数可以包括：音色参数、音高参数和响度参数中的至少一种。

其中，音色参数可以指不同的声音的频率表现在波形方面的与众不同的特性，通常不同的发声体对应不同的音色，因此可以按照音色参数，得到与目标发声体的音色相匹配的目标语音序列，目标发声体可由用户指定，例如，目标发声体可以为指定的媒体工作者等。在实际应用中，可以依据目标发声体的预设长度的音频，得到目标发声体的音色参数。

音高参数可以表征声调，用频率来衡量。响度参数，又称之为声强或音量，可以指声音的大小，用分贝(dB)衡量。

目标图像序列可用于表征实体(entity)图像。实体是有可区别性且独立存在的事物，实体可以包括：人、机器人、动物、植物等。本发明实施例主要以人为例对目标图像序列进行说明，其他实体对应的目标图像序列相互参照即可。人对应的实体图像可以称为人像。

从实体状态角度而言，目标图像序列对应的图像特征可以包括实体状态特征，实体状态特征可以反映图像序列在实体状态方面的特征。

可选地，上述实体状态特征可以包括如下特征中的至少一种：

表情特征；

唇部特征；以及

肢体特征。

表情特征，表达感情、情意，可以指表现在面部的思想感情。

表情特征通常是针对整个面部的。唇部特征可以专门针对唇部，而且跟文本的文本内容、语音、发音方式等对应相关，因此可以提高图像序列所对应表达的自然度。

肢体特征可以通过头、眼、颈、手、肘、臂、身、胯、足等人体部位的协调活动来传达人物的思想，形象地借以表情达意。肢体特征可以包括：转头、耸肩、手势等，可以提高图像序列所对应表达的丰富度。例如，说话时至少一个手臂自然下垂，不说话时至少一个手臂自然放在腹部等。

文本特征序列与图像特征序列之间是有规律可循的。文本特征可以包括：音素特征、和/或、语义特征等。

音素是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。音素可以包括：元音与辅音。可选地，特定的音素特征对应特定的唇部特征、表情特征或者肢体特征等。

语义是待处理文本所对应的现实世界中的事物所代表的概念的含义，以及这些含义之间的关系，是待处理文本在某个领域上的解释和逻辑表示。可选地，特定的语义特征对应特定的肢体特征等。

因此，本发明实施例可以依据依据文本样本及其对应的图像样本，得到文本特征序列与图像特征序列之间的映射关系，以通过该映射关系反映文本特征序列与图像特征序列之间的规律。

文本样本对应的图像样本可以包括：表达文本样本(例如朗读文本样本)的情况下的多帧图像。文本样本对应的图像样本可被携带在视频样本中，或者，文本样本对应的图像样本可被携带在多帧图像中。上述图像样本可以对应有目标实体图像，目标实体图像可由用户指定，例如，目标实体图像可以为知名人物(例如主持人)的图像，当然，目标实体图像可以为任意实体的图像，如机器人、或者普通人物的图像。

上述文本样本可以包括：待处理文本涉及的所有语言，因此，依据上述文本样本及其图像样本得到的目标图像序列，可以适用于至少两种语言对应的待处理文本。

本发明实施例可以利用端到端的机器学习方法，对文本样本及其对应的图像样本进行学习，以得到上述映射关系。端到端的机器学习方法的输入可以为待处理文本，输出可以为目标图像序列，该方法可以通过训练数据的学习，得到输入的特征与输出的特征之间的规律。

从广义上讲，机器学习是一种能够赋予机器学习的能力，让它以此完成直接编程无法完成的功能的方法。但从实践的意义上讲，机器学习是一种通过利用数据，训练出模型，然后使用模型预测的一种方法。机器学习方法可以包括：决策树方法、线性回归方法、逻辑回归方法、神经网络方法等，可以理解，本发明实施例对于具体的机器学习方法不加以限制。

可以理解，上述端到端的机器学习方法只是作为映射关系的确定方法的可选实施例，实际上本领域技术人员可以根据实际应用需求，采用其他方法，确定映射关系，如其他方法可以为统计方法等，本发明实施例对于映射关系的具体确定方法不加以限制。

本发明实施例的目标图像序列可以在目标实体图像的基础上得到，换言之，本发明实施例可以为目标实体图像赋予目标语音序列对应的图像特征(实体状态特征)，以得到目标图像序列。

本发明实施例的目标发声体和目标实体可以相同，例如，用户上传了第一视频，第一视频中可以包括：目标发声体的语音和目标实体图像。或者，本发明实施例的目标发声体和目标实体可以不同，例如，用户上传了第二视频和第一音频，第二视频中可以包括：目标实体图像，第一音频中可以包括：目标发声体的语音。

本发明实施例中，目标语音序列和目标图像序列的确定过程中分别利用了待处理文本对应的时长特征，该时长特征可以提高目标语音序列和目标图像序列之间的同步性。

综上，本发明实施例的目标语音序列可以与目标发声体的音色相匹配，目标图像序列可以在目标实体图像的基础上得到，由此可以通过得到的目标视频实现由目标实体图像按照目标发声体的音色对待处理文本进行表达；由于上述目标视频可由机器生成，故可以缩短目标视频的生成时间，进而可以提高目标视频的时效性，使得目标视频可以适用于时效性较高的内容表达场景，如突发新闻场景等

本发明实施例提供的数据处理方法可应用于客户端和服务端对应的应用环境中，客户端与服务端位于有线或无线网络中，通过该有线或无线网络，客户端与服务端进行数据交互。

可选地，客户端可以运行在终端上，上述终端具体包括但不限：智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3，Moving Picture ExpertsGroup Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4，Moving PictureExperts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。

客户端是指与服务端相对应，为用户提供本地服务的程序。本发明实施例中的客户端可以提供目标视频，目标视频可由客户端或服务端生成，本发明实施例对于具体的客户端不加以限制。

在本发明的一种实施例中，客户端可以通过人机交互操作，确定用户选择的目标发声体信息和目标实体图像信息，接收用户的待处理文本，并向服务端上传待处理文本、目标发声体信息和目标实体图像信息，以使服务端生成待处理文本、目标发声体和目标实体图像对应的目标视频；并且，客户端可以向用户输出该目标视频。

方法实施例一

参照图1，示出了本发明的一种数据处理方法实施例一的步骤流程图，具体可以包括如下步骤：

步骤101、确定待处理文本对应的时长特征；所述待处理文本可以涉及至少两种语言；

步骤102、依据所述时长特征，确定所述待处理文本对应的目标语音序列；

步骤103、依据所述时长特征，确定所述待处理文本对应的目标图像序列；

所述目标图像序列可以为依据文本样本及其对应的图像样本得到；所述文本样本对应的语言具体可以包括：所述待处理文本涉及的所有语言；

步骤104、对所述目标语音序列和所述目标图像序列进行融合，以得到对应的目标视频。

步骤101中，对于客户端而言，可以接收用户上传的待处理文本；对于服务端而言，可以接收客户端发送的待处理文本。可以理解，任意的第一设备可以从第二设备接收待处理文本，本发明实施例对于待处理文本的具体传输方式不加以限制。

时长特征可用于表征文本所对应音素的时长。时长特征能够刻画出语音中的抑扬顿挫与轻重缓急，进而可以提高合成语音的表现力和自然度。可选地，可以利用时长模型，确定待处理文本对应的时长特征。时长模型的输入可以为：带有重音标注的音素特征，输出为音素时长。时长模型可以为对带有时长信息的语音样本进行学习得到，本发明实施例对于具体的时长模型不加以限制。

步骤102中，可以利用TTS技术，依据时长特征将待处理文本转换为目标语音序列对应的目标语音，目标语音序列可以表征为波形的形式。

可选地，可以依据目标发声体信息对应的音色参数，确定所述待处理文本对应的目标语音序列，由此可以得到与目标发声体的音色相匹配的目标语音序列。目标发声体信息可以包括：人的标识，如知名人物的标识；或者，目标发声体信息可以包括：目标发声体的音频。

步骤102确定所述待处理文本对应的目标语音序列的过程可以包括：确定待处理文本对应的目标语言特征，并确定目标语言特征对应的目标语音序列。

语言特征可以包括：音素特征。音素是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。音素可以包括：元音与辅音。

本发明实施例可以采用如下确定方式，确定目标语言特征对应的目标语音序列：

确定方式1、在第一语音库中查找与目标语言特征相匹配的第一语音单元，对第一语音单元进行拼接，以得到目标语音序列。

确定方式2、确定目标语言特征对应的目标声学特征，在第二语音库中查找与目标声学特征相匹配的第二语音单元，对第二语音单元进行拼接，以得到目标语音序列。

声学特征可以从发声角度表征语音的特征。

声学特征可以包括但不限于如下特征：

韵律学特征(超音段特征/超语言学特征)，具体包括时长相关特征、基频相关特征、能量相关特征等；

音质特征；

基于谱的相关性分析特征，其是声道形状变化和发声运动之间相关性的体现，目前基于谱的相关特征主要包括：线性预测倒谱系数(LPCC，LinearPredictionCoefficients)、梅尔频率倒谱系数(MFCC，Mel Frequency CepstrumCoefficient)等。

确定方式3、采用端到端的语音合成方法，端到端的语音合成方法的源端可以包括：文本、或者文本对应的目标语言特征，目标端可以为波形形式的目标语音序列。

在本发明的一种可选实施例中，端到端的语音合成方法可以采用神经网络，该神经网络可以包括：单层RNN(循环神经网络，Recurrent Neural Network)和双层激活层，双层激活层用于预测16位语音输出。RNN的状态划分成两部分：第一(高8位)状态和第二(低8位)状态。第一状态和第二状态分别输入对应的激活层，第二状态是基于第一状态得到的，第一状态基于前一时刻的16位得到。该神经网络将第一状态和第二状态设计在一个网络结构中，可以加快训练速度和简化训练流程，故可以降低神经网络的运算量，进而可以使端到端的语音合成方法适用于运算资源有限的移动终端，如手机等。

可以理解，本领域技术人员可以根据实际应用需求，采用上述确定方式1至确定方式3中的任一或者组合，本发明实施例对于确定目标语言特征对应的目标语音序列的具体过程不加以限制。

不同语言的表达特征通常是不同的。上述表达特征可以包括：发声方法特征、用力与用气、以及唇部特征(如口型及口型姿态)等。例如，中文的发声方法特征可以包括：前口腔发声方法，口腔的前部比较用力，发声位置在口腔的前方。又如，中文的发声方法特征可以包括：后口腔发声方法，口腔的后部比较用力且比较开阔，发声位置在口腔的后部。

步骤103中，待处理文本对应的目标图像序列为依据文本样本及其对应的图像样本得到，上述文本样本对应的语言可以包括：待处理文本涉及的所有语言，因此，依据上述文本样本及其图像样本得到的目标图像序列，可以使目标图像序列对应的表达特征与待处理文本对应的至少两种语言相适配。例如，上述待处理样本涉及第一语言和第二语言，上述文本样本涉及第一语言、第二语言和第三语言等。

在本发明的一种可选实施例中，确定所述待处理文本对应的目标图像序列，具体可以包括：依据所述待处理文本对应的目标文本特征序列、以及文本特征序列与图像特征序列之间的映射关系，确定目标文本特征序列对应的目标图像特征序列，进而可以确定目标图像特征序列对应的目标图像序列。

文本特征序列与图像特征序列之间的映射关系，可以反映文本特征序列与图像特征序列之间的规律。

文本特征可以包括：语言特征和时长特征。图像特征用于表征实体图像，其具体可以包括：前述的实体状态特征。

在本发明的一种可选实施例中，上述确定目标图像特征序列对应的目标图像序列，具体可以包括：对目标实体图像与目标图像特征序列进行合成，以得到目标图像序列，可以为目标实体图像赋予目标图像特征序列。

目标实体图像可由用户指定，例如，目标实体图像可以为知名人物(例如主持人)的图像。

目标实体图像可以不携带实体状态，对目标实体图像与目标图像特征序列进行合成，可以使目标图像序列携带有与文本相匹配的实体状态，进而可以提高目标视频中实体状态的自然度和丰富度。

本发明实施例中，可选的是，可以对目标实体图像对应的三维模型和目标图像特征序列进行合成，得到目标图像序列。三维模型可以为对多帧目标实体图像进行三维重建得到。

在实际应用中，实体通常以三维几何实体的形式存在。传统的二维平面图像通过明暗对比和透视关系来造成视觉上的空间立体感，无法产生引人入胜的自然立体观感。而三维影像的空间造型与原型接近，不仅具有高度、宽度、深度三维空间几何形体特征，而且具有真实逼真的状态信息，一改平面照片所无法给出的真实感，可给人以亲切、逼真的感觉。

在计算机图形学中，通常用三维模型来对实体建模，三维模型即对应空间实体中的实体，可以通过计算机或者其它视频设备进行显示。

三维模型对应的特征可以包括：几何特征、纹理状态、实体状态特征等，实体状态特征可以包括：表情特征、唇部特征、肢体特征等。其中，几何特征通常用多边形来或者体素来表示，以用多边形来表达三维模型的几何部分为例，即用多边形表示或者近似表示实体的曲面。它的基本对象是三维空间中的顶点，将两个顶点连接起来的直线称为边，三个顶点经三条边连接起来成为三角形，三角形是欧氏空间中最简单的多边形。多个三角形可以组成更加复杂的多边形，或者生成多于三个顶点的单个实体。四边形和三角形是多边形表达的三维模型中最常用的形状，在三维模型的表达方面，三角网三维模型因其数据结构简单、容易被所有的图形硬件设备绘图等特点成为三维模型表达的一种流行选择，其中每个三角形就是一个表面，因此也将三角形称为三角面片。

三维模型可以为带有预设实体状态且已经稠密对齐的点云数据，预设实体状态可以包括：中性表情、唇部闭合状态、以及手臂下垂状态等。

对目标实体图像对应的三维模型和目标图像特征序列进行合成，可以通过修改三维模型上的顶点位置等来实现，采用的合成方法具体可以包括：关键帧插值法，参数化方法等。其中，关键帧插值法可以对关键帧的图像特征进行差值。参数化方法可以通过三维模型的参数描述实体状态的变化，通过调整这些参数获得不同的实体状态。

在采用关键帧插值法的情况下，本发明实施例可以依据目标图像特征序列，得到差值向量。在采用参数化方法的情况下，本发明实施例可以依据目标图像特征序列，得到参数向量。

可以理解，上述关键帧插值法，参数化方法只是作为合成方法的可选实施例，实际上，本领域技术人员可以根据实际应用需求，采用所需的合成方法，本申请实施例对于具体的合成方法不加以限制。

步骤103中，在确定目标图像序列对应的图像特征的过程中，利用了文本特征序列与图像特征序列之间的规律。其中的图像特征可以包括：表情特征、唇部特征和肢体特征中的至少一种。

为了提高目标图像序列对应的图像特征的准确度，本发明实施例还可以对目标图像序列对应的图像特征进行扩展或调整。

在本发明的一种可选实施例中，所述目标图像序列对应的肢体特征可以为依据所述文本对应的语义特征得到。本发明实施例在确定肢体特征的过程中采用了文本对应的语义特征，故可以提高肢体特征的准确度。

本发明实施例中，可选的是，肢体特征的方向、位置、速度和力度中的任一参数与文本对应的语义特征有关。

可选地，上述语义特征可以与情感特征相关。可以依据情感特征对肢体特征进行分类，以得到一类情感特征对应的肢体特征。

可选地，情感特征可以包括：积极肯定、消极否定、或者中性等。

肢体特征的位置区域可以包括：上区、中区、下区。肩部以上是上区，可以表达理想、希望、喜悦、祝贺等积极肯定的情感特征。中区指从肩部到腰部，可以叙述事物和说明整理，表达中性的情感。下区指腰部以下，可以表达憎恶、反对、批判、失望等消极否定的情感。

除了位置区域之外，肢体特征还可以包括：方向。例如，手心向上，可以表达积极肯定的情感特征。又如，手心向下，可以表达消极否定的情感。

本发明实施例中，语义特征的类型可以包括：关键词、独热码(one-hot)向量、词嵌入向量(WordEmbedding)等。word embedding，就是找到一个映射或者函数，生成在一个新的空间上的表达，该表达就是word representation。

本发明实施例可以通过语义特征与肢体特征之间的映射关系，确定文本对应的语义特征对应的肢体特征。语义特征与肢体特征之间的映射关系可以通过统计方法得到，也可以通过端到端的方法得到。

步骤102和步骤103中，目标语音序列和目标图像序列的确定过程中分别利用了待处理文本对应的时长特征，该时长特征可以提高目标语音序列和目标图像序列之间的同步性。

因此，目标语音序列和目标图像序列能够在时间轴上对齐，因此可以对目标语音序列和目标图像序列进行融合，以得到目标视频。可选地，可以采用多模态融合技术，对目标语音序列和目标图像序列进行融合。可以理解，本发明实施例对于具体的融合方法不加以限制。

在得到目标视频后，可以对目标视频进行保存或者输出。例如，服务端可以向客户端发送目标视频，又如，客户端可以向用户输出目标视频等。

综上，本发明实施例的数据处理方法，目标语音序列可以与目标发声体的音色相匹配，目标图像序列可以在目标实体图像的基础上得到，由此可以通过得到的目标视频实现由目标实体图像按照目标发声体的音色对待处理文本进行表达；由于上述目标视频可由机器生成，故可以缩短目标视频的生成时间，进而可以提高目标视频的时效性，使得目标视频可以适用于时效性较高的内容表达场景，如突发新闻场景等

方法实施例二

参照图2，示出了本发明的一种数据处理方法实施例二的步骤流程图，具体可以包括如下步骤：

步骤201、确定待处理文本对应的时长特征；所述待处理文本可以涉及至少两种语言；

步骤202、依据所述时长特征，确定所述待处理文本对应的目标语音序列；

步骤203、依据所述时长特征，确定所述待处理文本对应的目标图像序列；

步骤204、对所述目标图像序列中预设区域的边界进行补偿；

步骤205、对所述目标语音序列和补偿后的目标图像序列进行融合，以得到对应的目标视频。

本发明实施例在确定所述待处理文本对应的目标图像序列的过程中，通常会用到目标实体图像的三维模型，而在三维模型的重建方法、以及三维模型与图像特征序列的合成方法的局限性，容易使得三维模型的多边形出现细节缺失问题，这将使得目标图像序列对应的目标实体图像存在不完整问题，如部分牙齿缺失、鼻子的某些地方缺失等。

本发明实施例对所述目标图像序列中预设区域的边界进行补偿，可以提高预设区域的完整性。

上述预设区域可以表征实体的部位，如面部、或者肢体部等，相应地，上述预设区域具体可以包括如下区域中的至少一种：

面部区域；

服饰区域；以及

肢体区域。

在本发明的一种实施例中，对所述目标图像序列中牙齿区域的边界进行补偿，可以修补不完整的牙齿、或者补充未出现的牙齿，故可以提高牙齿区域的完整性。

在实际应用中，可以参考包括完整预设区域的目标实体图像，对所述目标图像序列中预设区域的边界进行补偿，本发明实施例对于具体的补偿过程不加以限制。

方法实施例三

参照图3，示出了本发明的一种数据处理方法实施例三的步骤流程图，具体可以包括如下步骤：

步骤301、确定待处理文本对应的时长特征；所述待处理文本可以涉及至少两种语言；所述待处理文本可以包括：问答交互中的问题相关文本；

步骤302、依据所述时长特征，确定所述待处理文本对应的目标语音序列；

步骤303、依据所述时长特征，确定所述待处理文本对应的目标图像序列；所述目标图像序列对应的模式可以包括：回答模式、或者倾听模式；

步骤304、对所述目标语音序列和所述目标图像序列进行融合，以得到对应的目标视频。

本发明实施例可以应用于问答交互场景，如客服服务场景、视频会议场景等。本发明实施例中，目标图像序列对应的模式可以包括：回答模式、或者倾听模式，可以提高客服服务场景下目标图像序列的智能性。

回答模式可以指通过目标视频回答问题的模式，其可以对应第一实体状态。在回答模式下，目标视频对应的目标实体图像可以通过目标语音序列朗读问题答案，并通过目标图像序列对应的第一实体状态表达朗读问题答案的过程中的情感。

倾听模式可以指倾听用户输入问题的模式，其可以对应第二实体状态。在倾听模式下，目标视频对应的目标实体图像可以通过目标图像序列对应的第二实体状态表达倾听过程中的情感。第二实体状态可以包括：点头特征等。可选地，在倾听模式下，还可以通过目标语音序列表达“嗯”、“请继续”等倾听状态文本。

问题相关文本可以包括：答案文本、或者倾听状态文本。其中，答案文本可以对应回答模式，倾听状态文本可以对应倾听模式。

在本发明的一种可选实施例中，在所述问题的输入过程中，所述目标图像序列对应的模式为倾听模式；或者

在所述问题的输入完成后，所述目标图像序列对应的模式可以为回答模式。

本发明实施例可以依据问题是否输入完成，对目标图像序列对应的模式进行切换。可选地，若在预设时长内未接收到用户的输入，可以认为问题的输入完成。

在本发明的一种可选实施例中，可以依据衔接图像样本，对目标图像序列对应的模式进行切换，以提高切换的流畅性。

衔接图像样本可以包括：第一衔接图像样本。第一衔接图像样本可以包括：依次出现的倾听模式对应的图像样本、以及回答模式对应的图像样本，可以通过对第一衔接图像样本进行学习，得到从倾听模式到回答模式切换的规律，由此可以提高从倾听模式到回答模式切换的流畅性。

衔接图像样本可以包括：第二衔接图像样本。第二衔接图像样本可以包括：依次出现的回答模式对应的图像样本、以及倾听模式对应的图像样本，可以通过对第二衔接图像样本进行学习，得到从回答模式到倾听模式切换的规律，由此可以提高从回答模式到倾听模式切换的流畅性。

本发明的一种数据处理方法示例，具体可以包括如下步骤：

步骤S1、在倾听模式下，播放第一目标视频，并接收用户输入的问题；

第一目标视频可以对应倾听模式，其可以由第一目标语音序列和第一目标图像序列得到，第一目标图像序列可以对应倾听模式。

步骤S2、判断问题是否输入完成，若是，则执行步骤S3，否则返回步骤S1；

步骤S3、将目标图像序列对应的模式置为回答模式，并播放第二目标视频；

第二目标视频的确定过程可以包括：

步骤S31、确定问题答案对应的待处理文本、以及所述待处理文本对应的时长特征；

步骤S32、依据所述时长特征，确定所述待处理文本对应的第二目标语音序列；

步骤S33、依据所述时长特征，确定所述待处理文本对应的第二目标图像序列；；第二目标图像序列可以对应有回答模式；

步骤S34、对所述第二目标语音序列和所述第二目标图像序列进行融合，以得到对应的第二目标视频。

步骤S4、在第二目标视频播放完毕后，将目标图像序列对应的模式置为倾听模式。

可以理解，上述输出目标视频只是作为可选实施例，实际上，本发明实施例可以向用户输出所述目标视频的链接，以使用户确定是否播放上述目标视频。

可选地，本发明实施例还可以向用户输出所述目标语音序列、或者所述目标语音序列的链接。

可选地，本发明实施例还可以向用户输出问题相关文本。问题相关文本可以包括：答案文本、或者倾听状态文本。其中，答案文本可以对应回答模式，倾听状态文本可以对应倾听模式。

在本发明的一种可选实施例中，上述问答交互可以对应有通讯窗口，可以在通讯窗口中显示如下信息中的至少一种：目标语音序列的链接、问题答案文本、以及目标视频的链接。其中，目标视频的链接可被显示在通讯端的标识区域。标识区域可用于显示通讯端的昵称、ID(标识、Identity)、头像等信息。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的运动动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的运动动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的运动动作并不一定是本发明实施例所必须的。

装置实施例

参照图4，示出了本发明的一种数据处理装置实施例的结构框图，具体可以包括：

时长确定模块401，用于确定待处理文本对应的时长特征；所述待处理文本涉及至少两种语言；

语音确定模块402，用于依据所述时长特征，确定所述待处理文本对应的目标语音序列；

图像确定模块403，用于依据所述时长特征，确定所述待处理文本对应的目标图像序列；所述目标图像序列为依据文本样本及其对应的图像样本得到；所述文本样本对应的语言包括：所述待处理文本涉及的所有语言；以及

融合模块404，用于对所述目标语音序列和所述目标图像序列进行融合，以得到对应的目标视频。

可选地，所述目标图像序列对应的图像特征可以包括如下特征中的至少一种：

表情特征；

唇部特征；以及

肢体特征。

可选地，所述目标图像序列对应的肢体特征为依据所述待处理文本对应的语义特征得到。

可选地，所述装置还可以包括：

补偿模块，用于在所述融合模块对所述目标语音序列和所述目标图像序列进行融合之前，对所述目标图像序列中预设区域的边界进行补偿。

可选地，所述预设区域可以包括如下区域中的至少一种：

面部区域；

服饰区域；以及

肢体区域。

可选地，所述待处理文本可以包括：问答交互中的问题相关文本；

所述目标图像序列对应的模式可以包括：回答模式、或者倾听模式。

可选地，在所述问题的输入过程中，所述目标图像序列对应的模式为倾听模式；或者

在所述问题的输入完成后，所述目标图像序列对应的模式为回答模式。

可选地，所述装置还可以包括：

第一输出模块，用于向用户输出所述目标视频；或者

第二输出模块，用于向用户输出所述目标视频的链接；或者

第三输出模块，用于向用户输出所述目标语音序列、或者所述目标语音序列的链接；或者

第四输出模块，用于向用户输出问题相关文本。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种用于数据处理的装置作为设备时的结构框图。例如，装置900可以是移动来电，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，装置900可以包括以下一个或多个组件：处理组件902，存储器904，电源组件906，多媒体组件908，音频组件910，输入/输出(I/O)的接口912，传感器组件914，以及通信组件916。

处理组件902通常控制装置900的整体操作，诸如与显示，来电呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件908和处理组件902之间的交互。

存储器904被配置为存储各种类型的数据以支持在设备900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令，联系人数据，来电簿数据，消息，图片，视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件906为装置900的各种组件提供电力。电源组件906可以包括电源管理系统，一个或多个电源，及其他与为装置900生成、管理和分配电力相关联的组件。

多媒体组件908包括在所述装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动运动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括一个前置摄像头和/或后置摄像头。当设备900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件910被配置为输出和/或输入音频信号。例如，音频组件910包括一个麦克风(MIC)，当装置900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，用于输出音频信号。

I/O接口912为处理组件902和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件914包括一个或多个传感器，用于为装置900提供各个方面的状态评估。例如，传感器组件914可以检测到设备900的打开/关闭状态，组件的相对定位，例如所述组件为装置900的显示器和小键盘，传感器组件914还可以检测装置900或装置900一个组件的位置改变，用户与装置900接触的存在或不存在，装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件916还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器904，上述指令可由装置900的处理器920执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图6是本发明的一些实施例中服务器的结构框图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(设备或者服务器)的处理器执行时，使得装置能够执行一种数据处理方法，所述方法包括：确定待处理文本对应的时长特征；所述待处理文本涉及至少两种语言；依据所述时长特征，确定所述待处理文本对应的目标语音序列；依据所述时长特征，确定所述待处理文本对应的目标图像序列；所述目标图像序列为依据文本样本及其对应的图像样本得到；所述文本样本对应的语言包括：所述待处理文本涉及的所有语言；对所述目标语音序列和所述目标图像序列进行融合，以得到对应的目标视频。

本发明实施例公开了A1、一种数据处理方法，包括：

A2、根据A1所述的方法，所述目标图像序列对应的图像特征包括如下特征中的至少一种：

表情特征；

唇部特征；以及

肢体特征。

A3、根据A1所述的方法，所述目标图像序列对应的肢体特征为依据所述待处理文本对应的语义特征得到。

A4、根据A1至A3中任一所述的方法，在所述对所述目标语音序列和所述目标图像序列进行融合之前，所述方法还包括：

对所述目标图像序列中预设区域的边界进行补偿。

A5、根据A4所述的方法，所述预设区域包括如下区域中的至少一种：

面部区域；

服饰区域；以及

肢体区域。

A6、根据A1至A3中任一所述的方法，所述待处理文本包括：问答交互中的问题相关文本；

所述目标图像序列对应的模式包括：回答模式、或者倾听模式。

A7、根据A6所述的方法，在所述问题的输入过程中，所述目标图像序列对应的模式为倾听模式；或者

A8、根据A6所述的方法，所述方法还包括：

向用户输出所述目标视频；或者

向用户输出所述目标视频的链接；或者

向用户输出所述目标语音序列、或者所述目标语音序列的链接；或者

向用户输出问题相关文本。

本发明实施例公开了B9、一种数据处理装置，包括：

B10、根据B9所述的装置，所述目标图像序列对应的图像特征包括如下特征中的至少一种：

表情特征；

唇部特征；以及

肢体特征。

B11、根据B9所述的装置，所述目标图像序列对应的肢体特征为依据所述待处理文本对应的语义特征得到。

B12、根据B9至11中任一所述的装置，所述装置还包括：

B13、根据B12所述的装置，所述预设区域包括如下区域中的至少一种：

面部区域；

服饰区域；以及

肢体区域。

B14、根据B9至11中任一所述的装置，所述待处理文本包括：问答交互中的问题相关文本；

B15、根据B14所述的装置，在所述问题的输入过程中，所述目标图像序列对应的模式为倾听模式；或者

B16、根据B15所述的装置，所述装置还包括：

第一输出模块，用于向用户输出所述目标视频；或者

第二输出模块，用于向用户输出所述目标视频的链接；或者

第四输出模块，用于向用户输出问题相关文本。

本发明实施例公开了C17、一种用于数据处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

C18、根据C17所述的装置，所述目标图像序列对应的图像特征包括如下特征中的至少一种：

表情特征；

唇部特征；以及

肢体特征。

C19、根据C17所述的装置，所述目标图像序列对应的肢体特征为依据所述待处理文本对应的语义特征得到。

C20、根据C17至C19中任一所述的装置，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

在所述对所述目标语音序列和所述目标图像序列进行融合之前，对所述目标图像序列中预设区域的边界进行补偿。

C21、根据C20所述的装置，所述预设区域包括如下区域中的至少一种：

面部区域；

服饰区域；以及

肢体区域。

C22、根据C17至C19中任一所述的装置，所述待处理文本包括：问答交互中的问题相关文本；

C23、根据C22所述的装置，在所述问题的输入过程中，所述目标图像序列对应的模式为倾听模式；或者

C24、根据C22所述的装置，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

向用户输出所述目标视频；或者

向用户输出所述目标视频的链接；或者

向用户输出问题相关文本。

本发明实施例公开了D25、一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如A1至A8中一个或多个所述的数据处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种数据处理方法、一种数据处理装置和一种用于数据处理的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种数据处理方法，其特征在于，包括：

依据所述时长特征，确定所述待处理文本对应的目标图像序列；所述目标图像序列为依据文本样本及其对应的图像样本得到；所述文本样本对应的语言包括：所述待处理文本涉及的所有语言；所述目标图像序列对应的肢体特征为依据所述待处理文本对应的语义表示得到；所述语义表示的类型包括如下类型中的至少一种：关键词、独热码向量、以及词嵌入向量；

对所述目标语音序列和所述目标图像序列进行融合，以得到对应的目标视频；

其中，所述待处理文本包括：问答交互中的问题相关文本；所述目标图像序列对应的模式包括：倾听模式、或者回答模式；所述方法还包括：

对衔接图像样本进行学习，得到从倾听模式到回答模式切换的规律、以及从回答模式到倾听模式切换的规律；并依据衔接图像样本的学习，对所述目标图像序列对应的模式进行切换；所述衔接图像样本包括：依次出现的倾听模式对应的图像样本和回答模式对应的图像样本，以及依次出现的回答模式对应的图像样本和倾听模式对应的图像样本。

2.根据权利要求1所述的方法，其特征在于，所述目标图像序列对应的图像特征包括如下特征中的至少一种：

表情特征；

唇部特征；以及

肢体特征。

3.根据权利要求1至2中任一所述的方法，其特征在于，在所述对所述目标语音序列和所述目标图像序列进行融合之前，所述方法还包括：

对所述目标图像序列中预设区域的边界进行补偿。

4.根据权利要求3所述的方法，其特征在于，所述预设区域包括如下区域中的至少一种：

面部区域；

服饰区域；以及

肢体区域。

5.根据权利要求1所述的方法，其特征在于，在所述问题的输入过程中，所述目标图像序列对应的模式为倾听模式；或者

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

向用户输出所述目标视频；或者

向用户输出所述目标视频的链接；或者

向用户输出问题相关文本。

7.一种数据处理装置，其特征在于，包括：

图像确定模块，用于依据所述时长特征，确定所述待处理文本对应的目标图像序列；所述目标图像序列为依据文本样本及其对应的图像样本得到；所述文本样本对应的语言包括：所述待处理文本涉及的所有语言；所述目标图像序列对应的肢体特征为依据所述待处理文本对应的语义表示得到；所述语义表示的类型包括如下类型中的至少一种：关键词、独热码向量、以及词嵌入向量；以及

融合模块，用于对所述目标语音序列和所述目标图像序列进行融合，以得到对应的目标视频；

其中，所述待处理文本包括：问答交互中的问题相关文本；所述目标图像序列对应的模式包括：倾听模式、或者回答模式；所述装置还包括：

模式切换模块，用于对衔接图像样本进行学习，得到从倾听模式到回答模式切换的规律、以及从回答模式到倾听模式切换的规律；并依据衔接图像样本的学习，对所述目标图像序列对应的模式进行切换；所述衔接图像样本包括：依次出现的倾听模式对应的图像样本和回答模式对应的图像样本，以及依次出现的回答模式对应的图像样本和倾听模式对应的图像样本。

8.根据权利要求7所述的装置，其特征在于，所述目标图像序列对应的图像特征包括如下特征中的至少一种：

表情特征；

唇部特征；以及

肢体特征。

9.根据权利要求7至8中任一所述的装置，其特征在于，所述装置还包括：

10.根据权利要求9所述的装置，其特征在于，所述预设区域包括如下区域中的至少一种：

面部区域；

服饰区域；以及

肢体区域。

11.根据权利要求7所述的装置，其特征在于，在所述问题的输入过程中，所述目标图像序列对应的模式为倾听模式；或者

12.根据权利要求7所述的装置，其特征在于，所述装置还包括：

第一输出模块，用于向用户输出所述目标视频；或者

第二输出模块，用于向用户输出所述目标视频的链接；或者

第四输出模块，用于向用户输出问题相关文本。

13.一种用于数据处理的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序，所述程序包含用于进行以下操作的指令：

其中，所述待处理文本包括：问答交互中的问题相关文本；所述目标图像序列对应的模式包括：倾听模式、或者回答模式；

14.根据权利要求13所述的装置，其特征在于，所述目标图像序列对应的图像特征包括如下特征中的至少一种：

表情特征；

唇部特征；以及

肢体特征。

15.根据权利要求13至14中任一所述的装置，其特征在于，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序，所述程序包含用于进行以下操作的指令：

16.根据权利要求15所述的装置，其特征在于，所述预设区域包括如下区域中的至少一种：

面部区域；

服饰区域；以及

肢体区域。

17.根据权利要求13所述的装置，其特征在于，在所述问题的输入过程中，所述目标图像序列对应的模式为倾听模式；或者

18.根据权利要求13所述的装置，其特征在于，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序，所述程序包含用于进行以下操作的指令：

向用户输出所述目标视频；或者

向用户输出所述目标视频的链接；或者

向用户输出问题相关文本。

19.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至6中一个或多个所述的数据处理方法。