CN113779204A

CN113779204A - 数据处理方法、装置、电子设备及计算机存储介质

Info

Publication number: CN113779204A
Application number: CN202010519755.8A
Authority: CN
Inventors: 吴佳伦; 王浩; 崔任东; 盖于涛
Original assignee: Alibaba Group Holding Ltd
Current assignee: Zhejiang Future Elf Artificial Intelligence Technology Co ltd
Priority date: 2020-06-09
Filing date: 2020-06-09
Publication date: 2021-12-10
Anticipated expiration: 2040-06-09
Also published as: CN113779204B

Abstract

本发明实施例提供了一种数据处理方法、装置、电子设备及计算机存储介质，其中，一种数据处理方法包括：确定对输入的语音指令进行回复的回复文本；获取与所述回复文本对应的场景音频，并将所述场景音频与根据所述回复文本生成的第一多媒体内容进行合成，获得第二多媒体内容；通过播放所述第二多媒体内容，对所述输入的语音指令进行应答回复。通过本发明实施例，可以提升人机对话系统相对于用户的自然程度，提供用户对人机对话系统的使用体验。

Description

数据处理方法、装置、电子设备及计算机存储介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种数据处理方法、装置、电子设备及计算机存储介质。

背景技术

人机对话系统是人工智能领域的一个子方向，通过人机对话系统，用户可以通过人类的语言即自然语言与计算机进行交互。

目前，用户与人机对话系统通常采用的交互方式为：用户发出语音请求，人机对话系统针对该语音请求进行处理并生成回复文本，再通过语音合成技术生成该回复文本的人声应答。当回复文本的内容较为简单时，当前模式下的人声应答对用户是可接受的。但是，当回复文本的内容较为复杂时，比如，字数较多的长回复、基于百科库的百科资料回复、小说内容回复等场景下，现有的人声应答不够自然，容易造成用户体感不佳。

发明内容

有鉴于此，本发明实施例提供一种数据处理方案，以至少部分解决上述问题。

根据本发明实施例的第一方面，提供了一种数据处理方法，包括：确定对输入的语音指令进行回复的回复文本；获取与所述回复文本对应的场景音频，并将所述场景音频与根据所述回复文本生成的第一多媒体内容进行合成，获得第二多媒体内容；通过播放所述第二多媒体内容，对所述输入的语音指令进行应答回复。

根据本发明实施例的第二方面，提供了另一种数据处理方法，包括：获取待处理的语料文本；根据所述语料文本生成第一多媒体内容，并获取与所述语料文本对应的场景音频；将所述场景音频与所述第一多媒体内容进行合成，获得第二多媒体内容；并将所述第二多媒体内容与所述语料文本对应存储。

根据本发明实施例的第三方面，提供了一种数据处理装置，包括：确定模块，用于确定对输入的语音指令进行回复的回复文本；合成模块，用于获取与所述回复文本对应的场景音频，并将所述场景音频与根据所述回复文本生成的第一多媒体内容进行合成，获得第二多媒体内容；回复模块，用于通过播放所述第二多媒体内容，对所述输入的语音指令进行应答回复。

根据本发明实施例的第四方面，提供了另一种数据处理装置，包括：第一获取模块，用于获取待处理的语料文本；第二获取模块，用于根据所述语料文本生成第一多媒体内容，并获取与所述语料文本对应的场景音频；存储模块，用于将所述场景音频与所述第一多媒体内容进行合成，获得第二多媒体内容；并将所述第二多媒体内容与所述语料文本对应存储。

根据本发明实施例的第五方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面或第二方面所述的数据处理方法对应的操作。

根据本发明实施例的第六方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面或第二方面所述的数据处理方法。

本发明实施例提供的数据处理方案可适用于人机对话场景中，在生成机器对话文本(如机器回复文本或机器语料库中的语料文本)对应的第一多媒体内容的同时，还获取机器对话文本对应的场景音频；再将场景音频与第一多媒体内容进行合成，生成最终的第二多媒体内容。因第一多媒体内容中的音频不够自然，将场景音频合并入第一多媒体内容后，一方面，可以从一定程度上对这种不自然程度进行掩盖；另一方面，还能够使得用户将注意力转移至场景音频上，而忽略第一多媒体内容中不够自然的部分。由此，可以提升人机对话系统相对于用户的自然程度，提供用户对人机对话系统的使用体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1A为根据本发明实施例一的一种数据处理方法的步骤流程图；

图1B为图1A所示实施例中的一种场景示例的示意图；

图2A为根据本发明实施例二的一种数据处理方法的步骤流程图；

图2B为图2A所示实施例中的一种确定回复文本的过程示意图；

图2C为图2A所示实施例中的一种确定场景音频的过程示意图；

图2D为图2A所示实施例中的一种根据场景音频生成多媒体音频的示意图；

图2E为图2A所示实施例中的另一种根据场景音频生成多媒体音频的示意图；

图2F为图2A所示实施例中的一种根据场景音频和合成人声音频生成多媒体音频的过程示意图；

图3A为根据本发明实施例三的一种数据处理方法的步骤流程图；

图3B为图3A所示实施例中的一种场景示例的示意图；

图4为根据本发明实施例四的一种数据处理方法的过程示意图；

图5为根据本发明实施例五的一种数据处理装置的结构框图；

图6为根据本发明实施例六的一种数据处理装置的结构框图；

图7为根据本发明实施例七的一种电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本发明实施例中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本发明实施例保护的范围。

下面结合本发明实施例附图进一步说明本发明实施例具体实现。

在人机对话场景中，通常由用户向设置有人机对话系统的设备(如，设置有语音助手的物联网终端、手机终端、平板终端或者PC终端等等)发出语音指令，该设备可以通过适当手段如发送至后台服务端或在本地将该语音指令转换为文字指令；然后对其进行识别后，确定出回复文本；进而，将该回复文本转换为语音如合成为人声音频后，通过设备中的语音播放器如扬声器进行播放，从而实现用户与机器的人机交互。但因合成的人声音频即合成人声音频的自然度较差，为此，本发明实施例提出了一种数据处理方案，以解决该问题。以下，通过多个实施例对本发明实施例的数据处理方案进行说明。

实施例一

参照图1A，示出了根据本发明实施例一的一种数据处理方法的步骤流程图。

本实施例的数据处理方法包括以下步骤：

步骤S102：确定对输入的语音指令进行回复的回复文本。

其中，输入的语音指令可以是用户提出的问题的问题语音指令，可以是用户向人机对话系统发出的指示的指示语音指令，还可以为其它语音指令，本发明实施例对语音指令的具体内容不作限制。

此外，本实施例，可以采用任意适当方式确定对输入的语音指令进行回复的回复文本。如，根据对语音指令的识别结果确定相应的回复文本，或者，将语音指令转换为文本指令后，通过提取关键词或提取特征，进而，根据提取的关键词或特征确定回复文本，等等。

步骤S104：获取与回复文本对应的场景音频，并将场景音频与根据回复文本生成的第一多媒体内容进行合成，获得第二多媒体内容。

其中，场景音频可为对回复文本中的主体或主题或对象所可能存在的场景进行表征的音频。例如，若回复文本为某种动物的动物百科介绍，则场景音频可以为动物叫声的音频，或者动物生活环境的音频，或者两者的结合；若回复文本为某个歌手的介绍信息，则场景音频可以为该歌手的主打歌片段；若回复文本为某个笑话，则场景音频可以为笑声音频；若回复文本为某段小说，则场景音频可以为相匹配的某个音频片段或者过场音乐片段，等等。

与回复文本对应的场景音频可以通过预设的对应关系或关联关系获得；或者，可以通过相似度匹配获得；或者，可以通过经过训练的神经网络模型获得；或者，可以由本领域技术人员通过其它适当方式或算法获得。

除场景音频外，还会根据回复文本生成第一多媒体内容，该第一多媒体内容可以包括音频内容如合成人声音频，也可以包括视频内容。例如，可以根据回复文本生成合成人声音频，如，通过适当方法将该回复文本合成为人声音频，或者，转换为人声音频等。又例如，可以根据回复文本确定对应的视频(无音频)及合成人声音频，将该视频与合成人声音频结合，生成对应的视频内容。其中，场景音频的获得和第一多媒体内容的获得可以不分先后顺序，也可以并行执行。

基于场景音频和第一多媒体内容，可以将两者进行合成，获得第二多媒体内容。

例如，在获得了场景音频和合成人声音频(即第一多媒体内容)后，再将两者进行合成，如通过混音合成等，以获得多媒体音频(即第二多媒体内容)，该多媒体音频中既包括回复文本对应的合成人声音频，也包括场景音频。通过将场景音频合并入合成人声音频中，一方面，可以从一定程度上对合成人声音频的不自然程度进行掩盖；另一方面，还能够使得用户将注意力转移至场景音频上，而忽略合成人声音频中不够自然的部分。

又例如，在获得了场景音频和与回复文本对应的视频内容(称为第一视频)后，可以将场景音频与第一视频进行合成，获得第二视频。具体实现时，可以根据回复文本获得第一视频(无音频)和合成人声音频(此种情况下，第一多媒体内容包括第一视频和合成人声音频)；将场景音频与合成人声音频进行合成，获得合成音频数据；将合成音频数据与第一视频进行合成，生成所述第二视频(有音频的第二多媒体内容)。其中，第一视频可以是已存在的视频，也可以是根据图像临时合成的视频。通过这种方式，拓展了人机对话系统的交互和信息展现方式，提升了用户使用体验。

步骤S106：通过播放第二多媒体内容，对输入的语音指令进行应答回复。

在获得了所述第二多媒体内容后，即可通过播放该第二多媒体内容，对输入的语音指令进行应答回复，实现人机的语音交互。

以下，以一个第一多媒体内容为合成人声音频，第二多媒体内容为多媒体音频为场景，对上述过程进行示例性说明，如图1B所示。

图1B中，假设用户发出的语音指令为一个语音问题，如，“海豚是什么？”，人机对话系统接收到该语音问题后，对其进行文本转换和自然语言处理(如ASR+NLP处理)。然后，根据处理结果如关键词“海豚”从“百科语料库”中查找获得对应的“海豚”的文本介绍信息，如“海豚具有齿鲸类典型的形态学性状：纺锤形的身体；单个新月形的呼吸孔；头骨套叠，上颌骨向后扩展与额骨重叠；颅顶偏左的不对称；圆锥形或钉状的齿等”。在获得了“海豚”的文本介绍信息后，一方面，人机对话系统生成第一多媒体内容，如将该文本介绍信息合成为人声音频(如通过TTS合成为人声音频)，即所述合成人声音频；另一方面，人机对话系统还会从音频素材库中查找与“海豚”相关的场景音频，如，海豚的叫声和/或海浪的声音，本示例中设定两种都有。进而，将第一多媒体内容如所述合成人声音频和该场景音频进行合成，生成在语音介绍海豚的信息的同时，衬托有海豚叫声和海浪声音的多媒体音频即第二多媒体内容。进而，通过语音播放设备如扬声器，向用户播放该多媒体音频。

可见，通过本实施例，可将方案应用于人机对话场景中，在生成回复文本对应的第一多媒体内容的同时，还获取回复文本对应的场景音频；再将场景音频与第一多媒体内容进行合成，生成最终的第二多媒体内容。因第一多媒体内容中的音频不够自然，将场景音频合并入第一多媒体内容后，一方面，可以从一定程度上对这种不自然程度进行掩盖；另一方面，还能够使得用户将注意力转移至场景音频上，而忽略第一多媒体内容中不够自然的部分。由此，可以提升人机对话系统相对于用户的自然程度，提供用户对人机对话系统的使用体验。

本实施例的数据处理方法可以由任意适当的具有数据处理能力的电子设备执行，包括但不限于：物联网终端、手机终端、平板终端或者PC终端等。

实施例二

参照图2A，示出了根据本发明实施例二的一种数据处理方法的步骤流程图。

本实施例的数据处理方法包括以下步骤：

步骤S202：接收输入的语音指令。

本实施例中，可以通过语音接收装置如麦克风接收用户输入的语音指令，用户输入的语音指令可以为任意适当的问题或指示或其它形式的语音指令。

步骤S204：确定对输入的语音指令进行回复的回复文本。

在确定对输入的语音指令进行回复的回复文本时，可以先将语音指令转换为文本指令，再根据该文本指令确定回复文本。其中，将语音指令转换为文本指令的实现可以由本领域技术人员根据实际需求采用任意适当的方式实现，包括但不限于：ASR(AutomaticSpeech Recognition，自动语音识别)、DeepSpeech等等，本发明实施例对此不作限制。

例如，用户发出语音问题“海豚是什么？”，人机对话系统接收到该语音问题后，将其转换为“海豚是什么？”的文本问题。然后，将该文本问题输入自然语言处理单元NLU，NLU对其进行分析后，提取到以下信息：种类category＝”animal”,标识id＝”海豚”，待回复类型type＝”介绍”。基于提取出的这些信息，人机对话系统将从预先设置好的“百科库”中寻找相应的信息作为回复文本，例如，找到“海豚具有齿鲸类典型的形态学性状：纺锤形的身体；单个新月形的呼吸孔；头骨套叠，上颌骨向后扩展与额骨重叠；颅顶偏左的不对称；圆锥形或钉状的齿等”的文本作为回复文本，如图2B所示。

步骤S206：获取与回复文本对应的场景音频，并将场景音频与根据回复文本生成的合成人声音频进行合成，获得多媒体音频。

本实施例中，第一多媒体内容具体实现为合成人声音频，第二多媒体内容具体实现为多媒体音频。

在一种可行方式中，获取与回复文本对应的场景音频可以实现为：对回复文本进行特征提取，获取与特征提取结果对应的场景音频。其中，特征提取结果可以为提取出的关键词或特征词，提取出的关键词或特征词可以有一个也可以有多个(两个及两个以上)。通过特征提取的方式，可以准确地获得回复文本所想要表达的语义的信息，以为后续获得场景音频提供依据。

例如，在获得了回复文本“海豚具有齿鲸类典型的形态学性状：纺锤形的身体；单个新月形的呼吸孔；头骨套叠，上颌骨向后扩展与额骨重叠；颅顶偏左的不对称；圆锥形或钉状的齿等”后，对其进行特征提取，如提取出特征词“海豚”，则可确定该回复文本是与动物“海豚”相关的。则基于此，可去预先设置的音频素材库中搜索与“海豚”匹配的海豚叫声和背景音(也可称为环境音)如海浪的声音，得到对应的音频文件，如图2C所示。

此外，本步骤中生成的多媒体音频，除需要场景音频外，还需要回复文本的合成人声音频，如前所述，获取回复文本对应的场景音频，与，根据回复文本生成合成人声音频的执行可以不分先后顺序，也可以并行执行。其中，将回复文本转换为合成人声音频可以通过诸如TTS(Text To Speech，文本到语音)的方式实现。

基于此，在一种可行方式中，本步骤S206可以实现为：获取与回复文本对应的场景音频，和，根据回复文本生成的合成人声音频；对场景音频和合成人声音频进行对齐处理；将对齐处理后的场景音频和合成人声音频进行混音，根据混音结果生成多媒体音频。通过对齐处理，可以提高进行混音的效率，也使混音效果更好。在实际应用中，对齐处理的实现可以通过对场景音频进行循环播放或者截取等方式实现。

但为了使得合成人声音频与场景音频的适配度更好，使得混音后的音频更为自然，可选地，对场景音频和合成人声音频进行对齐处理可以包括：为合成人声音频设置播放前静音时长和播放后静音时长；对所述场景音频和设置后的所述合成人声音频进行对齐处理。其中，播放前静音时长和播放后静音时长的具体时长设置可由本领域技术人员根据实际需求适当设置，以可引入场景音频且可以从场景音频自然过渡至合成人声音频即可。例如，播放前静音时长设置为2S(秒)、播放后静音时长设置为1S。

例如，假设合成人声音频为10S，其播放前静音时长为2S、播放后静音时长为1S，共计13S。若场景音频也为13S，则无需对场景音频进行处理。若场景音频为15S，则可截取其中的13S，如从头开始的13S，或者自结尾始的13S，或者去掉开头的1S和结尾的1S等，由本领域技术人员灵活选择。而若场景音频为5S，则需对该场景音频进行循环处理，如，重复该场景音频三次，并且对第三次的场景音频进行截取其中的三秒如前三秒等。

针对场景音频，在第一种情况中，场景音频可能包括语声音频和背景音频，其中，语声音频可以指示由某种对象发出的声音，如某种动物的叫声等；背景音频可以指示某种对象所在环境的声音，如海浪声、植物的生长声、雨声等等，对于对象为某个人物的情形，则其所演唱过的歌曲可作为其背景音频，而若该人物未演唱过歌曲，则可根据适当规则为其匹配背景音频或者设置默认背景音频等。

当场景音频包括语声音频和背景音频时，所述将对齐处理后的所述场景音频和所述合成人声音频进行混音，包括：设置语声音频在合成人声音频播放之前的第一时间段内，从原音量降低至第一音量播放，在语声音频播放完成后，将背景音频从原音量降低第二音量播放；以及，设置背景音频在合成人声音频播放之后的第二时间段内恢复至原音量播放；根据对齐处理的结果和设置后的语声音频和背景音频，将场景音频和合成人声音频进行混音。其中，第一时间段、第二时间段、第一音量、第二音量均可由本领域技术人员根据实际情况适当设置。通过这种方式，既可通过场景音频使得合成人声音频的播放更加自然，也使得语声音频和背景音频的过渡更加自然。

例如，一种通过上述处理生成多媒体音频的过程如图2D所示。图2D中，回复文本对应的合成人声音频TTS音频为10S，TTS音频前设置有播放前静音时长2S、TTS音频后设置有播放后静音时长1S，共计13S。假设场景音频包括语声音频2S和背景音频11S，则由图2D中可见，语声音频在TTS音频播放前2S开始播放，在TTS音频播放前1S内音量线性降低，如，从原音量-22dBFS降低15dBFS至-37dBFS，然后截断。在截断的同时，背景音频从原音量如-22dBFS降低15dBFS至-37dBFS之后开始播放，并且，TTS音频也开始播放。背景音频在TTS音频播放过程中，以-37dBFS的音量持续播放，并且，在TTS音频播放结束前0.5S开始恢复，在1S内恢复至原音量-22dBFS，直至TTS音频的播放后静音时长结束。以此设置，将TTS音频和场景音频进行混音，生成多媒体音频。

在第二种情况中，场景音频可能包括背景音频而不包括语声音频，在此情况下，将对齐处理后的所述场景音频和所述合成人声音频进行混音可以包括：设置背景音频在合成人声音频播放之前的第一时间段内，从原音量降低至第一音量播放，以及，设置背景音频在合成人声音频播放之后的第二时间段内恢复至原音量播放；根据对齐处理的结果和设置后的背景音频，将场景音频和合成人声音频进行混音。如前所述，其中的第一时间段、第二时间段、第一音量均可由本领域技术人员根据实际情况适当设置。通过场景音频使得合成人声音频的播放更加自然。

例如，一种通过上述处理生成多媒体音频的过程如图2E所示。图2E中，回复文本对应的合成人声音频TTS音频为10S，TTS音频前设置有播放前静音时长2S、TTS音频后设置有播放后静音时长1S，共计13S。假设场景音频包括13S的背景音频，则由图2E中可见，背景音频在TTS音频播放前2S开始播放，在在TTS音频播放前1S内音量线性降低，如，从原音量-22dBFS降低15dBFS至-37dBFS，然后，TTS音频也开始播放。背景音频在TTS音频播放过程中，以-37dBFS的音量持续播放，并且，在TTS音频播放结束前0.5S开始恢复，在1S内恢复至原音量-22dBFS，直至TTS音频的播放后静音时长结束。以此设置，将TTS音频和场景音频进行混音，生成多媒体音频。

需要说明的是，为提高混音效率，还可在混音前，对合成人声音频和场景音频进行归一化处理。基于此，一种根据场景音频和合成人声音频生成多媒体音频的过程如图2F所示。图2F中，以合成人声音频为海豚介绍信息对应的TTS音频，场景音频包括语声音频如海豚叫声和背景音频如海浪声音为示例。则，首先对合成人声音频和场景音频进行音量、采样率、声道等进行归一化，如将音量归一化至-22dBFS，或者，-22dBFS的正负10dBFS范围内；采样率归一化至22050Hz、或者24000Hz、或者16000Hz、或者48000Hz等；声道归一化为单声道等。其中，如图2F中所示，音轨1是设置有播放前静音时长(本示例中为2.5S)和播放后静音时长(如2S)及TTS音频的音轨，音轨2是设置有语声音频和背景音频的音轨。然后，通过多音轨混合的方式生成多媒体音频。本示例中，混音之后，用户将先听到约2S的海豚叫声，紧接着是0.5S海浪声，再是合成人声播放海豚的介绍，在合成人声播放过程中，海浪声也持续播放，但海浪声较之前的0.5S海浪声的音量低，使之不影响用户听合成人声。合成人声播放结束后，海浪声的音量逐渐恢复，2S之后淡出。同前述示例不同的是，本示例中，背景音频的音量变化发生于TTS音频之前或之后，这种方式使得音量变化的处理更为简单，无需为TTS的播放进行时长标记和处理。

可见，通过上述过程，有效实现了场景音频与合成人声音频的混合及多媒体音频的生成。

此外，还需要说明的是，本实施例中以第一多媒体内容为合成人声音频，第二多媒体内容为多媒体音频为示例，但本领域技术人员可以参照本示例，实现第一多媒体内容为第一视频和合成人声音频，第二多媒体内容为第二视频情况下的数据处理。如前所述，可以根据回复文本获得对应的第一视频、场景音频及合成人声音频，其中，合成人声音频的生成可参照前述描述，在此不再赘述。进而，将场景音频与合成人声音频进行合成，获得合成音频数据。然后，将该合成音频数据与第一视频进行合成，即可获得第二视频。一方面，用户可以通过视频的形式获得对输入人机对话系统的语音指令的回复；另一方面，该第二视频中的语音也更为自然，提升用户感受。

步骤S208：通过播放多媒体音频，对输入的语音指令进行应答回复。

当第二多媒体内容为多媒体音频时，通过播放该多媒体音频即可实现对用户的语音指令的应答。类似地，当第二多媒体内容为第二视频时，可通过播放该视频实现对用户的语音指令的应答。

步骤S210：将多媒体音频与回复文本对应存储。

当第二多媒体内容为多媒体音频时，将多媒体音频与回复文本对应存储。类似地，当第二多媒体内容为第二视频时，可将第二视频与回复文本对应存储。

本步骤为可选步骤，实际应用中，可在步骤S208之前或之后执行，也可与步骤S208并行执行，本实施例中以在步骤S208之后执行为例。通过将第二多媒体内容与回复文本对应存储，在后续使用中，针对同样或类似的用户的语音指令，无需再次生成第二多媒体内容，直接使用即可，可以大大提高对用户的语音指令的响应速度。

可见，通过本实施例，可将方案应用于人机对话场景中，在生成回复文本对应的合成人声音频的同时，还获取回复文本对应的场景音频；再将场景音频与合成人声音频进行合成，生成最终的多媒体音频。因合成人声音频不如真实人声音频自然，将场景音频合并入合成人声音频后，一方面，可以从一定程度上对这种不自然程度进行掩盖；另一方面，还能够使得用户将注意力转移至场景音频上，而忽略合成人声音频中不够自然的部分。由此，可以提升人机对话系统合成后的人声应答相对于用户的自然程度，提供用户对人机对话系统的使用体验。

实施例三

参照图3A，示出了根据本发明实施例三的一种数据处理方法的步骤流程图。

本实施例的数据处理方法包括：

步骤S302：获取待处理的语料文本。

本实施例中，所述语料文本可以为任意适当的语料文本，包括但不限于人机对话系统使用的语料库中的语料文本。

步骤S304：根据语料文本生成第一多媒体内容，并获取与语料文本对应的场景音频。

第一多媒体内容可以包括音频内容如合成人声音频，也可以包括视频内容如无音频的第一视频和根据语料文本生成的所述合成人声音频。

其中，当第一多媒体内容为音频内容如合成人声音频时，根据语料文本生成合成人声音频可以采用TTS实现；获取与语料文本对应的场景音频可以采用适当方式实现，包括但不限于，根据预设的语料文本与场景音频的关联关系方式，根据相似度计算方式，根据神经网络模型方式等等。

在一种可行方式中，场景音频可以包括语声音频和背景音频；在另一种可行方式中，场景音频可以包括背景音频而不包括语声音频。

步骤S306：将场景音频与第一多媒体内容进行合成，获得第二多媒体内容；并将第二多媒体内容与语料文本对应存储。

当第一多媒体内容为合成人声音频时，相应地，第二多媒体内容为多媒体音频。

在一种可行方式中，所述将所述场景音频与所述第一多媒体内容进行合成，获得第二多媒体内容可以包括：对场景音频和合成人声音频进行对齐处理；将对齐处理后的场景音频和合成人声音频进行混音，根据混音结果生成多媒体音频。

其中，可选地，对所述场景音频和所述合成人声音频进行对齐处理可以包括：为合成人声音频设置播放前静音时长和播放后静音时长；对场景音频和设置后的合成人声音频进行对齐处理。其中，播放前静音时长和播放后静音时长均可由本领域技术人员根据实际需求适当设置，本发明实施例对此不作限制。

可选地，当场景音频包括背景音频时，所述将对齐处理后的所述场景音频和所述合成人声音频进行混音，包括：设置所述背景音频在所述合成人声音频播放之前的第一时间段内，从原音量降低至第一音量播放，以及，设置所述背景音频在所述合成人声音频播放之后的第二时间段内恢复至原音量播放；根据对齐处理的结果和设置后的所述背景音频，将所述场景音频和所述合成人声音频进行混音。其中，所述第一时间段、第二时间段、第一音量均可由本领域技术人员根据实际情况适当设置，本发明实施例对此不作限制。

可选地，当场景音频包括语声音频和背景音频时，所述将对齐处理后的所述场景音频和所述合成人声音频进行混音，包括：设置所述语声音频在所述合成人声音频播放之前的第一时间段内，从原音量降低至第一音量播放，在所述语声音频播放完成后，将所述背景音频从原音量降低第二音量播放；以及，设置所述背景音频在所述合成人声音频播放之后的第二时间段内恢复至原音量播放；根据对齐处理的结果和设置后的所述语声音频和所述背景音频，将所述场景音频和所述合成人声音频进行混音。其中，所述第一时间段、第二时间段、第一音量和第二音量均可由本领域技术人员根据实际情况适当设置，本发明实施例对此不作限制。

当第一多媒体内容包括第一视频和合成人声音频时，相应地，第二多媒体内容包括第二视频。则，将场景音频与第一多媒体内容进行合成，获得第二多媒体内容可以实现为：根据语料文本获得第一视频和合成人声音频；将场景音频与合成人声音频进行合成，获得合成音频数据；将合成音频数据与第一视频进行合成，生成第二视频。进而，可将该第二视频与语料文本对应存储。

通过上述方式，在人机对话系统获取到用户输入的语音指令并确定用于回复的语料文本后，不会再进行第二多媒体内容的生成，而是直接根据语料文本从存储的第二多媒体内容中直接获取，极大地缩短了响应时长。

需要说明的是，与前述实施例一和二相比，本实施例的数据处理方案直接对语料文本进行处理，生成第二多媒体内容并与语料文本对应存储，以备后续使用。因此，本实施例中的多个步骤描述较为简要，相关部分参照实施例一或二中的相关描述即可，在此不再赘述。

上述过程的一个场景示例如图3B所示，该示例中，仍以第一多媒体内容为合成人声音频，第二多媒体内容为多媒体音频为例。图3B中，语料库中存储有大量的语料文本，以其中的一个语料文本A为例，首先，将该语料文本A通过TTS转换为TTS音频，并且，获取与语料文本A对应的场景音频，本示例中设定为根据语料文本A中的关键词从多个场景音频素材库中确定相匹配的场景音频，其中，场景音频的获取和TTS音频的获取可以不分先后顺序，也可以并行执行。然后，将该场景音频和TTS音频进行混音处理，生成多媒体音频A。进而，将该多媒体音频A与语料文本A对应存储。这样，后续使用时，假若用户输入了某个语音指令，该语音指令对应的语料文本为A，则人机对话系统可直接获取与语料文本A对应的多媒体音频A，并向用户语音播放多媒体音频A，实现对用户的语音指令的快速语音反馈。

通过本实施例，一方面，场景音频与合成人声音频混合后，使得合成人声音频的语音播放更自然；另一方面，因多媒体音频已预先生成并存储，则在后续使用中，可以直接对用户的语音指令进行语音反馈，无需再生成，提高了响应速度。

实施例四

本实施例中，以设置有人机对话系统的智能音箱为示例，通过用户与智能音箱的交互，对本发明实施例提供的数据处理方案进行说明。但本领域技术人员应当明了的是，其它设置有人机对话系统的设备也同样适用本实施例。

参照图4，示出了根据本发明实施例四的一种数据处理方法的过程示意图。本实施例的数据处理方法包括以下步骤：

步骤S401：用户向处于工作状态的智能音箱发出语音指令。

其中，所述工作状态用于指示智能音箱处于随时可检测并接收用户的语音指令的状态。

本实施例中，仍以用户发出语音问题“海豚是什么？”为语音指令示例。

步骤S403：智能音箱接收到语音指令，将语音指令转换为文本指令。

例如，可以通过ASR将语音问题“海豚是什么？”转换为文本问题“海豚是什么？”。

步骤S405：智能音箱根据文本指令，确定回复文本。

例如，智能音箱可以通过NLU对文本问题“海豚是什么？”进行特征提取，形成用于确定回复文本的特征信息，如，种类category＝”animal”,标识id＝”海豚”，待回复类型type＝”介绍”。进而，依据该特征信息确定回复文本，如，基于提取出的这些信息，智能音箱将从预先设置好的“百科库”(本地或服务端)中寻找相应的信息作为回复文本，例如，找到“海豚具有齿鲸类典型的形态学性状：纺锤形的身体；单个新月形的呼吸孔；头骨套叠，上颌骨向后扩展与额骨重叠；颅顶偏左的不对称；圆锥形或钉状的齿等”的文本作为回复文本。

步骤S407：智能音箱根据回复文本生成合成人声音频，并根据回复文本确定对应的场景音频。

生成合成人声音频的操作和确定场景音频的操作可以不分先后顺序，也可以并行执行。例如，可以通过TTS方式将回复文本转换为合成人声音频；通过预设的对应关系，从存储的多个场景音频中确定出与回复文本对应的场景音频，本实施例中设定为海浪声的背景音频。

步骤S409：将合成人声音频和场景音频进行合成，生成多媒体音频。

本步骤中，进行合成的过程及生成多媒体音频的过程均可参见前述多个实施例中的相关描述，在此不再赘述。

步骤S411：智能音箱向用户播放多媒体音频，以对用户的语音指令进行应答回复。

通过本实施例，实现了智能音箱对语音指令的有效处理，并且，以相对用户来说，更为自然的语声与用户进行交互，提升了用户的使用体验。

实施例五

参照图5，示出了根据本发明实施例五的一种数据处理装置的结构框图。

本实施例的数据处理装置包括：确定模块402，用于确定对输入的语音指令进行回复的回复文本；合成模块404，用于获取与所述回复文本对应的场景音频，并将所述场景音频与根据所述回复文本生成的第一多媒体内容进行合成，获得第二多媒体内容；回复模块406，用于通过播放所述第二多媒体内容，对所述输入的语音指令进行应答回复。

可选地，所述第一多媒体内容包括根据所述回复文本生成的合成人声音频，所述第二多媒体内容包括多媒体音频。

可选地，合成模块404，用于获取与所述回复文本对应的场景音频，和，根据所述回复文本生成的合成人声音频；对所述场景音频和所述合成人声音频进行对齐处理；将对齐处理后的所述场景音频和所述合成人声音频进行混音，根据混音结果生成多媒体音频。

可选地，合成模块404在对所述场景音频和所述合成人声音频进行对齐处理时，为所述合成人声音频设置播放前静音时长和播放后静音时长；对所述场景音频和设置后的所述合成人声音频进行对齐处理。

可选地，所述场景音频包括背景音频；合成模块404在将对齐处理后的所述场景音频和所述合成人声音频进行混音，根据混音结果生成多媒体音频时，设置所述背景音频在所述合成人声音频播放之前的第一时间段内，从原音量降低至第一音量播放，以及，设置所述背景音频在所述合成人声音频播放之后的第二时间段内恢复至原音量播放；根据对齐处理的结果和设置后的所述背景音频，将所述场景音频和所述合成人声音频进行混音；根据混音结果生成多媒体音频。

可选地，所述场景音频包括语声音频和背景音频；合成模块404在将对齐处理后的所述场景音频和所述合成人声音频进行混音，根据混音结果生成多媒体音频时，设置所述语声音频在所述合成人声音频播放之前的第一时间段内，从原音量降低至第一音量播放，在所述语声音频播放完成后，将所述背景音频从原音量降低第二音量播放；以及，设置所述背景音频在所述合成人声音频播放之后的第二时间段内恢复至原音量播放；根据对齐处理的结果和设置后的所述语声音频和所述背景音频，将所述场景音频和所述合成人声音频进行混音，根据混音结果生成多媒体音频。

可选地，所述合成模块404，用于对所述回复文本进行特征提取，获取与特征提取结果对应的场景音频；并将所述场景音频与根据所述回复文本生成的第一多媒体内容进行合成，获得第二多媒体内容。

可选地，本实施例的数据处理装置还包括：对应存储模块408，用于将所述第二多媒体内容与所述回复文本对应存储。

可选地，所述第一多媒体内容包括第一视频和根据所述回复文本生成的合成人声音频，所述第二多媒体内容包括第二视频。

可选地，合成模块404，用于根据所述回复文本获得第一视频和合成人声音频；将所述场景音频与所述合成人声音频进行合成，获得合成音频数据；将所述合成音频数据与所述第一视频进行合成，生成所述第二视频。

本实施例的数据处理装置用于实现前述多个方法实施例中相应的数据处理方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的数据处理装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。

实施例六

参照图6，示出了根据本发明实施例六的一种数据处理装置的结构框图。

本实施例的数据处理装置包括：第一获取模块502，用于获取待处理的语料文本；第二获取模块504，用于根据所述语料文本生成第一多媒体内容，并获取与所述语料文本对应的场景音频；存储模块506，用于将所述场景音频与所述第一多媒体内容进行合成，获得第二多媒体内容；并将所述第二多媒体内容与所述语料文本对应存储。

可选地，所述第一多媒体内容包括根据所述语料文本生成的合成人声音频，所述第二多媒体内容包括多媒体音频。

可选地，存储模块506，用于对所述场景音频和所述合成人声音频进行对齐处理；将对齐处理后的所述场景音频和所述合成人声音频进行混音，根据混音结果生成多媒体音频；并将所述多媒体音频与所述语料文本对应存储。

可选地，所述存储模块506在对所述场景音频和所述合成人声音频进行对齐处理时，为所述合成人声音频设置播放前静音时长和播放后静音时长；对所述场景音频和设置后的所述合成人声音频进行对齐处理。

可选地，所述场景音频包括背景音频；所述存储模块506在将对齐处理后的所述场景音频和所述合成人声音频进行混音时，设置所述背景音频在所述合成人声音频播放之前的第一时间段内，从原音量降低至第一音量播放，以及，设置所述背景音频在所述合成人声音频播放之后的第二时间段内恢复至原音量播放；根据对齐处理的结果和设置后的所述背景音频，将所述场景音频和所述合成人声音频进行混音。

可选地，所述场景音频包括语声音频和背景音频；所述存储模块506在将对齐处理后的所述场景音频和所述合成人声音频进行混音时，设置所述语声音频在所述合成人声音频播放之前的第一时间段内，从原音量降低至第一音量播放，在所述语声音频播放完成后，将所述背景音频从原音量降低第二音量播放；以及，设置所述背景音频在所述合成人声音频播放之后的第二时间段内恢复至原音量播放；根据对齐处理的结果和设置后的所述语声音频和所述背景音频，将所述场景音频和所述合成人声音频进行混音。

可选地，所述第一多媒体内容包括第一视频和根据所述语料文本生成的合成人声音频，所述第二多媒体内容包括第二视频。

可选地，存储模块506在将所述场景音频与所述第一多媒体内容进行合成，获得第二多媒体内容时，根据所述语料文本获得第一视频和合成人声音频；将所述场景音频与所述合成人声音频进行合成，获得合成音频数据；将所述合成音频数据与所述第一视频进行合成，生成所述第二视频。

实施例七

参照图7，示出了根据本发明实施例七的一种电子设备的结构示意图，本发明具体实施例并不对电子设备的具体实现做限定。

如图7所示，该电子设备可以包括：处理器(processor)602、通信接口(Communications Interface)604、存储器(memory)606、以及通信总线608。

其中：

处理器602、通信接口604、以及存储器606通过通信总线608完成相互间的通信。

通信接口604，用于与其它电子设备或服务器进行通信。

处理器602，用于执行程序610，具体可以执行上述数据处理方法实施例中的相关步骤。

具体地，程序610可以包括程序代码，该程序代码包括计算机操作指令。

处理器602可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器606，用于存放程序610。存储器606可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

在第一种实施方式中：

程序610具体可以用于使得处理器502执行以下操作：确定对输入的语音指令进行回复的回复文本；获取与所述回复文本对应的场景音频，并将所述场景音频与根据所述回复文本生成的第一多媒体内容进行合成，获得第二多媒体内容；通过播放所述第二多媒体内容，对所述输入的语音指令进行应答回复。

在一种可选的实施方式中，所述第一多媒体内容包括根据所述回复文本生成的合成人声音频，所述第二多媒体内容包括多媒体音频。

在一种可选的实施方式中，程序510还用于使得处理器502在获取与所述回复文本对应的场景音频，并将所述场景音频与根据所述回复文本生成的第一多媒体内容进行合成，获得第二多媒体内容时，获取与所述回复文本对应的场景音频，和，根据所述回复文本生成的合成人声音频；对所述场景音频和所述合成人声音频进行对齐处理；将对齐处理后的所述场景音频和所述合成人声音频进行混音，根据混音结果生成多媒体音频。

在一种可选的实施方式中，程序510还用于使得处理器502在对所述场景音频和所述合成人声音频进行对齐处理时，为所述合成人声音频设置播放前静音时长和播放后静音时长；对所述场景音频和设置后的所述合成人声音频进行对齐处理。

在一种可选的实施方式中，所述场景音频包括背景音频；程序510还用于使得处理器502在将对齐处理后的所述场景音频和所述合成人声音频进行混音时，设置所述背景音频在所述合成人声音频播放之前的第一时间段内，从原音量降低至第一音量播放，以及，设置所述背景音频在所述合成人声音频播放之后的第二时间段内恢复至原音量播放；根据对齐处理的结果和设置后的所述背景音频，将所述场景音频和所述合成人声音频进行混音。

在一种可选的实施方式中，所述场景音频包括语声音频和背景音频；程序510还用于使得处理器502在将对齐处理后的所述场景音频和所述合成人声音频进行混音时，设置所述语声音频在所述合成人声音频播放之前的第一时间段内，从原音量降低至第一音量播放，在所述语声音频播放完成后，将所述背景音频从原音量降低第二音量播放；以及，设置所述背景音频在所述合成人声音频播放之后的第二时间段内恢复至原音量播放；根据对齐处理的结果和设置后的所述语声音频和所述背景音频，将所述场景音频和所述合成人声音频进行混音。

在一种可选的实施方式中，程序510还用于使得处理器502在获取与所述回复文本对应的场景音频时，对所述回复文本进行特征提取，获取与特征提取结果对应的场景音频。

在一种可选的实施方式中，程序510还用于使得处理器502将所述第二多媒体内容与所述回复文本对应存储。

在一种可选的实施方式中，所述第一多媒体内容包括第一视频和根据所述回复文本生成的合成人声音频，所述第二多媒体内容包括第二视频。

在一种可选的实施方式中，程序510还用于使得处理器502在将所述场景音频与根据所述回复文本生成的第一多媒体内容进行合成，获得第二多媒体内容时：根据所述回复文本获得第一视频和合成人声音频；将所述场景音频与所述合成人声音频进行合成，获得合成音频数据；将所述合成音频数据与所述第一视频进行合成，生成所述第二视频。

在第二种实施方式中：

程序610具体可以用于使得处理器502执行以下操作：获取待处理的语料文本；根据所述语料文本生成第一多媒体内容，并获取与所述语料文本对应的场景音频；将所述场景音频与所述第一多媒体内容进行合成，获得第二多媒体内容；并将所述第二多媒体内容与所述语料文本对应存储。

在一种可选的实施方式中，所述第一多媒体内容包括根据所述语料文本生成的合成人声音频，所述第二多媒体内容包括多媒体音频。

在一种可选的实施方式中，程序510还用于使得处理器502在将所述场景音频与所述第一多媒体内容进行合成，获得第二多媒体内容时，对所述场景音频和所述合成人声音频进行对齐处理；将对齐处理后的所述场景音频和所述合成人声音频进行混音，根据混音结果生成多媒体音频。

在一种可选的实施方式中，所述第一多媒体内容包括第一视频和根据所述语料文本生成的合成人声音频，所述第二多媒体内容包括第二视频。

在一种可选的实施方式中，程序510还用于使得处理器502在将所述场景音频与所述第一多媒体内容进行合成，获得第二多媒体内容时：根据所述语料文本获得第一视频和合成人声音频；将所述场景音频与所述合成人声音频进行合成，获得合成音频数据；将所述合成音频数据与所述第一视频进行合成，生成所述第二视频。

程序610中各步骤的具体实现可以参见上述数据处理方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

通过本实施例的电子设备，将背景音频合并入合成人声音频后，一方面，可以从一定程度上对这种不自然程度进行掩盖；另一方面，还能够使得用户将注意力转移至场景音频上，而忽略合成人声音频中不够自然的部分。由此，可以提升人机对话系统合成后的人声应答相对于用户的自然程度，提供用户对人机对话系统的使用体验。

需要指出，根据实施的需要，可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的数据处理方法。此外，当通用计算机访问用于实现在此示出的数据处理方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的数据处理方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

以上实施方式仅用于说明本发明实施例，而并非对本发明实施例的限制，有关技术领域的普通技术人员，在不脱离本发明实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明实施例的范畴，本发明实施例的专利保护范围应由权利要求限定。

Claims

1.一种数据处理方法，包括：

确定对输入的语音指令进行回复的回复文本；

获取与所述回复文本对应的场景音频，并将所述场景音频与根据所述回复文本生成的第一多媒体内容进行合成，获得第二多媒体内容；

通过播放所述第二多媒体内容，对所述输入的语音指令进行应答回复。

2.根据权利要求1所述的方法，其中，所述第一多媒体内容包括根据所述回复文本生成的合成人声音频，所述第二多媒体内容包括多媒体音频。

3.根据权利要求2所述的方法，其中，所述获取与所述回复文本对应的场景音频，并将所述场景音频与根据所述回复文本生成的第一多媒体内容进行合成，获得第二多媒体内容，包括：

获取与所述回复文本对应的场景音频，和，根据所述回复文本生成的合成人声音频；

对所述场景音频和所述合成人声音频进行对齐处理；

将对齐处理后的所述场景音频和所述合成人声音频进行混音，根据混音结果生成多媒体音频。

4.根据权利要求3所述的方法，其中，所述对所述场景音频和所述合成人声音频进行对齐处理，包括：

为所述合成人声音频设置播放前静音时长和播放后静音时长；

对所述场景音频和设置后的所述合成人声音频进行对齐处理。

5.根据权利要求3或4所述的方法，其中，所述场景音频包括背景音频；

所述将对齐处理后的所述场景音频和所述合成人声音频进行混音，包括：

设置所述背景音频在所述合成人声音频播放之前的第一时间段内，从原音量降低至第一音量播放，以及，设置所述背景音频在所述合成人声音频播放之后的第二时间段内恢复至原音量播放；

根据对齐处理的结果和设置后的所述背景音频，将所述场景音频和所述合成人声音频进行混音。

6.根据权利要求3或4所述的方法，其中，所述场景音频包括语声音频和背景音频；

设置所述语声音频在所述合成人声音频播放之前的第一时间段内，从原音量降低至第一音量播放，在所述语声音频播放完成后，将所述背景音频从原音量降低第二音量播放；以及，设置所述背景音频在所述合成人声音频播放之后的第二时间段内恢复至原音量播放；

根据对齐处理的结果和设置后的所述语声音频和所述背景音频，将所述场景音频和所述合成人声音频进行混音。

7.根据权利要求1-4任一项所述的方法，其中，所述获取与所述回复文本对应的场景音频，包括：

对所述回复文本进行特征提取，获取与特征提取结果对应的场景音频。

8.根据权利要求1-4任一项所述的方法，其中，所述方法还包括；

将所述第二多媒体内容与所述回复文本对应存储。

9.根据权利要求1所述的方法，其中，所述第一多媒体内容包括第一视频和根据所述回复文本生成的合成人声音频，所述第二多媒体内容包括第二视频。

10.根据权利要求9所述的方法，其中，所述将所述场景音频与根据所述回复文本生成的第一多媒体内容进行合成，获得第二多媒体内容，包括：

根据所述回复文本获得第一视频和合成人声音频；

将所述场景音频与所述合成人声音频进行合成，获得合成音频数据；

将所述合成音频数据与所述第一视频进行合成，生成所述第二视频。

11.一种数据处理方法，包括：

获取待处理的语料文本；

根据所述语料文本生成第一多媒体内容，并获取与所述语料文本对应的场景音频；

将所述场景音频与所述第一多媒体内容进行合成，获得第二多媒体内容；并将所述第二多媒体内容与所述语料文本对应存储。

12.根据权利要求11所述的方法，其中，所述第一多媒体内容包括根据所述语料文本生成的合成人声音频，所述第二多媒体内容包括多媒体音频。

13.根据权利要求12所述的方法，其中，所述将所述场景音频与所述第一多媒体内容进行合成，获得第二多媒体内容，包括：

对所述场景音频和所述合成人声音频进行对齐处理；

14.根据权利要求13所述的方法，其中，所述对所述场景音频和所述合成人声音频进行对齐处理，包括：

15.根据权利要求13或14所述的方法，其中，所述场景音频包括背景音频；

16.根据权利要求13或14所述的方法，其中，所述场景音频包括语声音频和背景音频；

17.根据权利要求11所述的方法，其中，所述第一多媒体内容包括第一视频和根据所述语料文本生成的合成人声音频，所述第二多媒体内容包括第二视频。

18.根据权利要求17所述的方法，其中，所述将所述场景音频与所述第一多媒体内容进行合成，获得第二多媒体内容，包括：

根据所述语料文本获得第一视频和合成人声音频；

19.一种数据处理装置，包括：

确定模块，用于确定对输入的语音指令进行回复的回复文本；

合成模块，用于获取与所述回复文本对应的场景音频，并将所述场景音频与根据所述回复文本生成的第一多媒体内容进行合成，获得第二多媒体内容；

回复模块，用于通过播放所述第二多媒体内容，对所述输入的语音指令进行应答回复。

20.一种数据处理装置，包括：

第一获取模块，用于获取待处理的语料文本；

第二获取模块，用于根据所述语料文本生成第一多媒体内容，并获取与所述语料文本对应的场景音频；

存储模块，用于将所述场景音频与所述第一多媒体内容进行合成，获得第二多媒体内容；并将所述第二多媒体内容与所述语料文本对应存储。

21.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-10中任一项或11-18中任一项所述的数据处理成方法对应的操作。

22.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-10中任一项或11-18中任一项所述的数据处理成方法。