CN111050201B

CN111050201B - 数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN111050201B
Application number: CN201911259536.4A
Authority: CN
Inventors: 宋阳
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2022-06-14
Anticipated expiration: 2039-12-10
Also published as: CN111050201A

Abstract

本发明实施例公开了一种数据处理方法、装置、电子设备及存储介质。其中，方法包括：采集视频流，从所述视频流中提取音频数据和视频数据；对所述音频数据进行切分，得到音频切分结果；对所述音频切分结果中各语音片段进行语音处理，得到相应语音片段对应的识别结果片段；将所述至少一个语音片段中各语音片段对应的识别结果片段，添加至从所述视频数据中确定的相应语音片段对应的视频片段；将至少一个添加有语音的视频片段和至少一个静音片段对应的视频片段合并，得到目标视频流；所述语音片段对应的视频片段用于在所述语音片段对应的识别结果片段被播放时进行呈现，所述静音片段对应的视频片段用于在所述静音片段被播放时进行呈现。

Description

数据处理方法、装置、电子设备及存储介质

技术领域

本发明涉及同声传译领域，尤其涉及一种数据处理方法、装置、电子设备及存储介质。

背景技术

随着人工智能(AI，Artificial Intelligence)技术不断发展与成熟，运用人工智能技术解决生活中常见问题的产品不断涌现。其中，机器同声传译(又称为机器同传、AI同声传译、AI同传)，结合了语音识别(ASR，Automatic Speech Recognition)、机器翻译(MT，Machine Translation)、语音合成(TTS，Text-To-Speech)等技术，被广泛应用于会议、访谈节目等场景，替代或部分替代了人工，实现同声传译(SI，Simultaneous Interpretation)。

相关机器同传系统中，应用于视频直播场景时，由于必须在演讲者说完一句话之后才能对所说的话进行翻译，导致图像和传译音频不同步，对于用户而言，音画不同步的呈现效果会给人眼睛和耳朵不一致的感觉，体验度不佳。

发明内容

为解决相关存在的技术问题，本发明实施例提供一种数据处理方法、装置、电子设备及存储介质。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种数据处理方法，包括：

采集视频流，从所述视频流中提取音频数据和视频数据；

对所述音频数据进行切分，得到音频切分结果；所述音频切分结果包括：至少一个语音片段、至少一个静音片段；

对所述音频切分结果中各语音片段进行语音处理，得到相应语音片段对应的识别结果片段；所述识别结果片段对应的语种与所述语音片段对应的语种不同；

将所述至少一个语音片段中各语音片段对应的识别结果片段，添加至从所述视频数据中确定的相应语音片段对应的视频片段；将至少一个添加有语音的视频片段和至少一个静音片段对应的视频片段合并，得到目标视频流；所述语音片段对应的视频片段用于在所述语音片段对应的识别结果片段被播放时进行呈现，所述静音片段对应的视频片段用于在所述静音片段被播放时进行呈现。

上述方案中，所述对所述音频数据进行切分，得到音频切分结果，包括：

对所述音频数据进行端点检测，根据检测得到的端点切分所述音频数据，得到至少一个片段；所述端点表征所述音频数据中语音片段和静音片段的分界点。

上述方案中，所述方法还包括：

确定所述音频切分结果中符合预设条件的语音片段；所述预设条件表征所述语音片段包含有语音内容；

所述对所述音频切分结果中各语音片段进行语音处理，包括：

对所述音频切分结果中各语音片段进行翻译，得到相应语音片段对应的识别结果片段。

上述方案中，所述对所述音频切分结果中各语音片段进行翻译，包括以下之一：

对所述音频切分结果中各语音片段进行语音识别，得到相应语音片段对应的识别文本；对所述识别文本进行文本翻译，得到翻译文本；根据所述翻译文本进行语音合成，得到相应语音片段对应的识别结果片段；

对所述音频切分结果中各语音片段进行语音翻译，得到相应语音片段对应的识别结果片段。

上述方案中，所述将所述至少一个语音片段中各语音片段对应的识别结果片段，添加至从所述视频数据中确定的相应语音片段对应的视频片段，包括：

根据所述音频切分结果中各片段的切分点，从所述视频数据中确定相应语音片段对应的视频片段；

根据所述至少一个语音片段中各语音片段对应的识别结果片段，对相应语音片段对应的视频片段添加语音。

上述方案中，所述根据所述音频切分结果中各片段的切分点，从所述视频数据中确定相应片段对应的视频片段，包括：

确定所述音频切分结果中各片段的切分点的时间信息；

根据所述切分点的时间信息和所述视频数据对应的时间轴，确定所述视频数据的视频切分点；

根据所述视频切分点，从所述视频数据中确定所述音频切分结果中各片段对应的视频片段。

上述方案中，所述将至少一个添加有语音的视频片段和至少一个静音片段对应的视频片段合并，得到目标视频流，包括：

根据所述至少一个添加有语音的视频片段中各片段的时间信息和所述至少一个静音片段对应的视频片段中各视频片段的时间信息，按照时间先后顺序将相应片段依次合并，得到目标视频流；所述时间信息表征相应片段对应于所述视频数据对应的时间轴的信息。

本发明实施例还提供一种数据处理装置，包括：

获取单元，用于采集视频流，从所述视频流中提取音频数据和视频数据；

第一处理单元，用于对所述音频数据进行切分，得到音频切分结果；所述音频切分结果包括：至少一个语音片段、至少一个静音片段；对所述音频切分结果中各语音片段进行语音处理，得到相应语音片段对应的识别结果片段；所述识别结果片段对应的语种与所述语音片段对应的语种不同；

第二处理单元，用于将所述至少一个语音片段中各语音片段对应的识别结果片段，添加至从所述视频数据中确定的相应语音片段对应的视频片段；将至少一个添加有语音的视频片段和至少一个静音片段对应的视频片段合并，得到目标视频流；所述语音片段对应的视频片段用于在所述语音片段对应的识别结果片段被播放时进行呈现，所述静音片段对应的视频片段用于在所述静音片段被播放时进行呈现。

本发明实施例还提供一种电子设备，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器用于运行所述计算机程序时，执行上述任一方法的步骤。

本发明实施例还提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方法的步骤。

本发明实施例提供的数据处理方法、装置、电子设备及存储介质，采集视频流，从所述视频流中提取音频数据和视频数据；对所述音频数据进行切分，得到音频切分结果；所述音频切分结果包括：至少一个语音片段、至少一个静音片段；对所述音频切分结果中各语音片段进行语音处理，得到相应语音片段对应的识别结果片段；所述识别结果片段对应的语种与所述语音片段对应的语种不同；将所述至少一个语音片段中各语音片段对应的识别结果片段，添加至从所述视频数据中确定的相应语音片段对应的视频片段；将至少一个添加有语音的视频片段和至少一个静音片段对应的视频片段合并，得到目标视频流；所述语音片段对应的视频片段用于在所述语音片段对应的识别结果片段被播放时进行呈现，所述静音片段对应的视频片段用于在所述静音片段被播放时进行呈现，如此，能够得到视频数据和同声传译后的语音数据同步的目标视频流；向用户提供音画同步的目标视频流，以提升用户体验。

附图说明

图1为相关技术中同声传译方法应用的系统架构示意图；

图2为本发明实施例的数据处理方法的一种流程示意图；

图3为本发明实施例的数据处理方法的另一种流程示意图；

图4为本发明实施例的音频数据处理方法的流程示意图；

图5为本发明实施例的视频数据处理方法的流程示意图；

图6为本发明实施例的数据处理装置的组成结构示意图；

图7为本发明实施例的电子设备的组成结构示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步详细的说明。

图1为相关技术中同声传译方法应用的系统架构示意图；如图1所示，所述系统可包括：机器同传服务端、终端、操作端、显示屏幕。所述终端可以为手机、平板电脑等，所述终端由用户持有；所述操作端可以采用个人电脑(PC，Personal Computer)等，所述PC可以为台式电脑、笔记本电脑、平板电脑等。

实际应用时，在演讲者进行会议演讲的过程中，操作端采集演讲者的视频流，将采集的视频流发送给机器同传服务端，所述机器同传服务端对视频流进行处理，得到识别结果；所述机器同传服务端可以将识别结果发送操作端，由所述操作端将识别结果投屏到显示屏幕上；还可以将识别结果发送给终端(具体依据用户所需的语种，对应发送相应语种的识别结果)，为用户展示识别结果，从而实现将演讲者的演讲内容翻译成用户需要的语种并进行展示。

实际应用时，上述机器同传服务器的功能也可以在终端上实现，即所述操作端采集演讲者的视频流，将所述视频流发送给用户持有的所述终端，由用户持有的所述终端对所述视频流进行处理，得到识别结果，并展示所述识别结果。

这里，所述操作端采集视频流，可以由所述操作端自身具有的语音采集模块、视频采集模块进行采集，得到视频流；也可以由所述操作端连接的语音采集模块、视频采集模块进行采集，得到视频流。

这里，所述对视频流进行处理，得到识别结果，包括：对视频流中的音频数据进行翻译，得到翻译后的音频数据。上述数据处理方法用于视频直播场景时，需在演讲者说完一句话之后，才能对演讲者所说的话进行翻译，得到翻译后的语音并进行播放，即上述翻译后的音频数据需要在演讲者每说完一句话后才能得到并进行播放，这就导致直播的图像和传译的音频不同步。

基于此，在本发明的各种实施例中，采集视频流，从所述视频流中提取音频数据和视频数据；对所述音频数据进行切分，得到音频切分结果；所述音频切分结果包括：至少一个语音片段、至少一个静音片段；对所述音频切分结果中各语音片段进行语音处理，得到相应语音片段对应的识别结果片段；所述识别结果片段对应的语种与所述语音片段对应的语种不同；将所述至少一个语音片段中各语音片段对应的识别结果片段，添加至从所述视频数据中确定的相应语音片段对应的视频片段；将至少一个添加有语音的视频片段和至少一个静音片段对应的视频片段合并，得到目标视频流；所述语音片段对应的视频片段用于在所述语音片段对应的识别结果片段被播放时进行呈现，所述静音片段对应的视频片段用于在所述静音片段被播放时进行呈现；如此，能够得到视频数据和同声传译后的语音数据同步的目标视频流，从而可以向用户提供音画同步的目标视频流，以提升用户体验。

本发明实施例提供了一种数据处理方法，图2为本发明实施例的数据处理方法的一种流程示意图；如图2所示，所述方法包括：

步骤201：采集视频流，从所述视频流中提取音频数据和视频数据；

步骤202：对所述音频数据进行切分，得到音频切分结果；

这里，所述音频切分结果包括：至少一个语音片段、至少一个静音片段；

步骤203：对所述音频切分结果中各语音片段进行语音处理，得到相应语音片段对应的识别结果片段；

这里，所述识别结果片段对应的语种与所述语音片段对应的语种不同；

步骤204：将所述至少一个语音片段中各语音片段对应的识别结果片段，添加至从所述视频数据中确定的相应语音片段对应的视频片段；将至少一个添加有语音的视频片段和至少一个静音片段对应的视频片段合并，得到目标视频流；所述语音片段对应的视频片段用于在所述语音片段对应的识别结果片段被播放时进行呈现，所述静音片段对应的视频片段用于在所述静音片段被播放时进行呈现。

这里，得到的所述目标视频流用于在采集视频流时进行呈现，也就是说在采集所述视频流的同时呈现所述目标视频流；即所述数据处理方法可以应用于同声传译场景。

所述同声传译场景可以采用如图1所示系统架构，本发明实施例的数据处理方法可以应用于电子设备，所述电子设备可以是在图1系统架构中新增加的设备，也可以是对图1架构中某一设备进行改进，以能够实现本发明实施例的方法即可。所述电子设备可以是服务器、用户持有的终端等。

所述视频流可以由操作端采集并发送给所述电子设备，所述操作端可以是上述PC。

具体来说，实际应用时，所述电子设备可以为服务器，所述服务器接收操作端发送的视频流，运用本发明实施例提供的数据处理方法得到目标视频流；所述服务器可以将所述目标视频流投屏到显示屏幕，通过所述显示屏幕显示所述目标视频流；或者，所述服务器将所述目标视频流发送给用户持有的终端，所述目标视频流通过所述用户持有的终端进行呈现；

所述电子设备还可以为具有或连接有人机交互界面的服务器，所述目标视频流可以由所述服务器的人机交互界面进行呈现。

这里，所述服务器可以是在图1系统架构中新增加的服务器，用于实现本发明方法(即图2所示方法)，也可以是对图1架构中所述机器同传服务器进行改进，以实现本发明方法即可。

所述电子设备也可以为用户持有的终端，所述用户持有的终端可以接收视频流(所述视频流可以由操作端直接发送给所述用户持有的终端，也可以是通过服务器发送给所述用户持有的终端)，运用本发明实施例提供的方法得到目标视频流，并且通过自身具有的人机交互界面显示所述目标视频流。

这里，所述用户持有的终端可以是在图1系统架构中新增加的可实现本发明方法的终端，也可以是对图1架构中所述终端进行改进，以实现本发明方法即可。这里，所述用户持有的终端可以为PC、手机等。

具体来说，在会议的同声传译场景下，演讲者进行演讲时，操作端(如PC)可以设有或者连接有图像采集模块和语音采集模块；所述图像采集模块可以为摄像机，所述语音采集模块可以为麦克风；当所述摄像机同时具有录音功能时，所述摄像机可以同时作为图像采集模块和语音采集模块；所述操作端通过所述图像采集模块和语音采集模块采集视频流，并将所述视频流发送给所述服务器或者用户持有的终端。

需要说明的是，实际应用时，在同声传译场景下，随着演讲的进行，视频流将不断变化，所述目标视频流也随着视频流的变化而不断变化。

实际应用时，针对音频数据对应的各个片段，仅需对包含语音内容的片段进行语音处理，而对于不包含语音内容的片段无需进行语音处理，从而需要先从音频数据包含的各个片段中确定出包含语音内容的片段。

基于此，在一实施例中，所述方法还可以包括：

确定所述音频切分结果中符合预设条件的语音片段；所述预设条件表征所述语音片段包含有语音内容。

这里，所述确定所述音频切分结果中符合预设条件的语音片段，可以包括：

对所述音频切分结果中各片段进行音量检测，确定音量超过预设音量阈值的片段，作为所述语音片段。

其中，实际应用时，所述预设音量阈值可以由开发人员预先设定并保存在电子设备中。

这里，所述对所述音频切分结果中各语音片段进行语音处理，包括：

这里，所述识别结果片段的语种与所述语音片段的语种不同，所述识别结果片段可以对应有至少一种语种。

通过上述步骤，确定出音频数据中的语音片段并进行语音处理，而对于静音片段不进行任何处理，可以节约处理时间，提高处理效率。

在一实施例中，所述对所述音频切分结果中各语音片段进行翻译，得到相应语音片段对应的识别结果片段，包括以下之一：

这里，提供两种翻译方法，一种是通过得到语音片段对应的识别文本，运用预设的文本翻译模型对识别文本进行翻译，得到翻译文本，再根据得到的翻译文本生成翻译后的语音，作为识别结果片段；另一种，可以采用预设的语音翻译模型，直接对语音片段进行翻译，得到识别结果片段。实际应用时，可以采用上述任意一种方式，这里不做限定。

其中，所述文本翻译模型用于将一种语种的文本翻译为另一种语种的文本。

所述语音翻译模型用于将一种语种的语音翻译为另一种语种的语音。

实际应用时，为了可以对音频数据中的语音片段和静音片段分别进行不同的处理，需先对音频数据进行切分，得到音频切分结果，再从音频切分结果中确定语音片段和静音片段。

基于此，在一实施例中，所述对所述音频数据进行切分，得到音频切分结果，包括：

对所述音频数据进行端点检测(VAD，Voice Activity Detection)，根据检测得到的端点切分所述音频数据，得到至少一个片段，作为所述音频切分结果；

这里，所述端点表征所述音频数据中语音片段和静音片段的分界点。

实际应用时，为了保证能够为用户呈现音画同步的目标视频流，需要保证目标视频流中的语音和画面对应，从而这里需要确定与音频切分结果中各片段对应的视频片段。

基于此，在一实施例中，所述将所述至少一个语音片段中各语音片段对应的识别结果片段，添加至从所述视频数据中确定的相应语音片段对应的视频片段，包括：

根据所述音频切分结果中各片段的切分点，从所述视频数据中确定相应片段对应的视频片段；

在一实施例中，所述根据所述音频切分结果中各片段的切分点，从所述视频数据中确定相应片段对应的视频片段，包括：

确定所述音频切分结果中各片段的切分点的时间信息；

根据所述视频切分点，从所述视频数据中确定所述音频切分结果中各片段(具体可以包括至少一个语音片段、至少一个静音片段)对应的视频片段。

这里，所述时间信息表征音频切分结果中各片段对应于所述音频数据对应的时间轴中的信息。

具体来说，音频数据和视频数据均从采集的视频流中获得，两者的时间轴应相同，即两者的时间轴为同一时间轴。从而，根据所述音频切分结果中各片段的切分点的时间信息和所述视频数据对应的时间轴，可以确定所述视频数据的视频切分点，并且切分得到的视频片段与相应音频切分结果中某一片段的时间信息应一致，即两者对应。

举例来说，音频数据切分后得到音频片段A、音频片段B、音频片段C；

音频片段A的起始时间和结束时间分别为12:0:00(12时0分0秒)、12:1:00(12时1分0秒)；

音频片段B的起始时间和结束时间分别为12:1:00(12时1分0秒)、12:1:30(12时1分30秒)；

音频片段C的起始时间和结束时间分别为12:1:30(12时1分30秒)、12:2:30(12时2分30秒)；

相应地，视频数据切分后得到视频片段a、视频片段b、视频片段c；

视频片段a、视频片段b、视频片段c的起始时间和结束时间分别与音频片段A、音频片段B、音频片段C中的一个相同，例如：

视频片段a的起始时间和结束时间与音频片段A的起始时间和结束时间相同；

视频片段b的起始时间和结束时间与音频片段B的起始时间和结束时间相同；

视频片段c的起始时间和结束时间与音频片段C的起始时间和结束时间相同。

在一实施例中，所述将至少一个添加有语音的视频片段和至少一个静音片段对应的视频片段合并，得到目标视频流；包括：

根据所述至少一个添加有语音的视频片段中各片段的时间信息和所述至少一个静音片段对应的视频片段的时间信息，按照时间先后顺序将相应片段依次合并，得到目标视频流；所述时间信息表征相应片段对应于所述视频数据对应的时间轴的时间。

举例来说，所述至少一个添加有语音的视频片段，可以包括：视频片段一、视频片段二；所述至少一个静音片段对应的视频片段，可以包括：视频片段三、视频片段四；

所述视频片段一的时间信息，包括：起始时间和结束时间分别为11:0:00(11时0分0秒)、11:1:00(11时1分0秒)；

所述视频片段三的时间信息，包括：起始时间和结束时间分别为11:1:00(11时1分0秒)、11:1:30(11时1分30秒)；

所述视频片段二的时间信息，包括：起始时间和结束时间分别为11:1:30(11时1分30秒)、11:2:30(11时2分30秒)；

所述视频片段四的时间信息，包括：起始时间和结束时间分别为11:2:30(11时2分30秒)、11:3:30(11时3分30秒)；

按照时间先后顺序将相应片段依次合并，得到目标视频流，包括：将所述视频片段一、视频片段三、视频片段二、视频片段四依次合并，得到目标视频流。

实际应用时，考虑到目标视频流面向多个终端，需要对多个终端发送目标视频流，为保证向多个终端同时发送目标视频流的时效性，可以采用缓存的方式。需发送时服务器直接从缓存中获取相应结果，可以保证目标视频流下发的高时效性，还可以保护服务器计算资源。

基于此，在一实施例中，利用所述语音片段获得的识别结果片段对应至少一种语种；所述方法还包括：

将至少一种语种的识别结果片段，按语种进行分类缓存。

实际应用时，为了提供符合用户需求的语种对应的目标视频流，可以根据用户通过终端发送的获取请求，获取相应语种的目标视频流。

基于此，在一实施例中，所述电子设备为服务器，所述方法还可以包括：

接收终端发送的获取请求；所述获取请求包括目标语种；

从各语音片段对应的至少一种语种的识别结果片段中，确定各语音片段对应的目标语种对应的识别结果片段；

基于各语音片段对应的所述目标语种对应的识别结果片段，得到目标语种对应的目标视频流；

将所述目标语种对应的目标视频流发送给所述终端。

这里，所述终端可以设有人机交互界面，持有终端的用户通过人机交互界面可以选择语种，终端根据用户的选择生成包含目标语种的获取请求，并将获取请求发送给服务器，从而所述服务器接收所述获取请求。

所述终端可以为手机；这是考虑到目前绝大多数用户都会随身携带手机，将目标视频流发送到手机上，无需再增加其他设备来接收并展示目标视频流，可以节约成本，且操作方便。

实际应用时，所述电子设备还可以是自身连接或设有人机交互界面的服务器，用户预先通过人机交互界面设置语种，所述服务器获取视频流并执行本发明实施例提供的数据处理方法，从而得到预先设置的语种对应的目标视频流，并通过自身连接或设有的人机交互界面呈现目标视频流。当然，所述服务器还可以连接有显示屏幕，则所述服务器运用投屏技术将目标视频流投屏到显示屏幕进行呈现。

实际应用时，所述电子设备也可以是用户持有的终端，持有终端的用户可以预先通过终端的人机交互界面设置语种，所述用户持有的终端对视频流进行数据处理，得到预先设置的语种对应的目标视频流，通过人机交互界面呈现识目标视频流。

应理解，上述实施例中说明各步骤的顺序并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

本发明实施例提供的数据处理方法，采集视频流，从所述视频流中提取音频数据和视频数据；对所述音频数据进行切分，得到音频切分结果；对所述音频切分结果中各语音片段进行语音处理，得到相应语音片段对应的识别结果片段；将所述至少一个语音片段中各语音片段对应的识别结果片段，添加至从所述视频数据中确定的相应语音片段对应的视频片段；将至少一个添加有语音的视频片段和至少一个静音片段对应的视频片段合并，得到目标视频流；所述语音片段对应的视频片段用于在所述语音片段对应的识别结果片段被播放时进行呈现，所述静音片段对应的视频片段用于在所述静音片段被播放时进行呈现；如此，可以对视频流中各语音片段进行翻译后，再将语音片段与语音片段对应的视频片段对应输出，即向用户呈现视频数据和同声传译后的语音数据同步的目标视频流，提高用户体验。

图3为本发明实施例的数据处理方法的另一种流程示意图；所述数据处理方法可以应用于电子设备，如图3所示，所述数据处理方法，包括：

步骤301：采集视频流；

这里，所述数据处理方法应用于电子设备；所述电子设备通过连接的数据采集设备实时采集视频流；所述数据采集设备可以包括：图像采集模块、语音采集模块；所述图像采集模块可以为摄像机，所述语音采集模块可以为麦克风；当所述摄像机同时具有录音功能时，所述摄像机可以同时作为图像采集模块和语音采集模块。

步骤302：从所述视频流中提取视频数据和音频数据；

步骤303：对音频数据进行语音处理，得到处理后的音频数据，保存于队列A中。

这里，所述对音频数据进行语音处理，包括：

对所述音频数据进行端点检测，确定所述音频数据中的端点；所述端点为静音和非静音的边界点；

根据所述端点对所述音频数据进行切分，得到至少一个音频片段；

针对每个音频片段，判断所述音频片段为静音片段或非静音片段；确定所述音频片段为静音片段时，对所述静音片段不作处理；确定所述音频片段为非静音片段时，对所述非静音片段进行翻译，得到其他语种的语音片段；

将处理后的非静音片段(具体指得到的其他语种的语音片段)和不做处理的静音片段，按顺序保存在队列A中。

这里，所述按顺序保存在队列A中，指按照相应片段的时间先后顺序，依次保存在队列A中。

举例来说，对音频数据进行语音处理，得到音频片段D、音频片段E、音频片段F；音频片段D、音频片段E、音频片段F可以是上述其他语种的语音片段，也可以是静音片段；

音频片段D的起始时间和结束时间分别为1:0:00(1时0分0秒)、1:1:00(1时1分0秒)；

音频片段E的起始时间和结束时间分别为1:1:00(1时1分0秒)、1:1:30(1时1分30秒)；

音频片段F的起始时间和结束时间分别为1:1:30(1时1分30秒)、1:2:30(1时2分30秒)；

则，保存在队列A中的片段的先后顺序为：音频片段D、音频片段E、音频片段F；相应地，队列A中各片段的输出顺序(即播放顺序)为音频片段D、音频片段E、音频片段F。

这里，所述对所述非静音片段进行语音翻译，包括：

对所述非静音片段进行语音识别，得到识别文本；对所述识别文本进行机器翻译，得到翻译文本；再对所述翻译文本进行语音合成，获得其他语种的语音片段。

所述对所述非静音片段进行语音翻译，也可以采用预设的语音翻译模型，直接对语音片段进行翻译，得到其他语种的语音片段。

步骤304：对于所述视频数据，按音频数据的切分方式对应进行切分，得到至少一个视频片段，将所述视频片段保存在队列B中。

具体来说，所述步骤304，包括：

确定所述音频数据的音频切分点；

基于所述音频数据对应的音频时间轴，确定所述音频切分点的时间信息；

根据所述音频切分点的时间信息和所述视频数据对应的视频时间轴，确定所述视频数据的视频切分点；

根据所述视频切分点对所述视频数据进行切分，得到至少一个视频片段；

按照各个视频片段对应的时间信息，将各个视频片段按顺序保存在队列B中。

与保存在队列A中的音频片段(这里指上述其他语种的语音片段、静音片段)相似，队列B中的各个视频片段按照时间先后顺序进行保存，从而队列A中的音频片段与队列B中的视频片段存在对应关系；例如：队列A中的第一个音频片段与队列B中的第一视频片段对应；队列A中的第二个音频片段与队列B中的第二视频片段对应；依次类推，每个音频片段对应有一个视频片段。

步骤305：将队列A和队列B中片段同时弹出，组合成至少一个视频流片段。

具体来说，所述将队列A和队列B中片段同时弹出指将队列A中的片段与相应片段在队列B中对应的视频片段同时进行呈现。

这里，所述将队列A和队列B中片段同时弹出，组合成至少一个视频流片段可以包括：

根据所述至少一个非静音片段中各非静音片段对应的翻译后的语音片段，对相应非静音片段对应的视频片段添加语音，得到相应非静音片段对应的视频流片段。

步骤306：将至少一个视频流片段进行合并，得到目标视频流；将所述目标视频流发送给显示设备进行呈现。

这里，所述将至少一个视频流片段进行合并时，需基于所述至少一个视频流片段中各视频流片段对应的时间，按先后顺序进行合并，即可以将至少一个添加有语音的视频片段和至少一个静音片段对应的视频片段，按时间先后顺序进行合并，得到目标视频流；或者，也可以直接将至少一个视频流片段中各视频流片段按时间先后顺序依次发送给显示设备进行呈现。

这里，本发明实施例中的数据处理方法可以应用于电子设备；所述电子设备可以为服务器、用户持有的终端。

当所述电子设备为服务器时，所述显示设备可以为显示屏幕，即所述服务器将所述目标视频流投屏到显示屏幕上进行呈现；所述显示设备也可以为用户持有的终端，所述服务器将所述目标视频流发送给用户持有的终端，由用户持有的终端进行呈现。

当所述电子设备为用户持有的终端时，所述显示设备可以为用户持有的终端自身；即所述用户持有的终端运用上述数据处理方法对视频流进行处理得到目标视频流，并通过自身的人机交互设备进行呈现。

图4为本发明实施例的音频数据处理方法的流程示意图；所述音频数据处理方法可以应用于电子设备，如图4所示，所述音频数据处理方法，包括：

步骤401：对所述音频数据进行端点检测，确定所述音频数据中的端点；

这里，所述端点为静音和非静音的边界点；

步骤402：根据所述端点对所述音频数据进行切分，得到至少一个音频片段；

步骤403：针对每个音频片段，判断所述音频片段为静音片段或非静音片段；确定所述音频片段为静音片段时，则进入步骤404；确定所述音频片段为非静音片段时，则进入步骤405；

步骤404：对所述静音片段不作处理；

步骤405：对所述非静音片段进行语音翻译，得到其他语种的语音片段，作为识别结果片段；

这里，所述对所述非静音片段进行语音翻译，可以包括：对非静音片段进行语音识别，得到识别文本；对所述识别文本进行机器翻译，得到翻译文本；再对所述翻译文本进行语音合成，获得其他语种的语音片段。

这里，为了保证获得的其他语种的语音片段与所述其他语种的语音片段对于的非静音片段的时长相同，针对获得的其他语种的语音片段还需进行语音长度调整。所述语音长度调整，包括：

确定所述其他语种的语音片段对应的原始的非静音片段的第一时间长度；

将所述其他语种的语音片段对应的第二时间长度与所述第一时间长度进行比较；

所述第一时间长度小于所述第二时间长度时，对所述其他语种的语音片段进行语速调整，具体指提高语速，使得提高语速后的所述其他语种的语音片段的时间长度等于第一时间长度；

所述第一时间长度大于所述第二时间长度时，对所述其他语种的语音片段进行语速调整，具体指降低语速，使得降低语速后的所述其他语种的语音片段的时间长度等于第一时间长度。

步骤406：将各非静音片段对应的识别结果片段和各静音片段按顺序保存在队列A中。

这里，所述按顺序保存在队列A中，指按照相应片段的时间先后顺序依次保存在队列A中。

举例来说，针对音频片段D、音频片段E、音频片段F；

保存在队列A中的片段的先后顺序为：音频片段D、音频片段E、音频片段F；相应地，队列A中各片段的输出顺序(即播放顺序)为音频片段D、音频片段E、音频片段F。

这里，所述音频片段D、音频片段E、音频片段F可以是非静音片段对应的识别结果片段，也可以是静音片段。

图5为本发明实施例的视频数据处理方法的流程示意图；所述视频数据处理方法可以应用于电子设备，如图5所示，所述视频数据处理方法，包括：

步骤501：确定所述音频数据的音频切分点；

步骤502：基于所述音频数据对应的音频时间轴，确定所述音频切分点的时间信息；

步骤503：根据所述音频切分点的时间信息和所述视频数据对应的视频时间轴，确定所述视频数据的视频切分点；

步骤504：根据所述视频切分点对所述视频数据进行切分，得到至少一个视频片段；

步骤505：按照各个视频片段对应的时间信息，将各个视频片段按顺序保存在队列B中。

这里，与保存在队列A中的音频片段相似，队列B中的各个视频片段按照时间先后顺序进行保存，从而队列A中的音频片段与队列B中的视频片段存在对应关系；例如：队列A中的第一个音频片段与队列B中的第一视频片段对应；队列A中的第二个音频片段与队列B中的第二视频片段对应；依次类推，每个音频片段对应有一个视频片段。

为实现本发明实施例的数据处理方法，本发明实施例还提供了一种数据处理装置。图6为本发明实施例的数据处理装置的组成结构示意图；如图6所示，所述数据处理装置包括：

获取单元61，用于采集视频流，从所述视频流中提取音频数据和视频数据；

第一处理单元62，用于对所述音频数据进行切分，得到音频切分结果；所述音频切分结果包括：至少一个语音片段、至少一个静音片段；对所述音频切分结果中各语音片段进行语音处理，得到相应语音片段对应的识别结果片段；所述识别结果片段对应的语种与所述语音片段对应的语种不同；

第二处理单元63，用于将所述至少一个语音片段中各语音片段对应的识别结果片段，添加至从所述视频数据中确定的相应语音片段对应的视频片段；将至少一个添加有语音的视频片段和至少一个静音片段对应的视频片段合并，得到目标视频流；

其中，所述语音片段对应的视频片段用于在所述语音片段对应的识别结果片段被播放时进行呈现，所述静音片段对应的视频片段用于在所述静音片段被播放时进行呈现。

在一实施例中，所述第一处理单元62，用于对所述音频数据进行端点检测，根据检测得到的端点切分所述音频数据，得到至少一个片段；所述端点表征所述音频数据中语音片段和静音片段的分界点。

在一实施例中，所述第一处理单元62，用于确定所述音频切分结果中符合预设条件的语音片段；所述预设条件表征所述语音片段包含有语音内容；

在一实施例中，所述第一处理单元62，用于对所述音频切分结果中各语音片段进行翻译，包括以下之一：

在一实施例中，所述第二处理单元63，用于根据所述音频切分结果中各片段的切分点，从所述视频数据中确定相应片段对应的视频片段；

在一实施例中，所述第二处理单元63，具体用于确定所述音频切分结果中各片段的切分点的时间信息；

在一实施例中，所述第二处理单元63，用于根据所述至少一个添加有语音的视频片段中各片段的时间信息和所述至少一个静音片段对应的视频片段中各视频片段的时间信息，按照时间先后顺序将相应片段依次合并，得到目标视频流；所述时间信息表征相应片段对应于所述视频数据对应的时间轴的信息。

实际应用时，所述获取单元61、所述第一处理单元62、所述第二处理单元63均可由所述电子设备(如服务器、用户持有的终端)中的处理器，比如中央处理器(CPU，CentralProcessing Unit)、数字信号处理器(DSP，Digital Signal Processor)、微控制单元(MCU，Microcontroller Unit)或可编程门阵列(FPGA，Field－Programmable Gate Array)等实现。

需要说明的是：上述实施例提供的装置在进行数据处理时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将终端的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的装置与数据处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

基于上述设备的硬件实现，本发明实施例还提供了一种电子设备，图7为本发明实施例的电子设备的硬件组成结构示意图，如图7所示，电子设备70包括存储器73、处理器72及存储在存储器73上并可在处理器72上运行的计算机程序；位于电子设备的处理器72执行所述程序时实现上述电子设备侧一个或多个技术方案提供的方法。

具体地，位于电子设备70的处理器72执行所述程序时实现：采集视频流，从所述视频流中提取音频数据和视频数据；

需要说明的是，位于电子设备70的处理器72执行所述程序时实现的具体步骤已在上文详述，这里不再赘述。

可以理解，电子设备还包括通信接口71；电子设备中的各个组件通过总线系统74耦合在一起。可理解，总线系统74配置为实现这些组件之间的连接通信。总线系统74除包括数据总线之外，还包括电源总线、控制总线和状态信号总线等。

可以理解，存储器73可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random AccessMemory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

上述本发明实施例揭示的方法可以应用于处理器72中，或者由处理器72实现。处理器72可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器72中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器72可以是通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器72可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器，处理器72读取存储器中的信息，结合其硬件完成前述方法的步骤。

本发明实施例还提供了一种存储介质，具体为计算机存储介质，更具体的为计算机可读存储介质。其上存储有计算机指令，即计算机程序，该计算机指令被处理器执行时上述电子设备侧一个或多个技术方案提供的方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的方法和智能设备，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本发明实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个第二处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是：“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

另外，本发明实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种数据处理方法，其特征在于，包括：

采集视频流，从所述视频流中提取音频数据和视频数据；

对所述音频数据进行切分，得到音频切分结果；所述音频切分结果包括：至少一个语音片段、至少一个静音片段；所述至少一个语音片段中的每个语音片段表征包含语音内容的片段；所述至少一个静音片段中的每个静音片段表征不包含语音内容的片段；其中，所述对所述音频数据进行切分，得到音频切分结果，包括：对所述音频数据进行端点检测，根据检测得到的端点切分所述音频数据，得到至少一个片段；所述端点表征所述音频数据中语音片段和静音片段的分界点；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述音频切分结果中各语音片段进行翻译，包括以下之一：

4.根据权利要求1所述的方法，其特征在于，所述将所述至少一个语音片段中各语音片段对应的识别结果片段，添加至从所述视频数据中确定的相应语音片段对应的视频片段，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述音频切分结果中各片段的切分点，从所述视频数据中确定相应片段对应的视频片段，包括：

确定所述音频切分结果中各片段的切分点的时间信息；

6.根据权利要求1或4所述的方法，其特征在于，所述将至少一个添加有语音的视频片段和至少一个静音片段对应的视频片段合并，得到目标视频流，包括：

7.一种数据处理装置，其特征在于，包括：

第一处理单元，用于对所述音频数据进行切分，得到音频切分结果；所述音频切分结果包括：至少一个语音片段、至少一个静音片段；所述至少一个语音片段中的每个语音片段表征包含语音内容的片段；所述至少一个静音片段中的每个静音片段表征不包含语音内容的片段；对所述音频切分结果中各语音片段进行语音处理，得到相应语音片段对应的识别结果片段；所述识别结果片段对应的语种与所述语音片段对应的语种不同；其中，所述对所述音频数据进行切分，得到音频切分结果，包括：对所述音频数据进行端点检测，根据检测得到的端点切分所述音频数据，得到至少一个片段；所述端点表征所述音频数据中语音片段和静音片段的分界点；

8.一种电子设备，其特征在于，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器用于运行所述计算机程序时，执行上述权利要求1至6任一项所述方法的步骤。

9.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述权利要求1至6任一项所述方法的步骤。