CN111160051B

CN111160051B - 数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN111160051B
Application number: CN201911330536.9A
Authority: CN
Inventors: 宋阳
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2024-01-26
Anticipated expiration: 2039-12-20
Also published as: CN111160051A

Abstract

本发明公开了一种数据处理方法、装置、电子设备及存储介质。其中，方法包括：获取待处理数据；对所述待处理数据中的语音数据进行分段处理，得到至少两个语音段；并对所述待处理数据中的图像数据进行分段处理，得到至少两个图像段；针对所述至少两个语音段中每个语音段，对所述至少两个图像段中的与相应语音段对应的图像段进行图像识别，得到识别结果；并确定与所述识别结果匹配的表情符号；对所述至少两个语音段进行翻译，得到至少两个翻译文本；利用所述至少两个图像段中每个图像段对应的表情符号和所述至少两个翻译文本，生成同传结果；输出所述同传结果；所述同传结果用于在播放所述语音数据时在客户端进行呈现。

Description

数据处理方法、装置、电子设备及存储介质

技术领域

本发明涉及同声传译技术，具体涉及一种数据处理方法、装置、电子设备及存储介质。

背景技术

机器同传技术是近些年出现的针对会议、报告等场景的语音翻译产品，其结合自动语音识别技术(ASR，Automatic Speech Recognition)技术和机器翻译(MT，MachineTranslation)技术，为演讲者的演讲内容提供多语种的字幕展现，替代人工同传服务。

相关机器同传技术中，通常对演讲内容进行翻译，并通过文字进行展示，展示方式较单调，无法提高用户的观看趣味。

发明内容

有鉴于此，本发明实施例提供一种数据处理方法、装置、电子设备及存储介质。

本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种数据处理方法，包括：

获取待处理数据；

对所述待处理数据中的语音数据进行分段处理，得到至少两个语音段；并对所述待处理数据中的图像数据进行分段处理，得到至少两个图像段；

针对所述至少两个语音段中每个语音段，对所述至少两个图像段中的与相应语音段对应的图像段进行图像识别，得到识别结果；并确定与所述识别结果匹配的表情符号；

对所述至少两个语音段进行翻译，得到至少两个翻译文本；

利用所述至少两个图像段中每个图像段对应的表情符号和所述至少两个翻译文本，生成同传结果；

输出所述同传结果；所述同传结果用于在播放所述语音数据时在客户端进行呈现。

上述方案中，所述对所述待处理数据中的语音数据进行分段处理，得到至少两个语音段；并对所述待处理数据中的图像数据进行分段处理，得到至少两个图像段，包括：

对所述待处理数据中的语音数据进行识别，得到识别文本；对所述识别文本进行字符识别，得到至少一个字符；

按照所述至少一个字符，确定至少一个时间锚点；

利用所述至少一个时间锚点，对所述待处理数据中的语音数据进行分段处理，得到至少两个语音段；并对所述待处理数据中的图像数据进行分段处理，得到至少两个图像段。

上述方案中，所述对所述至少两个图像段中的与相应语音段对应的图像段进行图像识别，得到识别结果，包括：

对所述至少两个图像段中的与相应语音段对应的图像段进行特征提取，得到第一特征数据；

基于所述第一特征数据，以及面部识别模型，得到用户表情；

将所述用户表情作为所述识别结果。

上述方案中，所述确定与所述识别结果匹配的表情符号，包括：

确定所述识别结果对应的用户表情的第一标识信息；

从数据库中查找与所述第一标识信息对应的表情符号；所述数据库中存储有用户表情的标识信息与表情符号的对应关系；

将查找到的表情符号作为与所述识别结果匹配的表情符号。

上述方案中，生成同传结果时，所述方法还包括：

判断所述至少两个图像段中的每个图像段对应的表情符号是否与预设表情符号相匹配；

当所述至少两个图像段中的每个图像段对应的表情符号与预设表情符号匹配时，利用所述至少两个图像段中每个图像段对应的表情符号和所述至少两个翻译文本，生成同传结果。

上述方案中，所述输出同传结果，包括：

将所述同传结果发送至客户端关联的显示屏幕；所述同传结果用于所述客户端将所述表情符号放置在所述翻译文本的特定位置在显示屏幕进行显示。

上述方案中，所述输出同传结果，包括：

对所述同传结果进行语音合成，合成同声传译数据；

将合成的同声传译数据发送给客户端；所述同声传译数据用于所述客户端将所述表情符号放置在所述翻译文本的特定位置进行播放。

本发明实施例还提供了一种数据处理装置，包括：

获取单元，用于获取待处理数据；

第一处理单元，用于对所述待处理数据中的语音数据进行分段处理，得到至少两个语音段；并对所述待处理数据中的图像数据进行分段处理，得到至少两个图像段；

第二处理单元，用于针对所述至少两个语音段中每个语音段，对所述至少两个图像段中的与相应语音段对应的图像段进行图像识别，得到识别结果；并确定与所述识别结果匹配的表情符号；

第三处理单元，用于对所述至少两个语音段进行翻译，得到至少两个翻译文本；以及利用所述至少两个图像段中每个图像段对应的表情符号和所述至少两个翻译文本，生成同传结果；

输出单元，用于输出所述同传结果；所述同传结果用于在播放所述语音数据时在客户端进行呈现。

本发明实施例还提供了一种电子设备，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器；

其中，所述处理器用于运行所述计算机程序时，执行上述任一方法的步骤。

本发明实施例还提供了一种存储介质，所述介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方法的步骤。

本发明实施例提供的数据处理方法、装置、电子设备及存储介质，获取待处理数据；对所述待处理数据中的语音数据进行分段处理，得到至少两个语音段；并对所述待处理数据中的图像数据进行分段处理，得到至少两个图像段；针对所述至少两个语音段中每个语音段，对所述至少两个图像段中的与相应语音段对应的图像段进行图像识别，得到识别结果；并确定与所述识别结果匹配的表情符号；对所述至少两个语音段进行翻译，得到至少两个翻译文本；利用所述至少两个图像段中每个图像段对应的表情符号和所述至少两个翻译文本，生成同传结果；输出所述同传结果；所述同传结果用于在播放所述语音数据时在客户端进行呈现。采用本发明实施例的技术方案，不仅可以将演讲内容展示给听众，还可以让听众感知到演讲者演讲时的情绪，能让听众理解到演讲者的情绪感受，能够激起用户的观看趣味，使不同语种的用户深刻理解演讲者的演讲内容。

附图说明

图1是相关技术中机器同传翻译系统的架构示意图；

图2是本发明实施例数据处理方法的实现流程示意图；

图3是本发明实施例确定每个图像段对应的表情符号的一种实现流程示意图；

图4是本发明实施例演讲者的面部表情的一种示意图；

图5是本发明实施例确定每个图像段对应的表情符号的又一种实现流程示意图；

图6是本发明实施例演讲者的面部表情的又一种示意图；

图7是本发明实施例生成同传结果的一种实现流程示意图；

图8是本发明实施例对同传结果进行展示的一种示意图；

图9是本发明实施例生成同传结果的又一种实现流程示意图；

图10是本发明实施例对同传结果进行展示的又一种示意图；

图11是本发明实施例数据处理装置的组成结构示意图；

图12是本发明实施例电子设备的组成结构示意图。

具体实施方式

在对本发明实施例的技术方案进行详细说明之前，首先对相关技术中的同声传译方法应用的系统进行说明。

实际应用时，同声传译方法可以应用在机器同传翻译系统中。图1是相关技术中机器同传翻译系统的架构示意图；如图1所示，所述系统可包括：机器同传服务端、语音识别服务器、翻译服务器、移动端下发服务器、观众移动端、个人计算机(PC，Personal Computer)客户端、显示屏幕。

实际应用中，演讲者可以通过PC客户端进行会议演讲，在进行会议演讲的过程中，PC客户端采集演讲者的音频，将采集的音频发送给机器同传服务端，所述机器同传服务端通过语音识别服务器对音频数据进行识别，得到识别文本，再通过翻译服务器对所述识别文本进行翻译，得到翻译结果；机器同传服务端将翻译结果发送给PC客户端，并且通过移动端下发服务器将翻译结果发送给观众移动端，为用户展示翻译结果，从而实现将演讲者的演讲内容翻译成用户需要的语种并进行展示。

相关技术中的机器同传翻译系统可展示不同语种的演讲内容(即翻译结果)，但是仅针对演讲者口述内容进行同传，演讲者演讲时的情绪无法获知，使不同语种的用户很难深刻理解演讲者的演讲内容，演讲内容的展示仍存在缺点；且针对演讲内容，更多的也是直接对翻译后的文字进行展示，文字展示方式单调，无法激起用户的观看趣味；目前的机器同传技术更多是对文字内容的视觉展示，在演讲者语音表达过程中，文字的过多展现并不能很好的让用户理解到演讲者的情绪感受；上述问题导致用户的感官体验不佳。

基于此，在本发明的各种实施例中，获取待处理数据；对所述待处理数据中的语音数据进行分段处理，得到至少两个语音段；并对所述待处理数据中的图像数据进行分段处理，得到至少两个图像段；针对所述至少两个语音段中每个语音段，对所述至少两个图像段中的与相应语音段对应的图像段进行图像识别，得到识别结果；并确定与所述识别结果匹配的表情符号；对所述至少两个语音段进行翻译，得到至少两个翻译文本；利用所述至少两个图像段中每个图像段对应的表情符号和所述至少两个翻译文本，生成同传结果；输出所述同传结果；所述同传结果用于在播放所述语音数据时在客户端进行呈现。

下面结合附图及具体实施例对本发明的技术方案作进一步详细的说明。

本发明实施例提供了一种数据处理方法，图2是本发明实施例数据处理方法的实现流程示意图，如图2所示，包括以下步骤：

步骤201：获取待处理数据；

步骤202：对所述待处理数据中的语音数据进行分段处理，得到至少两个语音段；并对所述待处理数据中的图像数据进行分段处理，得到至少两个图像段；

步骤203：针对所述至少两个语音段中每个语音段，对所述至少两个图像段中的与相应语音段对应的图像段进行图像识别，得到识别结果；并确定与所述识别结果匹配的表情符号；

步骤204：对所述至少两个语音段进行翻译，得到至少两个翻译文本；

步骤205：利用所述至少两个图像段中每个图像段对应的表情符号和所述至少两个翻译文本，生成同传结果；并输出所述同传结果；

所述同传结果用于在播放所述语音数据时在客户端进行呈现。

这里，在步骤201中，实际应用时，所述待处理数据可以是同声传译场景下需要进行机器同传翻译处理的数据。例如，在同声传译应用的会议场景下，所述待处理数据中至少包含演讲者所演讲的语音数据和演讲者的图像数据；所述图像数据可以为对演讲者的面部进行拍摄得到的图像数据。其中，所述图像数据具体可以是指的由多帧脸部图像构成数据；所述语音数据具体可以是指由多帧语音构成的数据。

这里，在步骤205中，实际应用时，所述同传结果用于在播放音频数据时在客户端进行呈现，可以是指在播放音频数据的同时呈现所述同传结果，即所述数据处理方法可以应用于同声传译的场景。

实际应用时，所述数据处理方法可以应用于服务器，也可以应用于终端。当所述数据处理方法应用于服务器时，可以由终端采集所述待处理数据，再由服务器从终端获取所述待处理数据。

举例来说，可以利用所述终端的采集装置采集演讲者演讲时的图像数据和音频数据；所述采集装置可以是指能够支持采集二维图像和音频的装置，具体可以为普通摄像头等等。

这里，对于终端的具体类型，本申请可以不做限定，例如可以为智能手机、个人计算机、笔记本电脑、平板电脑和便携式可穿戴设备等。

这里，实际应用时，可以通过以下方式对所述待处理数据的内容进行同传。

第一种方式，在应用同声传译的会议场景中，对演讲者的演讲内容进行翻译得到翻译文本后，可以结合所述演讲者的面部表情，将所述翻译文本展示给听众。

具体地，实时获取演讲者的音频数据和面部图像；基于演讲者的音频数据，确定翻译文本；并基于演讲者的面部图像，确定演讲者演讲时的面部表情，如此，在展示所述翻译文本时同时将演讲者演讲时的面部表情展示给听众。

第二种方式，在应用同声传译的会议场景中，对演讲者的演讲内容进行翻译得到翻译文本后，可以结合所述演讲者的面部表情和所述演讲者的语调，将所述翻译文本展示给听众。

具体地，实时获取演讲者的音频数据和面部图像；基于演讲者的音频数据，确定翻译文本，以及演讲者演讲时的语调；并基于演讲者的面部图像，确定演讲者演讲时的面部表情，如此，在展示所述翻译文本时同时将演讲者演讲时的面部表情和语调展示给听众。

第三种方式，在应用同声传译的会议场景中，对演讲者的演讲内容进行翻译得到翻译文本后，可以结合所述演讲者的面部表情和所述演讲者的语速，将所述翻译文本展示给听众。

具体地，实时获取演讲者的音频数据和面部图像；基于演讲者的音频数据，确定翻译文本，以及演讲者演讲时的语速；并基于演讲者的面部图像，确定演讲者演讲时的面部表情，如此，在展示所述翻译文本时同时将演讲者演讲时的面部表情和语速展示给听众。

这里，在应用同声传译的会议场景中，结合所述演讲者的面部表情，将所述翻译文本展示给听众，具备以下优点：

不仅可展示不同语种的演讲内容，对演讲者口述内容进行同传，而且可以让听众能够感知到演讲者演讲时的情绪，使不同语种的用户深刻理解演讲者的演讲内容；针对演讲内容，不仅是对翻译后的文字进行展示，还可以将演讲者的面部表情以表情符号等形式展示给听众，能够激起用户的观看趣味；在演讲者语音表达过程中，能让听众理解到演讲者的情绪感受。

实际应用时，在应用同声传译的会议场景中，在演讲者进行会议演讲的过程中，演进者的面部可能会做出“疑惑”、“兴奋”、“流汗”等表情，这样，在对演讲者的演讲内容进行翻译的过程中，可以识别演讲者演讲时的面部表情。

在识别演讲者演讲时的面部表情之前，可以采用以下方式对所述待处理数据中的语音数据和图像数据分别进行分段处理。

第一种方式，基于演讲者的演讲内容中的字符，确定时间锚点；基于时间锚点，对所述待处理数据中的语音数据和图像数据分别进行分段处理。

具体地，对所述待处理数据中的语音数据进行识别，得到识别文本；对所述识别文本进行字符识别，得到至少一个字符；按照所述至少一个字符，确定至少一个时间锚点。

第二种方式，获取演讲者输入的段数；基于获取的段数，对所述待处理数据中的语音数据和图像数据分别进行分段处理。

举例来说，假设演讲者可以根据对演讲内容的理解，从提示的段数中选取待输入的段数，比如，提示的段数包括3段，5段，10段；其中，3段表示演讲者认为可以使用3个相等时长表达演讲内容，5段表示演讲者认为可以使用5个相等时长表达演讲内容，10段表示演讲者认为可以使用10个相等时长表达演讲内容。

实际应用时，可以基于演讲者的演讲内容中的字符，确定时间锚点；基于时间锚点，对所述待处理数据中的语音数据和图像数据分别进行分段处理。

基于此，在一实施例中，所述对所述待处理数据中的语音数据进行分段处理，得到至少两个语音段；并对所述待处理数据中的图像数据进行分段处理，得到至少两个图像段，包括：

按照所述至少一个字符，确定至少一个时间锚点；

其中，字符可以是指所述识别文本中的标点符号，例如逗号、句号、问号、叹号、省略号等。

这里，可以利用预先训练好的神经网络模型对对所述待处理数据中的语音数据进行识别，得到识别文本；在对所述识别文本识别的过程中，可以在所述识别文本中添加对应的字符。例如，可以对所述待处理数据中的语音数据进行语音活动检测，确定所述语音数据中的静音期并记录静音期的静音时长，当所述静音时长超过预设时长时，在所述识别文本中添加对应的字符；当所述静音时长未超过预设时长时，不在所述识别文本中添加对应的字符。

这里，基于演讲者的演讲内容中的字符，对所述待处理数据中的语音数据和图像数据分别进行分段处理，具备以下优点：

对分段得到的每个语音段进行翻译得到翻译的文字后，后续可以对翻译后的文字可以逐行逐句进行展示，并对每个语音段对应的图像段进行图像识别，确定对应的用户表情，从而将演讲者的面部表情与翻译的文字对应起来展示给听众，激起用户的观看趣味。

实际应用时，获取演讲者输入的段数；基于获取的段数，对所述待处理数据中的语音数据和图像数据分别进行分段处理。

获取第一信息；第一信息表征演讲者输入的段数；

基于所述第一信息，对所述待处理数据中的语音数据进行分段处理，得到至少两个语音段；并对所述待处理数据中的图像数据进行分段处理，得到至少两个图像段。

这里，基于演讲者输入的段数，对所述待处理数据中的语音数据和图像数据分别进行分段处理，具备以下优点：

对分段得到的每个语音段进行翻译得到翻译的文字后，后续可以按照演讲者对演讲内容的理解所输入的段数，对翻译后的文字按照不同的层次进行展示，并对每个语音段对应的图像段进行图像识别，确定对应的用户表情，从而将演讲者的面部表情与翻译的文字对应起来展示给听众，激起用户的观看趣味。

实际应用时，针对所述至少两个图像段中的与相应语音段对应的图像段，可以利用面部识别模型识别演讲者演讲时的面部表情。

基于此，在一实施例中，所述对所述至少两个图像段中的与相应语音段对应的图像段进行图像识别，得到识别结果，包括：

将所述用户表情作为所述识别结果。

其中，所述面部识别模型可以是利用训练数据，通过机器学习得到的；其中，机器学习可以包括深度学习，比如卷积神经网络。

这里，所述面部识别模型的具体构建过程可以包括：在演讲者演讲过程中，可以利用采集演讲者的面部图像和音频，这样，可以得到包含面部图像和音频的视频流；面部识别模型的创建者可以根据自身对面部表情的判断，对所述视频流包含的每帧面部图像进行标注，如果判定相应帧的面部图像对应的表情为“疑惑”表情，则对相应帧的面部表情设置一个标签为“疑惑”；如果判定相应帧的面部图像对应的表情为“悲伤”表情，则对相应帧的面部表情设置一个标签为“悲伤”，如此，得到所述训练数据。然后，在卷积神经网络的输入层输入所述训练数据进行模型训练，通过卷积神经网络的至少一层特征提取层对所述训练数据进行输入到输出的映射，得到至少一个面部特征数据；每个面部特征数据对应一个面部表情。其中，所述特征提取层可以包括卷积层、池化层。这里，在卷积神经网络的输入层输入所述训练数据之前，还可以对所述训练数据进行数据增强、归一化、亮度处理。

实际应用时，针对与相应语音段对应的图像段得到的用户表情，可以从数据库中查找对应的表情符号。

基于此，在一实施例中，所述确定与所述识别结果匹配的表情符号，包括：

确定所述识别结果对应的用户表情的第一标识信息；

将查找到的表情符号作为与所述识别结果匹配的表情符号。

这里，可以利用用户表情与索引标识的对应关系，确定与所述识别结果对应的用户表情的索引标识；将确定的索引标识作为所述第一标识信息。

这里，针对与相应语音段对应的图像段得到的用户表情，从数据库中查找对应的表情符号，具备以下优点：

针对与相应语音段对应的图像段得到的用户表情，从数据库中查找对应的表情符号，能够将演讲者的面部表情与演讲者所演讲的内容对应起来展示给听众，激起用户的观看趣味。

实际应用时，针对与相应语音段对应的图像段得到的用户表情，还可以利用预设神经网络模型确定对应的表情符号。

在神经网络模型的输入层输入所述识别结果对应的用户表情；

在神经网络模型的特征提取层对输入的用户表情进行输入到输出的映射，得到与用户表情对应的表情符号；

将得到的表情符号作为与所述识别结果匹配的表情符号。

针对与相应语音段对应的图像段得到的用户表情，利用神经网络模型确定对应的表情符号，能够将演讲者面部所展示的任何一种表情与演讲者所演讲的内容对应起来展示给听众，激起用户的观看趣味。

在一示例中，描述确定每个图像段对应的表情符号的实现流程示意图，如图3所示，包括：

步骤1：基于演讲内容中的字符，对待处理数据中的语音数据和图像数据分别进行分段处理，得到至少两个语音段和至少两个图像段。

这里，对所述待处理数据中的语音数据进行识别，得到识别文本；对所述识别文本进行字符识别，得到至少一个字符；按照所述至少一个字符，确定至少一个时间锚点；基于时间锚点，对所述待处理数据中的语音数据和图像数据分别进行分段处理，得到两个语音段和两个图像段。

其中，假设两个语音段对应的识别文本分别为“最近北京天气不太好”和“但我心情很好”。

步骤2：针对所述至少两个图像段中的与相应语音段对应的图像段，确定对应的用户表情。

这里，对所述至少两个图像段中的与相应语音段对应的图像段进行特征提取，得到第一特征数据；基于所述第一特征数据，以及面部识别模型，得到用户表情。

其中，用户表情是指演讲者的面部表情；假设针对演讲者演讲的内容“最近北京天气不太好”，演讲者的面部表情为“悲伤”；针对演讲者演讲的内容“但我心情很好”，演讲者的面部表情为“高兴”，如图4所示。

步骤3：确定与用户表情对应的表情符号。

这里，从数据库中查找与用户表情对应的表情符号。

这里，表情符号可以是指emoji符号等。

在本示例中，基于演讲者的演讲内容中的字符对所述待处理数据中的语音数据和图像数据分别进行分段处理，可以将演讲者的演讲内容拆分为多个句子，针对每个语音段对应的一句演讲内容，可以基于与每个语音段对应的图像段，确定出演讲者演讲时的用户表情，后续能够将演讲者的面部表情与翻译的文字对应起来展示给听众，激起用户的观看趣味。

在一示例中，描述确定每个图像段对应的表情符号的实现流程示意图，如图5所示，包括：

步骤1：基于输入的段数，对待处理数据中的语音数据和图像数据分别进行分段处理，得到至少两个语音段和至少两个图像段。

这里，假设基于演讲者自身对演讲内容的理解所输入的段数，对所述待处理数据中的语音数据和图像数据分别进行分段处理，得到两个语音段和两个图像段。

其中，假设两个语音段对应的识别文本分别为“最近北京天气不太好，但我心情很好”和“心情虽好，但我现在感觉很热，脸上都是汗水”。

其中，假设针对演讲者演讲的内容“最近北京天气不太好，但我心情很好”，演讲者的面部表情为“高兴”；针对演讲者演讲的内容“心情虽好，但我现在感觉很热，脸上都是汗水”，演讲者的面部表情为“汗流满面”，如图6所示。

步骤3：确定与用户表情对应的表情符号。

这里，从数据库中查找与用户表情对应的表情符号。

这里，表情符号可以是指emoji符号等。

在本示例中，基于演讲者输入的段数对所述待处理数据中的语音数据和图像数据分别进行分段处理，可以将演讲者的演讲内容拆分为多个核心思想的内容，针对每个语音段对应的一个核心思想的演讲内容，可以基于与每个语音段对应的图像段，确定出演讲者演讲时的用户表情，后续能够将演讲者的面部表情与翻译的文字对应起来展示给听众，激起用户的观看趣味。

实际应用时，可以采用以下方式来生成同传结果。

第一种方式，结合演讲者的面部表情与演讲者所演讲的内容，生成同传结果。

具体地，将演讲者的面部表情与演讲者所演讲的内容对应起来，生成同传结果，以展示给听众。

第二种方式，结合演讲者的面部表情、演讲者的语调与演讲者所演讲的内容，生成同传结果。

具体地，对所述待处理数据中的语音数据进行特征提取，得到语调特征；基于所述语调特征，确定演讲者的语调；将演讲者的面部表情、演讲者的语调与演讲者所演讲的内容对应起来，生成同传结果，以展示给听众。

第三种方式，结合演讲者的面部表情、演讲者的语速与演讲者所演讲的内容，生成同传结果。

具体地，对所述待处理数据中的语音数据进行特征提取，得到语速特征；基于所述语调特征，确定演讲者的语速；将演讲者的面部表情、演讲者的语速与演讲者所演讲的内容对应起来，生成同传结果，以展示给听众。

实际应用时，在应用同声传译的会议场景中，在演讲者进行会议演讲的过程中，演进者的面部可能不会做出任何表情，这样，可以将能激起用户的观看趣味的面部表情如“疑惑”、“兴奋”等表情与演讲者所演讲的内容对应起来展示给听众。

基于此，在一实施例中，生成同传结果时，所述方法还包括：

其中，预设表情可以是指演讲者演讲时所表现出的非中立表情，如“高兴”、“兴奋”等。

这里，结合演讲者的面部表情与演讲者所演讲的内容，生成同传结果，具备以下优点：

将演讲者的面部表情与翻译的文字对应起来展示给听众，使用户感受到演讲者演讲时的情绪，提供用户的观看体验。

在一示例中，描述生成同传结果的实现流程示意图，如图7所示，包括：

步骤1：对待处理数据中的语音数据和图像数据分别进行分段处理，得到至少两个语音段和至少两个图像段。

步骤2：对所述至少两个语音段进行翻译，得到至少两个翻译文本。

其中，假设两个语音段对应的翻译文本分别为“最近北京天气不太好”和“但我心情很好”。

步骤3：确定所述至少两个图像段中的每个图像段对应的表情符号。

其中，假设针对演讲者演讲的内容“最近北京天气不太好”，演讲者的面部表情为“悲伤”；针对演讲者演讲的内容“但我心情很好”，演讲者的面部表情为“高兴”。

步骤4：利用所述至少两个图像段中每个图像段对应的表情符号和所述至少两个翻译文本，生成同传结果。

这里，图8为对同传结果进行展示的示意图。

在本示例中，将演讲者的演讲内容拆分为多个句子，针对每个语音段对应的一句演讲内容，将演讲者的面部表情与所述一句演讲内容对应起来展示给听众，使用户感受到演讲者演讲时的情绪，提高用户的观看体验。

在一示例中，描述生成同传结果的实现流程示意图，如图9所示，包括：

步骤4：对所述至少两个语音段中每个语音段进行特征提取，得到语速特征；基于所述语调特征，确定演讲者的语速。

步骤5：利用所述至少两个图像段中每个图像段对应的表情符号、演讲者的语速和所述至少两个翻译文本，生成同传结果。

这里，图10为对同传结果进行展示的示意图。

在本示例中，将演讲者的演讲内容拆分为多个句子，针对每个语音段对应的一句演讲内容，将演讲者的面部表情、语速与所述一句演讲内容对应起来展示给听众，使用户感受到演讲者演讲时的情绪和语速，提高用户的观看体验。

实际应用时，可以结合演讲者的面部表情、演讲者的语调与演讲者所演讲的内容，生成同传结果。

对所述待处理数据中的语音数据进行特征提取，得到语调特征；基于所述语调特征，确定演讲者的语调；

利用所述至少两个图像段中每个图像段对应的表情符号、演讲者的语调和所述至少两个翻译文本，生成同传结果。

其中，所述语调特征可以表征演讲者演讲时所发出声音的轻重缓急。

这里，结合演讲者的面部表情、演讲者的语调与演讲者所演讲的内容，生成同传结果，具备以下优点：

将演讲者的面部表情、演讲者的语调与翻译的文字对应起来展示给听众，使用户感受到演讲者演讲时的情绪和语调，激起用户的观看趣味。

实际应用时，可以结合演讲者的面部表情、演讲者的语速与演讲者所演讲的内容，生成同传结果。

其中，所述语速特征可以表征演讲者在单位时间内演讲出的词汇量。

将演讲者的面部表情、演讲者的语速与翻译的文字对应起来展示给听众，使用户感受到演讲者演讲时的情绪和语速，激起用户的观看趣味。

实际应用时，可以将演讲者的面部表情与翻译的文字对应起来展示给听众。

基于此，在一实施例中，所述输出同传结果，包括：

其中，所述特定位置可以是指翻译文本的开始位置、中间位置、结束位置等。

实际应用时，可以将演讲者的面部表情与翻译的文字对应起来播放给听众。

基于此，在一实施例中，所述输出同传结果，包括：

对所述同传结果进行语音合成，合成同声传译数据；

采用本发明实施例的技术方案，获取待处理数据；对所述待处理数据中的语音数据进行分段处理，得到至少两个语音段；并对所述待处理数据中的图像数据进行分段处理，得到至少两个图像段；针对所述至少两个语音段中每个语音段，对所述至少两个图像段中的与相应语音段对应的图像段进行图像识别，得到识别结果；并确定与所述识别结果匹配的表情符号；对所述至少两个语音段进行翻译，得到至少两个翻译文本；利用所述至少两个图像段中每个图像段对应的表情符号和所述至少两个翻译文本，生成同传结果；输出所述同传结果；所述同传结果用于在播放所述语音数据时在客户端进行呈现。采用本发明实施例的技术方案，不仅可以将演讲内容展示给听众，还可以让听众感知到演讲者演讲时的情绪，能让听众理解到演讲者的情绪感受，能够激起用户的观看趣味，使不同语种的用户深刻理解演讲者的演讲内容。

为了实现本发明实施例的方法，本发明实施例还提供了一种数据处理装置；如图11所示，数据处理装置110包括：

获取单元111，用于获取待处理数据；

第一处理单元112，用于对所述待处理数据中的语音数据进行分段处理，得到至少两个语音段；并对所述待处理数据中的图像数据进行分段处理，得到至少两个图像段；

第二处理单元113，用于针对所述至少两个语音段中每个语音段，对所述至少两个图像段中的与相应语音段对应的图像段进行图像识别，得到识别结果；并确定与所述识别结果匹配的表情符号；

第三处理单元114，用于对所述至少两个语音段进行翻译，得到至少两个翻译文本；以及利用所述至少两个图像段中每个图像段对应的表情符号和所述至少两个翻译文本，生成同传结果；

输出单元115，用于输出所述同传结果；所述同传结果用于在播放所述语音数据时在客户端进行呈现。

在一实施例中，所述第一处理单元112，具体用于：

按照所述至少一个字符，确定至少一个时间锚点；

在一实施例中，所述第二处理单元113，具体用于：

将所述用户表情作为所述识别结果。

在一实施例中，所述第二处理单元113，具体用于：

确定所述识别结果对应的用户表情的第一标识信息；

将查找到的表情符号作为与所述识别结果匹配的表情符号。

在一实施例中，生成同传结果时，所述第三处理单元114，具体用于：

在一实施例中，所述输出单元115，具体用于：

对所述同传结果进行语音合成，合成同声传译数据；

实际应用时，所述第一处理单元112、所述第二处理单元113、所述第三处理单元114可由数据处理装置110中的处理器结合通信接口实现；所述获取单元111、所述输出单元115可由数据处理装置110中的通信接口实现；所述处理器可以是中央处理器(CPU，CentralProcessing Unit)、数字信号处理器(DSP，Digital Signal Processor)、微控制单元(MCU，Microcontroller Unit)或可编程门阵列(FPGA，Field－Programmable Gate Array)。

需要说明的是：上述实施例提供的数据处理装置110在进行数据处理时，仅以上述各程序模块的划分进行举例说明，实际应用时，可以根据需要而将上述处理分配由不同的程序模块完成，即将终端的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的装置与数据处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

基于上述设备的硬件实现，本发明实施例还提供了一种电子设备，图12为本发明实施例的电子设备的硬件组成结构示意图，如图12所示，电子设备120包括存储器123、处理器122及存储在存储器123上并可在处理器122上运行的计算机程序；所述处理器122执行所述程序时实现上述一个或多个技术方案提供的方法。

具体地，所述处理器122执行所述程序时实现：获取待处理数据；对所述待处理数据中的语音数据进行分段处理，得到至少两个语音段；并对所述待处理数据中的图像数据进行分段处理，得到至少两个图像段；针对所述至少两个语音段中每个语音段，对所述至少两个图像段中的与相应语音段对应的图像段进行图像识别，得到识别结果；并确定与所述识别结果匹配的表情符号；对所述至少两个语音段进行翻译，得到至少两个翻译文本；利用所述至少两个图像段中每个图像段对应的表情符号和所述至少两个翻译文本，生成同传结果；输出所述同传结果；所述同传结果用于在播放所述语音数据时在客户端进行呈现。

在一实施例中，所述处理器122执行所述程序时实现：

按照所述至少一个字符，确定至少一个时间锚点；

上述方案中，所述处理器122执行所述程序时实现：

将所述用户表情作为所述识别结果。

在一实施例中，所述处理器122执行所述程序时实现：

确定所述识别结果对应的用户表情的第一标识信息；

将查找到的表情符号作为与所述识别结果匹配的表情符号。

在一实施例中，所述处理器122执行所述程序时实现：

生成同传结果时，判断所述至少两个图像段中的每个图像段对应的表情符号是否与预设表情符号相匹配；

在一实施例中，所述处理器122执行所述程序时实现：

对所述同传结果进行语音合成，合成同声传译数据；

需要说明的是，所述处理器122执行所述程序时实现的具体步骤已在上文详述，这里不再赘述。

可以理解，电子设备120还包括通信接口121，所述通信接口121用于和其它设备进行信息交互；同时，电子设备120中的各个组件通过总线系统124耦合在一起。可理解，总线系统124配置为实现这些组件之间的连接通信。总线系统124除包括数据总线之外，还包括电源总线、控制总线和状态信号总线等。

可以理解，本实施例中的存储器123可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，ReadOnly Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，RandomAccess Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

上述本发明实施例揭示的方法可以应用于处理器122中，或者由处理器122实现。处理器122可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器122中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器122可以是通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器122可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器，处理器122读取存储器中的信息，结合其硬件完成前述方法的步骤。

本发明实施例还提供了一种存储介质，具体为计算机存储介质，更具体的为计算机可读存储介质。其上存储有计算机指令，即计算机程序，该计算机指令被处理器执行时上述一个或多个技术方案提供的方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的方法和智能设备，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是：“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

另外，本发明实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取待处理数据；

对所述至少两个语音段进行翻译，得到至少两个翻译文本；

输出所述同传结果；所述同传结果用于在播放所述语音数据时在客户端进行呈现；

其中，所述生成同传结果时，所述方法还包括：

对所述待处理数据中的语音数据进行特征提取，得到语调特征；基于所述语调特征，确定演讲者的语调；其中，所述语调特征表征演讲者演讲时所发出声音的轻重缓急；

2.根据权利要求1所述的方法，其特征在于，所述对所述待处理数据中的语音数据进行分段处理，得到至少两个语音段；并对所述待处理数据中的图像数据进行分段处理，得到至少两个图像段，包括：

按照所述至少一个字符，确定至少一个时间锚点；

3.根据权利要求2所述的方法，其特征在于，所述对所述至少两个图像段中的与相应语音段对应的图像段进行图像识别，得到识别结果，包括：

将所述用户表情作为所述识别结果。

4.根据权利要求3所述的方法，其特征在于，所述确定与所述识别结果匹配的表情符号，包括：

确定所述识别结果对应的用户表情的第一标识信息；

将查找到的表情符号作为与所述识别结果匹配的表情符号。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述生成同传结果时，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述输出同传结果，包括：

7.根据权利要求1所述的方法，其特征在于，所述输出同传结果，包括：

对所述同传结果进行语音合成，合成同声传译数据；

8.一种数据处理装置，其特征在于，所述装置包括：

获取单元，用于获取待处理数据；

输出单元，用于输出所述同传结果；所述同传结果用于在播放所述语音数据时在客户端进行呈现；

所述第三处理单元，还用于对所述待处理数据中的语音数据进行特征提取，得到语调特征；基于所述语调特征，确定演讲者的语调；利用所述至少两个图像段中每个图像段对应的表情符号、演讲者的语调和所述至少两个翻译文本，生成同传结果。

9.一种电子设备，其特征在于，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器；

其中，所述处理器用于运行所述计算机程序时，执行权利要求1至7任一项所述方法的步骤。

10.一种存储介质，所述介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。