CN110931042B

CN110931042B - 同声传译方法、装置、电子设备以及存储介质

Info

Publication number: CN110931042B
Application number: CN201911114367.5A
Authority: CN
Inventors: 郝杰
Original assignee: Beijing Opper Communication Co ltd
Current assignee: Beijing Opper Communication Co ltd
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2022-08-16
Anticipated expiration: 2039-11-14
Also published as: CN110931042A

Abstract

本发明公开了一种同声传译方法、装置、电子设备以及存储介质。其中，方法包括：采集待处理的第一语音数据；对所述第一语音数据进行翻译，获得第一翻译文本；利用所述第一翻译文本，生成第一视频数据；所述第一视频数据为手语视频数据；或者，采集待处理的第二视频数据；所述第二视频数据为手语视频数据；对所述第二视频数据进行手语识别，得到手语识别结果；利用手语识别结果对所述第二视频数据进行翻译，获得第二翻译文本；利用所述第二翻译文本，生成第二语音数据；采用本发明的方案，能够实现不同语种的聋哑人和不同语种的健全人之间的同声传译，提高聋哑人和健全人之间的沟通效率，使得世界各地的聋哑人和健全人能够无障碍地沟通。

Description

同声传译方法、装置、电子设备以及存储介质

技术领域

本发明涉及同声传译技术，尤其涉及一种同声传译方法、装置、电子设备以及存储介质。

背景技术

同声传译，是指翻译工作者在不打断发言者讲话的情况下，将发言者的讲话内容口译给听众的一种翻译方式；适用于各种会议场景。目前，相较于人工同传，结合了自动语音识别(ASR，Automatic Speech Recognition)技术和机器翻译(MT，MachineTranslation)技术的机器同传技术能够更便捷地为会议发言者的讲话内容提供多种语种的翻译。

然而，相关技术中，机器同传的方法并不适用于有聋哑人参加的会议场景。

发明内容

为解决相关技术问题，本发明实施例提供一种同声传译方法、装置、电子设备以及存储介质。

本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种同声传译方法，包括：

采集待处理的第一语音数据；对所述第一语音数据进行翻译，获得第一翻译文本；利用所述第一翻译文本，生成第一视频数据；所述第一视频数据为手语视频数据；所述第一语音数据对应的语种不同于所述第一视频数据对应的语种；所述第一视频数据用于在播放所述第一语音数据时进行呈现；

或者，

采集待处理的第二视频数据；所述第二视频数据为手语视频数据；对所述第二视频数据进行手语识别，得到手语识别结果；利用手语识别结果对所述第二视频数据进行翻译，获得第二翻译文本；利用所述第二翻译文本，生成第二语音数据；所述第二视频数据对应的语种不同于所述第二语音数据对应的语种；所述第二语音数据用于在呈现所述第二手语视频数据时进行播放。

上述方案中，所述利用所述第一翻译文本，生成第一视频数据，包括：

将所述第一翻译文本划分成至少一个文本片段；

针对所述至少一个文本片段中的每个文本片段，生成相应文本片段对应的视频片段，得到至少一个视频片段；所述视频片段为手语视频片段；

利用所述至少一个视频片段，合成所述视频数据。

上述方案中，所述针对所述至少一个文本片段中的每个文本片段，生成相应文本片段对应的视频片段，包括：

针对所述至少一个文本片段中的每个文本片段，利用预设手语模型，生成所述相应文本片段对应的视频片段。

上述方案中，针对所述至少一个文本片段中的每个文本片段，基于第一信息库，确定相应文本片段对应的手语动作描述文本；

基于所述手语动作描述文本，利用所述预设手语模型，生成相应文本片段对应的视频片段。

上述方案中，所述基于第一信息库，确定相应文本片段对应的手语动作描述文本，包括：

确定所述第一信息库中每个预设文本片段与所述相应文本片段的文本匹配度；

将与所述相应文本片段的文本匹配度满足预设条件的预设文本片段对应的手语动作描述文本确定为所述相应文本片段对应的手语动作描述文本。

上述方案中，所述与所述相应文本片段的文本匹配度满足预设条件的预设文本片段，包括以下之一：

与所述相应文本片段的文本匹配度大于预设阈值的预设文本片段；

与所述相应文本片段的文本匹配度大于所述第一信息库中其它预设文本片段与所述相应文本片段的文本匹配度的预设文本片段。

上述方案中，所述利用所述第二翻译文本，生成第二语音数据，包括：

将所述第二翻译文本划分成至少一个文本片段；

针对所述至少一个文本片段中的每个文本片段，生成相应文本片段对应的语音片段，得到至少一个语音片段；

利用所述至少一个语音片段，合成所述第二语音数据。

上述方案中，利用所述待处理的第一语音数据或所述待处理的第二视频数据获得的同声传译数据对应至少一种语种；所述方法还包括：

将至少一种语种对应的同声传译数据，按语种进行分类缓存。

本发明实施例还提供了一种同声传译装置，包括：第一处理单元及第二处理单元；其中，

所述第一处理单元，用于采集待处理的第一语音数据；对所述第一语音数据进行翻译，获得第一翻译文本；

所述第二处理单元，用于利用所述第一翻译文本，生成第一视频数据；所述第一视频数据为手语视频数据；所述第一语音数据对应的语种不同于所述第一视频数据对应的语种；所述第一视频数据用于在播放所述第一语音数据时进行呈现；

或者，

所述第一处理单元，用于采集待处理的第二视频数据；所述第二视频数据为手语视频数据；对所述第二视频数据进行手语识别，得到手语识别结果；以及利用手语识别结果对所述第二视频数据进行翻译，获得第二翻译文本；

所述第二处理单元，用于利用所述第二翻译文本，生成第二语音数据；所述第二视频数据对应的语种不同于所述第二语音数据对应的语种；所述第二语音数据用于在呈现所述第二手语视频数据时进行播放。

本发明实施例还提供了一种电子设备，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器；

其中，所述处理器用于运行所述计算机程序时，执行上述任一方法的步骤。

本发明实施例还提供了一种存储介质，所述介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方法的步骤。

本发明实施例提供的同声传译方法、装置、电子设备以及存储介质，采集待处理的第一语音数据；对所述第一语音数据进行翻译，获得第一翻译文本；利用所述第一翻译文本，生成第一视频数据；所述第一视频数据为手语视频数据；所述第一语音数据对应的语种不同于所述第一视频数据对应的语种；所述第一视频数据用于在播放所述第一语音数据时进行呈现；或者，采集待处理的第二视频数据；所述第二视频数据为手语视频数据；对所述第二视频数据进行手语识别，得到手语识别结果；利用手语识别结果对所述第二视频数据进行翻译，获得第二翻译文本；利用所述第二翻译文本，生成第二语音数据；所述第二视频数据对应的语种不同于所述第二语音数据对应的语种；所述第二语音数据用于在呈现所述第二手语视频数据时进行播放。本发明实施例的方案，利用采集的语音数据翻译生成不同语种的手语视频数据，或利用采集的手语视频数据翻译生成不同语种的语音数据，如此，能够实现不同语种的聋哑人和不同语种的健全人之间的同声传译，提高聋哑人和健全人之间的沟通效率，使得世界各地的聋哑人和健全人能够无障碍地沟通。

附图说明

图1为本发明实施例同声传译的方法流程示意图一；

图2为本发明实施例利用翻译文本生成视频数据的方法流程示意图；

图3为本发明实施例同声传译的方法流程示意图二；

图4为本发明实施例利用翻译文本生成语音数据的方法流程示意图；

图5为本发明应用实施例同声传译装置的结构示意图一；

图6为本发明应用实施例同声传译装置的结构示意图二；

图7为本发明实施例同声传译装置的结构示意图；

图8为本发明实施例电子设备的硬件结构示意图。

具体实施方式

以下结合说明书附图及实施例对本发明的技术方案作进一步详细的阐述。

通常，健全人与聋哑人之间的交流非常困难，一方面，聋哑人和健全人通过文字交流的效率低下；另一方面，健全人在没有专业训练过的情况下无法理解聋哑人的手语。因此，为了使得聋哑人的手语和健全人的文字或语音能够双向转换，可以利用图像识别技术和语义转换技术采集并将聋哑人的手语转换为健全人的文字或语音，或者将健全人的语音通过语音识别技术和预设的手语信息数据库识别并转换为聋哑人手语视频。

然而，上述聋哑人的手语和健全人的文字或语音的双向转换过程没有机器翻译的过程，即上述转换过程仅适用于聋哑人的手语和健全人的文字或语音对应同一种语种的情况，并不适用于不同语种的聋哑人与不同语种的健全人之间的同传场景。

基于此，在本发明的各种实施例中，利用采集的语音数据翻译生成不同语种的手语视频数据，或利用采集的手语视频数据翻译生成不同语种的语音数据；能够实现不同语种的聋哑人和不同语种的健全人之间的同声传译，提高聋哑人和健全人之间的沟通效率，使得世界各地的聋哑人和健全人能够无障碍地沟通。

在本发明实施例中，在同声传译场景下，一种具体场景是演讲者为健全人，而同声传译的对象是聋哑人，在这种场景下，需要将健全人的演讲语音转变为聋哑人能够看懂的手语视频。

基于此，本发明实施例提供一种同声传译方法，应用于服务器；如图1所示，所述方法包括以下步骤：

步骤101：采集待处理的第一语音数据。

这里，所述待处理的第一语音数据，具体为健全发言者的语音数据。

实际应用时，所述服务器为机器同传服务器，与机器同传客户端之间建立有通信连接，为所述机器同传客户端提供同声传译数据。所述机器同传客户端可以是会议显示屏幕、机器同传专用客户端(比如同传翻译器)以及电脑(PC，Personal Computer)客户端；也可以是手机客户端和平板电脑客户端等移动用户终端。采集待处理的第一语音数据时，也可以由客户端采集第一语音数据，并发送给服务器。具体的采集待处理的第一语音数据的方式可以根据需要设置。

步骤102：对所述第一语音数据进行翻译，获得第一翻译文本。

具体地，对所述第一语音数据进行语音识别，得到识别文本；所述识别文本对应的语种与所述第一语音数据对应的语种相同；对所述识别文本进行翻译，获得所述第一翻译文本；所述第一翻译文本对应的语种不同于所述第一识别文本对应的语种。

实际应用时，所述语音识别包括各语种语音的单独识别(所述第一语音数据仅对应一个语种)和混合识别(所述第一语音数据对应至少两个语种)；所述第一语音数据对应至少两个语种的情况下，根据需要可以选择分别对所述至少两个语种中的每个语种对应的语音数据进行识别，也可以同时对所述至少两个语种对应的语音数据进行识别；所述语音识别也可以包括各语种的方言识别。

步骤103：利用所述第一翻译文本，生成第一视频数据；

这里，所述第一视频数据为手语视频数据；所述第一语音数据对应的语种不同于所述第一视频数据对应的语种；所述第一视频数据用于在播放所述第一语音数据时进行呈现。

具体地，所述第一视频数据用于发送给客户端，以使发言者在进行发言且发言的内容为所述第一语音数据时，在客户端呈现所述第一视频数据。

更具体地，在同声传译场景下，当演讲者进行演讲时，第一终端(如PC)利用语音采集模块实时采集演讲内容，即采集待处理的第一语音数据。所述第一终端与所述服务器之间可以建立通信连接，所述第一终端将采集的待处理的第一语音数据发送给服务器，所述服务器即可实时获得采集的待处理的第一语音数据。所述服务器对所述待处理的第一语音数据进行文本识别，对识别的文本进行翻译，并利用翻译的文本生成手语视频数据进行呈现，即实现在播放所述待处理的第一语音数据的同时呈现所述手语视频数据。

实际应用时，在客户端呈现所述第一视频数据，可以包括以下至少之一：

在同传会议显示屏幕上呈现所述第一视频数据；

在机器同传专用客户端上呈现所述第一视频数据；

在用户终端(可以包括PC、手机以及平板电脑)客户端上呈现所述第一视频数据。

实际应用时，可以根据需要选择上述方式的一种来呈现所述第一视频数据。

实际应用时，由于所述第一翻译文本可能会很长，直接利用所述第一翻译文本生成第一视频数据可能会增加同声传译的时延；因此，为了减少同声传译的时延，可以将所述第一翻译文本划分成几个片段，同时生成每个片段对应的视频数据，再合成每个片段对应的视频数据，以得到所述第一视频数据。

基于此，在一实施例中，如图2所示，步骤103的具体实现可以包括以下步骤：

步骤1031：将所述第一翻译文本划分成至少一个文本片段。

这里，所述文本片段可以是字、词、句子或段落。

实际应用时，也可以根据需要确定划分所述第一翻译文本的方式。划分所述第一翻译文本的方式可由Java或C#等编程语言实现。

步骤1032：针对所述至少一个文本片段中的每个文本片段，生成相应文本片段对应的视频片段，得到至少一个视频片段；

这里，所述视频片段为手语视频片段。

具体地，所述针对所述至少一个文本片段中的每个文本片段，生成相应文本片段对应的视频片段，包括：

实际应用时，所述预设手语模型可以是利用大量的文本片段以及每个文本片段对应的手语视频、通过机器学习方法(比如神经网络学习)确定并训练出的模型；在所述预设手语模型中输入文本片段，即可输出与输入的文本片段相对应的手语视频。这里，所述预设手语模型还可以包含动画渲染程序，使得输出的手语视频为动画渲染后的手语视频。

基于此，在一实施例中，所述利用预设手语模型，生成所述相应文本片段对应的视频片段，可以包括：

输入所述相应文本片段到所述预设手语模型，以使所述预设手语模型输出与输入的所述相应文本片段对应的视频片段。

实际应用时，为了使所述预设手语模型输出的手语视频更加准确，可以先利用一个预设的信息库确定所述相应文本片段对应的手语动作描述文本，再将手语动作描述文本输入到所述预设手语模型中；如此，所述预设手语模型输出的手语视频更加准确，使得聋哑人更好的理解健全人的发言内容。

基于此，在一实施例中，所述方法还包括：

针对所述至少一个文本片段中的每个文本片段，基于第一信息库，确定相应文本片段对应的手语动作描述文本；

这里，

所述第一信息库存储有至少一个预设文本片段以及每个预设文本片段对应的手语动作描述文本；所述第一信息库对应的语种与所述第一翻译文本对应的语种相同。

实际应用时，所述第一信息库存储的预设文本片段也可以是字、词、句子或段落；预设文本片段越短，生成的手语视频越准确。每个预设文本片段对应的手语动作描述文本是对该预设文本片段对应的手语动作的详细描述。

具体地，各语种的手语都包括几个基本要素：手的形状、手的动作、手的位置、手掌的方向、面部表情和其它体态；手的形状为手指样式，比如伸出一根手指、五指张开或伸出并拢的食指等；手的动作为手部的移动方式，比如向左平移、向下平移或顺时针转动等；手的位置为手部相对于身体的位置，比如将左手放在头顶、左颊或右肩等位置；手掌的朝向可以为朝上、朝下、朝左或超右，也可以是朝向身体部位，比如掌心朝着鼻子或耳朵等部位；面部表情可以包括皱眉或眨眼等表情；其他体态可以包括身体前倾或向左偏头等身体动作。

为了使得对手语动作的描述更为细致和准确，所述手语动作描述文本至少要包含上述各语种手语的基本要素。比如，预设文本片段“哭泣”对应的手语动作描述文本可以是“身体前倾、皱眉、双眼闭合、瘪嘴、两手掌心分别对着两只眼睛、双手握拳左右轻微晃动”。这里，预设文本片段“哭泣”及其对应的手语动作描述文本仅作为举例说明，并非是真实手语动作。实际应用时，在生成所述至少一个文本片段中每个文本片段对应的视频片段时，所述至少一个文本片段不一定能够与所述第一信息库存储的至少一个预设文本片段一一对应；此时，可以对所述至少一个文本片段以及所述至少一个预设文本片段进行文本匹配，基于文本匹配的结果确定每个文本片段对应的手语动作描述文本。

基于此，在一实施例中，针对所述至少一个文本片段中的每个文本片段，所述基于第一信息库，确定相应文本片段对应的手语动作描述文本，可以包括：

实际应用时，可以根据需要选择文本匹配的方式，比如仅匹配文字，或利用语义相似度进行文本匹配。比如，使用文字匹配时，文本片段“痛哭”以及预设文本片段“哭泣”的文本匹配度仅为50％；而利用语义相似度时，文本片段“痛哭”以及预设文本片段“哭泣”的文本匹配度在90％以上。

实际应用时，可以根据需要设置预设阈值(比如90％)，在文本片段与预设文本片段的文本匹配度大于预设阈值时，将所述预设文本片段对应的手语动作描述文本确定为所述文本片段对应的手语动作描述文本；当然，可能存在文本片段与所述第一信息库中每个预设文本片段的文本匹配度均小于预设阈值的情况，此时，可以将所述第一信息库中与所述文本片段的文本匹配度最大的预设文本片段对应的手语动作描述文本确定为所述文本片段对应的手语动作描述文本。

基于此，在一实施例中，所述与所述相应文本片段的文本匹配度满足预设条件的预设文本片段，可以包括以下之一：

实际应用时，还可以根据需要，选择在所述预设手语模型中直接输入文本片段；或者，选择在所述预设手语模型中输入文本片段对应的手语动作描述文本。比如，为了提高同传速度，减少时延，可以直接将文本片段输入到所述预设手语模型，所述预设手语模型输出与所述文本片段对应的视频片段；再比如，为了使得同传数据更加准确，即生成的手语视频动作更加准确，可以先基于所述第一信息库确定所述文本片段对应的手语动作描述文本，再将所述手语动作描述文本输入到所述预设手语模型，以得到所述文本片段对应的视频片段。

实际应用时，还可以在云端服务器或所述服务器的本地存储各语种对应的第一信息库。

基于此，在一实施例中，所述方法还包括：

从本地或云端获取所述第一翻译文本对应的语种对应的第一信息库。

步骤1033：利用所述至少一个视频片段，合成所述第一视频数据。

在本发明实施例中，在同声传译场景下，还有一种具体场景是：演讲者为聋哑人，而同声传译的对象是健全人，在这种场景下，需要将聋哑人的手语转变为健全人能够听懂的语音。

基于此，本发明实施例还提供一种同声传译方法，应用于服务器；如图3所示，所述方法包括以下步骤：

步骤301：采集待处理的第二视频数据；

这里，所述第二视频数据为手语视频数据。

实际应用时，所述服务器可以通过内置的图像采集模块(所述图像采集模块可通过立体摄像头、双目摄像头或结构光摄像头实现)或外部图像采集模块采集待处理的第二视频数据；也可以获取客户端采集的待处理的第二视频数据。由客户端采集待处理的第二视频数据的情况下，可以由客户端通过自身的图像采集模块进行视频数据的采集，也可以对自身显示屏上的图像进行录屏(适用于视频会议场景)来采集视频数据。

步骤302：对所述第二视频数据进行手语识别，得到手语识别结果。

实际应用时，对所述第二视频数据进行手语识别时，首先，可以根据预设策略提取关键帧；比如，可以将第二视频数据中的每一帧都作为关键帧；再比如，可以在第二视频数据中每间隔五帧提取一个关键帧。然后，可以对提取到的每一个关键帧进行图像识别，确定每个关键帧上的人物表情信息、人物体态信息和手部信息；每个关键帧上的人物表情信息可以包括五官位置信息(可以用于确定挑眉和皱眉等面部的动作)和五官状态信息(可以用于确定闭眼和张嘴等面部的动作)，每个关键帧上的人物体态信息可以包括头部位置(可以用于确定偏头和低头等头部的动作)信息和身体位置信息(可以用于确定身体前倾和后仰等身体的动作)，每个关键帧上的手部信息可以包括手指状态信息(可以用于确定五指张开和伸出两根手指等手指的动作)、手部位置信息(可以用于确定手部的运动轨迹)和手掌朝向信息(可以用于确定手部的动作)；这样，合成每个关键帧上的人物表情信息、人物体态信息和手部信息，就能够得到所述第二视频数据对应的手语动作信息，所述手语动作信息包含人物表情、人物身体动作和人物手部动作。最后，可以在云端服务器或所述服务器的本地预设不同语种对应的第二信息库；所述第二信息库存储有至少一个预设手语动作信息以及每个预设手语动作信息对应的文本信息；所述文本信息是所述预设手语动作信息对应的手语动作表达的含义；当得到了所述第二视频数据对应的手语动作信息后，所述服务器可以从云端或本地获取所述第二视频数据对应的语种对应的第二信息库；对所述第二视频数据对应的手语动作信息和所述第二信息库中的每个预设手语动作信息进行匹配，当匹配结果满足预设条件时，将匹配得到的至少一个预设手语动作信息对应的至少一个文本信息确定为所述第二视频数据对应的文本信息；并合成所述至少一个文本信息，以得到所述第二视频数据的手语识别结果。

这里，所述预设条件可以根据需要设置，比如，可以将预设条件设置为与所述第二视频数据对应的手语动作信息的语义相似度大于预设阈值的预设手语动作信息；再比如，可以将预设条件设置为与所述第二视频数据对应的手语动作信息完全相同的预设手语动作信息；所述预设阈值也可以根据需要设置，比如80％。

实际应用时，在对所述第二视频数据对应的手语动作信息和所述第二信息库中的每个预设手语动作信息进行匹配时，为了提高手语识别结果的准确性，可以先对所述第二视频数据对应的手语动作信息进行划分(可以根据需要设置划分规则，比如每间隔3个手指动作时划分出一个手语动作信息片段；再比如每出现一个头部动作时划分出一个手语动作信息片段)，再将划分得到的每个手语动作信息片段和所述第二信息库中的每个预设手语动作信息进行匹配，根据每个手语动作信息片段的匹配结果确定手语识别结果。

步骤303：利用手语识别结果对所述第二视频数据进行翻译，获得第二翻译文本。

具体地，对所述手语识别结果进行翻译，获得所述第二翻译文本；所述手语识别结果对应的语种与所述第二视频数据对应的语种相同；所述第二翻译文本对应的语种与所述手语识别结果对应的语种不同。

步骤304：利用所述第二翻译文本，生成第二语音数据；

这里，所述第二视频数据对应的语种不同于所述第二语音数据对应的语种；所述第二语音数据用于在呈现所述第二手语视频数据时进行播放。

具体地，所述第二语音数据用于发送给客户端，以使聋哑发言者在进行“发言”、且“发言”的内容为所述第二视频数据时，在客户端播放所述第二语音数据。

更具体地，在同声传译场景下，当聋哑发言者进行“演讲”时，第二终端(如PC)利用图像采集模块实时采集演讲内容，即采集待处理的第二视频数据。所述第二终端与所述服务器之间可以建立通信连接，所述第二终端将采集的待处理的第二视频数据发送给服务器，所述服务器即可实时获得采集的待处理的第二视频数据。所述服务器对所述待处理的第二视频数据进行手语识别，对识别的结果进行翻译，并利用翻译的文本生成语音数据进行播放，即实现在呈现所述待处理的第二视频数据的同时播放所述语音数据。

实际应用时，在客户端播放所述第二语音数据，可以是在机器同传专用客户端或在用户终端(可以包括PC、手机以及平板电脑)客户端上播放所述第二语音数据，具体可以根据会议参与人员选择的客户端确定播放所述第二语音数据的客户端。

实际应用时，由于所述第二翻译文本可能会很长，直接利用所述第二翻译文本生成第二语音数据可能会增加同声传译的时延；因此，为了减少同声传译的时延，可以将所述第二翻译文本划分成几个片段，同时生成每个片段对应的语音数据，再合成每个片段对应的语音数据，以得到所述第二语音数据。

基于此，在一实施例中，如图4所示，步骤304的具体实现可以包括以下步骤：

步骤3041：将所述第二翻译文本划分成至少一个文本片段；

步骤3042：针对所述至少一个文本片段中的每个文本片段，生成相应文本片段对应的语音片段，得到至少一个语音片段；

步骤3043：利用所述至少一个语音片段，合成所述第二语音数据。

实际应用时，可以将至少一个语种对应的同声传译数据按语种保存在不同数据库中，可以将同一语种的第一视频数据和第二语音数据对应保存在同一数据库中，数据库对应有语种的标识。

实际应用时，在同一个同声传译场景中，服务器会面向多个客户端，为每个客户端发送同声传译数据；为保证服务器向多个客户端同时发送同声传译数据的时效性，所述服务器可以采用缓存的方式，在接收到获取同声传译数据的请求时直接从缓存中获取相应的数据；如此，可以保证同声传译数据下发的高时效性，保护服务器的计算资源。

基于此，在一实施例中，所述方法还可以包括：

将至少一种语种对应的同声传译数据，按语种进行分类缓存；

这里，所述同声传译数据包括第一视频数据和第二语音数据。

实际应用时，服务器可以预先确定至少一个客户端中各客户端的预置语种，从数据库中获取预置语种对应的同声传译数据进行缓存。

通过缓存操作，当有客户端选择不同于预置语种的其他语种时，可以直接从缓存中获取相应语种的同声传译数据，从而可以提高时效性和对计算资源的保护。

实际应用时，客户端选择与预置语种不同的其他语种，所述其他语种的同声传译数据可能未缓存，服务器确定客户端发送选择不同于其预置语种的其他语种的获取请求时，可以将该客户端请求的其他语种的同声传译数据也进行缓存；当再有其他客户端也选择相同的语种，则可以直接从缓存中获取相应的同声传译数据，从而可以提高时效性和对计算资源的保护。

实际应用中，为了提供符合用户需求的语种对应的同声传译数据，可以根据用户通过客户端发送的获取请求，获取目标语种对应的同声传译数据。

基于此，在一实施例中，所述方法还可以包括：

接收客户端发送的获取请求；所述获取请求用于获取同声传译数据；所述获取请求至少包括：目标语种；

从缓存的同声传译数据中获取所述目标语种对应的同声传译数据；

将获取的所述目标语种对应的同声传译数据发送给客户端。

这里，所述客户端可以是机器同传专用客户端或用户终端(可以包括PC、手机以及平板电脑)客户端；所述客户端可以设有人机交互界面，用户通过人机交互界面可以选择语种，客户端根据用户的选择生成包含目标语种的获取请求，并将获取请求发送给服务器，从而所述服务器接收所述获取请求。

本发明实施例提供的同声传译方法，服务器采集待处理的第一语音数据；对所述第一语音数据进行翻译，获得第一翻译文本；利用所述第一翻译文本，生成第一视频数据；所述第一视频数据为手语视频数据；所述第一语音数据对应的语种不同于所述第一视频数据对应的语种；所述第一视频数据用于在播放所述第一语音数据时进行呈现；或者，采集待处理的第二视频数据；所述第二视频数据为手语视频数据；对所述第二视频数据进行手语识别，得到手语识别结果；利用手语识别结果对所述第二视频数据进行翻译，获得第二翻译文本；利用所述第二翻译文本，生成第二语音数据；所述第二视频数据对应的语种不同于所述第二语音数据对应的语种；所述第二语音数据用于在呈现所述第二手语视频数据时进行播放。本发明实施例的方案，可以应用于聋哑人和健全人的同声传译场景，比如同时有聋哑人和健全人参与的会议的同声传译，在这种场景下，利用采集的语音数据翻译生成不同语种的手语视频数据，或利用采集的手语视频数据翻译生成不同语种的语音数据；能够实现不同语种的聋哑人和不同语种的健全人之间的同声传译，提高聋哑人和健全人之间的沟通效率，使得世界各地的聋哑人和健全人能够无障碍地沟通。

下面结合应用实施例对本发明再作进一步详细的描述。

本应用实施例提供的同声传译装置，应用于将健全人的语音信息转换为不同语种聋哑人的手语视频的同声传译场景；如图5所示，同声传译装置500包括：语音识别模块501、机器翻译模块502和动画渲染模块503；其中，

所述语音识别模块501，用于将采集的健全人的语音信息转换为文本信息；所述文本信息对应的语种与所述语音信息对应的语种相同；

所述机器翻译模块502，用于将所述语音识别模块501生成的文本信息翻译为聋哑人的语种对应的文本信息；

所述动画渲染模块503，用于利用所述机器翻译模块502翻译得到的聋哑人的语种对应的文本信息，生成手语视频。

具体地，所述语音识别模块501和所述机器翻译模块502采集健全人的语音信息的过程、将健全人的语音信息转换为文本信息的过程以及生成聋哑人的语种对应的文本信息的过程与图1所示的同声传译方法的步骤101～步骤102的实现过程相同；所述动画渲染模块503生成手语视频的过程与图1所示的同声传译方法的步骤103的实现过程相同；这里不多赘述。

本应用实施例提供的同声传译装置，还应用于将聋哑人的手语信息转换为不同语种健全人的语音信息的同声传译场景；如图6所示，同声传译装置500还包括：手语识别模块601和语音合成模块602；其中，

所述手语识别模块601，用于将采集到聋哑人的手语视频转换为文本信息；所述文本信息对应的语种与所述手语视频对应的语种相同；

所述机器翻译模块502，还用于将所述手语识别模块601生成的文本信息翻译为健全人的语种对应的文本信息；

所述语音合成模块602，用于利用所述机器翻译模块502翻译得到的健全人的语种对应的文本信息，生成语音信息。

具体地，所述手语识别模块601将采集到聋哑人的手语视频转换为文本信息的过程与图3所示的同声传译方法的步骤301～步骤302的实现过程相同；所述机器翻译模块502生成健全人的语种对应的文本信息的过程与图3所示的同声传译方法的步骤303的实现过程相同；所述语音合成模块602生成语音信息的过程与图3所示的同声传译方法的步骤304的实现过程相同；这里不多赘述。

本应用实施例提供的同声传译装置以及聋哑人与健全人之间的两个同声传译场景，具备以下优点：

第一，提出了聋哑人与健全人之间的同声传译场景，提高了同声传译的普适性，增加了同声传译方法的受众人群，为聋哑人与健全人之间无障碍的沟通做出了贡献；同时，由于同声传译是一个实时场景，因此消除了时间延迟带来的聋哑人与健全人之间沟通效率低的问题，直接提高了聋哑人与健全人之间的沟通积极性。

第二，在聋哑人与健全人之间的同声传译场景中利用了机器翻译技术，能够实现不同语种的聋哑人和不同语种的健全人之间的同声传译，提高聋哑人和健全人之间的沟通效率，使得世界各地的聋哑人和健全人能够无障碍地沟通，为社会做出了贡献。

为了实现本发明实施例的方法，本发明实施例还提供了一种同声传译装置；如图7所示，同声传译装置700包括第一处理单元701和第二处理单元702；其中，

所述第一处理单元701，用于采集待处理的第一语音数据；对所述第一语音数据进行翻译，获得第一翻译文本；

所述第二处理单元702，用于利用所述第一翻译文本，生成第一视频数据；所述第一视频数据为手语视频数据；所述第一语音数据对应的语种不同于所述第一视频数据对应的语种；所述第一视频数据用于在播放所述第一语音数据时进行呈现；

或者，

所述第一处理单元701，用于采集待处理的第二视频数据；所述第二视频数据为手语视频数据；对所述第二视频数据进行手语识别，得到手语识别结果；以及利用手语识别结果对所述第二视频数据进行翻译，获得第二翻译文本；

所述第二处理单元702，用于利用所述第二翻译文本，生成第二语音数据；所述第二视频数据对应的语种不同于所述第二语音数据对应的语种；所述第二语音数据用于在呈现所述第二手语视频数据时进行播放。

在一实施例中，所述第二处理单元702，具体用于：

将所述第一翻译文本划分成至少一个文本片段；

利用所述至少一个视频片段，合成所述第一视频数据。

在一实施例中，所述第二处理单元702，具体用于：

在一实施例中，所述第二处理单元702，还具体用于：

在一实施例中，所述第二处理单元702，具体用于：

将与所述相应文本片段的文本匹配度满足预设条件的预设文本片段对应的手语动作描述文本确定为所述相应文本片段对应的手语动作描述文本；其中，

所述与所述相应文本片段的文本匹配度满足预设条件的预设文本片段，包括以下之一：

在一实施例中，所述第二处理单元702，具体用于：

将所述第二翻译文本划分成至少一个文本片段；

利用所述至少一个语音片段，合成所述第二语音数据。

在一实施例中，利用所述待处理的第一语音数据或所述待处理的第二视频数据获得的同声传译数据对应至少一种语种；所述第二处理单元702，还用于：

其中，所述第一处理单元701和所述第二处理单元702的功能相当于上述应用实施例中的语音识别模块501、机器翻译模块502和动画渲染模块503的功能；或者，所述第一处理单元701和所述第二处理单元702的功能相当于上述应用实施例中的手语识别模块601、机器翻译模块502和语音合成模块602的功能。

实际应用时，所述第一处理单元701和所述第二处理单元702可由同声传译装置700中的处理器结合通信接口实现。

需要说明的是：上述实施例提供的同声传译装置700在进行同声传译时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的同声传译装置700与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

基于上述设备的硬件实现，本申请实施例还提供了一种电子设备，所述电子设备可以是同声传译服务器或同声传译装置。图8为本申请实施例的电子设备的硬件组成结构示意图，如图8所示，电子设备80包括存储器83、处理器82及存储在存储器83上并可在处理器82上运行的计算机程序；位于电子设备80的处理器82执行所述程序时实现上述服务器侧一个或多个技术方案提供的方法。

具体地，位于电子设备80的处理器82执行所述程序时实现：采集待处理的第一语音数据；对所述第一语音数据进行翻译，获得第一翻译文本；利用所述第一翻译文本，生成第一视频数据；所述第一视频数据为手语视频数据；所述第一语音数据对应的语种不同于所述第一视频数据对应的语种；所述第一视频数据用于在播放所述第一语音数据时进行呈现；

或者，

需要说明的是，位于电子设备80的处理器82执行所述程序时实现的具体步骤已在上文详述，这里不再赘述。

可以理解，电子设备80还包括通信接口81；所述通信接口81用于与其它终端进行通信。电子设备80中的各个组件通过总线系统84耦合在一起。可理解，总线系统84配置为实现这些组件之间的连接通信。总线系统84除包括数据总线之外，还包括电源总线、控制总线和状态信号总线等。

可以理解，本实施例中的存储器83可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，ReadOnly Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，RandomAccess Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本申请实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

上述本申请实施例揭示的方法可以应用于处理器82中，或者由处理器82实现。处理器82可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器82中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器82可以是通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器82可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器，处理器82读取存储器中的信息，结合其硬件完成前述方法的步骤。

本申请实施例还提供了一种存储介质，具体为计算机存储介质，更具体的为计算机可读存储介质。其上存储有计算机指令，即计算机程序，该计算机指令被处理器执行时实现上述服务器侧一个或多个技术方案提供的方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和智能设备，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个第二处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是：“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

另外，本申请实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种同声传译方法，其特征在于，包括：

采集待处理的第一语音数据；对所述第一语音数据进行翻译，获得第一翻译文本；利用所述第一翻译文本，生成第一视频数据；其中，所述第一语音数据对应至少两个语种；所述第一视频数据为手语视频数据；所述第一语音数据对应的语种不同于所述第一视频数据对应的语种；所述第一视频数据用于在播放所述第一语音数据时进行呈现；

将至少一种语种对应的同声传译数据，按语种进行分类缓存；所述同声传译数据包括所述第一视频数据；

接收客户端发送的获取请求；所述获取请求用于获取所述同声传译数据；所述获取请求至少包括：目标语种；

从缓存的所述同声传译数据中获取所述目标语种对应的同声传译数据；

将获取的所述目标语种对应的同声传译数据发送给所述客户端。

2.根据权利要求1所述的方法，其特征在于，所述利用所述第一翻译文本，生成第一视频数据，包括：

将所述第一翻译文本划分成至少一个文本片段；

利用所述至少一个视频片段，合成所述第一视频数据。

3.根据权利要求2所述的方法，其特征在于，所述针对所述至少一个文本片段中的每个文本片段，生成相应文本片段对应的视频片段，包括：

4.根据权利要求3所述的方法，其特征在于，针对所述至少一个文本片段中的每个文本片段，基于第一信息库，确定相应文本片段对应的手语动作描述文本；

5.根据权利要求4所述的方法，其特征在于，所述基于第一信息库，确定相应文本片段对应的手语动作描述文本，包括：

6.根据权利要求5所述的方法，其特征在于，所述与所述相应文本片段的文本匹配度满足预设条件的预设文本片段，包括以下之一：

7.一种同声传译装置，其特征在于，包括：第一处理单元及第二处理单元；其中，

所述第一处理单元，用于采集待处理的第一语音数据；对所述第一语音数据进行翻译，获得第一翻译文本；其中，所述第一语音数据对应至少两个语种；

所述第二处理单元，用于利用所述第一翻译文本，生成第一视频数据；所述第一视频数据为手语视频数据；所述第一语音数据对应的语种不同于所述第一视频数据对应的语种；所述第一视频数据用于在播放所述第一语音数据时进行呈现；将至少一种语种对应的同声传译数据，按语种进行分类缓存；所述同声传译数据包括所述第一视频数据；接收客户端发送的获取请求；所述获取请求用于获取所述同声传译数据；所述获取请求至少包括：目标语种；从缓存的所述同声传译数据中获取所述目标语种对应的同声传译数据；将获取的所述目标语种对应的同声传译数据发送给客户端。

8.一种电子设备，其特征在于，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器；

其中，所述处理器用于运行所述计算机程序时，执行权利要求1至6任一项所述方法的步骤。

9.一种存储介质，所述介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。