CN112423106A

CN112423106A - 一种自动翻译伴音的方法及系统

Info

Publication number: CN112423106A
Application number: CN202011230016.3A
Authority: CN
Inventors: 李强; 龚强; 叶壮斌; 薛群波; 杨方珍
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2021-02-26

Abstract

本发明公开了一种自动翻译伴音的方法，包括提取原始视频的原始伴音音轨，并记录提取所述原始伴音音轨的时间戳；将所述原始伴音音轨进行处理和分析，得到文本信息、声音特性信息和情感模型；获取目标伴音译本，并根据原始伴音的分析结果对伴音译本进行音效处理，获得目标伴音音轨；将目标伴音音轨按照所述原始伴音音轨的时间戳，与视频画面相结合，实现音画同步。另外，本发明还公开了一种自动翻译伴音的系统，通过本发明用户将目标伴音语种设置为自己所喜好的语种，并通过该系统实现自动翻译伴音，使伴音更加符合原始场景及情感模型，以便提高自动翻译伴音的及时性和音画统一性，达到实时的音画同步，提升用户体验感。

Description

一种自动翻译伴音的方法及系统

技术领域

本发明涉及视频处理技术领域，特别涉及一种自动翻译伴音的方法及系统。

背景技术

电视机提供给人的两大体验分别为视觉体验和听觉体验，其中，内容节目的伴音语种是听觉体验中的一个重要元素。在全球化的今天，视频节目内容可能来自全球不同的国家和地区，其携带的音轨是有限的。比如，一部来自阿拉伯地区制作的影片可能其自带的音轨只有阿拉伯语和英语，在其他国家播放时，可能需要重新进行配音制作。在影视片快速消费的今天，类似的影片引进的时候并没有提供响应的配音，用户能体验到的伴音语种完全取决于内容提供方，无法满足不同用户的需求。

发明内容

为解决现有技术中存在的问题，本发明的目的是提供一种自动翻译伴音的方法及系统，实现较为贴近原始伴音效果和场景的译本伴音，满足不同语种用户对伴音的需求。

为实现上述目的，本发明采用的技术方案是

一种自动翻译伴音的方法，包括以下步骤：提取原始视频的原始伴音音轨，并记录提取所述原始伴音音轨的时间戳；将所述原始伴音音轨进行处理和分析，得到文本信息、声音特性信息和情感模型；获取目标伴音译本，并根据原始伴音的分析结果对伴音译本进行音效处理，获得目标伴音音轨；将目标伴音音轨按照所述原始伴音音轨的时间戳，与视频画面相结合，实现音画同步。

在其中一个实施例中，通过截取原始视频的图像帧，并调用图像识别算法识别出图像的场景，通过所述场景为译本伴音的所述情感模型进行佐证。

在其中一个实施例中，所述图像场景包括新闻场景、打斗场景、电话场景、对话场景、旁白场景和多人场景。

在其中一个实施例中，所述原始伴音音轨进行处理和分析还包括：对原始伴音音轨进行语种分析，以便获得所述文本信息。

在其中一个实施例中，通过提前提取所述原始伴音音轨，实现实时伴音翻译。

在其中一个实施例中，通过调用时移法，对所述视频画面进行延迟播放，实现提前提取原始伴音音轨。

在其中一个实施例中，上述自动翻译伴音的方法还包括：设置目标伴音语种；获取所设置目标伴音语种的伴音数据，从所述伴音数据中获得目标伴音译本。

本发明的技术方案还包括一种自动翻译伴音的系统，包括设备终端，通过所述设备终端实现上述的方法，所述设备终端包括伴音数据库、原音分析处理单元、伴音处理单元、同步单元和播放单元；所述伴音数据库，用于存储伴音数据；所述原音分析处理单元，用于提取原始视频的原始伴音音轨，记录提取所述原始伴音音轨的时间戳；并将所述原始伴音音轨进行处理和分析，得到相应的文本信息、声音特性信息和情感模型；所述伴音处理单元，用于根据所述原音分析处理单元的分析结果对伴音译本进行音效处理，获得目标伴音音轨；所述同步单元，用于将目标伴音音轨按照所述原始伴音音轨的时间戳，与视频画面相结合；所述播放单元，用于所述同步单元处理后的视频数据进行实时播放。

在其中一个实施例中，所述设备终端还包括设置单元和获取单元，所述设置单元，用于设置目标伴音语种；所述获取单元，用于获取所设置目标伴音语种的伴音数据。

在其中一个实施例中，所述系统还包括远程服务器，从所述远程服务器中获取伴音数据存入所述设备终端的伴音数据库中。

本发明的有益效果是：

通过本发明的自动翻译伴音方法及系统，用户可通过终端设备将目标伴音语种设置为自己所喜好的语种，并根据原始伴音音轨的文本信息、声音特性信息和情感模型等信息对获取的伴音数据进行处理，获得目标伴音音轨，并将目标伴音音轨按照时间戳信息加入到视频画面中，进行结合，实现音画同步。并通过提前提取、调用时移法实时对伴音进行翻译，使伴音的自动翻译更加符合原始场景及情感模型。提供一种快速、准确的自动翻译伴音的方法，提高自动翻译伴音的及时性和音画统一性，达到实时的音画同步，提升用户体验感。

附图说明

图1为本发明实施例一种自动翻译伴音的方法流程图。

图2为本发明实施例一种自动翻译伴音的系统结构示意图。

图3为本发明实施例设备终端101的结构示意图。

图4为本发明实施例设备终端102的结构示意图。

具体实施方式

以下描述用于揭露本发明以使相关领域技术人员能够实现本发明。以下描述中的实施例只作为举例，相关领域技术人员可以想到其他显而易见的变型均属于本发明的保护范围。

下面结合附图及实施例对本发明的方案作进一步的描述。现以将原始英语伴音自动转换为中文伴音为例来说明本专利描述方法的具体实施方式。

如附图1所示，本发明提出了一种自动翻译伴音的方法，包括以下步骤：

步骤S300，提取原始视频的原始伴音音轨，并记录提取所述原始伴音音轨的时间戳。在本实施例中，设备将原始视频内容中播放的音轨数据进行剥离提取，不直接传输给设备的主扬声器。对原始伴音音轨进行提取，并记录提取原始伴音音轨的时间信息，作为优选，采集伴音音轨的频率为5000ms/段。

步骤S400，将所述原始伴音音轨进行转换、分析，得到文本信息、声音特性信息和情感模型。在本实施例中，可通过设备系统自带的屏幕截图方法截取原始视频中出现对白时的当前图像帧，调用在设备软件中嵌入的图像识别算法识别出图像的场景和发出声人的性别，通过识别图像的场景为译本伴音使用的情感模型提供佐证。其中，图像的场景包括新闻场景、打斗场景、电话场景、对话场景、旁白场景和多人场景等等。

然后，调用设备系统中嵌入的多语种识别技术，比如科大讯飞的多语种识别技术，将原始伴音音轨进行语种分析和语言声音转文本数据，识别出原始伴音的语种，将每一条原始伴音的对版转换为文本信息。根据原始伴音的音效数据和得到的图像场景信息，分析出该句伴音对白的情感模型。同时，记录每一段伴音采集的时间戳。

步骤S500，获取目标伴音译本，并根据原始伴音的分析结果对伴音译本进行处理，获得目标伴音音轨。设备根据目标伴音语种和原始伴音语种，调用嵌入设备系统的多语种翻译模块的翻译接口函数，取得目标伴音语种的文字译本。将此文字译本、目标语种以及情感模型作为参数输入去访问设备的伴音数据库，提取符合当前情感模型的伴音译本，并依据从原始伴音中提取到的伴音特征参数，将译本伴音中的重点词语进行声调、响度和音色上的修饰性调整，在译本语句中加入语速和停顿优化，使得目标伴音的效果更加贴近原始伴音的特征，并将每一帧段伴音翻译为目标译本并作为设备的目标伴音音轨。

步骤S600，将目标伴音音轨按照所述原始伴音音轨的时间戳，与原始视频的视频画面相结合，实现音画同步。本实施例自动伴音翻译手段的实现需要实时伴音翻译，因此，需要提前提取原始伴音音轨，并为算法及响应时间预留延时时间，保证目标伴音音轨和影片图像同步。例如，可在设备上设置一个图像延迟时间，延迟时间以100ms为单位，当用户设置图像延迟时间为5000ms时，设备系统将视频图像通过调用时移法将5000ms内的图像存放于缓冲区，实现画面延迟5000ms播放；并随着芯片运算速度的提高，音画不同步的现象也会逐渐减轻，从而达到近视无延迟的播放效果。

本实施例一种自动翻译伴音的方法，如附图1所示，还可以包括

步骤S100，设置目标伴音语种，判断本地伴音数据库中是否存在所设置的目标伴音语种；若存在，则进入步骤S300，若不存在，则进行步骤S200。可通过在设备的UI上设计一个伴音语种的选项，用户通过点击进行伴音语种的选择，当然，也可通过其他形式进行设置，例如，语音设置、触摸设置、鼠标设置、键盘设置等方式进行选择或输入设置。其中，可选的伴音语种类型包含伴音数据库中的语种类型和所播放内容中自带的语种类型。

步骤S200，根据所设置的伴音语种从伴音数据库中获取伴音数据，以便从所述伴音数据中获得目标伴音译本。伴音数据库按语种类型进行分类存储，且同一语种的伴音数据对同一句对白包含有不少于六种的情绪表达方式，以实现同一句对白在不同的情感模型下，使用不同情绪进行表达。例如，生气(angry)、高兴(happy)、害怕(fear)、悲伤(sad)、惊讶(surprise)和中性(neutral)等。

数据的存储和索引结构可采用如下示例：

在其中一个实施例中，本发明公开了一种自动翻译伴音的系统，包括通信连接的设备终端和远程服务器，且设备终端和远程服务器上都建立有伴音数据库，伴音数据库中的单词、短语等语句至少包含有六种情绪；定期更新远程服务器的伴音数据库，提供给设备终端进行下载。设置某一语言作为目标伴音语种后，设备终端从远程服务器下载该伴音语种的数据包到本地的伴音数据库，通过设备终端实现上述自动翻译伴音的方法。

如附图3所示，设备终端101至少具有伴音数据库、原音分析处理单元、伴音处理单元、同步单元和播放单元，所述伴音数据库和功能单元均进行通信连接，以实现信息传输。

伴音数据库，用于存储多种语种的伴音数据，以便满足用户的各种需求。

原音分析处理单元，用于提取原始视频的原始伴音音轨，记录提取所述原始伴音音轨的时间戳；并将所述原始伴音音轨进行处理和分析，得到相应的文本信息、声音特性信息和情感模型。

伴音处理单元，遍历伴音数据库得到对应的目标伴音译本，并根据所述原音分析处理单元的分析结果对伴音译本进行音效处理，获得目标伴音音轨。

同步单元，用于将目标伴音音轨按照所述原始伴音音轨的时间戳，与视频画面相结合，实现音画同步。

播放单元，用于所述同步单元处理后的视频数据进行实时播放。

在另一个实施例中，如附图4所示，设备终端102还包括设置单元和获取单元，

设置单元，用户通过所述设置单元设置目标伴音语种。

获取单元，用于从远程服务器中获取所设置目标伴音语种的伴音数据，并存储至伴音数据库中。

在另一个实施例中，所述设备终端可以为过电脑或电视机等，如附图2所示，通过电视机系统和云端服务器实现上述自动翻译伴音的方法。

通过本发明的自动翻译伴音系统，实现上述自动翻译伴音的方法，用户只需要将伴音语种设置为自己所喜好的语种即可，设备自动将原始伴音音轨翻译为用户所设语种的伴音译本，并进行根据原始伴音的分析结果对伴音译本进行音效处理，呈现给用户更加符合场景和情感模型的伴音音效，并能够达到实时的音画同步，提升用户体验感。

在另一个实施例中，本发明还公开了一种计算机设备，包括通过系统总线连接的处理器、存储器和数据库。其中，数据库用于存储多种语种的伴音数据，以便满足用户的各种需求，存储器中储存有计算机程序，通过所述处理器执行所述计算机程序，完成上述功能单元的相应功能，以实现上述自动翻译伴音的方法。

以上所述实施例仅表达了本发明的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种自动翻译伴音的方法，其特征在于，包括：

提取原始视频的原始伴音音轨，并记录提取所述原始伴音音轨的时间戳；

将所述原始伴音音轨进行处理和分析，得到文本信息、声音特性信息和情感模型；

获取目标伴音译本，并根据原始伴音的分析结果对伴音译本进行音效处理，获得目标伴音音轨；

将目标伴音音轨按照所述原始伴音音轨的时间戳，与视频画面相结合，实现音画同步。

2.根据权利要求1所述自动翻译伴音的方法，其特征在于，通过截取原始视频的图像帧，并调用图像识别算法识别出图像的场景，通过所述场景为译本伴音的所述情感模型进行佐证。

3.根据权利要求2所述自动翻译伴音的方法，其特征在于，所述图像场景包括新闻场景、打斗场景、电话场景、对话场景、旁白场景和多人场景。

4.根据权利要求1所述自动翻译伴音的方法，其特征在于，所述原始伴音音轨进行处理和分析还包括：对原始伴音音轨进行语种分析，以便获得所述文本信息。

5.根据权利要求1所述自动翻译伴音的方法，其特征在于，通过提前提取所述原始伴音音轨，实现实时伴音翻译。

6.根据权利要求5所述自动翻译伴音的方法，其特征在于，通过调用时移法，对所述视频画面进行延迟播放，实现提前提取原始伴音音轨。

7.根据权利要求1-6任一项所述自动翻译伴音的方法，其特征在于，还包括：

设置目标伴音语种；

获取所设置目标伴音语种的伴音数据，从所述伴音数据中获得目标伴音译本。

8.一种自动翻译伴音的系统，包括设备终端，通过所述设备终端实现如权利要求1-7任一项所述的方法，其特征在于，所述设备终端包括伴音数据库、原音分析处理单元、伴音处理单元、同步单元和播放单元；

所述伴音数据库，用于存储伴音数据；

所述原音分析处理单元，用于提取原始视频的原始伴音音轨，记录提取所述原始伴音音轨的时间戳；并将所述原始伴音音轨进行处理和分析，得到相应的文本信息、声音特性信息和情感模型；

所述伴音处理单元，用于根据所述原音分析处理单元的分析结果对伴音译本进行音效处理，获得目标伴音音轨；

所述同步单元，用于将目标伴音音轨按照所述原始伴音音轨的时间戳，与视频画面相结合；

所述播放单元，用于所述同步单元处理后的视频数据进行实时播放。

9.根据权利要求8所述自动翻译伴音的系统，其特征在于，所述设备终端还包括设置单元和获取单元，所述设置单元，用于设置目标伴音语种；所述获取单元，用于获取所设置目标伴音语种的伴音数据。

10.根据权利要求9所述自动翻译伴音的系统，其特征在于，所述系统还包括远程服务器，从所述远程服务器中获取伴音数据存入所述设备终端的伴音数据库中。