CN104252861A

CN104252861A - 视频语音转换方法、装置和服务器

Info

Publication number: CN104252861A
Application number: CN201410461061.8A
Authority: CN
Inventors: 秦铎浩; 沈国龙
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-09-11
Filing date: 2014-09-11
Publication date: 2014-12-31
Anticipated expiration: 2034-09-11
Also published as: CN104252861B; WO2016037440A1

Abstract

本发明实施例公开了一种视频语音转换方法、装置和服务器，涉及多媒体处理技术领域，用于降低视频中语音的翻译成本，提高翻译效率及其准确性。该方法中，提取视频中的源语言的语音信号，将该源语言的语音信号进行分段，得到至少一段源语言的子语音信号；对于每段源语言的子语音信号，根据预先建立的语音模型将该源语言的子语音信号转换为目标语言的子语音信号；将得到的各段目标语言的子语音信号与所述视频进行合并，得到包含目标语言的语音信号的视频。采用本发明可以降低视频中语音的翻译成本，提高翻译效率及其准确性。

Description

视频语音转换方法、装置和服务器

技术领域

本发明实施例涉及多媒体处理技术领域，尤其涉及一种视频语音转换方法、装置和服务器。

背景技术

在生活中很多时候会接触到外语类视频，比如好莱坞电影、外语的学习教程视频等，对于外语不好的人来说看这些视频时是需要一些辅助的翻译字幕的，但是很多时候外语类视频是没有字幕的，若观看者听不懂外语，这时的外语类视频对于观看者来讲是没有任何意义的。

现有技术中为了使人们能够看懂外语类视频，主要采用以下三种方式：一种是预先在外语类视频中添加人工翻译得到的字幕；另外一种是将外语类视频制作为译制片，译制片中的语音为人工国语配音；第三种是在视频播放现场，由同声传译的专家使用速记等方式实时对视频中的语音进行人工翻译并传达翻译结果。

现有技术存在的缺陷在于：上述三种方式均由人工实现语音的翻译转换，成本较高、效率低下，并且准确性也难以得到保证。

发明内容

本发明提供一种视频语音转换方法、装置和服务器，以降低视频中语音的翻译成本，提高翻译效率及其准确性。

第一方面，本发明实施例提供了一种视频语音转换方法，包括：

提取视频中的源语言的语音信号，将该源语言的语音信号进行分段，得到至少一段源语言的子语音信号；

对于每段源语言的子语音信号，根据预先建立的语音模型将该源语言的子语音信号转换为目标语言的子语音信号；

将得到的各段目标语言的子语音信号与所述视频进行合并，得到包含目标语言的语音信号的视频。

第二方面，本发明实施例还提供了一种视频语音转换装置，包括：

源语音提取单元，用于提取视频中的源语言的语音信号

源语音处理单元，用于将所述源语言的语音信号进行分段，得到至少一段源语言的子语音信号；

目标语音转换单元，用于对于每段源语言的子语音信号，根据预先建立的语音模型将该源语言的子语音信号转换为目标语言的子语音信号；

语音视频合并单元，用于将得到的各段目标语言的子语音信号与所述视频进行合并，得到包含目标语言的语音信号的视频。

第三方面，本发明实施例还提供了一种服务器，包括所述视频语音转换装置。

本发明实施例中，提取视频中的源语言的语音信号，将该源语言的语音信号进行分段，得到至少一段源语言的子语音信号，对于每段源语言的子语音信号，根据预先建立的语音模型将该源语言的子语音信号转换为目标语言的子语音信号，然后将得到的各段目标语言的子语音信号与该视频进行合并，得到包含目标语言的语音信号的视频，可见，本方案通过语音模型实现了自动翻译转换视频中的语音信号的目的，无需人工参与，降低了成本并提高了翻译转换效率，同时可以避免人工翻译转换所带来的准确性较低的问题，通过自动翻译转换使得其结果准确性可以得到较好保证。

附图说明

图1A为本发明实施例一提供的视频语音转换方法的流程示意图；

图1B为本发明实施例一提供的源语言的语音信号分段方法示意图；

图2A是本发明实施例二提供的视频语音转换方法的流程示意图；

图2B是本发明实施例二提供的用户选择目标语言类型的界面示意图；

图3是本发明实施例三提供的视频语音转换方法的流程示意图；

图4是本发明实施例四提供的视频语音转换装置的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一：

图1A为本发明实施例一提供的视频语音转换方法的流程图，图1B为本发明实施例一提供的源语言的语音信号的分段示意图。本实施例可适用于需要将视频中的源语言的语音信号转化为目标语言的语音信号的情况，该方法可以由视频语音转换装置来执行，该装置可以设置在服务器中。该方法具体包括如下操作：

101：提取视频中的源语言的语音信号，将该源语言的语音信号进行分段，得到至少一段源语言的子语音信号；

这里，在视频中的源语言的语音信号较长时，按照一定方法将该源语言的语音信号进行分段可能得到多段源语言的子语音信号，在视频中的源语言的语音信号较短时，按照一定方法将该源语言的语音信号进行分段可能仅得到一段源语言的子语音信号。

102：对于每段源语言的子语音信号，根据预先建立的语音模型将该源语言的子语音信号转换为目标语言的子语音信号；

103：将得到的各段目标语言的子语音信号与所述视频进行合并，得到包含目标语言的语音信号的视频。

具体的，操作101中提取视频中的源语言的语音信号，具体实现可以如下：

提取视频中的音频信号，根据语音信号的频率特征从该音频信号中提取出源语言的语音信号。例如，首先获得提取得到的音频信号的频率信息，然后提取频率在300～3400HZ范围内的音频信号作为语音信号。

具体的，操作101中将该源语言的语音信号进行分段，具体实现可以如下：根据该源语言的语音信号的振幅进行分段。例如，可以将每两次振幅为0的时间点之间的信号划分为一段子语音信号，如图1B所示，将时间点00:01与时间点00:03:73之间的信号划分为一段子语音信号；具体实现流程可以如下：

A、查找源语言的语音信号中第一次出现的振幅为0的信号的时间点，将第一次出现的振幅为0的信号的时间点作为开始时间点t0；

B、查找源语言的语音信号中当前的开始时间点t0后的第一次出现的振幅为0的信号的时间点，将当前的开始时间点t0后的第一次出现的振幅为0的信号的时间点作为结束时间点t1；

C、将当前的开始时间点t0和结束时间点t1之间的语音信号划分为一段子语音信号；

D、判断是否还有剩余的语音信号，若是则继续查找源语言的语音信号中当前的结束时间点t1后的第一次出现的振幅为0的信号的时间点，将当前的结束时间点t1后的第一次出现的振幅为0的信号的时间点作为开始时间点t0，并返回步骤B，否则本流程结束。

较佳的，为了从带有噪声的语音信号中提取尽可能纯净的语音信号，进而提高语言翻译转换的精确度，在操作101中提取视频中的源语言的语音信号之后、将该源语言的语音信号进行分段之前，进一步包括：将该源语言的语音信号进行去噪处理。具体的，去噪处理可以通过语音增强算法实现，语音增强算法包括但不限于：基于谱相减的语音增强算法、基于小波分析的语音增强算法、基于独立分量分析的语音增强方法、基于神经网络的语音增强方法等。

具体的，操作102中对于每段源语言的子语音信号，根据预先建立的语音模型将该源语言的子语音信号转换为目标语言的子语音信号，具体实现可以如下：

对于每段源语言的子语音信号，将该段源语言的子语音信号输入预先建立的语音模型，得到该语音模型输出的该段源语言的子语音信号对应的源语言的子文本数据，将该段源语言的子语音信号对应的源语言的子文本数据翻译为目标语言的子文本数据，采用语音合成技术将该目标语言的子文本数据合成为目标语言的子语音信号。例如，在源语言为英文，目标语言为中文时，对于每段英文的子语音信号，将该段英文的子语音信号输入预先建立的语音模型，得到该语音模型输出的该段英文的子语音信号对应的英文的子文本数据(英文字符)，将该段英文的子语音信号对应的英文的子文本数据翻译为中文的子文本数据(中文字符)，采用语音合成技术将该中文的子文本数据合成为中文的子语音信号。

上述语音模型是通过预先的数据训练得到的、用于实现根据输入的语音信号得到该语音信号对应的文本数据的数据模型。较佳的，可以预先针对不同的领域分别生成语音模型，例如分别针对军事领域、科技领域、文艺领域等分别生成语音模型；相应的，在操作102中使用的语音模型可以是当前视频所属的领域对应的语音模型，从而提高所得到的文本数据的精确度。比如，若当前视频属于军事领域，则使用军事领域对应的语音模型，若当前视频属于技术领域，则使用技术领域对应的语音模型，等等。

具体的，上述采用语音合成技术将该目标语言的子文本数据合成为目标语言的子语音信号，具体实现可以如下：

采用自然语言处理技术将该目标语言的子文本数据处理为计算机能够理解的文本数据，该处理过程中可以包括文本规整、词的切分、语法分析和语义分析等自然语言处理过程；然后，对该文本数据进行韵律处理，得到合成后的子语音信号的音段特征，该音频特征包括音高、音长、音强中的至少一个，使合成后的子语音信号能正确表达语意；最后，采用声学处理技术，根据计算机能够理解的文本数据得到具有该音段特征的目标语言的子语音信号。举例说明，声学处理技术可以是LPC(线性预测编码)技术，PSOLA(基音同步叠加)合成技术、基于LMA声道模型的语音合成技术等。

进一步的，在操作101中对源语言的语音信号分段时保留每段源语言的子语音信号的时间戳(包括开始时间和结束时间)，使得操作102中转换得到的每段目标语言的子语音信号中也包含对应的源语言的子语音信号的时间戳；相应的，在操作103中将得到的各段目标语言的子语音信号与视频进行合并，具体实现可以如下：对于每段目标语言的子语音信号，将该段目标语言的子语音信号合并到视频中该段目标语言的子语音信号的时间戳所对应的播放位置。例如，假设共有三段目标语言的子语音信号，第一段目标语言的子语音信号对应的时间戳为00:10:00-00:20:00，第二段目标语言的子语音信号对应的时间戳为00:30:00-00:40:00，第三段目标语言的子语音信号对应的时间戳为00:50:00-00:60:00，那么，将第一段目标语言的子语音信号合并到视频中的播放位置00:10:00-00:20:00处，将第二段目标语言的子语音信号合并到视频中的播放位置00:30:00-00:40:00处，将第三段目标语言的子语音信号合并到视频中的播放位置00:50:00-00:60:00处。

本实施例的技术方案中，提取视频中的源语言的语音信号，将该源语言的语音信号进行分段，得到至少一段源语言的子语音信号，对于每段源语言的子语音信号，根据预先建立的语音模型将该源语言的子语音信号转换为目标语言的子语音信号，然后将得到的各段目标语言的子语音信号与该视频进行合并，得到包含目标语言的语音信号的视频，可见，本方案通过语音模型实现了自动翻译转换视频中的语音信号的目的，无需人工参与，降低了成本并提高了翻译转换效率，同时可以避免人工翻译转换所带来的准确性较低的问题，通过自动翻译转换使得其结果准确性可以得到较好保证。

实施例二：

图2A为本发明实施例二提供的视频语音转换方法，图2B为本发明实施例二中的用户选择目标语言类型的界面示意图。本实施例可适用于在播放视频前将视频中的源语言的语音信号转化为目标语言的语音信号的情况，该方法可以由视频语音转换装置和视频播放装置来执行，视频语音转换装置和视频播放装置可以设置在同一服务器中也可以设置在不同服务器中。该方法具体包括如下操作：

201：视频语音转换装置根据设置信息确定需要转换的至少一种目标语言；

202：视频语音转换装置对于每种需要转换的目标语言，分别执行如下操作：提取视频中的源语言的语音信号，将该源语言的语音信号进行分段，得到至少一段源语言的子语音信号；对于每段源语言的子语音信号，根据预先建立的语音模型将该源语言的子语音信号转换为当前目标语言的子语音信号；将得到的各段当前目标语言的子语音信号与该视频进行合并，得到包含当前目标语言的语音信号的视频，并存储该视频；

本操作可以参见实施例一的具体描述，这里不再赘述。

203：视频语音播放装置接收到视频播放请求，该播放请求中包含用户选择或自动选定的目标语言类型；

其中，用户选择目标语言类型的示例可以参见图2B，用户可以在“同声传译”的菜单中选择普通话或四川话作为目标语言类型；

204：视频语音播放装置从视频语音转换装置获取包含播放请求中的目标语言类型对应的目标语言的语音信号的视频，并将获取到的视频发送给终端设备进行播放。

本实施例的技术方案中，在播放视频前，对于预先设置的每种目标语言，按照实施例一的方法将视频中的源语言的语音信号转化为目标语言的语音信号，得到包含目标语言的语音信号的视频；在接收到包含用户选择或自动选定的目标语言类型的播放请求时，获取包含播放请求中的目标语言类型对应的目标语言的语音信号的视频并播放该视频。可见，采用本方案可以满足对同一视频采用不同语言进行播放的需求，并且由于对视频中语音信号的翻译转换在播放之前完成，用户在提交播放请求后无需等待翻译转换的时间，使得系统响应视频播放请求的速度较快，用户体验较好。

实施例三：

图3为本发明实施例三提供的视频语音转换方法。本实施例可适用于接收到播放请求后实时将视频中的源语言的语音信号转化为目标语言的语音信号的情况，该方法可以由视频语音转换装置和视频播放装置来执行，视频语音转换装置和视频播放装置可以设置在同一服务器或不同服务器中。该方法具体包括如下操作：

301：视频语音播放装置接收到视频播放请求，该播放请求中包含用户选择或自动选定的目标语言类型；

302：视频语音转换装置执行如下操作：提取视频中的源语言的语音信号，将该源语言的语音信号进行分段，得到至少一段源语言的子语音信号；对于每段源语言的子语音信号，根据预先建立的语音模型将该源语言的子语音信号转换为视频播放请求中的目标语言类型对应的目标语言的子语音信号；将得到的各段目标语言的子语音信号与该视频进行合并，得到包含该目标语言的语音信号的视频；

本操作可以参见实施例一的具体描述，这里不再赘述。

303：视频语音播放装置将视频语音转换装置得到的包含目标语言的语音信号的视频，发送给终端设备进行播放。

本实施例的技术方案中，在接收到视频播放请求后，按照实施例一的方法将视频中的源语言的语音信号转化为视频播放请求所指示的目标语言的语音信号，得到包含目标语言的语音信号的视频，并播放该视频。可见，采用本方案可以满足对同一视频采用不同语言进行播放的需求，并且由于对视频中语音信号的翻译转换在接收到播放请求执行，无需预先进行针对不同目标语言的翻译转换以及视频存储，从而可以节省系统资源。

实施例四：

图4为本发明实施例四提供的视频语音转换装置的结构示意图。具体的，该装置包括：

源语音提取单元401，用于提取视频中的源语言的语音信号

源语音处理单元402，用于将所述源语言的语音信号进行分段，得到至少一段源语言的子语音信号；

目标语音转换单元403，用于对于每段源语言的子语音信号，根据预先建立的语音模型将该源语言的子语音信号转换为目标语言的子语音信号；

语音视频合并单元404，用于将得到的各段目标语言的子语音信号与所述视频进行合并，得到包含目标语言的语音信号的视频。

进一步的，所述源语音提取单元401，具体用于：

提取视频中的音频信号，根据语音信号的频率特征从所述音频信号中提取出源语言的语音信号。

进一步的，所述源语音处理单元402具体用于：

根据该源语言的语音信号的振幅进行分段。

进一步的，所述源语音处理单元402还用于：

在将该源语言的语音信号进行分段之前，将该源语言的语音信号进行去噪处理。

进一步的，所述目标语音转换单元403具体用于：

对于每段源语言的子语音信号，将该段源语言的子语音信号输入预先建立的语音模型，得到该语音模型输出的该段源语言的子语音信号对应的源语言的子文本数据，将该段源语言的子语音信号对应的源语言的子文本数据翻译为目标语言的子文本数据，采用语音合成技术将该目标语言的子文本数据合成为目标语言的子语音信号。

进一步的，所述目标语音转换单元403具体用于：按照如下方式采用语音合成技术将该目标语言的子文本数据合成为目标语言的子语音信号：

采用自然语言处理技术将该目标语言的子文本数据处理为计算机能够理解的文本数据；对该文本数据进行韵律处理，得到合成后的子语音信号的音段特征；采用声学处理技术，根据所述计算机能够理解的文本数据得到具有所述音段特征的目标语言的子语音信号。

进一步的，所述源语音处理单元402在对源语言的语音信号分段时保留每段源语言的子语音信号的时间戳；

所述语音视频合并单元404具体用于：对于每段目标语言的子语音信号，将该段目标语言的子语音信号合并到视频中该段目标语言的子语音信号的时间戳所对应的播放位置。

上述软件升级装置可执行本发明实施例所提供的软件升级方法，具备执行方法相应的功能模块和有益效果。

本发明实施例还提供一种服务器，该服务器包括上述视频语音转换装置。该服务器具体可以是PC(Personal Computer，个人计算机)、笔记本电脑等设备。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种视频语音转换方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述提取视频中的源语言的语音信号，具体包括：

3.根据权利要求1所述的方法，其特征在于，所述将该源语言的语音信号进行分段，具体包括：根据该源语言的语音信号的振幅进行分段。

4.根据权利要求1所述的方法，其特征在于，在提取视频中的源语言的语音信号之后、将该源语言的语音信号进行分段之前，进一步包括：将该源语言的语音信号进行去噪处理。

5.根据权利要求1-4中任一所述的方法，其特征在于，所述对于每段源语言的子语音信号，根据预先建立的语音模型将该源语言的子语音信号转换为目标语言的子语音信号，具体包括：

6.根据权利要求5所述的方法，其特征在于，所述采用语音合成技术将该目标语言的子文本数据合成为目标语言的子语音信号，具体包括：

7.根据权利要求1-4中任一所述的方法，其特征在于，进一步包括：在对源语言的语音信号分段时保留每段源语言的子语音信号的时间戳；在将每段源语言的子语音信号转换为目标语言的子语音信号时将当前段源语言的子语音信号的时间戳添加到转换后的对应的目标语言的子语音信号中；

所述将得到的各段目标语言的子语音信号与所述视频进行合并，具体包括：

对于每段目标语言的子语音信号，将该段目标语言的子语音信号合并到视频中该段目标语言的子语音信号的时间戳所对应的播放位置。

8.一种视频语音转换装置，其特征在于，包括：

源语音提取单元，用于提取视频中的源语言的语音信号

9.根据权利要求8所述的装置，其特征在于，所述源语音提取单元，具体用于：

10.根据权利要求8所述的装置，其特征在于，所述源语音处理单元具体用于：

根据该源语言的语音信号的振幅进行分段。

11.根据权利要求8所述的装置，其特征在于，所述源语音处理单元还用于：

12.根据权利要求8-11中任一所述的装置，其特征在于，所述目标语音转换单元具体用于：

13.根据权利要求12所述的装置，其特征在于，所述目标语音转换单元具体用于：按照如下方式采用语音合成技术将该目标语言的子文本数据合成为目标语言的子语音信号：

14.根据权利要求8-11中任一所述的装置，其特征在于，所述源语音处理单元在对源语言的语音信号分段时保留每段源语言的子语音信号的时间戳；所述目标语音转换单元在将每段源语言的子语音信号转换为目标语言的子语音信号时将当前段源语言的子语音信号的时间戳添加到转换后的对应的目标语言的子语音信号中；

所述语音视频合并单元具体用于：对于每段目标语言的子语音信号，将该段目标语言的子语音信号合并到视频中该段目标语言的子语音信号的时间戳所对应的播放位置。

15.一种服务器，其特征在于，包括如权利要求8-14中任一所述的视频语音转换装置。