CN104252861A - 视频语音转换方法、装置和服务器 - Google Patents

视频语音转换方法、装置和服务器 Download PDF

Info

Publication number
CN104252861A
CN104252861A CN201410461061.8A CN201410461061A CN104252861A CN 104252861 A CN104252861 A CN 104252861A CN 201410461061 A CN201410461061 A CN 201410461061A CN 104252861 A CN104252861 A CN 104252861A
Authority
CN
China
Prior art keywords
voice signal
sub
language
video
source language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410461061.8A
Other languages
English (en)
Other versions
CN104252861B (zh
Inventor
秦铎浩
沈国龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410461061.8A priority Critical patent/CN104252861B/zh
Priority to PCT/CN2014/094217 priority patent/WO2016037440A1/zh
Publication of CN104252861A publication Critical patent/CN104252861A/zh
Application granted granted Critical
Publication of CN104252861B publication Critical patent/CN104252861B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种视频语音转换方法、装置和服务器,涉及多媒体处理技术领域,用于降低视频中语音的翻译成本,提高翻译效率及其准确性。该方法中,提取视频中的源语言的语音信号,将该源语言的语音信号进行分段,得到至少一段源语言的子语音信号;对于每段源语言的子语音信号,根据预先建立的语音模型将该源语言的子语音信号转换为目标语言的子语音信号;将得到的各段目标语言的子语音信号与所述视频进行合并,得到包含目标语言的语音信号的视频。采用本发明可以降低视频中语音的翻译成本,提高翻译效率及其准确性。

Description

视频语音转换方法、装置和服务器
技术领域
本发明实施例涉及多媒体处理技术领域,尤其涉及一种视频语音转换方法、装置和服务器。
背景技术
在生活中很多时候会接触到外语类视频,比如好莱坞电影、外语的学习教程视频等,对于外语不好的人来说看这些视频时是需要一些辅助的翻译字幕的,但是很多时候外语类视频是没有字幕的,若观看者听不懂外语,这时的外语类视频对于观看者来讲是没有任何意义的。
现有技术中为了使人们能够看懂外语类视频,主要采用以下三种方式:一种是预先在外语类视频中添加人工翻译得到的字幕;另外一种是将外语类视频制作为译制片,译制片中的语音为人工国语配音;第三种是在视频播放现场,由同声传译的专家使用速记等方式实时对视频中的语音进行人工翻译并传达翻译结果。
现有技术存在的缺陷在于:上述三种方式均由人工实现语音的翻译转换,成本较高、效率低下,并且准确性也难以得到保证。
发明内容
本发明提供一种视频语音转换方法、装置和服务器,以降低视频中语音的翻译成本,提高翻译效率及其准确性。
第一方面,本发明实施例提供了一种视频语音转换方法,包括:
提取视频中的源语言的语音信号,将该源语言的语音信号进行分段,得到至少一段源语言的子语音信号;
对于每段源语言的子语音信号,根据预先建立的语音模型将该源语言的子语音信号转换为目标语言的子语音信号;
将得到的各段目标语言的子语音信号与所述视频进行合并,得到包含目标语言的语音信号的视频。
第二方面,本发明实施例还提供了一种视频语音转换装置,包括:
源语音提取单元,用于提取视频中的源语言的语音信号
源语音处理单元,用于将所述源语言的语音信号进行分段,得到至少一段源语言的子语音信号;
目标语音转换单元,用于对于每段源语言的子语音信号,根据预先建立的语音模型将该源语言的子语音信号转换为目标语言的子语音信号;
语音视频合并单元,用于将得到的各段目标语言的子语音信号与所述视频进行合并,得到包含目标语言的语音信号的视频。
第三方面,本发明实施例还提供了一种服务器,包括所述视频语音转换装置。
本发明实施例中,提取视频中的源语言的语音信号,将该源语言的语音信号进行分段,得到至少一段源语言的子语音信号,对于每段源语言的子语音信号,根据预先建立的语音模型将该源语言的子语音信号转换为目标语言的子语音信号,然后将得到的各段目标语言的子语音信号与该视频进行合并,得到包含目标语言的语音信号的视频,可见,本方案通过语音模型实现了自动翻译转换视频中的语音信号的目的,无需人工参与,降低了成本并提高了翻译转换效率,同时可以避免人工翻译转换所带来的准确性较低的问题,通过自动翻译转换使得其结果准确性可以得到较好保证。
附图说明
图1A为本发明实施例一提供的视频语音转换方法的流程示意图;
图1B为本发明实施例一提供的源语言的语音信号分段方法示意图;
图2A是本发明实施例二提供的视频语音转换方法的流程示意图;
图2B是本发明实施例二提供的用户选择目标语言类型的界面示意图;
图3是本发明实施例三提供的视频语音转换方法的流程示意图;
图4是本发明实施例四提供的视频语音转换装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一:
图1A为本发明实施例一提供的视频语音转换方法的流程图,图1B为本发明实施例一提供的源语言的语音信号的分段示意图。本实施例可适用于需要将视频中的源语言的语音信号转化为目标语言的语音信号的情况,该方法可以由视频语音转换装置来执行,该装置可以设置在服务器中。该方法具体包括如下操作:
101:提取视频中的源语言的语音信号,将该源语言的语音信号进行分段,得到至少一段源语言的子语音信号;
这里,在视频中的源语言的语音信号较长时,按照一定方法将该源语言的语音信号进行分段可能得到多段源语言的子语音信号,在视频中的源语言的语音信号较短时,按照一定方法将该源语言的语音信号进行分段可能仅得到一段源语言的子语音信号。
102:对于每段源语言的子语音信号,根据预先建立的语音模型将该源语言的子语音信号转换为目标语言的子语音信号;
103:将得到的各段目标语言的子语音信号与所述视频进行合并,得到包含目标语言的语音信号的视频。
具体的,操作101中提取视频中的源语言的语音信号,具体实现可以如下:
提取视频中的音频信号,根据语音信号的频率特征从该音频信号中提取出源语言的语音信号。例如,首先获得提取得到的音频信号的频率信息,然后提取频率在300~3400HZ范围内的音频信号作为语音信号。
具体的,操作101中将该源语言的语音信号进行分段,具体实现可以如下:根据该源语言的语音信号的振幅进行分段。例如,可以将每两次振幅为0的时间点之间的信号划分为一段子语音信号,如图1B所示,将时间点00:01与时间点00:03:73之间的信号划分为一段子语音信号;具体实现流程可以如下:
A、查找源语言的语音信号中第一次出现的振幅为0的信号的时间点,将第一次出现的振幅为0的信号的时间点作为开始时间点t0;
B、查找源语言的语音信号中当前的开始时间点t0后的第一次出现的振幅为0的信号的时间点,将当前的开始时间点t0后的第一次出现的振幅为0的信号的时间点作为结束时间点t1;
C、将当前的开始时间点t0和结束时间点t1之间的语音信号划分为一段子语音信号;
D、判断是否还有剩余的语音信号,若是则继续查找源语言的语音信号中当前的结束时间点t1后的第一次出现的振幅为0的信号的时间点,将当前的结束时间点t1后的第一次出现的振幅为0的信号的时间点作为开始时间点t0,并返回步骤B,否则本流程结束。
较佳的,为了从带有噪声的语音信号中提取尽可能纯净的语音信号,进而提高语言翻译转换的精确度,在操作101中提取视频中的源语言的语音信号之后、将该源语言的语音信号进行分段之前,进一步包括:将该源语言的语音信号进行去噪处理。具体的,去噪处理可以通过语音增强算法实现,语音增强算法包括但不限于:基于谱相减的语音增强算法、基于小波分析的语音增强算法、基于独立分量分析的语音增强方法、基于神经网络的语音增强方法等。
具体的,操作102中对于每段源语言的子语音信号,根据预先建立的语音模型将该源语言的子语音信号转换为目标语言的子语音信号,具体实现可以如下:
对于每段源语言的子语音信号,将该段源语言的子语音信号输入预先建立的语音模型,得到该语音模型输出的该段源语言的子语音信号对应的源语言的子文本数据,将该段源语言的子语音信号对应的源语言的子文本数据翻译为目标语言的子文本数据,采用语音合成技术将该目标语言的子文本数据合成为目标语言的子语音信号。例如,在源语言为英文,目标语言为中文时,对于每段英文的子语音信号,将该段英文的子语音信号输入预先建立的语音模型,得到该语音模型输出的该段英文的子语音信号对应的英文的子文本数据(英文字符),将该段英文的子语音信号对应的英文的子文本数据翻译为中文的子文本数据(中文字符),采用语音合成技术将该中文的子文本数据合成为中文的子语音信号。
上述语音模型是通过预先的数据训练得到的、用于实现根据输入的语音信号得到该语音信号对应的文本数据的数据模型。较佳的,可以预先针对不同的领域分别生成语音模型,例如分别针对军事领域、科技领域、文艺领域等分别生成语音模型;相应的,在操作102中使用的语音模型可以是当前视频所属的领域对应的语音模型,从而提高所得到的文本数据的精确度。比如,若当前视频属于军事领域,则使用军事领域对应的语音模型,若当前视频属于技术领域,则使用技术领域对应的语音模型,等等。
具体的,上述采用语音合成技术将该目标语言的子文本数据合成为目标语言的子语音信号,具体实现可以如下:
采用自然语言处理技术将该目标语言的子文本数据处理为计算机能够理解的文本数据,该处理过程中可以包括文本规整、词的切分、语法分析和语义分析等自然语言处理过程;然后,对该文本数据进行韵律处理,得到合成后的子语音信号的音段特征,该音频特征包括音高、音长、音强中的至少一个,使合成后的子语音信号能正确表达语意;最后,采用声学处理技术,根据计算机能够理解的文本数据得到具有该音段特征的目标语言的子语音信号。举例说明,声学处理技术可以是LPC(线性预测编码)技术,PSOLA(基音同步叠加)合成技术、基于LMA声道模型的语音合成技术等。
进一步的,在操作101中对源语言的语音信号分段时保留每段源语言的子语音信号的时间戳(包括开始时间和结束时间),使得操作102中转换得到的每段目标语言的子语音信号中也包含对应的源语言的子语音信号的时间戳;相应的,在操作103中将得到的各段目标语言的子语音信号与视频进行合并,具体实现可以如下:对于每段目标语言的子语音信号,将该段目标语言的子语音信号合并到视频中该段目标语言的子语音信号的时间戳所对应的播放位置。例如,假设共有三段目标语言的子语音信号,第一段目标语言的子语音信号对应的时间戳为00:10:00-00:20:00,第二段目标语言的子语音信号对应的时间戳为00:30:00-00:40:00,第三段目标语言的子语音信号对应的时间戳为00:50:00-00:60:00,那么,将第一段目标语言的子语音信号合并到视频中的播放位置00:10:00-00:20:00处,将第二段目标语言的子语音信号合并到视频中的播放位置00:30:00-00:40:00处,将第三段目标语言的子语音信号合并到视频中的播放位置00:50:00-00:60:00处。
本实施例的技术方案中,提取视频中的源语言的语音信号,将该源语言的语音信号进行分段,得到至少一段源语言的子语音信号,对于每段源语言的子语音信号,根据预先建立的语音模型将该源语言的子语音信号转换为目标语言的子语音信号,然后将得到的各段目标语言的子语音信号与该视频进行合并,得到包含目标语言的语音信号的视频,可见,本方案通过语音模型实现了自动翻译转换视频中的语音信号的目的,无需人工参与,降低了成本并提高了翻译转换效率,同时可以避免人工翻译转换所带来的准确性较低的问题,通过自动翻译转换使得其结果准确性可以得到较好保证。
实施例二:
图2A为本发明实施例二提供的视频语音转换方法,图2B为本发明实施例二中的用户选择目标语言类型的界面示意图。本实施例可适用于在播放视频前将视频中的源语言的语音信号转化为目标语言的语音信号的情况,该方法可以由视频语音转换装置和视频播放装置来执行,视频语音转换装置和视频播放装置可以设置在同一服务器中也可以设置在不同服务器中。该方法具体包括如下操作:
201:视频语音转换装置根据设置信息确定需要转换的至少一种目标语言;
202:视频语音转换装置对于每种需要转换的目标语言,分别执行如下操作:提取视频中的源语言的语音信号,将该源语言的语音信号进行分段,得到至少一段源语言的子语音信号;对于每段源语言的子语音信号,根据预先建立的语音模型将该源语言的子语音信号转换为当前目标语言的子语音信号;将得到的各段当前目标语言的子语音信号与该视频进行合并,得到包含当前目标语言的语音信号的视频,并存储该视频;
本操作可以参见实施例一的具体描述,这里不再赘述。
203:视频语音播放装置接收到视频播放请求,该播放请求中包含用户选择或自动选定的目标语言类型;
其中,用户选择目标语言类型的示例可以参见图2B,用户可以在“同声传译”的菜单中选择普通话或四川话作为目标语言类型;
204:视频语音播放装置从视频语音转换装置获取包含播放请求中的目标语言类型对应的目标语言的语音信号的视频,并将获取到的视频发送给终端设备进行播放。
本实施例的技术方案中,在播放视频前,对于预先设置的每种目标语言,按照实施例一的方法将视频中的源语言的语音信号转化为目标语言的语音信号,得到包含目标语言的语音信号的视频;在接收到包含用户选择或自动选定的目标语言类型的播放请求时,获取包含播放请求中的目标语言类型对应的目标语言的语音信号的视频并播放该视频。可见,采用本方案可以满足对同一视频采用不同语言进行播放的需求,并且由于对视频中语音信号的翻译转换在播放之前完成,用户在提交播放请求后无需等待翻译转换的时间,使得系统响应视频播放请求的速度较快,用户体验较好。
实施例三:
图3为本发明实施例三提供的视频语音转换方法。本实施例可适用于接收到播放请求后实时将视频中的源语言的语音信号转化为目标语言的语音信号的情况,该方法可以由视频语音转换装置和视频播放装置来执行,视频语音转换装置和视频播放装置可以设置在同一服务器或不同服务器中。该方法具体包括如下操作:
301:视频语音播放装置接收到视频播放请求,该播放请求中包含用户选择或自动选定的目标语言类型;
其中,用户选择目标语言类型的示例可以参见图2B,用户可以在“同声传译”的菜单中选择普通话或四川话作为目标语言类型;
302:视频语音转换装置执行如下操作:提取视频中的源语言的语音信号,将该源语言的语音信号进行分段,得到至少一段源语言的子语音信号;对于每段源语言的子语音信号,根据预先建立的语音模型将该源语言的子语音信号转换为视频播放请求中的目标语言类型对应的目标语言的子语音信号;将得到的各段目标语言的子语音信号与该视频进行合并,得到包含该目标语言的语音信号的视频;
本操作可以参见实施例一的具体描述,这里不再赘述。
303:视频语音播放装置将视频语音转换装置得到的包含目标语言的语音信号的视频,发送给终端设备进行播放。
本实施例的技术方案中,在接收到视频播放请求后,按照实施例一的方法将视频中的源语言的语音信号转化为视频播放请求所指示的目标语言的语音信号,得到包含目标语言的语音信号的视频,并播放该视频。可见,采用本方案可以满足对同一视频采用不同语言进行播放的需求,并且由于对视频中语音信号的翻译转换在接收到播放请求执行,无需预先进行针对不同目标语言的翻译转换以及视频存储,从而可以节省系统资源。
实施例四:
图4为本发明实施例四提供的视频语音转换装置的结构示意图。具体的,该装置包括:
源语音提取单元401,用于提取视频中的源语言的语音信号
源语音处理单元402,用于将所述源语言的语音信号进行分段,得到至少一段源语言的子语音信号;
目标语音转换单元403,用于对于每段源语言的子语音信号,根据预先建立的语音模型将该源语言的子语音信号转换为目标语言的子语音信号;
语音视频合并单元404,用于将得到的各段目标语言的子语音信号与所述视频进行合并,得到包含目标语言的语音信号的视频。
进一步的,所述源语音提取单元401,具体用于:
提取视频中的音频信号,根据语音信号的频率特征从所述音频信号中提取出源语言的语音信号。
进一步的,所述源语音处理单元402具体用于:
根据该源语言的语音信号的振幅进行分段。
进一步的,所述源语音处理单元402还用于:
在将该源语言的语音信号进行分段之前,将该源语言的语音信号进行去噪处理。
进一步的,所述目标语音转换单元403具体用于:
对于每段源语言的子语音信号,将该段源语言的子语音信号输入预先建立的语音模型,得到该语音模型输出的该段源语言的子语音信号对应的源语言的子文本数据,将该段源语言的子语音信号对应的源语言的子文本数据翻译为目标语言的子文本数据,采用语音合成技术将该目标语言的子文本数据合成为目标语言的子语音信号。
进一步的,所述目标语音转换单元403具体用于:按照如下方式采用语音合成技术将该目标语言的子文本数据合成为目标语言的子语音信号:
采用自然语言处理技术将该目标语言的子文本数据处理为计算机能够理解的文本数据;对该文本数据进行韵律处理,得到合成后的子语音信号的音段特征;采用声学处理技术,根据所述计算机能够理解的文本数据得到具有所述音段特征的目标语言的子语音信号。
进一步的,所述源语音处理单元402在对源语言的语音信号分段时保留每段源语言的子语音信号的时间戳;
所述语音视频合并单元404具体用于:对于每段目标语言的子语音信号,将该段目标语言的子语音信号合并到视频中该段目标语言的子语音信号的时间戳所对应的播放位置。
上述软件升级装置可执行本发明实施例所提供的软件升级方法,具备执行方法相应的功能模块和有益效果。
本发明实施例还提供一种服务器,该服务器包括上述视频语音转换装置。该服务器具体可以是PC(Personal Computer,个人计算机)、笔记本电脑等设备。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (15)

1.一种视频语音转换方法,其特征在于,包括:
提取视频中的源语言的语音信号,将该源语言的语音信号进行分段,得到至少一段源语言的子语音信号;
对于每段源语言的子语音信号,根据预先建立的语音模型将该源语言的子语音信号转换为目标语言的子语音信号;
将得到的各段目标语言的子语音信号与所述视频进行合并,得到包含目标语言的语音信号的视频。
2.根据权利要求1所述的方法,其特征在于,所述提取视频中的源语言的语音信号,具体包括:
提取视频中的音频信号,根据语音信号的频率特征从所述音频信号中提取出源语言的语音信号。
3.根据权利要求1所述的方法,其特征在于,所述将该源语言的语音信号进行分段,具体包括:根据该源语言的语音信号的振幅进行分段。
4.根据权利要求1所述的方法,其特征在于,在提取视频中的源语言的语音信号之后、将该源语言的语音信号进行分段之前,进一步包括:将该源语言的语音信号进行去噪处理。
5.根据权利要求1-4中任一所述的方法,其特征在于,所述对于每段源语言的子语音信号,根据预先建立的语音模型将该源语言的子语音信号转换为目标语言的子语音信号,具体包括:
对于每段源语言的子语音信号,将该段源语言的子语音信号输入预先建立的语音模型,得到该语音模型输出的该段源语言的子语音信号对应的源语言的子文本数据,将该段源语言的子语音信号对应的源语言的子文本数据翻译为目标语言的子文本数据,采用语音合成技术将该目标语言的子文本数据合成为目标语言的子语音信号。
6.根据权利要求5所述的方法,其特征在于,所述采用语音合成技术将该目标语言的子文本数据合成为目标语言的子语音信号,具体包括:
采用自然语言处理技术将该目标语言的子文本数据处理为计算机能够理解的文本数据;对该文本数据进行韵律处理,得到合成后的子语音信号的音段特征;采用声学处理技术,根据所述计算机能够理解的文本数据得到具有所述音段特征的目标语言的子语音信号。
7.根据权利要求1-4中任一所述的方法,其特征在于,进一步包括:在对源语言的语音信号分段时保留每段源语言的子语音信号的时间戳;在将每段源语言的子语音信号转换为目标语言的子语音信号时将当前段源语言的子语音信号的时间戳添加到转换后的对应的目标语言的子语音信号中;
所述将得到的各段目标语言的子语音信号与所述视频进行合并,具体包括:
对于每段目标语言的子语音信号,将该段目标语言的子语音信号合并到视频中该段目标语言的子语音信号的时间戳所对应的播放位置。
8.一种视频语音转换装置,其特征在于,包括:
源语音提取单元,用于提取视频中的源语言的语音信号
源语音处理单元,用于将所述源语言的语音信号进行分段,得到至少一段源语言的子语音信号;
目标语音转换单元,用于对于每段源语言的子语音信号,根据预先建立的语音模型将该源语言的子语音信号转换为目标语言的子语音信号;
语音视频合并单元,用于将得到的各段目标语言的子语音信号与所述视频进行合并,得到包含目标语言的语音信号的视频。
9.根据权利要求8所述的装置,其特征在于,所述源语音提取单元,具体用于:
提取视频中的音频信号,根据语音信号的频率特征从所述音频信号中提取出源语言的语音信号。
10.根据权利要求8所述的装置,其特征在于,所述源语音处理单元具体用于:
根据该源语言的语音信号的振幅进行分段。
11.根据权利要求8所述的装置,其特征在于,所述源语音处理单元还用于:
在将该源语言的语音信号进行分段之前,将该源语言的语音信号进行去噪处理。
12.根据权利要求8-11中任一所述的装置,其特征在于,所述目标语音转换单元具体用于:
对于每段源语言的子语音信号,将该段源语言的子语音信号输入预先建立的语音模型,得到该语音模型输出的该段源语言的子语音信号对应的源语言的子文本数据,将该段源语言的子语音信号对应的源语言的子文本数据翻译为目标语言的子文本数据,采用语音合成技术将该目标语言的子文本数据合成为目标语言的子语音信号。
13.根据权利要求12所述的装置,其特征在于,所述目标语音转换单元具体用于:按照如下方式采用语音合成技术将该目标语言的子文本数据合成为目标语言的子语音信号:
采用自然语言处理技术将该目标语言的子文本数据处理为计算机能够理解的文本数据;对该文本数据进行韵律处理,得到合成后的子语音信号的音段特征;采用声学处理技术,根据所述计算机能够理解的文本数据得到具有所述音段特征的目标语言的子语音信号。
14.根据权利要求8-11中任一所述的装置,其特征在于,所述源语音处理单元在对源语言的语音信号分段时保留每段源语言的子语音信号的时间戳;所述目标语音转换单元在将每段源语言的子语音信号转换为目标语言的子语音信号时将当前段源语言的子语音信号的时间戳添加到转换后的对应的目标语言的子语音信号中;
所述语音视频合并单元具体用于:对于每段目标语言的子语音信号,将该段目标语言的子语音信号合并到视频中该段目标语言的子语音信号的时间戳所对应的播放位置。
15.一种服务器,其特征在于,包括如权利要求8-14中任一所述的视频语音转换装置。
CN201410461061.8A 2014-09-11 2014-09-11 视频语音转换方法、装置和服务器 Active CN104252861B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410461061.8A CN104252861B (zh) 2014-09-11 2014-09-11 视频语音转换方法、装置和服务器
PCT/CN2014/094217 WO2016037440A1 (zh) 2014-09-11 2014-12-18 视频语音转换方法、装置和服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410461061.8A CN104252861B (zh) 2014-09-11 2014-09-11 视频语音转换方法、装置和服务器

Publications (2)

Publication Number Publication Date
CN104252861A true CN104252861A (zh) 2014-12-31
CN104252861B CN104252861B (zh) 2018-04-13

Family

ID=52187705

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410461061.8A Active CN104252861B (zh) 2014-09-11 2014-09-11 视频语音转换方法、装置和服务器

Country Status (2)

Country Link
CN (1) CN104252861B (zh)
WO (1) WO2016037440A1 (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105159870A (zh) * 2015-06-26 2015-12-16 徐信 一种精准完成连续自然语音文本化的处理系统及方法
CN105828101A (zh) * 2016-03-29 2016-08-03 北京小米移动软件有限公司 生成字幕文件的方法及装置
CN106328176A (zh) * 2016-08-15 2017-01-11 广州酷狗计算机科技有限公司 一种生成歌曲音频的方法和装置
CN106649295A (zh) * 2017-01-04 2017-05-10 携程旅游网络技术(上海)有限公司 用于移动终端的文字转译方法
CN107241616A (zh) * 2017-06-09 2017-10-10 腾讯科技(深圳)有限公司 视频台词提取方法、装置及存储介质
CN107688792A (zh) * 2017-09-05 2018-02-13 语联网(武汉)信息技术有限公司 一种视频翻译方法及其系统
CN108090051A (zh) * 2017-12-20 2018-05-29 深圳市沃特沃德股份有限公司 连续长语音文件的翻译方法与翻译机
CN108447486A (zh) * 2018-02-28 2018-08-24 科大讯飞股份有限公司 一种语音翻译方法及装置
CN109119063A (zh) * 2018-08-31 2019-01-01 腾讯科技(深圳)有限公司 视频配音生成方法、装置、设备及存储介质
CN109325147A (zh) * 2018-09-30 2019-02-12 联想(北京)有限公司 一种信息处理方法及装置
CN110119514A (zh) * 2019-04-02 2019-08-13 杭州灵沃盛智能科技有限公司 信息的即时翻译方法、装置和系统
CN110232907A (zh) * 2019-07-24 2019-09-13 出门问问(苏州)信息科技有限公司 一种语音合成方法、装置、可读存储介质及计算设备
CN110534085A (zh) * 2019-08-29 2019-12-03 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN110659387A (zh) * 2019-09-20 2020-01-07 上海掌门科技有限公司 用于提供视频的方法和设备
WO2021109000A1 (zh) * 2019-12-03 2021-06-10 深圳市欢太科技有限公司 数据处理方法、装置、电子设备和存储介质
CN117560459A (zh) * 2024-01-11 2024-02-13 深圳市志泽科技有限公司 一种基于转换线材的音视频转换方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10652622B2 (en) 2017-06-27 2020-05-12 At&T Intellectual Property I, L.P. Method and apparatus for providing content based upon a selected language
KR102481871B1 (ko) 2018-02-26 2022-12-28 구글 엘엘씨 미리 레코딩된 비디오들에 대한 자동화된 보이스 번역 더빙
CN111639233B (zh) * 2020-05-06 2024-05-17 广东小天才科技有限公司 学习视频字幕添加方法、装置、终端设备和存储介质
KR102440890B1 (ko) * 2021-03-05 2022-09-06 주식회사 한글과컴퓨터 제1 언어의 음성으로 더빙된 동영상을 제2 언어의 음성으로 자동 더빙하는 동영상 자동 더빙 장치 및 그 동작 방법
CN114630179A (zh) * 2022-03-17 2022-06-14 维沃移动通信有限公司 音频提取方法和电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000358202A (ja) * 1999-06-16 2000-12-26 Toshiba Corp 映像音声記録再生装置および同装置の副音声データ生成記録方法
US20030216922A1 (en) * 2002-05-20 2003-11-20 International Business Machines Corporation Method and apparatus for performing real-time subtitles translation
CN1774715A (zh) * 2003-04-14 2006-05-17 皇家飞利浦电子股份有限公司 用于对音频-视频流执行自动配音的系统和方法
CN1932807A (zh) * 2005-09-15 2007-03-21 株式会社东芝 用于翻译语音和进行翻译结果的语音合成的装置和方法
CN201319640Y (zh) * 2008-12-01 2009-09-30 深圳市同洲电子股份有限公司 一种可实时同步翻译的数字电视接收终端
CN202026434U (zh) * 2011-04-29 2011-11-02 广东九联科技股份有限公司 一种语音转换机顶盒
CN102903361A (zh) * 2012-10-15 2013-01-30 Itp创新科技有限公司 一种通话即时翻译系统和方法
CN103854648A (zh) * 2012-12-08 2014-06-11 上海能感物联网有限公司 汉语外语有声影像资料双向可逆语音转换并加注字幕方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000358202A (ja) * 1999-06-16 2000-12-26 Toshiba Corp 映像音声記録再生装置および同装置の副音声データ生成記録方法
US20030216922A1 (en) * 2002-05-20 2003-11-20 International Business Machines Corporation Method and apparatus for performing real-time subtitles translation
CN1774715A (zh) * 2003-04-14 2006-05-17 皇家飞利浦电子股份有限公司 用于对音频-视频流执行自动配音的系统和方法
CN1932807A (zh) * 2005-09-15 2007-03-21 株式会社东芝 用于翻译语音和进行翻译结果的语音合成的装置和方法
CN201319640Y (zh) * 2008-12-01 2009-09-30 深圳市同洲电子股份有限公司 一种可实时同步翻译的数字电视接收终端
CN202026434U (zh) * 2011-04-29 2011-11-02 广东九联科技股份有限公司 一种语音转换机顶盒
CN102903361A (zh) * 2012-10-15 2013-01-30 Itp创新科技有限公司 一种通话即时翻译系统和方法
CN103854648A (zh) * 2012-12-08 2014-06-11 上海能感物联网有限公司 汉语外语有声影像资料双向可逆语音转换并加注字幕方法

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105159870A (zh) * 2015-06-26 2015-12-16 徐信 一种精准完成连续自然语音文本化的处理系统及方法
CN105159870B (zh) * 2015-06-26 2018-06-29 徐信 一种精准完成连续自然语音文本化的处理系统及方法
CN105828101B (zh) * 2016-03-29 2019-03-08 北京小米移动软件有限公司 生成字幕文件的方法及装置
CN105828101A (zh) * 2016-03-29 2016-08-03 北京小米移动软件有限公司 生成字幕文件的方法及装置
CN106328176A (zh) * 2016-08-15 2017-01-11 广州酷狗计算机科技有限公司 一种生成歌曲音频的方法和装置
CN106328176B (zh) * 2016-08-15 2019-04-30 广州酷狗计算机科技有限公司 一种生成歌曲音频的方法和装置
CN106649295A (zh) * 2017-01-04 2017-05-10 携程旅游网络技术(上海)有限公司 用于移动终端的文字转译方法
CN107241616A (zh) * 2017-06-09 2017-10-10 腾讯科技(深圳)有限公司 视频台词提取方法、装置及存储介质
CN107688792A (zh) * 2017-09-05 2018-02-13 语联网(武汉)信息技术有限公司 一种视频翻译方法及其系统
CN108090051A (zh) * 2017-12-20 2018-05-29 深圳市沃特沃德股份有限公司 连续长语音文件的翻译方法与翻译机
WO2019119552A1 (zh) * 2017-12-20 2019-06-27 深圳市沃特沃德股份有限公司 连续长语音文件的翻译方法与翻译机
CN108447486A (zh) * 2018-02-28 2018-08-24 科大讯飞股份有限公司 一种语音翻译方法及装置
CN109119063B (zh) * 2018-08-31 2019-11-22 腾讯科技(深圳)有限公司 视频配音生成方法、装置、设备及存储介质
CN109119063A (zh) * 2018-08-31 2019-01-01 腾讯科技(深圳)有限公司 视频配音生成方法、装置、设备及存储介质
CN109325147A (zh) * 2018-09-30 2019-02-12 联想(北京)有限公司 一种信息处理方法及装置
CN110119514A (zh) * 2019-04-02 2019-08-13 杭州灵沃盛智能科技有限公司 信息的即时翻译方法、装置和系统
CN110232907A (zh) * 2019-07-24 2019-09-13 出门问问(苏州)信息科技有限公司 一种语音合成方法、装置、可读存储介质及计算设备
CN110232907B (zh) * 2019-07-24 2021-11-02 出门问问(苏州)信息科技有限公司 一种语音合成方法、装置、可读存储介质及计算设备
CN110534085A (zh) * 2019-08-29 2019-12-03 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN110534085B (zh) * 2019-08-29 2022-02-25 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN110659387A (zh) * 2019-09-20 2020-01-07 上海掌门科技有限公司 用于提供视频的方法和设备
WO2021109000A1 (zh) * 2019-12-03 2021-06-10 深圳市欢太科技有限公司 数据处理方法、装置、电子设备和存储介质
CN117560459A (zh) * 2024-01-11 2024-02-13 深圳市志泽科技有限公司 一种基于转换线材的音视频转换方法
CN117560459B (zh) * 2024-01-11 2024-04-16 深圳市志泽科技有限公司 一种基于转换线材的音视频转换方法

Also Published As

Publication number Publication date
CN104252861B (zh) 2018-04-13
WO2016037440A1 (zh) 2016-03-17

Similar Documents

Publication Publication Date Title
CN104252861A (zh) 视频语音转换方法、装置和服务器
CN112562721B (zh) 一种视频翻译方法、系统、装置及存储介质
US20230199264A1 (en) Automated voice translation dubbing for prerecorded video
CN102723078B (zh) 基于自然言语理解的语音情感识别方法
CN105244026B (zh) 一种语音处理方法及装置
CN106340291A (zh) 一种双语字幕制作方法及系统
CN112309365B (zh) 语音合成模型的训练方法、装置、存储介质以及电子设备
WO2014141054A1 (en) Method, apparatus and system for regenerating voice intonation in automatically dubbed videos
CN103559214A (zh) 视频自动生成方法及装置
CN113035199B (zh) 音频处理方法、装置、设备及可读存储介质
CN109754783A (zh) 用于确定音频语句的边界的方法和装置
CN109256133A (zh) 一种语音交互方法、装置、设备及存储介质
CN109710799B (zh) 语音交互方法、介质、装置和计算设备
WO2023197749A9 (zh) 背景音乐的插入时间点确定方法、装置、设备和存储介质
CN106550268B (zh) 视频处理方法和视频处理装置
CN113342968A (zh) 文本摘要提取方法及装置
Dabran et al. Augmented reality speech recognition for the hearing impaired
CN105280206A (zh) 一种音频的播放方法、装置
CN109858005B (zh) 基于语音识别的文档更新方法、装置、设备及存储介质
CN110312161B (zh) 一种视频配音方法、装置及终端设备
CN111883101B (zh) 一种模型训练及语音合成方法、装置、设备和介质
WO2023142590A1 (zh) 手语视频的生成方法、装置、计算机设备及存储介质
CN116320659A (zh) 视频生成方法及装置
CN115798459A (zh) 音频处理方法、装置、存储介质及电子设备
CN111489745A (zh) 一种应用于人工智能的汉语语音识别系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant