CN107749296A - 语音翻译方法和装置 - Google Patents
语音翻译方法和装置 Download PDFInfo
- Publication number
- CN107749296A CN107749296A CN201710948251.6A CN201710948251A CN107749296A CN 107749296 A CN107749296 A CN 107749296A CN 201710948251 A CN201710948251 A CN 201710948251A CN 107749296 A CN107749296 A CN 107749296A
- Authority
- CN
- China
- Prior art keywords
- information
- vocal print
- translation
- original
- target voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000001755 vocal effect Effects 0.000 claims abstract description 113
- 238000012545 processing Methods 0.000 claims abstract description 43
- 230000015572 biosynthetic process Effects 0.000 claims description 33
- 238000003786 synthesis reaction Methods 0.000 claims description 33
- 238000000605 extraction Methods 0.000 claims description 14
- 230000000694 effects Effects 0.000 abstract description 7
- 238000004891 communication Methods 0.000 description 12
- 230000006854 communication Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 230000007306 turnover Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L2013/021—Overlap-add techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明揭示了一种语音翻译方法和装置,所述方法包括以下步骤:从原始语音信息中提取出原始声纹;对所述原始语音信息进行翻译处理,获得翻译信息;将所述翻译信息和所述原始声纹合成为最终语音信息。本发明实施例所提供的一种语音翻译方法,通过从原始语音信息中提取出原始声纹,再将翻译信息和原始声纹合成为最终语音信息,使得最终语音信息与原始语音信息的声纹相同,听起来好像对方用户自己说出了翻译后的语言,实现了原声翻译的效果,将人机对话提升为人与人的直接对话,提高了翻译语音的生动性和真实性,提升了用户体验。
Description
技术领域
本发明涉及通信技术领域,特别是涉及到一种语音翻译方法和装置。
背景技术
翻译机可以将一种语言的语音信息翻译为另一种语言的语音信息,因此使用不同语言的人可以利用翻译机实现无障碍交流和沟通。翻译机进行语音翻译的具体流程为:接收用户的原始语音信息,将原始语音信息发送给服务器,服务器对原始语音信息进行语音识别、字符翻译、语音合成等一系列翻译处理后得到目标语音信息并返回给翻译机,翻译机输出目标语音信息。
服务器翻译后生成的目标语音信息的声纹是预先设定的,因此所有的翻译语音听起来都是同一个人的声音,单调乏味,让人感觉是在与机器人对话,而不是与真人对话,缺乏真实感和人情味,容易引起听觉疲劳,用户体验不佳。
发明内容
本发明的主要目的为提供一种语音翻译方法和装置,旨在提高翻译语音的真实性和生动性,提升用户体验。
为达以上目的,本发明实施例提出一种语音翻译方法,所述方法包括以下步骤:
从原始语音信息中提取出原始声纹;
对所述原始语音信息进行翻译处理,获得翻译信息;
将所述翻译信息和所述原始声纹合成为最终语音信息。
可选地,所述翻译信息为目标语音信息,所述将所述翻译信息和所述原始声纹合成为最终语音信息的步骤包括:
剔除所述目标语音信息中的预设声纹,得到无声纹的目标语音信息;
将所述原始声纹合成到所述无声纹的目标语音信息中,生成最终语音信息。
可选地,所述剔除所述目标语音信息中的预设声纹的步骤包括:
从所述目标语音信息中提取出预设声纹;
对所述目标语音信息和所述预设声纹做信号减法运算,得到无声纹的目标语音信息。
可选地,所述将所述原始声纹合成到所述无声纹的目标语音信息中,生成最终语音信息的步骤包括:
对所述原始声纹和所述无声纹的目标语音信息做信号加法运算,得到最终语音信息。
可选地,所述对所述原始语音信息进行翻译处理,获得翻译信息的步骤包括:
向第一服务器发送所述原始语音信息,以使所述第一服务器将所述原始语音信息翻译处理为目标语音信息;
接收所述第一服务器返回的所述目标语音信息。
可选地,所述翻译信息为目标语言字符串,所述将所述翻译信息和所述原始声纹合成为最终语音信息的步骤包括:
利用所述原始声纹对所述目标语言字符串进行语音合成,生成最终语音信息。
可选地,所述对所述原始语音信息进行翻译处理,获得翻译信息的步骤包括:
将所述原始语音信息发送给第二服务器,以使所述第二服务器将所述原始语音信息翻译处理为目标语言字符串;
接收所述第二服务器返回的所述目标语言字符串。
可选地,所述对所述原始语音信息进行翻译处理,获得翻译信息的步骤包括:
对所述原始语音信息进行语音识别,生成原始语言字符串;
将所述原始语言字符串翻译为目标语言字符串。
可选地,所述将所述翻译信息和所述原始声纹合成为最终语音信息的步骤之后还包括:
输出所述最终语音信息。
可选地,所述将所述翻译信息和所述原始声纹合成为最终语音信息的步骤之后还包括:
向外发送所述最终语音信息。
本发明实施例同时提出一种语音翻译装置,所述装置包括:
提取模块,用于从原始语音信息中提取出原始声纹;
处理模块,用于对所述原始语音信息进行翻译处理,获得翻译信息;
合成模块,用于将所述翻译信息和所述原始声纹合成为最终语音信息。
可选地,所述翻译信息为目标语音信息,所述合成模块包括:
声纹剔除单元,用于剔除所述目标语音信息中的预设声纹,得到无声纹的目标语音信息;
声纹合成单元,用于将所述原始声纹合成到所述无声纹的目标语音信息中,生成最终语音信息。
可选地,所述声纹剔除单元包括:
声纹提取子单元,用于从所述目标语音信息中提取出预设声纹;
减法运算子单元,用于对所述目标语音信息和所述预设声纹做信号减法运算,得到无声纹的目标语音信息。
可选地,声纹合成单元用于:对所述原始声纹和所述无声纹的目标语音信息做信号加法运算,得到最终语音信息。
可选地,所述处理模块包括:
第一发送单元,用于向第一服务器发送所述原始语音信息,以使所述第一服务器将所述原始语音信息翻译处理为目标语音信息;
第一接收单元,用于接收所述第一服务器返回的所述目标语音信息。
可选地,所述翻译信息为目标语言字符串,所述合成模块用于:利用所述原始声纹对所述目标语言字符串进行语音合成,生成最终语音信息。
可选地,所述处理模块包括:
第二发送单元,用于将所述原始语音信息发送给第二服务器,以使所述第二服务器将所述原始语音信息翻译处理为目标语言字符串;
第二接收单元,用于接收所述第二服务器返回的所述目标语言字符串。
可选地,所述处理模块包括:
语音识别单元,用于对所述原始语音信息进行语音识别,生成原始语言字符串;
字符翻译单元,用于将所述原始语言字符串翻译为目标语言字符串。
可选地,所述装置还包括输出模块,其用于输出所述最终语音信息。
可选地,所述装置还包括发送模块,其用于向外发送所述最终语音信息。
本发明实施例还提出一种终端设备,所述终端设备包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序,所述应用程序被配置为用于执行前述语音翻译方法。
本发明实施例所提供的一种语音翻译方法,通过从原始语音信息中提取出原始声纹,再将翻译信息和原始声纹合成为最终语音信息,使得最终语音信息与原始语音信息的声纹相同,听起来好像对方用户自己说出了翻译后的语言,实现了原声翻译的效果,将人机对话提升为人与人的直接对话,提高了翻译语音的生动性和真实性,提升了用户体验。
附图说明
图1是本发明的语音翻译方法一实施例的流程图;
图2是本发明的语音翻译装置一实施例的模块示意图;
图3是图2中的处理模块的模块示意图;
图4是图2中的处理模块的又一模块示意图;
图5是图2中的处理模块的又一模块示意图;
图6是图2中的合成模块的模块示意图;
图7是图6中的声纹剔除单元的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本技术领域技术人员可以理解,这里所使用的服务器,其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。本发明的实施例中,服务器、终端设备与WNS服务器之间可通过任何通信方式实现通信,包括但不限于,基于3GPP、LTE、WIMAX的移动通信、基于TCP/IP、UDP协议的计算机网络通信以及基于蓝牙、红外传输标准的近距无线传输方式。
本发明实施例的语音翻译方法,可以应用于翻译机、移动终端(如手机、平板等)、个人电脑等终端设备,也可以应用于服务器。以下以应用于终端设备为例进行详细说明。
参照图1,提出本发明的语音翻译方法一实施例,所述方法包括以下步骤:
S11、从原始语音信息中提取出原始声纹。
本发明实施例中,原始语音信息可以是终端设备通过麦克风当场采集的用户的语音信息,也可以是从外部(如对端设备)获取的待翻译的语音信息。终端设备采集原始语音信息时,优选通过由多个麦克风组成的麦克风阵列来采集原始语音信息,运用麦克风阵列的波束成型、降噪等处理方式来降低环境噪声对后期处理的影响,提高语音质量。
终端设备获取原始语音信息后,立即从中提取出原始声纹,并将该原始声纹存储起来。终端设备可以采用现有技术中的小波变换算法对原始语音信息进行声纹提取,提取出原始声纹的时域和频域的特征信息。具体提取方式与现有技术相同,在此不赘述。
在其它实施例中,当应用于服务器时,原始语音信息则来自于终端设备,服务器接收终端设备发送的原始语音信息,并从中提取出原始声纹。
S12、对原始语音信息进行翻译处理,获得翻译信息。
终端设备可以在本地对原始语音信息进行翻译处理,也可以通过服务器对原始语音信息进行翻译处理。终端设备获得的翻译信息,可能是目标语音信息,也可能是目标语言字符串。
可选地,终端设备将原始语音信息发送给第一服务器,以使第一服务器将原始语音信息翻译处理为目标语音信息。第一服务器接收到原始语音信息后,先对原始语音信息进行语音识别,生成原始语言字符串,接着将原始语言字符串翻译为目标语言字符串,最后利用预设声纹对目标语言字符串进行语音合成,生成目标语音信息,并将目标语音信息返回给终端设备。终端设备接收第一服务器返回的目标语音信息。
可选地,终端设备将原始语音信息发送给第二服务器,以使第二服务器将原始语音信息翻译处理为目标语言字符串。第二服务器接收到原始语音信息后,先对原始语音信息进行语音识别,生成原始语言字符串,然后将原始语言字符串翻译为目标语言字符串,并将目标语言字符串返回给终端设备。终端设备接收第二服务器返回的目标语言字符串。
可选地,终端设备直接对原始语音信息进行语音识别,生成原始语言字符串,然后将原始语言字符串翻译为目标语言字符串。
在其它实施例中,当应用于服务器时,服务器对原始语音信息进行语音识别,生成原始语言字符串,然后将原始语言字符串翻译为目标语言字符串。
S13、将翻译信息和原始声纹合成为最终语音信息。
可选地,当翻译信息为目标语音信息时,终端设备首先剔除目标语音信息中的预设声纹,得到无声纹的目标语音信息;然后将原始声纹合成到无声纹的目标语音信息中,生成最终语音信息。
在剔除预设声纹时,终端设备可以先从目标语音信息中提取出预设声纹,如利用现有技术中的小波变换算法对目标语音信息进行声纹提取,提取出预设声纹的时域和频域的特征信息;然后对目标语音信息和预设声纹做信号减法运算,就能得到无声纹的目标语音信息。本领域技术人员可以理解,除此之外,也可以利用现有技术中的其它方式进行声纹剔除,本发明对此不再一一列举赘述。
在进行声纹合成时,终端设备可以对原始声纹和无声纹的目标语音信息做信号加法运算,得到最终语音信息,从而使得最终语音信息听起来就像用户的原声,实现了原声翻译。本领域技术人员可以理解,除此之外,也可以利用现有技术中的其它方式进行声纹合成,本发明对此不再一一列举赘述。
可选地,当翻译信息为目标语言字符串时,终端设备则直接利用原始声纹对目标语言字符串进行语音合成,生成最终语音信息。终端设备可以采用现有的语音合成技术进行语音合成,在此不赘述。
当生成最终语音信息后,终端设备可以直接输出最终语音信息,如通过听筒、扬声器等发声装置输出最终语音信息;也可以向外发送最终语音信息,如发送给对端设备。
在其它实施例中,当应用于服务器时,服务器则直接利用原始声纹对目标语言字符串进行语音合成,生成最终语音信息。并将最终语音信息发送给终端设备。
举例而言:
翻译机(终端设备)采集原始语音信息,从原始语音信息中提出原始声纹存储于本地,并将原始语音信息发送给服务器。服务器将原始语音信息翻译处理为目标语音信息并返回给翻译机。翻译机接收服务器返回的目标语音信息,剔除目标语音信息中的预设声纹,将原始声纹合成到无声纹的目标语音信息中,生成最终语音信息,并输出最终语音信息。从而两个使用不同语言的用户就可以利用翻译机进行面对面交谈,并且翻译机输出的翻译后的最终语音信息与用户的声纹相同,相当于用户自己说出了翻译后的语言,实现了原声翻译的效果。
移动终端(终端设备)采集原始语音信息,从原始语音信息中提出原始声纹存储于本地,并将原始语音信息发送给服务器。服务器将原始语音信息翻译处理为目标语音信息并返回给移动终端。移动终端接收服务器返回的目标语音信息,剔除目标语音信息中的预设声纹,将原始声纹合成到无声纹的目标语音信息中,生成最终语音信息,并将最终语音信息发送给对端。从而两个使用不同语言的用户就可以利用移动终端进行远程对话,并且翻译后的最终语音信息与用户的声纹相同,相当于用户自己说出了翻译后的语言,实现了原声翻译的效果。
服务器接收终端设备发送的原始语音信息,从原始语音信息中提出原始声纹,对原始语音信息进行语音识别,生成目标语言字符串,利用原始声纹对目标语言字符串进行语音合成,生成最终语音信息,并将最终语音信息返回给终端设备或该终端设备的对端设备(即与该终端设备建立通讯连接的设备)。由于翻译后的最终语音信息与用户的声纹相同,相当于用户自己说出了翻译后的语言,实现了原声翻译的效果。
本发明实施例的语音翻译方法,通过从原始语音信息中提取出原始声纹,再将翻译信息和原始声纹合成为最终语音信息,使得最终语音信息与原始语音信息的声纹相同,听起来好像对方用户自己说出了翻译后的语言,实现了原声翻译的效果,将人机对话提升为人与人的直接对话,提高了翻译语音的生动性和真实性,提升了用户体验。
参照图2,提出本发明的语音翻译装置一实施例,所述装置包括提取模块10、处理模块20和合成模块30,其中:提取模块10,用于从原始语音信息中提取出原始声纹;处理模块20,用于对原始语音信息进行翻译处理,获得翻译信息;合成模块30,用于将翻译信息和原始声纹合成为最终语音信息。
提取模块10可以采用现有技术中的小波变换算法对原始语音信息进行声纹提取,提取出原始声纹的时域和频域的特征信息。具体提取方式与现有技术相同,在此不赘述。
处理模块20获得的翻译信息,可能是目标语音信息,也可能是目标语言字符串。
可选地,如图3所示,处理模块20包括第一发送单元21和第一接收单元22,其中:第一发送单元21,用于向第一服务器发送原始语音信息,以使第一服务器将原始语音信息翻译处理为目标语音信息;第一接收单元22,用于接收第一服务器返回的目标语音信息。
可选地,如图4所示,处理模块20包括第二发送单元23和第二接收单元24,其中:第二发送单元23,用于将原始语音信息发送给第二服务器,以使第二服务器将原始语音信息翻译处理为目标语言字符串;第二接收单元24,用于接收第二服务器返回的目标语言字符串。
可选地,如图5所示,处理模块20包括语音识别单元25和字符翻译单元26,其中:语音识别单元25,用于对原始语音信息进行语音识别,生成原始语言字符串;字符翻译单元26,用于将原始语言字符串翻译为目标语言字符串。
处理模块20获得翻译信息后,合成模块30则将翻译信息和原始声纹合成为最终语音信息。
可选地,当翻译信息为目标语音信息时,合成模块30如图6所示,包括声纹剔除单元31和声纹合成单元32,其中:声纹剔除单元31,用于剔除目标语音信息中的预设声纹,得到无声纹的目标语音信息;声纹合成单元32,用于将原始声纹合成到无声纹的目标语音信息中,生成最终语音信息。
本发明实施例中,声纹剔除单元31如图7所示,包括声纹提取子单元311和减法运算子单元312,其中:声纹提取子单元311,用于从目标语音信息中提取出预设声纹,如利用现有技术中的小波变换算法对目标语音信息进行声纹提取,提取出预设声纹的时域和频域的特征信息;减法运算子单元312,用于对目标语音信息和预设声纹做信号减法运算,得到无声纹的目标语音信息。
本领域技术人员可以理解,除此之外,也可以利用现有技术中的其它方式进行声纹剔除,本发明对此不再一一列举赘述。
在进行声纹合成时,声纹合成单元32可以对原始声纹和无声纹的目标语音信息做信号加法运算,得到最终语音信息,从而使得最终语音信息听起来就像用户的原声,实现了原声翻译。本领域技术人员可以理解,除此之外,也可以利用现有技术中的其它方式进行声纹合成,本发明对此不再一一列举赘述。
可选地,当翻译信息为目标语言字符串时,合成模块30则直接利用原始声纹对目标语言字符串进行语音合成,生成最终语音信息。合成模块30可以采用现有的语音合成技术进行语音合成,在此不赘述。
进一步地,该装置还可以包括输出模块,其用于输出最终语音信息。例如,输出模块通过听筒、扬声器等发声装置输出最终语音信息。
进一步地,该装置还包括发送模块,其用于向外发送最终语音信息,如发送给终端设备。
本发明实施例的语音翻译装置,可以应用于翻译机、移动终端(如手机、平板等)、个人电脑等终端设备,也可以应用于服务器,本发明对此不作限定。
本发明实施例的语音翻译装置,通过从原始语音信息中提取出原始声纹,再将翻译信息和原始声纹合成为最终语音信息,使得最终语音信息与原始语音信息的声纹相同,听起来好像对方用户自己说出了翻译后的语言,实现了原声翻译的效果,将人机对话提升为人与人的直接对话,提高了翻译语音的生动性和真实性,提升了用户体验。
本发明同时提出一种终端设备,其包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序,所述应用程序被配置为用于执行语音翻译方法。所述语音翻译方法包括以下步骤:从原始语音信息中提取出原始声纹;对原始语音信息进行翻译处理,获得翻译信息;将翻译信息和原始声纹合成为最终语音信息。本实施例中所描述的语音翻译方法为本发明中上述实施例所涉及的语音翻译方法,在此不再赘述。
本领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(RandomAccess Memory,随机存储器)、EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically Erasable ProgrammableRead-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种语音翻译方法,其特征在于,包括以下步骤:
从原始语音信息中提取出原始声纹;
对所述原始语音信息进行翻译处理,获得翻译信息;
将所述翻译信息和所述原始声纹合成为最终语音信息。
2.根据权利要求1所述的语音翻译方法,其特征在于,所述翻译信息为目标语音信息,所述将所述翻译信息和所述原始声纹合成为最终语音信息的步骤包括:
剔除所述目标语音信息中的预设声纹,得到无声纹的目标语音信息;
将所述原始声纹合成到所述无声纹的目标语音信息中,生成最终语音信息。
3.根据权利要求2所述的语音翻译方法,其特征在于,所述剔除所述目标语音信息中的预设声纹的步骤包括:
从所述目标语音信息中提取出预设声纹;
对所述目标语音信息和所述预设声纹做信号减法运算,得到无声纹的目标语音信息。
4.根据权利要求2所述的语音翻译方法,其特征在于,所述将所述原始声纹合成到所述无声纹的目标语音信息中,生成最终语音信息的步骤包括:
对所述原始声纹和所述无声纹的目标语音信息做信号加法运算,得到最终语音信息。
5.根据权利要求2-4任一项所述的语音翻译方法,其特征在于,所述对所述原始语音信息进行翻译处理,获得翻译信息的步骤包括:
向第一服务器发送所述原始语音信息,以使所述第一服务器将所述原始语音信息翻译处理为目标语音信息;
接收所述第一服务器返回的所述目标语音信息。
6.一种语音翻译装置,其特征在于,包括:
提取模块,用于从原始语音信息中提取出原始声纹;
处理模块,用于对所述原始语音信息进行翻译处理,获得翻译信息;
合成模块,用于将所述翻译信息和所述原始声纹合成为最终语音信息。
7.根据权利要求6所述的语音翻译装置,其特征在于,所述翻译信息为目标语音信息,所述合成模块包括:
声纹剔除单元,用于剔除所述目标语音信息中的预设声纹,得到无声纹的目标语音信息;
声纹合成单元,用于将所述原始声纹合成到所述无声纹的目标语音信息中,生成最终语音信息。
8.根据权利要求7所述的语音翻译装置,其特征在于,所述声纹剔除单元包括:
声纹提取子单元,用于从所述目标语音信息中提取出预设声纹;
减法运算子单元,用于对所述目标语音信息和所述预设声纹做信号减法运算,得到无声纹的目标语音信息。
9.根据权利要求7所述的语音翻译装置,其特征在于,声纹合成单元用于:对所述原始声纹和所述无声纹的目标语音信息做信号加法运算,得到最终语音信息。
10.根据权利要求7-9任一项所述的语音翻译装置,其特征在于,所述处理模块包括:
第一发送单元,用于向第一服务器发送所述原始语音信息,以使所述第一服务器将所述原始语音信息翻译处理为目标语音信息;
第一接收单元,用于接收所述第一服务器返回的所述目标语音信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710948251.6A CN107749296A (zh) | 2017-10-12 | 2017-10-12 | 语音翻译方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710948251.6A CN107749296A (zh) | 2017-10-12 | 2017-10-12 | 语音翻译方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107749296A true CN107749296A (zh) | 2018-03-02 |
Family
ID=61252572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710948251.6A Pending CN107749296A (zh) | 2017-10-12 | 2017-10-12 | 语音翻译方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107749296A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110119513A (zh) * | 2018-12-19 | 2019-08-13 | 吉林化工学院 | 一种基于大数据分析的远程日语教学交互系统及交互方法 |
CN110534117A (zh) * | 2019-09-10 | 2019-12-03 | 百度在线网络技术(北京)有限公司 | 用于优化语音生成模型的方法、装置、设备和计算机介质 |
CN111161705A (zh) * | 2019-12-19 | 2020-05-15 | 上海寒武纪信息科技有限公司 | 语音转换方法及装置 |
CN111916053A (zh) * | 2020-08-17 | 2020-11-10 | 北京字节跳动网络技术有限公司 | 语音生成方法、装置、设备和计算机可读介质 |
CN112201224A (zh) * | 2020-10-09 | 2021-01-08 | 北京分音塔科技有限公司 | 用于即时通话同声翻译的方法、设备及系统 |
CN112307776A (zh) * | 2019-07-26 | 2021-02-02 | 国际商业机器公司 | 使用深度学习进行自动翻译 |
CN112397077A (zh) * | 2020-11-03 | 2021-02-23 | 北京中科深智科技有限公司 | 一种音频风格转换方法和系统 |
CN112614482A (zh) * | 2020-12-16 | 2021-04-06 | 平安国际智慧城市科技股份有限公司 | 移动端外语翻译方法、系统及存储介质 |
WO2022037383A1 (zh) * | 2020-08-17 | 2022-02-24 | 北京字节跳动网络技术有限公司 | 语音处理方法、装置、电子设备和计算机可读介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102306496A (zh) * | 2011-09-05 | 2012-01-04 | 歌尔声学股份有限公司 | 一种多麦克风阵列噪声消除方法、装置及系统 |
CN202307119U (zh) * | 2011-09-05 | 2012-07-04 | 歌尔声学股份有限公司 | 一种多麦克风阵列噪声消除装置及系统 |
CN105208194A (zh) * | 2015-08-17 | 2015-12-30 | 努比亚技术有限公司 | 语音播报装置及方法 |
CN105448289A (zh) * | 2015-11-16 | 2016-03-30 | 努比亚技术有限公司 | 一种语音合成、删除方法、装置及语音删除合成方法 |
CN105489224A (zh) * | 2014-09-15 | 2016-04-13 | 讯飞智元信息科技有限公司 | 一种基于麦克风阵列的语音降噪方法及系统 |
CN105874535A (zh) * | 2014-01-15 | 2016-08-17 | 宇龙计算机通信科技(深圳)有限公司 | 语音处理方法和语音处理装置 |
CN106156009A (zh) * | 2015-04-13 | 2016-11-23 | 中兴通讯股份有限公司 | 语音翻译方法及装置 |
CN106935240A (zh) * | 2017-03-24 | 2017-07-07 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音翻译方法、装置、终端设备和云端服务器 |
US9984674B2 (en) * | 2015-09-14 | 2018-05-29 | International Business Machines Corporation | Cognitive computing enabled smarter conferencing |
-
2017
- 2017-10-12 CN CN201710948251.6A patent/CN107749296A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102306496A (zh) * | 2011-09-05 | 2012-01-04 | 歌尔声学股份有限公司 | 一种多麦克风阵列噪声消除方法、装置及系统 |
CN202307119U (zh) * | 2011-09-05 | 2012-07-04 | 歌尔声学股份有限公司 | 一种多麦克风阵列噪声消除装置及系统 |
CN105874535A (zh) * | 2014-01-15 | 2016-08-17 | 宇龙计算机通信科技(深圳)有限公司 | 语音处理方法和语音处理装置 |
CN105489224A (zh) * | 2014-09-15 | 2016-04-13 | 讯飞智元信息科技有限公司 | 一种基于麦克风阵列的语音降噪方法及系统 |
CN106156009A (zh) * | 2015-04-13 | 2016-11-23 | 中兴通讯股份有限公司 | 语音翻译方法及装置 |
CN105208194A (zh) * | 2015-08-17 | 2015-12-30 | 努比亚技术有限公司 | 语音播报装置及方法 |
US9984674B2 (en) * | 2015-09-14 | 2018-05-29 | International Business Machines Corporation | Cognitive computing enabled smarter conferencing |
CN105448289A (zh) * | 2015-11-16 | 2016-03-30 | 努比亚技术有限公司 | 一种语音合成、删除方法、装置及语音删除合成方法 |
CN106935240A (zh) * | 2017-03-24 | 2017-07-07 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音翻译方法、装置、终端设备和云端服务器 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110119513A (zh) * | 2018-12-19 | 2019-08-13 | 吉林化工学院 | 一种基于大数据分析的远程日语教学交互系统及交互方法 |
CN112307776A (zh) * | 2019-07-26 | 2021-02-02 | 国际商业机器公司 | 使用深度学习进行自动翻译 |
CN110534117A (zh) * | 2019-09-10 | 2019-12-03 | 百度在线网络技术(北京)有限公司 | 用于优化语音生成模型的方法、装置、设备和计算机介质 |
CN111161705A (zh) * | 2019-12-19 | 2020-05-15 | 上海寒武纪信息科技有限公司 | 语音转换方法及装置 |
CN111161705B (zh) * | 2019-12-19 | 2022-11-18 | 寒武纪(西安)集成电路有限公司 | 语音转换方法及装置 |
CN111916053A (zh) * | 2020-08-17 | 2020-11-10 | 北京字节跳动网络技术有限公司 | 语音生成方法、装置、设备和计算机可读介质 |
WO2022037388A1 (zh) * | 2020-08-17 | 2022-02-24 | 北京字节跳动网络技术有限公司 | 语音生成方法、装置、设备和计算机可读介质 |
WO2022037383A1 (zh) * | 2020-08-17 | 2022-02-24 | 北京字节跳动网络技术有限公司 | 语音处理方法、装置、电子设备和计算机可读介质 |
CN112201224A (zh) * | 2020-10-09 | 2021-01-08 | 北京分音塔科技有限公司 | 用于即时通话同声翻译的方法、设备及系统 |
CN112397077A (zh) * | 2020-11-03 | 2021-02-23 | 北京中科深智科技有限公司 | 一种音频风格转换方法和系统 |
CN112614482A (zh) * | 2020-12-16 | 2021-04-06 | 平安国际智慧城市科技股份有限公司 | 移动端外语翻译方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107749296A (zh) | 语音翻译方法和装置 | |
CN110415686B (zh) | 语音处理方法、装置、介质、电子设备 | |
CN110049270A (zh) | 多人会议语音转写方法、装置、系统、设备及存储介质 | |
CN107343113A (zh) | 语音通话方法和装置 | |
CN110797043B (zh) | 会议语音实时转写方法及系统 | |
CN108090052A (zh) | 语音翻译方法和装置 | |
WO2023222088A1 (zh) | 语音识别与分类方法和装置 | |
KR101901920B1 (ko) | 인공지능 음성인식 딥러닝을 위한 음성 및 텍스트 간 역전사 서비스 제공 시스템 및 방법 | |
CN109887484A (zh) | 一种基于对偶学习的语音识别与语音合成方法及装置 | |
CN107241681A (zh) | 同声翻译的实现方法和装置 | |
CN107241616A (zh) | 视频台词提取方法、装置及存储介质 | |
Oh et al. | Target speech feature extraction using non-parametric correlation coefficient | |
CN112102846B (zh) | 音频处理方法、装置、电子设备以及存储介质 | |
CN108597505A (zh) | 语音识别方法、装置及终端设备 | |
CN107731232A (zh) | 语音翻译方法和装置 | |
CN107168959A (zh) | 翻译方法和翻译系统 | |
CN107885732A (zh) | 语音翻译方法、系统和装置 | |
CN114338623B (zh) | 音频的处理方法、装置、设备及介质 | |
CN115602165B (zh) | 基于金融系统的数字员工智能系统 | |
CN110401671A (zh) | 一种同传翻译系统及同传翻译终端 | |
CN113436609B (zh) | 语音转换模型及其训练方法、语音转换方法及系统 | |
CN108304153A (zh) | 语音交互方法和装置 | |
CN105047192A (zh) | 基于隐马尔科夫模型的统计语音合成方法及装置 | |
CN108447473A (zh) | 语音翻译方法和装置 | |
CN110600045A (zh) | 声音转换方法及相关产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180302 |
|
RJ01 | Rejection of invention patent application after publication |