CN108986793A - 翻译处理方法、装置及设备 - Google Patents
翻译处理方法、装置及设备 Download PDFInfo
- Publication number
- CN108986793A CN108986793A CN201811142935.8A CN201811142935A CN108986793A CN 108986793 A CN108986793 A CN 108986793A CN 201811142935 A CN201811142935 A CN 201811142935A CN 108986793 A CN108986793 A CN 108986793A
- Authority
- CN
- China
- Prior art keywords
- languages
- corpus
- text
- translation
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Abstract
本发明提出了一种翻译处理方法、装置及设备,其中,方法包括:获取第一语种的第一语音信号,按照预设算法提取第一语音信号的语音特征向量;将语音特征向量输入到预先训练的从第一语种语音到第二语种文本的端到端翻译模型中进行处理,获取与第一语音信号对应的第二语种的文本信息;对第二语种的文本信息进行语音合成,获取对应的第二语音信号并播放。由此,通过端到端翻译模型将第一语种的语音直接转换为第二语种的文本,避免了将语音识别步骤的错误传递给翻译步骤,提高了语音翻译的准确性。
Description
技术领域
本发明涉及语音翻译技术领域,尤其涉及一种翻译处理方法、装置及设备。
背景技术
目前在语言不通的情况下,用户希望将一种语言转换成另一种语言,实现跨语种沟通。语音翻译常见于出国游玩、不同语种人群间的沟通交流等场景,能够满足用户这方面的需求。
相关技术中,通常是对说话者进行语音识别,将语音内容转换成文字后通过翻译引擎翻译成目标语言的文字,最后通过语音合成技术生成目标语言的语音。然而,在语音识别过程中会出现识别不准确的情况,例如说话者要表达的信息是“附近有卖热狗的吗?”,而经过语音识别可能会错误识别成“附近有卖芒果的吗?”,进而将已经识别错误的信息进行翻译,很难实现语义的正确反馈,语音翻译的准确性还有待提高。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种翻译处理方法,通过端到端翻译模型将第一语种的语音直接转换为第二语种的文本,避免了将语音识别步骤的错误传递给翻译步骤,提高了语音翻译的准确性。
本发明的第二个目的在于提出一种翻译处理装置。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本发明第一方面实施例提出了一种翻译处理方法,包括:
获取第一语种的第一语音信号,按照预设算法提取所述第一语音信号的语音特征向量;
将所述语音特征向量输入到预先训练的从第一语种语音到第二语种文本的端到端翻译模型中进行处理,获取与所述第一语音信号对应的所述第二语种的文本信息;
对所述第二语种的文本信息进行语音合成,获取对应的第二语音信号并播放。
本发明实施例的翻译处理方法,通过获取第一语种的第一语音信号,按照预设算法提取第一语音信号的语音特征向量。进而,将语音特征向量输入到预先训练的从第一语种语音到第二语种文本的端到端翻译模型中进行处理,获取与第一语音信号对应的第二语种的文本信息。进一步对第二语种的文本信息进行语音合成,获取对应的第二语音信号并播放。由此,通过将第一语种的语音信号的语音特征向量输入到端到端翻译模型中,实现了直接将第一语种的语音转换为第二语种的文本信息,避免了将语音识别步骤的错误传递给翻译步骤,提高了语音翻译的准确性。
另外,根据本发明上述实施例的翻译处理方法还可以具有如下附加技术特征:
可选地,所述按照预设算法提取所述第一语音信号的语音特征向量,包括:对所述第一语音信号进行梅尔频率倒谱分析生成第一维度的语音特征向量;根据所述端到端翻译模型的输入信息维度对所述第一维度的语音特征向量进行变换处理,生成与所述输入信息维度匹配的第二维度的语音特征向量。
可选地,在将所述语音特征向量输入到预先训练的从第一语种语音到第二语种文本的端到端翻译模型中进行处理之前,还包括:获取所述第一语种的语音语料与对应的所述第二语种的文本语料的翻译训练语料;根据所述翻译训练语料训练预设模型的处理参数,生成所述端到端翻译模型。
可选地,若所述第一语种和所述第二语种为小语种翻译,则所述获取所述第一语种的语音语料与对应的所述第二语种的文本语料的翻译训练语料,包括:通过语音识别系统对所述第一语种的语音语料进行识别处理获取所述第一语种的文本语料;通过翻译引擎将所述第一语种的文本语料翻译成所述第二语种的文本语料。
可选地,所述获取所述第一语种的语音语料与对应的所述第二语种的文本语料的翻译训练语料,包括:获取经过人工标注的与所述第一语种的语音语料对应的第一语种的文本语料;通过翻译引擎将所述第一语种的文本语料翻译成所述第二语种的文本语料。
为达上述目的,本发明第二方面实施例提出了一种翻译处理装置,包括:
获取模块,用于获取第一语种的第一语音信号,按照预设算法提取所述第一语音信号的语音特征向量;
处理模块,用于将所述语音特征向量输入到预先训练的从第一语种语音到第二语种文本的端到端翻译模型中进行处理,获取与所述第一语音信号对应的所述第二语种的文本信息;
合成模块,用于对所述第二语种的文本信息进行语音合成,获取对应的第二语音信号并播放。
本发明实施例的翻译处理装置,通过获取第一语种的第一语音信号,按照预设算法提取第一语音信号的语音特征向量。进而,将语音特征向量输入到预先训练的从第一语种语音到第二语种文本的端到端翻译模型中进行处理,获取与第一语音信号对应的第二语种的文本信息。进一步对第二语种的文本信息进行语音合成,获取对应的第二语音信号并播放。由此,实现了将第一语种的语音直接转换为第二语种的文本,避免了将语音识别步骤的错误传递给翻译步骤,提高了语音翻译的准确性。
另外,根据本发明上述实施例的翻译处理装置还可以具有如下附加技术特征:
可选地,所述获取模块具体用于:对所述第一语音信号进行梅尔频率倒谱分析生成第一维度的语音特征向量;根据所述端到端翻译模型的输入信息维度对所述第一维度的语音特征向量进行变换处理,生成与所述输入信息维度匹配的第二维度的语音特征向量。
可选地,所述的装置还包括:训练模块,用于获取所述第一语种的语音语料与对应的所述第二语种的文本语料的翻译训练语料;根据所述翻译训练语料训练预设模型的处理参数,生成所述端到端翻译模型。
可选地,若所述第一语种和所述第二语种为小语种翻译,则所述训练模块具体用于:通过语音识别系统对所述第一语种的语音语料进行识别处理获取所述第一语种的文本语料;通过翻译引擎将所述第一语种的文本语料翻译成所述第二语种的文本语料。
可选地,所述训练模块具体用于:获取经过人工标注的与所述第一语种的语音语料对应的第一语种的文本语料;通过翻译引擎将所述第一语种的文本语料翻译成所述第二语种的文本语料。
为达上述目的,本发明第三方面实施例提出了一种计算机设备,包括处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如第一方面实施例所述的翻译处理方法。
为达上述目的,本发明第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如第一方面实施例所述的翻译处理方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1为本发明实施例所提供的一种翻译处理方法的流程示意图;
图2为本发明实施例所提供的另一种翻译处理方法的流程示意图;
图3为本发明实施例所提供的一种端到端语音翻译模型一层结构示意图;
图4为本发明实施例所提供的另一种翻译处理方法的流程示意图;
图5为本发明实施例所提供的一种获取翻译训练语料的示意图;
图6为本发明实施例所提供的另一种获取翻译训练语料的示意图;
图7为本发明实施例所提供的一种翻译处理装置的结构示意图;
图8为本发明实施例所提供的另一种翻译处理装置的结构示意图;
图9示出了适于用来实现本发明实施例的示例性计算机设备的框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的翻译处理方法、装置及设备。
图1为本发明实施例所提供的一种翻译处理方法的流程示意图,如图1所示,该方法包括:
步骤101,获取第一语种的第一语音信号,按照预设算法提取第一语音信号的语音特征向量。
本实施例中,在进行语音翻译时,需要先获取第一语种的第一语音信号。例如,可以通过麦克风等语音接收装置获取第一语音信号。
其中,第一语种可以为任意语种,例如汉语、英语、俄语等。
在本发明的一个实施例中,可以对第一语音信号进行梅尔频率倒谱分析(MFCC),以生成语音特征向量。
其中,语音特征包括但不限于声强、音高、响度、倒谱系数、能量、共振峰等,预设算法包括但不限于MFCC、线性预测分析、线性预测倒谱系数等。
步骤102,将语音特征向量输入到预先训练的从第一语种语音到第二语种文本的端到端翻译模型中进行处理,获取与第一语音信号对应的第二语种的文本信息。
在本发明的一个实施例中,可以获取第一语种的语音语料与对应的第二语种的文本语料的翻译训练语料,根据翻译训练语料训练预设模型的处理参数,生成端到端翻译模型。进而,将第一语音信号的语音特征向量输入到预先训练的端到端翻译模型中进行处理,从而获取对应的第二语种的文本信息。
例如,在进行汉语-英语的语音翻译时,可以获取汉语的语音语料和对应的英语的文本语料的翻译训练语料,例如获取语音“你好”和文本“hello”作为翻译训练语料,训练预设模型的处理参数以生成端到端翻译模型。进而,在对语音“你好”进行语音翻译时,提取语音“你好”的语音特征向量并输入到预先训练的端到端翻译模型中,从而获取文本“hello”。
其中,第二语种可以为与第一语种不同的任意语种。端到端翻译模型包括但不限于循环神经网络模型(RNN)、transformer模型等。
步骤103,对第二语种的文本信息进行语音合成,获取对应的第二语音信号并播放。
在本发明的一个实施例中,可以通过语音合成技术(例如TTS文语转换技术),对第二语种的文本信息进行语音合成,从而生成对应的第二语种的第二语音信号并播放。例如,可以对英语文本“hello”进行语音合成,生成英语语音“hello”并通过麦克风等设备播放语音。
在本发明的一个实施例中,还可以预先录制与文本信息对应的语音信息的音频文件,并将文本信息和语音信息的对应关系预先存储在数据库中,进而在获取文本信息后,通过查询数据库获取对应的语音信息的音频文件并播放。例如,在获取英语文本“hello”后,通过查询数据库获取对应的英文语音“hello”的音频文件并播放。
本实施例中,通过将第一语种的语音信号的语音特征向量输入到端到端翻译模型中,实现了直接将第一语种的语音转换为第二语种的文本信息,避免了将语音识别步骤的错误传递给翻译步骤,提高了语音翻译的准确性。并且,相对于人工翻译的方式提供了一种自动化语音翻译方案,降低了成本。
综上所述,本发明实施例的翻译处理方法,通过获取第一语种的第一语音信号,按照预设算法提取第一语音信号的语音特征向量。进而,将语音特征向量输入到预先训练的从第一语种语音到第二语种文本的端到端翻译模型中进行处理,获取与第一语音信号对应的第二语种的文本信息。进一步对第二语种的文本信息进行语音合成,获取对应的第二语音信号并播放。由此,实现了将第一语种的语音直接转换为第二语种的文本,避免了将语音识别步骤的错误传递给翻译步骤,提高了语音翻译的准确性。
为了更加清楚的解释本发明,下面以transformer模型为例对提取第一语音信号的语音特征向量进行解释说明。
图2为本发明实施例所提供的另一种翻译处理方法的流程示意图,如图2所示,在获取第一语种的第一语音信号之后,该方法包括:
步骤201,对第一语音信号进行梅尔频率倒谱分析生成第一维度的语音特征向量。
本实施例中,可以对第一语音信号进行梅尔频率倒谱分析(MFCC),以生成语音特征向量。例如,可以通过预加重、分帧、加窗、FFT(Fast Fourier Transformation,快速傅氏变换)、梅尔滤波器组、取对数、DCT(Discrete Cosine Transform,离散余弦变换)等步骤对第一语音信号进行处理,实现通过梅尔频率倒谱分析提取语音信号特征,进而生成语音特征向量。比如,可以生成序列维度为80的语音特征向量。
步骤202,根据端到端翻译模型的输入信息维度对第一维度的语音特征向量进行变换处理,生成与输入信息维度匹配的第二维度的语音特征向量。
在本发明的一个实施例中,可以采用Feed Forward前向网络(Feed-forwardNeural Networks)对第一维度的语音特征向量进行变换处理,生成第二维度的语音特征向量。
例如,以transformer模型输入层为例,参照图3,标准的transformer模型的模型输入信息维度一般为1024。因此,对第一语音信号进行MFCC生成80维度的语音特征向量后,可以通过Feed Forward前向网络将语音特征统一映射为1024维度,进而将1024维度的语音特征向量输入到标准的transformer模型中进行处理,以便于进一步生成对应的第二语种的文本信息。
可以理解,标准的transformer模型在图3中MFCC和Feed Forward部分为一个文本输入的input embedding模块,由于本实施例中处理的源端是语音信号,因此需要对语音信号进行梅尔频率倒谱分析生成语音特征向量,并对语音特征向量的维度进行转换,生成与输入信息维度匹配的第二维度的语音特征向量,从而使得transformer模型能够对语音特征向量进行处理。
需要说明的是,由于本发明实施例中的端到端语音翻译模型在目标端输入是文本信息,因此目标端可以沿用标准的transformer模型采用的文本信息input embedding设计。
本发明实施例的翻译处理方法,通过端到端语音翻译模型,直接将第一语种语音转换为第二语种文本,能够避免语音识别的错误传播给翻译模块,提高了语音翻译的准确率。并且,通过对模型进行优化,将端到端翻译模型应用于语音-文本的翻译,提高了系统的性能和产品实用性。
基于上述实施例,进一步地,在将语音特征向量输入到预端到端翻译模型中进行处理之前,还可以获取翻译训练语料对端到端翻译模型进行训练。
图4为本发明实施例所提供的另一种翻译处理方法的流程示意图,如图4所示,该方法包括:
步骤301,获取第一语种的语音语料与对应的第二语种的文本语料的翻译训练语料。
在本发明的一个实施例中,如图5所示,可以获取经过人工标注的第一语种的语音语料,以及经过人工标注的对应的第二语种的文本语料,从而生成翻译训练语料。例如,可以对语音“你好”和文本“hello”进行人工标注,以生成翻译训练语料。再例如,考虑到已有的意译翻译或不同语种之间的文化差异,还可以对第一语种的语音以及对应意译的第二语种的文本进行人工标注,以生成翻译训练语料,比如“孤岛惊魂”和“farcry”,再比如一些谚语等。
在本发明的一个实施例中,如图6所示,可以获取经过人工标注的与第一语种的语音语料对应的第一语种的文本语料,通过翻译引擎将第一语种的文本语料翻译成第二语种的文本语料。例如,可以对语音“你好”和文本“你好”进行人工标注,进而通过翻译引擎将文本“你好”翻译成文本“hello”,从而生成语音“你好”和文本“hello”的翻译训练语料。由此,可以降低获取翻译训练语料的成本,提高效率。
在本发明的一个实施例中,在获取小语种翻译训练语料时,还可以通过语音识别系统对第一语种的语音语料进行识别处理获取第一语种的文本语料,进而通过翻译引擎将第一语种的文本语料翻译成第二语种的文本语料。由此,可以方便的构建小语种翻译训练语料,提升小语种翻译模型的性能。
需要说明的是,上述获取翻译训练语料的实现方式仅仅是示例性的,可以通过其中任一种获取翻译训练语料,也可以结合多种方式获取翻译训练语料,此处不作限制。
步骤302,根据翻译训练语料训练预设模型的处理参数,生成端到端翻译模型。
本实施例中,由于已经获取了第一语种的语音语料与对应的第二语种的文本语料的翻译训练语料,因此通过翻译训练语料对预设模型的处理参数进行训练,生成端到端翻译模型。进而,通过获取第一语种语音信号的语音特征向量,并输入到端到端翻译模型中进行处理,就可以获取对应的第二语种的文本信息,通过将第二语种文本信息合成语音信息并播放,从而实现语音翻译。
其中,端到端翻译模型包括但不限于循环神经网络模型(RNN)、transformer模型等。
本发明实施例的翻译处理方法,通过获取第一语种的语音语料与对应的第二语种的文本语料的翻译训练语料,并对端到端翻译模型进行训练。进而,可以通过端到端翻译模型直接将第一语种的语音转换为第二语种文本,提高了语音翻译准确性。
为了实现上述实施例,本发明还提出一种翻译处理装置。
图7为本发明实施例所提供的一种翻译处理装置的结构示意图,如图7所示,该装置包括:获取模块100,处理模块200,合成模块300。
其中,获取模块100,用于获取第一语种的第一语音信号,按照预设算法提取第一语音信号的语音特征向量。
处理模块200,用于将语音特征向量输入到预先训练的从第一语种语音到第二语种文本的端到端翻译模型中进行处理,获取与第一语音信号对应的第二语种的文本信息。
合成模块,用于对第二语种的文本信息进行语音合成,获取对应的第二语音信号并播放。
进一步地,获取模块100具体用于:对第一语音信号进行梅尔频率倒谱分析生成第一维度的语音特征向量;根据端到端翻译模型的输入信息维度对第一维度的语音特征向量进行变换处理,生成与输入信息维度匹配的第二维度的语音特征向量。
在图7的基础上,图8所示的翻译处理装置还包括:训练模块400。
其中,训练模块400,用于获取第一语种的语音语料与对应的第二语种的文本语料的翻译训练语料;根据翻译训练语料训练预设模型的处理参数,生成端到端翻译模型。
进一步地,若第一语种和第二语种为小语种翻译,则训练模块400具体用于:通过语音识别系统对第一语种的语音语料进行识别处理获取第一语种的文本语料;通过翻译引擎将第一语种的文本语料翻译成第二语种的文本语料。
进一步地,训练模块400具体用于:获取经过人工标注的与第一语种的语音语料对应的第一语种的文本语料;通过翻译引擎将第一语种的文本语料翻译成第二语种的文本语料。
需要说明的是,前述实施例对翻译处理方法的解释说明同样适用于本实施例的翻译处理装置,此处不再赘述。
本发明实施例的翻译处理装置,通过获取第一语种的第一语音信号,按照预设算法提取第一语音信号的语音特征向量。进而,将语音特征向量输入到预先训练的从第一语种语音到第二语种文本的端到端翻译模型中进行处理,获取与第一语音信号对应的第二语种的文本信息。进一步对第二语种的文本信息进行语音合成,获取对应的第二语音信号并播放。由此,实现了将第一语种的语音直接转换为第二语种的文本,避免了将语音识别步骤的错误传递给翻译步骤,提高了语音翻译的准确性。
为了实现上述实施例,本发明还提出一种计算机设备,包括处理器和存储器;其中,处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于实现如前述任一实施例所述的翻译处理方法。
为了实现上述实施例,本发明还提出一种计算机程序产品,当计算机程序产品中的指令被处理器执行时实现如前述任一实施例所述的翻译处理方法。
为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前述任一实施例所述的翻译处理方法。
图9示出了适于用来实现本发明实施例的示例性计算机设备的框图。图9显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图9未显示,通常称为“硬盘驱动器”)。尽管图9中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local AreaNetwork;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (12)
1.一种翻译处理方法,其特征在于,包括以下步骤:
获取第一语种的第一语音信号,按照预设算法提取所述第一语音信号的语音特征向量;
将所述语音特征向量输入到预先训练的从第一语种语音到第二语种文本的端到端翻译模型中进行处理,获取与所述第一语音信号对应的所述第二语种的文本信息;
对所述第二语种的文本信息进行语音合成,获取对应的第二语音信号并播放。
2.如权利要求1所述的方法,其特征在于,所述按照预设算法提取所述第一语音信号的语音特征向量,包括:
对所述第一语音信号进行梅尔频率倒谱分析生成第一维度的语音特征向量;
根据所述端到端翻译模型的输入信息维度对所述第一维度的语音特征向量进行变换处理,生成与所述输入信息维度匹配的第二维度的语音特征向量。
3.如权利要求1所述的方法,其特征在于,在将所述语音特征向量输入到预先训练的从第一语种语音到第二语种文本的端到端翻译模型中进行处理之前,还包括:
获取所述第一语种的语音语料与对应的所述第二语种的文本语料的翻译训练语料;
根据所述翻译训练语料训练预设模型的处理参数,生成所述端到端翻译模型。
4.如权利要求3所述的方法,其特征在于,若所述第一语种和所述第二语种为小语种翻译,则所述获取所述第一语种的语音语料与对应的所述第二语种的文本语料的翻译训练语料,包括:
通过语音识别系统对所述第一语种的语音语料进行识别处理获取所述第一语种的文本语料;
通过翻译引擎将所述第一语种的文本语料翻译成所述第二语种的文本语料。
5.如权利要求3所述的方法,其特征在于,所述获取所述第一语种的语音语料与对应的所述第二语种的文本语料的翻译训练语料,包括:
获取经过人工标注的与所述第一语种的语音语料对应的第一语种的文本语料;
通过翻译引擎将所述第一语种的文本语料翻译成所述第二语种的文本语料。
6.一种翻译处理装置,其特征在于,包括:
获取模块,用于获取第一语种的第一语音信号,按照预设算法提取所述第一语音信号的语音特征向量;
处理模块,用于将所述语音特征向量输入到预先训练的从第一语种语音到第二语种文本的端到端翻译模型中进行处理,获取与所述第一语音信号对应的所述第二语种的文本信息;
合成模块,用于对所述第二语种的文本信息进行语音合成,获取对应的第二语音信号并播放。
7.如权利要求6所述的装置,其特征在于,所述获取模块具体用于:
对所述第一语音信号进行梅尔频率倒谱分析生成第一维度的语音特征向量;
根据所述端到端翻译模型的输入信息维度对所述第一维度的语音特征向量进行变换处理,生成与所述输入信息维度匹配的第二维度的语音特征向量。
8.如权利要求6所述的装置,其特征在于,还包括:
训练模块,用于获取所述第一语种的语音语料与对应的所述第二语种的文本语料的翻译训练语料;
根据所述翻译训练语料训练预设模型的处理参数,生成所述端到端翻译模型。
9.如权利要求8所述的装置,其特征在于,若所述第一语种和所述第二语种为小语种翻译,则所述训练模块具体用于:
通过语音识别系统对所述第一语种的语音语料进行识别处理获取所述第一语种的文本语料;
通过翻译引擎将所述第一语种的文本语料翻译成所述第二语种的文本语料。
10.如权利要求8所述的装置,其特征在于,所述训练模块具体用于:
获取经过人工标注的与所述第一语种的语音语料对应的第一语种的文本语料;
通过翻译引擎将所述第一语种的文本语料翻译成所述第二语种的文本语料。
11.一种计算机设备,其特征在于,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-5中任一项所述的翻译处理方法。
12.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的翻译处理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811142935.8A CN108986793A (zh) | 2018-09-28 | 2018-09-28 | 翻译处理方法、装置及设备 |
US16/585,269 US11328133B2 (en) | 2018-09-28 | 2019-09-27 | Translation processing method, translation processing device, and device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811142935.8A CN108986793A (zh) | 2018-09-28 | 2018-09-28 | 翻译处理方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108986793A true CN108986793A (zh) | 2018-12-11 |
Family
ID=64544153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811142935.8A Pending CN108986793A (zh) | 2018-09-28 | 2018-09-28 | 翻译处理方法、装置及设备 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11328133B2 (zh) |
CN (1) | CN108986793A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635305A (zh) * | 2018-12-17 | 2019-04-16 | 北京百度网讯科技有限公司 | 语音翻译方法及装置、设备及存储介质 |
CN109979461A (zh) * | 2019-03-15 | 2019-07-05 | 科大讯飞股份有限公司 | 一种语音翻译方法及装置 |
CN110008481A (zh) * | 2019-04-10 | 2019-07-12 | 南京魔盒信息科技有限公司 | 翻译语音生成方法、装置、计算机设备和存储介质 |
CN110210026A (zh) * | 2019-05-29 | 2019-09-06 | 北京百度网讯科技有限公司 | 语音翻译方法、装置、计算机设备和存储介质 |
CN110995304A (zh) * | 2019-12-25 | 2020-04-10 | 北京金山安全软件有限公司 | 一种即时翻译通信方法及系统 |
CN111090727A (zh) * | 2019-12-06 | 2020-05-01 | 苏州思必驰信息科技有限公司 | 语言转换处理方法、装置及方言语音交互系统 |
CN111460804A (zh) * | 2019-01-02 | 2020-07-28 | 阿里巴巴集团控股有限公司 | 文本处理方法、装置和系统 |
CN111563388A (zh) * | 2019-02-14 | 2020-08-21 | 阿里巴巴集团控股有限公司 | 信息处理方法及装置 |
CN112767918A (zh) * | 2020-12-30 | 2021-05-07 | 中国人民解放军战略支援部队信息工程大学 | 俄汉语音翻译方法、俄汉语音翻译装置及存储介质 |
WO2021208531A1 (zh) * | 2020-04-16 | 2021-10-21 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和电子设备 |
US20220013106A1 (en) * | 2018-12-11 | 2022-01-13 | Microsoft Technology Licensing, Llc | Multi-speaker neural text-to-speech synthesis |
CN116524955A (zh) * | 2023-07-05 | 2023-08-01 | 上海蜜度信息技术有限公司 | 语音翻译和模型训练方法、系统和电子设备 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11551675B2 (en) * | 2019-09-03 | 2023-01-10 | Samsung Electronics Co., Ltd. | Electronic device and method for controlling the electronic device thereof |
EP4362439A1 (en) * | 2021-10-15 | 2024-05-01 | Samsung Electronics Co., Ltd. | Electronic device and control method therefor |
CN116611459B (zh) * | 2023-07-19 | 2024-03-15 | 腾讯科技(深圳)有限公司 | 翻译模型的训练方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6122614A (en) * | 1998-11-20 | 2000-09-19 | Custom Speech Usa, Inc. | System and method for automating transcription services |
US20090198493A1 (en) * | 2003-12-23 | 2009-08-06 | At&T Corp. | System and Method for Unsupervised and Active Learning for Automatic Speech Recognition |
CN106023985A (zh) * | 2016-05-19 | 2016-10-12 | 北京捷通华声科技股份有限公司 | 一种语言模型训练方法、系统和语音识别系统 |
CN107170453A (zh) * | 2017-05-18 | 2017-09-15 | 百度在线网络技术(北京)有限公司 | 基于人工智能的跨语种语音转录方法、设备及可读介质 |
CN108319591A (zh) * | 2018-02-05 | 2018-07-24 | 深圳市沃特沃德股份有限公司 | 实现语音翻译的方法、装置和语音翻译设备 |
CN108447486A (zh) * | 2018-02-28 | 2018-08-24 | 科大讯飞股份有限公司 | 一种语音翻译方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8972268B2 (en) * | 2008-04-15 | 2015-03-03 | Facebook, Inc. | Enhanced speech-to-speech translation system and methods for adding a new word |
US10747963B2 (en) * | 2010-10-31 | 2020-08-18 | Speech Morphing Systems, Inc. | Speech morphing communication system |
KR20140121580A (ko) * | 2013-04-08 | 2014-10-16 | 한국전자통신연구원 | 자동 번역 및 통역 장치 및 그 방법 |
JP7197259B2 (ja) * | 2017-08-25 | 2022-12-27 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 情報処理方法、情報処理装置およびプログラム |
-
2018
- 2018-09-28 CN CN201811142935.8A patent/CN108986793A/zh active Pending
-
2019
- 2019-09-27 US US16/585,269 patent/US11328133B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6122614A (en) * | 1998-11-20 | 2000-09-19 | Custom Speech Usa, Inc. | System and method for automating transcription services |
US20090198493A1 (en) * | 2003-12-23 | 2009-08-06 | At&T Corp. | System and Method for Unsupervised and Active Learning for Automatic Speech Recognition |
CN106023985A (zh) * | 2016-05-19 | 2016-10-12 | 北京捷通华声科技股份有限公司 | 一种语言模型训练方法、系统和语音识别系统 |
CN107170453A (zh) * | 2017-05-18 | 2017-09-15 | 百度在线网络技术(北京)有限公司 | 基于人工智能的跨语种语音转录方法、设备及可读介质 |
CN108319591A (zh) * | 2018-02-05 | 2018-07-24 | 深圳市沃特沃德股份有限公司 | 实现语音翻译的方法、装置和语音翻译设备 |
CN108447486A (zh) * | 2018-02-28 | 2018-08-24 | 科大讯飞股份有限公司 | 一种语音翻译方法及装置 |
Non-Patent Citations (1)
Title |
---|
王朝晖,余军: "《基于CAT及语料库技术的电子商务翻译研究》", 30 November 2016, 厦门大学出版社 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220013106A1 (en) * | 2018-12-11 | 2022-01-13 | Microsoft Technology Licensing, Llc | Multi-speaker neural text-to-speech synthesis |
CN109635305A (zh) * | 2018-12-17 | 2019-04-16 | 北京百度网讯科技有限公司 | 语音翻译方法及装置、设备及存储介质 |
CN109635305B (zh) * | 2018-12-17 | 2022-07-12 | 北京百度网讯科技有限公司 | 语音翻译方法及装置、设备及存储介质 |
CN111460804B (zh) * | 2019-01-02 | 2023-05-02 | 阿里巴巴集团控股有限公司 | 文本处理方法、装置和系统 |
CN111460804A (zh) * | 2019-01-02 | 2020-07-28 | 阿里巴巴集团控股有限公司 | 文本处理方法、装置和系统 |
CN111563388A (zh) * | 2019-02-14 | 2020-08-21 | 阿里巴巴集团控股有限公司 | 信息处理方法及装置 |
CN109979461A (zh) * | 2019-03-15 | 2019-07-05 | 科大讯飞股份有限公司 | 一种语音翻译方法及装置 |
CN109979461B (zh) * | 2019-03-15 | 2022-02-25 | 科大讯飞股份有限公司 | 一种语音翻译方法及装置 |
CN110008481B (zh) * | 2019-04-10 | 2023-04-28 | 南京魔盒信息科技有限公司 | 翻译语音生成方法、装置、计算机设备和存储介质 |
CN110008481A (zh) * | 2019-04-10 | 2019-07-12 | 南京魔盒信息科技有限公司 | 翻译语音生成方法、装置、计算机设备和存储介质 |
CN110210026A (zh) * | 2019-05-29 | 2019-09-06 | 北京百度网讯科技有限公司 | 语音翻译方法、装置、计算机设备和存储介质 |
CN110210026B (zh) * | 2019-05-29 | 2023-05-26 | 北京百度网讯科技有限公司 | 语音翻译方法、装置、计算机设备和存储介质 |
CN111090727A (zh) * | 2019-12-06 | 2020-05-01 | 苏州思必驰信息科技有限公司 | 语言转换处理方法、装置及方言语音交互系统 |
CN111090727B (zh) * | 2019-12-06 | 2022-07-08 | 思必驰科技股份有限公司 | 语言转换处理方法、装置及方言语音交互系统 |
CN110995304B (zh) * | 2019-12-25 | 2022-04-19 | 北京金山安全软件有限公司 | 一种即时翻译通信方法及系统 |
CN110995304A (zh) * | 2019-12-25 | 2020-04-10 | 北京金山安全软件有限公司 | 一种即时翻译通信方法及系统 |
WO2021208531A1 (zh) * | 2020-04-16 | 2021-10-21 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和电子设备 |
CN112767918A (zh) * | 2020-12-30 | 2021-05-07 | 中国人民解放军战略支援部队信息工程大学 | 俄汉语音翻译方法、俄汉语音翻译装置及存储介质 |
CN112767918B (zh) * | 2020-12-30 | 2023-12-01 | 中国人民解放军战略支援部队信息工程大学 | 俄汉语音翻译方法、俄汉语音翻译装置及存储介质 |
CN116524955A (zh) * | 2023-07-05 | 2023-08-01 | 上海蜜度信息技术有限公司 | 语音翻译和模型训练方法、系统和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
US20200104372A1 (en) | 2020-04-02 |
US11328133B2 (en) | 2022-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108986793A (zh) | 翻译处理方法、装置及设备 | |
CN108766414B (zh) | 用于语音翻译的方法、装置、设备和计算机可读存储介质 | |
Grézl et al. | Study of probabilistic and bottle-neck features in multilingual environment | |
CN109887497A (zh) | 语音识别的建模方法、装置及设备 | |
US8756064B2 (en) | Method and system for creating frugal speech corpus using internet resources and conventional speech corpus | |
US7668718B2 (en) | Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile | |
CN107515862A (zh) | 语音翻译方法、装置及服务器 | |
CN107945792A (zh) | 语音处理方法和装置 | |
CN110033760A (zh) | 语音识别的建模方法、装置及设备 | |
US9588967B2 (en) | Interpretation apparatus and method | |
US10521945B2 (en) | Text-to-articulatory movement | |
CN110211570A (zh) | 同声传译处理方法、装置及设备 | |
CN110175335A (zh) | 翻译模型的训练方法和装置 | |
Cho et al. | A real-world system for simultaneous translation of German lectures. | |
Dhanjal et al. | An automatic machine translation system for multi-lingual speech to Indian sign language | |
CN110059313A (zh) | 翻译处理方法和装置 | |
Cucu et al. | SMT-based ASR domain adaptation methods for under-resourced languages: Application to Romanian | |
Kawahara et al. | Automatic lecture transcription by exploiting presentation slide information for language model adaptation | |
CN107704549A (zh) | 语音搜索方法、装置及计算机设备 | |
Cho et al. | Kosp2e: Korean speech to english translation corpus | |
Ghannay et al. | Where are we in semantic concept extraction for Spoken Language Understanding? | |
US20220310059A1 (en) | Phonemes And Graphemes for Neural Text-to-Speech | |
CN107844531A (zh) | 答案输出方法、装置和计算机设备 | |
Zeng | Implementation of Embedded Technology-Based English Speech Identification and Translation System. | |
Coto-Solano et al. | Managing data workflows for untrained forced alignment: examples from Costa Rica, Mexico, the Cook Islands, and Vanuatu |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181211 |
|
RJ01 | Rejection of invention patent application after publication |