CN108460027A - 一种口语即时翻译方法及系统 - Google Patents
一种口语即时翻译方法及系统 Download PDFInfo
- Publication number
- CN108460027A CN108460027A CN201810153265.3A CN201810153265A CN108460027A CN 108460027 A CN108460027 A CN 108460027A CN 201810153265 A CN201810153265 A CN 201810153265A CN 108460027 A CN108460027 A CN 108460027A
- Authority
- CN
- China
- Prior art keywords
- translation
- phrase
- language
- text sentence
- language text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/51—Translation evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Abstract
本发明公开了一种口语即时翻译方法,包括:获取待翻译的语音信号;基于CNN‑HMM声学模型对所述语音信号进行识别,获得源语言文本句子;基于实时机器翻译模型,逐一对所述源语言文本句子中的每个短语翻译为不同翻译结果进行打分,获得所有短语的不同翻译结果组合中得分最高的组合,作为翻译出的目标语言文本句子。本发明还公开了一种口语即时翻译系统。本发明能够提高口语翻译的效率和准确度。
Description
技术领域
本发明涉及语音处理和识别领域,尤其涉及一种口语即时翻译方法及系统。
背景技术
人们在生活中所接触到的常见信息有多种,其中文本信息与音频信息最为常见。一个人如果不懂不熟悉的语言文本信息,他可有多种途径来知晓其中的内容,比如可以找熟悉该语言的人来解释,也可以依靠翻译软件来进行翻译。对于音频信息,人们对不熟悉的语音信息较难理解,如果交流的双方有一个即时的翻译机,听懂对方的语音,并转换为使用者熟悉的文本,就可解决上述人们的语言沟通问题。即时口语翻译的一般实现流程为:首先是对用户输入的语音进行识别,转换为文字,然后将文字利用机器翻译手段翻译为指定语言。
传统语音识别系统普遍采用GMM-HMM(Gaussian Mixture Model-Hidden MarkovModel,高斯混合模型-隐马尔科夫模型),另外深度神经网络(DNN)是近年来机器学习领域中的研究热点,使得DNN-HMM(Deep Neural Network-Hidden Markov Model,深度神经网络-隐马尔科夫模型)模型在语音识别上也具体广泛的应用。但是,GMM-HMM这种声学模型属于浅层结构模型,对于语音信号这种复杂信号的处理上,表达能力存在局限性。DNN-HMM虽属于深度语言学习,但是由于DNN输入的窗长是固定的,不能利用历史信息来辅助当前任务。
机器翻译发展至今已出现了多种基于不同原理的机器翻译系统,主要分为基于规则的机器翻译和基于实例的机器翻译。但是,基于规则的机器翻译中的规则是语言学家编写的,因此需要消耗大量的人力物力用于规则的开发,研究周期长,实验的代价比较大,虽然研究者们已经建立了含有成千上万个规则的规则库,然而这种方法仍然具有局限性,在处理大规模真实语料的时候,效果依然很不理想。基于实例的机器翻译的不通过深层的分析,仅利用已有的经验知识,通过类比进行翻译,使得翻译准确度较低。
发明内容
本发明针对现有技术中存在的问题,提供了一种口语即时翻译方法及系统,能够提高口语翻译的效率和准确度。
本发明就上述技术问题而提出的技术方案如下:
一方面,本发明提供一种口语即时翻译方法,包括:
获取待翻译的语音信号;
基于CNN-HMM声学模型对所述语音信号进行识别,获得源语言文本句子;
基于实时机器翻译模型,逐一对所述源语言文本句子中的每个短语翻译为不同翻译结果进行打分,获得所有短语的不同翻译结果组合中得分最高的组合,作为翻译出的目标语言文本句子。
进一步地,所述基于CNN-HMM声学模型对所述语音信号进行识别,获得源语言文本句子,具体包括:
提取所述语音信号的不同时间不同频率所对应的美尔普系数;
将提取的美尔普系数整合成特征图;
将所述特征图输入至所述CNN-HMM声学模型,输出所述语音信号对应的源语言文本句子。
进一步地,所述实时机器翻译模型包括翻译模型和语法模型;
则在所述获取待翻译的语音信号之前,还包括:
构建词对齐的双语平行语料库;
根据所述词对齐的双语平行语料库对所述翻译模型进行训练;
根据所述词对齐的双语平行语料库对所述语法模型进行训练。
进一步地,所述构建词对齐的双语平行语料库,具体包括:
构建双语平行语料库;所述双语平行语料库存储有源语言文本句子与对应的目标语言文本句子;
通过最大期望算法对所述双语平行语料库进行训练,在所述最大期望算法收敛时,获得源语言文本句子与目标语言文本句子中词语的对应关系,进而获得词对齐的双语平行语料库。
进一步地,所述源语言为英文,所述目标语言为中文;
则在所述通过最大期望算法对所述双语平行语料库进行训练之前,还包括:
将所述双语平行语料库中的中文文本句子处理为以词语为单位的句子;
对所述双语平行语料库中的英文文本句子中除特定单词外的所有大写字母转换成相应的小写字母。
进一步地,所述根据所述词对齐的双语平行语料库对所述翻译模型进行训练,具体包括:
对源语言文本句子与目标语言文本句子中词语的对应关系进行拓展,获得源语言文本句子与目标语言文本句子中短语的对应关系;
提取所述词对齐的双语平行语料库中的所有源语言短语;
对源语言短语的不同翻译结果进行翻译准确度打分,以构建短语打分表;
根据所述词对齐的双语平行语料库和所述短语打分表对所述翻译模型进行训练。
进一步地,所述源语言文本句子与目标语言文本句子中词语的对应关系包括源语言到目标语言的词对齐和目标语言到源语言的词对齐;
则所述对源语言文本句子与目标语言文本句子中词语的对应关系进行拓展,获得源语言文本句子与目标语言文本句子中短语的对应关系,具体包括:
根据所述源语言到目标语言的词对齐构建第一对齐矩阵;
根据所述目标语言到源语言的词对齐构建第二对齐矩阵;
将所述第一对齐矩阵和所述第二对齐矩阵合一,将两个矩阵的重合点作为短语对的起始点,加入在两个词对齐之间的新词对齐与所述起始点共同构成短语对;所述短语对表示源语言文本句子与目标语言文本句子中短语的对应关系。
进一步地,所述对源语言短语的不同翻译结果进行翻译准确度打分,以构建短语打分表,具体包括:
统计源语言短语对应不同目标语言短语的个数;
根据统计结果计算所述源语言短语翻译为不同目标语言短语的概率,并根据所述概率对源语言短语的不同翻译结果进行翻译准确度打分,以构建短语打分表。
进一步地,所述基于实时机器翻译模型,逐一对所述源语言文本句子中的每个短语翻译为不同翻译结果进行打分,获得所有短语的不同翻译结果组合中得分最高的组合,作为翻译出的目标语言文本句子,具体包括:
将所述源语言文本句子输入至实时机器翻译模型,获得所述源语言文本句子中的每个短语的各种翻译结果;
逐一确认所述每个短语的翻译结果;
对于当前确认的短语,分别将当前短语的各种翻译结果与已确认短语的翻译结果进行组合,将组合得分最高所对应的翻译结果确认为当前短语的翻译结果,并继续进行下一个短语的确认;
在完成所有短语的确认时,输出所有短语确认的翻译结果的组合,作为翻译出的目标语言文本句子。
另一方面,本发明提供一种口语即时翻译系统,能够实现上述口语即时翻译方法的所有流程,所述口语即时翻译系统包括:
语音信号获取模块,用于获取待翻译的语音信号;
语音识别模块,用于基于CNN-HMM声学模型对所述语音信号进行识别,获得源语言文本句子;以及,
翻译模块,用于基于实时机器翻译模型,逐一对所述源语言文本句子中的每个短语翻译为不同翻译结果进行打分,获得所有短语的不同翻译结果组合中得分最高的组合,作为翻译出的目标语言文本句子。
本发明实施例提供的技术方案带来的有益效果是:
采用CNN-HMM声学模型对待翻译的语音信号进行识别,获得源语言文本句子,基于实时机器翻译模型,对源语言文本句子中的短语翻译进行打分,从而获得得分最高的句子翻译,输出准确度最高的翻译结果,且提高口语翻译的效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的口语即时翻译方法的一种实施例的流程示意图;
图2是本发明提供的口语即时翻译方法中解码的一种实施例的流程示意图;
图3是本发明提供的口语即时翻译方法中解码的另一种实施例的流程示意图;
图4是本发明提供的口语即时翻译系统的一种实施例的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例提供了一种口语即时翻译方法,参见图1,该方法包括:
S1、获取待翻译的语音信号;
S2、基于CNN-HMM声学模型对所述语音信号进行识别,获得源语言文本句子;
S3、基于实时机器翻译模型,逐一对所述源语言文本句子中的每个短语翻译为不同翻译结果进行打分,获得所有短语的不同翻译结果组合中得分最高的组合,作为翻译出的目标语言文本句子。
具体地,在步骤S1中,所述基于CNN-HMM声学模型对所述语音信号进行识别,获得源语言文本句子,具体包括:
提取所述语音信号的不同时间不同频率所对应的美尔普系数;
将提取的美尔普系数整合成特征图;
将所述特征图输入至所述CNN-HMM声学模型,输出所述语音信号对应的源语言文本句子。
需要说明的是,在语音识别之前先构建语音识别的语料库。本实施列采用已有的广东外语外贸大学英语口语考试数据、高考英语口语考试数据以及成人自考英语口语数据构建语音识别语料库,挑选其中日常用语部分,并按内容进行文件夹分类,一个文件夹中的语料内容相同,比如所有内容是“how are you”的语料都存放在名字为“how_are_you”的文件夹中。语料的命名为语料的内容,比如一个内容是“how are you”的语料则命名为“how_are_you_1”,其中“1”是其序号。由于英语口语考试主要以日常生活或简单的社会问题作为话题,其包含了日常生活场景和基本事件所需的大部分口语内容,针对这一部分的语料作为语音识别语料库的构建,能够将其用于日常生活所需的基本口语交流,具有一定的现实意义与价值。同时,为了构建这一方面的完备语料库,也可针对性地完善相应语料的采集、录制与标注。
深度神经网络(DNN)的深层结构模型由于其多层非线性变换的复杂性,具有更强的表达与建模能力。通常情况下,语音识别都是基于时频分析后的语音谱完成的,而其中语音时频谱具有结构特点。要想提高语音识别率,就需要克服语音信号所面临各种各样的多样性,包括说话人的多样性(说话人自身、以及说话人间),环境的多样性等。卷积神经网络(CNN),由于其局部连接和权重共享的特点,使得其具有很好的平移不变性。将卷积神经网络的思想应用到语音识别的声学建模中,则可以利用卷积的不变性来克服语音信号本身的多样性。从这个角度来看,则可以认为是将整个语音信号分析得到的时频谱当作一张图像一样来处理,采用图像中广泛应用的深层卷积网络对其进行识别。因此,本实施例采用CNN-HMM声学模型,对语音信号进行语音识别。
在语音特征参数的选取时,不再采用MFCC特征,而是采用MFSC(Mel FrequencySpectrum Coefficient,美尔谱系数)特征,它与MFCC特征相比缺少了DCT(离散余弦变换)这一步的处理,因为DCT操作对特征进行了去相关和压缩,因此MFSC会具有更高的维度和相关性,更符合语音信号的特点。MFSC只反映了语音特征参数的静态特性,语音的动态特性可以用一阶和二阶时间导数来描述。结合语音的静动态特征,提取语音信号的不同时间不同频率对应的MFSC参数,组成特征图进行输入。
在采用CNN-HMM声学模型之前,还需对卷积神经网络模型进行构建。卷积神经网络采用卷积层与池化层交替设置的方式,卷积操作通过训练好的卷积核将特征进一步提取,卷积层中各单元的值下列公式进行计算:
其中,Oi,m是第i个输入特征图的第m个单元;I为映射总数;ω0,j是第j个卷积特征图的偏差项;qj,m是第j个卷积特征图的第m个单元;ωi,j,n是权重矩阵中第n个权重向量ωi,j,连接着第i个输入特征图和第j个卷积特征图;F是过滤器的尺寸,σ(x)是非线性激活函数,
池化操作则使用最大池化,用来减少数据规模,降低训练时间而且不会损失太多信息。采样层到卷积层直接的连接是有权重和偏置参数的,而池化操作没有。
系统使用误差反向传播算法进行训练,训练过程中主要涉及到网络的前向传播和反向传播计算,前向传播体现了特征信息的传递,而反向传播则是体现误差信息对模型参数的矫正。
1、CNN前向传播
该过程可用下列公式计算:
其中,l表示当前层;表示当前层第j个卷积核的输出;表示当前层(从i到j)的权值;Mj表示在第l层,第j个卷积核对应的卷积窗口;f()函数为激活函数,可以选择sigmod或者tanh等函数
2.CNN反向传播
计算实际输出Op与相应的理想输出Yp的差后按极小化误差的方法反向传播调整权矩阵,主要用到公式:
此为代价函数,描述了样本n的训练误差,其中c为输出层节点的个数(通常就是最终的分类类别数目),t是训练样本的正确结果,y是网络训练的输出结果。
权值参数调整的方向如下公式:
其中,η为学习率。
其中,δ为误差度。
进一步地,所述实时机器翻译模型包括翻译模型和语法模型;
则在所述获取待翻译的语音信号之前,还包括:
构建词对齐的双语平行语料库;
根据所述词对齐的双语平行语料库对所述翻译模型进行训练;
根据所述词对齐的双语平行语料库对所述语法模型进行训练。
需要说明的是,语料库,尤其是那些经过加工对齐的平行语料库,在机器翻译、词义消歧和双语词典编撰等领域都非常有用。而对齐则是指双语文本平行语料库中的对应切分段位之间的关联,可以从不同的角度并根据语料的具体内容做出不同的界定。语料对齐的单位由大到小,有篇章、段落、句子、短语、词等不同的层次。粒度越小,提供的语言信息就越多,应用的价值也就越大。考虑到短期内的可执行性和有效性,本实施例建立日常的、社会的、小范围的、词对齐的双语平行语料库。一方面,将利用目前广东外语外贸大学已有的高考英语口语考试等相关数据的涉及到日常口语对话、社会事件应答等方面的内容作为部分训练用的语料,另一方面,为了构建足够完备准确的语料库,本实施例也针对性地建立部分经过词对齐加工的汉英双语平行语料库。
一个有效的实时机器翻译模型(翻译系统)的解码过程需要三个模型——翻译模型(Translation Model)、语法模型(Language Model)及失真模型(Distortion Model),其中的翻译模型和语法模型是需要通过大量的语料库训练才能得出的。本实施例对实时机器翻译模型的训练主要就是对上述前两个模型的训练。
本实施列对在实时机器翻译模型的训练计划采用Moses框架提供的自然语言处理方法对语料库进行处理,用GIZA++词对齐生成框架进行词对齐训练,用SRILM语法模型训练框架进行语法模型训练,用Moses的短语翻译模型进行翻译模型的训练。其中,Moses是一套统计机器翻译的开源框架,其中集成了自然语言处理与机器翻译领域的一些方法,提供了诸如切词、统一化等对自然语言处理的基础函数,并可通过对提供词对齐的平行语料库的训练得到翻译模型,为统计机器翻译系统的开发提供了良好的基础,也节约了开发者的开发时间。
SRILM(the SRI Language Modeling Toolkit)是一个训练生成语法模型的工具。语法模型是给翻译打分重要的部分,是检验一个句子是否是一个可读句子的概率模型。
实时机器翻译模型的训练过程为:对词对齐进行拓展生成短语对;对词对齐的双语平行语料库中的单词翻译进行统计从而得到记录单词翻译概率的单词翻译表;在词对齐文件中提取出源语言短语,接着对提取到的短语进行统计打分;用SR1LM工具创建语法模型;对翻译模型进行参数调优以使翻译模型趋于实用。
具体地,所述构建词对齐的双语平行语料库,具体包括:
构建双语平行语料库;所述双语平行语料库存储有源语言文本句子与对应的目标语言文本句子;
通过最大期望算法对所述双语平行语料库进行训练,在所述最大期望算法收敛时,获得源语言文本句子与目标语言文本句子中词语的对应关系,进而获得词对齐的双语平行语料库。
需要说明的是,采用GiZA++词对齐生成训练工具,对没有词对齐的平行语料库通过EM算法(Expectation Maximization Algorithm,最大期望算法)进行训练,从而得到有词对齐的双语平行语料库。由于大部分的平行语料库都是不提供词对齐的,所以对词对齐的寻找是很关键的,GIZA++基于IBM模型理论,用最大可能词对齐理论与EM算法对平行语料库进行训练,通常经过20次左右的递归之后EM算法可以收敛,从而得到平行语料库的词对齐。
进一步地,所述源语言为英文,所述目标语言为中文;
则在所述通过最大期望算法对所述双语平行语料库进行训练之前,还包括:
将所述双语平行语料库中的所有句子处理为以词语为单位的句子;
对所述双语平行语料库中的英文文本句子中除特定单词外的所有大写字母转换成相应的小写字母。
需要说明的是,在对双语平行语料库进行词对齐之前,还需进行数据准备。数据准备过程主要是对中文句子进行分词(Tokenization)处理,之后再将英语句子进行一般化处理(Normalization),去除标点符号,将单词还原为最原始的形式,并附上单词编号及句子编号。
其中,本实施列采用ICTCLAS(Institute of Computing Technology,ChineseLexical Analysis System)工具将平行语料库中的句子分成以词为单位的句子,为后续词对齐做准备。而由于翻译系统对于大小写是敏感的,所以同样单词的不同大小写形式会被当做不同单词,在这里需要运行Moses的lowercase脚本将英语单词转换为小写,对于特定单词,比如USA.IBM等不作大小写转换,从而达到中英文句子一般化的目的。
进一步地,所述根据所述词对齐的双语平行语料库对所述翻译模型进行训练,具体包括:
对源语言文本句子与目标语言文本句子中词语的对应关系进行拓展,获得源语言文本句子与目标语言文本句子中短语的对应关系;
提取所述词对齐的双语平行语料库中的所有源语言短语;
对源语言短语的不同翻译结果进行翻译准确度打分,以构建短语打分表;
根据所述词对齐的双语平行语料库和所述短语打分表对所述翻译模型进行训练。
需要说明的是,在得到词对齐的双语平行语料库之后便可运行Moses的train-model脚本进行对翻译模型的训练。
在获取到平行语料库的词对齐之后根据以下公式统计单词翻译的分布:
其中,e是英文词,c是中文词;count(e,c)是两种词汇在字典里作为短语对共同出现的次数;count(c)为中文在词典中出现的次数;t表示函数式。
根据两个词汇之间的概率分布即可统计得出单词翻译表,从单词翻译表中可以方便的查询出每个词可能性最大的翻译,比如,“like”翻译为“喜欢”的概率为0.73780488,翻译为“好像”的概率为0.26219512。
从源语言文本句子与目标语言文本句子的词对齐中找到源语言短语所对应的目标语言短语,并将这些短语对抽取出来,保存在extract文件中。而抽取出来的双语短语对的多少和正确性如何将直接影响到后期的翻译模型甚至是整个翻译系统的性能。因此,怎样尽可能多且准确地抽取出短语对也是整个翻译系统研究的关键步骤。
设源语言文本句子与目标语言文本句子分别为:f=f1...fm,e=e1...en,如果源语言词fj和目标语言词ei对应,则称点(j,i)为对齐点,其中,1≤j≤m,1≤i≤n。对于句对(f,e)上的所有连接组成的集合称为一个对齐,对齐可以表示成一个mxn阶的矩阵A,其中当(i,j)是一个连接的时候A(i,j)=1,其他情况下,A(i,j)=0。所谓的双语短语就是一种语言短语与对应的另一种语言短语的翻译。而在本实施例短语提取过程中的短语需要满足以下三条规定:
(1)短语对(c,e)中至少有一对词是相对应的;
(2)c中没有词语与e外的词语相对应;
(3)e中没有词语与c外的词语相对应。
具体地,所述源语言文本句子与目标语言文本句子中词语的对应关系包括源语言到目标语言的词对齐和目标语言到源语言的词对齐;
则所述对源语言文本句子与目标语言文本句子中词语的对应关系进行拓展,获得源语言文本句子与目标语言文本句子中短语的对应关系,具体包括:
根据所述源语言到目标语言的词对齐构建第一对齐矩阵;
根据所述目标语言到源语言的词对齐构建第二对齐矩阵;
将所述第一对齐矩阵和所述第二对齐矩阵合一,将两个矩阵的重合点作为短语对的起始点,加入在两个词对齐之间的新词对齐与所述起始点共同构成短语对;所述短语对表示源语言文本句子与目标语言文本句子中短语的对应关系。
需要说明的是,采用GIZA++对词对齐的双语平行语料库进行双向训练,将两个训练结果合一,生成两种语言各自的句子文件与一个多对多的词对齐关系文件,关系文件中记录着两句中的词对齐情况。词对齐一般用grow-dial-final算法,在该算法中,将源语言到目标语言的词对齐矩阵与目标语言到源语言的词对齐矩阵合一,两个矩阵重合的点就是短语的起始点,之后不断加入在两个词对齐之间的新词对齐与起始点一起构成短语对。
具体地,所述对源语言短语的不同翻译结果进行翻译准确度打分,以构建短语打分表,具体包括:
统计源语言短语对应不同目标语言短语的个数;
根据统计结果计算所述源语言短语翻译为不同目标语言短语的概率,并根据所述概率对源语言短语的不同翻译结果进行翻译准确度打分,以构建短语打分表。
需要说明的是,由于extract文件中的短语是被排序的,其中每个中文短语的不同翻译是连在一起的,每个英文短语的不同翻译也是连着一起的,这样的结构可以方便的完成对同一个短语的概率统计。对短语翻译表概率分布的统计与对单词翻译表的统计相同,只是将对象从单词变成了短语,统计公式如下:
其中,e为英文短语,c为中文短语。在得到了t(e|c)与t(c|e)之后还可以计算一些其他打分结果,例如词汇权重、词语惩罚、短语惩罚等,不同的算法会使用不同的打分,其中一些打分将被忽略,这样就可以将所有短语对进行打分从而构造一张短语打分表。
进一步地,对语法模型进行训练。语法模型与翻译模型没有必然关系,但是不同领域的语料库会涉及到不同领域的词汇,所以用与翻译模型相同的语料库对语法模型进行训练是很好的选择,当然也可以加入更大语料库,训练输入的语料越大,语法模型的效果越好。
N元语法模型(N-gram Model)的关注点是相邻的n个词,与语料库中句子的长度没有关系,所以这里在语料的准备阶段不需要去掉长句子,只需要将重复句去掉即可。另外对语料需要进行小写处理,预处理之后用SR1LM以相应语言的语料库为源分别进行训练就可以得到中英文的语法模型。
在完成模型训练后,由于训练工作已经得到了之前后翻译所需要的所有数据,但是这些数据是根据翰入的双语平行语料库得来的,训练结果会因为语料库的大小、所属领域等问题产生很多不合理的数据,所以这里要对训练结果进行调优,以使得训练数据尽可能的趋于合理化。调优(Tuning)是指为线性模型寻找最优权重的过程,最优权重是指可以使得翻译效果在小型平行语料集(调优集)达到最佳的参数。Moses提供MERT算法对翻译模型进行调优。
具体地,在步骤S3中,所述基于实时机器翻译模型,逐一对所述源语言文本句子中的每个短语翻译为不同翻译结果进行打分,获得所有短语的不同翻译结果组合中得分最高的组合,作为翻译出的目标语言文本句子,具体包括:
将所述源语言文本句子输入至实时机器翻译模型,获得所述源语言文本句子中的每个短语的各种翻译结果;
逐一确认所述每个短语的翻译结果;
对于当前确认的短语,分别将当前短语的各种翻译结果与已确认短语的翻译结果进行组合,将组合得分最高所对应的翻译结果确认为当前短语的翻译结果,并继续进行下一个短语的确认;
在完成所有短语的确认时,输出所有短语确认的翻译结果的组合,作为翻译出的目标语言文本句子。
需要说明的是,经过模型训练之后得到了庞大的训练结果数据,进而需要在这些数据中搜索出最好的翻译结果,这一过程就是解码(Decoding)。解码问题可以描述为,给定一个源语言文本句子,该句子中的短语有很多种翻译选项(Translaiton Options),解码过程就是在众多翻译选项的组合中找出得分最高的一组的过程。其中,翻译选项可以通过短语表得到,每个翻译选项包含了被翻译短语位置、短语翻译结果、短语翻译打分。
假设所翻译的句子的长度为n,用i表示当前所翻译的句子长度,Qi表示当前翻译句子的翻译假设集合,q为当前翻译句子的某一翻译假设,解码的具体流程图如图2所示,包括:
S201、输入源语言句子;
S202、读取翻译选项;
S203、i=0;
S204、i++;
S205、i<n;若是,则执行步骤S206,若否,则执行步骤S217;
S206、找出Qi中的最高分;
S207、q初始化为0;
S208、Qi中的下一个状态q;
S209、是否遍历完成;若是,则返回步骤S204,若否,则执行步骤S210;
S210、是否q被剪枝;若是,则返回步骤S208,若否,则执行步骤S211;
S211、p初始化为0;
S212、翻译选项中下一个短语p;
S213、是否遍历完成;若是,则返回步骤S208,若否,则执行步骤S214;
S214、q中是否未翻译p;若是,则执行步骤S215,若否,则返回步骤S213;
S215、用p拓展q;
S216、将拓展后的q加入对应的Q,并返回步骤S212;
S217、在Qn-1中找到得分最高的状态q;
S218、返回该状态并输出。
需要说明的是,对于输入的源语言句子,首先读取其翻译选项,之后从小容器到大容器的顺序拓展翻译假设。对于每个容器中的翻译假设,如果假设得分与该容器中最高得分假设得分的差距超过了阈值,则该状态被减枝,如果状态得以保留则用每个可行的翻译选项对其进行拓展,如果拓展出来的新假设与容器中得老假设相同,则保留得分更高的一项,依此类托。最后在最大的一个容器中找到得分最高的翻译假设作为最好的翻译结果。
具体的,对输入的句子,通过上述翻译模型获得该句子中短语的各种翻译选项,将翻译句子长度i置为零,i++,若i<n,则表明句子还没翻译结束,找到当前句子序列翻译选项中得分最高的选项的得分,依次算出当前句子序列翻译选项的翻译假设与最高得分假设的差值,并将该差值与预设的阈值作比较,差值超过阈值,则舍弃该假设,否则对该假设的句子序列进行拓展,即依次选取当前短语的下一个短语p对q进行拓展,并将拓展后的翻译假设放进Qi+1序列当中。如果句子已翻译完毕,则在Qn-1中找到得分最高的状态作为结果输出。
参见图3,是本发明实施例提供的口语即时翻译方法的另一种实施例的流程示意图,包括:
S301、训练翻译系统。
S302、训练数据。通过对翻译系统的训练获得大量训练数据。
S303、输入语言信号。
S304、针对相应语种进行语言识别。
S305、得到源语言文本句子。
S306、翻译系统进行解码。翻译系统根据训练数据对源语言文本句子进行解码。
S307、输出目标语言文本句子。
本发明实施例采用CNN-HMM声学模型对待翻译的语音信号进行识别,获得源语言文本句子,基于实时机器翻译模型,对源语言文本句子中的短语翻译进行打分,从而获得得分最高的句子翻译,输出准确度最高的翻译结果,且提高口语翻译的效率。
本发明实施例提供了一种口语即时翻译系统,能够实现上述口语即时翻译方法的所有流程,参见图4,所述口语即时翻译系统包括:
语音信号获取模块1,用于获取待翻译的语音信号;
语音识别模块2,用于基于CNN-HMM声学模型对所述语音信号进行识别,获得源语言文本句子;以及,
翻译模块3,用于基于实时机器翻译模型,逐一对所述源语言文本句子中的每个短语翻译为不同翻译结果进行打分,获得所有短语的不同翻译结果组合中得分最高的组合,作为翻译出的目标语言文本句子。
本发明实施例采用CNN-HMM声学模型对待翻译的语音信号进行识别,获得源语言文本句子,基于实时机器翻译模型,对源语言文本句子中的短语翻译进行打分,从而获得得分最高的句子翻译,输出准确度最高的翻译结果,且提高口语翻译的效率。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种口语即时翻译方法,其特征在于,包括:
获取待翻译的语音信号;
基于CNN-HMM声学模型对所述语音信号进行识别,获得源语言文本句子;
基于实时机器翻译模型,逐一对所述源语言文本句子中的每个短语翻译为不同翻译结果进行打分,获得所有短语的不同翻译结果组合中得分最高的组合,作为翻译出的目标语言文本句子。
2.如权利要求1所述的口语即时翻译方法,其特征在于,所述基于CNN-HMM声学模型对所述语音信号进行识别,获得源语言文本句子,具体包括:
提取所述语音信号的不同时间不同频率所对应的美尔普系数;
将提取的美尔普系数整合成特征图;
将所述特征图输入至所述CNN-HMM声学模型,输出所述语音信号对应的源语言文本句子。
3.如权利要求1所述的口语即时翻译方法,其特征在于,所述实时机器翻译模型包括翻译模型和语法模型;
则在所述获取待翻译的语音信号之前,还包括:
构建词对齐的双语平行语料库;
根据所述词对齐的双语平行语料库对所述翻译模型进行训练;
根据所述词对齐的双语平行语料库对所述语法模型进行训练。
4.如权利要求3所述的口语即时翻译方法,其特征在于,所述构建词对齐的双语平行语料库,具体包括:
构建双语平行语料库;所述双语平行语料库存储有源语言文本句子与对应的目标语言文本句子;
通过最大期望算法对所述双语平行语料库进行训练,在所述最大期望算法收敛时,获得源语言文本句子与目标语言文本句子中词语的对应关系,进而获得词对齐的双语平行语料库。
5.如权利要求4所述的口语即时翻译方法,其特征在于,所述源语言为英文,所述目标语言为中文;
则在所述通过最大期望算法对所述双语平行语料库进行训练之前,还包括:
将所述双语平行语料库中的中文文本句子处理为以词语为单位的句子;
对所述双语平行语料库中的英文文本句子中除特定单词外的所有大写字母转换成相应的小写字母。
6.如权利要求4所述的口语即时翻译方法,其特征在于,所述根据所述词对齐的双语平行语料库对所述翻译模型进行训练,具体包括:
对源语言文本句子与目标语言文本句子中词语的对应关系进行拓展,获得源语言文本句子与目标语言文本句子中短语的对应关系;
提取所述词对齐的双语平行语料库中的所有源语言短语;
对源语言短语的不同翻译结果进行翻译准确度打分,以构建短语打分表;
根据所述词对齐的双语平行语料库和所述短语打分表对所述翻译模型进行训练。
7.如权利要求6所述的口语即时翻译方法,其特征在于,所述源语言文本句子与目标语言文本句子中词语的对应关系包括源语言到目标语言的词对齐和目标语言到源语言的词对齐;
则所述对源语言文本句子与目标语言文本句子中词语的对应关系进行拓展,获得源语言文本句子与目标语言文本句子中短语的对应关系,具体包括:
根据所述源语言到目标语言的词对齐构建第一对齐矩阵;
根据所述目标语言到源语言的词对齐构建第二对齐矩阵;
将所述第一对齐矩阵和所述第二对齐矩阵合一,将两个矩阵的重合点作为短语对的起始点,加入在两个词对齐之间的新词对齐与所述起始点共同构成短语对;所述短语对表示源语言文本句子与目标语言文本句子中短语的对应关系。
8.如权利要求6所述的口语即时翻译方法,其特征在于,所述对源语言短语的不同翻译结果进行翻译准确度打分,以构建短语打分表,具体包括:
统计源语言短语对应不同目标语言短语的个数;
根据统计结果计算所述源语言短语翻译为不同目标语言短语的概率,并根据所述概率对源语言短语的不同翻译结果进行翻译准确度打分,以构建短语打分表。
9.如权利要求1所述的口语即时翻译方法,其特征在于,所述基于实时机器翻译模型,逐一对所述源语言文本句子中的每个短语翻译为不同翻译结果进行打分,获得所有短语的不同翻译结果组合中得分最高的组合,作为翻译出的目标语言文本句子,具体包括:
将所述源语言文本句子输入至实时机器翻译模型,获得所述源语言文本句子中的每个短语的各种翻译结果;
逐一确认所述每个短语的翻译结果;
对于当前确认的短语,分别将当前短语的各种翻译结果与已确认短语的翻译结果进行组合,将组合得分最高所对应的翻译结果确认为当前短语的翻译结果,并继续进行下一个短语的确认;
在完成所有短语的确认时,输出所有短语确认的翻译结果的组合,作为翻译出的目标语言文本句子。
10.一种口语即时翻译系统,能够实现如权利要求1至9中任一项所述的口语即时翻译方法,其特征在于,所述口语即时翻译系统包括:
语音信号获取模块,用于获取待翻译的语音信号;
语音识别模块,用于基于CNN-HMM声学模型对所述语音信号进行识别,获得源语言文本句子;以及,
翻译模块,用于基于实时机器翻译模型,逐一对所述源语言文本句子中的每个短语翻译为不同翻译结果进行打分,获得所有短语的不同翻译结果组合中得分最高的组合,作为翻译出的目标语言文本句子。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810153265.3A CN108460027A (zh) | 2018-02-14 | 2018-02-14 | 一种口语即时翻译方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810153265.3A CN108460027A (zh) | 2018-02-14 | 2018-02-14 | 一种口语即时翻译方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108460027A true CN108460027A (zh) | 2018-08-28 |
Family
ID=63216944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810153265.3A Pending CN108460027A (zh) | 2018-02-14 | 2018-02-14 | 一种口语即时翻译方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108460027A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109741752A (zh) * | 2018-12-27 | 2019-05-10 | 金现代信息产业股份有限公司 | 一种基于语音识别的人事考评方法与系统 |
CN110210043A (zh) * | 2019-06-14 | 2019-09-06 | 科大讯飞股份有限公司 | 文本翻译方法、装置、电子设备及可读存储介质 |
CN110211570A (zh) * | 2019-05-20 | 2019-09-06 | 北京百度网讯科技有限公司 | 同声传译处理方法、装置及设备 |
CN110245361A (zh) * | 2019-06-14 | 2019-09-17 | 科大讯飞股份有限公司 | 短语对提取方法、装置、电子设备及可读存储介质 |
CN110705317A (zh) * | 2019-08-28 | 2020-01-17 | 科大讯飞股份有限公司 | 翻译方法及相关装置 |
CN111126087A (zh) * | 2019-12-25 | 2020-05-08 | 北京百度网讯科技有限公司 | 领域翻译处理方法、装置及设备 |
CN111507113A (zh) * | 2020-03-18 | 2020-08-07 | 北京捷通华声科技股份有限公司 | 一种机器辅助人工翻译的方法和装置 |
CN112447168A (zh) * | 2019-09-05 | 2021-03-05 | 阿里巴巴集团控股有限公司 | 语音识别系统、方法、音箱、显示设备和交互平台 |
CN112466278A (zh) * | 2020-12-16 | 2021-03-09 | 北京百度网讯科技有限公司 | 语音识别方法、装置和电子设备 |
CN112668346A (zh) * | 2020-12-24 | 2021-04-16 | 科大讯飞股份有限公司 | 翻译方法、装置、设备及存储介质 |
CN115099249A (zh) * | 2022-07-28 | 2022-09-23 | 山东智慧译百信息技术有限公司 | 一种基于翻译结果智能优化方法、系统及其存储介质 |
CN115312029A (zh) * | 2022-10-12 | 2022-11-08 | 之江实验室 | 一种基于语音深度表征映射的语音翻译方法及系统 |
WO2023078221A1 (zh) * | 2021-11-03 | 2023-05-11 | 华为技术有限公司 | 语言翻译方法及电子设备 |
CN112668346B (zh) * | 2020-12-24 | 2024-04-30 | 中国科学技术大学 | 翻译方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101458681A (zh) * | 2007-12-10 | 2009-06-17 | 株式会社东芝 | 语音翻译方法和语音翻译装置 |
CN102237083A (zh) * | 2010-04-23 | 2011-11-09 | 广东外语外贸大学 | 一种基于WinCE平台的便携式口语翻译系统及其语言识别方法 |
CN105117389A (zh) * | 2015-07-28 | 2015-12-02 | 百度在线网络技术(北京)有限公司 | 翻译方法和装置 |
US20170024376A1 (en) * | 2015-07-21 | 2017-01-26 | Facebook, Inc. | Data sorting for language processing such as pos tagging |
-
2018
- 2018-02-14 CN CN201810153265.3A patent/CN108460027A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101458681A (zh) * | 2007-12-10 | 2009-06-17 | 株式会社东芝 | 语音翻译方法和语音翻译装置 |
CN102237083A (zh) * | 2010-04-23 | 2011-11-09 | 广东外语外贸大学 | 一种基于WinCE平台的便携式口语翻译系统及其语言识别方法 |
US20170024376A1 (en) * | 2015-07-21 | 2017-01-26 | Facebook, Inc. | Data sorting for language processing such as pos tagging |
US20170132202A1 (en) * | 2015-07-21 | 2017-05-11 | Facebook, Inc. | Data sorting for language processing such as pos tagging |
CN105117389A (zh) * | 2015-07-28 | 2015-12-02 | 百度在线网络技术(北京)有限公司 | 翻译方法和装置 |
Non-Patent Citations (3)
Title |
---|
周慧芳: "移动数据库在嵌入式口语翻译系统中的应用", 《电脑开发与应用》 * |
赵轶凡: "基于iOS平台的实时机器翻译系统的设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
黄玉蕾: "MFSC系数特征局部有限权重共享CNN语音识别", 《控制工程》 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109741752A (zh) * | 2018-12-27 | 2019-05-10 | 金现代信息产业股份有限公司 | 一种基于语音识别的人事考评方法与系统 |
CN110211570B (zh) * | 2019-05-20 | 2021-06-25 | 北京百度网讯科技有限公司 | 同声传译处理方法、装置及设备 |
CN110211570A (zh) * | 2019-05-20 | 2019-09-06 | 北京百度网讯科技有限公司 | 同声传译处理方法、装置及设备 |
CN110210043A (zh) * | 2019-06-14 | 2019-09-06 | 科大讯飞股份有限公司 | 文本翻译方法、装置、电子设备及可读存储介质 |
CN110245361A (zh) * | 2019-06-14 | 2019-09-17 | 科大讯飞股份有限公司 | 短语对提取方法、装置、电子设备及可读存储介质 |
CN110210043B (zh) * | 2019-06-14 | 2024-01-26 | 科大讯飞股份有限公司 | 文本翻译方法、装置、电子设备及可读存储介质 |
CN110245361B (zh) * | 2019-06-14 | 2023-04-18 | 科大讯飞股份有限公司 | 短语对提取方法、装置、电子设备及可读存储介质 |
CN110705317A (zh) * | 2019-08-28 | 2020-01-17 | 科大讯飞股份有限公司 | 翻译方法及相关装置 |
CN110705317B (zh) * | 2019-08-28 | 2023-04-07 | 科大讯飞股份有限公司 | 翻译方法及相关装置 |
CN112447168A (zh) * | 2019-09-05 | 2021-03-05 | 阿里巴巴集团控股有限公司 | 语音识别系统、方法、音箱、显示设备和交互平台 |
CN111126087A (zh) * | 2019-12-25 | 2020-05-08 | 北京百度网讯科技有限公司 | 领域翻译处理方法、装置及设备 |
CN111126087B (zh) * | 2019-12-25 | 2023-08-29 | 北京百度网讯科技有限公司 | 领域翻译处理方法、装置及设备 |
CN111507113B (zh) * | 2020-03-18 | 2021-03-02 | 北京捷通华声科技股份有限公司 | 一种机器辅助人工翻译的方法和装置 |
CN111507113A (zh) * | 2020-03-18 | 2020-08-07 | 北京捷通华声科技股份有限公司 | 一种机器辅助人工翻译的方法和装置 |
CN112466278A (zh) * | 2020-12-16 | 2021-03-09 | 北京百度网讯科技有限公司 | 语音识别方法、装置和电子设备 |
CN112668346A (zh) * | 2020-12-24 | 2021-04-16 | 科大讯飞股份有限公司 | 翻译方法、装置、设备及存储介质 |
CN112668346B (zh) * | 2020-12-24 | 2024-04-30 | 中国科学技术大学 | 翻译方法、装置、设备及存储介质 |
WO2023078221A1 (zh) * | 2021-11-03 | 2023-05-11 | 华为技术有限公司 | 语言翻译方法及电子设备 |
CN115099249A (zh) * | 2022-07-28 | 2022-09-23 | 山东智慧译百信息技术有限公司 | 一种基于翻译结果智能优化方法、系统及其存储介质 |
CN115099249B (zh) * | 2022-07-28 | 2023-11-24 | 山东智慧译百信息技术有限公司 | 一种基于翻译结果智能优化方法、系统及其存储介质 |
CN115312029A (zh) * | 2022-10-12 | 2022-11-08 | 之江实验室 | 一种基于语音深度表征映射的语音翻译方法及系统 |
CN115312029B (zh) * | 2022-10-12 | 2023-01-31 | 之江实验室 | 一种基于语音深度表征映射的语音翻译方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108460027A (zh) | 一种口语即时翻译方法及系统 | |
WO2023273170A1 (zh) | 一种迎宾机器人对话方法 | |
Li et al. | Text compression-aided transformer encoding | |
CN110688862A (zh) | 一种基于迁移学习的蒙汉互译方法 | |
Belinkov | On internal language representations in deep learning: An analysis of machine translation and speech recognition | |
CN110717341B (zh) | 一种以泰语为枢轴的老-汉双语语料库构建方法及装置 | |
Kulkarni et al. | Speech to indian sign language translator | |
CN111553157A (zh) | 一种基于实体替换的对话意图识别方法 | |
Kang | Spoken language to sign language translation system based on HamNoSys | |
de Gispert et al. | Using x-grams for speech-to-speech translation. | |
Zhao et al. | Tibetan Multi-Dialect Speech and Dialect Identity Recognition. | |
Zhao et al. | Tibetan multi-dialect speech recognition using latent regression Bayesian network and end-to-end mode | |
Mathur et al. | A scaled‐down neural conversational model for chatbots | |
Ren et al. | An attention network via pronunciation, lexicon and syntax for humor recognition | |
Shi et al. | An end-to-end conformer-based speech recognition model for mandarin radiotelephony communications in civil aviation | |
CN109960782A (zh) | 一种基于深度神经网络的藏文分词方法及装置 | |
CN115374784A (zh) | 一种多模态信息选择性融合的中文命名实体识别方法 | |
Zhao et al. | An open speech resource for Tibetan multi-dialect and multitask recognition | |
CN103119585B (zh) | 知识获取装置及方法 | |
Yadav et al. | Different Models of Transliteration-A Comprehensive Review | |
CN111597827A (zh) | 一种提高机器翻译准确度的方法及其装置 | |
Shih et al. | Improved Rapid Automatic Keyword Extraction for Voice-based Mechanical Arm Control. | |
Laitonjam et al. | A Hybrid Machine Transliteration Model Based on Multi-source Encoder–Decoder Framework: English to Manipuri | |
Getachew et al. | Gex'ez-English Bi-Directional Neural Machine Translation Using Transformer | |
CN115329784B (zh) | 基于预训练模型的句子复述生成系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180828 |
|
RJ01 | Rejection of invention patent application after publication |