CN117521844A - 译文打分模型的训练方法及译文选取方法 - Google Patents
译文打分模型的训练方法及译文选取方法 Download PDFInfo
- Publication number
- CN117521844A CN117521844A CN202311354531.6A CN202311354531A CN117521844A CN 117521844 A CN117521844 A CN 117521844A CN 202311354531 A CN202311354531 A CN 202311354531A CN 117521844 A CN117521844 A CN 117521844A
- Authority
- CN
- China
- Prior art keywords
- translation
- word segmentation
- boolean
- limited
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 352
- 238000012549 training Methods 0.000 title claims abstract description 129
- 238000000034 method Methods 0.000 title claims abstract description 85
- 230000011218 segmentation Effects 0.000 claims abstract description 242
- 238000009826 distribution Methods 0.000 claims abstract description 76
- 238000010606 normalization Methods 0.000 claims abstract description 30
- 238000002372 labelling Methods 0.000 claims abstract description 27
- 230000014616 translation Effects 0.000 claims description 345
- 230000006870 function Effects 0.000 claims description 54
- 238000004590 computer program Methods 0.000 claims description 17
- 238000003860 storage Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 abstract description 12
- 239000010410 layer Substances 0.000 description 250
- 239000013598 vector Substances 0.000 description 54
- 238000012545 processing Methods 0.000 description 18
- 230000000694 effects Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 101000742844 Homo sapiens RNA-binding motif protein, Y chromosome, family 1 member A1 Proteins 0.000 description 3
- 102100038040 RNA-binding motif protein, Y chromosome, family 1 member A1 Human genes 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 101001046999 Homo sapiens Kynurenine-oxoglutarate transaminase 3 Proteins 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000013210 evaluation model Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000011229 interlayer Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 101001076867 Homo sapiens RNA-binding protein 3 Proteins 0.000 description 1
- 102100025902 RNA-binding protein 3 Human genes 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Machine Translation (AREA)
Abstract
本申请公开一种译文打分模型的训练方法及译文选取方法,包括:获取训练译文的分词序列,将分词序列输入初始模型的第一个受限布尔兹曼机层;将除最后一个受限布尔兹曼机层之外的每个受限布尔兹曼机层输出的分词序列进行自注意力运算及求和归一化运算,并将运算结果输出下一个受限布尔兹曼机层;通过分类层获取最后一个受限布尔兹曼机层输出的分词序列,并输出每个分词对应的概率分布;在概率分布中确定每个分词对应候选分词的候选分词概率,根据候选分词概率和每个分词的标注概率,训练初始模型得到译文打分模型。本申请可以基于上述模型结构及运算过程,在模型输出的准确度较高的基础上,能够降低模型训练和推理的时间成本。
Description
技术领域
本申请涉及文本处理技术领域,特别涉及一种译文打分模型的训练方法、译文选取方法、计算机可读存储介质、电子设备及计算机程序产品。
背景技术
机器翻译是文本处理领域的重要技术手段,机器翻译可以将一种语言的文字转换为另一种语言,使得不同语言的人们可以互相交流。机器翻译得到的译文仍可能存在大意表述正确,但语句不自然不通畅等问题。
目前,可以采用BERT(Bidirectional Encoder Representations fromTransformers)模型对多个候选翻译结果的准确性和流畅度进行打分,以选取翻译效果较好的译文。
但是,目前的方案,由于BERT模型是基于注意力机制的神经网络模型,该神经网络模型具有多层编码器结构,导致在BERT模型的训练和推理过程中,在输入数据较多时,训练和推理的时间会大幅度增加。
发明内容
本申请实施例提供一种译文选取方法、计算机可读存储介质、电子设备及计算机程序产品,以实现在模型具有较高的打分准确度的基础上,减少模型训练和推理的时间。
根据本申请的第一方面,公开了一种译文打分模型的训练方法,方法包括:
获取训练译文的分词序列,将所述分词序列输入初始模型的第一个受限布尔兹曼机层;所述分词序列中每个分词具有标注概率,所述初始模型包括所述第一个受限布尔兹曼机层在内的多个依次连接的受限布尔兹曼机层,以及与最后一个受限布尔兹曼机层连接的分类层;
基于所述第一个受限布尔兹曼机层之外的每个受限布尔兹曼机层,对上一个受限布尔兹曼机层输入的分词序列进行自注意力运算及求和归一化运算,并将运算结果输出下一个受限布尔兹曼机层;
通过所述分类层获取所述最后一个受限布尔兹曼机层输出的分词序列,并输出所述每个分词对应的概率分布;所述概率分布包括多组候选分词和候选分词概率;
在所述概率分布中确定所述每个分词对应候选分词的候选分词概率,根据所述候选分词概率和所述每个分词的标注概率,训练所述初始模型得到译文打分模型。
根据本申请的第二方面,公开了一种译文选取方法,方法包括:
将多个候选译文输入到译文打分模型,基于所述译文打分模型分别计算所述多个候选译文中每个分词对应的概率分布;
在所述概率分布中查找所述每个分词对应的概率值,基于多个所述每个分词对应的概率值获得每个候选译文对应的概率值;
将所述每个候选译文对应的概率值确定为所述每个候选译文的分数,根据所述分数在所述多个候选译文中选取目标译文;其中,所述译文打分模型是由第一方面所述的方法训练得到。
根据本申请的第三方面,公开了一种译文打分模型的训练装置,包括:
译文输入模块,用于获取训练译文的分词序列,将所述分词序列输入初始模型的第一个受限布尔兹曼机层;所述分词序列中每个分词具有标注概率,所述初始模型包括所述第一个受限布尔兹曼机层在内的多个依次连接的受限布尔兹曼机层,以及与最后一个受限布尔兹曼机层连接的分类层;
层间运算模块,用于将除所述最后一个受限布尔兹曼机层之外的每个受限布尔兹曼机层输出的分词序列进行自注意力运算及求和归一化运算,并将运算结果输出下一个受限布尔兹曼机层;
概率输出模块,用于通过所述分类层获取所述最后一个受限布尔兹曼机层输出的分词序列,并输出所述每个分词对应的概率分布;所述概率分布包括多组候选分词和候选分词概率;
模型训练模块,用于在所述概率分布中确定所述每个分词对应候选分词的候选分词概率,根据所述候选分词概率和所述每个分词的标注概率,训练所述初始模型得到译文打分模型。
根据本申请的第四方面,公开了一种译文选取装置,包括:
概率分布模块,用于将多个候选译文输入到译文打分模型,基于所述译文打分模型分别计算所述多个候选译文中每个分词对应的概率分布;
概率查找模块,用于在所述概率分布中查找所述每个分词对应的概率值,基于多个所述每个分词对应的概率值获得每个候选译文对应的概率值;
译文打分模块,用于将所述每个候选译文对应的概率值确定为所述每个候选译文的分数,根据所述分数在所述多个候选译文中选取目标译文;其中,所述译文打分模型是由第一方面的方法训练得到。
根据本申请的第五方面,公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有程序,所述程序被所述处理器执行时实现如第一方面和第二方面方法的步骤。
根据本申请的第四方面,公开了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如第一方面和第二方面方法的步骤。
根据本申请的第六方面,本申请实施例还公开了一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第一方面或第二方面所述的方法的步骤。
根据本申请的第七方面,公开了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如第一方面和第二方面方法的步骤。
本申请实施例中,通过获取训练译文的分词序列,将分词序列输入初始模型的第一个受限布尔兹曼机层;将除最后一个受限布尔兹曼机层之外的每个受限布尔兹曼机层输出的分词序列进行自注意力运算及求和归一化运算,并将运算结果输出下一个受限布尔兹曼机层;通过分类层获取最后一个受限布尔兹曼机层输出的分词序列,并输出每个分词对应的概率分布;概率分布包括多组候选分词和候选分词概率;在概率分布中确定每个分词对应候选分词的候选分词概率,根据候选分词概率和每个分词的标注概率,训练初始模型的参数。一方面,通过使用多层受限布尔兹曼机层和一个分类层构成的初始模型,并将除最后一个受限布尔兹曼机层之外的每个受限布尔兹曼机层输出的分词序列进行自注意力运算及求和归一化运算,提高了模型的特征捕捉能力,使得模型的效果能够接近BERT模型,具有较高的打分准确性;另一方面,由于基于多层受限布尔兹曼机层的模型结构的参数量较少,在基于同等的训练数据情况下,训练模型的时间相较于BERT模型明显减少。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本申请的一些实施例的一种译文打分模型的训练方法的流程图;
图2是本申请的一些实施例的一种译文打分模型的结构示意图;
图3是本申请的一些实施例的一种在译文打分模型中进行运算的示意图;
图4是本申请的一些实施例的一种译文打分模型的训练方法整体流程示意图;
图5是本申请的一些实施例的一种译文选取方法的流程图;
图6是本申请的一些实施例的一种译文选取方法整体流程示意图;
图7是本申请的一些实施例的译文打分模型的训练装置的结构示意图;
图8是本申请的一些实施例的译文选取装置的结构示意图;
图9是本申请的一些实施例的电子设备的框图;
图10是本申请的一些实施例的另一种电子设备的框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
近年来,基于人工智能的计算机视觉、深度学习、机器学习、图像处理、图像识别等技术研究取得了重要进展。人工智能(AI,Artificial Intelligence)是研究、开发用于模拟、延伸人的智能的理论、方法、技术及应用系统的新兴科学技术。人工智能学科是一门综合性学科,涉及芯片、大数据、云计算、物联网、分布式存储、深度学习、机器学习、神经网络等诸多技术种类。深度学习(DL,Deep Learning)是机器学习(ML,Machine Learning)领域中一个新的研究方向。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有较大参考意义。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,语音,推荐和个性化技术,以及其他相关领域都取得了很多成果。深度学习通过使机器模仿视听和思考等人类的活动,可以解决复杂的模式识别难题。
本申请实施例主要应用在对机器翻译得到的译文打分评价的文本处理领域,译文打分是指获取经过翻译得到的多个译文,用译文打分方法对多个译文进行打分评价。当然,上述只是示例性列举出本申请实施例所提供方法的可能的场景,并不构成对本申请实施例的限定。
目前,工业上神经网络机器翻译模型在翻译时常出现词语用词不恰当,表述正确但不够自然等问题,通常还需要采用“译后编辑”(post-edit)的方式,对译文进行修正,从而提高翻译结果在阅读上的流畅感和正确率。
在相关技术的译文打分中,采用概率模型筛选,对多个候选译文进行打分排序最终根据打分分数确定效果较好的译文,这种重排序的方法工程实现上简单且易于维护,但是打分模型的精度需要比较高。打分模型通常使用候选译文对应的目标语言所训练的BERT语言模型,BERT模型较小便于部署和训练,BERT模型对译文打分越高,则可以认为该译文的流畅性和准确率就越高。
然而,相关技术中,使用BERT结构的语言模型对机器翻译结果进行打分的方式能得到较好效果,但是有着相对较高的训练成本。原因在于BERT结构的语言模型对训练和推理数据需要限制长度在512的范围内,其长度限制是因为受到了使用多层编码器结构,在使用多层编码器结构的情况下,过少的输入限制会让语言模型达不到较好的效果,但是过长的输入会增加模型的计算复杂度,使得训练和推理的时间成本出现大幅度增长。
本申请实施例提供了一种译文打分模型的训练方法,请参考图1,其示出了本申请实施例提供的一种译文打分模型的训练方法的流程图。如图1所示,包括步骤101-104。
步骤101,获取训练译文的分词序列,将所述分词序列输入初始模型的第一个受限布尔兹曼机层;所述分词序列中每个分词具有标注概率,所述初始模型包括所述第一个受限布尔兹曼机层在内的多个依次连接的受限布尔兹曼机层,以及与最后一个受限布尔兹曼机层连接的分类层;
可以通过机器翻译模型输出用于训练的译文,机器翻译模型可以针对一个原文,输出多个译文,每个译文对应的概率值不同。确定具体要用户训练的译文的数量,可以是通过集束搜索(Beam Search)解码方法,设定一个beam size值,例如是20或是30等等,根据beam size值,通过集束搜索解码方法获取与beam size值对应数量的译文,根据每个译文的概率值,将译文进行排序。用于初始模型训练的训练译文,可以是选择译文排序中的前三个或是前五个等等作为训练译文。如下式所示:
ytrans={y1,y2,...,y30}=PMT(y|xsrc)
其中,ytrans表示机器翻译模型输出的全部译文,y1、y2或y30是输出的不同译文。PMT表示机器翻译模型输出的译文的概率分布,xsrc是翻译前的原文。
(ytrans_k∈ytrans,k=[1,2,...30])
其中,ytrans_k表示选取30个译文的排序中的前k个译文作为训练译文。
机器翻译模型例如是可以输出“I want to buy a sport book”,将该训练译文进行分词,得到分词序列为[‘I’,‘want’,‘to’,‘buy’,‘a’,‘sport’,‘book’],分词序列中每个分词具有标注概率,每个分词的标注概率是1。将分词序列输入初始模型。输入初始模型的方式是,每次将每一个词遮挡后分别输入初始模型,即为[‘<MASK>’,‘want’,‘to’,’buy’,‘a’,‘sport’,‘book’],[‘I’,‘<MASK>’,‘to’,‘buy’,‘a’,‘sport’,‘book’]等等。当一个分词序列中包括特定数量的分词,则需要输入初始模型特定数量次,每一次遮挡一个分词。输入时是将分词序列输入到初始模型的第一个受限布尔兹曼机层。
初始模型可以是深度信念网络模型(DBN,Deep Belief Network),可以包括多个依次连接的受限布尔兹曼机层(RBM,Restricted Boltzmann machine),也即RBM层,以及与多个依次连接的受限布尔兹曼机层中的最后一层连接的分类层,例如五个或六个受限布尔兹曼机层等等。
分类层可以是基于Softmax函数的分类层,Softmax是一种激活函数,它可以将一个数值向量归一化为一个概率分布向量,且各个概率之和为1。Softmax可以用来作为神经网络的最后一层,用于多分类问题的输出。分类层的大小是分词词表的大小。
其中,需要注意的是,第一个受限布尔兹曼机层是双层结构,包括一个输入层和一个输出层,输入层称为一个可见层,输出层可称为一个隐藏层。第二个受限布尔兹曼机层包括一个输入层和一个输出层,第二个受限布尔兹曼机层的输入层就是第一个受限布尔兹曼机层的输出层即隐藏层,第二个受限布尔兹曼机层的输出层即隐藏层,因此第二个受限布尔兹曼机层的双层结构是两个隐藏层。以此类推,第一个受限布尔兹曼机层后续的其他受限布尔兹曼机层的输入层都是上一个受限布尔兹曼机层的输出层即隐藏层。
如图2所示,初始模型的第一层受限布尔兹曼机层位于底部,分类层位于顶部,第一层受限布尔兹曼机层和分类层之间的层是隐藏层。多个依次连接的受限布尔兹曼机层相互嵌套。
可以理解的是,受限布尔兹曼机层可以只能识别向量。因此,将每一个词遮挡后分别输入初始模型后,模型可以基于分词序列中的分词,生成对应的向量,然后将向量形式的分词序列输入到初始模型的第一个受限布尔兹曼机层。分词序列的向量提取也可以通过相应的文本提取算法模型来实现,例如,嵌入式网络模型。
步骤102,将除所述最后一个受限布尔兹曼机层之外的每个受限布尔兹曼机层输出的分词序列进行自注意力运算及求和归一化运算,并将运算结果输出下一个受限布尔兹曼机层;
初始模型是多个依次连接的受限布尔兹曼机层,以及多个依次连接的受限布尔兹曼机层中的最后一层连接的分类层。初始模式的第一个受限布尔兹曼机层是直接接收对模型的输入,第一个受限布尔兹曼机层之后的其他受限布尔兹曼机层接收的输入是上一个受限布尔兹曼机层输出。举例而言,第一个受限布尔兹曼机层的输出就是第二个受限布尔兹曼机层的输入。
将除最后一个受限布尔兹曼机层之外的每个受限布尔兹曼机层输出的分词序列进行自注意力运算及求和归一化运算,即除最后一个受限布尔兹曼机层之外的每个受限布尔兹曼机层的输出,都需要经过自注意力运算及求和归一化运算,将运算结果输出下一个受限布尔兹曼机层,由于最后一个受限布尔兹曼机层后续连接的是分类层,因此不需要对其进行自注意力运算及求和归一化运算。
初始模型接收的输入是分词序列对应的大小不一的向量,并且不同向量之间有一定的关系,但是训练的时无法发挥这些输入之间的关系而导致模型训练结果效果较差,导致机器翻译问题、词性标注问题或语义分析问题等文字处理问题。并且,由于每一个受限布尔兹曼机层都是通过各自的输入进行最优求解,使得初始模型整体之间的特征连接能力较差,当沟构成初始模型的受限布尔兹曼机层越多时,在对初始模型行下游监督任务微调时就更不容易收敛。
在对分词序列进行分析时,分词序列中的特定的分词需要关注这个分词与序列内其他分词的关系,可以自注意力机制进行运算。对于每一个输入分词向量a,经过自注意力机制(Self-Attention)计算分词序列(sequence)中各分词向量与分词向量a的关联程度之后都输出一个向量b,这个向量b是考虑了所有的输入的分词向量对分词向量a产生的影响或是考虑了所有的输入的分词向量与分词向量a的关联程度,有四个词向量a对应就会输出四个向量b。计算分词序列中各分词向量与a1的关联程度的过程,可以是,输入向量a1和a2,灰色的Wq和Wk为权重矩阵,可以通过学习来更新权重矩阵,用a1去和Wq相乘,得到一个向量q,然后使用a2和Wk相乘,得到一个数值k。最后使用q和k做点积,得到α。α可以表示两个向量之间的关联程度。也可以是,输入向量与权重矩阵相乘,得到一个向量q和得到一个数值k后相加,然后投射到双曲正切函数空间内,再与权重矩阵相乘,得到最后的结果α用于表示两个向量之间的关联程度,也可以表示各分词向量的权重。将每个分词向量与其对应的权重相乘,然后求和,得到最终的输出。这些权重会被用来组合输入的词向量,生成一个新的上下文相关的分词向量。这个词向量不仅包含了当前分词的信息,还包含了分词序列中其他分词的信息。
求和归一化运算是指,将对受限布尔兹曼机层的第一个输出结果,基于自注意力机制进行上述自注意力运算后,得到自注意力机制的第二个输出结果,将该自注意力机制的第二个输出结果与开始的第一个输出结果求和,对求和结果进行归一化运算。
如图3所示,上一层隐藏层输出分词序列,自注意力机制根据该输出的分词序列进行自注意力运算得到运算结果,将该运算结果和上一层隐藏层输出的分词序列相加求和并进行归一化运算,然后将最后的运算结果输入到下一层隐藏层。
进行自注意力运算及求和归一化运算,对自注意力机制的特征即自注意力机制的输出结果和每个受限布尔兹曼机层输出的分词序列进行求和,并将求和结果进行归一化,来提高初始模型整体之间的特征连接能力,以及提高在进行下游监督任务微调时的适应性。
可以理解的是,在进行归一化运算的过程中,可以为初始模型的神经单元设置丢弃率Dropout,Dropout可以为0.1、0.15或0.2等等。使得在前向传播的时候,两个神经元不一定每次都在一个网络中出现,让某个神经元的激活值以一定的概率停止工作,使模型泛化性更强,避免太依赖某些局部的特征。举例而言,当Dropout为0.2时,当一层神经元包含1000神经单元,则大概会有200个神经单元的值置为0而丢弃不用。这样权值的更新不再依赖于有固定关系的隐含节点的共同作用,阻止了某些特征仅仅在其它特定特征下才有效果的情况,迫使网络去学习更加鲁棒的特征。
步骤103,通过所述分类层获取所述最后一个受限布尔兹曼机层输出的分词序列,并输出所述每个分词对应的概率分布;所述概率分布包括多组候选分词和候选分词概率;
分类层可以是Softmax层,分类层获取最后一个受限布尔兹曼机层输出的分词序列向量结果进行线性运算,使用Softmax激活函数将运算结果转化为概率输出。输出的概率是一个概率分布,概率分布是指其中包括多个类别,每个类别对应一个概率,多个类别的概率相加为1。如前所述,初始模型的输入是一个分词序列,并且该分词序列中的一个分词被遮挡,因此分类层输出的概率分布,是针对该被遮挡分词的概率分布,分类层输出该被遮挡分词位置对应的几种候选分词以及每一种候选分词对应的概率。若分词序列中包括五个分词,由于每次输入初始模型的分词序列都是对一个分词进行遮挡后输入的,那么对应就输出五个概率分布。
步骤104,在所述概率分布中确定所述每个分词对应候选分词的候选分词概率,根据所述候选分词概率和所述每个分词的标注概率,训练所述初始模型得到译文打分模型。
概率分布中包括了被遮挡分词位置对应的几种候选分词以及每一种候选分词对应的概率,被遮挡分词位置对应的几种候选分词中有一个候选分词是与被遮挡分词相同的分词,根据被遮挡分词,在候选分词中去查找相同的候选分词,并确定这个相同的候选分词的候选分词概率,这个候选分词概率就是模型输出的概率。根据该候选分词概率和被遮挡分词的标注概率,训练初始模型的参数,并基于相同的方式,根据其他被遮挡分词对应的候选分词概率和标注概率,继续训练初始模型。
本申请实施例中,通过获取训练译文的分词序列,将分词序列输入初始模型的第一个受限布尔兹曼机层;将除最后一个受限布尔兹曼机层之外的每个受限布尔兹曼机层输出的分词序列进行自注意力运算及求和归一化运算,并将运算结果输出下一个受限布尔兹曼机层;通过分类层获取最后一个受限布尔兹曼机层输出的分词序列,并输出每个分词对应的概率分布;在概率分布中确定每个分词对应候选分词的候选分词概率,根据候选分词概率和每个分词的标注概率,训练初始模型的参数。一方面,通过使用多层受限布尔兹曼机层和一个分类层构成的初始模型,并将除最后一个受限布尔兹曼机层之外的每个受限布尔兹曼机层输出的分词序列进行自注意力运算及求和归一化运算,通过自注意力运算及求和归一化运算提高了模型的特征捕捉能力,使得模型的效果能够接近BERT模型;另一方面,由于基于多层受限布尔兹曼机层构成的初始模型的参数量较少,在基于同等的训练数据情况下,训练模型的时间相较于BERT模型明显减少。
图4是本申请实施例提供的一种译文打分模型的训练方法的具体步骤流程图,包括:
步骤401,获取训练译文的分词序列,将所述分词序列输入初始模型的第一个受限布尔兹曼机层;所述分词序列中每个分词具有标注概率,所述初始模型包括所述第一个受限布尔兹曼机层在内的多个依次连接的受限布尔兹曼机层,以及与最后一个受限布尔兹曼机层连接的分类层;
步骤401的具体可以参照上述图1实施例相关描述,此处不再赘述。
步骤402,将除所述最后一个受限布尔兹曼机层之外的每个受限布尔兹曼机层输出的分词序列进行自注意力运算及求和归一化运算,并将运算结果输出下一个受限布尔兹曼机层;
步骤402的具体可以参照上述图1实施例相关描述,此处不再赘述。
步骤403,通过所述分类层获取所述最后一个受限布尔兹曼机层输出的分词序列,并输出所述每个分词对应的概率分布;所述概率分布包括多组候选分词和候选分词概率;
步骤403的具体可以参照上述图1实施例相关描述,此处不再赘述。
步骤404,在所述概率分布中确定所述每个分词对应候选分词的候选分词概率,根据所述候选分词概率和所述每个分词的标注概率,训练所述初始模型得到译文打分模型。
步骤404的具体可以参照上述图1实施例相关描述,此处不再赘述。
可选的,步骤401可以包括子步骤4011-4014:
子步骤4011,对所述训练译文进行数据增强以获得正样本译文,所述数据增强至少包括对所述训练译文的分词进行删除、位置替换的其中之一;
子步骤4012,在所述训练译文中进行随机采样,获得负样本译文;
子步骤4013,将所述正样本译文和所述负样本译文进行拆分,获取所述正样本译文的分词序列和所述负样本译文的分词序列;
子步骤4014,将所述正样本译文的分词序列和所述负样本译文的分词序列输入初始模型的第一个受限布尔兹曼机层。
通过深度学习训练出一个效果较好的模型需要一个全面高质量的人工标注数据集,但是在实际的业务中获取大量高质量的训练数据需要投入很多的标注人力成本。
基于训练译文,随机交换(Random Swap,RS)、随机删除(Random Deletion,RD)、随机插入(Random Insertion,RI)或同义词替换(Synonym Replacement,SR)等方式,通过同义词替换,从文本中随机选择不在停用词表中的单词,针对每个单词随机地从其同义词词集中选择一个,并将其替换;通过随机交换从文本中随机选择两个单词,并且交换他们的位置,并将该步骤重复预设数量次;通过随机删除,设定概率随机删除文本中的单词;通过随机插入,从文本中随机选择一个不在停用词表中的词,从它的同义词词集中随机选择一个词,插入到句子中的随机位置,并将该步骤重复预设数量次。在此不限制如何进行数据增强以获得正样本译文。为了降低模型的误检测率、误识别率,提高网络模型的泛化能力。需要使用负样本对模型进行训练。另外,对训练译文进行数据增强可以是服从泊松分布进行数据增强,泊松分布lambda取值可以为2或是其他数值。
获取负样本,可以是在训练译文中进行随机采样来获取。基于与前述对训练译文进行拆分获得分词序列相似的方式,将正样本译文和负样本译文进行拆分,获取正样本译文的分词序列和负样本译文的分词序列,初始模型的输入就是正样本译文的分词序列和负样本译文的分词序列。举例而言,
可选的,在步骤4014之后,所述方法还包括步骤4015-4016:
步骤4015,将所述正样本译文的分词序列输入第一个受限布尔兹曼机层,获得所述第一个受限布尔兹曼机层输出的分词序列;
步骤4016,计算所述正样本译文的分词序列和所述输出的分词序列之间的散度信息,基于所述散度信息训练所述第一个受限布尔兹曼机层的参数。
在获取训练译文,并基于训练译文得到正样本译文的分词序列和输出的分词序列之后,先对用于构建初始模型的多个受限布尔兹曼机层分别进行训练。为了使得受限布尔兹曼机层能够尽可能识别正确的特征,只需要将正样本译文的分词序列输入第一个受限布尔兹曼机层,如前所述,这里将正样本译文的分词序列输入第一个受限布尔兹曼机层,输入正样本译文的分词序列后会对序列进行向量特征的提取,受限布尔兹曼机层接收的实际是分词序列的向量,实际输出的也是分词序列的向量。确定第一个受限布尔兹曼机层输出的分词序列的向量与输入的正样本译文的分词序列,计算输出和输出的散度信息。可以基于散度信息,结合熵值,通过下式计算每层受限布尔兹曼机层的损失值进行训练:
LRBM=KLdiv(Q(yh|x)||P(x))+HQ
其中,LRBM表示受限布尔兹曼机层的损失值;KLdiv表示受限布尔兹曼机层输出的分词序列向量和原始输入的分词序列向量之间的散度信息;x表示原始输入的正样本译文分词序列的向量;Q(yh|x)是基于原始输入的正样本译文分词序列的向量输出的概率分布;P(x)表示原始输入的正样本译文分词序列向量的概率分布,HQ表示计算Q(yh|x)的熵值。
原始输入的分词序列向量的概率分布是真实分布,受限布尔兹曼机层输出的分词序列向量的概率分布是一个近似分布,散度信息表示输出和输入的分词序列向量的概率分布的距离,通过散度信息训练第一个受限布尔兹曼机层的参数。
可选的,在步骤4016之后,所述方法还包括步骤4017-4018:
步骤4017,将所述第一个受限布尔兹曼机层和其他任一受限布尔兹曼机层连接,将所述正样本译文的分词序列输入所述第一个受限布尔兹曼机层,获得所述其他任一受限布尔兹曼机层输出的分词序列;
步骤4018,计算所述正样本译文的分词序列和所述输出的分词序列之间的散度信息,基于所述散度信息训练所述其他任一受限布尔兹曼机层的参数。
在训练第一个受限布尔兹曼机层后,分别对后续的受限布尔兹曼机层进行训练,将后续的受限布尔兹曼机层,分别与第一个受限布尔兹曼机层连接。举例而言,是RBM2与RBM1连接,是RBM3与RBM1连接,以此类推。
将将后续的受限布尔兹曼机层,分别与第一个受限布尔兹曼机层连接后,将正样本译文的分词序列输入第一个受限布尔兹曼机层,第一个受限布尔兹曼机层的隐藏层作为第二个或是第三个受限布尔兹曼机层的输入层,第二个或是第三个受限布尔兹曼机层的输出层或称隐藏层输出分词序列。参照与上述步骤4016的内容,计算正样本译文的分词序列和输出的分词序列之间的散度信息,基于散度信息训练其他任一受限布尔兹曼机层的参数。
针对后续每一个受限布尔兹曼机层都与第一个受限布尔兹曼机层连接,通过上述过程训练后续所有的受限布尔兹曼机层。在将多个受限布尔兹曼机层块进行串联进行下游任务进行串联微调时,每一个受限布尔兹曼机层内的权重相当于进行预训练后的权重参数,并且对权重参数进行冻结不再更新。
实施本公开的实施例,通过先对第一个受限布尔兹曼机层单独进行训练,然后通过将其他的受限布尔兹曼机层与第一个受限布尔兹曼机层连接后,进行单独训练,使得在使用大数据训练的情况下,能够及时的对受限布尔兹曼机层的隐藏单元进行微调,令模型的整体达到较好的效果。
可选地,步骤404可以包括子步骤4041-4042:
子步骤4041,根据所述候选分词概率和所述每个分词的标注概率,通过第一损失函数计算第一损失值以及通过第二损失函数计算第二损失值;
子步骤4042,根据所述第一损失值和第二损失值,训练模型的参数;
其中,所述第一损失函数是为均方差损失函数、绝对值损失函数、二元交叉熵损失函数、多分类交叉熵损失函数的其中之一,所述第二损失函数是计算了所述正样本译文、所述负样本译文分别与所述概率分布的余弦相似度的对比学习损失函数。
基于候选分词概率和每个分词的标注概率,通过第一损失函数计算第一损失值以及通过第二损失函数计算第二损失值,基于第一损失值和第二损失值的和来对整体模型的参数进行训练。第一损失函数可以是标准语言模型的损失函数,可以是均方差损失函数、绝对值损失函数、二元交叉熵损失函数、多分类交叉熵损失函数等函数其中之一。由于对整个模型进行训练时。输入的是包括正样本译文和负样本译文的训练数据,进行了对比学习,还可以基于一个对比学习损失函数来计算第二个损失值。可以通过下方的对比学习损失函数计算第二损失值:
其中,LCL表示第二损失值,sim表示进行余弦相似度的计算,x表示初始模型输出的概率分布,y+表示正样本译文,y-表示负样本译文,τ为温度系数,里面的α为负样本的权重值。
具体的,x表示的初始模型输出概率分布可以是一个向量,正样本译文和负样本译文也可以表示为向量,基于概率分布的向量和正样本译文的向量,计算一次余弦相似度;基于概率分布的向量和负样本译文的向量,计算一次余弦相似度。
实施本公开的实施例,通过第一损失函数计算第一损失值以及通过对比学习损失函数计算第二损失值,基于两个损失值的和来训练模型,使得模型可以拥有更强的抗干扰和区分近似语句的能力。
可选的,在步骤4041之前,所述方法还包括步骤4043-4045:
步骤4043,计算所述负样本译文与所述训练译文的相似度;
步骤4044,当所述相似度大于等于预设阈值,配置第二损失函数中的权重值为第一权重值;
步骤4045,当所述相似度小于预设阈值,配置第二损失函数中的权重值为第二权重值;其中,所述第一权重值小于所述第二权重值。
负样本译文是用于训练模型,使得模型能够了解到错误的特征。但是由于负样本译文是基于对训练译文随机采样生成的,因此负样本译文有可能是与原训练译文高度相似的假性负样本译文被错标为负样本,模型基于假性负样本译文进行训练,会导致训练的效果不佳。
因此计算需要计算随机采样得到的负样本译文与训练译文的相似度,可以通过基于译文的单语预料训练一个对语句向量进行相似度对比的模型,例如可以是SimCSE(Simple Contrastive Learning of Sentence Embeddings)模型。通过其他模型来计算负样本译文与训练译文的相似度。
可以设置一个关于相似度的预设阈值,当计算得到的负样本译文与训练译文的相似度大于这个预设阈值,则认为当前的负样本是假性负样本,配置上述对比学习损失函数中负样本的权重值为第一权重值;当计算得到的负样本译文与训练译文的相似度小于等于这个预设阈值,则认为当前的负样本不是假性负样本,配置上述对比学习损失函数中负样本的权重值为第二权重值。为了减少使用了假性负样本进行训练的影响,假性负样本对应的权重值要小于或者远小于正常的负样本,例如假性负样本对应的权重值可以是0.1,正常的负样本的权重值为0.9。如下所示:
其中,α为负样本(正常负样本或假性负样本)的权重值,x是训练译文,xneg_sample是负样本译文,simcse表示负样本和训练译文的相似度,θ是预设阈值。
实施本公开的实施例,通过计算负样本译文与训练译文的相似度,来区分的配置对比学习损失函数的权重值,假性负样本对应更低的权重值,可以降低假性负样本对模型训练的影响,使得模型训练更加准确。
本申请实施例中,通过获取训练译文的分词序列,将分词序列输入初始模型的第一个受限布尔兹曼机层;分词序列中每个分词具有标注概率,初始模型包括第一个受限布尔兹曼机层在内的多个依次连接的受限布尔兹曼机层,以及与最后一个受限布尔兹曼机层连接的分类层;将除所述最后一个受限布尔兹曼机层之外的每个受限布尔兹曼机层输出的分词序列进行自注意力运算及求和归一化运算,并将运算结果输出下一个受限布尔兹曼机层;通过分类层获取最后一个受限布尔兹曼机层输出的分词序列,并输出每个分词对应的概率分布;概率分布包括多组候选分词和候选分词概率;在概率分布中确定每个分词对应候选分词的候选分词概率,根据候选分词概率和每个分词的标注概率,训练初始模型的参数。一方面,通过使用多层受限布尔兹曼机层和一个分类层构成的初始模型,并将除最后一个受限布尔兹曼机层之外的每个受限布尔兹曼机层输出的分词序列进行自注意力运算及求和归一化运算,通过自注意力运算及求和归一化运算提高了模型的特征捕捉能力,使得模型的效果能够接近BERT模型;另一方面,由于基于多层受限布尔兹曼机层构成的初始模型的参数量较少,在基于同等的训练数据情况下,训练模型的时间相较于BERT模型明显减少。
本申请实施例提供的一种译文选取方法。参照图5,该译文选取方法包括步骤501-503。
步骤501、将多个候选译文输入到译文打分模型,基于所述译文打分模型分别计算所述多个候选译文中每个分词对应的概率分布;
步骤502、在所述概率分布中查找所述每个分词对应的概率值,基于多个所述每个分词对应的概率值获得每个候选译文对应的概率值;
步骤503、将所述每个候选译文对应的概率值确定为所述每个候选译文的分数,根据所述分数在所述多个候选译文中选取目标译文。
将多个候选的译文输入到译文打分模型,可以是分别将单独的候选译文输入到译文打分模型,也可以是一起输入,在此不做限制。与前述对模型进行训练的内容相似的,译文打分模型可以输出候选译文的分词序列中,每个被遮挡分词位置的概率分布,在概率分布中查找与被遮挡分词对应的概率以获得整个候选译文中每个分词对应的概率值。如下式所示:
/>
其中,S是一个译文的分数,ytrans_k表示在机器翻译模型输出的若干译文中,根据机器翻译模型输出的概率分布选取的候选译文,PDBN(ytrans_k)表示候选译文输入译文打分模型后得到的概率值,yi是每次输入译文打分模型的分词序列中被遮挡的分词,yj是被遮挡的分词之外的其他分词,T是ytrans_k的集合。
基于整个候选译文中每个分词对应的概率值相乘,得到每个候选译文整体对应的概率值,将这个候选译文整体对应的概率值作为候选译文的分数。基于所有候选译文的分数,选取一个或多个目标译文。
本申请实施例中,通过将多个候选译文输入到译文打分模型,基于译文打分模型分别计算多个候选译文中每个分词对应的概率分布;在概率分布中查找每个分词对应的概率值,基于多个每个分词对应的概率值获得每个候选译文对应的概率值;将每个候选译文对应的概率值确定为所述每个候选译文的分数,根据分数在多个候选译文中选取目标译文。基于上述训练的译文打分模型的优势,一方面,通过使用多层受限布尔兹曼机层和一个分类层构成的初始模型,并将除最后一个受限布尔兹曼机层之外的每个受限布尔兹曼机层输出的分词序列进行自注意力运算及求和归一化运算,通过自注意力运算及求和归一化运算提高了模型的特征捕捉能力,可以保障译文打分的较高准确性;另一方面,由于基于多层受限布尔兹曼机层构成的初始模型的参数量较少,在基于同等数据大小的候选译文输入情况下,相较于BERT模型打分的过程,能够更快获取译文的打分结果,进而提高了根据分数在候选译文中选取目标译文的效率。
本申请实施例提供的一种译文选取方法。参照图6,该译文选取方法包括步骤601-604。
步骤601,将多个候选译文输入到译文打分模型,基于所述译文打分模型分别计算所述多个候选译文中每个分词对应的概率分布;
参照上述图5实施例的内容,在此不再赘述。
步骤602,在所述概率分布中查找所述每个分词对应的概率值,基于多个所述每个分词对应的概率值获得每个候选译文对应的概率值;
参照上述图5实施例的内容,在此不再赘述。
步骤603,将所述每个候选译文对应的概率值确定为所述每个候选译文的分数,根据所述分数在所述多个候选译文中选取目标译文。
参照上述图5实施例的内容,在此不再赘述。
可选的,步骤603可以包括:
根据所述分数的大小,选取分数最大的译文作为目标译文。
可以根据所有候选译文的分数,将候选译文进行排序,可以选取候选译文排序中分数最高的一个目标译文,也可以选取排序靠前的几个目标译文,在此不做限制。
本申请实施例中,通过将多个候选译文输入到译文打分模型,基于译文打分模型分别计算多个候选译文中每个分词对应的概率分布;在概率分布中查找每个分词对应的概率值,基于多个每个分词对应的概率值获得每个候选译文对应的概率值;将每个候选译文对应的概率值确定为所述每个候选译文的分数,根据分数在多个候选译文中选取目标译文。基于上述训练的译文打分模型的优势,一方面,通过使用多层受限布尔兹曼机层和一个分类层构成的初始模型,并将除最后一个受限布尔兹曼机层之外的每个受限布尔兹曼机层输出的分词序列进行自注意力运算及求和归一化运算,通过自注意力运算及求和归一化运算提高了模型的特征捕捉能力,可以保障译文打分的较高准确性;另一方面,由于基于多层受限布尔兹曼机层构成的初始模型的参数量较少,在基于同等数据大小的候选译文输入情况下,相较于BERT模型打分的过程,能够更快获取译文的打分结果,进而提高了根据分数在候选译文中选取目标译文的效率。
图7是本申请的一些实施例的译文打分模型的训练装置的结构示意图。如图7所示,译文打分模型的训练装置70可以包括:
译文输入模块701,用于获取训练译文的分词序列,将所述分词序列输入初始模型的第一个受限布尔兹曼机层;所述分词序列中每个分词具有标注概率,所述初始模型包括所述第一个受限布尔兹曼机层在内的多个依次连接的受限布尔兹曼机层,以及与最后一个受限布尔兹曼机层连接的分类层;
层间运算模块702,用于将除所述最后一个受限布尔兹曼机层之外的每个受限布尔兹曼机层输出的分词序列进行自注意力运算及求和归一化运算,并将运算结果输出下一个受限布尔兹曼机层;
概率输出模块703,用于通过所述分类层获取所述最后一个受限布尔兹曼机层输出的分词序列,并输出所述每个分词对应的概率分布;所述概率分布包括多组候选分词和候选分词概率;
模型训练模块704,用于在所述概率分布中确定所述每个分词对应候选分词的候选分词概率,根据所述候选分词概率和所述每个分词的标注概率,训练所述初始模型得到译文打分模型。
可选地,译文输入模块701可以包括:
正样本子模块,对所述训练译文进行数据增强以获得正样本译文,所述数据增强至少包括对所述训练译文的分词进行删除、位置替换的其中之一;
负样本子模块,在所述训练译文中进行随机采样,获得负样本译文;
分词序列子模块,将所述正样本译文和所述负样本译文进行拆分,获取所述正样本译文的分词序列和所述负样本译文的分词序列;
正负输入子模块,将所述正样本译文的分词序列和所述负样本译文的分词序列输入初始模型的第一个受限布尔兹曼机层。
可选地,装置还包括:
第一输入模块,用于将所述正样本译文的分词序列输入第一个受限布尔兹曼机层,获得所述第一个受限布尔兹曼机层输出的分词序列;
第一训练模块,用于计算所述正样本译文的分词序列和所述输出的分词序列之间的散度信息,基于所述散度信息训练所述第一个受限布尔兹曼机层的参数。
可选地,装置还包括:
其他输入模块,用于将所述第一个受限布尔兹曼机层和其他任一受限布尔兹曼机层连接,将所述正样本译文的分词序列输入所述第一个受限布尔兹曼机层,获得所述其他任一受限布尔兹曼机层输出的分词序列;
其他训练模块,用于计算所述正样本译文的分词序列和所述输出的分词序列之间的散度信息,基于所述散度信息训练所述其他任一受限布尔兹曼机层的参数。
可选地,模型训练模块704可以包括:
损失值子模块,用于根据所述候选分词概率和所述每个分词的标注概率,通过第一损失函数计算第一损失值以及通过第二损失函数计算第二损失值;
模型训练子模块,用于根据所述第一损失值和第二损失值,训练模型的参数;
其中,所述第一损失函数是为均方差损失函数、绝对值损失函数、二元交叉熵损失函数、多分类交叉熵损失函数的其中之一,所述第二损失函数是计算了所述正样本译文、所述负样本译文分别与所述概率分布的余弦相似度的对比学习损失函数。
可选地,装置还包括:
相似度模块,用于计算所述负样本译文与所述训练译文的相似度;
第一权重模块,用于当所述相似度大于等于预设阈值,配置第二损失函数中的权重值为第一权重值;
第二权重模块,用于当所述相似度小于预设阈值,配置第二损失函数中的权重值为第二权重值;其中,所述第一权重值小于所述第二权重值。
本申请实施例中,通过获取训练译文的分词序列,将分词序列输入初始模型的第一个受限布尔兹曼机层;将除最后一个受限布尔兹曼机层之外的每个受限布尔兹曼机层输出的分词序列进行自注意力运算及求和归一化运算,并将运算结果输出下一个受限布尔兹曼机层;通过分类层获取最后一个受限布尔兹曼机层输出的分词序列,并输出每个分词对应的概率分布;概率分布包括多组候选分词和候选分词概率;在概率分布中确定每个分词对应候选分词的候选分词概率,根据候选分词概率和每个分词的标注概率,训练初始模型的参数。一方面,通过使用多层受限布尔兹曼机层和一个分类层构成的初始模型,并将除最后一个受限布尔兹曼机层之外的每个受限布尔兹曼机层输出的分词序列进行自注意力运算及求和归一化运算,通过自注意力运算及求和归一化运算提高了模型的特征捕捉能力,使得模型的效果能够接近BERT模型;另一方面,由于基于多层受限布尔兹曼机层构成的初始模型的参数量较少,在基于同等的训练数据情况下,训练模型的时间相较于BERT模型明显减少。
图8是本申请的一些实施例的译文选取装置的结构示意图。如图8所示,译文选取装置80可以包括:
处理模块801,将多个候选译文输入到译文打分模型,基于所述译文打分模型分别计算所述多个候选译文中每个分词对应的概率分布;
概率模块802,在所述概率分布中查找所述每个分词对应的概率值,基于多个所述每个分词对应的概率值获得每个候选译文对应的概率值;
选取模块803,将所述每个候选译文对应的概率值确定为所述每个候选译文的分数,根据所述分数在所述多个候选译文中选取目标译文;其中,所述第一译文打分模型是由译文打分模型的训练装置训练得到。
可选的,选取模块803具体用于:根据所述分数的大小,选取分数最大的译文作为目标译文。
本申请实施例中,通过将多个候选译文输入到译文打分模型,基于译文打分模型分别计算多个候选译文中每个分词对应的概率分布;在概率分布中查找每个分词对应的概率值,基于多个每个分词对应的概率值获得每个候选译文对应的概率值;将每个候选译文对应的概率值确定为所述每个候选译文的分数,根据分数在多个候选译文中选取目标译文。基于上述训练的译文打分模型的优势,一方面,通过使用多层受限布尔兹曼机层和一个分类层构成的初始模型,并将除最后一个受限布尔兹曼机层之外的每个受限布尔兹曼机层输出的分词序列进行自注意力运算及求和归一化运算,通过自注意力运算及求和归一化运算提高了模型的特征捕捉能力,可以保障译文打分的较高准确性;另一方面,由于基于多层受限布尔兹曼机层构成的初始模型的参数量较少,在基于同等数据大小的候选译文输入情况下,相较于BERT模型打分的过程,能够更快获取译文的打分结果,进而提高了根据分数在候选译文中选取目标译文的效率。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述语义评价模型的训练方法及流式文本的机器翻译方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
图9是本申请实施例提供的一种电子设备900的框图。例如,电子设备900可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图9,电子设备900可以包括以下一个或多个组件:处理组件902,存储器904,电源组件906,多媒体组件908,音频组件910,输入/输出(I/O)的接口912,传感器组件914,以及通信组件916。
处理组件902通常控制电子设备900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器920来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理组件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。
存储器904用于存储各种类型的数据以支持在电子设备900的操作。这些数据的示例包括用于在电子设备900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,多媒体等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件906为电子设备900的各种组件提供电力。电源组件906可以包括电源管理系统,一个或多个电源,及其他与为电子设备900生成、管理和分配电力相关联的组件。
多媒体组件908包括在电子设备900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的分界,而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括一个前置摄像头和/或后置摄像头。当电子设备900处于操作模式,如拍摄模式或多媒体模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件910用于输出和/或输入音频信号。例如,音频组件910包括一个麦克风(MIC),当电子设备900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。
I/O接口912为处理组件902和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件914包括一个或多个传感器,用于为电子设备900提供各个方面的状态评估。例如,传感器组件914可以检测到电子设备900的打开/关闭状态,组件的相对定位,例如组件为电子设备900的显示器和小键盘,传感器组件914还可以检测电子设备900或电子设备900一个组件的位置改变,用户与电子设备900接触的存在或不存在,电子设备900方位或加速/减速和电子设备900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件916用于便于电子设备900和其他设备之间有线或无线方式的通信。电子设备900可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或7G),或它们的组合。在一个示例性实施例中,通信组件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件716还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于实现本申请实施例提供的一种语音合成模型训练方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器904,上述指令可由电子设备900的处理器920执行以完成上述方法。例如,非临时性存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图10是根据一示例性实施例示出的一种电子设备1000的框图。例如,电子设备1000可以被提供为一服务器。参照图10,电子设备1000包括处理组件1022,其进一步包括一个或多个处理器,以及由存储器1032所代表的存储器资源,用于存储可由处理组件1022的执行的指令,例如应用程序。存储器1032中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1022被配置为执行指令,以执行本申请实施例提供的一种语音合成模型训练方法。
电子设备1000还可以包括一个电源组件1026被配置为执行电子设备1000的电源管理,一个有线或无线网络接口1050被配置为将电子设备1000连接到网络,和一个输入输出(I/O)接口1058。电子设备1000可以操作基于存储在存储器1032的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本申请实施例还提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现的一种语音合成模型训练方法。
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域技术人员易于想到的是:上述各个实施例的任意组合应用都是可行的,故上述各个实施例之间的任意组合都是本申请的实施方案,但是由于篇幅限制,本说明书在此就不一一详述了。
在此提供的嵌入式翻译模型的训练方法及嵌入式翻译方法不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造具有本申请方案的系统所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个申请方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,申请方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的语义评价模型的训练方法及流式文本的机器翻译方法中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (10)
1.一种译文打分模型的训练方法,其特征在于,方法包括:
获取训练译文的分词序列,将所述分词序列输入初始模型的第一个受限布尔兹曼机层;所述分词序列中每个分词具有标注概率,所述初始模型包括所述第一个受限布尔兹曼机层在内的多个依次连接的受限布尔兹曼机层,以及与最后一个受限布尔兹曼机层连接的分类层;
将除所述最后一个受限布尔兹曼机层之外的每个受限布尔兹曼机层输出的分词序列进行自注意力运算及求和归一化运算,并将运算结果输出下一个受限布尔兹曼机层;
通过所述分类层获取所述最后一个受限布尔兹曼机层输出的分词序列,并输出所述每个分词对应的概率分布;所述概率分布包括多组候选分词和候选分词概率;
在所述概率分布中确定所述每个分词对应候选分词的候选分词概率,根据所述候选分词概率和所述每个分词的标注概率,训练所述初始模型得到译文打分模型。
2.根据权利要求1所述的方法,其特征在于,获取训练译文的分词序列,将所述分词序列输入初始模型的第一个受限布尔兹曼机层的步骤,包括:
对所述训练译文进行数据增强以获得正样本译文,所述数据增强至少包括对所述训练译文的分词进行删除、位置替换的其中之一;
在所述训练译文中进行随机采样,获得负样本译文;
将所述正样本译文和所述负样本译文进行拆分,获取所述正样本译文的分词序列和所述负样本译文的分词序列;
将所述正样本译文的分词序列和所述负样本译文的分词序列输入初始模型的第一个受限布尔兹曼机层。
3.根据权利要求2所述的方法,其特征在于,在获取所述正样本译文的分词序列和所述负样本译文的分词序列的步骤之后,所述方法还包括:
将所述正样本译文的分词序列输入第一个受限布尔兹曼机层,获得所述第一个受限布尔兹曼机层输出的分词序列;
计算所述正样本译文的分词序列和所述输出的分词序列之间的散度信息,基于所述散度信息训练所述第一个受限布尔兹曼机层的参数。
4.根据权利要求3所述的方法,其特征在于,在基于所述散度信息训练所述第一个受限布尔兹曼机层的参数的步骤之后,所述方法还包括:
将所述第一个受限布尔兹曼机层和其他任一受限布尔兹曼机层连接,将所述正样本译文的分词序列输入所述第一个受限布尔兹曼机层,获得所述其他任一受限布尔兹曼机层输出的分词序列;
计算所述正样本译文的分词序列和所述输出的分词序列之间的散度信息,基于所述散度信息训练所述其他任一受限布尔兹曼机层的参数。
5.根据权利要求2所述的方法,其特征在于,根据所述候选分词概率和所述每个分词的标注概率,训练所述初始模型得到译文打分模型的步骤,包括:
根据所述候选分词概率和所述每个分词的标注概率,通过第一损失函数计算第一损失值以及通过第二损失函数计算第二损失值;
根据所述第一损失值和第二损失值,训练模型的参数;
其中,所述第一损失函数是为均方差损失函数、绝对值损失函数、二元交叉熵损失函数、多分类交叉熵损失函数的其中之一,所述第二损失函数是计算了所述正样本译文、所述负样本译文分别与所述概率分布的余弦相似度的对比学习损失函数。
6.根据权利要求5所述的方法,其特征在于,在通过第二损失函数计算第二损失值的步骤之前,所述方法还包括:
计算所述负样本译文与所述训练译文的相似度;
当所述相似度大于等于预设阈值,配置第二损失函数中的权重值为第一权重值;
当所述相似度小于预设阈值,配置第二损失函数中的权重值为第二权重值;其中,所述第一权重值小于所述第二权重值。
7.一种译文选取方法,其特征在于,方法包括:
将多个候选译文输入到译文打分模型,基于所述译文打分模型分别计算所述多个候选译文中每个分词对应的概率分布;
在所述概率分布中查找所述每个分词对应的概率值,基于多个所述每个分词对应的概率值获得每个候选译文对应的概率值;
将所述每个候选译文对应的概率值确定为所述每个候选译文的分数,根据所述分数在所述多个候选译文中选取目标译文;其中,所述译文打分模型是由权利要求1-6任一项所述的方法训练得到。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。
9.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述方法的步骤。
10.一种计算机程序产品,其特征在于,所述计算机程序产品上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311354531.6A CN117521844A (zh) | 2023-10-18 | 2023-10-18 | 译文打分模型的训练方法及译文选取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311354531.6A CN117521844A (zh) | 2023-10-18 | 2023-10-18 | 译文打分模型的训练方法及译文选取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117521844A true CN117521844A (zh) | 2024-02-06 |
Family
ID=89752141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311354531.6A Pending CN117521844A (zh) | 2023-10-18 | 2023-10-18 | 译文打分模型的训练方法及译文选取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117521844A (zh) |
-
2023
- 2023-10-18 CN CN202311354531.6A patent/CN117521844A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111460150B (zh) | 一种分类模型的训练方法、分类方法、装置及存储介质 | |
CN110826344B (zh) | 神经网络模型压缩方法、语料翻译方法及其装置 | |
CN111897964B (zh) | 文本分类模型训练方法、装置、设备及存储介质 | |
CN110781305B (zh) | 基于分类模型的文本分类方法及装置,以及模型训练方法 | |
CN106575379B (zh) | 用于神经网络的改进的定点整型实现方式 | |
CN111209970B (zh) | 视频分类方法、装置、存储介质及服务器 | |
US20230103340A1 (en) | Information generating method and apparatus, device, storage medium, and program product | |
CN109145213B (zh) | 基于历史信息的查询推荐方法及装置 | |
CN111612070B (zh) | 基于场景图的图像描述生成方法及装置 | |
CN108021897B (zh) | 图片问答方法及装置 | |
CN113421547B (zh) | 一种语音处理方法及相关设备 | |
CN111368525A (zh) | 信息搜索方法、装置、设备及存储介质 | |
CN110114765B (zh) | 通过共享话语的上下文执行翻译的电子设备及其操作方法 | |
CN111753091A (zh) | 分类方法、分类模型的训练方法、装置、设备及存储介质 | |
CN117157642A (zh) | 自然语言处理模型的训练方法、装置、存储介质 | |
CN114882862A (zh) | 一种语音处理方法及相关设备 | |
CN115840796A (zh) | 一种事件整合方法、装置、设备及计算机可读存储介质 | |
CN112328809A (zh) | 实体分类方法、装置及计算机可读存储介质 | |
CN111274389A (zh) | 一种信息处理方法、装置、计算机设备及存储介质 | |
CN117521844A (zh) | 译文打分模型的训练方法及译文选取方法 | |
CN110555207A (zh) | 语句识别方法、装置、机器设备和计算机可读存储介质 | |
CN115017324A (zh) | 实体关系抽取方法、装置、终端及存储介质 | |
CN113409766A (zh) | 一种识别方法、装置、用于识别的装置及语音合成方法 | |
CN113971218A (zh) | 位置编码方法、装置及存储介质 | |
CN113901832A (zh) | 人机对话方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |