CN115114937A - 文本获取方法、装置、计算机设备及存储介质 - Google Patents
文本获取方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN115114937A CN115114937A CN202210601933.0A CN202210601933A CN115114937A CN 115114937 A CN115114937 A CN 115114937A CN 202210601933 A CN202210601933 A CN 202210601933A CN 115114937 A CN115114937 A CN 115114937A
- Authority
- CN
- China
- Prior art keywords
- text
- candidate
- coefficient
- importance
- quality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/51—Translation evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/49—Data-driven translation using very large corpora, e.g. the web
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种文本获取方法、装置、计算机设备及存储介质,属于计算机技术领域。本申请通过对第一语种的原始文本翻译得到第二语种的多个候选文本,并根据每个候选文本的质量系数和重要性系数来筛选得到目标候选文本,由于通过质量系数考虑到了候选文本的翻译质量,通过重要性系数考虑到了候选文本所承载信息的重要程度,从而在两个系数的作用下能够筛选得到兼顾了翻译质量和承载信息的重要程度的目标候选文本,有利于生成同时具有高翻译质量和高重要性系数的目标候选文本,这些筛选得到的目标候选文本能够在投入正向NMT模型的训练阶段时发挥更大的作用,从而有利于最大化程度提高正向NMT模型的翻译性能。
Description
技术领域
本申请涉及计算机技术领域,特别涉及一种文本获取方法、装置、计算机设备及存储介质。
背景技术
随着机器翻译技术的发展,反向翻译(Back Translation,BT)作为一种能够提升神经机器翻译(Neural Machine Translation,NMT)模型性能的手段得到了广泛应用。
反向翻译包括两个步骤:1)使用反向翻译模型生成伪语料文本;2)使用伪语料文本来训练正向NMT模型。例如,先训练一个德译英的反向翻译模型,再选取大量的德语单语语料,使用该反向翻译模型来将德语单语语料翻译成英语语料,再将原始的德语单语语料和翻译得到的英语语料作为伪双语语料,与真实的英德双语语料混合,以在真实双语语料和伪双语语料构成的训练语料集上训练正向的英译德NMT模型。
目前,虽然已经证实反向翻译得到的伪语料文本能够提升正向NMT模型性能,但伪语料文本究竟如何来影响NMT模型性能尚不明确,因此,如何获取能够最大化程度提高NMT模型性能的伪语料文本,逐渐成为亟需研究的热点。
发明内容
本申请实施例提供了一种文本获取方法、装置、计算机设备及存储介质,能够获取到最大化程度提高正向NMT模型的翻译性能的伪语料文本。该技术方案如下:
一方面,提供了一种文本获取方法,该方法包括:
基于第一语种的任一原始文本,翻译得到第二语种的多个候选文本,所述原始文本与所述候选文本的语义相关联;
获取所述多个候选文本各自的质量系数和重要性系数,所述质量系数表征所述候选文本的翻译质量,所述重要性系数表征所述候选文本所承载信息的重要程度;
基于所述质量系数和所述重要性系数,从所述多个候选文本中筛选得到目标候选文本。
一方面,提供了一种文本获取装置,该装置包括:
翻译模块,用于基于第一语种的任一原始文本,翻译得到第二语种的多个候选文本,所述原始文本与所述候选文本的语义相关联;
获取模块,用于获取所述多个候选文本各自的质量系数和重要性系数,所述质量系数表征所述候选文本的翻译质量,所述重要性系数表征所述候选文本所承载信息的重要程度;
筛选模块,用于基于所述质量系数和所述重要性系数,从所述多个候选文本中筛选得到目标候选文本。
在一些实施例中,所述筛选模块包括:
确定单元,用于基于所述质量系数和所述重要性系数,确定所述多个候选文本各自的选择权重系数,所述选择权重系数为平衡所述质量系数和所述重要性系数的筛选指标;
筛选单元,用于基于所述选择权重系数,从所述多个候选文本中筛选得到所述目标候选文本。
在一些实施例中,所述确定单元包括:
第一确定子单元,用于对任一所述候选文本,确定第一调整因子与所述候选文本的所述重要性系数相乘所得的第一数值;
所述第一确定子单元,还用于确定第二调整因子与所述候选文本的质量系数相乘所得的第二数值,所述第二调整因子与所述第一调整因子相加等于1;
相加单元,用于将所述第一数值和所述第二数值相加,得到第三数值;
第二确定子单元,用于基于所述候选文本的第三数值和其他候选文本的第三数值,确定所述候选文本的所述选择权重系数,所述其他候选文本为所述原始文本翻译得到的除了所述候选文本之外的候选文本。
在一些实施例中,所述第二确定子单元用于:
以所述候选文本的第三数值作为第一指数,获取自然底数的所述第一指数次幂;
对任一所述其他候选文本,以所述其他候选文本的第三数值作为第二指数,获取自然底数的所述第二指数次幂;
将所述自然底数的所述第一指数次幂和多个所述自然底数的所述第二指数次幂相加,得到目标和值;
将所述自然底数的所述第一指数次幂除以所述目标和值,得到所述候选文本的所述选择权重系数。
在一些实施例中,所述筛选单元用于:
从所述多个候选文本中,将所述选择权重系数最大的候选文本确定为所述目标候选文本。
在一些实施例中,所述筛选单元用于:
从所述多个候选文本中,按照所述选择权重系数所服从的概率分布,随机采样得到所述目标候选文本。
在一些实施例中,所述获取模块包括:
第一获取单元,用于对任一所述候选文本,获取所述候选文本的初始质量系数;
第一归一化单元,用于基于所述候选文本的文本长度,对所述初始质量系数进行归一化,得到所述质量系数,所述文本长度表征所述候选文本所包含的字符数量。
在一些实施例中,所述第一归一化单元用于:
基于所述多个候选文本各自的所述初始质量系数的对数质量系数,获取所述对数质量系数的第一均值和第一方差,所述对数质量系数为所述初始质量系数的对数值;
将所述候选文本的所述对数质量系数除以所述候选文本的文本长度,得到归一化质量系数;
将所述归一化质量系数与所述第一均值相减所得的数值除以所述第一方差,得到所述质量系数。
在一些实施例中,所述获取模块包括:
第二获取单元,用于对任一所述候选文本,获取所述候选文本的初始重要性系数;
第二归一化单元,用于基于所述候选文本的文本长度,对所述初始重要性系数进行归一化,得到所述重要性系数,所述文本长度表征所述候选文本所包含的字符数量。
在一些实施例中,所述第二归一化单元用于:
基于所述多个候选文本各自的所述初始重要性系数的对数重要性系数,获取所述对数重要性系数的第二均值和第二方差,所述对数重要性系数为所述初始重要性系数的对数值;
将所述候选文本的所述对数重要性系数除以所述候选文本的文本长度,得到归一化重要性系数;
将所述归一化重要性系数与所述第二均值相减所得的数值除以所述第二方差,得到所述重要性系数。
在一些实施例中,所述翻译模块用于:
将所述原始文本输入到反向翻译模型,通过所述反向翻译模型,以随机采样方式翻译得到所述多个候选文本,所述反向翻译模型用于将输入文本从所述第一语种翻译至所述第二语种。
在一些实施例中,所述原始文本和所述目标候选文本构成的语料对用于训练正向翻译模型,所述正向翻译模型用于将输入文本从所述第二语种翻译至所述第一语种。
一方面,提供了一种计算机设备,该计算机设备包括一个或多个处理器和一个或多个存储器,该一个或多个存储器中存储有至少一条计算机程序,该至少一条计算机程序由该一个或多个处理器加载并执行以实现如上述文本获取方法。
一方面,提供了一种存储介质,该存储介质中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行以实现如上述文本获取方法。
一方面,提供一种计算机程序产品,所述计算机程序产品包括一条或多条计算机程序,所述一条或多条计算机程序存储在计算机可读存储介质中。计算机设备的一个或多个处理器能够从计算机可读存储介质中读取所述一条或多条计算机程序,所述一个或多个处理器执行所述一条或多条计算机程序,使得计算机设备能够执行上述文本获取方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过对第一语种的原始文本翻译得到第二语种的多个候选文本,并根据每个候选文本的质量系数和重要性系数来筛选得到目标候选文本,由于通过质量系数考虑到了候选文本的翻译质量,通过重要性系数考虑到了候选文本所承载信息的重要程度,从而在两个系数的作用下能够筛选得到兼顾了翻译质量和承载信息的重要程度的目标候选文本,有利于生成同时具有高翻译质量和高重要性系数的目标候选文本,这些筛选得到的目标候选文本能够在投入正向NMT模型的训练阶段时发挥更大的作用,从而有利于最大化程度提高正向NMT模型的翻译性能。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还能够根据这些附图获得其他的附图。
图1是本申请实施例提供的一种文本获取方法的实施环境示意图;
图2是本申请实施例提供的一种文本获取方法的流程图;
图3是本申请实施例提供的一种文本获取方法的流程图;
图4是本申请实施例提供的一种文本获取装置的结构示意图;
图5是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。
本申请中术语“至少一个”是指一个或多个,“多个”的含义是指两个或两个以上,例如,多个候选文本是指两个或两个以上的候选文本。
本申请中术语“包括A或B中至少一项”涉及如下几种情况:仅包括A,仅包括B,以及包括A和B两者。
本申请中涉及到的用户相关的信息(包括但不限于用户的设备信息、个人信息、行为信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,当以本申请实施例的方法运用到具体产品或技术中时,均为经过用户许可、同意、授权或者经过各方充分授权的,且相关信息、数据以及信号的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本申请中涉及到的原始文本都是在充分授权的情况下获取的。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括音频处理技术、计算机视觉技术、自然语言处理技术、机器学习/深度学习、自动驾驶以及智慧交通等几大方向。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中,自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向,是人工智能和语言学的分支学科,旨在探讨如何处理及运用自然语言。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括机器翻译、文本预处理、语义理解、机器人问答、知识图谱等技术。
在NLP领域中,机器翻译是指利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程,是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值,同时,机器翻译又具有重要的实用价值。随着经济全球化及互联网的飞速发展,机器翻译技术在促进经济、文化交流等方面起到越来越重要的作用。在机器翻译中,神经机器翻译取得了较好的成功。本申请实施例提供的技术方案涉及人工智能的神经机器翻译等技术,将在下文进行详述。
以下,将对本申请实施例所涉及到的术语进行解释:
深度学习(Deep Learning,DL):是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。
神经网络(Neural Network,NN):在机器学习和认知科学领域的一种模仿生物神经网络结构和功能的深度学习模型。
机器翻译(Machine Translation,MT):又称为自动翻译,利用电子计算机等装置自动地把一种自然语言文字译成另一种自然语言文字。
神经机器翻译(Neural Machine Translation,NMT):一种基于神经网络的机器翻译技术。
反向翻译(Back Translation,BT):一种将单语语料生成伪双语语料的方法,结合伪双语语料和真实双语语料来训练NMT模型,能够简单而有效地提升NMT模型的性能。
序列到序列模型(Sequence to Sequence Model,Seq2Seq):一种输入和输出均为序列的深度神经网络模型。
变换器(Transformer):也称为转换器,一种神经网络框架的机器翻译模型。Transformer模型采用基于自关注神经网络(Self-Attention Network,SAN)的编码器-解码器框架,属于序列到序列Seq2Seq生成的模型结构。
字符(Tokens):是机器翻译的最小语义单位,即分词。在英文中一个字符是指一个单词(即词汇)或者一个英文标点符号,在中文中一个字符是指一个中文词语(词语可包括一个或多个中文字)或者一个中文标点符号。
双语评估研究(Bilingual Evaluation Understudy,BLEU):是机器翻译模型的一种评估指标,BLEU值越高表示机器翻译模型的翻译效果越好。
检查点(Checkpoint):指NMT模型在训练中途的参数状态信息,在NMT模型训练过程中通过设置Checkpoint,能够保存NMT模型训练中途的模型参数,以便于纵向对比来评估出NMT模型何时达到最优性能。比如,在对某个NMT模型迭代训练1000步的过程中,每迭代100步都设置一个Checkpoint,即,每迭代100步都会保存一次NMT模型训练中途的模型参数。
自从NMT技术诞生以来,反向翻译作为一种能够简单而有效地提升NMT模型性能的手段,迅速成为NMT研究领域的重要研究热点之一。不仅如此,反向翻译也是无监督NMT模型的关键优化目标,且在其他的NLP研究领域,如预训练复述、翻译风格化等领域也有着十分重要的地位。
反向翻译包括两个步骤:1)使用反向NMT模型生成伪语料文本;2)使用伪语料文本来训练正向NMT模型。在反向翻译开始之前,需要使用真实双语语料,训练得到一个反向NMT模型,例如,训练一个反向NMT模型(通常为Transformer模型);接着,使用训练得到的反向NMT模型对大量的单语语料进行机器翻译,可以得到伪双语语料;接着,将伪双语语料与真实双语语料混合,得到训练用的双语语料,在该训练用的双语语料上训练正向NMT模型,以使得这种方式训练得到的正向NMT模型,具有比仅使用真实双语语料训练的方式具有更优的翻译性能。
在一个示例性场景中,以正向NMT模型为英译德的翻译方向为例,先使用英德双语平行语料,训练一个德译英的反向NMT模型,直至反向NMT模型拟合,利用Checkpoint技术,对训练中途保存的多个模型参数在验证集上进行测试,得到每个模型参数下的反向NMT模型在验证集上的翻译性能,选取在验证集上翻译性能表现最好的Checkpoint模型参数作为后续投入反向翻译过程的反向NMT模型。接着,选取大量的德语单语语料,使用该反向NMT模型来将德语单语语料翻译成英语语料,再将原始的德语单语语料和翻译得到的英语语料作为伪双语语料。接着,将伪双语语料与真实的英德双语语料混合,得到训练用的训练语料集,在该训练语料集上训练英译德的正向NMT模型,可选地,在正向NMT模型的训练过程中,可以使用一些数据增强方法来提升模型性能,比如,上采样真实语料、梯度累积等数据增强方法,本申请实施例对训练正向NMT模型时采用的数据增强方法不进行具体限定。
自反向翻译提出以来,反向翻译得到了长足的发展,但在利用反向翻译来提升正向NMT模型性能的过程中,都使用了默认的反向翻译方法来生成伪语料文本,但反向翻译得到的伪语料文本究竟如何影响NMT模型的翻译性能是尚未明确的。比如,一部分研究表明,伪语料文本的质量对于促进NMT模型的翻译性能至关重要,而另一部分研究又发现,低质量的伪语料文本能够帮助NMT模型取得更高的测试性能,上述矛盾的实验结果表明伪语料文本的质量并非决定NMT模型翻译性能的唯一因素,因此,根本性的问题在于,究竟怎样的伪语料文本才能够最大限度地提升正向NMT模型的翻译性能?这一问题仍然是反向翻译亟需回答的研究热点。
有鉴于此,本申请实施例提供一种文本获取方法,致力于探索伪语料文本本身的特点,通过调整生成策略从而产生最有利于正向NMT模型的伪语料文本,这一伪语料文本的获取方式不需要迭代式的伪语料文本生成或者模型训练,同时也不需要对伪语料文本进行标记,这样也能够避免造成训练和测试数据分布的不同。
以下,对本申请实施例的系统架构进行说明。
图1是本申请实施例提供的一种文本获取方法的实施环境示意图。参见图1,在该实施环境中包括终端101和服务器102。
终端101用于提供待翻译文本,通常待翻译文本包括一个或多个语句,例如待翻译文本为一句话。终端101安装和运行有支持文本翻译的应用,例如该应用包括翻译应用、社交应用、查词应用、搜索引擎、智能助手、内容分享应用、直播应用、会议应用、看书应用等,本申请实施例不对应用类型进行具体限定。
在一些实施例中,用户在终端101上登录该应用后,在该应用中输入待翻译文本,可选地,输入待翻译文本的方式包括但不限于:手动输入、语音指令、手势指令、快捷选项选择预设文本等,本申请实施例不对待翻译文本的输入方式进行具体限定。接着,用户触发终端101向服务器102发送携带该待翻译文本的文本翻译请求,该文本翻译请求用于请求获取与该待翻译文本语义相关联但语种不同的译文,文本翻译请求中可以指定译文的语种,或者不指定语文的语种,本申请实施例对此不进行具体限定。服务器102响应于该文本翻译请求,使用预先训练得到的正向NMT模型对待翻译文本进行翻译,即可得到该待翻译文本的译文,并将该译文返回至终端101。
终端101和服务器102之间可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
服务器102用于提供机器翻译服务,服务器102可以包括一台服务器、多台服务器、云计算平台或者虚拟化中心中的至少一种。可选地,服务器102承担主要翻译计算工作,终端101承担次要翻译计算工作;或者,服务器102承担次要翻译计算工作,终端101承担主要翻译计算工作;或者,终端101与服务器102之间采用分布式计算架构进行协同翻译计算。
在一些实施例中,服务器102接收终端101的文本翻译请求,解析该文本翻译请求,得到待翻译文本(或者待翻译文本和指定的译文语种),如果文本翻译请求未指定译文语种,则选择默认译文语种,接着,查找到预先训练得到的从待翻译文本的语种到译文语种方向翻译的正向NMT模型,利用查找得到的正向NMT模型来将该待翻译文本从原本的语种转换到译文语种,得到待翻译文本的译文,接着将该译文返回至终端101,其中,该译文与该待翻译文本具有语义上的关联关系但两者语种不同。
在一些实施例中,在服务器102侧,利用本申请实施例提供的文本获取方法来获取伪语料文本,将伪语料文本与真实语料文本混合得到训练语料集,在训练语料集上训练得到上述正向NMT模型。
在上述实施例中,以服务器102在自身服务端维护该正向NMT模型为例进行说明,这样能够将翻译过程迁移至服务器102,能够节约终端101本地的处理资源和计算资源。在另一些实施例中,服务器102在训练得到该正向NMT模型之后,将该正向NMT模型发送至终端101,以使得终端101能够在本地调用该正向NMT模型自行对待翻译文本进行翻译,得到待翻译文本的译文,此时终端101无需每次都向服务器102发送翻译请求,能够降低终端101与服务器102之间的通信开销。在另一些实施例中,还可以由终端101在本地训练得到该正向NMT模型,并在本地调用该正向NMT模型自行对待翻译文本进行翻译,得到待翻译文本的译文,同样能够降低终端101与服务器102之间的通信开销。
需要说明的是,本申请实施例所涉及的各个待翻译文本以及翻译得到的译文等文本数据,可保存于区块链上。
上述服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)以及大数据和人工智能平台等基础云计算服务的云服务器。
上述终端101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、电子书阅读器等,但并不局限于此。
本领域技术人员可以知晓,终端101可以泛指多个终端中的一个,上述终端的数量可以更多或更少。比如上述终端可以仅为一个,或者上述终端为几十个或几百个,或者更多数量。本申请实施例对终端的数量和设备类型不加以限定。
以下,将对本申请实施例的核心构思进行说明:
NMT使用基于神经网络的翻译模型p(y|x;θ)来构建翻译映射,x代表待翻译的原文,y代表翻译后的译文,θ代表NMT模型的模型参数集合,p(y|x;θ)则代表利用NMT模型θ将原文x翻译成译文y的条件概率,也即代表了NMT模型从原文x到译文y的翻译映射,这一翻译映射可理解为:将源语言的原文x映射到目标语言的译文y,在机器翻译过程中,可以将源语言侧称为源端(指翻译前的语种),将目标语言侧称为目标端(指翻译后的语种)。
在传统NMT训练方式下,获取双语语料 代表一对语种不同但语义关联的双语语料(即语料对),xi代表源端的第i个样本语料,yi代表与xi语种不同但语义关联的目标端的第i个样本语料。在双语语料构成的训练语料集上训练NMT模型,训练目标为最小化如下公式所示的目标函数
其中,代表训练阶段的目标函数(或损失函数),目标函数是与NMT模型θ和训练语料集均相关的函数值,(xi;yi)代表训练语料集中的第i个语料对,xi是第i个语料对中的源端文本,yi是第i个语料对中的目标端文本,xi和yi的语种不同但具有相同或相似的语义,p(yi|xi;θ)代表NMT模型θ将源端文本xi映射至目标端文本yi的条件概率,logp(yi|xi;θ)代表上述条件概率的对数值。
在基于反向翻译的NMT训练方式下,涉及到伪语料生成和参数训练两个阶段,在伪语料生成阶段,先训练得到一个反向NMT模型p(x|y;π),反向NMT模型用于将目标端文本y翻译至源端文本x,π代表反向NMT模型的模型参数集合,p(x|y;π)则代表利用反向NMT模型将目标端文本y翻译至源端文本x的条件概率,也代表了反向NMT模型从目标端文本y到源端文本x的翻译映射;接着,通过反向NMT模型p(x|y;π),对目标端的单语语料y∈M反向翻译得到源端的伪语料例如对目标端语料集M中第j个单语语料yj∈M,通过反向NMT模型p(x|y;π)反向翻译得到伪语料源端伪语料和目标端语料yj∈M可以构成一对伪双语语料接着,重复上述操作得到多对伪双语语料后,将这些伪双语语料与真实双语语料结合,构建训练语料集,在同时包含伪双语语料和真实双语语料的训练语料集上训练正向NMT模型,训练目标为最小化如下公式所示的目标函数:
其中,是指传统NMT训练方式的目标函数,则代表由于反向翻译训练方式在目标函数中额外考虑的损失项,表征了使用正向NMT模型θ将源端伪语料映射至目标端真实语料y的条件概率,M代表由目标端真实单语语料构成的语料集。
进一步的,在无监督学习中,最大化边际概率是无监督学习的重要原则,使用最大化边际概率的原则来重新考察上述基于反向翻译的NMT训练过程,对每个目标端的单语语料y,边际概率能够从贝叶斯公式和詹森不等式中得出,将边际概率结合至上述基于反向翻译的NMT训练过程的目标函数,最终得到如下不等式关系:
其中,p(x)是源端语料x服从的分布,p(y;θ)是经过正向NMT模型θ从源端语料x翻译得到的目标端语料y服从的分布,p(x|y)是反向NMT模型,p(y|x;θ)是正向NMT模型,log代表取对数的运算操作,代表对服从p(·|y)分布的源端语料x求其后{}内的算式的数学期望。
可以看出,对数项logp(y|x;θ)与传统NMT训练方式下的目标函数相同,除此以外的区别在于,对该对数项logp(y|x;θ)还额外施加了一个乘法因子假设使用反向NMT模型p(x|y;π)来估计该乘法因子的分母p(x|y),此时的乘法因子可以表示为该乘法因子即为下述各个实施例中涉及的重要性系数,而该对数项logp(y|x;θ)则为下述各个实施例中涉及的质量系数。
从理论上来讲,如果伪语料的翻译质量越高,则能够提供越丰富的训练信号,那么质量系数也就会越高;如果伪语料所承载信息的重要程度越高,则伪语料可能在翻译质量不高的情况下提供充足的重要信息,那么重要性系数也就会越高。通过平衡上述质量系数和重要性系数能够有利于在基于反向翻译训练正向NMT模型的过程中,进一步提升训练所得正向NMT模型的翻译性能。
在一些实施例中,为了测量伪语料的质量系数由于伪语料的翻译质量越高,会导致质量系数越高,而反向NMT模型的翻译性能越好,使用反向NMT模型翻译得到的伪语料的翻译质量也会越高,因此,可使用伪语料自身的BLEU值或者反向NMT模型的BLEU值来估计伪语料的质量系数其中,BLEU值是一种用于评价NMT模型的翻译性能的指标,BLEU值越大则表征翻译性能越好,BLEU值越小则表征翻译性能越差。
在一些实施例中,为了测量伪语料的重要性系数可以使用单语模型p(x;ω)的似然值来估计上述重要性系数的分子p(x),其中ω代表源端单语语料x的单语语言模型的模型参数集合,并使用反向NMT模型p(x|y;π)的似然值来估计上述重要性系数的分母p(x|y),因此,对整个重要性系数的估算过程可以近似为:
在一个示例性场景中,采取基于反向翻译的NMT训练方式,训练得到英译德方向的正向NMT模型,可知在训练过程中会使用到德译英方向的反向NMT模型来生成英语伪语料针对上述反向NMT模型在WMT14验证集上进行测试,得到伪语料自身的反向NMT模型的测试性能Test BLEU、反向NMT模型的对数似然值进一步的,使用估算反向NMT模型生成的伪语料的质量系数使用对数似然值估算反向NMT模型的重要性系数
通过上述训练方式和估算方式,在WMT14验证集上对德译英方向的反向NMT模型进行测试,测试得到的各项指标如下表1所示:
表1
其中,在反向NMT模型生成伪语料时可以采用不同的翻译方式,上述表1中涉及以下几种翻译方式:A)随机采样,指向反向NMT模型输入一个目标端语料y,从反向NMT模型给出的候选译文中随机采样得到一个源端伪语料B)波束搜索,指向反向NMT模型输入一个目标端语料y,从反向NMT模型给出的候选译文中使用波束搜索方式查找到上下文匹配程度更高的源端伪语料通常波束搜索产生的源端伪语料具有更高的翻译性能;C)添加噪声的波束搜索,指在使用上述B)中波束搜索产生源端伪语料的过程中,向源端伪语料的分词Token中添加随机噪声的翻译方式。
经表1分析可知,对反向NMT模型来说,波束搜索方式的远高于随机采样方式的但波束搜索方式的Imp.远低于随机采样方式的Imp.,这意味着:使用波束搜索方式产生的伪语料总是具有很好的翻译质量,但其重要性系数Imp.通常比较低;与之对应的是,使用随机采样方式生成的伪语料总是具有较差的翻译质量,但其却通常具有较好的重要性系数Imp.。
同理,使用与上述类似的方式,在WMT14验证集上分别对英译德方向和俄译英方向的反向NMT模型也进行测试,测试得到的各项指标如下表2所示:
表2
经表2分析可知,对反向NMT模型来说,不管是在英译德方向还是俄译英方向上,均具有与德译英方向总结过的类似特性,即:使用波束搜索方式产生的伪语料总是具有很好的翻译质量,但其重要性系数Imp.通常比较低;与之对应的是,使用随机采样方式生成的伪语料总是具有较差的翻译质量,但其却通常具有较好的重要性系数Imp.。
在一些实施例中,由于波束搜索方式能够产生高翻译质量的伪语料而随机采样方式则能够产生高重要性系数的伪语料假设通过控制伪语料中使用波束搜索和随机采样的比例,以达到生成同时具有高翻译质量和高重要性权重的目的。有鉴于此,涉及一种数据整合方式,数据整合方式是指针对目标端语料集M,控制第0~k个单语语料y采用波束搜索方式来生成各自的伪语料控制第k~|M|个单语语料y采用随机采样方式来生成各自的伪语料其中|M|表征目标端语料集M的样本容量。示意性地,数据整合方式通过下述公式进行建模:
其中,Mc表征通过数据整合方式获取到的伪双语语料对,表征通过波束搜索方式获取到的伪双语语料对,yi表征目标端语料集M中的第i个单语语料,表征通过反向NMT模型对yi使用波束搜索方式产生的伪语料,i为大于或等于0且小于k的整数,表征通过随机采样方式获取到的伪双语语料对,yi表征目标端语料集M中的第i个单语语料,表征通过反向NMT模型对yi使用随机采样方式产生的伪语料,i为大于或等于k且小于或等于|M|的整数,|M|表征目标端语料集M的样本容量(也等于总共产生的伪语料的数量),k是超参数γ与|M|的乘积向下取整所得的数值,表征对γ|M|执行向下取整操作,即获取小于或等于γ|M|的最大整数。
需要说明的是,虽然数据整合方式较容易实现,但由于伪语料是通过综合了波束搜索和随机采样两种方式产生的,这代表数据整合方式得到的伪语料的平均质量系数必然低于波束搜索方式,同理,平均重要性系数也必然低于随机采样方式。
综上所述,通过从半监督学习的边际概率出发,推导得到目标函数的下界之后,基于推导得到的目标函数的下界,从理论角度找到了控制伪语料对模型训练起作用的两个系数:质量系数和重要性系数,质量系数和重要性系数对于最大化目标函数下界是至关重要的。由于质量系数和重要性系数本身是互斥的,如果只考虑提升其中某个系数则必然会导致另一个系数下降,有鉴于此,本申请实施例提供一种插值方法来平衡质量系数和重要性系数,使得反向NMT模型生成的伪语料能够尽可能地具有高质量系数和高重要性系数,进而使用这样生成的伪语料来训练正向NMT模型后,能够最大限度的提升正向NMT模型的翻译性能,下面将对插值方法获取伪语料的过程进行详细说明。
图2是本申请实施例提供的一种文本获取方法的流程图。参见图2,该实施例由计算机设备执行,计算机设备可以是上述实施环境中的终端101或服务器102,以计算机设备为服务器102为例进行说明,该实施例包括下述步骤:
201、服务器基于第一语种的任一原始文本,翻译得到第二语种的多个候选文本,该原始文本与该候选文本的语义相关联。
其中,原始文本是指待翻译文本,候选文本是指针对原始文本翻译得到的任一候选的译文,原始文本和候选文本具有相同或相似的语义,但两者属于不同的语种,这里以原始文本为第一语种、候选文本为第二语种为例进行说明,第一语种和第二语种是互不相同的语种。
示意性地,在基于反向翻译的NMT训练场景下,由于在训练正向NMT模型之前,需要利用预先训练好的反向NMT模型来生成伪语料,本申请实施例涉及的文本获取方式,可视为是利用反向NMT模型来获取伪语料的过程,在这一过程中,第一语种是指目标语言(Target,目标端),第二语种是指源语言(Source,源端),正向NMT模型用于将输入文本从第二语种翻译至第一语种(源端到目标端),反向NMT模型则用于将输入文本从第一语种翻译至第二语种(目标端到源端)。
在一些实施例中,服务器从语料样本库中获取第一语种的单语语料集,从该单语语料集中获取任一该第一语种的原始文本,例如,从英语单语语料集中随机选取得到一个英语原始文本。接着,服务器将该原始文本输入到反向翻译模型中,通过反向翻译模型将该原始文本从第一语种翻译成第二语种,产生多个可供选择的候选文本,这些候选文本均是与该原始文本具有语义上的关联关系的译文,需要说明的是,在语义上具有关联关系是指:原始文本与候选文本的语义相同或者相似,例如,原始文本与候选文本的语义相似度大于相似度阈值,或者,原始文本与候选文本的语义符合某种相似条件,本申请实施例对此不进行具体限定。
在一些实施例中,上述原始文本是从本地存储的语料样本库中获取的,或者,上述原始文本是从云端存储的语料样本库中获取的,本申请实施例对原始文本的来源不进行具体限定。
在一些实施例中,服务器获取到第一语种的原始文本之后,将该原始文本输入到反向翻译模型即反向NMT模型中,通过反向NMT模型中的编码器-解码器框架,对原始文本进行先编码后解码的处理,以预测得到与该原始文本的语义关联但语种不同的多个候选文本。其中,该反向NMT模型用于将输入文本从第一语种翻译至第二语种。关于反向NMT模型的翻译过程将在下一实施例中详细说明,这里不做赘述。
202、服务器获取该多个候选文本各自的质量系数和重要性系数,该质量系数表征该候选文本的翻译质量,该重要性系数表征该候选文本所承载信息的重要程度。
本申请实施例涉及的质量系数,是用于衡量候选文本的翻译质量的量化指标,示意性地,质量系数与翻译质量呈正相关,比如,质量系数取值越高时,代表从原始文本翻译得到的候选文本的翻译质量越高,也反映了候选文本与原始文本的匹配程度或语义相似度越高,或者候选文本中各个字符的上下文联系越紧密,或者候选文本中存在的语法错误越少等;反之,质量系数取值越低时,代表从原始文本翻译得到的候选文本的翻译质量越低,也反映了候选文本与原始文本的匹配程度或语义相似度越低,或者候选文本中各个字符的上下文联系越不紧密,或者候选文本中存在的语法错误越多等。
本申请实施例涉及的重要性系数,是用于衡量候选文本所承载信息的重要程度的量化指标,这一重要程度能够用来指示候选文本在充当伪语料训练正向NMT模型时能够对模型性能的优化提升起到多大贡献,示意性地,重要性系数与候选文本所承载信息的重要程度呈正相关,比如,重要性系数取值越高时,候选文本所承载信息的重要程度越高,反映了在将候选文本作为伪语料投入到正向NMT模型的训练过程时会发挥越重要的作用;反之,重要性系数取值越低时,候选文本所承载信息的重要程度越低,反映了在将候选文本作为伪语料投入到正向NMT模型的训练过程时会起到的作用越小。
在一些实施例中,对该多个候选文本中的每个候选文本,服务器都获取该候选文本的质量系数和重要性系数。下面,将对质量系数和重要性系数的获取方式分别进行说明。
可选地,在获取质量系数的过程中,由于候选文本的翻译质量越高,候选文本的质量系数就越高,而BLEU是一种用于衡量翻译质量的性能指标,因此可以使用候选文本的BLEU值来表征该候选文本的质量系数;或者,由于反向NMT模型的翻译性能越好,通过反向NMT模型翻译输出的候选文本的翻译质量越高,候选文本的质量系数就越高,因此还可以使用反向NMT模型的BLEU值来表征该候选文本的质量系数;或者,由于反向NMT模型的似然值表征了反向NMT模型的翻译质量,反向NMT模型的似然值越大,代表反向NMT模型翻译得到的候选文本的翻译质量越好,候选文本的质量系数就越高,因此还可以使用反向NMT模型的似然值来表征该候选文本的质量系数,本申请实施例对质量系数的表征方式不进行具体限定。
例如,对任一候选文本使用候选文本自身的BLEU值即来作为候选文本的质量系数,或者,使用反向NMT模型的测试性能Test BLEU来作为候选文本的质量系数,或者,使用反向NMT模型的似然值或对数似然值来作为候选文本的质量系数。
可选地,使用单语模型p(x;ω)的似然值来表征上述重要性系数的分子p(x),其中ω代表参考文本x的单语语言模型的模型参数集合,并使用反向NMT模型p(x|y;π)的似然值来表征上述重要性系数的分母p(x|y),因此,对整个重要性系数的获取过程可以表征为:
在另一些实施例中,由于取反向NMT模型p(x|y;π)的似然值或对数似然值不影响重要性系数的整个分式的变化趋势,因此,对任一候选文本获取候选文本在单语模型p(x;ω)的似然值并获取候选文本在反向NMT模型p(x|y;π)的对数似然值将除以得到候选文本的重要性系数
203、服务器基于该质量系数和该重要性系数,从该多个候选文本中筛选得到目标候选文本。
在一些实施例中,在使用数据整合方式时,服务器可以确定原始文本y在第一语种的单语语料集中的语料序号i,假设第一语种的单语语料集表征为M,单语语料集M的样本容量即单语语料集M中所包含的原始文本y的数量为|M|,那么,在技术人员预先设定了超参数γ的情况,可以将样本容量|M|与超参数γ的乘积向下取整得到分界值当原始文本y的语料序号i大于或等于0且小于k的时候,选取质量系数最大的候选文本作为目标候选文本,当原始文本y的语料序号i大于或等于k且小于或等于|M|的时候,选取重要性系数最大的候选文本作为目标候选文本。
在另一些实施例中,除了数据整合方式以外,本申请实施例还提供一种基于Gamma插值来筛选目标候选文本的方式,这一筛选方式能够平衡质量系数和重要性系数,从而显著提升筛选得到的目标候选文本的样本质量,在使用目标候选文本和原始文本构成的语料对来训练正向NMT模型中发挥更强的作用,以进一步显著提升正向NMT模型的翻译性能,上述基于Gamma插值来筛选目标候选文本的方式将在下一实施例中详细说明,这里不做赘述。
上述所有可选技术方案,能够采用任意结合形成本公开的可选实施例,在此不再一一赘述。
本申请实施例提供的方法,通过对第一语种的原始文本翻译得到第二语种的多个候选文本,并根据每个候选文本的质量系数和重要性系数来筛选得到目标候选文本,由于通过质量系数考虑到了候选文本的翻译质量,通过重要性系数考虑到了候选文本所承载信息的重要程度,从而在两个系数的作用下能够筛选得到兼顾了翻译质量和承载信息的重要程度的目标候选文本,有利于生成同时具有高翻译质量和高重要性系数的目标候选文本,这些筛选得到的目标候选文本能够在投入正向NMT模型的训练阶段时发挥更大的作用,从而有利于最大化程度提高正向NMT模型的翻译性能。
在本申请实施例中,涉及的筛选的目标候选文本的方式,提供了广义的针对基于反向翻译的NMT训练方式下伪语料(即目标候选文本)的获取方式,能够很好地平衡生成的伪语料的质量系数和重要性系数,从而为后续利用伪语料训练正向NMT模型提供理论指导,并且还可以利用伪语料来训练其他需要反向翻译的NLP应用,比如,NLP应用包括翻译风格化、NLP复述训练等,本申请实施例对此不进行具体限定。
在上述实施例中,简单介绍了本申请实施例涉及的文本获取方法的处理流程,而在本申请实施例中,将详细介绍如何翻译得到各个候选文本、如何筛选得到目标候选文本,下面进行说明。
图3是本申请实施例提供的一种文本获取方法的流程图。参见图3,该实施例由计算机设备执行,计算机设备可以是上述实施环境中的终端101或服务器102,以计算机设备为服务器102为例进行说明,该实施例包括下述步骤:
301、服务器将第一语种的任一原始文本输入到反向翻译模型,通过该反向翻译模型,以随机采样方式翻译得到第二语种的多个候选文本,该原始文本与该候选文本的语义相关联。
其中,原始文本是指待翻译文本,候选文本是指针对原始文本翻译得到的任一候选的译文,原始文本和候选文本具有相同或相似的语义,但两者属于不同的语种,这里以原始文本为第一语种、候选文本为第二语种为例进行说明,第一语种和第二语种是互不相同的语种。
在一些实施例中,服务器从语料样本库中获取第一语种的单语语料集,从该单语语料集中获取任一该第一语种的原始文本,例如,从英语单语语料集中随机选取得到一个英语原始文本。
在一些实施例中,上述原始文本是从本地存储的语料样本库中获取的,或者,上述原始文本是从云端存储的语料样本库中获取的,本申请实施例对原始文本的来源不进行具体限定。
在一些实施例中,该反向翻译模型用于将输入文本从该第一语种翻译至该第二语种,该反向翻译模型可以是任一基于神经网络的、从第一语种翻译至第二语种的NMT模型,在后续步骤中该反向翻译模型也被称为反向NMT模型;与之对应的是,正向翻译模型用于将输入文本从该第二语种翻译至该第一语种,该正向翻译模型可以是任一基于神经网络的、从第二语种翻译至第一语种的NMT模型,在后续步骤中该正向翻译模型也被称为正向NMT模型。
示意性地,在基于反向翻译的NMT训练场景下,由于在训练正向NMT模型之前,需要利用预先训练好的反向NMT模型来生成伪语料,本申请实施例涉及的文本获取方式,可视为是利用反向NMT模型来获取伪语料的过程,在这一过程中,第一语种是指目标语言(Target,目标端),第二语种是指源语言(Source,源端),正向NMT模型用于将输入文本从第二语种翻译至第一语种(源端到目标端),反向NMT模型则用于将输入文本从第一语种翻译至第二语种(目标端到源端)。
在一些实施例中,服务器在获取到该第一语种的原始文本之后,将该原始文本输入到反向翻译模型即反向NMT模型中,通过反向NMT模型中的编码器-解码器框架,对原始文本进行先编码后解码的处理,以预测得到与该原始文本的语义关联但语种不同的多个候选文本,这些候选文本均是与该原始文本具有语义上的关联关系的译文,需要说明的是,在语义上具有关联关系是指:原始文本与候选文本的语义相同或者相似,例如,原始文本与候选文本的语义相似度大于相似度阈值,或者,原始文本与候选文本的语义符合某种相似条件,本申请实施例对此不进行具体限定。
在一些实施例中,以反向NMT模型为Transformer模型为例进行说明。Transformer翻译模型采用基于SAN网络的编码器-解码器框架,包括嵌入(Embedding)模块、编码(Encoder)模块、解码(Decoder)模块和输出模块,属于主流的序列到序列生成的模型结构。
服务器先对原始文本进行分词(Tokenize)处理,得到该原始文本的字符序列,将该原始文本的字符序列输入到嵌入模块中,通过嵌入模块对该原始文本的字符序列进入嵌入处理,得到该原始文本的嵌入向量序列,此外,对该原始文本的字符序列中各个字符的位置信息进行编码,得到该原始文本的位置编码向量,其中,该原始文本的位置编码向量用于表征各个字符在原始文本中的位置先后顺序信息。将该原始文本的嵌入向量序列以及该位置编码向量在拼接(Concat)后输入到编码模块中。
编码模块由N个编码器级联而成(例如,N=6个编码器级联而成),每个编码器内部又包括一个多头注意力(Multi-Head Attention)层和一个前馈神经网络(Feed ForwardNeural Network)层,多头注意力层用于从多个表达子空间中综合提取原始文本内各字符之间的关联关系,前馈神经网络层用于对多头注意力层输出的特征向量进行全连接,在多头注意力层和前馈神经网络层之后均设置有残差结构,也即将当前层的输入与输出进行残差连接(即拼接)并归一化之后再输入到下一层中。其中,N代表级联的编码器的数量。
在将该原始文本的嵌入向量序列以及该位置编码向量在拼接(Concat)后输入到编码模块之后,通过该编码模块中的N个编码器对输入的向量进行编码,由最后一个编码器输出该原始文本的语义向量序列。
解码模块由N个解码器级联而成(例如,N=6个解码器级联而成),每个解码器内部又包括一个掩码多头注意力层、一个融合多头注意力层和一个前馈神经网络层,掩码多头注意力层与多头注意力层类似,但仅关注当前时刻之前的翻译结果,因此需要对当前时刻之后的翻译结果进行Mask(遮挡)处理,而融合多头注意力层也与多头注意力层也类似,但融合多头注意力层除了以本解码器的掩码多头注意力层的输出为输入之外,还以对应序号的编码器的前馈神经网络层的输出(指经过残差连接及归一化的结果)作为输入,这一设计是用于关注编码器的编码信息,换一种说法,解码器通过查看编码器的输出和对其自身输出的自注意力,来预测候选文本中的下一个字符,解码器的前馈神经网络层与编码器的前馈神经网络层类似,这里不做赘述,同理解码器的掩码多头注意力层、融合多头注意力层、前馈神经网络层之后也均设置有残差结构,也即将当前层的输入与输出进行残差连接(即拼接)并归一化之后再输入到下一层中。其中,N代表级联的解码器的数量,也即是说,级联的编码器的数量与级联的解码器的数量需要保持一致。
在将编码模块中最后一个编码器输出的该原始文本的语义向量序列输入到解码模块之后,通过该解码模块中的N个解码器对该原始文本的语义向量序列进行解码,由最后一个解码器输出最终的隐向量序列。
输出模块包括一个线性(Linear)层和一个指数归一化(Softmax)层,能够将解码模块输出的隐向量序列中的各个隐向量映射为候选文本中的各个字符,这些依次预测得到的字符将组成候选文本。
其中,线性层是一个全连接层,全连接层的维度为第二语种词库所包含的所有的字符数目,而在指数归一化层中能够将隐向量序列中每个隐向量映射成该隐向量分别与第二语种词库中每个字符的匹配概率,该匹配概率用于表示当前时刻下的隐向量映射至第二语种词库中的每个字符的可能性。
在一些实施例中,在通过Softmax层获取到当前时刻下的隐向量分别与第二语种词库中每个字符的匹配概率之后,可以通过多种不同的采样方式来获取候选文本,每种采样方式都能够获取到一个或多个候选文本,上述采样方式包括随机采样方式、top K采样方式、贪婪算法方式、波束搜索方式等,本申请实施例对此不进行具体限定。
可选地,在随机采样方式下,对每个时刻的隐向量,都在各个匹配概率所服从的概率分布下进行随机采样,得到候选文本中对应时刻下输出的字符,重复执行上述操作,直到输出了候选文本中的所有字符。比如,假设对t=0时刻的隐向量,预测出来与字符A的匹配概率为80%,与字符B的匹配概率为10%,与字符C的匹配概率为5%,与字符D的匹配概率为5%,与其余字符的匹配概率均为0%,那么在随机采样过程中,有80%的概率将候选文本中t=0时刻的字符输出为字符A,有10%的概率将候选文本中t=0时刻的字符输出为字符B,有5%的概率将候选文本中t=0时刻的字符输出为字符C或D。
可选地,在top K采样方式下,对每个时刻的隐向量,都选取出匹配概率最大top K个字符,并在top K个字符中随机选择一个作为候选文本中对应时刻下输出的字符,重复执行上述操作,直到输出了候选文本中的所有字符。K为预先设定的大于或等于1的数值。
可选地,在贪婪算法方式下,总是选取匹配概率最大的字符作为候选文本中对应时刻的输出,这时针对给定的原始文本,反向NMT模型将会输出一个确定性的候选文本,这一候选文本中每个字符都是在对应时刻下与隐向量的匹配概率最大的字符。
可选地,在波束搜索方式下,对每个时刻的隐向量,都会筛选得到匹配概率最大的M(M称为波束宽度,是一个超参数)个字符,并从M个字符中剔除与历史输出之间上下文不匹配的字符,重复执行上述操作,直到输出了候选文本中所有字符,这些字符之间将会具有比较紧密的上下文联系。
在本申请实施例中,以反向NMT模型仅使用随机采样方式得到多个候选文本为例进行说明,即上述步骤301提供了基于第一语种的任一原始文本,翻译得到第二语种的多个候选文本的一种可能实施方式,在另一些实施例中,在获取多个候选文本时,可以采取一种或多种采样方式(如随机采样方式、top K采样方式、贪婪算法方式、波束搜索方式等),每种采样方式都会产生一个或多个候选文本,汇总所有采样方式所得的多个候选文本,即获取到了利用反向NMT模型翻译得到的多个候选文本,本申请实施例不对候选文本的获取方式进行具体限定。
302、对该多个候选文本中的任一候选文本,服务器获取该候选文本的初始质量系数和初始重要性系数。
在一些实施例中,对任一候选文本,服务器使用上述实施例中步骤202中介绍的方式来获取初始质量系数和初始重要性系数,需要说明的是,上述步骤202是将获取到的初始质量系数和初始重要性系数分别作为最终的质量系数和重要性系数,而在本申请实施例中,通过下述步骤303对初始质量系数进行归一化以得到质量系数,同理,通过下述步骤304对初始重要性系数进行归一化以得到重要性系数。
示意性地,对任一候选文本使用候选文本自身的BLEU值即来作为候选文本的初始质量系数,或者,使用反向NMT模型的测试性能Test BLEU来作为候选文本的初始质量系数,或者,使用反向NMT模型的似然值或对数似然值来作为候选文本的初始质量系数。
示意性地,对任一候选文本获取候选文本在单语模型p(x;ω)的似然值并获取候选文本在反向NMT模型p(x|y;π)的似然值将除以得到候选文本的初始重要性系数或者,获取候选文本在单语模型p(x;ω)的似然值并获取候选文本在反向NMT模型p(x|y;π)的对数似然值将除以得到候选文本的初始重要性系数
303、服务器基于该候选文本的文本长度,对该初始质量系数进行归一化,得到该候选文本的质量系数,该质量系数表征该候选文本的翻译质量。
其中,该文本长度表征该候选文本所包含的字符数量。
在一些实施例中,服务器通过步骤302能够获取到每个候选文本的初始质量系数;接着,对每个候选文本的初始质量系数取对数值,即可得到每个候选文本的初始质量系数的对数质量系数,换言之,该对数质量系数为该初始质量系数的对数值;接着,基于该多个候选文本各自的该初始质量系数的对数质量系数,获取该对数质量系数的第一均值和第一方差。
示意性地,假设使用随机采样的方式,对每个第一语种的原始文本y,都生成N个第二语种的候选文本在获取到每个候选文本的初始质量系数之后,进一步的,获取每个候选文本的对数质量系数进一步的,对N个候选文本各自的对数质量系数求算数平均值,得到第一均值μp,对N个候选文本各自的对数质量系数求方差,得到第一方差σp。
可选地,第一均值μp和第一方差σp的表达式分别如下:
其中,i为大于或等于1且小于或等于N的整数,N为大于或等于2的整数。
在一些实施例中,在获取到每个候选文本的对数质量系数之后,还获取到每个候选文本的文本长度,接着,对每个候选文本,将该候选文本的对数质量系数除以该候选文本的文本长度,得到该候选文本的归一化质量系数。
在一些实施例中,在获取到第一均值、第一方差以及每个候选文本的归一化质量系数之后,对每个候选文本,将该候选文本的归一化质量系数与该第一均值相减所得的数值除以该第一方差,得到该候选文本最终的质量系数。
示意性地,对第i(1≤i≤N)个候选文本获取候选文本的归一化质量系数之后,将该归一化质量系数与该第一均值μp相减,得到一个差值再将该差值除以该第一方差σp,得到候选文本最终的质量系数质量系数的表达式如下:
在上述过程中,提供了一种利用候选文本的文本长度,对初始质量系数进行归一化的方式,经过归一化所得的质量系数可以投入到获取选择权重系数的过程中,使得选择权重系数能够形成一个概率分布,以便于后续在选择权重系数构成的概率分布上进行随机采样,在另一些实施例中,若无需在选择权重系数构成的概率分布上进行随机采样,也可以不对质量系数进行归一化,直接利用初始质量系数来获取选择权重系数,本申请实施例对此不进行具体限定。
304、服务器基于该候选文本的文本长度,对该初始重要性系数进行归一化,得到该候选文本的重要性系数,该重要性系数表征该候选文本所承载信息的重要程度。
其中,该文本长度表征该候选文本所包含的字符数量。
在一些实施例中,服务器通过步骤302能够获取到每个候选文本的初始重要性系数;接着,对每个候选文本的初始重要性系数取对数值,即可得到每个候选文本的初始重要性系数的对数重要性系数,换言之,该对数重要性系数为该初始重要性系数的对数值;接着,基于该多个候选文本各自的该初始重要性系数的对数重要性系数,获取该对数重要性系数的第二均值和第二方差。
示意性地,假设使用随机采样的方式,对每个第一语种的原始文本y,都生成N个第二语种的候选文本在获取到每个候选文本的初始重要性系数之后,进一步的,获取每个候选文本的对数重要性系数进一步的,对N个候选文本各自的对数重要性系数求算数平均值,得到第二均值μImp,对N个候选文本各自的对数重要性系数求方差,得到第二方差σImp。
可选地,第二均值μImp和第二方差σImp的表达式分别如下:
其中,i为大于或等于1且小于或等于N的整数,N为大于或等于2的整数。
在一些实施例中,在获取到每个候选文本的对数重要性系数之后,还获取到每个候选文本的文本长度,接着,对每个候选文本,将该候选文本的对数重要性系数除以该候选文本的文本长度,得到该候选文本的归一化重要性系数。
在一些实施例中,在获取到第二均值、第二方差以及每个候选文本的归一化重要性系数之后,对每个候选文本,将该候选文本的归一化重要性系数与该第二均值相减所得的数值除以该第二方差,得到该候选文本最终的重要性系数。
示意性地,对第i(1≤i≤N)个候选文本获取候选文本的归一化重要性系数之后,将该归一化重要性系数与该第二均值μImp相减,得到一个差值再将该差值除以该第二方差σImp,得到候选文本最终的重要性系数重要性系数的表达式如下:
在上述过程中,提供了一种利用候选文本的文本长度,对初始重要性系数进行归一化的方式,经过归一化所得的重要性系数可以投入到获取选择权重系数的过程中,使得选择权重系数能够形成一个概率分布,以便于后续在选择权重系数构成的概率分布上进行随机采样,在另一些实施例中,若无需在选择权重系数构成的概率分布上进行随机采样,也可以不对重要性系数进行归一化,直接利用初始重要性系数来获取选择权重系数,本申请实施例对此不进行具体限定。
在上述步骤303-304中,提供了获取该至少一个候选文本各自的质量系数和重要性系数的一种可能实施方式,即通过候选文本的文本长度,能够对每个候选文本各自的初始质量系数和初始重要性系数分别进行归一化,得到每个候选文本的质量系数和重要性系数,在另一些实施例中,可以使用上一实施例中步骤202涉及的方式,即不利用文本长度进行归一化,直接将初始质量系数和初始重要性系数作为最终的质量系数和重要性系数投入到后续处理流程中,本申请实施例不对是否对初始质量系数和初始重要性系数执行归一化操作进行具体限定。
305、服务器确定第一调整因子与该候选文本的重要性系数相乘所得的第一数值。
其中,第一调整因子在技术人员在服务器侧预先设定好的超参数,例如,第一调整因子表示为γ,那么由于第二调整因子与第一调整因子相加等于1,下述步骤306中涉及的第二调整因子可以由第一调整因子获取得到,即,第二调整因子为1减去第一调整因子所得的数值,第二调整因子表示为(1-γ)。
306、服务器确定第二调整因子与该候选文本的质量系数相乘所得的第二数值,该第二调整因子与该第一调整因子相加等于1。
其中,第二调整因子可以是技术人员在服务器侧预先设定好的超参数(须保证第一调整因子和第二调整因子的和值为1),或者,第二调整因子是基于技术人员预先设定好的第一调整因子自动配置的数值,比如,技术人员预先设定好第一调整因子γ之后,将1减去第一调整因子γ所得的数值获取为第二调整因子(1-γ),本申请实施例对第二调整因子的来源不进行具体限定。
307、服务器将该第一数值和该第二数值相加,得到第三数值。
在一些实施例中,服务器对每个候选文本都能够通过上述步骤305获取到一个第一数值,通过上述步骤306获取到一个第二数值,将该候选文本的第一数值和第二数值相加,得到该候选文本的第三数值。
308、服务器基于该候选文本的第三数值和其他候选文本的第三数值,确定该候选文本的选择权重系数,该选择权重系数为平衡该质量系数和该重要性系数的筛选指标。
其中,该其他候选文本为该原始文本翻译得到的除了该候选文本之外的候选文本。
在一些实施例中,服务器以该候选文本的第三数值作为第一指数,获取自然底数的该第一指数次幂。
在一些实施例中,服务器对任一其他候选文本,以该其他候选文本的第三数值作为第二指数,获取自然底数的该第二指数次幂。
在一些实施例中,服务器将该自然底数的第一指数次幂和多个该自然底数的第二指数次幂相加,得到目标和值。
换一种表述,不管是对该候选文本还是对其他候选文本服务器都会在通过步骤307获取到了第三数值之后,以自然底数e为底数、以第三数值为指数,获取到自然底数的第三数值次幂,将所有候选文本(包括候选文本和每个其他候选文本)的第三数值次幂相加即可得到目标和值。
在一些实施例中,服务器将该自然底数的该第一指数次幂除以该目标和值,得到该候选文本的选择权重系数,该选择权重系数为平衡该质量系数和该重要性系数的筛选指标。
上述选择权重系数Γ(xi;ω,π)也被称为Gamma系数,由于第一调整因子γ和第二调整因子(1-γ)都是预先设定好的超参数,因此,对每个候选文本服务器都能够通过上述方式获取到一个选择权重系数Γ(xi;ω,π),这一选择权重系数Γ(xi;ω,π)可以投入到下述步骤309中,用于决策到底选择哪个候选文本作为目标候选文本。
在上述步骤305-308中,提供了基于该质量系数和该重要性系数,确定该多个候选文本各自的选择权重系数的一种可能实施方式,由于选择权重系数既考虑了质量系数也考虑了重要性系数,使得通过选择权重系数这单个指标就能够同时平衡候选文本的质量系数和重要性系数。
需要说明的是,由于上述Gamma系数能够平衡候选文本的质量系数和重要性系数,因此在Gamma系数的指导下,能够有利于筛选得到同时具有高翻译质量和高重要性系数的目标候选文本,这一通过Gamma系数来评价目标候选文本的综合质量的过程可以表示为下述公式:
进一步的,由于质量系数和重要性系数本质上是互斥的,并且反向NMT模型也存在校准性的问题,因此单独考虑质量系数或者单独考虑重要性系数都会产生矛盾的结论,都无法筛选出综合质量最优的目标候选文本,因此通过本申请实施例提出的Gamma系数,能够以Gamma插值方式很好地平衡重要性系数和质量系数,从而能够简单而有效的筛选出综合质量最优的目标候选文本,并且筛选得到的目标候选文本在作为伪语料投入到正向NMT模型的训练阶段时,将会起到最大化提升NMT模型的翻译性能的作用。
309、服务器基于该多个候选文本各自的选择权重系数,从该多个候选文本中筛选得到目标候选文本。
在一些实施例中,服务器从该多个候选文本中,将该选择权重系数最大的候选文本确定为该目标候选文本,相当于提供了一种确定性选取方式来选取目标候选文本,即,对每个原始文本,都会选取一个选择权重系数最大的目标候选文本,由于选择权重系数也被称为Gamma系数,那么这一基于Gamma系数的确定性选取方式也被称为Gamma选择。
在另一些实施例中,服务器对每个候选文本都通过步骤308获取到选择权重系数之后,由于选择权重系数本身是相当于经过了Softmax进行指数归一化的筛选指标,代表了此时所有候选文本各自的选择权重系数相加等于1,相当于所有候选文本各自的选择权重系数是服从一个确定的概率分布的,且每个候选文本的选择权重系数代表了采样到该候选文本的选择概率,因此,服务器可以从该多个候选文本中,按照该选择权重系数所服从的概率分布,随机采样得到该目标候选文本。
例如,假设对某个第一语种的原始文本y,反向NMT模型输出了N个第二语种的候选文本N个候选文本各自的选择权重系数服从一个确定且可知的概率分布,那么可以按照该概率分布,基于选择权重系数进行随机采样,以获取到最终的目标候选文本,例如,假设第i(1≤i≤N)个候选文本的选择权重系数为90%,那么在筛选目标候选文本时,则有90%的概率选择第i个候选文本作为目标候选文本,当然也会存在小概率事件选择到其他候选文本,这使得整个目标候选文本的采样方式是具有一定随机性的。
在上述过程中,通过提供了一种随机性选取方式来选取目标候选文本,即,对每个原始文本,都有较大概率选择到选择权重系数较大的候选文本作为目标候选文本,但仍存在小概率事件选择到选择权重系数较小的候选文本作为目标候选文本,能够在筛选目标候选文本的过程中引入一定的随机性,由于选择权重系数也被称为Gamma系数,那么这一基于Gamma系数的随机性选取方式也被称为Gamma采样。
在上述步骤305-309中,提供了一种基于该质量系数和该重要性系数,从该多个候选文本中筛选得到目标候选文本的可能实施方式,即在获取到Gamma系数之后,可通过Gamma选择或Gamma采样两种方式来筛选目标候选文本,在另一些实施例中,也可以通过上一实施例中步骤203的描述来筛选目标候选文本,本申请实施例对目标候选文本的筛选方式不进行具体限定。
在一些实施例中,该原始文本和通过上述步骤309筛选得到的该目标候选文本能够构成一个语料对,重复执行上述步骤301-309能够获取到多个语料对,由于这些语料对中的候选文本并非人工标注的真实语料,而是由反向NMT模型进行机器翻译得到的伪语料,因此该多个语料对可以作为伪语料文本投入到正向翻译模型即正向NMT模型的训练过程中,换言之,该多个语料对可以用于训练正向NMT模型,其中,该正向NMT模型用于将输入文本从该第二语种翻译至该第一语种。
上述所有可选技术方案,能够采用任意结合形成本公开的可选实施例,在此不再一一赘述。
本申请实施例提供的方法,通过对第一语种的原始文本翻译得到第二语种的多个候选文本,并根据每个候选文本的质量系数和重要性系数来筛选得到目标候选文本,由于通过质量系数考虑到了候选文本的翻译质量,通过重要性系数考虑到了候选文本所承载信息的重要程度,从而在两个系数的作用下能够筛选得到兼顾了翻译质量和承载信息的重要程度的目标候选文本,有利于生成同时具有高翻译质量和高重要性系数的目标候选文本,这些筛选得到的目标候选文本能够在投入正向NMT模型的训练阶段时发挥更大的作用,从而有利于最大化程度提高正向NMT模型的翻译性能。
在本申请实施例中,涉及的筛选的目标候选文本的方式,提供了广义的针对基于反向翻译的NMT训练方式下伪语料(即目标候选文本)的获取方式,能够很好地平衡生成的伪语料的质量系数和重要性系数,从而为后续利用伪语料训练正向NMT模型提供理论指导,并且还可以利用伪语料来训练其他需要反向翻译的NLP应用,比如,NLP应用包括翻译风格化、NLP复述训练等,本申请实施例对此不进行具体限定。
下面,将分别对基于本申请实施例涉及的数据整合(Data Merge,DM)方式、Gamma选择方式和Gamma采样方式产生伪语料训练得到的NMT模型的测试性能进行展示。
针对数据整合方式,在WMT14德译英方向的验证集上进行测试,测试中涉及到了:基于传统NMT训练方式所得的正向NMT模型和基于反向翻译的NMT训练方式所得的正向NMT模型,其中,按照伪语料的产生方式的不同,基于反向翻译的NMT训练方式所得的正向NMT模型又涉及到:波束搜索方式产生伪语料、随机采样方式产生伪语料、数据整合方式产生伪语料,假设正向NMT模型为Transformer模型,通过上述4种不同训练方式所得的Transformer模型在WMT14德译英(De-En)方向的验证集上的测试结果如表3所示:
表3
其中,w/o bitext代表不使用真实双语语料仅使用伪双语语料作为训练语料集的情况,w bitext代表使用真实双语语料与伪双语语料混合作为训练语料集的情况。
在表3中,第一行Transformer是指:基于传统NMT训练方式训练得到的Transformer模型的BLEU值,即仅使用真实双语语料来训练得到的Transformer模型,由于传统NMT训练方式不会用到反向翻译生成伪双语语料,因此w/o bitext一栏是空的;第二行Beam BT是指:在使用波束搜索方式生成反向翻译的伪双语语料的情况下训练得到的Transformer模型的BLEU值;第三行Sampling BT是指:在使用随机采样方式生成反向翻译的伪双语语料的情况下训练得到的Transformer模型的BLEU值;第四行DM是指:在使用数据整合方式生成反向翻译的伪双语语料的情况下训练得到的Transformer模型的BLEU值。
可以看出,在不使用真实双语语料的情况下,相较于波束搜索方式和随机采样方式来说,数据整合方式能够显著提升NMT模型的翻译性能,取得略低于仅使用真实双语语料的情况下Transformer模型的BLEU值,但在使用真实双语语料和伪双语语料混合的情况下,数据整合方式不能带来明显提升,仅能够取得与随机采样方式差不多的额外收益。
进一步的,在上述测试的基础上,额外增加本申请实施例涉及的Gamma选择方式产生伪语料和Gamma采样方式产生伪语料的实验组,再次在WMT14德译英方向的验证集上进行测试,测试结果如表4所示:
表4
训练方式 | BLEU值 |
Transformer | 32.1 |
Beam BT | 32.7 |
Sampling BT | 34.1 |
DM+bitext | 34.2 |
Gamma sampling BT | 35.0* |
Gamma selection BT | 34.7* |
在表4中,第一行至第四行与表3中“w bitext”列下4种训练方式的BLEU取值保持一致,第五行Gamma sampling BT则代表了:在使用Gamma采样方式生成反向翻译的伪双语语料,并将伪双语语料与真实双语语料混合的情况下训练得到的Transformer模型的BLEU值,第六行Gamma selection BT则代表了:在使用Gamma选择方式生成反向翻译的伪双语语料,并将伪双语语料与真实双语语料混合的情况下训练得到的Transformer模型的BLEU值。
可以看出,本申请实施例涉及的Gamma选择方式和Gamma采样方式产生的伪语料,在投入到正向NMT模型的训练阶段后,能够有效提升正向NMT模型的翻译性能,且取得比原本波束搜索、随机采样和数据整合方式更大的收益,并且,相较于随机采样方式,Gamma采样方式最多能提升0.9个点的BLEU分数。
进一步的,采用与德译英方向同样的测试方案,在WMT14英译德方向和俄译英方向的验证集上再次进行测试,测试结果如表5所示:
表5
训练方式 | En-De | Ru-En |
Transformer | 27.4 | 34.1 |
Beam BT | 29.7 | 35.9 |
Sampling BT | 30.0 | 35.6 |
Gamma sampling BT | 31.0* | 36.1* |
Gamma selection BT | 30.9* | 36.3* |
从表5中可以看出,本申请实施例涉及的Gamma选择方式和Gamma采样方式产生的伪语料,在投入到正向NMT模型的训练阶段后,在英译德(En-De)方向和俄译英(Ru-En)方向也都能取得超过波束搜索方式和随机采样方式的效果。
综上所示,通过在德译英、英译德、俄译英三个方向的验证集上分别进行测试,验证了本申请实施例涉及的文本获取方式筛选得到的目标候选文本,在作为伪语料投入到正向NMT模型的训练阶段后,相较于波束搜索方式和随机采样方式,能够显著提升训练得到的NMT模型的翻译性能,从而本申请实施例涉及的文本获取方式,能够提供最大化程度提高NMT模型性能的伪语料文本。
图4是本申请实施例提供的一种文本获取装置的结构示意图,请参考图4,该装置包括:
翻译模块401,用于基于第一语种的任一原始文本,翻译得到第二语种的多个候选文本,该原始文本与该候选文本的语义相关联;
获取模块402,用于获取该多个候选文本各自的质量系数和重要性系数,该质量系数表征该候选文本的翻译质量,该重要性系数表征该候选文本所承载信息的重要程度;
筛选模块403,用于基于该质量系数和该重要性系数,从该多个候选文本中筛选得到目标候选文本。
本申请实施例提供的装置,通过对第一语种的原始文本翻译得到第二语种的多个候选文本,并根据每个候选文本的质量系数和重要性系数来筛选得到目标候选文本,由于通过质量系数考虑到了候选文本的翻译质量,通过重要性系数考虑到了候选文本所承载信息的重要程度,从而在两个系数的作用下能够筛选得到兼顾了翻译质量和承载信息的重要程度的目标候选文本,有利于生成同时具有高翻译质量和高重要性系数的目标候选文本,这些筛选得到的目标候选文本能够在投入正向NMT模型的训练阶段时发挥更大的作用,从而有利于最大化程度提高正向NMT模型的翻译性能。
在一些实施例中,基于图4的装置组成,该筛选模块403包括:
确定单元,用于基于该质量系数和该重要性系数,确定该多个候选文本各自的选择权重系数,该选择权重系数为平衡该质量系数和该重要性系数的筛选指标;
筛选单元,用于基于该选择权重系数,从该多个候选文本中筛选得到该目标候选文本。
在一些实施例中,基于图4的装置组成,该确定单元包括:
第一确定子单元,用于对任一该候选文本,确定第一调整因子与该候选文本的该重要性系数相乘所得的第一数值;
该第一确定子单元,还用于确定第二调整因子与该候选文本的质量系数相乘所得的第二数值,该第二调整因子与该第一调整因子相加等于1;
相加单元,用于将该第一数值和该第二数值相加,得到第三数值;
第二确定子单元,用于基于该候选文本的第三数值和其他候选文本的第三数值,确定该候选文本的该选择权重系数,该其他候选文本为该原始文本翻译得到的除了该候选文本之外的候选文本。
在一些实施例中,该第二确定子单元用于:
以该候选文本的第三数值作为第一指数,获取自然底数的该第一指数次幂;
对任一该其他候选文本,以该其他候选文本的第三数值作为第二指数,获取自然底数的该第二指数次幂;
将该自然底数的该第一指数次幂和多个该自然底数的该第二指数次幂相加,得到目标和值;
将该自然底数的该第一指数次幂除以该目标和值,得到该候选文本的该选择权重系数。
在一些实施例中,该筛选单元用于:
从该多个候选文本中,将该选择权重系数最大的候选文本确定为该目标候选文本。
在一些实施例中,该筛选单元用于:
从该多个候选文本中,按照该选择权重系数所服从的概率分布,随机采样得到该目标候选文本。
在一些实施例中,基于图4的装置组成,该获取模块402包括:
第一获取单元,用于对任一该候选文本,获取该候选文本的初始质量系数;
第一归一化单元,用于基于该候选文本的文本长度,对该初始质量系数进行归一化,得到该质量系数,该文本长度表征该候选文本所包含的字符数量。
在一些实施例中,该第一归一化单元用于:
基于该多个候选文本各自的该初始质量系数的对数质量系数,获取该对数质量系数的第一均值和第一方差,该对数质量系数为该初始质量系数的对数值;
将该候选文本的该对数质量系数除以该候选文本的文本长度,得到归一化质量系数;
将该归一化质量系数与该第一均值相减所得的数值除以该第一方差,得到该质量系数。
在一些实施例中,基于图4的装置组成,该获取模块402包括:
第二获取单元,用于对任一该候选文本,获取该候选文本的初始重要性系数;
第二归一化单元,用于基于该候选文本的文本长度,对该初始重要性系数进行归一化,得到该重要性系数,该文本长度表征该候选文本所包含的字符数量。
在一些实施例中,该第二归一化单元用于:
基于该多个候选文本各自的该初始重要性系数的对数重要性系数,获取该对数重要性系数的第二均值和第二方差,该对数重要性系数为该初始重要性系数的对数值;
将该候选文本的该对数重要性系数除以该候选文本的文本长度,得到归一化重要性系数;
将该归一化重要性系数与该第二均值相减所得的数值除以该第二方差,得到该重要性系数。
在一些实施例中,该翻译模块401用于:
将该原始文本输入到反向翻译模型,通过该反向翻译模型,以随机采样方式翻译得到该多个候选文本,该反向翻译模型用于将输入文本从该第一语种翻译至该第二语种。
在一些实施例中,该原始文本和该目标候选文本构成的语料对用于训练正向翻译模型,该正向翻译模型用于将输入文本从该第二语种翻译至该第一语种。
上述所有可选技术方案,能够采用任意结合形成本公开的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的文本获取装置在获取目标候选文本时,仅以上述各功能模块的划分进行举例说明,实际应用中,能够根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的文本获取装置与文本获取方法实施例属于同一构思,其具体实现过程详见文本获取方法实施例,这里不再赘述。
图5是本申请实施例提供的一种计算机设备的结构示意图,该计算机设备500可因配置或性能不同而产生比较大的差异,该计算机设备500包括一个或一个以上处理器(Central Processing Units,CPU)501和一个或一个以上的存储器502,其中,该存储器502中存储有至少一条计算机程序,该至少一条计算机程序由该一个或一个以上处理器501加载并执行以实现上述各个实施例提供的文本获取方法。可选地,该计算机设备500还具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该计算机设备500还包括其他用于实现设备功能的部件,在此不做赘述。
在一些实施例中,还提供了一种计算机可读存储介质,例如包括至少一条计算机程序的存储器,上述至少一条计算机程序可由终端中的处理器执行以完成上述各个实施例中的文本获取方法。例如,该计算机可读存储介质包括ROM(Read-Only Memory,只读存储器)、RAM(Random-Access Memory,随机存取存储器)、CD-ROM(Compact Disc Read-OnlyMemory,只读光盘)、磁带、软盘和光数据存储设备等。
在一些实施例中,还提供了一种计算机程序产品,包括一条或多条计算机程序,该一条或多条计算机程序存储在计算机可读存储介质中。计算机设备的一个或多个处理器能够从计算机可读存储介质中读取该一条或多条计算机程序,该一个或多个处理器执行该一条或多条计算机程序,使得计算机设备能够执行以完成上述实施例中的文本获取方法。
本领域普通技术人员能够理解实现上述实施例的全部或部分步骤能够通过硬件来完成,也能够通过程序来指令相关的硬件完成,可选地,该程序存储于一种计算机可读存储介质中,可选地,上述提到的存储介质是只读存储器、磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (16)
1.一种文本获取方法,其特征在于,所述方法包括:
基于第一语种的任一原始文本,翻译得到第二语种的多个候选文本,所述原始文本与所述候选文本的语义相关联;
获取所述多个候选文本各自的质量系数和重要性系数,所述质量系数表征所述候选文本的翻译质量,所述重要性系数表征所述候选文本所承载信息的重要程度;
基于所述质量系数和所述重要性系数,从所述多个候选文本中筛选得到目标候选文本。
2.根据权利要求1所述的方法,其特征在于,所述基于所述质量系数和所述重要性系数,从所述多个候选文本中筛选得到目标候选文本包括:
基于所述质量系数和所述重要性系数,确定所述多个候选文本各自的选择权重系数,所述选择权重系数为平衡所述质量系数和所述重要性系数的筛选指标;
基于所述选择权重系数,从所述多个候选文本中筛选得到所述目标候选文本。
3.根据权利要求2所述的方法,其特征在于,所述基于所述质量系数和所述重要性系数,确定所述多个候选文本各自的选择权重系数包括:
对任一所述候选文本,确定第一调整因子与所述候选文本的所述重要性系数相乘所得的第一数值;
确定第二调整因子与所述候选文本的质量系数相乘所得的第二数值,所述第二调整因子与所述第一调整因子相加等于1;
将所述第一数值和所述第二数值相加,得到第三数值;
基于所述候选文本的第三数值和其他候选文本的第三数值,确定所述候选文本的所述选择权重系数,所述其他候选文本为所述原始文本翻译得到的除了所述候选文本之外的候选文本。
4.根据权利要求3所述的方法,其特征在于,所述基于所述候选文本的第三数值和其他候选文本的第三数值,确定所述候选文本的所述选择权重系数包括:
以所述候选文本的第三数值作为第一指数,获取自然底数的所述第一指数次幂;
对任一所述其他候选文本,以所述其他候选文本的第三数值作为第二指数,获取自然底数的所述第二指数次幂;
将所述自然底数的所述第一指数次幂和多个所述自然底数的所述第二指数次幂相加,得到目标和值;
将所述自然底数的所述第一指数次幂除以所述目标和值,得到所述候选文本的所述选择权重系数。
5.根据权利要求2所述的方法,其特征在于,所述基于所述选择权重系数,从所述多个候选文本中筛选得到所述目标候选文本包括:
从所述多个候选文本中,将所述选择权重系数最大的候选文本确定为所述目标候选文本。
6.根据权利要求2所述的方法,其特征在于,所述基于所述选择权重系数,从所述多个候选文本中筛选得到所述目标候选文本包括:
从所述多个候选文本中,按照所述选择权重系数所服从的概率分布,随机采样得到所述目标候选文本。
7.根据权利要求1所述的方法,其特征在于,所述获取所述多个候选文本各自的质量系数包括:
对任一所述候选文本,获取所述候选文本的初始质量系数;
基于所述候选文本的文本长度,对所述初始质量系数进行归一化,得到所述质量系数,所述文本长度表征所述候选文本所包含的字符数量。
8.根据权利要求7所述的方法,其特征在于,所述基于所述候选文本的文本长度,对所述初始质量系数进行归一化,得到所述质量系数包括:
基于所述多个候选文本各自的所述初始质量系数的对数质量系数,获取所述对数质量系数的第一均值和第一方差,所述对数质量系数为所述初始质量系数的对数值;
将所述候选文本的所述对数质量系数除以所述候选文本的文本长度,得到归一化质量系数;
将所述归一化质量系数与所述第一均值相减所得的数值除以所述第一方差,得到所述质量系数。
9.根据权利要求1所述的方法,其特征在于,所述获取所述多个候选文本各自的重要性系数包括:
对任一所述候选文本,获取所述候选文本的初始重要性系数;
基于所述候选文本的文本长度,对所述初始重要性系数进行归一化,得到所述重要性系数,所述文本长度表征所述候选文本所包含的字符数量。
10.根据权利要求9所述的方法,其特征在于,所述基于所述候选文本的文本长度,对所述初始重要性系数进行归一化,得到所述重要性系数包括:
基于所述多个候选文本各自的所述初始重要性系数的对数重要性系数,获取所述对数重要性系数的第二均值和第二方差,所述对数重要性系数为所述初始重要性系数的对数值;
将所述候选文本的所述对数重要性系数除以所述候选文本的文本长度,得到归一化重要性系数;
将所述归一化重要性系数与所述第二均值相减所得的数值除以所述第二方差,得到所述重要性系数。
11.根据权利要求1所述的方法,其特征在于,所述基于第一语种的任一原始文本,翻译得到第二语种的多个候选文本包括:
将所述原始文本输入到反向翻译模型,通过所述反向翻译模型,以随机采样方式翻译得到所述多个候选文本,所述反向翻译模型用于将输入文本从所述第一语种翻译至所述第二语种。
12.根据权利要求1所述的方法,其特征在于,所述原始文本和所述目标候选文本构成的语料对用于训练正向翻译模型,所述正向翻译模型用于将输入文本从所述第二语种翻译至所述第一语种。
13.一种文本获取装置,其特征在于,所述装置包括:
翻译模块,用于基于第一语种的任一原始文本,翻译得到第二语种的多个候选文本,所述原始文本与所述候选文本的语义相关联;
获取模块,用于获取所述多个候选文本各自的质量系数和重要性系数,所述质量系数表征所述候选文本的翻译质量,所述重要性系数表征所述候选文本所承载信息的重要程度;
筛选模块,用于基于所述质量系数和所述重要性系数,从所述多个候选文本中筛选得到目标候选文本。
14.一种计算机设备,其特征在于,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求12任一项所述的文本获取方法。
15.一种存储介质,其特征在于,所述存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至权利要求12任一项所述的文本获取方法。
16.一种计算机程序产品,其特征在于,所述计算机程序产品包括至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至权利要求12任一项所述的文本获取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210601933.0A CN115114937A (zh) | 2022-05-30 | 2022-05-30 | 文本获取方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210601933.0A CN115114937A (zh) | 2022-05-30 | 2022-05-30 | 文本获取方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115114937A true CN115114937A (zh) | 2022-09-27 |
Family
ID=83325644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210601933.0A Pending CN115114937A (zh) | 2022-05-30 | 2022-05-30 | 文本获取方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115114937A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116089808A (zh) * | 2023-02-06 | 2023-05-09 | 迪爱斯信息技术股份有限公司 | 一种特征选择方法及装置 |
-
2022
- 2022-05-30 CN CN202210601933.0A patent/CN115114937A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116089808A (zh) * | 2023-02-06 | 2023-05-09 | 迪爱斯信息技术股份有限公司 | 一种特征选择方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112131366B (zh) | 训练文本分类模型及文本分类的方法、装置及存储介质 | |
CN108170749B (zh) | 基于人工智能的对话方法、装置及计算机可读介质 | |
CN111339255B (zh) | 目标情感分析的方法、模型训练方法、介质和设备 | |
CN110795552B (zh) | 一种训练样本生成方法、装置、电子设备及存储介质 | |
CN108595629B (zh) | 用于答案选择系统的数据处理方法及应用 | |
CN108733682B (zh) | 一种生成多文档摘要的方法及装置 | |
WO2017210634A1 (en) | Iterative alternating neural attention for machine reading | |
CN111400470A (zh) | 问题处理方法、装置、计算机设备和存储介质 | |
CN114565104A (zh) | 语言模型的预训练方法、结果推荐方法及相关装置 | |
CN110457718B (zh) | 一种文本生成方法、装置、计算机设备及存储介质 | |
CN109635197B (zh) | 搜索方法、装置、电子设备及存储介质 | |
CN111046679A (zh) | 翻译模型的质量信息获取方法、装置及计算机设备 | |
Li et al. | Neural machine translation with noisy lexical constraints | |
CN114757210A (zh) | 翻译模型的训练方法、语句翻译方法、装置、设备、程序 | |
CN114330483A (zh) | 数据处理方法及模型训练方法、装置、设备、存储介质 | |
CN115114937A (zh) | 文本获取方法、装置、计算机设备及存储介质 | |
CN113849623A (zh) | 文本视觉问答方法和装置 | |
Lin et al. | A novel beam search to improve neural machine translation for English-Chinese | |
Dilawari et al. | Neural attention model for abstractive text summarization using linguistic feature space | |
US11880664B2 (en) | Identifying and transforming text difficult to understand by user | |
Niu et al. | Faithful target attribute prediction in neural machine translation | |
CN111291576B (zh) | 神经网络内部表示信息量确定方法、装置、设备、介质 | |
Wu | A chinese-english machine translation model based on deep neural network | |
CN117272937B (zh) | 文本编码模型训练方法、装置、设备及存储介质 | |
CN113421551B (zh) | 语音识别方法、装置、计算机可读介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |