CN111368531B - 翻译文本处理方法、装置、计算机设备和存储介质 - Google Patents
翻译文本处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111368531B CN111368531B CN202010157566.0A CN202010157566A CN111368531B CN 111368531 B CN111368531 B CN 111368531B CN 202010157566 A CN202010157566 A CN 202010157566A CN 111368531 B CN111368531 B CN 111368531B
- Authority
- CN
- China
- Prior art keywords
- text
- word
- translation
- translated
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 title claims abstract description 289
- 238000003672 processing method Methods 0.000 title abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 175
- 238000000034 method Methods 0.000 claims abstract description 55
- 238000001914 filtration Methods 0.000 claims abstract description 36
- 239000013598 vector Substances 0.000 claims description 125
- 230000011218 segmentation Effects 0.000 claims description 61
- 238000010801 machine learning Methods 0.000 claims description 50
- 238000012217 deletion Methods 0.000 claims description 29
- 230000037430 deletion Effects 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 15
- 238000003780 insertion Methods 0.000 claims description 14
- 230000037431 insertion Effects 0.000 claims description 14
- 230000014759 maintenance of location Effects 0.000 claims description 4
- 238000012986 modification Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 claims 2
- 230000000694 effects Effects 0.000 abstract description 8
- 238000002372 labelling Methods 0.000 description 19
- 238000005516 engineering process Methods 0.000 description 18
- 238000013473 artificial intelligence Methods 0.000 description 14
- 239000003550 marker Substances 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 238000003058 natural language processing Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种翻译文本处理方法、装置、计算机设备和存储介质。所述方法包括:获取待翻译文本;将所述待翻译文本翻译为目标语言的译文文本;根据所述译文文本中各分词的上下文信息确定所述分词对应的处理标记;根据各所述分词对应的处理标记对所述译文文本中的所述分词进行过滤;依据过滤后所得的译文文本和所述处理标记,确定过滤后所得的译文文本中各分词所对应的目标词;按照所述处理标记和所述目标词对过滤后所得的译文文本中的分词进行修改,得到目标译文文本。采用本方法能够提高待翻译文本的翻译效果。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种翻译文本处理方法、装置、计算机设备和存储介质。
背景技术
随着人工智能技术不断发展,人工智能技术在多个领域展开研究和应用。而自然语言处理(Nature Language Processing,NLP)是人工智能技术中的一个重要方向,常常被应用于文本处理方向,如文章自动摘要、文本自动纠错和文本优化。
在传统的文本处理方案中,通常是将待翻译文本输入至序列到序列(seq2seq)模型,然后利用该seq2seq模型对输入的待翻译文本进行翻译,从而生成目标译文文本。然而,在使用seq2seq模型来进行文本处理时,通常适用于生成一个全新的文本,而将待翻译文本翻译为目标译文文本,其实质上是一种语言的文本到另一种语言的文本,语义在翻译前后是一致的,因此采用seq2seq模型进行翻译时,将会影响待翻译文本的翻译效果。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高待翻译文本的翻译效果的翻译文本处理方法、装置、计算机设备和存储介质。
一种翻译文本处理方法,所述方法包括:
获取待翻译文本;
将所述待翻译文本翻译为目标语言的译文文本;
根据所述译文文本中各分词的上下文信息确定所述分词对应的处理标记;
根据各所述分词对应的处理标记对所述译文文本中的所述分词进行过滤;
依据过滤后所得的译文文本和所述处理标记,确定过滤后所得的译文文本中各分词所对应的目标词;
按照所述处理标记和所述目标词对过滤后所得的译文文本中的分词进行修改,得到目标译文文本。
一种翻译文本处理装置,其特征在于,所述装置包括:
获取模块,用于获取待翻译文本;
翻译模块,用于将所述待翻译文本翻译为目标语言的译文文本;
第一确定模块,用于根据所述译文文本中各分词的上下文信息确定所述分词对应的处理标记;
过滤模块,用于根据各所述分词对应的处理标记对所述译文文本中的所述分词进行过滤;
第二确定模块,用于依据过滤后所得的译文文本和所述处理标记,确定过滤后所得的译文文本中各分词所对应的目标词;
修改模块,用于按照所述处理标记和所述目标词对过滤后所得的译文文本中的分词进行修改,得到目标译文文本。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待翻译文本;
将所述待翻译文本翻译为目标语言的译文文本;
根据所述译文文本中各分词的上下文信息确定所述分词对应的处理标记;
根据各所述分词对应的处理标记对所述译文文本中的所述分词进行过滤;
依据过滤后所得的译文文本和所述处理标记,确定过滤后所得的译文文本中各分词所对应的目标词;
按照所述处理标记和所述目标词对过滤后所得的译文文本中的分词进行修改,得到目标译文文本。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待翻译文本;
将所述待翻译文本翻译为目标语言的译文文本;
根据所述译文文本中各分词的上下文信息确定所述分词对应的处理标记;
根据各所述分词对应的处理标记对所述译文文本中的所述分词进行过滤;
依据过滤后所得的译文文本和所述处理标记,确定过滤后所得的译文文本中各分词所对应的目标词;
按照所述处理标记和所述目标词对过滤后所得的译文文本中的分词进行修改,得到目标译文文本。
上述翻译文本处理方法、装置、计算机设备和存储介质,首先将待翻译文本翻译为目标语言的译文文本,然后根据译文文本中各分词的上下文信息确定分词对应的处理标记,并对译文文本中的分词按照处理标记进行过滤,依据过滤后所得的译文文本和处理标记,确定过滤后所得的译文文本中各分词所对应的目标词,然后只需按照处理标记和目标词对过滤后的译文文本中相应分词进行修改即可得到目标译文文本,无需根据待翻译文本逐词生成一个全新的目标译文文本,降低了待翻译文本处理过程中的计算量,也提高了待翻译文本的翻译效果。
附图说明
图1为一个实施例中翻译文本处理方法的应用环境图;
图2为一个实施例中翻译文本处理方法的流程示意图;
图3为一个实施例中机器学习模型的结构示意图;
图4为一个实施例中对待翻译文本进行翻译和改写的流程示意图;
图5为另一个实施例中翻译文本处理方法的流程示意图;
图6为另一个实施例中机器学习模型的结构示意图;
图7为另一个实施例中对待翻译文本进行翻译和改写的流程示意图;
图8为一个实施例中翻译文本处理装置的结构框图;
图9为另一个实施例中翻译文本处理装置的结构框图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的自然语言处理等技术,具体通过如下实施例进行说明:
本申请提供的翻译文本处理方法,可以应用于如图1所示的应用环境中。其中,终端102与服务器104之间通过网络进行通信。翻译文本处理方法可应用于终端102或服务器104,当翻译文本处理方法应用于终端102时,终端102从本地或服务器104获取待翻译文本;将待翻译文本翻译为目标语言的译文文本;根据译文文本中各分词的上下文信息确定分词对应的处理标记;根据各分词对应的处理标记对译文文本中的分词进行过滤;依据过滤后所得的译文文本和处理标记,确定过滤后所得的译文文本中各分词所对应的目标词;按照处理标记和目标词对过滤后所得的译文文本中的分词进行修改,得到目标译文文本。然后,终端102可以将目标译文文本进行显示。
当翻译文本处理方法应用于服务器104时,服务器104从本地或终端102获取待翻译文本;将待翻译文本翻译为目标语言的译文文本;根据译文文本中各分词的上下文信息确定分词对应的处理标记;根据各分词对应的处理标记对译文文本中的分词进行过滤;依据过滤后所得的译文文本和处理标记,确定过滤后所得的译文文本中各分词所对应的目标词;按照处理标记和目标词对过滤后所得的译文文本中的分词进行修改,得到目标译文文本。然后,服务器104可以将目标译文文本发送至终端102进行显示。
其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种翻译文本处理方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
S202,获取待翻译文本。
其中,待翻译文本为一种待翻译语言的文本,该文本可以是一篇文章,或一篇文章中的一段话或一句话。该文章可以是各种领域的,如科技、体育、休闲娱乐、美食和文学等领域。
在一个实施例中,终端接收输入的指令,根据该指令获取剪贴板中的待翻译文本。或者,终端从本地的数据库或服务器获取待翻译文本。
S204,将待翻译文本翻译为目标语言的译文文本。
其中,目标语言可以是用户所需要用到的语言,如待翻译语言为英语,对应的目标语言可以是汉语。对应的,译文文本可以指对待翻译文本进行翻译所得的文本。
在一个实施例中,终端可以对待翻译文本中各词进行逐词翻译,生成目标语言的译文文本。或者,终端对待翻译文本中各词组依次进行翻译,生成目标语言的译文文本。
在一个实施例中,终端将获取的待翻译文本输入至翻译模型,翻译模型对输入的待翻译文本进行语言检测,得到待翻译语言。终端将翻译模型的源语言设置为待翻译语言,并设置目标语言,然后对待翻译文本中的各词进行逐词翻译,或对待翻译文本中的各词组依次进行翻译,得到目标语言的译文文本。
例如,待翻译文本为“at that time”,终端可以将“at that time”中的每个单词进行逐词翻译,即分别对“at”、“that”和“time”逐个进行翻译,对应的,“at”对应的翻译为“在”,“that”对应的翻译为“那”、“那个”和“那种”,“time”对应的翻译为“时间”、“钟点”和“时刻”。或者,终端可以将“at that time”作为一个词组进行翻译,对应的翻译为“在那时”。
在一个实施例中,当对待翻译文本进行逐词翻译时,上述对待翻译文本中各词进行逐词翻译,生成目标语言的译文文本的步骤,具体可以包括:终端对待翻译文本中的各词进行逐词翻译,得到每个词对应的翻译词;当待翻译文本中目标词所对应的翻译词数量不少于两个时,按照指定序号从目标词对应的多个翻译词中选择翻译词;根据所选择的翻译词以及翻译词数量为一个的词所对应的翻译词,生成目标语言的译文文本。
在一个实施例中,终端利用翻译模型对待翻译文本中的各词进行逐词翻译,得到每个词对应的至少一个翻译词;对于待翻译文本中目标词对应的翻译词为多个时,选择第一个翻译词作为该目标词的翻译词,然后将选择的翻译词和其它各词对应的一个翻译词进行组合,得到译文文本。
例如,待翻译文本为“The birds are singing in the trees”,终端分别对待翻译文本中的每个单词进行翻译,对应的,“The”对应的翻译为“这个”,“birds”对应的翻译为“鸟儿”,“are”对应的翻译为“是”,“singing”对应的翻译为“唱歌”、“歌唱”和“演唱”,“in”对应的翻译为“在”,“the”对应的翻译为“这个”,“trees”对应的翻译为“树”,从而得到对应的译文文本为“这个鸟儿是唱歌在这个树”。
在一个实施例中,当对待翻译文本中存在词组时,对对待翻译文本中的词组进行翻译。上述对待翻译文本中各词组依次进行翻译,生成目标语言的译文文本的步骤,具体可以包括:对待翻译文本进行分词处理,得到包括分词后词组的待翻译文本;对待翻译文本中的各词组进行翻译,得到各词组对应的翻译词;当待翻译文本中目标词组所对应的翻译词数量不少于两个时,按照指定序号从目标词组对应的多个翻译词中选择翻译词;根据所选择的翻译词以及翻译词数量为一个的词组所对应的翻译词,生成目标语言的译文文本。
在一个实施例中,终端对待翻译文本进行分词处理,得到待翻译文本中的各词和词组,然后对分词处理后的待翻译文本中的各词和词组进行翻译。对于待翻译文本中的词或词组对应的翻译词为多个时,选择第一个翻译词作为该词或词组的翻译词,然后将选择的翻译词和其它各词或词组对应的一个翻译词进行组合,得到译文文本。
例如,待翻译文本为“The birds are singing in the trees”,对该翻译文本进行分词可以得到“The birds”、“are”、“singing”和“in the trees”。对应的,“The birds”对应的翻译为“鸟儿”,“are”对应的翻译为“是”,“singing”对应的翻译为“唱歌”、“歌唱”和“演唱”,“in the trees”对应的翻译为“在树上”,从而得到对应的译文文本为“鸟儿是唱歌在树上”。
在翻译过程中,对于一词多义的情况,将单词或词组继续翻译得到多个一词多义的翻译词之后,可以在翻译词中固定选择其中一个翻译词作为x'i(如固定选择多个翻译词中的第一个,这种选择方式在模型训练和模型预测时保持一致),剩下的翻译词保存于集合s_xi,此时这个s_xi是词表的子集,可能会出现在机器学习模型的预测结果中。因此只要模型训练合适,便能将因因一词多义而翻译错的词自动纠正回真实的词义。例如,将中文“你身材真辣”,这里的“辣”可以翻译成“hot”,表示身材好或味道辣,也可以翻译成“spicy”表示味道辣。若第一步将“辣”翻译成了“spicy”;在第二步中,机器学习模型可以学习出上下文信息,所以依然可以根据“身材”这一信息推断出要将“spicy”替换成“hot”。
S206,根据译文文本中各分词的上下文信息确定分词对应的处理标记。
其中,上下文信息可以是译文文本中各分词在译文文本中所表达的语义。译文文本中的各分词与待翻译文本中的各词或短语是相对应的。
处理标记可以是对分词进行相应文字编辑的标记,如插入(insert,i)、替换(substitute,s)、删除(delete,d)和保留(keep,k)等处理的标记。因此,在对译文文本进行处理时,不同的处理标记对应不同的处理方式。
在一个实施例中,上述根据译文文本中各分词的上下文信息确定分词对应的处理标记的步骤,具体可以包括:终端可以将译文文本输入端到端的机器学习模型,以使该机器学习模型基于各分词在译文文本中的上下文信息,为译文文本中的各分词标注上对应的处理标记,以便依据译文文本和处理标记确定各分词所对应的目标词。其中,该机器学习模型可以是由文本改写模型构成的网络模型,该文本改写模型的网络结构如图3所示。
上述的文本改写模型包括编码层和分类层,xi为译文文本中的第i个分词,yi为译文文本中的第i个分词对应的处理标记。实际应用中,终端将译文文本中的各分词x对应的词向量按序输入至预训练的文本改写模型;通过文本改写模型的编码层,依次对各分词x对应的词向量进行编码,得到各分词x对应的第一编码向量;然后,将各分词x对应的第一编码向量输入至文本改写模型的分类层;通过文本改写模型的分类层,对各分词x对应的第一编码向量进行分类,得到各分词x对应的分类结果;根据各分词x对应的分类结果,生成各分词对应的处理标记y以及各分词所对应的目标词。
对于上述机器学习模型的训练,首先准备一些训练样本{x,y},x是待翻译语言(即源语言)对应的待翻译样本,y是目标语言对应的目标译文文本。在实际训练过程中,可以采用训练样本{x',y},其中x'是根据一个固定的翻译模型(如电子词典),将x逐词翻译成x',然后将{x',y}用于训练上述机器学习模型。
例如,x是“Did you mean it at that time”,将x逐词翻译成中文,得到中间的译文文本x'为“做过/你/表示/它/在/那个/时间”,真实的目标译文文本y是“那时候你在是表达它这个意思吗”。
不同语言之间的差异,主要体现在一些语法、句式结构的微小差异上面,因此只需要少量的训练样本{x',y}对机器学习模型进行训练,便可学习到不同语言之间的差异。
在一个实施例中,上述根据译文文本中各分词的上下文信息确定分词对应的处理标记的步骤,具体可以包括:终端对译文文本进行分词处理,得到译文文本的各分词;获取译文文本中的各分词对应的词向量;对所获取的词向量进行编码得到第一编码向量;第一编码向量中包含各分词在译文文本中的上下文信息;根据第一编码向量确定分词对应的处理标记。
其中,分词处理可以指将连续的字序列按照预设规范重新组合成词序列的过程,从而可以得到重新组合而成的词序列。在本发明实施例中,译文文本中的分词即为经过分词处理后重新组合而成的词序列。
在一个实施例中,终端可以按照词性对译文文本进行分词处理,得到译文文本中的各分词。其中,词性可以包括但不限于名词、动词、形容词、数词、量词、代词、连词和助词等。
在另一个实施例中,终端可以按照词组或短语的形式对译文文本进行分词处理,得到译文文本中的各分词。例如,译文文本为“这个鸟儿是唱歌在这个树”,则按照词组或短语的形式对译文文本进行分词处理后,得到“这个”、“鸟儿”、“是”、“唱歌”、“在”、“这个”和“树”等分词。
在一个实施例中,终端对译文文本中的各分词进行向量化,得到各分词对应的词向量。
在一个实施例中,上述对所获取的词向量进行编码得到第一编码向量的步骤,具体可以包括:将所获取的词向量输入至机器学习模型;通过机器学习模型的编码层依次对输入的各词向量进行编码,得到第一编码向量。
在一个实施例中,上述根据第一编码向量确定分词对应的处理标记的步骤,具体可以包括:终端通过机器学习模型的分类层对各分词对应的第一编码向量进行分类处理,得到各分词对应的分类结果;根据所得的分类结果确定各分词对应的处理标记。
例如,终端将译文文本“这个鸟儿是唱歌在这个树”进行分词,得到分词后的译文文本“这个/鸟儿/是/唱歌/在/这个/树”。终端对译文文本中的各分词进行向量化得到第一编码向量,将第一编码向量输入至机器学习模型后,通过机器学习模型进行数据处理,确定各个分词对应的处理标记,即第一个分词“这个”对应删除标记“d”;分词“鸟儿”对应保留标记“k”;分词“是”对应删除标记“d”;分词“唱歌”对应保留标记“k”;分词“在”对应保留标记“k”;第二个分词“这个”也对应删除标记“d”,分词“树”对应替换标记“s”。
S208,根据各分词对应的处理标记对译文文本中的分词进行过滤。
在一个实施例中,由于处理标记包括有插入、替换、删除和保留等处理的标记,对应的,S208具体可以包括:终端将记为删除标记的分词从译文文本中的分词进行删除,从而得到的译文文本中不包含删除标记的分词。
S210,依据过滤后所得的译文文本和处理标记,确定过滤后所得的译文文本中各分词所对应的目标词。
在一个实施例中,终端将过滤后所得的译文文本和该译文文本中各分词对应的处理标记输入机器学习模型中,通过机器学习模型对该译文文本和该处理标记进行数据处理,从而从预设的此表中得到分词对应的目标词。其中,机器学习模型可以包括标注模型和文本改写模型。
在一个实施例中,终端对过滤后所得的译文文本中各分词进行向量化,将得到的向量和对应的处理标记输入机器学习模型中,通过机器学习模型的文本改写模型对该译文文本的向量和该处理标记进行数据处理,从而从预设的此表中得到分词对应的目标词。
S212,按照处理标记和目标词对过滤后所得的译文文本中的分词进行修改,得到目标译文文本。
在一个实施例中,S212具体可以包括:当处理标记为插入标记时,终端则在过滤后所得的译文文本中按照插入标记插入目标词;当处理标记为替换标记时,则在过滤后所得的译文文本中将记为替换标记的分词替换为目标词,得到目标译文文本。
在一个实施例中,终端将处理标记和目标词对译文文本进行修改之后,还可以按照语法规则对修改后的译文文本中的分词进行重新排列组合,得到目标译文文本。
其中,语法规则可以是从众多的语法单位里抽象出其中各词和词组之间共同的组合方式,从而利用该组合方式进行组合得到对应的句子。
例如,假设译文文本为“这个鸟儿是唱歌在这个树”,终端将记为删除标记“d”的分词“这个”、“是”和“这个”进行删除,将记为保留标记“k”的分词“鸟儿”、“唱歌”和“在”进行保留,将记为替换标记“s”的分词“树”替换为词语“树上”,从而可以得到修改后的译文文本“鸟儿唱歌在树上”。然后,终端对修改后的译文文本中的分词进行重新排列组合,得到目标译文文本“鸟儿在树上唱歌”。
作为一个示例,为了便于本领域技术人员更加清楚的理解,如图4所示,提供了一种翻译文本处理方法的场景示意图,翻译文本处理步骤如下所述:
(1)将待翻译文本“The birds are singing in the trees”逐词翻译为目标语言的译文文本“这个鸟儿是唱歌在这个树”;
(2)对译文文本“这个鸟儿是唱歌在这个树”进行分词处理,然后将译文文本中各分词的词向量输入机器学习模型;
(3)机器学习模型利用译文文本中各分词的上下文信息来确定各分词的处理标记,即第一个分词“这个”对应删除标记“d”;分词“鸟儿”对应保留标记“k”;分词“是”对应删除标记“d”;分词“唱歌”对应保留标记“k”;分词“在”对应保留标记“k”;第二个分词“这个”也对应删除标记“d”,分词“树”对应替换标记“s”;
(4)根据各分词对应的处理标记对译文文本中的分词进行过滤。此外,根据处理标记和过滤后的译文文本确定各分词对应的目标词;
(5)机器学习模型根据处理标记和目标词对过滤后的译文文本进行修改,即将记为保留标记“k”的分词“鸟儿”、“唱歌”和“在”进行保留,将记为替换标记“s”的分词“树”替换为词语“树上”,从而可以得到修改后的译文文本“鸟儿唱歌在树上”。然后,终端对修改后的译文文本中的分词进行重新排列组合,得到目标译文文本“鸟儿在树上唱歌”。
上述实施例中,首先将待翻译文本翻译为目标语言的译文文本,然后根据译文文本中各分词的上下文信息确定分词对应的处理标记,并对译文文本中的分词按照处理标记进行过滤,依据过滤后所得的译文文本和处理标记,确定过滤后所得的译文文本中各分词所对应的目标词,然后只需按照处理标记和目标词对过滤后的译文文本中相应分词进行修改即可得到目标译文文本,无需根据待翻译文本逐词生成一个全新的目标译文文本,降低了待翻译文本处理过程中的计算量,也提高了待翻译文本的翻译效果。
在一个实施例中,如图5所示,该方法还可以包括:
S502,获取待翻译文本。
S504,将待翻译文本翻译为目标语言的译文文本。
其中,上述的S502-S504具体可以参考上述实施例中的S202-S204。
S506,根据译文文本中各分词的上下文信息确定分词对应的处理标记。
其中,上下文信息可以是译文文本中各分词在译文文本中所表达的语义。处理标记可以是对分词进行相应文字编辑的标记,如插入(insert,i)、替换(substitute,s)、删除(delete,d)和保留(keep,k)等处理的标记。因此,在对译文文本进行处理时,不同的处理标记对应不同的处理方式。
在一个实施例中,S506具体可以包括:终端可以将译文文本输入由多网络模型构成的机器学习模型,以使该机器学习模型中的标注模型基于各分词在译文文本中的上下文信息,为译文文本中的各分词标注上对应的处理标记,以便依据译文文本和处理标记确定各分词所对应的目标词。
其中,该机器学习模型可以是由标注模型和文本改写模型构成的网络模型,如图6所示,其中,该文本改写模型包括处于第一阶段的标注模型,以及,处于第二阶段的文本改写模型;其中,该标注模型包括第一编码层和第一分类层;实际应用中,中的将译文文本中的各分词x对应的词向量按序输入至机器学习模型的标注模型;通过标注模型的第一编码层,依次对各分词x对应的词向量进行编码,得到各分词x对应的第一编码向量;然后,将各分词x对应的第一编码向量输入至标注模型的第一分类层;通过标注模型的第一分类层,对各分词x对应的第一编码向量进行分类,得到各分词x对应的分类结果;根据各分词x对应的分类结果,生成各分词对应的处理标记y。然后,终端在根据各分词对应的处理标记y,对译文文本中的各分词x进行删除和保留操作,得到筛选后文本;例如,假设x1、x2、和x3各自对应的处理标记分别为删除标记、保留标记和替换标记,终端对x1进行删除操作,即得到的x'1就是空的词,可以用一个NULL标记来表示;终端对x2进行保留,得到的x'2是不变的(即x'2就是原来的x2);同理,即为替换标记的x3不进行删除操作,得到x'3也是不变的(即x'3就是原来的x3)。由于筛选后文本的词均需要进行修改,因此筛选后文本的各个分词命名为待改写分词x';再然后,终端将筛选后文本中的各个待改写分词x'输入至文本改写模型,通过文本改写模型的第二编码层,依次对各待改写分词x'对应的词向量进行编码,得到各待改写分词x'对应的第二编码向量;再然后,终端将各待改写分词x'对应的第二编码向量和标注模型的第一编码层输出的各分词x对应的第一编码向量,输入至文本改写模型的第二分类层,进而得到各个待改写分词对应的目标分词y';从而供终端根据待改写分词x'对应的目标分词y'和待改写分词x'对应的处理标记y,对筛选后文本进行修改操作,生成目标译文文本。需要指出的是,文本改写模型中的虚线框A的模型部分和输入数据与标注模型中的模型部分和输入数据相同。
其中,筛选后文本即为上述实施例中的过滤后所得的译文文本。
上述的标注模型可以是自然语言处理中的标记模型,如命名体识别模型等。实际应用中,标注模型可以是CRF(Conditional Random Fields,条件随机场)单模型或是由各种神经网络单元组合的网络模型。
在一个实施例中,上述基于各分词在译文文本中的上下文信息,为译文文本中的各分词标注上对应的处理标记的步骤,具体可以包括:终端对译文文本进行分词处理,得到译文文本的各分词;获取译文文本中的各分词对应的词向量;通过标注模型中的第一编码层对所获取的词向量进行编码得到第一编码向量;第一编码向量中包含各分词在译文文本中的上下文信息;通过第一分类层根据第一编码向量确定分词对应的处理标记。
其中,分词处理可以指将连续的字序列按照预设规范重新组合成词序列的过程,从而可以得到重新组合而成的词序列。在本发明实施例中,译文文本中的分词即为经过分词处理后重新组合而成的词序列。
在一个实施例中,终端可以按照词性对译文文本进行分词处理,得到译文文本中的各分词。或者,终端可以按照词组或短语的形式对译文文本进行分词处理,得到译文文本中的各分词。
在一个实施例中,终端对译文文本中的各分词进行向量化,得到各分词对应的词向量。
在一个实施例中,上述根据第一编码向量确定分词对应的处理标记的步骤,具体可以包括:终端通过机器学习模型的分类层(该分类层即为标注模型的第一分类层)对各分词对应的第一编码向量进行分类处理,得到各分词对应的分类结果;根据所得的分类结果确定各分词对应的处理标记。
例如,终端将译文文本“这个鸟儿是唱歌在这个树”进行分词,得到分词后的译文文本“这个/鸟儿/是/唱歌/在/这个/树”。终端对译文文本中的各分词进行向量化得到第一编码向量,将第一编码向量输入至机器学习模型的标注模型后,通过标注模型进行数据处理,确定各个分词对应的处理标记,即第一个分词“这个”对应删除标记“d”;分词“鸟儿”对应保留标记“k”;分词“是”对应删除标记“d”;分词“唱歌”对应保留标记“k”;分词“在”对应保留标记“k”;第二个分词“这个”也对应删除标记“d”,分词“树”对应替换标记“s”。
S508,当处理标记为删除标记时,在译文文本对记为删除标记的分词进行删除,得到包含待修改分词的筛选后文本。
例如,终端将译文文本“这个鸟儿是唱歌在这个树”将标记为删除的分词“这个”、“是”和“这个”从译文文本中进行删除,从而得到筛选后文本“鸟儿唱歌在树”。
S510,依据筛选后文本中各待修改分词的上下文信息和译文文本中各分词的上下文信息,确定各分词所对应的目标词。
在一个实施例中,S510具体可以包括:对筛选后文本中各待修改分词的词向量进行编码,得到第二编码向量;第二编码向量中包含待修改分词在筛选后文本中的上下文信息;根据第一编码向量和第二编码向量,生成译文文本中各分词所对应的目标词;第一编码向量为译文文本中各分词的编码向量。
在一个实施例中,终端获取筛选后文本中各待修改分词对应的词向量,通过机器学习模型中文本改写模型的第二编码层对各待修改分词对应的词向量分别进行编码,得到对应的第二编码向量。
其中,由于各待修改分词对应的词向量经过了充分编码,因此所得的第二编码向量包含了待修改分词在筛选后文本的上下文信息。
在一个实施例中,上述对筛选后文本中各待修改分词的词向量进行编码的步骤,具体可以包括:终端通过机器学习模型中的编码层(该编码层即为文本改写模型的第二编码层)对筛选后文本中各待修改分词的词向量进行编码。上述根据第一编码向量和第二编码向量,生成译文文本中各分词所对应的目标词的步骤,具体可以包括:通过机器学习模型中的分类层(该分类层层即为文本改写模型的第二分类层),对第一编码向量和第二编码向量进行解码,得到译文文本中各分词所对应的目标词。
S512,按照处理标记和目标词对筛选后文本中的待修改分词进行修改,得到目标译文文本。
在一个实施例中,S512具体可以包括:当处理标记为插入标记时,终端则在筛选后文本中按照插入标记将目标词插入至译文文本;当处理标记为替换标记时,则在筛选后文本中将记为替换标记的分词替换为目标词;当处理标记为删除标记时。
在一个实施例中,终端将处理标记和目标词对译文文本进行修改之后,还可以按照目标语言的语法规则,确定修改后的译文文本中各分词的语序;按照所确定的语序对修改后的译文文本中各分词进行调整,得到目标译文文本。
例如,假设译文文本为“这个鸟儿是唱歌在这个树”,终端将记为删除标记“d”的分词“这个”、“是”和“这个”进行删除,将记为保留标记“k”的分词“鸟儿”、“唱歌”和“在”进行保留,将记为替换标记“s”的分词“树”替换为词语“树上”,从而可以得到修改后的译文文本“鸟儿唱歌在树上”。然后,终端对修改后的译文文本中的分词按照确定的语序进行重新排列组合,得到目标译文文本“鸟儿在树上唱歌”。
作为一个示例,为了便于本领域技术人员更加清楚的理解,如图7所示,提供了一种翻译文本处理方法的场景示意图,翻译文本处理步骤如下所述:
(1)将待翻译文本“The birds are singing in the trees”逐词翻译为目标语言的译文文本“这个鸟儿是唱歌在这个树”;
(2)对译文文本“这个鸟儿是唱歌在这个树”进行分词处理,然后将译文文本中各分词进行向量化,得到向量x={x1、x2、x3、...、xi},然后将向量x输入机器学习模型;该机器学习模型包括两部分,一部分为标注模型,另一部分为文本改写模型。
(3)第一阶段,通过标注模型的第一编码层对译文文本中各分词的向量x进行编码,得到第一编码向量;然后利用标注模型的第一分类层对第一编码向量进行分类处理,根据分类处理后的分类结果确定译文文本中各分词对应的处理标记。即译文文本中,第一个分词“这个”对应删除标记“d”;分词“鸟儿”对应保留标记“k”;分词“是”对应删除标记“d”;分词“唱歌”对应保留标记“k”;分词“在”对应保留标记“k”;第二个分词“这个”也对应删除标记“d”,分词“树”对应替换标记“s”;
此外,当处理标记为删除标记时,终端对记为删除标记的分词从译文文本中进行删除,即将记为删除标记“d”的分词“这个”、“是”和“这个”从译文文本中进行删除,得到与译文文本对应的筛选后文本。
(4)第二阶段,通过文本改写模型的第二编码层,对第一阶段所得的筛选后文本中各待修改分词的向量x’={x’1、x’2、x’3、...、x’i}进行编码,得到第二编码向量;然后通过文本改写模型的第二分类层,对第一编码向量和第二编码向量进行解码,得到用于修改筛选后文本的目标词,根据该目标词和对应的处理标记对筛选后文本进行修改,将记为保留标记“k”的分词“鸟儿”、“唱歌”和“在”进行保留,将记为替换标记“s”的分词“树”替换为词语“树上”,从而可以得到修改后的译文文本“鸟儿唱歌在树上”。然后,终端对修改后的译文文本中的分词进行按照语法规则进行重新排列组合,得到目标译文文本“鸟儿在树上唱歌”。
上述实施例中,首先将待翻译文本翻译为目标语言的译文文本,然后通过标注模型确定译文文本中各词对应的处理标记,利用该处理标记删除译文文本中的部分分词,得到筛选后文本;然后通过文本改写模型对筛选后文本对应的词向量和译文文本对应的词向量进行编码和分类处理,从而得到修改译文文本中各分词所对应的目标词,利用该目标词和处理标记修改译文文本,从而可以得到目标译文文本,无需根据待翻译文本逐词生成一个全新的目标译文文本,降低了待翻译文本处理过程中的计算量,也提高了待翻译文本的翻译效果。
应该理解的是,虽然图2、5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、5中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图8所示,提供了一种翻译文本处理装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:获取模块802、翻译模块804、第一确定模块806、过滤模块808、第二确定模块810和修改模块812,其中:
获取模块802,用于获取待翻译文本;
翻译模块804,用于将所述待翻译文本翻译为目标语言的译文文本;
第一确定模块806,用于根据所述译文文本中各分词的上下文信息确定所述分词对应的处理标记;
过滤模块808,用于根据各所述分词对应的处理标记对所述译文文本中的所述分词进行过滤;
第二确定模块810,用于依据过滤后所得的译文文本和所述处理标记,确定过滤后所得的译文文本中各分词所对应的目标词;
修改模块812,用于按照所述处理标记和所述目标词对过滤后所得的译文文本中的分词进行修改,得到目标译文文本。
在一个实施例中,翻译模块804,还用于对待翻译文本中各词进行逐词翻译,生成目标语言的译文文本;或者,对待翻译文本中各词组依次进行翻译,生成目标语言的译文文本。
在一个实施例中,翻译模块804,还用于对待翻译文本中的各词进行逐词翻译,得到每个词对应的翻译词;当待翻译文本中目标词所对应的翻译词数量不少于两个时,按照指定序号从目标词对应的多个翻译词中选择翻译词;根据所选择的翻译词以及翻译词数量为一个的词所对应的翻译词,生成目标语言的译文文本。
在一个实施例中,翻译模型804,还用于对待翻译文本进行分词处理,得到包括分词后词组的待翻译文本;对待翻译文本中的各词组进行翻译,得到各词组对应的翻译词;当待翻译文本中目标词组所对应的翻译词数量不少于两个时,按照指定序号从目标词组对应的多个翻译词中选择翻译词;根据所选择的翻译词以及翻译词数量为一个的词组所对应的翻译词,生成目标语言的译文文本。
在一个实施例中,第一确定模块806,还用于对译文文本进行分词处理,得到译文文本的各分词;取译文文本中的各分词对应的词向量;对所获取的词向量进行编码得到第一编码向量;第一编码向量中包含各分词在译文文本中的上下文信息;根据第一编码向量确定分词对应的处理标记。
在一个实施例中,第一确定模块806,还用于将所获取的词向量输入至机器学习模型;通过机器学习模型的编码层依次对输入的各词向量进行编码,得到第一编码向量。
在一个实施例中,第一确定模块806,还用于通过机器学习模型的分类层对各分词对应的第一编码向量进行分类处理,得到各分词对应的分类结果;根据所得的分类结果确定各分词对应的处理标记。
上述实施例中,首先将待翻译文本翻译为目标语言的译文文本,然后根据译文文本中各分词的上下文信息确定分词对应的处理标记,并对译文文本中的分词按照处理标记进行过滤,依据过滤后所得的译文文本和处理标记,确定过滤后所得的译文文本中各分词所对应的目标词,然后只需按照处理标记和目标词对过滤后的译文文本中相应分词进行修改即可得到目标译文文本,无需根据待翻译文本逐词生成一个全新的目标译文文本,降低了待翻译文本处理过程中的计算量,也提高了待翻译文本的翻译效果。
在一个实施例中,第二确定模块810,还用于当处理标记为删除标记时,在译文文本对记为删除标记的分词进行删除,得到包含待修改分词的筛选后文本;依据筛选后文本中各待修改分词的上下文信息和译文文本中各分词的上下文信息,确定各分词所对应的目标词。
在一个实施例中,第二确定模块810,还用于对筛选后文本中各待修改分词的词向量进行编码,得到第二编码向量;第二编码向量中包含待修改分词在筛选后文本中的上下文信息;根据第一编码向量和第二编码向量,生成译文文本中各分词所对应的目标词;第一编码向量为译文文本中各分词的编码向量。
在一个实施例中,第二确定模块810,还用于通过机器学习模型中的编码层对筛选后文本中各待修改分词的词向量进行编码;通过机器学习模型中的分类层,对第一编码向量和第二编码向量进行解码,得到译文文本中各分词所对应的目标词。
在一个实施例中,修改模块812,还用于当处理标记为插入标记时,则在过滤后所得的译文文本中按照插入标记将目标词插入至译文文本;当处理标记为替换标记时,则在过滤后所得的译文文本中将记为替换标记的分词替换为目标词。
在一个实施例中,如图9所示,该装置还包括:调整模块814;其中:
调整模块814,用于按照目标语言的语法规则,确定修改后的译文文本中各分词的语序;按照所确定的语序对修改后的译文文本中各分词进行调整,得到目标译文文本。
上述实施例中,首先将待翻译文本翻译为目标语言的译文文本,然后通过标注模型确定译文文本中各词对应的处理标记,利用该处理标记删除译文文本中的部分分词,得到筛选后文本;然后通过文本改写模型对筛选后文本对应的词向量和译文文本对应的词向量进行编码和分类处理,从而得到修改译文文本中各分词所对应的目标词,利用该目标词和处理标记修改译文文本,从而可以得到目标译文文本,无需根据待翻译文本逐词生成一个全新的目标译文文本,降低了待翻译文本处理过程中的计算量,也提高了待翻译文本的翻译效果。
关于翻译文本处理装置的具体限定可以参见上文中对于翻译文本处理方法的限定,在此不再赘述。上述翻译文本处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待翻译文本、译文文本和目标译文文本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种翻译文本处理方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种翻译文本处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (26)
1.一种翻译文本处理方法,所述方法包括:
获取待翻译文本;
将所述待翻译文本翻译为目标语言的译文文本;
将所述译文文本中各分词的词向量输入至机器学习模型;通过所述机器学习模型的编码层依次对输入的各词向量进行编码,得到第一编码向量;通过所述机器学习模型的分类层对各所述分词对应的第一编码向量进行分类处理,得到各所述分词对应的分类结果;根据所得的分类结果确定各所述分词对应的处理标记;
根据各所述分词对应的处理标记对所述译文文本中的所述分词进行过滤;
依据过滤后所得的译文文本和所述处理标记,确定过滤后所得的译文文本中各分词所对应的目标词;
按照所述处理标记和所述目标词对过滤后所得的译文文本中的分词进行修改,得到目标译文文本。
2.根据权利要求1所述的方法,其特征在于,所述将所述待翻译文本翻译为目标语言的译文文本包括:
对所述待翻译文本中各词进行逐词翻译,生成目标语言的译文文本;或者,
对所述待翻译文本中各词组依次进行翻译,生成目标语言的译文文本。
3.根据权利要求2所述的方法,其特征在于,所述对所述待翻译文本中各词进行逐词翻译,生成目标语言的译文文本包括:
对所述待翻译文本中的各词进行逐词翻译,得到每个词对应的翻译词;
当所述待翻译文本中目标词所对应的翻译词数量不少于两个时,按照指定序号从所述目标词对应的多个翻译词中选择翻译词;
根据所选择的翻译词以及翻译词数量为一个的词所对应的翻译词,生成目标语言的译文文本。
4.根据权利要求2所述的方法,其特征在于,所述对所述待翻译文本中各词组依次进行翻译,生成目标语言的译文文本包括:
对所述待翻译文本进行分词处理,得到包括分词后词组的待翻译文本;
对所述待翻译文本中的各所述词组进行翻译,得到各词组对应的翻译词;
当所述待翻译文本中目标词组所对应的翻译词数量不少于两个时,按照指定序号从所述目标词组对应的多个翻译词中选择翻译词;
根据所选择的翻译词以及翻译词数量为一个的词组所对应的翻译词,生成目标语言的译文文本。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述译文文本进行分词处理,得到所述译文文本的各分词;
获取所述译文文本中的各所述分词对应的词向量。
6.根据权利要求1所述的方法,其特征在于,所述获取待翻译文本包括:
接收输入的指令,根据所述指令获取剪贴板中的待翻译文本;或者,
从服务器或本地的数据库获取所述待翻译文本。
7.根据权利要求1所述的方法,其特征在于,所述处理标记包括插入标记、替换标记、删除标记和保留标记。
8.根据权利要求4至7任一项所述的方法,其特征在于,所述根据各所述分词对应的处理标记对所述译文文本中的所述分词进行过滤包括:
当所述处理标记为删除标记时,在所述译文文本对记为所述删除标记的分词进行删除,得到包含待修改分词的筛选后文本;
所述方法还包括:依据所述筛选后文本中各待修改分词的上下文信息和所述译文文本中各分词的上下文信息,确定各所述待修改分词所对应的目标词。
9.根据权利要求8所述的方法,其特征在于,所述依据所述筛选后文本中各待修改分词的上下文信息和所述译文文本中各分词的上下文信息,确定各所述待修改分词所对应的目标词包括:
对所述筛选后文本中各待修改分词的词向量进行编码,得到第二编码向量;所述第二编码向量中包含所述待修改分词在所述筛选后文本中的上下文信息;
根据第一编码向量和所述第二编码向量,生成所述译文文本中各分词所对应的目标词;所述第一编码向量为所述译文文本中各分词的编码向量。
10.根据权利要求9所述的方法,其特征在于,所述对所述筛选后文本中各待修改分词的词向量进行编码包括:
通过机器学习模型中的编码层对所述筛选后文本中各待修改分词的词向量进行编码;
所述根据第一编码向量和所述第二编码向量,生成所述译文文本中各分词所对应的目标词包括:
通过所述机器学习模型中的分类层,对第一编码向量和所述第二编码向量进行解码,得到所述译文文本中各分词所对应的目标词。
11.根据权利要求1至7任意一项所述的方法,其特征在于,所述按照所述处理标记和所述目标词对过滤后所得的译文文本中的分词进行修改包括:
当所述处理标记为插入标记时,则在过滤后所得的译文文本中按照所述插入标记将所述目标词插入至所述译文文本;
当所述处理标记为替换标记时,则在过滤后所得的译文文本中将记为所述替换标记的分词替换为所述目标词。
12.根据权利要求1至7任意一项所述的方法,其特征在于,所述按照所述处理标记和所述目标词对过滤后所得的译文文本中的分词进行修改之后,所述方法还包括:
按照所述目标语言的语法规则,确定修改后的译文文本中各分词的语序;
按照所确定的语序对所述修改后的译文文本中各分词进行调整,得到目标译文文本。
13.一种翻译文本处理装置,其特征在于,所述装置包括:
获取模块,用于获取待翻译文本;
翻译模块,用于将所述待翻译文本翻译为目标语言的译文文本;
第一确定模块,用于将所述译文文本中各分词的词向量输入至机器学习模型;通过所述机器学习模型的编码层依次对输入的各词向量进行编码,得到第一编码向量;通过所述机器学习模型的分类层对各所述分词对应的第一编码向量进行分类处理,得到各所述分词对应的分类结果;根据所得的分类结果确定各所述分词对应的处理标记;
过滤模块,用于根据各所述分词对应的处理标记对所述译文文本中的所述分词进行过滤;
第二确定模块,用于依据过滤后所得的译文文本和所述处理标记,确定过滤后所得的译文文本中各分词所对应的目标词;
修改模块,用于按照所述处理标记和所述目标词对过滤后所得的译文文本中的分词进行修改,得到目标译文文本。
14.根据权利要求13所述的装置,其特征在于,所述翻译模块,还用于对所述待翻译文本中各词进行逐词翻译,生成目标语言的译文文本;或者,对所述待翻译文本中各词组依次进行翻译,生成目标语言的译文文本。
15.根据权利要求14所述的装置,其特征在于,所述翻译模块,还用于对所述待翻译文本中的各词进行逐词翻译,得到每个词对应的翻译词;当所述待翻译文本中目标词所对应的翻译词数量不少于两个时,按照指定序号从所述目标词对应的多个翻译词中选择翻译词;根据所选择的翻译词以及翻译词数量为一个的词所对应的翻译词,生成目标语言的译文文本。
16.根据权利要求14所述的装置,其特征在于,所述翻译模块,还用于
对所述待翻译文本进行分词处理,得到包括分词后词组的待翻译文本;对所述待翻译文本中的各所述词组进行翻译,得到各词组对应的翻译词;当所述待翻译文本中目标词组所对应的翻译词数量不少于两个时,按照指定序号从所述目标词组对应的多个翻译词中选择翻译词;根据所选择的翻译词以及翻译词数量为一个的词组所对应的翻译词,生成目标语言的译文文本。
17.根据权利要求13所述的装置,其特征在于,所述第一确定模块,还用于对所述译文文本进行分词处理,得到所述译文文本的各分词;获取所述译文文本中的各所述分词对应的词向量。
18.根据权利要求13所述的装置,其特征在于,所述获取模块,还用于接收输入的指令,根据所述指令获取剪贴板中的待翻译文本;或者,从服务器或本地的数据库获取所述待翻译文本。
19.根据权利要求13所述的装置,其特征在于,所述处理标记包括插入标记、替换标记、删除标记和保留标记。
20.根据权利要求16至19任一项所述的装置,其特征在于,所述第二确定模块,还用于当所述处理标记为删除标记时,在所述译文文本对记为所述删除标记的分词进行删除,得到包含待修改分词的筛选后文本;依据所述筛选后文本中各待修改分词的上下文信息和所述译文文本中各分词的上下文信息,确定各所述待修改分词所对应的目标词。
21.根据权利要求20所述的装置,其特征在于,所述第二确定模块,还用于对所述筛选后文本中各待修改分词的词向量进行编码,得到第二编码向量;所述第二编码向量中包含所述待修改分词在所述筛选后文本中的上下文信息;根据第一编码向量和所述第二编码向量,生成所述译文文本中各分词所对应的目标词;所述第一编码向量为所述译文文本中各分词的编码向量。
22.根据权利要求21所述的装置,其特征在于,所述第二确定模块,还用于通过机器学习模型中的编码层对所述筛选后文本中各待修改分词的词向量进行编码;通过所述机器学习模型中的分类层,对第一编码向量和所述第二编码向量进行解码,得到所述译文文本中各分词所对应的目标词。
23.根据权利要求13至19任意一项所述的装置,其特征在于,所述修改模块,还用于当所述处理标记为插入标记时,则在过滤后所得的译文文本中按照所述插入标记将所述目标词插入至所述译文文本;当所述处理标记为替换标记时,则在过滤后所得的译文文本中将记为所述替换标记的分词替换为所述目标词。
24.根据权利要求13至19任意一项所述的装置,其特征在于,所述装置还包括:
调整模块,用于按照所述目标语言的语法规则,确定修改后的译文文本中各分词的语序;按照所确定的语序对所述修改后的译文文本中各分词进行调整,得到目标译文文本。
25.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述方法的步骤。
26.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010157566.0A CN111368531B (zh) | 2020-03-09 | 2020-03-09 | 翻译文本处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010157566.0A CN111368531B (zh) | 2020-03-09 | 2020-03-09 | 翻译文本处理方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111368531A CN111368531A (zh) | 2020-07-03 |
CN111368531B true CN111368531B (zh) | 2023-04-14 |
Family
ID=71208691
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010157566.0A Active CN111368531B (zh) | 2020-03-09 | 2020-03-09 | 翻译文本处理方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111368531B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112199963A (zh) * | 2020-09-30 | 2021-01-08 | 北京搜狗科技发展有限公司 | 一种文本处理方法、装置和用于文本处理的装置 |
CN112380879A (zh) * | 2020-11-16 | 2021-02-19 | 深圳壹账通智能科技有限公司 | 一种智能翻译方法、装置、计算机设备和存储介质 |
CN113239707A (zh) * | 2021-03-01 | 2021-08-10 | 北京小米移动软件有限公司 | 文本翻译方法、文本翻译装置及存储介质 |
CN114492470A (zh) * | 2021-12-31 | 2022-05-13 | 广州华多网络科技有限公司 | 商品标题文本翻译方法及其装置、设备、介质、产品 |
CN114611505A (zh) * | 2022-03-07 | 2022-06-10 | 云知声智能科技股份有限公司 | 非自回归神经机器翻译解码方法、装置、设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IE920608A1 (en) * | 1991-02-27 | 1992-09-09 | Digital Equipment Corp | Interface for symbol table construction in a multilanguage¹optimizing compiler |
JPH0969106A (ja) * | 1995-06-23 | 1997-03-11 | Roehm Properties Bv | 機械翻訳装置及び翻訳処理方法 |
JP2016099675A (ja) * | 2014-11-18 | 2016-05-30 | 日本電信電話株式会社 | 翻訳学習装置、翻訳装置、固有表現学習装置、方法、及びプログラム |
CN106484682A (zh) * | 2015-08-25 | 2017-03-08 | 阿里巴巴集团控股有限公司 | 基于统计的机器翻译方法、装置及电子设备 |
CN106997375A (zh) * | 2017-02-28 | 2017-08-01 | 浙江大学 | 基于深度学习的客服回复推荐方法 |
CN107357789A (zh) * | 2017-07-14 | 2017-11-17 | 哈尔滨工业大学 | 融合多语编码信息的神经机器翻译方法 |
CN107844481A (zh) * | 2017-11-21 | 2018-03-27 | 新疆科大讯飞信息科技有限责任公司 | 识别文本检错方法及装置 |
CN108874785A (zh) * | 2018-06-01 | 2018-11-23 | 清华大学 | 一种翻译处理方法及系统 |
CN110852116A (zh) * | 2019-11-07 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 非自回归神经机器翻译方法、装置、计算机设备和介质 |
-
2020
- 2020-03-09 CN CN202010157566.0A patent/CN111368531B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IE920608A1 (en) * | 1991-02-27 | 1992-09-09 | Digital Equipment Corp | Interface for symbol table construction in a multilanguage¹optimizing compiler |
JPH0969106A (ja) * | 1995-06-23 | 1997-03-11 | Roehm Properties Bv | 機械翻訳装置及び翻訳処理方法 |
JP2016099675A (ja) * | 2014-11-18 | 2016-05-30 | 日本電信電話株式会社 | 翻訳学習装置、翻訳装置、固有表現学習装置、方法、及びプログラム |
CN106484682A (zh) * | 2015-08-25 | 2017-03-08 | 阿里巴巴集团控股有限公司 | 基于统计的机器翻译方法、装置及电子设备 |
CN106997375A (zh) * | 2017-02-28 | 2017-08-01 | 浙江大学 | 基于深度学习的客服回复推荐方法 |
CN107357789A (zh) * | 2017-07-14 | 2017-11-17 | 哈尔滨工业大学 | 融合多语编码信息的神经机器翻译方法 |
CN107844481A (zh) * | 2017-11-21 | 2018-03-27 | 新疆科大讯飞信息科技有限责任公司 | 识别文本检错方法及装置 |
CN108874785A (zh) * | 2018-06-01 | 2018-11-23 | 清华大学 | 一种翻译处理方法及系统 |
CN110852116A (zh) * | 2019-11-07 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 非自回归神经机器翻译方法、装置、计算机设备和介质 |
Non-Patent Citations (5)
Title |
---|
Dong Li 等.Unified language model pre-training for natural language understanding and generation.《Advances in Neural Information Processing Systems》.2019,第32卷1-13. * |
Semmar Nasredine.A hybrid approach for automatic extraction of bilingual multiword expressions from parallel corpora.《Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)》.2018,311-318. * |
唐敏.基于深度学习的中文实体关系抽取方法研究.《中国优秀硕士学位论文全文数据库信息科技辑》.2018,(第10期),I138-1006. * |
朱张莉 等.注意力机制在深度学习中的研究进展.《中文信息学报》.2019,第33卷(第6期),1-11. * |
良龙.基于结构树的老—汉机器翻译方法研究.《中国优秀硕士学位论文全文数据库信息科技辑》.2019,(第01期),I138-5469. * |
Also Published As
Publication number | Publication date |
---|---|
CN111368531A (zh) | 2020-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368531B (zh) | 翻译文本处理方法、装置、计算机设备和存储介质 | |
CN110413746B (zh) | 对用户问题进行意图识别的方法及装置 | |
CN112084331B (zh) | 文本处理、模型训练方法、装置、计算机设备和存储介质 | |
EP3926531B1 (en) | Method and system for visio-linguistic understanding using contextual language model reasoners | |
JP2023509031A (ja) | マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN111026861B (zh) | 文本摘要的生成方法、训练方法、装置、设备及介质 | |
CN114565104A (zh) | 语言模型的预训练方法、结果推荐方法及相关装置 | |
CN112131883B (zh) | 语言模型训练方法、装置、计算机设备和存储介质 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN113705313A (zh) | 文本识别方法、装置、设备及介质 | |
CN108304376B (zh) | 文本向量的确定方法、装置、存储介质及电子装置 | |
CN111881292B (zh) | 一种文本分类方法及装置 | |
CN112188311B (zh) | 用于确定新闻的视频素材的方法和装置 | |
CN114897060B (zh) | 样本分类模型的训练方法和装置、样本分类方法和装置 | |
CN111858898A (zh) | 基于人工智能的文本处理方法、装置及电子设备 | |
CN114416995A (zh) | 信息推荐方法、装置及设备 | |
CN113761220A (zh) | 信息获取方法、装置、设备及存储介质 | |
CN113761868A (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN114492661B (zh) | 文本数据分类方法和装置、计算机设备、存储介质 | |
WO2023134085A1 (zh) | 问题答案的预测方法、预测装置、电子设备、存储介质 | |
CN112270184A (zh) | 自然语言处理方法、装置及存储介质 | |
CN115186085A (zh) | 回复内容处理方法以及媒体内容互动内容的交互方法 | |
CN117173497B (zh) | 一种图像生成方法、装置、电子设备及存储介质 | |
CN114049501A (zh) | 融合集束搜索的图像描述生成方法、系统、介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40026344 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |