CN111797621B - 一种术语替换方法及系统 - Google Patents
一种术语替换方法及系统 Download PDFInfo
- Publication number
- CN111797621B CN111797621B CN202010501229.9A CN202010501229A CN111797621B CN 111797621 B CN111797621 B CN 111797621B CN 202010501229 A CN202010501229 A CN 202010501229A CN 111797621 B CN111797621 B CN 111797621B
- Authority
- CN
- China
- Prior art keywords
- term
- translation
- current
- alignment
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000013519 translation Methods 0.000 claims abstract description 157
- 230000014616 translation Effects 0.000 claims abstract description 156
- 230000011218 segmentation Effects 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims description 66
- 238000013528 artificial neural network Methods 0.000 claims description 64
- 238000012549 training Methods 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000004807 localization Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供一种术语替换方法及系统,包括:对于重新排序后的术语表中的当前术语,对当前术语进行分词处理,获取若干子术语;将每一子术语和目标原文输入到稀疏词语对齐模型中,获取每一子术语与每一预测术语译文的对齐概率,并选择目标术语译文;若所有目标术语译文之间连续,则将所有目标术语译文替换为本土化翻译,若当前术语不是最后一个术语,则将重新排序后的术语表中的下一个术语重新作为当前术语,重复上述过程,直到更新后的当前术语为最后一个,将最后得到的预设译文作为最佳译文。本发明实施例通过预设术语库存储若干术语和本土化翻译,然后将预设译文中术语的非本土化翻译替换为本土化翻译,得到最终的最佳译文。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种术语替换方法及系统。
背景技术
在翻译过程中,由于有些单词本身是多义词,或者不同人有不同的翻译用词习惯,从而导致同一个的单词可能会被翻译成不同的译文。为了统一翻译里面某些比较重要的词,翻译项目的管理者会定义一些“单词”为固定的翻译方法。那么这些词就称为“术语”。
例如:
原文:叶南弦和凉儿转身离开这里。
译文:YeNanxian andLiang erturned around andleft.
由于小说翻译本土化的需求,叶南弦对应的翻译应该为NathanielYe,凉儿应该翻译为Liang’er。
但是,通过训练影响翻译模型的方式来实现术语替换有个比较麻烦的问题,就是无法影响第三方的翻译模型,比如译员使用google翻译引擎,不可能使用修正后的训练策略去影响google,所以需要一种译后编辑的方式处理这种需求。
因此,亟需一种术语替换方法及系统。
发明内容
为了解决上述问题,本发明实施例提供一种术语替换方法及系统。
第一方面,本发明实施例提供一种术语替换方法,包括:
对于重新排序后的术语表中的当前术语,对所述当前术语进行分词处理,获取所述当前术语对应的若干子术语,其中,所述术语表中包括目标原文中的所有术语和每个术语对应的本土化翻译,重新排序后的术语表为所述术语表中的所有术语按照预设规则排序得到;
将所述当前术语对应的每一子术语和所述目标原文输入到稀疏词语对齐模型中,获取所述当前术语对应的每一子术语与每一预测术语译文的对齐概率,从所有的预测术语译文中选择目标术语译文,所述稀疏词语对齐模型是以若干词汇向量样本为训练样本、以参考词汇向量为标签进行训练得到;
若每一子术语对应的所有目标术语译文之间连续,则将预设译文中的所述目标术语译文替换为所述当前术语对应的本土化翻译,若所述当前术语不是重新排序后的术语表中的最后一个术语,则将重新排序后的术语表中的下一个术语重新作为所述当前术语,重复上述过程,直到更新后的当前术语为重新排序后的术语表中的最后一个,将最后得到的预设译文作为所述目标原文的最佳译文。
优选地,所述重新排序后的术语表具体通过如下方式确定:
对所述目标原文对应的术语表中的所有术语按照长度由大到小的顺序进行排序,获取重新排序后的术语表。
优选地,所述将所述当前术语对应的每一子术语和所述目标原文输入到稀疏词语对齐模型中,获取所述当前术语对应的每一子术语与每一预测术语译文的对齐概率,具体包括:
将所述目标原文和所述当前术语对应的每一子术语输入到稀疏词语对齐模型的输入层和对齐层中,获取所述当前术语对应的每一子术语与每一预测词汇向量的对齐关系矩阵,预测词汇向量为所述预测术语译文对应的向量;
将所述对齐关系矩阵输入到所述稀疏词语对齐模型的softmax函数中,获取所述当前术语对应的每一子术语与每一预测术语译文的对齐概率。
优选地,所述稀疏词语对齐模型是以若干词汇向量样本为训练样本、以参考词汇向量为标签进行训练得到,具体包括:
将每一词汇向量样本输入到所述稀疏词语对齐模型中,获取每一预测词汇向量;
计算每一预测词汇向量和每一词汇向量样本对应的参考词汇向量之间的交叉熵损失;
通过反向传播更新所述稀疏词语对齐模型的参数,重复上述过程,进行梯度下降找到局部最优解,获取训练后的稀疏词语对齐模型。
优选地,所述输入层包括第一输入单元和第二输入单元,其中:
所述第一输入单元由N个GRU神经网络组成,每一GRU神经网络按照预设方向依次连接,N表示所述目标原文中所有分割词语的数量;
所述第二输入单元由N个GRU神经网络组成,每一GRU神经网络按照与所述预设方向相反的方向依次连接;
所述第一输入单元中每一GRU神经网络与所述第二输入单元中每一GRU神经网络一一对应连接。
优选地,所述对齐层位于所述输入层之后,所述对齐层由N个GRU神经网络组成,每一GRU神经网络按照所述预设方向依次连接;
所述第二输入单元中每一GRU神经网络与所述对齐层中每一GRU神经网络一一对应连接。
优选地,所述稀疏词语对齐模型还包括输出层,所述输出层位于所述对齐层之后,所述输出层由M个GRU神经网络组成,每一GRU神经网络按照与所述预设方向依次连接,M表示所述预测译文中所有分割词语的数量;
若M大于N,则所述对齐层中的前N个GRU神经网络与所述对齐层中的每一GRU神经网络一一对应连接;
若M小于N,则所述对齐层的每一GRU神经网络与所述对齐层中前M个GRU神经网络一一对应连接。
优选地,所述术语表通过如下方法获得:
将所述目标原文和预设术语库输入到预设术语匹配模型中,获取所述目标原文对应的术语表。
第二方面,本发明实施例提供一种术语替换系统,包括:
分词模块,用于对于重新排序后的术语表中的当前术语,对所述当前术语进行分词处理,获取所述当前术语对应的若干子术语,其中,所述术语表中包括目标原文中的所有术语和每个术语对应的本土化翻译,重新排序后的术语表为所述术语表中的所有术语按照预设规则排序得到;
对齐模块,用于将所述当前术语对应的每一子术语和所述目标原文输入到稀疏词语对齐模型中,获取所述当前术语对应的每一子术语与每一预测术语译文的对齐概率,从所有的预测术语译文中选择目标术语译文,所述稀疏词语对齐模型是以若干词汇向量样本为训练样本、以参考词汇向量为标签进行训练得到;
概率模块,用于若每一子术语对应的所有目标术语译文之间连续,则将预设译文中的所述目标术语译文替换为所述当前术语对应的本土化翻译,若所述当前术语不是重新排序后的术语表中的最后一个术语,则将重新排序后的术语表中的下一个术语重新作为所述当前术语,重复上述过程,直到更新后的当前术语为重新排序后的术语表中的最后一个,将最后得到的预设译文作为所述目标原文的最佳译文。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现本发明第一方面提供的一种术语替换方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本发明第一方面提供的一种术语替换方法的步骤。
本发明实施例提供的一种术语替换方法及系统,通过预设术语库存储若干术语和该术语对应的本土化翻译,然后将预设译文中术语的非本土化翻译替换为本土化翻译,得到最终的最佳译文。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种术语替换方法的流程图;
图2为本发明实施例中稀疏词语对齐模型的结构示意图;
图3为本发明又一实施例提供的一种术语替换方法的流程示意图;
图4为本发明实施例提供的一种术语替换系统的结构示意图;
图5为本发明实施例提供的一种电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种术语替换方法的流程图,如图1所示,该方法包括:
S1,对于重新排序后的术语表中的当前术语,对所述当前术语进行分词处理,获取所述当前术语对应的若干子术语,其中,所述术语表中包括目标原文中的所有术语和每个术语对应的本土化翻译,重新排序后的术语表为所述术语表中的所有术语按照预设规则排序得到;
首先获取重新排序后的术语表中的当前术语,对当前术语进行分词处理,得到当前术语对应的若干子术语,具体地,术语表中包括目标原文中所有术语和每个术语对应的本土化翻译。
以目标原文为“叶南弦和凉儿转身离开”为例进行说明,该目标原文对应的预设译文为“Ye Nanxian and Liang erturned around and left.”,该目标原文中存在两个术语“叶南弦”和“凉儿”,这两个术语按照预设规则在术语表中进行排序。术语表中的内容为[叶南弦,NathanielYe]和[凉儿,Liang’er],前面为术语,后面为该术语对应的本土化翻译。
以术语“叶南弦”为当前术语例进行说明,对“叶南弦”进行分词处理,得到“叶”、“南”、“弦”三个子术语。
S2,将所述当前术语对应的每一子术语和所述目标原文输入到稀疏词语对齐模型中,获取所述当前术语对应的每一子术语与每一预测术语译文的对齐概率,从所有的预测术语译文中选择目标术语译文,所述稀疏词语对齐模型是以若干词汇向量样本为训练样本、以参考词汇向量为标签进行训练得到;
将当前术语对应的每个子术语和目标原文输入到稀疏词语对齐模型中,得到每个子术语与预测术语译文对齐概率,然后按照一定规则从预测术语译文中选择出目标术语译文。
举例地,将“叶”“南”“弦”三个子术语和目标原文“叶南弦和凉儿转身离开”输入到稀疏词语对齐模型中,得到“叶”和每个单词“Ye”、“Nanxian”“and”“Lianger”“turned”“around”“and”“left”之间的对齐概率,上述各个单词即为预测术语译文,预测术语译文是目标原文对应译文的每个单词。
获得“叶”和每个单词“Ye”、“Nanxian”“and”“Lianger”“turned”“around”“and”“left”之间的对齐概率,本发明实施例中,将对齐概率最大、且对齐概率大于预设概率的预测术语译文作为“叶”的目标术语译文,通过试验发现,“叶”的目标术语译文为“Ye”。本发明实施例中,通过实验验证,预设概率的取值为0.4。
按照同样的过程,找出“南”的目标术语译文“Nanxian”,“弦”的目标术语译文为“Nanxian”。
具体地,本发明实施例中稀疏词语对齐模型是以多个词汇向量样本为训练样本、以参考词汇向量为标签进行训练得到,参考词汇向量为词汇向量样本对应的标准翻译。
S3,若每一子术语对应的所有目标术语译文之间连续,则将预设译文中的所述目标术语译文替换为所述当前术语对应的本土化翻译,若所述当前术语不是重新排序后的术语表中的最后一个术语,则将重新排序后的术语表中的下一个术语重新作为所述当前术语,重复上述过程,直到更新后的当前术语为重新排序后的术语表中的最后一个,将最后得到的预设译文作为所述目标原文的最佳译文。
具体地,如果每个子术语对应的目标术语译文之间是连续的,也就是“叶”“南”“弦”对应的目标术语译文“Ye”“Nanxian”“Nanxian”这三个单词在预设译文“Ye Nanxianand Liang erturned around and left.”是连续的,其目的是为了防止跨次对齐,则将预设译文中所有的目标术语译文替换为当前术语对应的本土化翻译,即将“Ye Nanxian andLiang erturned around and left.”中的“Ye Nanxian”替换为“叶南弦”的本土化翻译“NathanielYe”,然后看“叶南弦”是否为术语表中的最后一个术语,如果不是的话,将下一个术语“凉儿”重新作为当前术语,重复上述过程,将预设译文中的“Liang er”替换为“凉儿”的本土化翻译“Liang’er”。
然后将最后获得的预设译文作为目标原文的最佳译文,即“叶南弦和凉儿转身离开这里。”的最佳译文为“NathanielYe and Liang’erturned around and left.”。
本发明实施例提供的一种术语替换方法,通过预设术语库存储若干术语和该术语对应的本土化翻译,然后将预设译文中术语的非本土化翻译替换为本土化翻译,得到最终的最佳译文。
在上述实施例的基础上,优选地,所述重新排序后的术语表具体通过如下方式确定:
对所述目标原文对应的术语表中的所有术语按照长度由大到小的顺序进行排序,获取重新排序后的术语表。
具体地,本发明实施例中将术语表中的所有术语按照长度,从大到小的顺序进行排序,得到重新排序后的术语表,将长度大的术语先替换,长度短的术语后替换,这样做是为了防止包含子术语从而重复处理引起术语错乱。
在上述实施例的基础上,优选地,所述将所述当前术语对应的每一子术语和所述目标原文输入到稀疏词语对齐模型中,获取所述当前术语对应的每一子术语与每一预测术语译文的对齐概率,具体包括:
将所述目标原文和所述当前术语对应的每一子术语输入到稀疏词语对齐模型的输入层和对齐层中,获取所述当前术语对应的每一子术语与每一预测词汇向量的对齐关系矩阵,预测词汇向量为所述预测术语译文中对应的向量;
将所述对齐关系矩阵输入到所述稀疏词语对齐模型的softmax函数中,获取所述当前术语对应的每一子术语与每一预测术语译文的对齐概率。
具体地,将目标原文和当前术语对应的每个子术语输入到稀疏词语对齐模型的输入层,得到中间结果,将中间结果输入到稀疏词语对齐模型的对齐层,得到当前术语对应的每一子术语与每个预测词汇向量的对齐关系矩阵。预测词汇向量是预测术语译文对应的向量,对齐关系矩阵是每个子术语和预测词汇向量之间对齐关系的表示。
然后将对齐关系矩阵输入到稀疏词语对齐模型的softmax函数中,得到当前术语对应的每个子术语和每个预测术语译文的对齐概率。
在上述实施例的基础上,优选地,所述稀疏词语对齐模型是以若干词汇向量样本为训练样本、以参考词汇向量为标签进行训练得到,具体包括:
将每一词汇向量样本输入到所述稀疏词语对齐模型中,获取每一预测词汇向量;
计算每一预测词汇向量和每一词汇向量样本对应的参考词汇向量之间的交叉熵损失;
通过反向传播更新所述稀疏词语对齐模型的参数,重复上述过程,进行梯度下降找到局部最优解,获取训练后的稀疏词语对齐模型。
具体地,稀疏词语对齐模型是以多个词汇向量样本为训练样本、以参考词汇向量为标签进行训练得到,具体过程如下:
将每个词汇向量样本输入到初始化的稀疏词语对齐模型中,得到每个预测词汇向量,预测词汇向量是稀疏词语对齐模型根据词汇向量样本预测的、所有可能的词汇向量,然后计算每个预测词汇向量和参考词汇向量之间的交叉熵损失,预测词汇向量可以看作是预测值,参考词汇向量可以看作是标准值,通过比较预测值和标准值之间的差距,然后通过反向传播更新稀疏词语对齐模型的参数,不断缩小预测值和标准值之间的差距,重复上述过程,直到通过梯度下降算法找到局部最优解,得到训练后的稀疏词语对齐模型。
在上述实施例的基础上,优选地,所述输入层包括第一输入单元和第二输入单元,其中:
所述第一输入单元由N个GRU神经网络组成,每一GRU神经网络按照预设方向依次连接,N表示所述目标原文中所有分割词语的数量;
所述第二输入单元由N个GRU神经网络组成,每一GRU神经网络按照与所述预设方向相反的方向依次连接;
所述第一输入单元中每一GRU神经网络与所述第二输入单元中每一GRU神经网络一一对应连接。
图2为本发明实施例中稀疏词语对齐模型的结构示意图,从图2中可以看出,输入层由第一输入单元和第二输入单元组成,第一输入单元由N个GRU神经网络组成,并且每个GRU神经网络按照预设方向依次连接,图中水平箭头所指的方向就是预设方向,第一输入单元中的每个GRU神经网络按照向右的方向依次连接。
第二输入单元由N个GRU神经网络按照与预设方向相反的方向依次连接,从图中可以看出来,预设方向为向右的方向,与预设方向相反的方向为向左的方向,第二输入单元中每个GRU神经网络按照向左的方向依次连接。
并且,第一输入单元中每个GRU神经网络还与第二输入单元中每个GRU神经网络一一对应连接。
具体地,第一输入单元记录一个句子的各个空间词汇向量,按照顺序,输入到神经网络之后的。
第二输入单元则是为了防止输入顺序对对齐结果影响过大对输入反向调整再输入一次。
在上述实施例的基础上,优选地,所述对齐层由N个GRU神经网络组成,每一GRU神经网络按照所述预设方向依次连接;
所述第二输入单元中每一GRU神经网络与所述对齐层中每一GRU神经网络一一对应连接。
具体地,对齐层由N个GRU神经网络组成,每个GRU神经网络按照向右的方向依次连接。第二输入单元中每个GRU神经网络和对齐层中每个GRU神经网络一一对应连接。
在上述实施例的基础上,优选地,所述稀疏词语对齐模型还包括输出层,所述输出层由M个GRU神经网络组成,每一GRU神经网络按照与所述预设方向依次连接,M表示所述预测术语译文中所有分割词语的数量;
若M大于N,则所述对齐层中的前N个GRU神经网络与所述对齐层中的每一GRU神经网络一一对应连接;
若M小于N,则所述对齐层的每一GRU神经网络与所述对齐层中前M个GRU神经网络一一对应连接。
具体地,输出层有M个GRU神经网络组成,每个GRU神经网络按照向右的方向依次连接,M表示预测译文中所有分割词语的数量。
由于在实际应用中,M很可能与N不相等,因此,按照顺序将对齐层的GRU神经网络和输出层的GRU神经网络对齐。
基于该稀疏词语对齐模型,经过多方实验验证,本发明实施例提出的方法对稀疏词语的对齐效果比现有技术好。
在上述实施例的基础上,优选地,所述术语表通过如下方法获得:
将所述目标原文和预设术语库输入到预设术语匹配模型中,获取所述目标原文对应的术语表。
具体地,将目标原文和预设术语库输入到预设术语匹配模型中,可以从目标原文中找出包含的术语,预设术语匹配模型是一个训练好的神经网络模型,预设术语库中包括很多个需要进行本土化翻译的术语,如[叶南弦,NathanielYe]、[凉儿,Liang’er]、[昆仑城,Kunlun City]、[演习,maneuver]等。
图3为本发明又一实施例提供的一种术语替换方法的流程示意图,如图3所示,将目标原文和预设术语库输入到预设术语匹配模型中,获得匹配完成后的术语表。
然后将匹配到的术语对应的子术语和目标原文输入到稀疏词语对齐模型,获得术语原文对应译文的词汇,替换对应术语译文的词汇为术语表中对应译文的词汇。
图4为本发明实施例提供的一种术语替换系统的结构示意图,如图4所示,该系统包括:分词模块401、对齐模块402和概率模块403。其中:
分词模块401用于对于重新排序后的术语表中的当前术语,对所述当前术语进行分词处理,获取所述当前术语对应的若干子术语,其中,所述术语表中包括目标原文中的所有术语和每个术语对应的本土化翻译,重新排序后的术语表为所述术语表中的所有术语按照预设规则排序得到;
对齐模块402用于将所述当前术语对应的每一子术语和所述目标原文输入到稀疏词语对齐模型中,获取所述当前术语对应的每一子术语与每一预测术语译文的对齐概率,从所有的预测术语译文中选择目标术语译文,所述稀疏词语对齐模型是以若干词汇向量样本为训练样本、以参考词汇向量为标签进行训练得到;
概率模块403用于若每一子术语对应的所有目标术语译文之间连续,则将预设译文中的所述目标术语译文替换为所述当前术语对应的本土化翻译,若所述当前术语不是重新排序后的术语表中的最后一个术语,则将重新排序后的术语表中的下一个术语重新作为所述当前术语,重复上述过程,直到更新后的当前术语为重新排序后的术语表中的最后一个,将最后得到的预设译文作为所述目标原文的最佳译文。
本发明实施例提供的系统实施例是为了实现上述各方法实施例的,具体流程和详细内容请参照上述方法实施例,此处不再赘述。
图5为本发明实施例提供的一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)501、通信接口(Communications Interface)502、存储器(memory)503和总线504,其中,处理器501,通信接口502,存储器503通过总线504完成相互间的通信。通信接口502可以用于电子设备的信息传输。处理器501可以调用存储器503中的逻辑指令,以执行包括如下的方法:
对于重新排序后的术语表中的当前术语,对所述当前术语进行分词处理,获取所述当前术语对应的若干子术语,其中,所述术语表中包括目标原文中的所有术语和每个术语对应的本土化翻译,重新排序后的术语表为所述术语表中的所有术语按照预设规则排序得到;
将所述当前术语对应的每一子术语和所述目标原文输入到稀疏词语对齐模型中,获取所述当前术语对应的每一子术语与每一预测术语译文的对齐概率,从所有的预测术语译文中选择目标术语译文,所述稀疏词语对齐模型是以若干词汇向量样本为训练样本、以参考词汇向量为标签进行训练得到;
若每一子术语对应的所有目标术语译文之间连续,则将预设译文中的所有目标术语译文替换为所述当前术语对应的本土化翻译,若所述当前术语不是重新排序后的术语表中的最后一个术语,则将重新排序后的术语表中的下一个术语重新作为所述当前术语,重复上述过程,直到更新后的当前术语为重新排序后的术语表中的最后一个,将最后得到的预设译文作为所述目标原文的最佳译文。
此外,上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明上述各方法实施例的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法,例如包括:
对于重新排序后的术语表中的当前术语,对所述当前术语进行分词处理,获取所述当前术语对应的若干子术语,其中,所述术语表中包括目标原文中的所有术语和每个术语对应的本土化翻译,重新排序后的术语表为所述术语表中的所有术语按照预设规则排序得到;
将所述当前术语对应的每一子术语和所述目标原文输入到稀疏词语对齐模型中,获取所述当前术语对应的每一子术语与每一预测术语译文的对齐概率,从所有的预测术语译文中选择目标术语译文,所述稀疏词语对齐模型是以若干词汇向量样本为训练样本、以参考词汇向量为标签进行训练得到;
若每一子术语对应的所有目标术语译文之间连续,则将预设译文中的所有目标术语译文替换为所述当前术语对应的本土化翻译,若所述当前术语不是重新排序后的术语表中的最后一个术语,则将重新排序后的术语表中的下一个术语重新作为所述当前术语,重复上述过程,直到更新后的当前术语为重新排序后的术语表中的最后一个,将最后得到的预设译文作为所述目标原文的最佳译文。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种术语替换方法,其特征在于,包括:
步骤S1,对于重新排序后的术语表中的当前术语,对所述当前术语进行分词处理,获取所述当前术语对应的若干子术语,其中,所述术语表中包括目标原文中的所有术语和每个术语对应的本土化翻译,重新排序后的术语表为所述术语表中的所有术语按照预设规则排序得到;
步骤S2,将所述当前术语对应的每一子术语和所述目标原文输入到稀疏词语对齐模型中,获取所述当前术语对应的每一子术语与每一预测术语译文的对齐概率,从所有的预测术语译文中选择目标术语译文,所述稀疏词语对齐模型是以若干词汇向量样本为训练样本、以参考词汇向量为标签进行训练得到;
步骤S3,若每一子术语对应的所有目标术语译文之间连续,则将预设译文中的所有目标术语译文替换为所述当前术语对应的本土化翻译;
步骤S4,若所述当前术语不是重新排序后的术语表中的最后一个术语,则将重新排序后的术语表中的下一个术语重新作为所述当前术语,重复上述步骤S1、S2和S3,直到更新后的当前术语为重新排序后的术语表中的最后一个,将最后得到的预设译文作为所述目标原文的最佳译文。
2.根据权利要求1所述的术语替换方法,其特征在于,所述重新排序后的术语表具体通过如下方式确定:
对所述目标原文对应的术语表中的所有术语按照长度由大到小的顺序进行排序,获取重新排序后的术语表。
3.根据权利要求1所述的术语替换方法,其特征在于,所述将所述当前术语对应的每一子术语和所述目标原文输入到稀疏词语对齐模型中,获取所述当前术语对应的每一子术语与每一预测术语译文的对齐概率,具体包括:
将所述目标原文和所述当前术语对应的每一子术语输入到稀疏词语对齐模型的输入层,得到中间结果,将中间结果输入到稀疏词语对齐模型的对齐层,获取所述当前术语对应的每一子术语与每一预测词汇向量的对齐关系矩阵,预测词汇向量为所述预测术语译文对应的向量;
将所述对齐关系矩阵输入到所述稀疏词语对齐模型的softmax函数中,获取所述当前术语对应的每一子术语与每一预测术语译文的对齐概率。
4.根据权利要求1所述的术语替换方法,其特征在于,所述稀疏词语对齐模型是以若干词汇向量样本为训练样本、以参考词汇向量为标签进行训练得到,具体包括:
将每一词汇向量样本输入到所述稀疏词语对齐模型中,获取每一预测词汇向量;
计算每一预测词汇向量和每一词汇向量样本对应的参考词汇向量之间的交叉熵损失;
通过反向传播更新所述稀疏词语对齐模型的参数,重复上述过程,进行梯度下降找到局部最优解,获取训练后的稀疏词语对齐模型。
5.根据权利要求3所述的术语替换方法,其特征在于,所述输入层包括第一输入单元和第二输入单元,其中:
所述第一输入单元由N个GRU神经网络组成,每一GRU神经网络按照预设方向依次连接,N表示所述目标原文中所有分割词语的数量;
所述第二输入单元由N个GRU神经网络组成,每一GRU神经网络按照与所述预设方向相反的方向依次连接;
所述第一输入单元中每一GRU神经网络与所述第二输入单元中每一GRU神经网络一一对应连接。
6.根据权利要求5所述的术语替换方法,其特征在于,所述对齐层位于所述输入层之后,所述对齐层由N个GRU神经网络组成,每一GRU神经网络按照所述预设方向依次连接;
所述第二输入单元中每一GRU神经网络与所述对齐层中每一GRU神经网络一一对应连接。
7.根据权利要求6所述的术语替换方法,其特征在于,所述稀疏词语对齐模型还包括输出层,所述输出层位于所述对齐层之后,所述输出层由M个GRU神经网络组成,每一GRU神经网络按照与所述预设方向依次连接,M表示预测译文中所有分割词语的数量;
若M大于N,则所述对齐层中的前N个GRU神经网络与所述对齐层中的每一GRU神经网络一一对应连接;
若M小于N,则所述对齐层的每一GRU神经网络与所述对齐层中前M个GRU神经网络一一对应连接。
8.根据权利要求1所述的术语替换方法,其特征在于,所述术语表通过如下方法获得:
将所述目标原文和预设术语库输入到预设术语匹配模型中,获取所述目标原文对应的术语表。
9.一种术语替换系统,其特征在于,包括:
分词模块,用于对于重新排序后的术语表中的当前术语,对所述当前术语进行分词处理,获取所述当前术语对应的若干子术语,其中,所述术语表中包括目标原文中的所有术语和每个术语对应的本土化翻译,重新排序后的术语表为所述术语表中的所有术语按照预设规则排序得到;
对齐模块,用于将所述当前术语对应的每一子术语和所述目标原文输入到稀疏词语对齐模型中,获取所述当前术语对应的每一子术语与每一预测术语译文的对齐概率,从所有的预测术语译文中选择目标术语译文,所述稀疏词语对齐模型是以若干词汇向量样本为训练样本、以参考词汇向量为标签进行训练得到;
概率模块,用于若每一子术语对应的所有目标术语译文之间连续,则将预设译文中的所述目标术语译文替换为所述当前术语对应的本土化翻译;
所述概率模块,还用于若所述当前术语不是重新排序后的术语表中的最后一个术语,则将重新排序后的术语表中的下一个术语重新作为所述当前术语,重复所述分词模块和所述对齐模块的动作,以及重复所述概率模块的替换动作,直到更新后的当前术语为重新排序后的术语表中的最后一个,将最后得到的预设译文作为所述目标原文的最佳译文。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述术语替换方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010501229.9A CN111797621B (zh) | 2020-06-04 | 2020-06-04 | 一种术语替换方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010501229.9A CN111797621B (zh) | 2020-06-04 | 2020-06-04 | 一种术语替换方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111797621A CN111797621A (zh) | 2020-10-20 |
CN111797621B true CN111797621B (zh) | 2024-05-14 |
Family
ID=72803011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010501229.9A Active CN111797621B (zh) | 2020-06-04 | 2020-06-04 | 一种术语替换方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111797621B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541365B (zh) * | 2020-12-21 | 2024-05-10 | 语联网(武汉)信息技术有限公司 | 基于术语替换的机器翻译方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649289A (zh) * | 2016-12-16 | 2017-05-10 | 中国科学院自动化研究所 | 同时识别双语术语与词对齐的实现方法及实现系统 |
CN107908712A (zh) * | 2017-11-10 | 2018-04-13 | 哈尔滨工程大学 | 基于术语提取的跨语言信息匹配方法 |
CN109299480A (zh) * | 2018-09-04 | 2019-02-01 | 上海传神翻译服务有限公司 | 基于上下文语境的术语翻译方法及装置 |
CN110543644A (zh) * | 2019-09-04 | 2019-12-06 | 语联网(武汉)信息技术有限公司 | 包含术语翻译的机器翻译方法、装置与电子设备 |
CN110705319A (zh) * | 2019-09-26 | 2020-01-17 | 张广睿 | 一种翻译方法 |
CN111191468A (zh) * | 2019-12-17 | 2020-05-22 | 语联网(武汉)信息技术有限公司 | 术语替换方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649288B (zh) * | 2016-12-12 | 2020-06-23 | 北京百度网讯科技有限公司 | 基于人工智能的翻译方法和装置 |
-
2020
- 2020-06-04 CN CN202010501229.9A patent/CN111797621B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649289A (zh) * | 2016-12-16 | 2017-05-10 | 中国科学院自动化研究所 | 同时识别双语术语与词对齐的实现方法及实现系统 |
CN107908712A (zh) * | 2017-11-10 | 2018-04-13 | 哈尔滨工程大学 | 基于术语提取的跨语言信息匹配方法 |
CN109299480A (zh) * | 2018-09-04 | 2019-02-01 | 上海传神翻译服务有限公司 | 基于上下文语境的术语翻译方法及装置 |
CN110543644A (zh) * | 2019-09-04 | 2019-12-06 | 语联网(武汉)信息技术有限公司 | 包含术语翻译的机器翻译方法、装置与电子设备 |
CN110705319A (zh) * | 2019-09-26 | 2020-01-17 | 张广睿 | 一种翻译方法 |
CN111191468A (zh) * | 2019-12-17 | 2020-05-22 | 语联网(武汉)信息技术有限公司 | 术语替换方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111797621A (zh) | 2020-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107168952B (zh) | 基于人工智能的信息生成方法和装置 | |
CN107273503B (zh) | 用于生成同语言平行文本的方法和装置 | |
CN110348535B (zh) | 一种视觉问答模型训练方法及装置 | |
CN106502985B (zh) | 一种用于生成标题的神经网络建模方法及装置 | |
CN106547737B (zh) | 基于深度学习的自然语言处理中的序列标注方法 | |
CN110298035B (zh) | 基于人工智能的字向量定义方法、装置、设备及存储介质 | |
CN110610234B (zh) | 将外部应用程序集成到深度神经网络中 | |
CN110222330B (zh) | 语义识别方法及装置、存储介质、计算机设备 | |
CN111814487B (zh) | 一种语义理解方法、装置、设备及存储介质 | |
CN107305543B (zh) | 对实体词的语义关系进行分类的方法和装置 | |
CN109783801B (zh) | 一种电子装置、多标签分类方法及存储介质 | |
CN111291165B (zh) | 训练词向量嵌入模型的方法及装置 | |
CN111767731A (zh) | 语法纠错模型的训练方法及装置、语法纠错方法及装置 | |
CN108304376B (zh) | 文本向量的确定方法、装置、存储介质及电子装置 | |
US10963647B2 (en) | Predicting probability of occurrence of a string using sequence of vectors | |
CN110348012B (zh) | 确定目标字符的方法、装置、存储介质及电子装置 | |
CN109086463B (zh) | 一种基于区域卷积神经网络的问答社区标签推荐方法 | |
CN114638220A (zh) | 任务处理模型的训练方法、任务处理方法以及装置 | |
CN110298046B (zh) | 一种翻译模型训练方法、文本翻译方法及相关装置 | |
CN111797621B (zh) | 一种术语替换方法及系统 | |
US20220138425A1 (en) | Acronym definition network | |
CN110852063B (zh) | 基于双向lstm神经网络的词向量生成方法及装置 | |
CN111274793A (zh) | 一种文本处理方法、装置以及计算设备 | |
CN112733556B (zh) | 同步交互式翻译方法及装置、存储介质、计算机设备 | |
CN115269767A (zh) | 模型训练方法、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |