CN107402919B - 基于图的机器翻译数据选择方法及机器翻译数据选择系统 - Google Patents
基于图的机器翻译数据选择方法及机器翻译数据选择系统 Download PDFInfo
- Publication number
- CN107402919B CN107402919B CN201710666759.7A CN201710666759A CN107402919B CN 107402919 B CN107402919 B CN 107402919B CN 201710666759 A CN201710666759 A CN 201710666759A CN 107402919 B CN107402919 B CN 107402919B
- Authority
- CN
- China
- Prior art keywords
- node
- data
- value
- graph
- machine translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明属于数据处理技术领域,公开了一种基于图的机器翻译数据选择方法及机器翻译数据选择系统,所述方法包括:首先是建图,即建立一个无向图;其次是标签传播;最后是根据标签传播之后每个结点对应领域的概率分布进行数据选取的工作。本发明对现有的机器翻译数据选择方法进行了改进;现有的机器翻译数据选择方法只能选择出一种领域的数据,忽视了领域之间的共性;对于待划分领域的数据该发明则能根据给定的领域个数及部分已标注领域数据给出所有领域的概率分布,将领域之间的共性纳入数据选择方法的考虑范围。
Description
技术领域
本发明属于数据处理技术领域,尤其涉及一种基于图的机器翻译数据选择方法。
背景技术
机器翻译是一种利用机器学习的技术将一种自然语言翻译成另外一种自然语言的过程。作为计算语言学的一个重要分支,它涉及认知科学、语言学等学科,是人工智能的终极目标之一。
现有机器翻译所采用的都是数据驱动的技术。所以理论上随着数据量的增长,机器翻译系统的性能也能够跟着提升。但是当训练数据与待翻译的语料来源差异很大的时候,翻译性能往往会严重下降,例如使用新闻领域语料训练的翻译系统很显然不太适合用来翻译微博领域的数据。此外,由于用来搭建翻译模型的训练语料往往包含了不同领域的数据,尤其是从互联网上自动获取的训练语料,其领域来源更是复杂。领域自适应技术的提出就是为了提高机器翻译在不同领域数据上的翻译结果的准确率。数据选择是领域自适应的子分支,它的基本思想是选择和目标领域文本相似的领域数据进行翻译模型的训练和建模,使训练得到的模型在目标领域具有较好的翻译能力。
综上所述,现有技术存在的问题是:
现有数据选择技术是利用某个特定领域的数据训练出一个模型,对于待划分领域的数据进行评分;这种方法最主要的缺陷是对于每个待划分领域的句对给出一个特定的值代表该句对属于某个特定领域的概率而忽视了某些领域之间的共性;实际上存在这一些特定的句对,它们可以同时被划分到很多领域中,比如新闻里面的某句话描述的是关于体育的信息,那这句话既可以被划分到新闻领域,同样也可以被划分到体育领域;由于现有方法在一开始则认定输出的结果为单一领域的概率,并且不能根据给定的领域个数及部分已标注领域数据给出所有领域的概率分布,没能将领域之间的共性纳入数据选择方法的考虑范围。
发明内容
针对现有技术存在的问题,本发明提供了一种基于图的机器翻译数据选择方法。
本发明是这样实现的,一种基于图的机器翻译数据选择方法,所述基于图的机器翻译数据选择方法根据给定的领域个数及部分已标注领域数据给出所有领域的概率分布,将领域之间的共性纳入分析范围,进行数据选取。
进一步,所述基于图的机器翻译数据选择方法具体包括:
首先,建立一个无向图;
其次,进行标签传播;
最后,根据标签传播之后每个结点对应领域的概率分布进行数据选取。
进一步,所述建立一个无向图,包括:进行顶点分配;
所述顶点分配以句对为单位,对每个句对使用一个四维向量表示,向量中的值由以下公式计算得出:
其中le与lf分别代表源语言以及目标语言句子的长度,t(ej|fi)代表第i个源语言的词被翻译成第j个目标语言的词对应的翻译概率;
进一步,在计算向量中所有值之前,利用领域内数据以及领域无关数据训练从源语言到目标语言以及从目标语言到源语言的四个词翻译模型;再根据这四个模型分别计算得到每个句对对应的四维向量;在该过程中,使用词袋模型或者其他特征作为每个顶点的向量。
进一步,所述建立一个无向图,还包括建立k-维树,在建立k-维树之前,需要初始化一个分隔阈值,这个分隔阈值使用方差来确定,方差的计算方式如下:
其中n代表向量的维度;在计算出每个维度的对应方差之后,取方差最大的维度为分隔阈值,接着根据分隔阈值对所有顶点进行排序;取中间值的结点作为父节点,小于该值的被归类到左数据,大于该值的被归类到右数据;重复所述的取中间值的结点作为父节点,小于该值的被归类到左数据,大于该值的被归类到右数据步骤,直到所有结点都被连接起来。
进一步,所述建立一个无向图,还包括k-近邻搜索,所述k-近邻搜索旨在找出与当前结点距离最近的k个结点,对于一个给定的结点,使用当前分隔阈值对应维度的值与根结点进行比较,小于根结点则向左与左子树比较,如果大于根结点则向右与右子树比较,取最后的叶子结点为当前最优;
计算出给定结点与当前最优结点的欧式距离d,以d为半径构建一个超平面;以给顶点为超平面中心,如果该超平面不与任何其他结点相切,则当前最优则为最近邻结点;如果该超平面与其他结点相切,则返回当前最优结点的父节点,与父节点的另一分支进行比较;在搜索路径上重复以上所述使用当前分隔阈值对应维度的值与根结点进行比较和计算出给定结点与当前最优结点的欧式距离d,以d为半径构建一个超平面的步骤直到找到最优结点;其中,k取任意值。
进一步,所述建立一个无向图,还包括权重计算,所述权重计算使用结点的相似性来代表对应相邻结点的权重,相邻结点的相似性使用余弦值计算得到;具体计算公式如下:
其中S和T分别代表两个向量。
进一步,所述标签传播中,给定一个图G=(V,E,W),其中v∈V表示图中的顶点,包含已标注数据I个与待分类数据U个,E代表边,W代表不同边对应的权重,Wij代表第i个结点把标签传递给第j个结点的概率;
所述标签传递的过程具体包括:所有结点传播一次标签V←WV;更新已标注结点的标签为初始状态;重复所有结点传播一次标签V←WV;更新已标注结点的标签为初始状态步骤直到收敛。
进一步,所述数据选取中,经过建立一个无向图、进行标签传播后,所有未标注的结点都有对应领域的概率分布,对需要的领域数值所有数据进行排序,选出指定数量的数据作为最终的机器翻译训练数据使用。
本发明的另一目的在于提供一种基于图的机器翻译数据选择系统。
本发明的优点及积极效果为:本发明对现有的机器翻译数据选择方法进行了改进。现有的机器翻译数据选择方法只能选择出一种领域的数据,忽视了领域之间的共性。对于待划分领域的数据该发明则能根据给定的领域个数及部分已标注领域数据给出所有领域的概率分布,将领域之间的共性纳入数据选择方法的考虑范围。与此同时,该发明可以保证使用基线系统40%的训练数据在纵向领域上提升3%~5%个BLEU值。
附图说明
图1是本发明实施例提供的基于图的机器翻译数据选择方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
现有数据选择技术是利用某个特定领域的数据训练出一个模型,对于待划分领域的数据进行评分;这种方法最主要的缺陷是对于每个待划分领域的句对给出一个特定的值代表该句对属于某个特定领域的概率而忽视了某些领域之间的共性。实际上存在这一些特定的句对,它们可以同时被划分到很多领域中,比如新闻里面的某句话描述的是关于体育的信息,那这句话既可以被划分到新闻领域,同样也可以被划分到体育领域。
下面结合附图及具体实施例对本发明的应用原理作进一步描述。
如图1所示,本发明实施例提供的基于图的机器翻译数据选择方法,包括:
S101:首先是建图,即建立一个无向图;
S102:其次是标签传播;
S103:最后是根据标签传播之后每个结点对应领域的概率分布进行数据选取的工作。
下面结合具体实施例对本发明作进一步描述。
本发明实施例提供的基于图的机器翻译数据选择方法,第一步为建图,这一步骤的主要作用是建立一个无向图。建图主要分为四个步骤,分别为顶点分配、建立k-维树、k-近邻搜索以及权重计算。
顶点分配是以句对为单位的,针对本发明每个句对使用一个四维向量表示,向量中的值由以下公式计算得出:
其中le与lf分别代表源语言以及目标语言句子的长度,t(ej|fi)代表第i个源语言的词被翻译成第j个目标语言的词对应的翻译概率。在计算向量中所有值之前,利用领域内数据以及领域无关数据训练从源语言到目标语言以及从目标语言到源语言的四个词翻译模型。再根据这四个模型分别计算得到每个句对对应的四维向量。在该过程中,可使用词袋模型或者其他特征作为每个顶点的向量。
在建立k-维树之前,需要初始化一个分隔阈值,这个分隔阈值可以使用方差来确定,方差的计算方式如下:
其中n代表向量的维度。在计算出每个维度的对应方差之后,取方差最大的维度为分隔阈值,接着根据分隔阈值对所有顶点进行排序。取中间值的结点作为父节点,小于该值的被归类到左数据,大于该值的被归类到右数据。重复以上步骤直到所有结点都被连接起来。
k-近邻搜索旨在找出与当前结点距离最近的k个结点。对于一个给定的结点,使用当前分隔阈值对应维度的值与根结点进行比较,小于根结点则向左与左子树比较,如果大于根结点则向右与右子树比较,取最后的叶子结点为当前最优。计算出给定结点与当前最优结点的欧式距离d,以d为半径构建一个超平面。以给顶点为超平面中心,如果该超平面不与任何其他结点相切,则当前最优则为最近邻结点。如果该超平面与其他结点相切,则返回当前最优结点的父节点,与父节点的另一分支进行比较。在搜索路径上重复以上步骤直到找到最优结点。在该步骤中k可取任意值。
权重计算是为了计算每个结点与之最邻近的k个结点之间的距离。该发明使用结点的相似性来代表对应相邻结点的权重,相邻结点的相似性可使用余弦值计算得到。具体计算公式如下:
其中S和T分别代表两个向量。该相似性计算方法可使用欧式距离等其他方式代替。
该发明的第二步为标签传播,给定一个图G=(V,E,W),其中v∈V表示图中的顶点,包含已标注数据I个与待分类数据U个,E代表边,W代表不同边对应的权重,在该发明中Wij代表第i个结点把标签传递给第j个结点的概率。标签传递的过程如下:所有结点传播一次标签V←WV;更新已标注结点的标签为初始状态;重复以上步骤直到收敛。该步骤可替换的算法有吸附算法、改良吸附算法等。
该发明的第三步则是选择数据。经过第一步及第二步之后,所有未标注的结点都会有对应领域的概率分布,只需对需要的领域数值对所有数据进行排序,选出指定数量的数据即可作为最终的机器翻译训练数据使用。
本发明对现有的机器翻译数据选择方法进行了改进。现有的机器翻译数据选择方法只能选择出一种领域的数据,忽视了领域之间的共性。对于待划分领域的数据该发明则能根据给定的领域个数及部分已标注领域数据给出所有领域的概率分布,将领域之间的共性纳入数据选择方法的考虑范围。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于图的机器翻译数据选择方法,其特征在于,所述基于图的机器翻译数据选择方法根据给定的领域个数及部分已标注领域数据给出所有领域的概率分布,将领域之间的共性纳入分析范围,进行数据选取;
所述基于图的机器翻译数据选择方法具体包括:
首先,建立一个无向图;
其次,进行标签传播;
最后,根据标签传播之后每个结点对应领域的概率分布进行数据选取;
所述建立一个无向图,包括:进行顶点分配;
所述顶点分配以句对为单位,对每个句对使用一个四维向量表示,向量中的每个值S由以下公式计算得出:
其中le与lf分别代表源语言以及目标语言句子的长度,t(ej|fi)代表第i个源语言的词被翻译成第j个目标语言的词对应的翻译概率,i与j分别代表源语言以及目标语言句子中词的序号;f为Foreign language,通常在机器翻译用来代表源语言,此处代表源语言句子,fi代表原句子f中的第i个词,P为Probability,代表是的概率值,P(e|f)代表条件概率值;S为Score,代表的是最终的得分,此处S代表四维向量中的每个维度值;
在计算向量中所有值之前,利用领域内数据以及领域无关数据训练从源语言到目标语言以及从目标语言到源语言的四个词翻译模型,其中两个词翻译模型由领域内数据训练得到的源语言词翻译成目标语言词对应的概率模型以及目标语言词翻译成源语言词对应的概率模型,另外两个词翻译模型则是使用领域无关数据训练的源语言词翻译成目标语言词对应的概率模型以及目标语言词翻译成源语言词对应的概率模型;再根据这四个模型分别计算得到每个句对对应的四维向量;在此过程中,使用词袋模型或者其他特征作为每个顶点的向量;
所述建立一个无向图,还包括建立k-维树,在建立k-维树之前,需要初始化一个分隔阈值,这个分隔阈值使用方差来确定,方差的计算方式如下:
其中n代表向量的维度;在计算出每个维度的对应方差之后,取方差最大的维度为分隔阈值,接着根据分隔阈值对所有顶点进行排序;取中间值的结点作为父节点,小于该值的被归类到左数据,大于该值的被归类到右数据;重复所述的取中间值的结点作为父节点,小于该值的被归类到左数据,大于该值的被归类到右数据步骤,直到所有结点都被连接起来;D(X)代表方差的值,xi代表第X个节点第i维的值。
2.如权利要求1所述的基于图的机器翻译数据选择方法,其特征在于,所述建立一个无向图,还包括k-近邻搜索,所述k-近邻搜索旨在找出与当前结点距离最近的k个结点,对于一个给定的结点,使用当前分隔阈值对应维度的值与根结点进行比较,小于根结点则向左与左子树比较,如果大于根结点则向右与右子树比较,取最后的叶子结点为当前最优;
计算出给定结点与当前最优结点的欧式距离d,以d为半径构建一个超平面;以给顶点为超平面中心,如果该超平面不与任何其他结点相切,则当前最优则为最近邻结点;如果该超平面与其他结点相切,则返回当前最优结点的父节点,与父节点的另一分支进行比较;在搜索路径上重复以上所述使用当前分隔阈值对应维度的值与根结点进行比较和计算出给定结点与当前最优结点的欧式距离d,以d为半径构建一个超平面的步骤直到找到最优结点;其中,k取任意值。
4.如权利要求1所述的基于图的机器翻译数据选择方法,其特征在于,所述标签传播中,给定一个图G=(V,E,W),其中V表示图中的顶点,包含已标注数据I个与待分类数据U个,E代表边,W代表不同边对应的权重,Wij代表第i个结点把标签传递给第j个结点的概率;
所述标签传递的过程具体包括:所有结点传播一次标签V←WV;更新已标注结点的标签为初始状态;重复所有结点传播一次标签V←WV;更新已标注结点的标签为初始状态步骤直到收敛。
5.如权利要求1所述的基于图的机器翻译数据选择方法,其特征在于,所述数据选取中,经过建立一个无向图、进行标签传播后,所有未标注的结点都有对应领域的概率分布,对需要的领域数值所有数据进行排序,选出指定数量的数据作为最终的机器翻译训练数据使用。
6.一种如权利要求1所述基于图的机器翻译数据选择方法的机器翻译数据选择系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710666759.7A CN107402919B (zh) | 2017-08-07 | 2017-08-07 | 基于图的机器翻译数据选择方法及机器翻译数据选择系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710666759.7A CN107402919B (zh) | 2017-08-07 | 2017-08-07 | 基于图的机器翻译数据选择方法及机器翻译数据选择系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107402919A CN107402919A (zh) | 2017-11-28 |
CN107402919B true CN107402919B (zh) | 2021-02-09 |
Family
ID=60402601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710666759.7A Active CN107402919B (zh) | 2017-08-07 | 2017-08-07 | 基于图的机器翻译数据选择方法及机器翻译数据选择系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107402919B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108415906B (zh) * | 2018-03-28 | 2021-08-17 | 中译语通科技股份有限公司 | 基于领域自动识别篇章机器翻译方法、机器翻译系统 |
CN116522964A (zh) * | 2018-12-29 | 2023-08-01 | 成都中技智慧企业管理咨询有限公司 | 一种文献翻译方法和系统 |
CN110929532B (zh) * | 2019-11-21 | 2023-03-21 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678565A (zh) * | 2013-12-09 | 2014-03-26 | 国家计算机网络与信息安全管理中心 | 一种基于自引导方式的领域自适应句子对齐系统 |
CN105550174A (zh) * | 2015-12-30 | 2016-05-04 | 哈尔滨工业大学 | 基于样本重要性的自动机器翻译领域自适应方法 |
CN106844356A (zh) * | 2017-01-17 | 2017-06-13 | 中译语通科技(北京)有限公司 | 一种基于数据选择改善英中机器翻译质量的方法 |
-
2017
- 2017-08-07 CN CN201710666759.7A patent/CN107402919B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678565A (zh) * | 2013-12-09 | 2014-03-26 | 国家计算机网络与信息安全管理中心 | 一种基于自引导方式的领域自适应句子对齐系统 |
CN105550174A (zh) * | 2015-12-30 | 2016-05-04 | 哈尔滨工业大学 | 基于样本重要性的自动机器翻译领域自适应方法 |
CN106844356A (zh) * | 2017-01-17 | 2017-06-13 | 中译语通科技(北京)有限公司 | 一种基于数据选择改善英中机器翻译质量的方法 |
Non-Patent Citations (4)
Title |
---|
kd-Tree算法原理和开源实现代码;小虫不会飞;《新浪博客》;20131103;全文 * |
基于互联网的统计机器翻译平行句对获取;张博威;《中国优秀硕士学位论文全文数据库信息科技辑》;20160116(第2期);第I138-2141页 * |
基于翻译模型和语言模型相融合的双语句对选择方法;姚亮,洪宇,刘昊等;《中文信息学报》;20160930;第30卷(第5期);第145-152页 * |
张博威.基于互联网的统计机器翻译平行句对获取.《中国优秀硕士学位论文全文数据库信息科技辑》.2016,(第2期),第I138-2141. * |
Also Published As
Publication number | Publication date |
---|---|
CN107402919A (zh) | 2017-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ganea et al. | Hyperbolic neural networks | |
CN110196980B (zh) | 一种基于卷积网络在中文分词任务上的领域迁移 | |
CN109284406B (zh) | 基于差异循环神经网络的意图识别方法 | |
CN111881677A (zh) | 基于深度学习模型的地址匹配算法 | |
CN107402919B (zh) | 基于图的机器翻译数据选择方法及机器翻译数据选择系统 | |
CN107729290B (zh) | 一种利用局部敏感哈希优化的超大规模图的表示学习方法 | |
Shuang et al. | A sentiment information collector–extractor architecture based neural network for sentiment analysis | |
CN111222318B (zh) | 基于双通道双向lstm-crf网络的触发词识别方法 | |
WO2013118435A1 (ja) | 意味的類似度計算方法、システム及びプログラム | |
JP6291443B2 (ja) | 接続関係推定装置、方法、及びプログラム | |
CN110264372B (zh) | 一种基于节点表示的主题社团发现方法 | |
CN109299464B (zh) | 基于网络链接和文档内容的主题嵌入、文档表示方法 | |
CN110889282A (zh) | 一种基于深度学习的文本情感分析方法 | |
CN110489554B (zh) | 基于位置感知互注意力网络模型的属性级情感分类方法 | |
Ren et al. | Detecting the scope of negation and speculation in biomedical texts by using recursive neural network | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN116521882A (zh) | 基于知识图谱的领域长文本分类方法及系统 | |
Wu et al. | An effective approach of named entity recognition for cyber threat intelligence | |
Pina et al. | A simple and efficient method to generate word sense representations | |
CN114564563A (zh) | 一种基于关系分解的端到端实体关系联合抽取方法及系统 | |
CN114332519A (zh) | 一种基于外部三元组和抽象关系的图像描述生成方法 | |
Wang et al. | Extended topic model for word dependency | |
Shang et al. | Improved feature weight algorithm and its application to text classification | |
Krishna et al. | A graph based semi-supervised approach for analysis of derivational nouns in Sanskrit | |
Yu | Chinese named entity recognition with cascaded hybrid model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100040 Shijingshan Road, Shijingshan District, Beijing, No. 20, 16 layer 1601 Applicant after: Chinese translation language through Polytron Technologies Inc Address before: 100040 Shijingshan District railway building, Beijing, the 16 floor Applicant before: Mandarin Technology (Beijing) Co., Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |