CN105512114B - 平行句对的筛选方法和系统 - Google Patents
平行句对的筛选方法和系统 Download PDFInfo
- Publication number
- CN105512114B CN105512114B CN201510927066.XA CN201510927066A CN105512114B CN 105512114 B CN105512114 B CN 105512114B CN 201510927066 A CN201510927066 A CN 201510927066A CN 105512114 B CN105512114 B CN 105512114B
- Authority
- CN
- China
- Prior art keywords
- word
- term vector
- statement
- target language
- screening
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012216 screening Methods 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 32
- 239000013598 vector Substances 0.000 claims abstract description 83
- 239000002689 soil Substances 0.000 claims abstract description 52
- 238000006073 displacement reaction Methods 0.000 claims abstract description 47
- 230000006870 function Effects 0.000 claims abstract description 47
- 239000000463 material Substances 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 56
- 238000012546 transfer Methods 0.000 claims description 35
- 238000005457 optimization Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000013508 migration Methods 0.000 claims 2
- 230000005012 migration Effects 0.000 claims 2
- 238000013519 translation Methods 0.000 description 8
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种平行句对的筛选方法和系统,该方法包括:将每一待筛句对中的源语言语句和目标语言语句均切分成词;利用双语词向量模型确定切分得到的每一个词的词向量;计算源语言语句中每一个词在该源语言语句中的权重值;计算目标语言语句中每一个词在该目标语言语句中的权重值;建立一目标函数;计算目标函数的最优解,并根据最优解确定该待筛句对的泥土移动距离最小值;根据若干个待筛句对的泥土移动距离最小值确定平行句对筛选标准,并根据平行句对筛选标准进行平行句对的筛选。本发明针对平行句对的筛选工作而专门设计,没有假定语料都是互译的,能够对互联网上大量的粗糙的双语语料进行筛选,从而得到高质量的、可靠的双语语料。
Description
技术领域
本发明涉及机器翻译技术领域,尤其是涉及一种平行句对的筛选方法和系统。
背景技术
随着国际交流的日益深入,人们对语言翻译的需求与日俱增。然而,世界上的语言种类繁多,各有特征,形式灵活,使得语言的机器翻译成为尚待解决的难题。为了实现自动的机器翻译,目前的翻译技术一般基于统计模型,而建立可靠的统计模型需要建立大规模高质量的平行语料。然而,高质量的平行语料常常只存在于少量的几种语言中,而且往往受限于特定的领域,例如政府文件、新闻等。随着互联网的兴起,国际信息的交流变得空前便捷,人们对高质量机器翻译的需求也愈加迫切。与此同时,互联网也为机器翻译带来了新的机遇。互联网上的大量语料,使得获得多种语言、多个领域的平行语料成为可能。然而,互联网上语料的质量参差不齐,直接获取的双语语料中可能包含大量噪声,反而不适合机器翻译系统。为此,需要对粗糙的双语语料进行处理,从中筛选出可靠的平行句对。
目前的平行句对筛选方法依赖于词语对齐技术,词语对齐技术并非为平行句对的筛选开发,而是假定输入语料是互译的,因此不适合充满噪声的输入语料。
发明内容
本发明所要解决的技术问题是如何从大量的粗糙的双语语料中筛选出可靠的平行句对。
为解决上述技术问题,本发明提出了一种平行句对的筛选方法和系统。
第一方面,该方法包括:
将每一待筛句对中的源语言语句和目标语言语句均切分成词;
利用双语词向量模型确定切分得到的每一个词的词向量;
计算所述源语言语句中每一个词在该源语言语句中的权重值;
计算所述目标语言语句中每一个词在该目标语言语句中的权重值;
建立一目标函数,其中:
该目标函数的控制变量为所述源语言语句中每一个词与所述目标语言语句中每一个词之间的转移量;
该目标函数的优化目标为该待筛句对中源语言语句和目标语言语句之间的泥土移动距离最小,所述泥土移动距离为所述源语言语句中每一个词的词向量与所述目标语言语句中每一个词的词向量之间的距离与对应的转移量之间的乘积之和;
该目标函数的约束条件包括:每一所述转移量大于等于0、所述目标语言语句中每一个词的权重值等于该词与所述源语言语句中每一个词之间的转移量之和、及所述源语言语句中每一个词的权重值等于该词与所述目标语言语句中每一个词之间的转移量之和;
计算所述目标函数的最优解,并根据所述最优解确定该待筛句对的所述泥土移动距离最小值;
根据若干个待筛句对的泥土移动距离最小值确定平行句对筛选标准,并根据所述平行句对筛选标准进行平行句对的筛选。
可选的,该方法还包括:
将所述源语言语句和所述目标语言语句切分所得到的词转换为统一的大小写。
可选的,所述利用双语词向量模型确定切分得到的每一个词的词向量,包括:
建立数据集,该数据集中包括单语训练集和双语训练集;
利用双语词向量模型对所述单语训练集和所述双语训练集中的训练语料进行训练,得到每一训练语料的词向量;
从训练语料的词向量中筛选出该待筛句对中切分得到的每一个词的词向量。
可选的,该方法还包括:
将根据所述平行句对筛选标准筛选出的平行句对加入所述双语训练集中。
可选的,所述根据若干个待筛句对的泥土移动距离确定平行句对筛选标准,包括:
根据所述若干个待筛句对的泥土移动距离设置筛选比例或设置筛选距离阈值,将所述筛选比例或所述筛选距离阈值作为所述平行句对筛选标准。
可选的,采用下式计算目标语言语句或源语言语句中第i个词的权重值:
其中,ti为目标语言语句中第i个词的权重值,si为源语言语句中第i个词的权重值,TF(i)为相应语句中第i个词的词频,IDF(i)为所述相应语句中第i个词的逆文档频率,vt为目标语言语句所切分得到的词的数量,vs为源语言语句所切分得到的词的数量。
可选的,所建立的目标函数为:
该目标函数的约束条件包括:
wij≥0
其中,d为泥土移动距离的最小值,cij为目标语言语句中第i个词的词向量与源语言语句中第j个词的词向量之间的距离,wij为目标语言语句中第i个词的词向量与源语言语句中第j个词的词向量之间的转移量,vt为目标语言语句所切分得到的词的数量,vs为源语言语句所切分得到的词的数量,ti为目标语言语句中第i个词的权重值,sj为源语言语句中第j个词的权重值。
第二方面,该系统包括:
切分模块,用于将每一待筛句对中的源语言语句和目标语言语句均切分成词;
词向量确定模块,用于利用双语词向量模型确定切分得到的每一个词的词向量;
第一计算模块,用于计算所述源语言语句中每一个词在该源语言语句中的权重值;
第二计算模块,用于计算所述目标语言语句中每一个词在该目标语言语句中的权重值;
函数建立模块,用于建立一目标函数,其中:
该目标函数的控制变量为所述源语言语句中每一个词与所述目标语言语句中每一个词之间的转移量;
该目标函数的优化目标为该待筛句对中源语言语句和目标语言语句之间的泥土移动距离最小,所述泥土移动距离为所述源语言语句中每一个词的词向量与所述目标语言语句中每一个词的词向量之间的距离与对应的转移量之间的乘积之和;
该目标函数的约束条件包括:每一所述转移量大于等于0、所述目标语言语句中每一个词的权重值等于该词与所述源语言语句中每一个词之间的转移量之和,所述源语言语句中每一个词的权重值等于该词与所述目标语言语句中每一个词之间的转移量之和;
第三计算模块,用于计算所述目标函数的最优解,并根据所述最优解确定该待筛句对的所述泥土移动距离;
标准确定模块,用于根据若干个待筛句对的泥土移动距离确定平行句对筛选标准,并根据所述平行句对筛选标准进行平行句对的筛选。
可选的,该系统还包括:
预处理模块,用于将所述源语言语句和所述目标语言语句切分所得到的词转换为统一的大小写。
可选的,所述词向量确定模块包括:
建立单元,用于建立数据集,该数据集中包括单语训练集和双语训练集;
训练单元,用于利用双语词向量模型对所述单语训练集和所述双语训练集中的训练语料进行训练,得到每一训练语料的词向量;
筛选单元,用于从训练语料的词向量中筛选出该待筛句对中切分得到的每一个词的词向量。
本发明将待筛句对中的源语言语句和目标语言语句切分为词,然后根据每一个词的词向量和权重值建立以源语言语句和目标语言语句之间的泥土移动距离最小为优化目标的目标函数,通过求解目标函数计算出泥土移动距离最小值,便得知该待筛语句对中源语言语句的真实意思和目标语言语句的真实意思之间的最小差距。根据该方法可以得到若干个待筛语句对的泥土移动距离最小值。进而根据这些泥土移动距离最小值制定出平行句对筛选标准,然后便可以利用平行句对筛选标准进行平行句对的筛选工作。可见,本发明提供的筛选方法是针对平行句对的筛选工作而专门设计,没有假定语料都是互译的,能够对互联网上大量的粗糙的双语语料进行筛选,从而得到高质量的、可靠的双语语料。
附图说明
通过参考附图会更加清楚地理解本发明的特征信息和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1示出了根据本发明平行句对的筛选方法一实施例的流程示意图;
图2示出了根据本发明平行句对的筛选系统一实施例的结构框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
本发明提供一种平行句对的筛选方法,如图1所示,该方法包括:
步骤S1、将每一待筛句对中的源语言语句和目标语言语句均切分成词;
步骤S2、利用双语词向量模型确定切分得到的每一个词的词向量;
步骤S3、计算所述源语言语句中每一个词在该源语言语句中的权重值;
步骤S4、计算所述目标语言语句中每一个词在该目标语言语句中的权重值;
步骤S5、建立一目标函数,其中:
该目标函数的控制变量为所述源语言语句中每一个词与所述目标语言语句中每一个词之间的转移量;
该目标函数的优化目标为该待筛句对中源语言语句和目标语言语句之间的泥土移动距离最小,所述泥土移动距离为所述源语言语句中每一个词的词向量与所述目标语言语句中每一个词的词向量之间的距离与对应的转移量之间的乘积之和;
该目标函数的约束条件包括:每一所述转移量大于等于0、所述目标语言语句中每一个词的权重值等于该词与所述源语言语句中每一个词之间的转移量之和、及所述源语言语句中每一个词的权重值等于该词与所述目标语言语句中每一个词之间的转移量之和;
步骤S6、计算所述目标函数的最优解,并根据所述最优解确定该待筛句对的所述泥土移动距离最小值;
步骤S7、根据若干个待筛句对的泥土移动距离最小值确定平行句对筛选标准,并根据所述平行句对筛选标准进行平行句对的筛选。
应当理解的是,泥土移动距离的英文表示为Earth Mover’s Distance,其大小表征源语言语句的真实意思和目标语言语句的真实意思之间的差距。具体为:泥土移动距离越小,表示两者的真实意思越接近;泥土移动距离越大,表示两者的真实意思差别越大。因此,在约束条件下求解到的最小泥土移动距离表示源语言语句的真实意思和目标语言语句的真实意思之间的最小差距。
本发明中将待筛句对中的源语言语句和目标语言语句切分为词,然后根据每一个词的词向量和权重值建立以源语言语句和目标语言语句之间的泥土移动距离最小为优化目标的目标函数,通过求解目标函数计算出泥土移动距离最小值,便得知该待筛语句对中源语言语句的真实意思和目标语言语句的真实意思之间的最小差距。根据该方法可以得到若干个待筛语句对的泥土移动距离最小值。进而根据这些泥土移动距离最小值制定出平行句对筛选标准,然后便可以利用平行句对筛选标准进行平行句对的筛选工作。可见,本发明提供的筛选方法是针对平行句对的筛选工作而专门设计,没有假定语料都是互译的,能够对互联网上大量的粗糙的双语语料进行筛选,从而得到高质量的、可靠的双语语料,从而改善后续机器翻译的质量。
在具体实施时,本发明提供的筛选方法还可包括:
将所述源语言语句和所述目标语言语句切分所得到的词转换为统一的大小写。
这样做的好处是,利用大小写统一的词语进行后续的处理,可以提高后续处理的准确性。
在具体实施时,步骤S1可以采用以下方法实现:
建立数据集,该数据集中包括单语训练集和双语训练集;
利用双语词向量模型对所述单语训练集和所述双语训练集中的训练语料进行训练,得到每一训练语料的词向量;
从训练语料的词向量中筛选出该待筛句对中切分得到的每一个词的词向量。
由于单语训练集和双语训练集为较大的训练语料集,因此通过双语词向量模型训练后可以得到大量训练语料的词向量,每一个词对应一个词向量,这样对于待筛语句对中的词基本都可以在训练集中找到,因此通过筛选的方式便可以得到相同词的词向量。
另外,这里不仅采用双语训练集进行训练,还采用单语训练集辅助训练,因此有效利用了大规模的高质量的单语语料。
在具体实施时,本发明提供的筛选方法还可包括:
将根据所述平行句对筛选标准筛选出的平行句对加入所述双语训练集中。
由于利用平行句对筛选标准可以得到高质量、可靠的语料,因此将高质量、可靠的语料加入到双语训练集中,然后利用这个双语训练集进行训练,得到更加准确的词向量,根据这些词向量建立目标函数,计算得到更加精确的泥土移动距离最小值,最终制定出更加可靠的平行句对筛选标准,进一步提高了筛选的可靠性。
在具体实施时,步骤S7中,根据若干个待筛句对的泥土移动距离确定平行句对筛选标准的实现方法有多种,其中一种实现方法是:根据所述若干个待筛句对的泥土移动距离最小值设置筛选比例,该筛选比例可以为80%,这样可以对所有待筛句对的泥土移动距离最小值进行从小到大的排序,然后取前80%的待筛句对为合格的句对。另一种实现方法是:根据所述若干个待筛句对的泥土移动距离最小值设置筛选距离阈值,例如,将所述若干个待筛句对的泥土移动距离最小值的平均值作为距离阈值,将泥土移动距离最小值小于该距离阈值的待筛句对筛选出来,作为合格的平行句对。
在具体实施时,某个词的权重值的含义是该词在相应语句中的重要性占比。具体的,目标语言语句中的第i个词的权重值可以采用以下公式计算:
其中,ti为目标语言语句中第i个词的权重值,TF(i)为目标语言语句中第i个词的词频,IDF(i)为目标语言语句中第i个词的逆文档频率,vt为目标语言语句所切分得到的词的数量。
具体的,源语言语句中的第i个词的权重值可以采用以下公式计算:
其中,si为源语言语句中第i个词的权重值,TF(i)为源语言语句中第i个词的词频,IDF(i)为源语言语句中第i个词的逆文档频率,vs为源语言语句所切分得到的词的数量。
在具体实施时,所建立的目标函数为:
该目标函数的约束条件包括:
wij≥0
其中,d为泥土移动距离的最小值,cij为目标语言语句中第i个词的词向量与源语言语句中第j个词的词向量之间的距离,wij为目标语言语句中第i个词的词向量与源语言语句中第j个词的词向量之间的转移量,vt为目标语言语句所切分得到的词的数量,vs为源语言语句所切分得到的词的数量,ti为目标语言语句中第i个词的权重值,sj为源语言语句中第j个词的权重值。
基于相同的发明构思,本发明还提供一种平行句对的筛选系统,如图2所示,该系统100包括:
切分模块101,用于将每一待筛句对中的源语言语句和目标语言语句均切分成词;
词向量确定模块102,用于利用双语词向量模型确定切分得到的每一个词的词向量;
第一计算模块103,用于计算所述源语言语句中每一个词在该源语言语句中的权重值;
第二计算模块104,用于计算所述目标语言语句中每一个词在该目标语言语句中的权重值;
函数建立模块105,用于建立一目标函数,其中:
该目标函数的控制变量为所述源语言语句中每一个词与所述目标语言语句中每一个词之间的转移量;
该目标函数的优化目标为该待筛句对中源语言语句和目标语言语句之间的泥土移动距离最小,所述泥土移动距离为所述源语言语句中每一个词的词向量与所述目标语言语句中每一个词的词向量之间的距离与对应的转移量之间的乘积之和;
该目标函数的约束条件包括:每一所述转移量大于等于0、所述目标语言语句中每一个词的权重值等于该词与所述源语言语句中每一个词之间的转移量之和,所述源语言语句中每一个词的权重值等于该词与所述目标语言语句中每一个词之间的转移量之和;
第三计算模块106,用于计算所述目标函数的最优解,并根据所述最优解确定该待筛句对的所述泥土移动距离;
标准确定模块107,用于根据若干个待筛句对的泥土移动距离确定平行句对筛选标准,并根据所述平行句对筛选标准进行平行句对的筛选。
可选的,该系统还包括:
预处理模块,用于将所述源语言语句和所述目标语言语句切分所得到的词转换为统一的大小写。
可选的,所述词向量确定模块包括:
建立单元,用于建立数据集,该数据集中包括单语训练集和双语训练集;
训练单元,用于利用双语词向量模型对所述单语训练集和所述双语训练集中的训练语料进行训练,得到每一训练语料的词向量;
筛选单元,用于从训练语料的词向量中筛选出该待筛句对中切分得到的每一个词的词向量。
本发明提供的筛选系统为本发明提供的筛选方法的功能架构模块,其有关部分的解释、说明和有益效果请参见本发明筛选方法中的相应部分,在此不再赘述。
在本发明中,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上,除非另有明确的限定。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (10)
1.一种平行句对的筛选方法,其特征在于,包括:
将每一待筛句对中的源语言语句和目标语言语句均切分成词;
利用双语词向量模型确定切分得到的每一个词的词向量;
计算所述源语言语句中每一个词在该源语言语句中的权重值;
计算所述目标语言语句中每一个词在该目标语言语句中的权重值;
建立一目标函数,其中:
该目标函数的控制变量为所述源语言语句中每一个词与所述目标语言语句中每一个词之间的转移量,所述转移量是指从一个词向量转移到另一个词向量间的迁移量;
该目标函数的优化目标为该待筛句对中源语言语句和目标语言语句之间的泥土移动距离最小,所述泥土移动距离为所述源语言语句中每一个词的词向量与所述目标语言语句中每一个词的词向量之间的距离与对应的转移量之间的乘积之和;
该目标函数的约束条件包括:每一所述转移量大于等于0、所述目标语言语句中每一个词的权重值等于该词与所述源语言语句中每一个词之间的转移量之和、及所述源语言语句中每一个词的权重值等于该词与所述目标语言语句中每一个词之间的转移量之和;
计算所述目标函数的最优解,并根据所述最优解确定该待筛句对的所述泥土移动距离最小值;
根据若干个待筛句对的泥土移动距离最小值确定平行句对筛选标准,并根据所述平行句对筛选标准进行平行句对的筛选。
2.根据权利要求1所述的方法,其特征在于,还包括:
将所述源语言语句和所述目标语言语句切分所得到的词转换为统一的大小写。
3.根据权利要求1所述的方法,其特征在于,所述利用双语词向量模型确定切分得到的每一个词的词向量,包括:
建立数据集,该数据集中包括单语训练集和双语训练集;
利用双语词向量模型对所述单语训练集和所述双语训练集中的训练语料进行训练,得到每一训练语料的词向量;
从训练语料的词向量中筛选出该待筛句对中切分得到的每一个词的词向量。
4.根据权利要求3所述的方法,其特征在于,还包括:
将根据所述平行句对筛选标准筛选出的平行句对加入所述双语训练集中。
5.根据权利要求1所述的方法,其特征在于,所述根据若干个待筛句对的泥土移动距离确定平行句对筛选标准,包括:
根据所述若干个待筛句对的泥土移动距离设置筛选比例或设置筛选距离阈值,将所述筛选比例或所述筛选距离阈值作为所述平行句对筛选标准。
6.根据权利要求1所述的方法,其特征在于,采用下式计算目标语言语句或源语言语句中第i个词的权重值:
其中,ti为目标语言语句中第i个词的权重值,si为源语言语句中第i个词的权重值,TF(i)为相应语句中第i个词的词频,IDF(i)为所述相应语句中第i个词的逆文档频率,vt为目标语言语句所切分得到的词的数量,vs为源语言语句所切分得到的词的数量。
7.根据权利要求1所述的方法,其特征在于,
所建立的目标函数为:
该目标函数的约束条件包括:
wij≥0
其中,d为泥土移动距离的最小值,cij为目标语言语句中第i个词的词向量与源语言语句中第j个词的词向量之间的距离,wij为目标语言语句中第i个词的词向量与源语言语句中第j个词的词向量之间的转移量,vt为目标语言语句所切分得到的词的数量,vs为源语言语句所切分得到的词的数量,ti为目标语言语句中第i个词的权重值,sj为源语言语句中第j个词的权重值。
8.一种平行句对的筛选系统,其特征在于,包括:
切分模块,用于将每一待筛句对中的源语言语句和目标语言语句均切分成词;
词向量确定模块,用于利用双语词向量模型确定切分得到的每一个词的词向量;
第一计算模块,用于计算所述源语言语句中每一个词在该源语言语句中的权重值;
第二计算模块,用于计算所述目标语言语句中每一个词在该目标语言语句中的权重值;
函数建立模块,用于建立一目标函数,其中:
该目标函数的控制变量为所述源语言语句中每一个词与所述目标语言语句中每一个词之间的转移量,所述转移量是指从一个词向量转移到另一个词向量间的迁移量;
该目标函数的优化目标为该待筛句对中源语言语句和目标语言语句之间的泥土移动距离最小,所述泥土移动距离为所述源语言语句中每一个词的词向量与所述目标语言语句中每一个词的词向量之间的距离与对应的转移量之间的乘积之和;
该目标函数的约束条件包括:每一所述转移量大于等于0、所述目标语言语句中每一个词的权重值等于该词与所述源语言语句中每一个词之间的转移量之和,所述源语言语句中每一个词的权重值等于该词与所述目标语言语句中每一个词之间的转移量之和;
第三计算模块,用于计算所述目标函数的最优解,并根据所述最优解确定该待筛句对的所述泥土移动距离;
标准确定模块,用于根据若干个待筛句对的泥土移动距离确定平行句对筛选标准,并根据所述平行句对筛选标准进行平行句对的筛选。
9.根据权利要求8所述的系统,其特征在于,还包括:
预处理模块,用于将所述源语言语句和所述目标语言语句切分所得到的词转换为统一的大小写。
10.根据权利要求8所述的系统,其特征在于,所述词向量确定模块包括:
建立单元,用于建立数据集,该数据集中包括单语训练集和双语训练集;
训练单元,用于利用双语词向量模型对所述单语训练集和所述双语训练集中的训练语料进行训练,得到每一训练语料的词向量;
筛选单元,用于从训练语料的词向量中筛选出该待筛句对中切分得到的每一个词的词向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510927066.XA CN105512114B (zh) | 2015-12-14 | 2015-12-14 | 平行句对的筛选方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510927066.XA CN105512114B (zh) | 2015-12-14 | 2015-12-14 | 平行句对的筛选方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105512114A CN105512114A (zh) | 2016-04-20 |
CN105512114B true CN105512114B (zh) | 2018-06-15 |
Family
ID=55720107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510927066.XA Active CN105512114B (zh) | 2015-12-14 | 2015-12-14 | 平行句对的筛选方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105512114B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108228554A (zh) * | 2016-12-09 | 2018-06-29 | 富士通株式会社 | 基于语义表示模型来生成词向量的方法、装置和电子设备 |
CN110874536B (zh) * | 2018-08-29 | 2023-06-27 | 阿里巴巴集团控股有限公司 | 语料质量评估模型生成方法和双语句对互译质量评估方法 |
CN110489624B (zh) * | 2019-07-12 | 2022-07-19 | 昆明理工大学 | 基于句子特征向量的汉越伪平行句对抽取的方法 |
CN110516230B (zh) * | 2019-07-12 | 2020-09-08 | 昆明理工大学 | 基于枢轴语言的汉-缅双语平行句对抽取方法及装置 |
CN112800779B (zh) * | 2021-03-29 | 2021-08-31 | 智慧芽信息科技(苏州)有限公司 | 文本处理方法及装置、模型训练方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102945232A (zh) * | 2012-11-16 | 2013-02-27 | 沈阳雅译网络技术有限公司 | 面向统计机器翻译的训练语料质量评价及选取方法 |
CN103077157A (zh) * | 2013-01-22 | 2013-05-01 | 清华大学 | 一种文本集合相似性的可视化方法和装置 |
CN103235775A (zh) * | 2013-04-25 | 2013-08-07 | 中国科学院自动化研究所 | 一种融合翻译记忆和短语翻译模型的统计机器翻译方法 |
CN104572634A (zh) * | 2014-12-25 | 2015-04-29 | 中国科学院合肥物质科学研究院 | 一种交互式抽取可比语料与双语词典的方法及其装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8655640B2 (en) * | 2011-03-02 | 2014-02-18 | Raytheon Bbn Technologies Corp. | Automatic word alignment |
-
2015
- 2015-12-14 CN CN201510927066.XA patent/CN105512114B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102945232A (zh) * | 2012-11-16 | 2013-02-27 | 沈阳雅译网络技术有限公司 | 面向统计机器翻译的训练语料质量评价及选取方法 |
CN103077157A (zh) * | 2013-01-22 | 2013-05-01 | 清华大学 | 一种文本集合相似性的可视化方法和装置 |
CN103235775A (zh) * | 2013-04-25 | 2013-08-07 | 中国科学院自动化研究所 | 一种融合翻译记忆和短语翻译模型的统计机器翻译方法 |
CN104572634A (zh) * | 2014-12-25 | 2015-04-29 | 中国科学院合肥物质科学研究院 | 一种交互式抽取可比语料与双语词典的方法及其装置 |
Non-Patent Citations (5)
Title |
---|
《Building an English-Vietnamese Bilingual Corpus for Machine Translation》;Quoc Hung Ngo等;《2012 International Conference on Asian Language Processing》;20121231;全文 * |
《Building Bilingual Parallel Corpora based on Wikipedia》;Mehdi Mohammadi等;《2010 Second International Conference on Computer Engineering and Applications》;20101231;全文 * |
《一种基于分类的平行语料选择方法》;王星;《中文信息学报》;20131130;第27卷(第6期);全文 * |
《从互联网上自动获取领域平行语料》;邵健等;《现代图书情报技术》;20141231(第12期);全文 * |
《基于汉英词性组合的短语级平行语料类别知识挖掘研究》;王东波等;《图书情报工作》;20130630;第57卷(第11期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN105512114A (zh) | 2016-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105512114B (zh) | 平行句对的筛选方法和系统 | |
CN110008338A (zh) | 一种融合gan和迁移学习的电商评价情感分析方法 | |
CN111832403B (zh) | 文档结构识别方法、文档结构识别的模型训练方法和装置 | |
CN108335313A (zh) | 图像分割方法及装置 | |
CN107590134A (zh) | 文本情感分类方法、存储介质及计算机 | |
CN107301171A (zh) | 一种基于情感词典学习的文本情感分析方法和系统 | |
CN107038159A (zh) | 一种基于无监督领域自适应的神经网络机器翻译方法 | |
CN106650756A (zh) | 基于知识迁移的多模态循环神经网络的图像文本描述方法 | |
CN106599198A (zh) | 一种多级联结循环神经网络的图像描述方法 | |
Chen et al. | Improving distributed representation of word sense via wordnet gloss composition and context clustering | |
CN107153640A (zh) | 一种面向初等数学领域的分词方法 | |
CN109472274B (zh) | 深度学习分类模型的训练装置和方法 | |
CN107301170A (zh) | 基于人工智能的切分语句的方法和装置 | |
CN107861954A (zh) | 基于人工智能的信息输出方法和装置 | |
CN106503723A (zh) | 一种视频分类方法及装置 | |
CN109325229A (zh) | 一种利用语义信息计算文本相似度的方法 | |
CN109409432B (zh) | 一种图像处理方法、装置和存储介质 | |
Liu et al. | Compact feature learning for multi-domain image classification | |
CN109960814A (zh) | 模型参数搜索方法以及装置 | |
CN107066548A (zh) | 一种双维度分类提取网页链接的方法 | |
CN110992365A (zh) | 一种基于图像语义分割的损失函数及其设计方法 | |
CN106663242A (zh) | 在文档中标识和显现相关的报告工件 | |
CN104933038A (zh) | 机器翻译方法和机器翻译装置 | |
Xiao et al. | Transformable Convolutional Neural Network for Text Classification. | |
CN107958219A (zh) | 基于多模型和多尺度特征的图像场景分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |