CN105512114A - 平行句对的筛选方法和系统 - Google Patents

平行句对的筛选方法和系统 Download PDF

Info

Publication number
CN105512114A
CN105512114A CN201510927066.XA CN201510927066A CN105512114A CN 105512114 A CN105512114 A CN 105512114A CN 201510927066 A CN201510927066 A CN 201510927066A CN 105512114 A CN105512114 A CN 105512114A
Authority
CN
China
Prior art keywords
word
term vector
sentence
target language
source language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510927066.XA
Other languages
English (en)
Other versions
CN105512114B (zh
Inventor
孙茂松
张檬
刘洋
栾焕博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201510927066.XA priority Critical patent/CN105512114B/zh
Publication of CN105512114A publication Critical patent/CN105512114A/zh
Application granted granted Critical
Publication of CN105512114B publication Critical patent/CN105512114B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种平行句对的筛选方法和系统,该方法包括:将每一待筛句对中的源语言语句和目标语言语句均切分成词;利用双语词向量模型确定切分得到的每一个词的词向量;计算源语言语句中每一个词在该源语言语句中的权重值;计算目标语言语句中每一个词在该目标语言语句中的权重值;建立一目标函数;计算目标函数的最优解,并根据最优解确定该待筛句对的泥土移动距离最小值;根据若干个待筛句对的泥土移动距离最小值确定平行句对筛选标准,并根据平行句对筛选标准进行平行句对的筛选。本发明针对平行句对的筛选工作而专门设计,没有假定语料都是互译的,能够对互联网上大量的粗糙的双语语料进行筛选,从而得到高质量的、可靠的双语语料。

Description

平行句对的筛选方法和系统
技术领域
本发明涉及机器翻译技术领域,尤其是涉及一种平行句对的筛选方法和系统。
背景技术
随着国际交流的日益深入,人们对语言翻译的需求与日俱增。然而,世界上的语言种类繁多,各有特征,形式灵活,使得语言的机器翻译成为尚待解决的难题。为了实现自动的机器翻译,目前的翻译技术一般基于统计模型,而建立可靠的统计模型需要建立大规模高质量的平行语料。然而,高质量的平行语料常常只存在于少量的几种语言中,而且往往受限于特定的领域,例如政府文件、新闻等。随着互联网的兴起,国际信息的交流变得空前便捷,人们对高质量机器翻译的需求也愈加迫切。与此同时,互联网也为机器翻译带来了新的机遇。互联网上的大量语料,使得获得多种语言、多个领域的平行语料成为可能。然而,互联网上语料的质量参差不齐,直接获取的双语语料中可能包含大量噪声,反而不适合机器翻译系统。为此,需要对粗糙的双语语料进行处理,从中筛选出可靠的平行句对。
目前的平行句对筛选方法依赖于词语对齐技术,词语对齐技术并非为平行句对的筛选开发,而是假定输入语料是互译的,因此不适合充满噪声的输入语料。
发明内容
本发明所要解决的技术问题是如何从大量的粗糙的双语语料中筛选出可靠的平行句对。
为解决上述技术问题,本发明提出了一种平行句对的筛选方法和系统。
第一方面,该方法包括:
将每一待筛句对中的源语言语句和目标语言语句均切分成词;
利用双语词向量模型确定切分得到的每一个词的词向量;
计算所述源语言语句中每一个词在该源语言语句中的权重值;
计算所述目标语言语句中每一个词在该目标语言语句中的权重值;
建立一目标函数,其中:
该目标函数的控制变量为所述源语言语句中每一个词与所述目标语言语句中每一个词之间的转移量;
该目标函数的优化目标为该待筛句对中源语言语句和目标语言语句之间的泥土移动距离最小,所述泥土移动距离为所述源语言语句中每一个词的词向量与所述目标语言语句中每一个词的词向量之间的距离与对应的转移量之间的乘积之和;
该目标函数的约束条件包括:每一所述转移量大于等于0、所述目标语言语句中每一个词的权重值等于该词与所述源语言语句中每一个词之间的转移量之和、及所述源语言语句中每一个词的权重值等于该词与所述目标语言语句中每一个词之间的转移量之和;
计算所述目标函数的最优解,并根据所述最优解确定该待筛句对的所述泥土移动距离最小值;
根据若干个待筛句对的泥土移动距离最小值确定平行句对筛选标准,并根据所述平行句对筛选标准进行平行句对的筛选。
可选的,该方法还包括:
将所述源语言语句和所述目标语言语句切分所得到的词转换为统一的大小写。
可选的,所述利用双语词向量模型确定切分得到的每一个词的词向量,包括:
建立数据集,该数据集中包括单语训练集和双语训练集;
利用双语词向量模型对所述单语训练集和所述双语训练集中的训练语料进行训练,得到每一训练语料的词向量;
从训练语料的词向量中筛选出该待筛句对中切分得到的每一个词的词向量。
可选的,该方法还包括:
将根据所述平行句对筛选标准筛选出的平行句对加入所述双语训练集中。
可选的,所述根据若干个待筛句对的泥土移动距离确定平行句对筛选标准,包括:
根据所述若干个待筛句对的泥土移动距离设置筛选比例或设置筛选距离阈值,将所述筛选比例或所述筛选距离阈值作为所述平行句对筛选标准。
可选的,采用下式计算目标语言语句或源语言语句中第i个词的权重值:
t i / s i = T F ( i ) × I D F ( i ) Σ k = 1 v t / v s [ T F ( k ) × I D F ( k ) ]
其中,ti为目标语言语句中第i个词的权重值,si为源语言语句中第i个词的权重值,TF(i)为相应语句中第i个词的词频,IDF(i)为所述相应语句中第i个词的逆文档频率,vt为目标语言语句所切分得到的词的数量,vs为源语言语句所切分得到的词的数量。
可选的,所建立的目标函数为:
该目标函数的约束条件包括:
wij≥0
Σ j = 1 v s w i j = t i
Σ i = 1 v t w i j = s j
其中,d为泥土移动距离的最小值,cij为目标语言语句中第i个词的词向量与源语言语句中第j个词的词向量之间的距离,wij为目标语言语句中第i个词的词向量与源语言语句中第j个词的词向量之间的转移量,vt为目标语言语句所切分得到的词的数量,vs为源语言语句所切分得到的词的数量,ti为目标语言语句中第i个词的权重值,sj为源语言语句中第j个词的权重值。
第二方面,该系统包括:
切分模块,用于将每一待筛句对中的源语言语句和目标语言语句均切分成词;
词向量确定模块,用于利用双语词向量模型确定切分得到的每一个词的词向量;
第一计算模块,用于计算所述源语言语句中每一个词在该源语言语句中的权重值;
第二计算模块,用于计算所述目标语言语句中每一个词在该目标语言语句中的权重值;
函数建立模块,用于建立一目标函数,其中:
该目标函数的控制变量为所述源语言语句中每一个词与所述目标语言语句中每一个词之间的转移量;
该目标函数的优化目标为该待筛句对中源语言语句和目标语言语句之间的泥土移动距离最小,所述泥土移动距离为所述源语言语句中每一个词的词向量与所述目标语言语句中每一个词的词向量之间的距离与对应的转移量之间的乘积之和;
该目标函数的约束条件包括:每一所述转移量大于等于0、所述目标语言语句中每一个词的权重值等于该词与所述源语言语句中每一个词之间的转移量之和,所述源语言语句中每一个词的权重值等于该词与所述目标语言语句中每一个词之间的转移量之和;
第三计算模块,用于计算所述目标函数的最优解,并根据所述最优解确定该待筛句对的所述泥土移动距离;
标准确定模块,用于根据若干个待筛句对的泥土移动距离确定平行句对筛选标准,并根据所述平行句对筛选标准进行平行句对的筛选。
可选的,该系统还包括:
预处理模块,用于将所述源语言语句和所述目标语言语句切分所得到的词转换为统一的大小写。
可选的,所述词向量确定模块包括:
建立单元,用于建立数据集,该数据集中包括单语训练集和双语训练集;
训练单元,用于利用双语词向量模型对所述单语训练集和所述双语训练集中的训练语料进行训练,得到每一训练语料的词向量;
筛选单元,用于从训练语料的词向量中筛选出该待筛句对中切分得到的每一个词的词向量。
本发明将待筛句对中的源语言语句和目标语言语句切分为词,然后根据每一个词的词向量和权重值建立以源语言语句和目标语言语句之间的泥土移动距离最小为优化目标的目标函数,通过求解目标函数计算出泥土移动距离最小值,便得知该待筛语句对中源语言语句的真实意思和目标语言语句的真实意思之间的最小差距。根据该方法可以得到若干个待筛语句对的泥土移动距离最小值。进而根据这些泥土移动距离最小值制定出平行句对筛选标准,然后便可以利用平行句对筛选标准进行平行句对的筛选工作。可见,本发明提供的筛选方法是针对平行句对的筛选工作而专门设计,没有假定语料都是互译的,能够对互联网上大量的粗糙的双语语料进行筛选,从而得到高质量的、可靠的双语语料。
附图说明
通过参考附图会更加清楚地理解本发明的特征信息和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1示出了根据本发明平行句对的筛选方法一实施例的流程示意图;
图2示出了根据本发明平行句对的筛选系统一实施例的结构框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
本发明提供一种平行句对的筛选方法,如图1所示,该方法包括:
步骤S1、将每一待筛句对中的源语言语句和目标语言语句均切分成词;
步骤S2、利用双语词向量模型确定切分得到的每一个词的词向量;
步骤S3、计算所述源语言语句中每一个词在该源语言语句中的权重值;
步骤S4、计算所述目标语言语句中每一个词在该目标语言语句中的权重值;
步骤S5、建立一目标函数,其中:
该目标函数的控制变量为所述源语言语句中每一个词与所述目标语言语句中每一个词之间的转移量;
该目标函数的优化目标为该待筛句对中源语言语句和目标语言语句之间的泥土移动距离最小,所述泥土移动距离为所述源语言语句中每一个词的词向量与所述目标语言语句中每一个词的词向量之间的距离与对应的转移量之间的乘积之和;
该目标函数的约束条件包括:每一所述转移量大于等于0、所述目标语言语句中每一个词的权重值等于该词与所述源语言语句中每一个词之间的转移量之和、及所述源语言语句中每一个词的权重值等于该词与所述目标语言语句中每一个词之间的转移量之和;
步骤S6、计算所述目标函数的最优解,并根据所述最优解确定该待筛句对的所述泥土移动距离最小值;
步骤S7、根据若干个待筛句对的泥土移动距离最小值确定平行句对筛选标准,并根据所述平行句对筛选标准进行平行句对的筛选。
应当理解的是,泥土移动距离的英文表示为EarthMover’sDistance,其大小表征源语言语句的真实意思和目标语言语句的真实意思之间的差距。具体为:泥土移动距离越小,表示两者的真实意思越接近;泥土移动距离越大,表示两者的真实意思差别越大。因此,在约束条件下求解到的最小泥土移动距离表示源语言语句的真实意思和目标语言语句的真实意思之间的最小差距。
本发明中将待筛句对中的源语言语句和目标语言语句切分为词,然后根据每一个词的词向量和权重值建立以源语言语句和目标语言语句之间的泥土移动距离最小为优化目标的目标函数,通过求解目标函数计算出泥土移动距离最小值,便得知该待筛语句对中源语言语句的真实意思和目标语言语句的真实意思之间的最小差距。根据该方法可以得到若干个待筛语句对的泥土移动距离最小值。进而根据这些泥土移动距离最小值制定出平行句对筛选标准,然后便可以利用平行句对筛选标准进行平行句对的筛选工作。可见,本发明提供的筛选方法是针对平行句对的筛选工作而专门设计,没有假定语料都是互译的,能够对互联网上大量的粗糙的双语语料进行筛选,从而得到高质量的、可靠的双语语料,从而改善后续机器翻译的质量。
在具体实施时,本发明提供的筛选方法还可包括:
将所述源语言语句和所述目标语言语句切分所得到的词转换为统一的大小写。
这样做的好处是,利用大小写统一的词语进行后续的处理,可以提高后续处理的准确性。
在具体实施时,步骤S1可以采用以下方法实现:
建立数据集,该数据集中包括单语训练集和双语训练集;
利用双语词向量模型对所述单语训练集和所述双语训练集中的训练语料进行训练,得到每一训练语料的词向量;
从训练语料的词向量中筛选出该待筛句对中切分得到的每一个词的词向量。
由于单语训练集和双语训练集为较大的训练语料集,因此通过双语词向量模型训练后可以得到大量训练语料的词向量,每一个词对应一个词向量,这样对于待筛语句对中的词基本都可以在训练集中找到,因此通过筛选的方式便可以得到相同词的词向量。
另外,这里不仅采用双语训练集进行训练,还采用单语训练集辅助训练,因此有效利用了大规模的高质量的单语语料。
在具体实施时,本发明提供的筛选方法还可包括:
将根据所述平行句对筛选标准筛选出的平行句对加入所述双语训练集中。
由于利用平行句对筛选标准可以得到高质量、可靠的语料,因此将高质量、可靠的语料加入到双语训练集中,然后利用这个双语训练集进行训练,得到更加准确的词向量,根据这些词向量建立目标函数,计算得到更加精确的泥土移动距离最小值,最终制定出更加可靠的平行句对筛选标准,进一步提高了筛选的可靠性。
在具体实施时,步骤S7中,根据若干个待筛句对的泥土移动距离确定平行句对筛选标准的实现方法有多种,其中一种实现方法是:根据所述若干个待筛句对的泥土移动距离最小值设置筛选比例,该筛选比例可以为80%,这样可以对所有待筛句对的泥土移动距离最小值进行从小到大的排序,然后取前80%的待筛句对为合格的句对。另一种实现方法是:根据所述若干个待筛句对的泥土移动距离最小值设置筛选距离阈值,例如,将所述若干个待筛句对的泥土移动距离最小值的平均值作为距离阈值,将泥土移动距离最小值小于该距离阈值的待筛句对筛选出来,作为合格的平行句对。
在具体实施时,某个词的权重值的含义是该词在相应语句中的重要性占比。具体的,目标语言语句中的第i个词的权重值可以采用以下公式计算:
t i = T F ( i ) × I D F ( i ) Σ k = 1 v t [ T F ( k ) × I D F ( k ) ]
其中,ti为目标语言语句中第i个词的权重值,TF(i)为目标语言语句中第i个词的词频,IDF(i)为目标语言语句中第i个词的逆文档频率,vt为目标语言语句所切分得到的词的数量。
具体的,源语言语句中的第i个词的权重值可以采用以下公式计算:
s i = T F ( i ) × I D F ( i ) Σ k = 1 v s [ T F ( k ) × I D F ( k ) ]
其中,si为源语言语句中第i个词的权重值,TF(i)为源语言语句中第i个词的词频,IDF(i)为源语言语句中第i个词的逆文档频率,vs为源语言语句所切分得到的词的数量。
在具体实施时,所建立的目标函数为:
该目标函数的约束条件包括:
wij≥0
Σ j = 1 v s w i j = t i
Σ i = 1 v t w i j = s j
其中,d为泥土移动距离的最小值,cij为目标语言语句中第i个词的词向量与源语言语句中第j个词的词向量之间的距离,wij为目标语言语句中第i个词的词向量与源语言语句中第j个词的词向量之间的转移量,vt为目标语言语句所切分得到的词的数量,vs为源语言语句所切分得到的词的数量,ti为目标语言语句中第i个词的权重值,sj为源语言语句中第j个词的权重值。
基于相同的发明构思,本发明还提供一种平行句对的筛选系统,如图2所示,该系统100包括:
切分模块101,用于将每一待筛句对中的源语言语句和目标语言语句均切分成词;
词向量确定模块102,用于利用双语词向量模型确定切分得到的每一个词的词向量;
第一计算模块103,用于计算所述源语言语句中每一个词在该源语言语句中的权重值;
第二计算模块104,用于计算所述目标语言语句中每一个词在该目标语言语句中的权重值;
函数建立模块105,用于建立一目标函数,其中:
该目标函数的控制变量为所述源语言语句中每一个词与所述目标语言语句中每一个词之间的转移量;
该目标函数的优化目标为该待筛句对中源语言语句和目标语言语句之间的泥土移动距离最小,所述泥土移动距离为所述源语言语句中每一个词的词向量与所述目标语言语句中每一个词的词向量之间的距离与对应的转移量之间的乘积之和;
该目标函数的约束条件包括:每一所述转移量大于等于0、所述目标语言语句中每一个词的权重值等于该词与所述源语言语句中每一个词之间的转移量之和,所述源语言语句中每一个词的权重值等于该词与所述目标语言语句中每一个词之间的转移量之和;
第三计算模块106,用于计算所述目标函数的最优解,并根据所述最优解确定该待筛句对的所述泥土移动距离;
标准确定模块107,用于根据若干个待筛句对的泥土移动距离确定平行句对筛选标准,并根据所述平行句对筛选标准进行平行句对的筛选。
可选的,该系统还包括:
预处理模块,用于将所述源语言语句和所述目标语言语句切分所得到的词转换为统一的大小写。
可选的,所述词向量确定模块包括:
建立单元,用于建立数据集,该数据集中包括单语训练集和双语训练集;
训练单元,用于利用双语词向量模型对所述单语训练集和所述双语训练集中的训练语料进行训练,得到每一训练语料的词向量;
筛选单元,用于从训练语料的词向量中筛选出该待筛句对中切分得到的每一个词的词向量。
本发明提供的筛选系统为本发明提供的筛选方法的功能架构模块,其有关部分的解释、说明和有益效果请参见本发明筛选方法中的相应部分,在此不再赘述。
在本发明中,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上,除非另有明确的限定。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种平行句对的筛选方法,其特征在于,包括:
将每一待筛句对中的源语言语句和目标语言语句均切分成词;
利用双语词向量模型确定切分得到的每一个词的词向量;
计算所述源语言语句中每一个词在该源语言语句中的权重值;
计算所述目标语言语句中每一个词在该目标语言语句中的权重值;
建立一目标函数,其中:
该目标函数的控制变量为所述源语言语句中每一个词与所述目标语言语句中每一个词之间的转移量;
该目标函数的优化目标为该待筛句对中源语言语句和目标语言语句之间的泥土移动距离最小,所述泥土移动距离为所述源语言语句中每一个词的词向量与所述目标语言语句中每一个词的词向量之间的距离与对应的转移量之间的乘积之和;
该目标函数的约束条件包括:每一所述转移量大于等于0、所述目标语言语句中每一个词的权重值等于该词与所述源语言语句中每一个词之间的转移量之和、及所述源语言语句中每一个词的权重值等于该词与所述目标语言语句中每一个词之间的转移量之和;
计算所述目标函数的最优解,并根据所述最优解确定该待筛句对的所述泥土移动距离最小值;
根据若干个待筛句对的泥土移动距离最小值确定平行句对筛选标准,并根据所述平行句对筛选标准进行平行句对的筛选。
2.根据权利要求1所述的方法,其特征在于,还包括:
将所述源语言语句和所述目标语言语句切分所得到的词转换为统一的大小写。
3.根据权利要求1所述的方法,其特征在于,所述利用双语词向量模型确定切分得到的每一个词的词向量,包括:
建立数据集,该数据集中包括单语训练集和双语训练集;
利用双语词向量模型对所述单语训练集和所述双语训练集中的训练语料进行训练,得到每一训练语料的词向量;
从训练语料的词向量中筛选出该待筛句对中切分得到的每一个词的词向量。
4.根据权利要求3所述的方法,其特征在于,还包括:
将根据所述平行句对筛选标准筛选出的平行句对加入所述双语训练集中。
5.根据权利要求1所述的方法,其特征在于,所述根据若干个待筛句对的泥土移动距离确定平行句对筛选标准,包括:
根据所述若干个待筛句对的泥土移动距离设置筛选比例或设置筛选距离阈值,将所述筛选比例或所述筛选距离阈值作为所述平行句对筛选标准。
6.根据权利要求1所述的方法,其特征在于,采用下式计算目标语言语句或源语言语句中第i个词的权重值:
t i / s i = T F ( i ) × I D F ( i ) Σ k = 1 v t / v s [ T F ( k ) × I D F ( k ) ]
其中,ti为目标语言语句中第i个词的权重值,si为源语言语句中第i个词的权重值,TF(i)为相应语句中第i个词的词频,IDF(i)为所述相应语句中第i个词的逆文档频率,vt为目标语言语句所切分得到的词的数量,vs为源语言语句所切分得到的词的数量。
7.根据权利要求1所述的方法,其特征在于,
所建立的目标函数为:
该目标函数的约束条件包括:
wij≥0
Σ j = 1 v s w i j = t i
Σ i = 1 v t w i j = s j
其中,d为泥土移动距离的最小值,cij为目标语言语句中第i个词的词向量与源语言语句中第j个词的词向量之间的距离,wij为目标语言语句中第i个词的词向量与源语言语句中第j个词的词向量之间的转移量,vt为目标语言语句所切分得到的词的数量,vs为源语言语句所切分得到的词的数量,ti为目标语言语句中第i个词的权重值,sj为源语言语句中第j个词的权重值。
8.一种平行句对的筛选系统,其特征在于,包括:
切分模块,用于将每一待筛句对中的源语言语句和目标语言语句均切分成词;
词向量确定模块,用于利用双语词向量模型确定切分得到的每一个词的词向量;
第一计算模块,用于计算所述源语言语句中每一个词在该源语言语句中的权重值;
第二计算模块,用于计算所述目标语言语句中每一个词在该目标语言语句中的权重值;
函数建立模块,用于建立一目标函数,其中:
该目标函数的控制变量为所述源语言语句中每一个词与所述目标语言语句中每一个词之间的转移量;
该目标函数的优化目标为该待筛句对中源语言语句和目标语言语句之间的泥土移动距离最小,所述泥土移动距离为所述源语言语句中每一个词的词向量与所述目标语言语句中每一个词的词向量之间的距离与对应的转移量之间的乘积之和;
该目标函数的约束条件包括:每一所述转移量大于等于0、所述目标语言语句中每一个词的权重值等于该词与所述源语言语句中每一个词之间的转移量之和,所述源语言语句中每一个词的权重值等于该词与所述目标语言语句中每一个词之间的转移量之和;
第三计算模块,用于计算所述目标函数的最优解,并根据所述最优解确定该待筛句对的所述泥土移动距离;
标准确定模块,用于根据若干个待筛句对的泥土移动距离确定平行句对筛选标准,并根据所述平行句对筛选标准进行平行句对的筛选。
9.根据权利要求8所述的系统,其特征在于,还包括:
预处理模块,用于将所述源语言语句和所述目标语言语句切分所得到的词转换为统一的大小写。
10.根据权利要求8所述的系统,其特征在于,所述词向量确定模块包括:
建立单元,用于建立数据集,该数据集中包括单语训练集和双语训练集;
训练单元,用于利用双语词向量模型对所述单语训练集和所述双语训练集中的训练语料进行训练,得到每一训练语料的词向量;
筛选单元,用于从训练语料的词向量中筛选出该待筛句对中切分得到的每一个词的词向量。
CN201510927066.XA 2015-12-14 2015-12-14 平行句对的筛选方法和系统 Active CN105512114B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510927066.XA CN105512114B (zh) 2015-12-14 2015-12-14 平行句对的筛选方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510927066.XA CN105512114B (zh) 2015-12-14 2015-12-14 平行句对的筛选方法和系统

Publications (2)

Publication Number Publication Date
CN105512114A true CN105512114A (zh) 2016-04-20
CN105512114B CN105512114B (zh) 2018-06-15

Family

ID=55720107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510927066.XA Active CN105512114B (zh) 2015-12-14 2015-12-14 平行句对的筛选方法和系统

Country Status (1)

Country Link
CN (1) CN105512114B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228554A (zh) * 2016-12-09 2018-06-29 富士通株式会社 基于语义表示模型来生成词向量的方法、装置和电子设备
CN110489624A (zh) * 2019-07-12 2019-11-22 昆明理工大学 基于句子特征向量的汉越伪平行句对抽取的方法
CN110516230A (zh) * 2019-07-12 2019-11-29 昆明理工大学 基于枢轴语言的汉-缅双语平行句对抽取方法及装置
CN110874536A (zh) * 2018-08-29 2020-03-10 阿里巴巴集团控股有限公司 语料质量评估模型生成方法和双语句对互译质量评估方法
CN112800779A (zh) * 2021-03-29 2021-05-14 智慧芽信息科技(苏州)有限公司 文本处理方法及装置、模型训练方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120226489A1 (en) * 2011-03-02 2012-09-06 Bbn Technologies Corp. Automatic word alignment
CN102945232A (zh) * 2012-11-16 2013-02-27 沈阳雅译网络技术有限公司 面向统计机器翻译的训练语料质量评价及选取方法
CN103077157A (zh) * 2013-01-22 2013-05-01 清华大学 一种文本集合相似性的可视化方法和装置
CN103235775A (zh) * 2013-04-25 2013-08-07 中国科学院自动化研究所 一种融合翻译记忆和短语翻译模型的统计机器翻译方法
CN104572634A (zh) * 2014-12-25 2015-04-29 中国科学院合肥物质科学研究院 一种交互式抽取可比语料与双语词典的方法及其装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120226489A1 (en) * 2011-03-02 2012-09-06 Bbn Technologies Corp. Automatic word alignment
CN102945232A (zh) * 2012-11-16 2013-02-27 沈阳雅译网络技术有限公司 面向统计机器翻译的训练语料质量评价及选取方法
CN103077157A (zh) * 2013-01-22 2013-05-01 清华大学 一种文本集合相似性的可视化方法和装置
CN103235775A (zh) * 2013-04-25 2013-08-07 中国科学院自动化研究所 一种融合翻译记忆和短语翻译模型的统计机器翻译方法
CN104572634A (zh) * 2014-12-25 2015-04-29 中国科学院合肥物质科学研究院 一种交互式抽取可比语料与双语词典的方法及其装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
MEHDI MOHAMMADI等: "《Building Bilingual Parallel Corpora based on Wikipedia》", 《2010 SECOND INTERNATIONAL CONFERENCE ON COMPUTER ENGINEERING AND APPLICATIONS》 *
QUOC HUNG NGO等: "《Building an English-Vietnamese Bilingual Corpus for Machine Translation》", 《2012 INTERNATIONAL CONFERENCE ON ASIAN LANGUAGE PROCESSING》 *
王东波等: "《基于汉英词性组合的短语级平行语料类别知识挖掘研究》", 《图书情报工作》 *
王星: "《一种基于分类的平行语料选择方法》", 《中文信息学报》 *
邵健等: "《从互联网上自动获取领域平行语料》", 《现代图书情报技术》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228554A (zh) * 2016-12-09 2018-06-29 富士通株式会社 基于语义表示模型来生成词向量的方法、装置和电子设备
CN110874536A (zh) * 2018-08-29 2020-03-10 阿里巴巴集团控股有限公司 语料质量评估模型生成方法和双语句对互译质量评估方法
CN110874536B (zh) * 2018-08-29 2023-06-27 阿里巴巴集团控股有限公司 语料质量评估模型生成方法和双语句对互译质量评估方法
CN110489624A (zh) * 2019-07-12 2019-11-22 昆明理工大学 基于句子特征向量的汉越伪平行句对抽取的方法
CN110516230A (zh) * 2019-07-12 2019-11-29 昆明理工大学 基于枢轴语言的汉-缅双语平行句对抽取方法及装置
CN110516230B (zh) * 2019-07-12 2020-09-08 昆明理工大学 基于枢轴语言的汉-缅双语平行句对抽取方法及装置
CN110489624B (zh) * 2019-07-12 2022-07-19 昆明理工大学 基于句子特征向量的汉越伪平行句对抽取的方法
CN112800779A (zh) * 2021-03-29 2021-05-14 智慧芽信息科技(苏州)有限公司 文本处理方法及装置、模型训练方法及装置
CN113609872A (zh) * 2021-03-29 2021-11-05 智慧芽信息科技(苏州)有限公司 文本处理方法及装置、模型训练方法及装置

Also Published As

Publication number Publication date
CN105512114B (zh) 2018-06-15

Similar Documents

Publication Publication Date Title
CN105512114A (zh) 平行句对的筛选方法和系统
CN111079406B (zh) 自然语言处理模型训练方法、任务执行方法、设备及系统
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN105824802A (zh) 一种获取知识图谱向量化表示的方法以及装置
CN107871144A (zh) 发票商品名分类方法、系统、设备及计算机可读存储介质
CN103106262B (zh) 文档分类、支持向量机模型生成的方法和装置
CN103699523A (zh) 产品分类方法和装置
CN107609154A (zh) 一种多源异构数据的处理方法及装置
CN103678418A (zh) 信息处理方法和信息处理设备
CN109325229A (zh) 一种利用语义信息计算文本相似度的方法
CN106202584A (zh) 一种基于标准词典和语义规则的微博情感分析方法
CN105975457A (zh) 基于全自动学习的信息分类预测系统
CN106445906A (zh) 领域词典中中长词词组的生成方法及装置
CN102708164A (zh) 电影期望值的计算方法及系统
CN112131389A (zh) LightGBM集成多个BERT模型用于加速系统评价更新的方法
CN110825850A (zh) 一种自然语言主题分类方法及装置
CN104182463A (zh) 一种基于语义的文本分类方法
CN102567529B (zh) 一种基于双视图主动学习技术的跨语言文本分类方法
CN102163189A (zh) 从评论性文本中提取评价性信息的方法和装置
CN111460147A (zh) 一种基于语义增强的标题短文本分类方法
CN110377691A (zh) 文本分类的方法、装置、设备及存储介质
CN105095271A (zh) 微博检索方法和微博检索装置
CN103699568B (zh) 一种从维基中抽取领域术语间上下位关系的方法
CN110609936A (zh) 一种模糊地址数据智能分类的方法
CN104166712A (zh) 科技文献检索方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant