CN105446962B - 原文和译文的对齐方法和装置 - Google Patents

原文和译文的对齐方法和装置 Download PDF

Info

Publication number
CN105446962B
CN105446962B CN201511021864.2A CN201511021864A CN105446962B CN 105446962 B CN105446962 B CN 105446962B CN 201511021864 A CN201511021864 A CN 201511021864A CN 105446962 B CN105446962 B CN 105446962B
Authority
CN
China
Prior art keywords
sentence
original text
translation
similarity
notional word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201511021864.2A
Other languages
English (en)
Other versions
CN105446962A (zh
Inventor
江潮
张芃
蔺伟
陈钰清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Language Network (wuhan) Information Technology Co Ltd
Original Assignee
Language Network (wuhan) Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Language Network (wuhan) Information Technology Co Ltd filed Critical Language Network (wuhan) Information Technology Co Ltd
Priority to CN201511021864.2A priority Critical patent/CN105446962B/zh
Publication of CN105446962A publication Critical patent/CN105446962A/zh
Application granted granted Critical
Publication of CN105446962B publication Critical patent/CN105446962B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

一种原文和译文的对齐方法,包括:对所有原文语句分词,去除其中的停用词,获得实义词;获取所述原文语句的每个实义词的所有译项;将每个所述原文语句的每个实义词的所有译项在所有译文语句中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句的相似度;根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似度;将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。本发明公开一种原文和译文的对齐装置。该方法和装置解决原文和译文对齐问题。

Description

原文和译文的对齐方法和装置
技术领域
本发明涉及翻译技术领域,具体涉及一种原文和译文的对齐方法和装置。
背景技术
原文和译文进行对齐是文本翻译完成后的一项基础工作。原文和译文的对齐是建立平行语料库的基础,也是翻译错误定位的基础。
一般而言,如果是按段落对齐,可以将原文和译文按照顺序进行对齐即可。但在段落内将原文和译文按句进行对齐则无法这样简单处理,由于源语言风格、目标语言风格、翻译文风、内容调整等各种原因,段落内的原文语句和译文语句若是简单的按顺序来进行对齐往往会造成大量错配的情况。所以往这种基于句子的原译文对齐工作往往需要人工来处理,既费时费力,效率也很低。
发明内容
本发明实施例的目的在于克服现有技术的上述不足,提供一种原文和译文的对齐方法,该方法基于实义词的相似度,解决了译后处理的原译文对齐问题。
本发明实施例的另一目的在于克服现有技术的上述不足,提供一种原文和译文的对齐装置,该装置基于实义词的相似度,解决了译后处理的原译文对齐问题。
为了实现上述发明目的,本发明实施例的技术方案如下:
一种原文和译文的对齐方法,包括:对所有原文语句分词,去除其中的停用词,获得实义词;获取所述原文语句的每个实义词的所有译项;将每个所述原文语句的每个实义词的所有译项在所有译文语句中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句的相似度;根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似度;将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。
进一步,所述将每个所述原文语句的每个实义词的所有译项在所有所述译文语句中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句的相似度的过程包括:根据sim(nwjl,TRinwr)=L/(dis(nwjl,TRinwr)+L)获得原文语句OR的第j个实义词的第l个译项nwjl与第i个译文语句TRi的第r个实义词TRinwr的相似度;根据获得所述原文语句OR的第j个实义词的第l个译项nwjl与所述译文语句TRi的相似度;根据获得所述原文语句OR的第j个实义词nwj和第i个所述译文语句TRi的相似度;其中,所述原文语句OR具有m个实义词,所述译文中共有n个所述译文语句,所述译文语句TRi具有p个实义词,第j个实义词具有k个译项,L表示调节参数,dis(nwjl,TRinwr)表示所述原文语句OR的第j个实义词的第l个译项nwjl和第i个所述译文语句TRi的第r个实义词TRinwr在词典中的代码的距离,i=1,2,…,n,j=1,2,…,m,l=1,2,…,k,r=1,2,…,p。
进一步,所述根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似度的过程包括:根据获得所述原文语句OR与所述译文语句TRi的相似度。
进一步,还包括:对原文中的所述原文语句按顺序进行编号;对译文中的所述译文语句按顺序进行编号;如果同一所述译文语句和多个所述原文语句的相似度均为最高,则获取多个所述原文语句在所述原文中的所述编号,以及所述译文语句在所述译文中的所述编号;如果多个所述原文语句中的一个所述原文语句在所述原文中的所述编号和所述译文语句在所述译文中的所述编号最接近,则将该一个所述原文语句与所述译文语句匹配并对齐;如果多个所述原文语句中的两个所述原文语句在所述原文中的所述编号和所述译文语句在所述译文中的所述编号均为最接近,则将所述编号较小的所述原文语句与所述译文语句匹配并对齐;比较两个所述原文语句中所述编号较大的所述原文语句与剩余所述译文语句的相似度的高低,将剩余所述译文语句中与所述编号较大的所述原文语句的相似度最高的所述译文语句和所述编号较大的所述原文语句匹配并对齐;重复上述过程,直到每个所述原文语句均与每个所述译文语句匹配并对齐。
进一步:所述词典为按树形结构编码的同义词分类词典。
进一步:所述按树形结构编码的同义词分类词典的每个节点具有唯一的所述代码。
进一步:所述调节参数L为所述按所述树形结构编码的同义词分类词典的层数。
进一步,所述实义词包括:名词、动词、形容词和副词。
以及,一种原文和译文的对齐装置,包括:第一单元,用于对所有原文语句分词,去除其中的停用词,获得实义词;第二单元,用于获取所述原文语句的每个实义词的所有译项;第三单元,用于将每个所述原文语句的每个实义词的所有译项在所有译文语句中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句的相似度;第四单元,用于根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似度;第五单元,用于将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。
本发明实施例的有益效果如下:
1、本发明实施例的原文和译文的对齐方法,基于实义词的相似度,解决了译后处理的原译文对齐问题。
2、本发明实施例的原文和译文的对齐方法,不需要通过人工处理,节省了时间,提高了效率。
3、本发明实施例的原文和译文的对齐装置,基于实义词的相似度,解决了译后处理的原译文对齐问题。
4、本发明实施例的原文和译文的对齐装置,实现了自动化,节省了时间,提高了效率。
附图说明
图1是本发明实施例的原文和译文的对齐方法的流程图;
图2是本发明实施例的原文和译文的对齐装置的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例提供了一种原文和译文的对齐方法。如图1所示,为本发明实施例的原文和译文的对齐方法的流程图。该原文和译文的对齐方法的具体过程如下:
步骤S10:对所有原文语句分词,去除其中的停用词,获得实义词。
具体的,实义词包括:名词、动词、形容词和副词。优选的,将所有实义词建立一个实义词集合。
步骤S20:获取原文语句的每个实义词的所有译项。
一个实义词往往有多种表达含义,每个不同的含义称之为该实义词的一个译项。译项为同义词词典中的最小单位,在词典中有相应的代码与其对应。例如:“骄傲”这个词可以有两种含义,“自豪”和“傲慢”,该两种含义就是骄傲这个词语的两个译项。因此,需要获取每个实义词的所有译项。例如,可建立如表1所示的实义词和译项的对应表。
表1实义词和译项的对应表
步骤S30:将每个原文语句的每个实义词的所有译项在所有译文语句中进行匹配,获得每个原文语句的每个实义词和译文语句的相似度。
其中,步骤S30具体包括如下的过程:
步骤S301:
根据sim(nwjl,TRinwr)=L/(dis(nwjl,TRinwr)+L)获得原文语句OR的第j个实义词的第l个译项nwjl与第i个译文语句TRi的第r个实义词TRinwr的相似度。
本实施例中的实义词和实义词之间的相似度是一个取值范围在[0,1]之间的数值。如果一个实义词是另一个实义词的本身的语义,则两个实义词之间的相似度为1;如果两个实义词在任何上下文中都不能替换,则两个实义词之间的相似度为0。
其中,原文语句OR具有m个实义词。译文中共有n个译文语句。译文语句TRi具有p个实义词。i表示译文语句的计数,i=1,2,…,n。第j个实义词具有k个译项。j表示一个原文语句中的实义词的计数,j=1,2,…,m。l表示一个实义词的译项的计数,l=1,2,…,k。r表示一个译文语句中的实义词的计数,r=1,2,…,p。dis(nwjl,TRinwr)表示在词典中,原文语句OR的第j个实义词的第l个译项nwjl和第i个译文语句TRi的第r个实义词TRinwr之间的距离。L表示调节参数。
原文语句OR的第j个实义词的第l个译项nwjl与第i个译文语句TRi的第r个实义词TRinwr的相似度与两个词在词典中的距离呈反比关系。具体的,本发明中所述的词典指的是按树形结构编码的同义词分类的词典。例如,《同义词词林》和《WordNet》等同义词本体工具。该词典中,该按树形结构编码的同义词分类词典的每个节点具有唯一的代码。每个代码对应了若干个译项。调节参数L为按树形结构编码的同义词分类词典的层数,即树形结构的层数。dis(nwjl,TRinwr)具体为原文语句OR的第j个实义词的第l个译项nwjl和第i个译文语句TRi的第r个实义词TRinwr在词典中的代码的距离,即两个代码之间的差值。
步骤S302:
根据下式
获得原文语句OR的第j个实义词的第l个译项nwjl与译文语句TRi的相似度。
步骤S303:
根据下式
获得原文语句OR的第j个实义词nwj和译文语句TRi的相似度。
步骤S40:根据每个原文语句的所有实义词和译文语句的相似度,将每个原文语句和译文语句进行匹配,获得每个原文语句和译文语句的相似度。
根据下式
获得原文语句OR与译文语句TRi的相似度。
步骤S50:将与原文语句相似度最高的译文语句和原文语句匹配并对齐。
将与原文语句OR的相似度最高的译文语句和原文语句OR匹配并对齐。
在步骤S50中,可能存在同一译文语句和多个原句的相似度相同且均为最高的情况,则步骤S50具体还包括如下的比对过程:
(1)对原文中的原文语句按顺序进行编号。
例如,将原文中的第一句编号为1,第二句编号为2,依次类推。优选的,将所有编号后的原文语句建立一个原文语句的集合。
(2)对译文中的译文语句按顺序进行编号。
例如,将译文中的第一句编号为1,第二句编号为2,依次类推。优选的,将所有编号后的译文语句建立一个译文语句的集合。
(3)获取多个原文语句在原文中的编号,以及译文语句在译文中的编号。
具体的,该过程又包括如下的两种处理方式:
1)如果多个原文语句中的一个原文语句在原文中的编号和译文语句在译文中的编号最接近,则将该一个原文语句与译文语句匹配并对齐。
例如,4个原文语句在原文中的编号分别为1,2,3,4。译文语句在译文中的编号为5。该4个原文语句和该译文语句的相似度均为最高。编号为4的原文语句的编号和译文语句的编号最接近,则将编号为4的原文语句和编号为5的译文语句匹配并对齐。
2)如果多个原文语句中的两个原文语句在原文中的编号和译文语句在译文中的编号均为最接近,则将编号较小的原文语句与译文匹配并对齐。比较两个原文语句中编号较大的原文语句与剩余译文语句的相似度的高低,将剩余译文语句中与编号较大的原文语句的相似度最高的译文语句和编号较大的原文语句匹配并对齐。
例如,4个原文语句在原文中的编号分别为1,3,5,7。译文语句在译文中的编号为4。该4个原文语句和译文语句的相似度均为最高。编号为3的原文语句的编号、编号为5的原文语句的编号均和该译文语句的编号最接近。由于编号3比编号5小,则将编号为3的原文语句和编号为4的译文语句匹配并对齐。在编号为4的译文语句以外的剩余译文语句中,如果一译文语句与编号为5的原文语句的相似度最高,则将该译文语句和编号为5的原文语句匹配。
3)重复上述过程1)和2),直到每个原文语句均与每个译文语句匹配并对齐。
本发明的方法基于实义词的相似度,解决了译后处理的原译文对齐问题。该方法可通过机器完成,不需要通过人工处理,节省了时间,提高了效率。
本发明实施例还提供了一种原文和译文的对齐装置。如图2所示,该原文和译文的对齐装置包括:
第一单元101,用于对所有原文语句分词,去除其中的停用词,获得实义词。
第二单元102,用于获取原文语句的每个实义词的所有译项。
第三单元103,用于将每个原文语句的每个实义词的所有译项在所有译文语句中进行匹配,获得每个原文语句的每个实义词和译文语句的相似度。
第四单元104,用于根据每个原文语句的所有实义词和译文语句的相似度,将每个原文语句和译文语句进行匹配,获得每个原文语句和译文语句的相似度。
第五单元105,用于将与原文语句相似度最高的译文语句和原文语句匹配并对齐。
本发明的原文和译文的对齐装置用以实现上述的原文和译文的对齐方法,基于实义词的相似度,解决了译后处理的原译文对齐问题。该装置使得上述的方法不需要通过人工实现,实现了自动化,节省了时间,提高了效率。
本发明提供了一种以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包括在本发明的保护范围之内。

Claims (10)

1.一种原文和译文的对齐方法,其特征在于,包括:
对所有原文语句分词,去除其中的停用词,获得实义词;
获取所述原文语句的每个实义词的所有译项,其中,一个所述译项为所述实义词的一种表达含义;
将每个所述原文语句的每个实义词的所有译项在所有译文语句中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句的相似度;
根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似度;
将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。
2.如权利要求1所述的原文和译文的对齐方法,其特征在于,所述将每个所述原文语句的每个实义词的所有译项在所有所述译文语句中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句的相似度的过程包括:
根据sim(nwjl,TRinwr)=L/(dis(nwjl,TRinwr)+L)获得原文语句OR的第j个实义词的第l个译项nwjl与第i个译文语句TRi的第r个实义词TRinwr的相似度;
根据获得所述原文语句OR的第j个实义词的第l个译项nwjl与所述译文语句TRi的相似度;
根据获得所述原文语句OR的第j个实义词nwj和第i个所述译文语句TRi的相似度;
其中,所述原文语句OR具有m个实义词,所述译文中共有n个所述译文语句,所述译文语句TRi具有p个实义词,第j个实义词具有k个译项,L表示调节参数,dis(nwjl,TRinwr)表示所述原文语句OR的第j个实义词的第l个译项nwjl和第i个所述译文语句TRi的第r个实义词TRinwr在词典中的代码的距离,i=1,2,…,n,j=1,2,…,m,l=1,2,…,k,r=1,2,…,p。
3.如权利要求2所述的原文和译文的对齐方法,其特征在于,所述根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似度的过程包括:
根据获得所述原文语句OR与所述译文语句TRi的相似度。
4.如权利要求3所述的原文和译文的对齐方法,其特征在于,所述将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐的过程包括:
根据获得与所述原文语句OR的相似度最高的所述译文语句;
将与所述原文语句OR的相似度最高的所述译文语句和所述原文语句OR匹配,并对齐所述原文语句OR和所述译文语句。
5.如权利要求1所述的原文和译文的对齐方法,其特征在于,还包括:
对原文中的所述原文语句按顺序进行编号;
对译文中的所述译文语句按顺序进行编号;
如果同一所述译文语句和多个所述原文语句的相似度均为最高,则获取多个所述原文语句在所述原文中的所述编号,以及所述译文语句在所述译文中的所述编号;
如果多个所述原文语句中的一个所述原文语句在所述原文中的所述编号和所述译文语句在所述译文中的所述编号最接近,则将该一个所述原文语句与所述译文语句匹配并对齐;
如果多个所述原文语句中的两个所述原文语句在所述原文中的所述编号和所述译文语句在所述译文中的所述编号均为最接近,则将所述编号较小的所述原文语句与所述译文语句匹配并对齐;
比较两个所述原文语句中所述编号较大的所述原文语句与剩余所述译文语句的相似度的高低,将剩余所述译文语句中与所述编号较大的所述原文语句的相似度最高的所述译文语句和所述编号较大的所述原文语句匹配并对齐;
重复上述过程,直到每个所述原文语句均与每个所述译文语句匹配并对齐。
6.如权利要求2所述的原文和译文的对齐方法,其特征在于:所述词典为按树形结构编码的同义词分类词典。
7.如权利要求6所述的原文和译文的对齐方法,其特征在于:所述按树形结构编码的同义词分类词典的每个节点具有唯一的所述代码。
8.如权利要求7所述的原文和译文的对齐方法,其特征在于:所述调节参数L为所述按所述树形结构编码的同义词分类词典的层数。
9.如权利要求1所述的原文和译文的对齐方法,其特征在于,所述实义词包括:名词、动词、形容词和副词。
10.一种原文和译文的对齐装置,其特征在于,包括:
第一单元,用于对所有原文语句分词,去除其中的停用词,获得实义词;
第二单元,用于获取所述原文语句的每个实义词的所有译项;
第三单元,用于将每个所述原文语句的每个实义词的所有译项在所有译文语句中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句的相似度;
第四单元,用于根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似度;
第五单元,用于将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。
CN201511021864.2A 2015-12-30 2015-12-30 原文和译文的对齐方法和装置 Active CN105446962B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511021864.2A CN105446962B (zh) 2015-12-30 2015-12-30 原文和译文的对齐方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511021864.2A CN105446962B (zh) 2015-12-30 2015-12-30 原文和译文的对齐方法和装置

Publications (2)

Publication Number Publication Date
CN105446962A CN105446962A (zh) 2016-03-30
CN105446962B true CN105446962B (zh) 2018-08-10

Family

ID=55557176

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511021864.2A Active CN105446962B (zh) 2015-12-30 2015-12-30 原文和译文的对齐方法和装置

Country Status (1)

Country Link
CN (1) CN105446962B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126506B (zh) * 2016-06-22 2019-10-22 上海一者信息科技有限公司 一种在线语料对齐方法及系统
CN106021238A (zh) * 2016-06-28 2016-10-12 广州华多网络科技有限公司 信息匹配方法、装置及终端
CN106777268A (zh) * 2016-12-28 2017-05-31 语联网(武汉)信息技术有限公司 一种翻译文档存储与检索的方法
CN107229611B (zh) * 2017-05-18 2020-06-30 大连大学 一种基于词对齐的历史典籍分词方法
CN107526729B (zh) * 2017-08-10 2021-02-19 传神联合(北京)信息技术有限公司 原译文定位的方法及装置
CN107885737B (zh) * 2017-12-27 2021-04-27 传神语联网网络科技股份有限公司 一种人机互动翻译方法及系统
CN108734110B (zh) * 2018-04-24 2022-08-09 达而观信息科技(上海)有限公司 基于最长公共子序列的文本段落识别对比方法及系统
CN109033093A (zh) * 2018-07-01 2018-12-18 东莞市华睿电子科技有限公司 一种基于相似度匹配的文本翻译方法
CN111597826B (zh) * 2020-05-15 2021-10-01 苏州七星天专利运营管理有限责任公司 一种辅助翻译中处理术语的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187923A (zh) * 2006-11-23 2008-05-28 夏普株式会社 翻译系统中用于匹配双语文本和增加准确性的方法
CN101290616A (zh) * 2008-06-11 2008-10-22 中国科学院计算技术研究所 一种统计机器翻译方法和系统
CN101488126A (zh) * 2008-12-31 2009-07-22 深圳市点通数据有限公司 双语语句对齐方法及装置
CN104360996A (zh) * 2014-11-27 2015-02-18 武汉传神信息技术有限公司 双语文本的句子对齐方法
CN104375988A (zh) * 2014-11-04 2015-02-25 北京第二外国语学院 一种词语对齐方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101908042B (zh) * 2010-08-09 2016-04-13 中国科学院自动化研究所 一种双语联合语义角色的标注方法
JP2014078132A (ja) * 2012-10-10 2014-05-01 Toshiba Corp 機械翻訳装置、方法およびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187923A (zh) * 2006-11-23 2008-05-28 夏普株式会社 翻译系统中用于匹配双语文本和增加准确性的方法
CN101290616A (zh) * 2008-06-11 2008-10-22 中国科学院计算技术研究所 一种统计机器翻译方法和系统
CN101488126A (zh) * 2008-12-31 2009-07-22 深圳市点通数据有限公司 双语语句对齐方法及装置
CN104375988A (zh) * 2014-11-04 2015-02-25 北京第二外国语学院 一种词语对齐方法及装置
CN104360996A (zh) * 2014-11-27 2015-02-18 武汉传神信息技术有限公司 双语文本的句子对齐方法

Also Published As

Publication number Publication date
CN105446962A (zh) 2016-03-30

Similar Documents

Publication Publication Date Title
CN105446962B (zh) 原文和译文的对齐方法和装置
Yang et al. Joint relational embeddings for knowledge-based question answering
US10824816B2 (en) Semantic parsing method and apparatus
Chen et al. Improving distributed representation of word sense via wordnet gloss composition and context clustering
CN102654866A (zh) 例句索引创建方法和装置以及例句检索方法和装置
WO2017216642A3 (en) Cross lingual search using multi-language ontology for text based communication
CN103886053A (zh) 一种基于短文本评论的知识库构建方法
CN105824800A (zh) 一种中文真词错误自动校对方法
CN105653516B (zh) 平行语料对齐的方法和装置
Wang et al. Word vector/conditional random field-based Chinese spelling error detection for SIGHAN-2015 evaluation
CN104077320B (zh) 一种用于生成待发布信息的方法和装置
Hawas Towards a new approach for Arabic root extraction: Exploit relations between the word letters and their placement in the word for Arabic root extraction
CN107562731B (zh) 一种基于疑问语义的自然语言语义计算的方法及装置
CN105677621B (zh) 翻译错误的定位方法和装置
Hangya et al. SZTE-NLP: aspect level opinion mining exploiting syntactic cues
CN110175331B (zh) 专业术语的识别方法、装置、电子设备及可读存储介质
Fonseca et al. Tweaking word embeddings for FAQ ranking
CN101388006B (zh) 一种自动化的文摘实验装置与方法
Wang et al. On detection of synonyms between simplified Chinese of Mainland China and traditional Chinese of Taiwan: a semantic similarity method
KR101763329B1 (ko) 음절 다중 조합 키워드 기반 문형 자동 분류 방법
Xu et al. What is the longest river in the usa? semantic parsing for aggregation questions
Yinhan et al. Calculation of Chinese-Thai Cross-Language Similarity Based on Sentence Embedding
Hameed et al. DIA-English-Arabic neural machine translation domain: sulfur industry
Hoshino et al. Japanese to english machine translation using preordering and compositional distributed semantics
Kusumoto et al. Statistical Machine Translation without Source-side Parallel Corpus Using Word Lattice and Phrase Extension.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 430070 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Applicant after: Language network (Wuhan) Information Technology Co., Ltd.

Address before: 430073 Wuhan, Wuhan City, Hubei, Wuhan City, East Lake New Technology Development Zone Software Park, No. 4, No. five building, E City, Optics Valley.

Applicant before: Wuhan Transn Information Technology Co., Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant