CN102012897A

CN102012897A - 一种实现高命中率的逐词比对方法

Info

Publication number: CN102012897A
Application number: CN2010105705161A
Authority: CN
Inventors: 陈淮琰; 巨雷; 郑建锋; 唐海波
Original assignee: Inventec Besta Xian Co Ltd
Current assignee: HAIMEN HUANGHAI PIONEER PARK SERVICES CO., LTD.
Priority date: 2010-12-02
Filing date: 2010-12-02
Publication date: 2011-04-13
Anticipated expiration: 2030-12-02
Also published as: CN102012897B; WO2012071922A1

Abstract

本发明涉及一种中英逐词比对方法，该方法包括以下步骤：1)多段英文字符串单元组成英文字符串，多段中文字符串单元组成中文字符串；2)对英文字符串分词，得到长度为分词长度的英文分词结果集；3)判断英文分词结果集中一项是否存在于关键词字符列表中，否则结束，是则进至步骤4)；4)查找中英字典，得到对应中文ID序列；5)判断是否存在于关键词字符列表中，是则进至步骤6；6)查找的变形序列中文关联词序列；7)判断是否存在于关键词字符列表中，是则进至步骤8)；8)在中进行字符串匹配，如果匹配则进行步骤9)；9)对英中添加已经命中标识标记，从中删除。本发明通过解决比对中的关键域问题，实现高命中率的逐词比对。

Description

一种实现高命中率的逐词比对方法

技术领域

本发明涉及一种中英逐词比对方法，通过解决比对中的关键域问题，实现高命中率的逐词比对。

背景技术

在日常英文学习过程中，经常遇到中英比照的情况，如果能提供一种简单的逐词比对方法，当然是非常愉快的事情。目前的采用中文对英文标记后，存在由于中文分词过粗引起的未命中，如中文中有分词“我认为”，但是其英文关系中无“I think”。导致分词有结果，但是无法标记的情况。在我们常见的中英对照例句中，还经常存在系动词、冠词或介词等在对应语言例句中无法找到相应翻译的无实际意义的单词，而逐词比对时，需要对中英做对应标记，这类词由于无实际意义而导致无法加入标记序列。在中英逐次比对过程中会出现一个中文对应多个英文的情况，通常做法是按照先后顺序进行标记，这样会导致当英文例句为倒装句是，标记位置错误的情况。在逐词比对功能中，需要对中文以及对应的英文同时进行标记，但是由于收集的数据大部分来自于辞典数据，因此很大程度上都是标准的解释，而实际的中英例句中却存在各种灵活应用，导致经常性的根据标准释义无法找到对应数据的情况。

发明内容

本发明的技术解决方案是：本发明为一种实现高命中率的逐词比对方法，其特殊之处在于：该方法包括以下步骤：

1)多段英文字符串单元组成英文字符串(engdata)，多段中文字符串单元组成中文字符串(chndata)；

2)对英文字符串分词，得到长度为分词长度(phrlen)的英文分词结果集engphr(n＝0，。。。phrlen-1)；

3)判断英文分词结果集中一项engphr(n)是否存在于关键词字符列表中，否则结束，是则进至步骤4)；

4)查找中英字典，得到engphr(n)对应中文ID序列(chnidseq)(n＝0，。。。len-1)；

5)判断chnidseq(n)是否存在于关键词字符列表中，否则返回步骤3，重新选一个engphr(n+1)重复步骤3-5，是则进至步骤6；

6)查找chnidseq(n)的变形序列中文关联词序列(chnrelseq)(n＝0，。。。chnrelseq len-1)；

7)判断chnrelseq(n)是否存在于关键词字符列表中，否则返回步骤5)，是则进至步骤8)；

8)chnrelseq(n)在chndata中进行字符串匹配，如不匹配，则返回步骤7，重新选一个chnrelseq(n+1)，再重复步骤7-8，如果匹配则进行步骤9)；

9)对英中添加已经命中标识标记，从chndata中删除chnrelseq(n)。

该方法还包括在对照词典中对词条加入词性，将英文无意义单词和英文单词数据同时标记。

该方法还包括：

10)将英文数据和中文数据按单词划分为多个节点；

11)选择中文数据中未有对应英文的单词的节点作为目标节点；

12)以目标节点为中心，向两向扩散，计算放大率；

13)计算英文数据各节点相对与目标节点的位置权重；

14)计算待确认节点权重值，根据待确认节点权重值从英文数据中选择目标节点的对应节点。

上述步骤12)的具体步骤如下：

121)首先得到目标节点与中文数据中各个存在对应节点之间的关系，选取差值最大值作为最大基数，得到的Nmax；

122)计算中文数据中各个节点的放大率，放大率的计算公式为：

上述步骤13)中计算英文数据各节点相对与目标节点的位置权重的公式如下：DesStep(x)＝DesLen-|Des(x)-Des(x’)|。DesThr(X)＝∑(BaseThr(n)*DesThr(n))

上述步骤14)中计算待确认节点权重值的公式如下：DesThr(X)＝∑(BaseThr(n)*DesThr(n))。

该方法还包括步骤

15)读取一条中文数据，分析其每条英文解释和词性；

16)如果该解释的词性为形容词且该中文为以“的”结束；

17)去掉“的”后若词长大于1；

18)在关键词列表中查找该词；

19)如果存在，则该词作为新词添加；

20)增加该词及对应英文解释。

本发明具有以下优点：

1、本发明将传统的从英文向中文的比对路径该为中文向英文的比对路径，可以消除中文分词粒度过大导致的遗漏单元，将对逐词比对的命中率从56。78％提供到64。19％。

2、本发明加入系统词、冠词等判定消除无意义单词，将英文无意义单词和英文单词数据同时标记。可以提高标记命中率3％～4％，并且由于是在所有工作完成后进行，因此不会对已有结果引入新错误。

3、本发明通过权值消除一个中文对应多个英文的情况关系，提高命中率；

4、本发明还通过对词典数据进行二次挖掘获得新数据；通过此方式对现有数据分析，逐词比对中英文对应数据共有615039，采用该方法后，数据为718231，数据总量提升16。78％；

附图说明

图1是本发明的方法流程图；

图2是本发明具体实例中含干扰词原始标记图；

图3是本发明具体实例中含干扰词，加入判定后标记图；

图4是本发明具体实例中一对多原始状态图；

图5是本发明具体实例中一对多加入权值判断后状态图。

具体实施例

本发明提供的一种实现高命中率的逐词比对方法，通过以下四个环节来提高中英逐词比对的命中率。

1、本发明对未标记数据采用二次扫描方法，反向从英文入手，使用英文对中文关系词典，以英中词典中文变形字符串为根本，扫描未命中中文字符串，查找并标记结果，以提高命中率。

参见图1，具体方法定义如下：

3)判断英文分词结果集中一项engphr(n)是否有效(以是否存在于关键词字符列表中为依据)，否则结束，是则进至步骤4)；

5)判断chnidseq(n)是否有效(以是否存在于关键词字符列表中为依据)，否则返回步骤3，重新选一个engphr(n+1)重复步骤3-5，是则进至步骤6；

7)判断chnrelseq(n)是否有效(以是否存在于关键词字符列表中为依据)，否则返回步骤5)，是则进至步骤8)；

9)对英中添加已经命中标识标记，从chndata中删除chnrelseq(n)。

2、本发明加入系统、冠词等判定消除无意义对应；

通过分析，大多数情况下此类词只是对某些词的修饰或固定搭配，而考虑到逐词比对不同于需要精确标记的翻译、检索等需要，在支持大多情况下，容许存在部分不精确，因而采用加入英文语法或搭配的方法，使这些修饰词与被修饰词作为一个整体进行标记。

Check英文中对此类单词处理，总结如下：

1)冠词+(名词\形容)

2)系动词+(形容词\动词)

3)(动词\名词)+介词

4)介词+(动词\名词)

系动词
	be
been
	am
are
	be
being
	been
is
	was
were

介词
	at
in
	on
to
	for

above
	over
about

冠词
	a
an
	the

在对照词典中对词条加入词性，结合上述结构，在所有比对标记功能添加完成后再加入该工作，可以更小的降低引入错误的可能性。

以示例演示：

对中英例句

She′s decided not to accept the job

她决定不接受工作。

参见图2，原始的标记结果中“to”、“the”将无法标记，而实际上可以把这两个词和其后的数据同时标记，使之调整为“to accept”、“the job”。

参见图3，此为加入对修饰词校对后的效果；

经过实际测试，采用该方法，可以提高标记命中率3％～4％，并且由于是在所有工作完成后进行，因此不会对已有结果引入新错误。

3、本发明还使用权值消除一对多关系；

在中英逐次比对过程中会出现一个中文对应多个英文的情况，通常做法是按照先后顺序进行标记，这样会导致当英文例句为倒装句时，标记位置错误的情况。

本发明通过对一对多情况分析，发现词总是呈现局部连续性，例如中文小范围内连续出现的两个词，在英文中也连续出现，那么中文该小范围出现的第三个词，有很高几率也出现在英文对应的小范围内。

参见图4，已知两行数据，第一行英文数据Des有12个节点，第二行中文数据Src有6个节点

且Des(1)＝＝Src(1)；

Des(4)＝＝Src(2)；

Des(8)＝＝Src(3)；

Des(11)＝＝Src(5)

数据Des(X)＝＝Src(4)，现知道X有可能出现在Des的2或10位置；

遵循局部规则，Des(3)、Des(5)对Des(4)影响最大，对应到Src(8)、Src(11)亦应该对Src(2)、Src(10)的影响最大。

因此拟采用计算原始串放大率，对目标节点逐次放大，计算累加和作为权重值，选取权重高者作为选择节点。

1)以Des(4)为中心，向两向扩散，计算放大率；

首先得到Src(4)与Src中各个存在对应节点之间的关系，选取差值最大值作为最大基数，得到的Nmax＝3

放大率为：

则Src各节点放大率为：

Src节点	放大率	Des节点
			Src(1)	1	Des(1)
Src(2)	2	Des(4)
			Src(3)	4	Des(8)
Src(5)	4	Des(11)

2)计算Des各节点相对与目标节点位置权重

DesStep(x)＝DesLen-|Des(x)-Des(x’)|则：

DesLen＝12；

Des(2)相对个节点步长：

节点	步长
		Des(1)	11
Des(4)	10
		Des(8)	6
Des(11)	3

Des(10)相对个节点步长：

节点	步长
		Des(1)	3
Des(4)	6
		Des(8)	10
Des(11)	11

3)待确认节点权重值计算：

DesThr(X)＝∑(BaseThr(n)*DesThr(n))

则DesThr(2)＝1*11+2*10+4*6+4*3＝67

DesThr(10)＝1*3+2*6+4*10+4*11＝99

参见图5，根据权重，选择Des(10)作为对应节点。

4、本发明对已有词典数据进行二次挖掘

如“beautiful”的标准释义为“漂亮的、好看的、美丽的、完美的、出色的”等意思。

实际例句中用法：

The garden′s at its most beautiful in June。

六月的花园最美丽。

如何使此类问题得以解决对逐词比对很重要。

考虑到如下几个情况：

1)逐词比对不是翻译，不是对未知的数据翻译，而是对已知的数据标记，是在已有数据中进行查找，准确度原本就很高。

2)中英对照辞典可以搜集关键词的词性；

3)存在标准解释和现实应用变化最大的一类词是形容词、副词等；

决定对已有的比对辞典数据进行二次挖掘，对特殊词性的词做变化处理，以新增词的方式追加入比对辞典。

具体方法是：

1、读取一条中文数据，分析其每条英文解释和词性；

2、如果该解释的词性为形容词且该中文为以“的”结束；

3、去掉“的”后若词长大于1；

4、在关键词列表中查找该词

5、如果存在，则认为该词可以作为新词添加；

6、增加该词及对应英文解释。

对现有数据分析，逐词比对中英文对应数据共有615039，采用该方法后，数据为718231，数据总量提升16。78％；

综合以上四种方法，可以使中英逐词比对，从初始56。78％提高到73。65％，从而使中英逐词比对准确率实现大的提升。

Claims

1.一种实现高命中率的逐词比对方法，其特征在于：该方法包括以下步骤：

9)对英中添加已经命中标识标记，从chndata中删除chnrelseq(n)。

2.根据权利要求1实现高命中率的逐词比对方法，其特征在于：该方法还包括在对照词典中对词条加入词性，将英文无意义单词和英文单词数据同时标记。

3.根据权利要求1实现高命中率的逐词比对方法，其特征在于：该方法还包括：

10)将英文数据和中文数据按单词划分为多个节点；

12)以目标节点为中心，向两向扩散，计算放大率；

13)计算英文数据各节点相对与目标节点的位置权重；

4.根据权利要求3实现高命中率的逐词比对方法，其特征在于：所述步骤12)的具体步骤如下：

5.根据权利要求4实现高命中率的逐词比对方法，其特征在于：所述步骤13)中计算英文数据各节点相对与目标节点的位置权重的公式如下：DesStep(x)＝DesLen-|Des(x)-Des(x’)|。DesThr(X)＝∑(BaseThr(n)*DesThr(n))

6.根据权利要求5实现高命中率的逐词比对方法，其特征在于：所述步骤14)中计算待确认节点权重值的公式如下：DesThr(X)＝∑(BaseThr(n)*DesThr(n))。

7.根据权利要求3实现高命中率的逐词比对方法，其特征在于：该方法还包括步骤

15)读取一条中文数据，分析其每条英文解释和词性；

16)如果该解释的词性为形容词且该中文为以“的”结束；

17)去掉“的”后若词长大于1；

18)在关键词列表中查找该词；

19)如果存在，则该词作为新词添加；

20)增加该词及对应英文解释。