CN102012897A - 一种实现高命中率的逐词比对方法 - Google Patents

一种实现高命中率的逐词比对方法 Download PDF

Info

Publication number
CN102012897A
CN102012897A CN2010105705161A CN201010570516A CN102012897A CN 102012897 A CN102012897 A CN 102012897A CN 2010105705161 A CN2010105705161 A CN 2010105705161A CN 201010570516 A CN201010570516 A CN 201010570516A CN 102012897 A CN102012897 A CN 102012897A
Authority
CN
China
Prior art keywords
english
chinese
speech
node
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010105705161A
Other languages
English (en)
Other versions
CN102012897B (zh
Inventor
陈淮琰
巨雷
郑建锋
唐海波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HAIMEN HUANGHAI PIONEER PARK SERVICES CO., LTD.
Original Assignee
Inventec Besta Xian Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Besta Xian Co Ltd filed Critical Inventec Besta Xian Co Ltd
Priority to CN201010570516.1A priority Critical patent/CN102012897B/zh
Publication of CN102012897A publication Critical patent/CN102012897A/zh
Priority to PCT/CN2011/079495 priority patent/WO2012071922A1/zh
Application granted granted Critical
Publication of CN102012897B publication Critical patent/CN102012897B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明涉及一种中英逐词比对方法,该方法包括以下步骤:1)多段英文字符串单元组成英文字符串,多段中文字符串单元组成中文字符串;2)对英文字符串分词,得到长度为分词长度的英文分词结果集;3)判断英文分词结果集中一项是否存在于关键词字符列表中,否则结束,是则进至步骤4);4)查找中英字典,得到对应中文ID序列;5)判断是否存在于关键词字符列表中,是则进至步骤6;6)查找的变形序列中文关联词序列;7)判断是否存在于关键词字符列表中,是则进至步骤8);8)在中进行字符串匹配,如果匹配则进行步骤9);9)对英中添加已经命中标识标记,从中删除。本发明通过解决比对中的关键域问题,实现高命中率的逐词比对。

Description

一种实现高命中率的逐词比对方法
技术领域
本发明涉及一种中英逐词比对方法,通过解决比对中的关键域问题,实现高命中率的逐词比对。
背景技术
在日常英文学习过程中,经常遇到中英比照的情况,如果能提供一种简单的逐词比对方法,当然是非常愉快的事情。目前的采用中文对英文标记后,存在由于中文分词过粗引起的未命中,如中文中有分词“我认为”,但是其英文关系中无“I think”。导致分词有结果,但是无法标记的情况。在我们常见的中英对照例句中,还经常存在系动词、冠词或介词等在对应语言例句中无法找到相应翻译的无实际意义的单词,而逐词比对时,需要对中英做对应标记,这类词由于无实际意义而导致无法加入标记序列。在中英逐次比对过程中会出现一个中文对应多个英文的情况,通常做法是按照先后顺序进行标记,这样会导致当英文例句为倒装句是,标记位置错误的情况。在逐词比对功能中,需要对中文以及对应的英文同时进行标记,但是由于收集的数据大部分来自于辞典数据,因此很大程度上都是标准的解释,而实际的中英例句中却存在各种灵活应用,导致经常性的根据标准释义无法找到对应数据的情况。
发明内容
本发明的技术解决方案是:本发明为一种实现高命中率的逐词比对方法,其特殊之处在于:该方法包括以下步骤:
1)多段英文字符串单元组成英文字符串(engdata),多段中文字符串单元组成中文字符串(chndata);
2)对英文字符串分词,得到长度为分词长度(phrlen)的英文分词结果集engphr(n=0,。。。phrlen-1);
3)判断英文分词结果集中一项engphr(n)是否存在于关键词字符列表中,否则结束,是则进至步骤4);
4)查找中英字典,得到engphr(n)对应中文ID序列(chnidseq)(n=0,。。。len-1);
5)判断chnidseq(n)是否存在于关键词字符列表中,否则返回步骤3,重新选一个engphr(n+1)重复步骤3-5,是则进至步骤6;
6)查找chnidseq(n)的变形序列中文关联词序列(chnrelseq)(n=0,。。。chnrelseq len-1);
7)判断chnrelseq(n)是否存在于关键词字符列表中,否则返回步骤5),是则进至步骤8);
8)chnrelseq(n)在chndata中进行字符串匹配,如不匹配,则返回步骤7,重新选一个chnrelseq(n+1),再重复步骤7-8,如果匹配则进行步骤9);
9)对英中添加已经命中标识标记,从chndata中删除chnrelseq(n)。
该方法还包括在对照词典中对词条加入词性,将英文无意义单词和英文单词数据同时标记。
该方法还包括:
10)将英文数据和中文数据按单词划分为多个节点;
11)选择中文数据中未有对应英文的单词的节点作为目标节点;
12)以目标节点为中心,向两向扩散,计算放大率;
13)计算英文数据各节点相对与目标节点的位置权重;
14)计算待确认节点权重值,根据待确认节点权重值从英文数据中选择目标节点的对应节点。
上述步骤12)的具体步骤如下:
121)首先得到目标节点与中文数据中各个存在对应节点之间的关系,选取差值最大值作为最大基数,得到的Nmax;
122)计算中文数据中各个节点的放大率,放大率的计算公式为:
Figure BDA0000035798460000021
Figure BDA0000035798460000022
上述步骤13)中计算英文数据各节点相对与目标节点的位置权重的公式如下:DesStep(x)=DesLen-|Des(x)-Des(x’)|。DesThr(X)=∑(BaseThr(n)*DesThr(n))
上述步骤14)中计算待确认节点权重值的公式如下:DesThr(X)=∑(BaseThr(n)*DesThr(n))。
该方法还包括步骤
15)读取一条中文数据,分析其每条英文解释和词性;
16)如果该解释的词性为形容词且该中文为以“的”结束;
17)去掉“的”后若词长大于1;
18)在关键词列表中查找该词;
19)如果存在,则该词作为新词添加;
20)增加该词及对应英文解释。
本发明具有以下优点:
1、本发明将传统的从英文向中文的比对路径该为中文向英文的比对路径,可以消除中文分词粒度过大导致的遗漏单元,将对逐词比对的命中率从56。78%提供到64。19%。
2、本发明加入系统词、冠词等判定消除无意义单词,将英文无意义单词和英文单词数据同时标记。可以提高标记命中率3%~4%,并且由于是在所有工作完成后进行,因此不会对已有结果引入新错误。
3、本发明通过权值消除一个中文对应多个英文的情况关系,提高命中率;
4、本发明还通过对词典数据进行二次挖掘获得新数据;通过此方式对现有数据分析,逐词比对中英文对应数据共有615039,采用该方法后,数据为718231,数据总量提升16。78%;
附图说明
图1是本发明的方法流程图;
图2是本发明具体实例中含干扰词原始标记图;
图3是本发明具体实例中含干扰词,加入判定后标记图;
图4是本发明具体实例中一对多原始状态图;
图5是本发明具体实例中一对多加入权值判断后状态图。
具体实施例
本发明提供的一种实现高命中率的逐词比对方法,通过以下四个环节来提高中英逐词比对的命中率。
1、本发明对未标记数据采用二次扫描方法,反向从英文入手,使用英文对中文关系词典,以英中词典中文变形字符串为根本,扫描未命中中文字符串,查找并标记结果,以提高命中率。
参见图1,具体方法定义如下:
1)多段英文字符串单元组成英文字符串(engdata),多段中文字符串单元组成中文字符串(chndata);
2)对英文字符串分词,得到长度为分词长度(phrlen)的英文分词结果集engphr(n=0,。。。phrlen-1);
3)判断英文分词结果集中一项engphr(n)是否有效(以是否存在于关键词字符列表中为依据),否则结束,是则进至步骤4);
4)查找中英字典,得到engphr(n)对应中文ID序列(chnidseq)(n=0,。。。len-1);
5)判断chnidseq(n)是否有效(以是否存在于关键词字符列表中为依据),否则返回步骤3,重新选一个engphr(n+1)重复步骤3-5,是则进至步骤6;
6)查找chnidseq(n)的变形序列中文关联词序列(chnrelseq)(n=0,。。。chnrelseq len-1);
7)判断chnrelseq(n)是否有效(以是否存在于关键词字符列表中为依据),否则返回步骤5),是则进至步骤8);
8)chnrelseq(n)在chndata中进行字符串匹配,如不匹配,则返回步骤7,重新选一个chnrelseq(n+1),再重复步骤7-8,如果匹配则进行步骤9);
9)对英中添加已经命中标识标记,从chndata中删除chnrelseq(n)。
2、本发明加入系统、冠词等判定消除无意义对应;
通过分析,大多数情况下此类词只是对某些词的修饰或固定搭配,而考虑到逐词比对不同于需要精确标记的翻译、检索等需要,在支持大多情况下,容许存在部分不精确,因而采用加入英文语法或搭配的方法,使这些修饰词与被修饰词作为一个整体进行标记。
Check英文中对此类单词处理,总结如下:
1)冠词+(名词\形容)
2)系动词+(形容词\动词)
3)(动词\名词)+介词
4)介词+(动词\名词)
  系动词
  be
  been
  am
  are
  be
  being
  been
is
  was
  were
  介词
  at
in
  on
  to
  for
  above
  over
  about
  冠词
  a
  an
  the
在对照词典中对词条加入词性,结合上述结构,在所有比对标记功能添加完成后再加入该工作,可以更小的降低引入错误的可能性。
以示例演示:
对中英例句
She′s decided not to accept the job
她决定不接受工作。
参见图2,原始的标记结果中“to”、“the”将无法标记,而实际上可以把这两个词和其后的数据同时标记,使之调整为“to accept”、“the job”。
参见图3,此为加入对修饰词校对后的效果;
经过实际测试,采用该方法,可以提高标记命中率3%~4%,并且由于是在所有工作完成后进行,因此不会对已有结果引入新错误。
3、本发明还使用权值消除一对多关系;
在中英逐次比对过程中会出现一个中文对应多个英文的情况,通常做法是按照先后顺序进行标记,这样会导致当英文例句为倒装句时,标记位置错误的情况。
本发明通过对一对多情况分析,发现词总是呈现局部连续性,例如中文小范围内连续出现的两个词,在英文中也连续出现,那么中文该小范围出现的第三个词,有很高几率也出现在英文对应的小范围内。
参见图4,已知两行数据,第一行英文数据Des有12个节点,第二行中文数据Src有6个节点
且Des(1)==Src(1);
Des(4)==Src(2);
Des(8)==Src(3);
Des(11)==Src(5)
数据Des(X)==Src(4),现知道X有可能出现在Des的2或10位置;
遵循局部规则,Des(3)、Des(5)对Des(4)影响最大,对应到Src(8)、Src(11)亦应该对Src(2)、Src(10)的影响最大。
因此拟采用计算原始串放大率,对目标节点逐次放大,计算累加和作为权重值,选取权重高者作为选择节点。
1)以Des(4)为中心,向两向扩散,计算放大率;
首先得到Src(4)与Src中各个存在对应节点之间的关系,选取差值最大值作为最大基数,得到的Nmax=3
放大率为:
Figure BDA0000035798460000061
则Src各节点放大率为:
Src节点 放大率 Des节点
Src(1) 1 Des(1)
Src(2) 2 Des(4)
Src(3) 4 Des(8)
Src(5) 4 Des(11)
2)计算Des各节点相对与目标节点位置权重
DesStep(x)=DesLen-|Des(x)-Des(x’)|则:
DesLen=12;
Des(2)相对个节点步长:
  节点   步长
  Des(1)   11
  Des(4)   10
  Des(8)   6
  Des(11)   3
Des(10)相对个节点步长:
  节点   步长
  Des(1)   3
  Des(4)   6
  Des(8)   10
  Des(11)   11
3)待确认节点权重值计算:
DesThr(X)=∑(BaseThr(n)*DesThr(n))
则DesThr(2)=1*11+2*10+4*6+4*3=67
DesThr(10)=1*3+2*6+4*10+4*11=99
参见图5,根据权重,选择Des(10)作为对应节点。
4、本发明对已有词典数据进行二次挖掘
如“beautiful”的标准释义为“漂亮的、好看的、美丽的、完美的、出色的”等意思。
实际例句中用法:
The garden′s at its most beautiful in June。
六月的花园最美丽。
如何使此类问题得以解决对逐词比对很重要。
考虑到如下几个情况:
1)逐词比对不是翻译,不是对未知的数据翻译,而是对已知的数据标记,是在已有数据中进行查找,准确度原本就很高。
2)中英对照辞典可以搜集关键词的词性;
3)存在标准解释和现实应用变化最大的一类词是形容词、副词等;
决定对已有的比对辞典数据进行二次挖掘,对特殊词性的词做变化处理,以新增词的方式追加入比对辞典。
具体方法是:
1、读取一条中文数据,分析其每条英文解释和词性;
2、如果该解释的词性为形容词且该中文为以“的”结束;
3、去掉“的”后若词长大于1;
4、在关键词列表中查找该词
5、如果存在,则认为该词可以作为新词添加;
6、增加该词及对应英文解释。
对现有数据分析,逐词比对中英文对应数据共有615039,采用该方法后,数据为718231,数据总量提升16。78%;
综合以上四种方法,可以使中英逐词比对,从初始56。78%提高到73。65%,从而使中英逐词比对准确率实现大的提升。

Claims (7)

1.一种实现高命中率的逐词比对方法,其特征在于:该方法包括以下步骤:
1)多段英文字符串单元组成英文字符串(engdata),多段中文字符串单元组成中文字符串(chndata);
2)对英文字符串分词,得到长度为分词长度(phrlen)的英文分词结果集engphr(n=0,。。。phrlen-1);
3)判断英文分词结果集中一项engphr(n)是否存在于关键词字符列表中,否则结束,是则进至步骤4);
4)查找中英字典,得到engphr(n)对应中文ID序列(chnidseq)(n=0,。。。len-1);
5)判断chnidseq(n)是否存在于关键词字符列表中,否则返回步骤3,重新选一个engphr(n+1)重复步骤3-5,是则进至步骤6;
6)查找chnidseq(n)的变形序列中文关联词序列(chnrelseq)(n=0,。。。chnrelseq len-1);
7)判断chnrelseq(n)是否存在于关键词字符列表中,否则返回步骤5),是则进至步骤8);
8)chnrelseq(n)在chndata中进行字符串匹配,如不匹配,则返回步骤7,重新选一个chnrelseq(n+1),再重复步骤7-8,如果匹配则进行步骤9);
9)对英中添加已经命中标识标记,从chndata中删除chnrelseq(n)。
2.根据权利要求1实现高命中率的逐词比对方法,其特征在于:该方法还包括在对照词典中对词条加入词性,将英文无意义单词和英文单词数据同时标记。
3.根据权利要求1实现高命中率的逐词比对方法,其特征在于:该方法还包括:
10)将英文数据和中文数据按单词划分为多个节点;
11)选择中文数据中未有对应英文的单词的节点作为目标节点;
12)以目标节点为中心,向两向扩散,计算放大率;
13)计算英文数据各节点相对与目标节点的位置权重;
14)计算待确认节点权重值,根据待确认节点权重值从英文数据中选择目标节点的对应节点。
4.根据权利要求3实现高命中率的逐词比对方法,其特征在于:所述步骤12)的具体步骤如下:
121)首先得到目标节点与中文数据中各个存在对应节点之间的关系,选取差值最大值作为最大基数,得到的Nmax;
122)计算中文数据中各个节点的放大率,放大率的计算公式为:
Figure FDA0000035798450000021
Figure FDA0000035798450000022
5.根据权利要求4实现高命中率的逐词比对方法,其特征在于:所述步骤13)中计算英文数据各节点相对与目标节点的位置权重的公式如下:DesStep(x)=DesLen-|Des(x)-Des(x’)|。DesThr(X)=∑(BaseThr(n)*DesThr(n))
6.根据权利要求5实现高命中率的逐词比对方法,其特征在于:所述步骤14)中计算待确认节点权重值的公式如下:DesThr(X)=∑(BaseThr(n)*DesThr(n))。
7.根据权利要求3实现高命中率的逐词比对方法,其特征在于:该方法还包括步骤
15)读取一条中文数据,分析其每条英文解释和词性;
16)如果该解释的词性为形容词且该中文为以“的”结束;
17)去掉“的”后若词长大于1;
18)在关键词列表中查找该词;
19)如果存在,则该词作为新词添加;
20)增加该词及对应英文解释。
CN201010570516.1A 2010-12-02 2010-12-02 一种实现高命中率的逐词比对方法 Active CN102012897B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201010570516.1A CN102012897B (zh) 2010-12-02 2010-12-02 一种实现高命中率的逐词比对方法
PCT/CN2011/079495 WO2012071922A1 (zh) 2010-12-02 2011-09-09 一种实现高命中率的逐词比对方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010570516.1A CN102012897B (zh) 2010-12-02 2010-12-02 一种实现高命中率的逐词比对方法

Publications (2)

Publication Number Publication Date
CN102012897A true CN102012897A (zh) 2011-04-13
CN102012897B CN102012897B (zh) 2014-09-17

Family

ID=43843070

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010570516.1A Active CN102012897B (zh) 2010-12-02 2010-12-02 一种实现高命中率的逐词比对方法

Country Status (2)

Country Link
CN (1) CN102012897B (zh)
WO (1) WO2012071922A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012071922A1 (zh) * 2010-12-02 2012-06-07 无敌科技(西安)有限公司 一种实现高命中率的逐词比对方法
CN110032621A (zh) * 2018-11-26 2019-07-19 高佐良 中文比对方法
CN110377897A (zh) * 2018-04-13 2019-10-25 顺丰科技有限公司 中英文地址自动检测方法及系统
CN112395865A (zh) * 2020-11-17 2021-02-23 中国外运股份有限公司 报关单校验方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101419759A (zh) * 2007-10-26 2009-04-29 英业达股份有限公司 一种应用于全文翻译的语言学习方法及其系统
CN101667424A (zh) * 2008-09-04 2010-03-10 英业达股份有限公司 普通话与多种方言之间的语音翻译系统及其方法
CN101853247A (zh) * 2009-04-03 2010-10-06 英业达股份有限公司 片语检查系统及其方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4404211B2 (ja) * 2005-03-14 2010-01-27 富士ゼロックス株式会社 マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム
JP4058057B2 (ja) * 2005-04-26 2008-03-05 株式会社東芝 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム
CN100476800C (zh) * 2007-06-22 2009-04-08 腾讯科技(深圳)有限公司 一种切分索引分词的方法及系统
CN102012897B (zh) * 2010-12-02 2014-09-17 无敌科技(西安)有限公司 一种实现高命中率的逐词比对方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101419759A (zh) * 2007-10-26 2009-04-29 英业达股份有限公司 一种应用于全文翻译的语言学习方法及其系统
CN101667424A (zh) * 2008-09-04 2010-03-10 英业达股份有限公司 普通话与多种方言之间的语音翻译系统及其方法
CN101853247A (zh) * 2009-04-03 2010-10-06 英业达股份有限公司 片语检查系统及其方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012071922A1 (zh) * 2010-12-02 2012-06-07 无敌科技(西安)有限公司 一种实现高命中率的逐词比对方法
CN110377897A (zh) * 2018-04-13 2019-10-25 顺丰科技有限公司 中英文地址自动检测方法及系统
CN110032621A (zh) * 2018-11-26 2019-07-19 高佐良 中文比对方法
CN110032621B (zh) * 2018-11-26 2023-05-02 高佐良 中文比对方法
CN112395865A (zh) * 2020-11-17 2021-02-23 中国外运股份有限公司 报关单校验方法及装置
CN112395865B (zh) * 2020-11-17 2024-01-02 中国外运股份有限公司 报关单校验方法及装置

Also Published As

Publication number Publication date
CN102012897B (zh) 2014-09-17
WO2012071922A1 (zh) 2012-06-07

Similar Documents

Publication Publication Date Title
CN104142915B (zh) 一种添加标点的方法和系统
CN102693279B (zh) 一种快速计算评论相似度的方法、装置及系统
CN104182535B (zh) 一种人物关系抽取方法和装置
CN107832229A (zh) 一种基于nlp的系统测试用例自动生成方法
CN103970733B (zh) 一种基于图结构的中文新词识别方法
CN102214166B (zh) 基于句法分析和层次模型的机器翻译系统和方法
CN102945228A (zh) 一种基于文本分割技术的多文档文摘方法
CN106569993A (zh) 一种挖掘领域术语间上下位关系的方法及装置
CN104008166A (zh) 一种基于形态和语义相似度的对话短文本聚类方法
CN103678287B (zh) 一种关键词翻译统一的方法
CN104239321B (zh) 一种面向搜索引擎的数据处理方法及装置
CN106844571A (zh) 识别同义词的方法、装置和计算设备
CN102012897B (zh) 一种实现高命中率的逐词比对方法
CN102750282A (zh) 同义词模板的挖掘方法和装置以及同义词挖掘方法和装置
CN110348003A (zh) 文本有效信息的抽取方法及装置
CN103412855A (zh) 现代汉语复句关系词自动识别方法及系统
CN101763403A (zh) 面向多语言信息检索系统的查询翻译方法
CN103729343A (zh) 基于百科链接共现的语义消岐方法
CN103714053A (zh) 一种面向机器翻译的日语动词识别方法
CN104239292B (zh) 一种获取专业词汇译文的方法
CN109426664A (zh) 一种基于卷积神经网络的句子相似性计算方法
CN104899193B (zh) 一种计算机中限定翻译片段的交互式翻译方法
CN111767730B (zh) 一种事件类型识别方法及装置
Fahrni et al. HITS'Monolingual and Cross-lingual Entity Linking System at TAC 2012: A Joint Approach.
CN102063423B (zh) 一种消歧的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20180529

Address after: 226156 999 Harbour Road, Binhai New Area, Haimen, Nantong, Jiangsu

Patentee after: HAIMEN HUANGHAI PIONEER PARK SERVICES CO., LTD.

Address before: 710075 2 building, 2 Guangde Road, Xi'an hi tech Development Zone, Shaanxi

Patentee before: Wudi Science and Technology Co., Ltd. (Xian)