CN1228566A - 不连续短语的匹配翻译装置和方法 - Google Patents

不连续短语的匹配翻译装置和方法 Download PDF

Info

Publication number
CN1228566A
CN1228566A CN98105507A CN98105507A CN1228566A CN 1228566 A CN1228566 A CN 1228566A CN 98105507 A CN98105507 A CN 98105507A CN 98105507 A CN98105507 A CN 98105507A CN 1228566 A CN1228566 A CN 1228566A
Authority
CN
China
Prior art keywords
phrase
word
information
continuous
language element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN98105507A
Other languages
English (en)
Inventor
张景嵩
邱全成
顾跃挺
阮晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inventec Corp
Original Assignee
Inventec Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Corp filed Critical Inventec Corp
Priority to CN98105507A priority Critical patent/CN1228566A/zh
Publication of CN1228566A publication Critical patent/CN1228566A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种不连续短语匹配装置和方法,该装置包括:一个句子获取装置,从一篇文章或文章片断的指定的位置获取一个句子;变形词辨析装置,根据变形词取得其原形;短语辨析装置,将有关的短语信息位置取出并送到短语索引装置中;短语索引装置,根据短语辨析装置的输入,将涉及有关单词的短语全部取出进行匹配;以及语法规则快速确认装置,根据相关的语法规则,判断所识别出的语言成分是否符合语法规则。

Description

不连续短语的匹配翻译装置和方法
本发明涉及语言自动翻译领域,更具体地,涉及在语言自动翻译领域中翻译不连续的短语。
随着因特网在全世界范围的日益普及,跨国、跨世界的使用者与日俱增。现在人们普遍利用屏幕单字捕捉技术提供不同语言的动态翻译,解决言语不通的问题。这种屏幕单字捕捉技术是利用软件厂商提供的底层操作,施加在双语浏览软件上,为使用者快速阅览其它语种资料提供了便利。
为了改进语言屏幕捕捉的相关性和准确度,人们又提出了短语屏幕捕捉技术,这项技术在单字识别的基础上向前跨了一步。它能够将一串带有变化字形的短语进行整体识别和翻译,同时保持了识别速度以及实时性,受到用户的欢迎。
但是这类短语捕捉实时翻译软件只能识别固定搭配的短语,如英语中的as a matter of fact,keep up with等。众所周知,在各种语言中,既存在固定搭配的短语,也存在大量的非固定长度的短语。比如在英语句子acquaintseveral students of our class with the recent advances中,several students ofour class是短语acquaint....with中的一个名词性成分,其长度是不确定的,我们将这类短语称为不连续短语。在进行不连续短语的匹配时,除了要将各个单词进行匹配以判别这些单词是否能组成短语外,还需要判断长度不确定的成分是否符合该短语的语法。而目前市场上的现有实时翻译产品都不能处理这些短语。
因此,本发明的一个目的是提供一种不连续短语匹配装置,对各种语言中的不连续短语进行识别和翻译。
本发明的另一个目的是提供一种不连续短语匹配方法,对各种语言中的不连续短语进行识别和翻译。
上述目的是通过以下方式实现的。
本发明的不连续短语匹配装置包括:句子获取装置,该装置从一篇文章或位置片断的指定的位置获取一个句子,并将句子拆分成多个单词;变形词辨析装置,若一个单词被变形了,该装置可根据该变形词取得其原形;短语辨析装置,该装置用于根据输入的单词,将有关的短语信息位置取出并送到短语索引装置中;短语索引装置,该装置根据短语辨析装置的输入,将涉及有关单词的短语全部取出,根据所确定的规则进行匹配;以及语法规则快速确认装置,该装置根据相关的语法规则,判断所识别出的语言成分是否符合语法规则。
本发明的不连续短语匹配方法包括下述步骤:
1)句子获取步骤,该步骤从一篇文章或一段文章中取得要处理的句子;
2)变形词辨析步骤,该步骤查询在步骤1)所取得的句子的指定位置的单词,如果该单词已被变形,取得其原形的信息;
3)短语辨析步骤,该步骤根据变形词辨析步骤的结果,获得短语信息,确定在指定的位置处是否存在不定长语言成分,判断查询的方向;
4)短语索引步骤,该步骤根据上述步骤所获得的短语信息,进行短语成分的检索和识别;
5)语法规则确认步骤,该步骤根据上述识别的结果,判断所识别的结果是否符合规定的语法规则,确定识别成功否。
下面将结合附图对本发明以及其实施例作进一步的说明,以更清楚地理解本发明。
图1是根据本发明的不连续短语匹配装置的一个实施例的框图。
图2是根据本发明的不连续短语匹配装置的一个实施例的有关数据库示意图。
图3是根据本发明的不连续短语匹配方法的的一个实施例的流程图。
图1是根据本发明的不连续短语匹配装置的一个实施例的框图。该实施例包括句子获取装置,变形词辨析装置,短语辨析装置,短语索引装置和语法规则快速确认装置。其中句子获取装置从显示屏幕上当前光标所在处获取文章中的一个句子和光标位置,并将句子拆分成一系列的单词,然后将所获得的单词送入变形词辨析装置。变形词辨析装置包括变形单字库211和原形单字库212,参见图2A,该装置从光标处的单词开始查询单词信息,如果该单词是变形词,则根据变形单字库211和原形单字库212检索到原形单字信息。若查询成功,在原形单字库中取出该单词的信息;如果查询失败,返回空的单词信息;该信息库的基本结构是:
原形单词 原形单词索引号 变化方式 语法属性
短语辨析装置包括有短语单词索引库和短语信息库,参见图2B,在短语单词索引库中按照顺序存储有短语单词的索引,该短语辨析装置根据输入的单词的索引从该短语信息库中将短语信息取出。该短语的信息结构如下:
短语位置表 位置前语言成分信息表 位置后语言成分信息表 连续词短语信息表
该短语辨析装置将所检索出的短语信息送到短语索引装置。短语辨析装置在收到短语索引装置返回的单词数不够的信息时,就通过变形词辨析装置取出下一单词,并重复进行。短语索引装置包括短语索引库和短语数据库,该短语索引装置根据输入的单词,按照多重排序的方法将以这些单词开始的短语记录全部取出;短语数据记录的数据结构如下:
允许变形单词位置 表示哪一位单词可以变化
短语语法属性 允许变形单词必须按短语语法属性变化规则变形
第一位单词变化规则 该位置单词必须按变化规则变化
第二位单词变化规则
第一位语言成分位置 该位置的单词前是否存在不定长的语言成份,语言成份的规则
第一位语言成分位置
第二位语言成分位置
第二位语言成分规则
当短语索引装置发现检查的单词总数小于比较的短语单词总数时,转到短语辨析装置,短语辨析装置返回单词数不够信息,然后由变形词辨析装置取下一单词。如果两者的个数相同,就进行匹配。如果匹配成功,该装置还要检查该短语是否是最大匹配,关于最大匹配,在下文将具体解释。如果发现有非固定长度的语言成分,就将该非固定长度的单词语法属性和与其有关的语法属性送到语法规则快速确认装置,判断该语言成分是否符合规定的语法规则。语法规则快速确认装置包括语法索引库和语法规则库,该装置利用规约的手段对输入的语言成分进行确认,返回确认的结果给短语索引装置。
现在参照图3的流程,对利用上述不连续短语匹配装置进行不连续的短语匹配的方法的各步骤进行描述。
首先在句子获取步骤中从一篇文章或文章片断中取得一个完整的句子以及指定位置的单词,如步骤101所示。然后,由变形词辨析步骤将由步骤101取得的单词进行变形词识别,获得指定单词的原形单词信息,如步骤102所示,然后将识别的结果信息送入短语辨析步骤,进行步骤103所示的操作。在方框103中,短语辨析步骤根据步骤102获得的单词信息,从相应的数据库中取出其对应的短语信息,如果当前的单词不可能与其它词组成短语,就返回变形词辨析步骤取出下一单词,否则进行步骤105。在步骤105,短语辨析步骤根据所取得的短语信息,确定查询方向,直接移至假定的短语的第一个单词的位置,若所取的短语信息成功,则记录,通过短语位置表循环操作,得到对应的短语信息,重复本步骤,可以确定要查找的短语的第一位单词在句子中的位置,可长可短的短语成分在句子中的大致范围,最后逐一将每条位置短语信息传给步骤107,由短语索引步骤进行操作。在步骤107,短语索引步骤首先搜索单词对应的短语数据,包括:短语中单词容许的变化形式,必须按规则变化的单词变化规则,可长可短的语言成分位置和规则。将短语数据与短语信息进行比较。在步骤108,如果判断出指定的短语是连续短语,则转入步骤109,利用已有的方法进行翻译,由于这种翻译方法在现有技术中是公知的,在此不再赘述。如果在步骤108判断该短语是不连续短语,则进入步骤110。在步骤110,语法规则快速确认步骤根据短语索引装置所送来的短语信息中相关的可长可短的语言成分和对应的短语数据中可长可短的语言成分规则,进行语法规则判断。如果在步骤111判断出所指定的不连续短语符合语法规则,则确认匹配无误,进入步骤112进行翻译。否则进入步骤106,寻找其它的短语成分。
这里要说明的是,由于短语形式复杂,在不连续短语匹配中会遇到同一单词对应多个短语的现象。因此,短语索引装置在第一次匹配成功后,并不立刻对之翻译,而是将短语数据储存在存储器中,在以后匹配成功时要将新的短语数据与存储器中的短语数据进行比较,如果新的短语单词总数大于存储器中的短语数据的单词总数,则将新的短语数据存入存储器中以代替前一短语数据,以找到短语的最大匹配。如果新的短语单词总数等于存储器中的短语数据的单词总数,则将新的短语数据添加存入存储器中。如果新的短语单词总数小于存储器中的短语数据的单词总数,则返回短语匹配失败信息。
下面以识别英语中的不连续短语为例对上述的不连续短语匹配装置和方法进行进一步说明。
假设现在获得一个英语句子:
My teacher acquainted several students of our class with the recentadvances this morning.
假定acquaintrd是某单词的变化形,通过变形词辨析装置搜索查出acquainted的单词信息如下:
原形单词 acquaint
原形单词索引号 4145
变化方式 过去式或过去完成式
语法属性 动词
如果搜索后未查出单词,说明该字符串非单词,装置返回未查到信息,所有装置停止运行。
通过短语辨析装置,读取acquaint的短语信息如下:
短语位置 短语位置表 位置前语言成分信息表 位置后语言成分信息表 连续短语信息表
第一位 1 0 1 1
上表中,短语位置域表示一个单词在短语中的位置。短语位置表表示该单词是否为短语主位,若置1,则表示为主位,置0表示不是主位。位置前语言成分信息表域若置1,表示在该单词之前可存在可长可短的短语,否则置0。位置后语言成分信息表若置1,表示该单词之后可存在可长可短的短语。否则置0。连续短语信息表若置1,表示该单词后可以与另一单词匹配成短语,否则置0。如果上述各域均置为0,表示该单词仅为单词而已,不会与其它词匹配为短语。应停止进行当前匹配或继续进行下一单词的分析。
本例中acquaint仅是短语中的第一个单词,不可能出现在短语中的第二或第三位置处。该过程从acquaint的短语信息中得到三个结论:
1)acquaint只能是短语中的第一个单词;
2)在acquaint之后可以存在可长可短的短语成分;
3)acquaint与其后的单词也能组成连续短语。
然后,短语辨析装置根据取得的短语信息确定向后查短语,并逐一与其后单词匹配,查到能与with组成短语:
1)acquaint和with能组成不连续短语;
2)several students of our class是在acquainted.....with之间的可长可短的语言成分;
3)the recent...是在with之后的可长可短的语言成分。
接下来,短语索引装置获得短语信息后,搜索acquaint,with对应的短语,获得短语数据是:
允许变形单词 1(表示第一位单词可以变化)
短语语法属性 动词(第一位单词必须按动词变化规则变形)
第一位单词变化规则
第二位单词变化规则 原形
第一位语言成分位置 2(表示在第二位单词前)
第一位语言成分规则 名词性成分
第二位语言成分位置 3(表示在第三位单词前)
第二位语言成分规则 名词性成分
短语索引装置按以下步骤检测语言成分:
1)several students of our class是在with之前的可长可短的语言成分;
2)several students of our class五个单词的单词信息中的变化方式和语法属性及第一位语言成分规则和名词性成分送入语法规则快速确认装置;
3)语法规则快速确认装置根据送入的数据与相关的语法规则匹配,断定这五个单词组成的语言成分符合名词性成分规则,返回匹配成功;
4)the recent...是在with之后的可长可短的语言成分,但在短语单词最后,语法规则快速确认装置返回匹配成功。
接下来,短语索引装置按照acquaint...with...短语数据的要求判断是否为短语:
1)acquaint可以是单词的变化方式;
2)with必须是原形单词。
在上面的例子中,acquainted是acquaint的过去式或过去完成式,属于单词的变化方式,这里所指的变化方式包括:第三人称单数,进行式,过去式和过去完成式;with是原形单词,所以acquainted several students of ourclass with the recent...对应短语acquaint...with....
该过程再次循环,确认acquaunt...with...已是最大范围,返回查到短语信息,并将acquaint...with...数据送给显示设备显示和进行翻译。
很显然,本发明不限于两个字的不连续短语,任何其它组合,只要短语中字词有所中断均可用上述装置和方法翻译分析,比如说三个以上不连续的单词组成的短语,或不连续的短语中有连续的短语,均可同样处理。
在同一个单词可以与不同的单词组成不同的短语时,本发明会对每一种可能进行匹配,获得最佳和最大范围的匹配和翻译。
本发明对短语前后的可长可短的语句并无限制,因此对于不连续短语中包含不连续短语的情况,本发明同样能够发现和翻译。
虽然本发明中只以英语为例进行了说明,但很显然这里描述的本发明完全能够处理任何语言中的不连续短语。
本领域的普通技术人员在本发明所公开的内容的基础之上,可以进行各种变形和修改,而不脱离本发明的精神和范围。因此本发明的保护范围以所附的权利要求为准。

Claims (11)

1.一种不连续短语匹配装置,其特征在于包括:
从一篇文章或位置片断的指定的位置获取一个句子,并将句子拆分成多个单词的句子获取装置;
根据一个变形词取得其原形的变形词辨析装置;
根据上述变形词辨析装置得到的单词,将有关的短语信息位置取出的短语辨析装置;
根据上述短语辨析装置所取得的所述短语信息位置,将涉及所述单词的短语全部取出并根据所确定的规则进行匹配的短语索引装置;以及
根据所确定的语法规则,判断所识别出的语言成分是否符合所述语法规则的语法规则快速确认装置。
2.根据权利要求1的不连续短语匹配装置,其特征在于:
所述变形词辨析装置包括一个辨析单字库和一个原形单字库;
所述短语辨析装置包括一个短语单词索引库和一个短语信息库;
所述短语索引装置包括一个短语索引库单字库和一个短语数据库;
所述语法规则快速确认装置包括一个语法索引库和一个语法规则库。
3.根据权利要求2的不连续短语匹配装置,其特征在于:
所述短语信息库包括短语位置表,位置前语言成分信息表,位置后语言成分信息表和连续词短语信息表等数据项。
4.根据权利要求2的不连续短语匹配装置,其特征在于:
所述短语数据库包括允许变形单词位置,短语语法属性,单词变化规则前后短语位置和前后短语属性等数据项。
5.一种不连续短语匹配方法,其特征在于包括下述步骤:
1)句子获取步骤,该步骤从一篇文章或一段文章中取得要处理的句子,并将其分成各个单词;
2)变形词辨析步骤,该步骤查询在步骤1)所取得的句子的指定位置的单词,如果该单词已被变形,取得其原形的信息;
3)短语辨析步骤,该步骤根据变形词辨析步骤的结果,获得短语信息,确定在指定的位置处是否存在不定长语言成分,判断查询的方向;
4)短语索引步骤,该步骤根据上述步骤所获得的短语信息,进行短语成分的检索和识别;
5)语法规则快速确认步骤,该步骤根据上述识别的结果,判断所识别的结果是否符合规定的语法规则,确定识别成功否。
6.根据权利要求5的方法,其特征在于:
所述短语辨析步骤包括以下步骤:
A)确定查询方向,直接移至假定的短语的第一个单词位置;
B)确定该短语在指定的信息表中是否存在,如果该短语在指定的信息表中存在,则记录下这一信息;
C)如果该短语在指定的信息表中不存在,则将短语位置向前移动,取得下一短语,并返回步骤B);
D)确定要查找的短语的第一位单词在句子中的位置,可长可短的语言成分的范围和每条位置短语信息。
7.根据权利要求6的方法,其特征在于:
所述短语索引步骤包括以下步骤:
A)搜索所述单词对应的短语数据,将短语数据与所获得的短语信息进行比较;
B)如果该短语是连续短语,则进行连续短语的匹配;然后回到步骤2);
C)否则,将短语信息中相关的可长可短的语言成分和对应的短语数据中可长可短的语言成分规则送入步骤5)。
8.根据权利要求7的方法,其特征在于:
所述语法规则快速确认步骤包括以下步骤:
A)如果短语信息中相关的可长可短的语言成分和对应的短语数据中的可长可短的语言成分规则不相符,返回短语匹配失败信息;返回步骤2);
B)如果相符,进行短语单词匹配。
9.根据权利要求8的方法,其特征在于:
所述语法规则快速确认步骤包括以下步骤:
A)如果短语信息中相关的可长可短的语言成分和对应的对应数据中的可长可短的语言成分规则不相符,返回短语匹配失败信息;返回步骤2);
B)如果相符,进行短语单词匹配。
10.根据权利要求5-9中任一权利要求的方法,其特征在于:
所述不连续短语包含两个或两个以上的字/词。
11.根据权利要求1-4中任一权利要求的不连续短语匹配装置,其特征在于:
所述不连续短语包含两个或两个以上的字/词。
CN98105507A 1998-03-11 1998-03-11 不连续短语的匹配翻译装置和方法 Pending CN1228566A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN98105507A CN1228566A (zh) 1998-03-11 1998-03-11 不连续短语的匹配翻译装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN98105507A CN1228566A (zh) 1998-03-11 1998-03-11 不连续短语的匹配翻译装置和方法

Publications (1)

Publication Number Publication Date
CN1228566A true CN1228566A (zh) 1999-09-15

Family

ID=5218793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN98105507A Pending CN1228566A (zh) 1998-03-11 1998-03-11 不连续短语的匹配翻译装置和方法

Country Status (1)

Country Link
CN (1) CN1228566A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452459B (zh) * 2007-11-30 2011-01-19 英业达股份有限公司 利用索引查找相似翻译结果的系统及其方法
CN102214166A (zh) * 2010-04-06 2011-10-12 三星电子(中国)研发中心 基于句法分析和层次模型的机器翻译系统和方法
CN103049434A (zh) * 2012-12-12 2013-04-17 北京海量融通软件技术有限公司 一种变形词证认系统及证认方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452459B (zh) * 2007-11-30 2011-01-19 英业达股份有限公司 利用索引查找相似翻译结果的系统及其方法
CN102214166A (zh) * 2010-04-06 2011-10-12 三星电子(中国)研发中心 基于句法分析和层次模型的机器翻译系统和方法
CN102214166B (zh) * 2010-04-06 2013-02-20 三星电子(中国)研发中心 基于句法分析和层次模型的机器翻译系统和方法
CN103049434A (zh) * 2012-12-12 2013-04-17 北京海量融通软件技术有限公司 一种变形词证认系统及证认方法
CN103049434B (zh) * 2012-12-12 2016-08-17 北京海量融通软件技术有限公司 一种变形词证认系统及证认方法

Similar Documents

Publication Publication Date Title
US10445359B2 (en) Method and system for classifying media content
CN102053991B (zh) 用于多语言文档检索的方法及系统
EP1485830B1 (en) Retrieving matching documents by queries in any national language
US6178417B1 (en) Method and means of matching documents based on text genre
CN1728142B (zh) 信息检索系统中的短语识别方法和设备
US9165085B2 (en) System and method for publishing aggregated content on mobile devices
CN101276361B (zh) 一种显示相关关键词的方法及系统
US20020032693A1 (en) Method and system of establishing electronic documents for storing, retrieving, categorizing and quickly linking via a network
US9785707B2 (en) Method and system for converting audio text files originating from audio files to searchable text and for processing the searchable text
CN1871605A (zh) 问答式文献检索系统和方法
US20080267503A1 (en) Increasing Retrieval Performance of Images by Providing Relevance Feedback on Word Images Contained in the Images
CN101297288A (zh) 用于确定字词排列的自然度的装置、方法和程序存储介质
WO2011037675A1 (en) Computation and analysis of significant themes
CN105824939A (zh) 对部分用户输入的词典建议
RU2487404C2 (ru) Способ классификации веб-страниц и организации соответствующего информационного наполнения
CN1008016B (zh) 输入处理系统
CN1871607A (zh) 标识相关名称
EP1907946A1 (en) A method for finding text reading order in a document
CN110659310A (zh) 一种车辆信息的智能搜索方法
JP2003150623A (ja) 言語横断型特許文献検索方法
CN102033866A (zh) 用于校验化学名称的方法及系统
US7593844B1 (en) Document translation systems and methods employing translation memories
Schmiedeke et al. Overview of mediaeval 2012 genre tagging task
US20110320466A1 (en) Methods and systems for filtering search results
CN1228566A (zh) 不连续短语的匹配翻译装置和方法

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication