CN101452459B - 利用索引查找相似翻译结果的系统及其方法 - Google Patents

利用索引查找相似翻译结果的系统及其方法 Download PDF

Info

Publication number
CN101452459B
CN101452459B CN2007101955024A CN200710195502A CN101452459B CN 101452459 B CN101452459 B CN 101452459B CN 2007101955024 A CN2007101955024 A CN 2007101955024A CN 200710195502 A CN200710195502 A CN 200710195502A CN 101452459 B CN101452459 B CN 101452459B
Authority
CN
China
Prior art keywords
index value
individual character
module
translation result
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2007101955024A
Other languages
English (en)
Other versions
CN101452459A (zh
Inventor
邱全成
林锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhangjiagang Leyu science and Technology Innovation Park Investment Development Co.,Ltd.
Original Assignee
Inventec Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Corp filed Critical Inventec Corp
Priority to CN2007101955024A priority Critical patent/CN101452459B/zh
Publication of CN101452459A publication Critical patent/CN101452459A/zh
Application granted granted Critical
Publication of CN101452459B publication Critical patent/CN101452459B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

一种利用索引查找相似翻译结果的系统及其方法,其通过索引表储存包含查询句中至少一个单字的匹配句的索引值,并由查找出来的索引值进行是否符合匹配条件的判断,如此仅需对资料笔数较少的单字进行比对,可以解决先前技术中所存在的需要逐句比对才可以判断出与查询句相似的匹配句的问题,藉此可以达成加快翻译记忆库的搜寻速度的技术功效。

Description

利用索引查找相似翻译结果的系统及其方法 
技术领域
一种查找翻译结果的系统及其方法,特别是指一种利用索引查找相似翻译结果的系统及其方法。 
背景技术
电脑辅助翻译(Computer-assisted translation),又称机器辅助翻译,顾名思义,是以电脑程序软件辅助人工翻译,电脑辅助翻译中最常见的技术,便是翻译记忆(Translation Memory;TM),这是以资料库的方式储存翻译前的匹配句与翻译后的翻译结果,该资料库称之为翻译记忆库。翻译者在翻译时可利用电脑搜寻分析翻译记忆库,找出相同或相似(相似度高于一定值)的句子,以提供翻译者使用或参考。使用翻译记忆,对于维持翻译结果中相同词汇以及句型的一致性有很大的帮助。实际中,翻译记忆要达到令使用者满意的翻译效果,翻译记忆库则需要达到一定的规模,也就是翻译记忆库中要有大量的匹配句与翻译结果。 
比对与查询句相似度高的匹配句,除了要考量查询句的断词方式用以计算相似度的匹配条件之外,还要考量词汇的顺序、句子的重组、句子的增删修改等情况,所以目前在翻译记忆库中搜寻与查询句相似的匹配句的技术大都是采用逐句比对的方式,因此当要比对的匹配句数量非常大时,将造成使用者花费许多时间等待翻译记忆库的回应。 
综上所述,可知翻译记忆进行比对的先前技术中,长期以来一直存在使用逐句比对的问题,因此有必要提出改进的技术手段,来解决此一问题。 
发明内容
有鉴于先前技术存在的翻译记忆库使用逐句比对的问题,本发明遂揭露 一种利用索引查找相似翻译结果的系统及其方法,其中: 
本发明所揭露的利用索引查找相似翻译结果的系统,其包括有:接收模块、分割模块、储存模块、查找模块、匹配模块及显示模块,分割模块分割查询句为各个单字,由查找模块至储存模块所储存的索引表中查找包含查询句中至少一个单字的匹配句的索引值,并由匹配模块依据查找出来的索引值来判断各个索引值所代表的匹配句是否符合匹配条件,后由显示模块显示符合匹配条件的匹配句的翻译结果,藉以解决先前技术所存在的需逐条比对的问题。 
本发明所揭露的利用索引查找相似翻译结果的方法,其包括有下列步骤:接收查询句;分割查询句为复数个单字;由索引表中查找各单字分别对应的索引值,其中各索引值分别对应包含各单字至少其中之一的匹配句;依据各索引值判断各索引值对应的匹配句符合匹配条件时,读取索引值所对应的匹配句的翻译结果;显示该翻译结果,其通过索引表储存包含查询句中至少一个单字的匹配句的索引值,并由查找出来的索引值进行是否符合匹配条件的判断,藉以解决先前技术所存在的需逐条比对的问题。 
本发明所揭露的系统与方法如上,其与先前技术之间的差异在于额外使用一个索引表来记录匹配句中的各单字以及包含各单字的匹配句的索引值,使得本发明不需要将储存模块中的逐句比对即可获得与查询句相似的匹配句。通过上述的技术手段,本发明可以仅对单字进行比较,达成加快翻译记忆库的搜寻速度的技术功效。 
附图说明
图1是本发明所提的利用索引查找相似翻译结果的系统架构图。 
图2A是本发明实施例所提的索引表示意图。 
图2B是本发明实施例所提的翻译记忆库示意图。 
图3是本发明所提的利用索引查找相似翻译结果的方法流程图。 
具体实施方式
以下将配合图式及实施例来详细说明本发明的详细特征与实施方式,内容足以使任何熟习相关技艺者轻易地理解本发明解决技术问题所应用的技术手段并据以实施,及理解实现本发明可达成的功效。 
本发明所提的查询句,为使用者欲参考翻译记忆库以进行翻译的句子,而本发明所提的匹配句,则为储存在翻译记忆库中,与查询句语是相同的句子,也就是说若查询句为英文,则匹配句也会是英文。 
以下先以图1本发明所提的利用索引查找相似翻译结果的系统架构图来说明本发明的系统运作。如图1所示,本发明的系统主要含有接收模块110、分割模块120、储存模块140、查找模块130、匹配模块150、显示模块160,而常用字过滤模块170、资料更新模块180、常用字定义模块190为可附加于本发明系统的功能,将于稍后描述。 
接收模块110负责接收使用者所输入的查询句,其中,使用者可以逐字元输入或复制&贴上(copy&paste)的方式输入查询句,但使用者输入查询句的方式并不以上述两者为限。 
分割模块120负责将查询句中的各个单字由该查询句中分割出来,其中分割模块120分割查询句的方法包含但不局限于判断查询句中的每一个字元,当被判断的字元为空白(space)或标点符号时,即可分割出一个单字。 
储存模块140负责储存与查询句相似的匹配句、匹配句的翻译结果以及索引表310,其中索引表310如图2A所示,包含匹配句中的各单字以及包含各单字的匹配句的索引值,且索引表中的各单字分别与各索引值呈现一对多的对应关系,但索引表310并不以此储存格式为限。 
查找模块130负责由储存模块140的索引表310中查找出各个单字所对应的索引值,其中,上述的各个单字为分割模块120分割接收模块110所接收的查询句所产生。另外,查找模块130更可以将复数名词转换为单数名词后查询相对应的索引值,也可以将非原型动词转换为原型动词之后再查询对应的索引值。 
上述的查找模块130查找各单字的索引值的方式,可以直接在索引表的单字栏中查找出各单字,再读出与单字相对应的索引值;也可以将各单字进行散列(hash)函数的运算取得散列值后,依据计算所得的散列值至散列表(hash table)中查找与散列值相对应的各单字在索引表310中的位置,再依据查找出的位置至索引表中读出与该单字相对应的索引值,藉以通过散列的方式增加查找模块130查找出各单字所对应的索引值的速率。其中,使用散列的方式时,散列表会储存在储存模块140中。 
匹配模块150负责由查找模块130所查找出的各索引值来判断各索引值所代表的匹配句是否符合匹配条件,当某一索引值符合匹配条件时,匹配模块150会至储存模块140中读取该索引值所代表的匹配句的翻译结果。 
显示模块160负责显示匹配模块150读取的翻译结果。 
接着以一个实施例来解说本发明的运作系统与方法,并请参照图3,以具体了解本发明所提的利用索引查找相似翻译结果的方法流程。在本实施例中,匹配条件则预先定义为索引值被查找的次数超过1次,但本发明所提的匹配条件并不以此为限。 
首先接收模块110会接收使用者所输入的查询句「Would you like toreply with this words?」(步骤210),接着,分割模块120会依据空白以及标点符号把查询句分割为「would」、「you」、「like」、「to」、「reply」、「with」、「this」、「words」等单字(步骤220)。 
接着,如图2A所示,查找模块130会至索引表310中查找与各个单字所对应的索引值(步骤232),单字「would」所对应的匹配句的索引值包含「1000、1101、1208」、单字「like」所对应的匹配句的索引值包含「1101、1208」、单字「with」所对应的匹配句的索引值包含「1101」、单字「word」所对应的匹配句的索引值包含「1101」等,其中,由于单字「words」为复数,因此查找模块130所查找的单字是单数的「word」,而非「words」。 
在查找模块130查找出与各个单字所对应的索引值(步骤232)后,匹配模块150会计算各个索引值被查找出的字数,在本实施例中,索引值「1000」与单字「would」对应,因此被查找出的次数为1次、索引值「1101」与单字「would」、「like」、「with」、「word」对应,因此被查找出4次,而索引值「1208」则被查找出2次。 
由于本实施例的匹配条件是判断被查找的次数是否大于1,因此匹配模块150在计算出各索引值被查找出的次数之后,会进一步判断各索引值被查找出的次数是否大于1,当索引值大于1时,表示该索引值所对应的匹配句符合匹配条件(步骤250),因此匹配模块150会依据该索引值将对应的匹配句所对应的翻译结果由储存模块140中读取出来(步骤261);若索引值小于或等于1,表示索引值所对应的匹配句不符合匹配条件,因此将不进行任何动作。所以,如图2B所示,索引值「1101」与索引值「1208」所对应的匹配句,也就是「I would like to have a word with you.」与「Would you pleasecome tonight?」将会被匹配模块150判断为与查询句相似,因此由储存模块140的翻译记忆库320中读出相对应的翻译结果「我想跟你说句话。」与「你今晚来一下好吗?」 
在匹配模块150读取出符合匹配条件的各个匹配句所对应的翻译结果(步骤261)后,显示模块160会显示匹配模块150所读出的匹配的翻译结果(步骤262)。 
在上述的实施例中,若匹配模块150判断与查询句相似的匹配句过多(步骤250),则将使得系统负载大幅提高,为了避免这样的状况,因此匹配模块150判断出相似的句子过多时,仅会读取某一预定值的相似的句子为匹配句,例如当相似的句子有1000句时,匹配模块150仅会读取其中的100句(但本发明所提的预定值并不以100句为限)为匹配句。 
综上所述,可知本发明与先前技术之间的差异在于具有一个索引表,用来记录匹配句中的各单字以及包含各单字的匹配句的索引值,此一技术手段可以仅对资料笔数少于匹配句的单字进行比对,藉以解决先前技术所存在的需要逐句比对查询句之后,才可以判断出与查询句相似的匹配句的问题,进而达成加快翻译记忆库的搜寻速度的技术功效。 
在上述的实施例中,匹配模块150更可以依据匹配句中的单词顺序、位置等条件判断各匹配句的相似程度,并依据相似程度的高低排列被匹配模块150所读出的翻译结果,使得显示模块160依据相似程度的高低显示各翻译结果(步骤262)。 
由于本发明利用了翻译记忆,因此在完成翻译动作后,资料更新模块 180将会储存查询句以及将与查询句对应的翻译结果至储存模块130的翻译记忆库320中(步骤281),藉以满足翻译记忆「一个句子只翻译一次」的特性。而在查询句存入翻译记忆库320后,将会获得一个索引值,这时,资料更新模块180会将新获得的索引值存入储存模块130的索引表310中,藉以更新查询句中的各单字所对应的索引值(步骤282)。 
为了避免发生误判与查询句相似的匹配句的情况,本发明更包含了一个常用字过滤模块170,负责在分割模块120分割出各个单字(步骤220)后,将各单字中的常用字删除(步骤231),使得查找模块140不会查找常用字的索引值,例如在上述实施例中,若单字「would」为常用字,则在常用字过滤模块170删除之后,查找模块140将不会查找单字「would」所对应的索引值,因此,匹配模块150会判断出只有索引值「1101」符合匹配条件(步骤250),因为只有索引值「1101」被查找出3次(与单字「like」、「with」、「word」对应),其他索引值都未达匹配条件的标准。 
另外,本发明更包含了常用字定义模块190,当分割模块120分割查询句后产生的各单字出现超过预定值时,常用字定义模块190将会定义该单字为常用字,例如,若预定值为3次,则使用者在输入的三个查询句中都包含有单字「like」后,常用字定义模块190将会发现单字「like」的需查询次数已经满足了预定值(步骤291、步骤292),常用字定义模块190会将单字「like」定义为常用字(步骤293),如此,匹配模块150将可以匹配出更精准的匹配句。 
再者,本发明的利用索引查找相似翻译结果的方法,可实现于硬件、软件或硬件与软件的组合中,亦可在电脑系统中以集中方式实现或以不同元件散布于若干互连的电脑系统的分散方式实现。 
虽然本发明所揭露的实施方式如上,惟所述的内容并非用以直接限定本发明的专利保护范围。任何本发明所属技术领域中具有通常知识者,在不脱离本发明所揭露的精神和范围之内,在实施的形式上及细节上所为的更动或润饰,均属本发明的专利保护范围。因此本发明的专利保护范围仍须以本说明书所附的权利要求范围所界定者为准。 

Claims (12)

1.一种利用索引查找相似翻译结果的方法,该方法包含下列步骤:
接收一查询句;
分割该查询句为复数个单字;
由一索引表中查找各单字分别对应的至少一索引值,其中各索引值分别对应包含各单字至少其中之一的一匹配句;
计算各索引值被查找出的次数;
当一该索引值被查找出的次数符合一门槛值时,读取符合该门槛值的该索引值对应的匹配句对应的一翻译结果;及
显示该翻译结果。
2.如权利要求1所述的利用索引查找相似翻译结果的方法,其中该方法更包含储存该查询句以获得相对应的新索引值,并储存该新索引值至该索引表中藉以更新该索引表中的各单字所对应的各索引值的步骤。
3.如权利要求1所述的利用索引查找相似翻译结果的方法,其中该方法更包含该查询句分割为各单字后,删除各单字中的各常用字,并在查找各单字对应的索引值时,不查找各常用字对应的索引值的步骤。
4.如权利要求1所述的利用索引查找相似翻译结果的方法,其中该方法更包含分割该查询句为各单字后,分别计算各单字的一需查询次数,当该需查询次数符合一预定值时,定义该需查询次数符合该预定值的该单字为一常用字的步骤。
5.如权利要求1所述的利用索引查找相似翻译结果的方法,其中该方法更包含判断各匹配句对应该查询句的相似程度,并依据各相似程度排列各匹配句对应的各翻译结果的步骤。
6.如权利要求1所述的利用索引查找相似翻译结果的方法,其中该查找各单字分别对应的各索引值的步骤是计算该单字的一散列值,并依据该散列值至一散列表中查找出该单字于该索引表中的一位置,再依据该位置至该索引表中读出该单字所对应的该索引值的步骤。
7.一种利用索引查找相似翻译结果的系统,该系统包含:
一接收模块,用以接收一查询句;
一分割模块,用以将该查询句分割为复数个单字;
一储存模块,用以储存一索引表,其中该索引表包含至少一索引值及与该索引值相对应的一单字,其中该单字包含于该索引值所对应的一匹配句中;
一查找模块,用以由该索引表中查找各单字所对应的至少一索引值;
一匹配模块,用以计算各索引值被查找出的次数,当一该索引值被查找出的次数符合一门槛值时,至该储存模块中读取符合该门槛值的该索引值所对应的该匹配句所对应的一翻译结果;及
一显示模块,用以显示该翻译结果。
8.如权利要求7所述的利用索引查找相似翻译结果的系统,其中该匹配模块更用以判断各匹配句对应该查询句的相似程度,并依据各相似程度排列各匹配句对应的各翻译结果。
9.如权利要求7所述的利用索引查找相似翻译结果的系统,其中该系统更包含一资料更新模块,用以储存该查询句以获得该查询句所对应的一新索引值,并于该索引表中储存该新索引值,藉以更新该索引表中的各单字所对应的各索引值。
10.如权利要求7所述的利用索引查找相似翻译结果的系统,其中该系统更包含一常用字过滤模块,用以于该分割模块分割出各单字后,将各单字中的各常用字删除,使得该查找模块不查找各常用字所对应之索引值。
11.如权利要求7所述的利用索引查找相似翻译结果的系统,其中该系统更包含一常用字定义模块,用以于该分割模块分割出各单字后,计算各单字的一需查询次数,当该需查询次数符合一预定值时,定义该需查询次数符合该预定值的该单字为一常用字。
12.如权利要求7所述的利用索引查找相似翻译结果的系统,其中该储存模块更用以储存一散列表,提供该查找模块于计算该单字的一散列值后,先依据该散列值至一散列表中查找出该单字于该索引表中的一位置,再依据该位置至该索引表中读出该单字所对应的该索引值。
CN2007101955024A 2007-11-30 2007-11-30 利用索引查找相似翻译结果的系统及其方法 Active CN101452459B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007101955024A CN101452459B (zh) 2007-11-30 2007-11-30 利用索引查找相似翻译结果的系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007101955024A CN101452459B (zh) 2007-11-30 2007-11-30 利用索引查找相似翻译结果的系统及其方法

Publications (2)

Publication Number Publication Date
CN101452459A CN101452459A (zh) 2009-06-10
CN101452459B true CN101452459B (zh) 2011-01-19

Family

ID=40734695

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101955024A Active CN101452459B (zh) 2007-11-30 2007-11-30 利用索引查找相似翻译结果的系统及其方法

Country Status (1)

Country Link
CN (1) CN101452459B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102810096B (zh) * 2011-06-02 2016-03-16 阿里巴巴集团控股有限公司 一种基于单字索引系统的检索方法和装置
CN102591859B (zh) * 2011-12-28 2014-11-05 华为技术有限公司 一种重用行业标准格式文件的方法及相关装置
CN103885939A (zh) * 2012-12-19 2014-06-25 新疆信息产业有限责任公司 维吾尔文-汉文双向翻译记忆系统的构造方法
CN104298684B (zh) * 2013-07-18 2018-04-06 深圳中兴网信科技有限公司 一种查询方法、装置及服务器
CN107943794A (zh) * 2016-10-12 2018-04-20 阿里巴巴集团控股有限公司 一种翻译方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1228566A (zh) * 1998-03-11 1999-09-15 英业达股份有限公司 不连续短语的匹配翻译装置和方法
JP2003316810A (ja) * 2002-04-23 2003-11-07 Just Syst Corp 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1228566A (zh) * 1998-03-11 1999-09-15 英业达股份有限公司 不连续短语的匹配翻译装置和方法
JP2003316810A (ja) * 2002-04-23 2003-11-07 Just Syst Corp 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム

Also Published As

Publication number Publication date
CN101452459A (zh) 2009-06-10

Similar Documents

Publication Publication Date Title
KR102237702B1 (ko) 엔티티 관계 데이터 생성 방법, 장치, 기기 및 저장 매체
US7031910B2 (en) Method and system for encoding and accessing linguistic frequency data
CN100454305C (zh) 文档管理方法和装置以及文档搜索方法和装置
CN1661593B (zh) 一种计算机语言翻译方法及其翻译系统
WO2009063925A1 (ja) 文書管理・検索システムおよび文書の管理・検索方法
JP2007257644A (ja) 訳語候補文字列予測に基づく訳語取得のためのプログラム、方法および装置
CN102939581A (zh) 多个线程对文档的并发利用
CN101452459B (zh) 利用索引查找相似翻译结果的系统及其方法
JP4502615B2 (ja) 類似文検索装置、類似文検索方法、およびプログラム
CN103154939A (zh) 使用依存丛林的统计机器翻译方法
CN111209753B (zh) 一种实体命名识别方法及装置
CN115935944A (zh) 一种跨平台的标准文件树形结构生成方法与展示控件
CN106933824A (zh) 在多个文档中确定与目标文档相似的文档集合的方法和装置
CN101944086A (zh) 全字索引词典
US20060248037A1 (en) Annotation of inverted list text indexes using search queries
CN110874366A (zh) 数据处理、查询方法和装置
CN103064847A (zh) 索引装置、索引方法、检索装置、检索方法和检索系统
CN112486988A (zh) 数据处理方法、装置、设备及存储介质
CN108614821B (zh) 地质资料互联互查系统
CN102567424B (zh) 一种诗词关联库系统及其实现方法和电子学习设备
CN113032523B (zh) 三元组信息的抽取方法、装置、电子设备和存储介质
CN114610955A (zh) 一种智能检索方法、装置、电子设备及存储介质
CN115080684A (zh) 网盘文档索引方法、装置、网盘及存储介质
KR20220099745A (ko) 지리공간 블록체인 데이터 검색을 위한 공간 분할 기반의 트리 인덱싱 및 질의어 처리 방법 및 장치
US11003647B2 (en) Multidimensional data management system and multidimensional data management method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190702

Address after: Taipei City, Taiwan Chinese Shilin District Hougang Street No. 66

Co-patentee after: Inventec (Chongqing) Co., Ltd.

Patentee after: Inventec Corporation

Address before: Taipei City, Taiwan Chinese Shilin District Hougang Street No. 66

Patentee before: Inventec Corporation

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200619

Address after: 215600 No.11 Renmin Road, Leyu Town, Zhangjiagang City, Suzhou City, Jiangsu Province

Patentee after: Zhangjiagang Leyu science and Technology Innovation Park Investment Development Co.,Ltd.

Address before: Taipei City, Taiwan Chinese Shilin District Hougang Street No. 66

Co-patentee before: Inventec (Pudong) Technology Corp.

Patentee before: Inventec Corp.

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: System and method for searching similar translation results by index

Effective date of registration: 20210830

Granted publication date: 20110119

Pledgee: Bank of Suzhou Co.,Ltd. Zhangjiagang sub branch

Pledgor: Zhangjiagang Leyu science and Technology Innovation Park Investment Development Co.,Ltd.

Registration number: Y2021980008568