CN101533391A - 一种查找相似的匹配句的系统及其方法 - Google Patents

一种查找相似的匹配句的系统及其方法 Download PDF

Info

Publication number
CN101533391A
CN101533391A CN200810084751A CN200810084751A CN101533391A CN 101533391 A CN101533391 A CN 101533391A CN 200810084751 A CN200810084751 A CN 200810084751A CN 200810084751 A CN200810084751 A CN 200810084751A CN 101533391 A CN101533391 A CN 101533391A
Authority
CN
China
Prior art keywords
matched sentences
module
word
similarity
matching degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200810084751A
Other languages
English (en)
Inventor
邱全成
王辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inventec Corp
Original Assignee
Inventec Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Corp filed Critical Inventec Corp
Priority to CN200810084751A priority Critical patent/CN101533391A/zh
Publication of CN101533391A publication Critical patent/CN101533391A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种查找相似的匹配句的系统及其方法,其通过在查找匹配句的同时过滤肯定不符合期望匹配度的句子,使得与待翻译句进行相似度比对的匹配句大幅减少,如此可以解决现有技术中所存在的使用精确的电脑辅助翻译演算法会导致负载较高的问题,以此可以达成降低负载的技术功效。

Description

一种查找相似的匹配句的系统及其方法
技术领域
一种查找相似的匹配句的系统及其方法,特别是指一种在查找匹配句的同时过滤不符合期望匹配度的句子的系统及其方法。
背景技术
电脑辅助翻译(Computer-assisted translation),又称机器辅助翻译,顾名思义,是以电脑程序软件辅助人工翻译,电脑辅助翻译中最常见的技术,便是翻译记忆(Translation Memory;TM),这是以数据库的方式存储翻译前的匹配句与翻译后的翻译结果,所述数据库称之为翻译记忆库。翻译者在翻译时利用电脑搜寻分析翻译记忆库,找出相同或相似(相似度高于一定值)的句子,以提供翻译者使用或参考。使用翻译记忆,对于维持翻译结果中相同词汇以及句型的一致性有很大的帮助。
实际上,电脑辅助翻译要达到令使用者满意的翻译效果,则所使用的数据库必需要达到一定的规模,也就是数据库中要有大量的匹配句。所以,提供电脑辅助翻译功能的电脑的性能以及实现电脑辅助翻译的演算法将决定电脑辅助翻译的执行速度。
目前实现电脑辅助翻译的演算法有很多,最精确的莫过于余弦定理匹配法,但使用余弦定理匹配法会导致数字装置产生非常高的负载(loading),因此通常只有具有强大运算能力的集群服务器才适宜使用余弦定理匹配法。
综上所述,可知现有技术中长期以来一直存在使用精确的电脑辅助翻译演算法会导致负载较高的问题,因此有必要提出改进的技术手段,来解决此一问题。
发明内容
有鉴于现有技术存在的使用精确的电脑辅助翻译演算法会导致负载较高的问题,本发明提供一种查找相似的匹配句的系统及其方法,其中:
本发明所提供的查找相似的匹配句的系统,包括:接收模块、参数读取模块、存储模块、查找模块、计算模块、判断模块及显示模块,通过接收模块接收待翻译句,查找模块至存储模块中查找最大相似度不小于期望匹配度的匹配句,并在计算模块依据连续匹配单词数、匹配单词出现次数及最大相似度计算出最终相似度后,再由判断模块判断最终相似度是否不小于参数读取模块所读取的期望匹配度,若是,显示模块将会显示出被查找出来的匹配句,由此解决现有技术所存在的问题。
本发明所提供的查找相似的匹配句的方法,其包括有下列步骤:读取期望匹配度;接收待翻译句;依据匹配单词出现次数计算待翻译句与匹配句间的最大相似度,并比对最大相似度与期望匹配度以过滤匹配句,其中匹配单词出现次数是待翻译句所有单词在匹配句中出现的次数;依据连续匹配单词数、匹配单词出现次数及最大相似度计算最终相似度,其中连续匹配单词数是待翻译句与匹配句间,连续最大数量的相同单词;当最终相似度不小于期望匹配度时,显示匹配句,其通过在查找匹配句的同时排除肯定不符合期望匹配度的句子的方式来解决现有技术所存在的问题。
本发明所提供的系统与方法如上,其与现有技术之间的差异在于本发明在查找匹配句的同时排除肯定不符合期望匹配度的句子,使得待翻译句所需比对的匹配句大幅减少。通过上述的技术手段,本发明可以达成降低负载的技术功效。
附图说明
图1为本发明所述查找相似的匹配句的系统架构图;
图2A为本发明实施例所提的主数据表;
图2B为本发明实施例所提的索引数据表;
图3A为本发明实施例所提的矩阵;
图3B为本发明实施例所提的矩阵;
图4为本发明所提的查找相似的匹配句的方法流程图;
图5为本发明实施例所提的查询语法。
具体实施方式
以下将配合附图及实施例来详细说明本发明的详细特征与实施方式,内容足以使任何熟悉相关技艺者轻易地理解本发明解决技术问题所应用的技术手段并据以实施,及理解实现本发明可达成的功效。
以下先以图1本发明所提的查找相似的匹配句的系统架构图来说明本发明的系统运作。如图1所示,本发明的系统包含有接收模块110、参数读取模块120、存储模块130、查找模块150、计算模块160、判断模块170及显示模块180。
接收模块110负责接收使用者所输入的待翻译句。
参数读取模块120负责读取期望匹配度,其中,参数读取模块120所读取的期望匹配度可以为系统的预设值,也可以由使用者通过接收模块110所输入。
上述被读取的期望匹配度为使用者可以接受的相似度,也就是待翻译句与匹配句的相似度,一般而言,期望匹配度为一个百分比值,因此范围落在0~100之间,而且通常不会为0。
存储模块130负责存储至少一笔的匹配句。其中,存储模块130存储匹配句的方式可为数据库存储,例如以图2A以及图2B所示的主数据表310与索引数据表320存储匹配句,但本发明并不以该存储方式为限。
存储模块130在将匹配句存入数据库时,还可以先对匹配句的单词进行一部分的处理,例如删去单词中的所有标点符号、将大写字母转换为小写等,但本发明并不以此为限,所以在图2B中,单词“I’m”中的符号“′”没有被存储于索引资料表320,且大写字母“I”也被转换为小写的“i”之后以“im”的字串存储于索引资料表320中。
查找模块150会依据待翻译句的所有单词在某一匹配句中出现的次数(即匹配单词出现次数),计算出待翻译句与匹配句的最大相似度,并比对出最大相似度不小于期望匹配度的匹配句,也就是说,查找模块150会以上述的方法至存储模块130中查找出至少一句的匹配句。查找模块150可通过比对最大相似度与期望匹配度的动作,将最大相似度小于期望匹配度的匹配句先行过滤,减低后续计算模块160运行时的负载。
值得一提的是,查找模块150只会在存储模块130中进行一次查找动作,例如,当本发明以数据库来存储匹配句时,查找模块150只会以一个查询语法查找出所有的匹配句,以此将查找的时间缩到最短,然匹配句存储在数据库中的形式则非本发明的重点,凡可以一个查询语法完成所有匹配句的查找的存储形式均可为本发明所使用。
计算模块160负责依据连续匹配单词数、以及查找模块150查找过程中所计算产生的匹配单词出现次数与最大相似度计算出最终相似度。
上述的连续匹配单词数是待翻译句与匹配句间,连续最大数量的相同单词,其计算方式例如以矩阵匹配法的方式进行计算,但本发明并不以此为限。
上述的矩阵匹配法,是先建立一个由待翻译句与匹配句中的单词所形成的矩阵,若待翻译句的单词为列,匹配句的单词为行,则可以如图3A的矩阵400所示,将行与列的数据为相同时的位置设为1,不同时则设为0,接着分别计算矩阵中所有左上右下的斜线的总合,如图3B的矩阵400所示,粗黑框所形成的斜线为总合值最高的斜线,其值为2,因此得知此时的连续匹配单词数为2。
判断模块170负责判断计算模块160所计算产生的最终相似度是否不小于参数读取模块120所读取的期望匹配度。
显示模块180负责在判断模块170判断计算模块160所计算产生的最终相似度不小于参数读取模块120所读取的期望匹配度时,显示匹配句。
另外,本发明还可具有一排序模块190,排序模块190负责在最终相似度不小于期望匹配度的匹配句有多句时,依据最终相似度排序各匹配句,使显示模块180可依最终相似度的排列顺序显示各匹配句。
接着以一个实施例来解说本发明的运作系统与方法,并请参照图4本发明所提的查找相似的匹配句的方法流程图。
当使用者使用本发明进行电脑辅助翻译时,参数读取模块120会先读取期望匹配度(步骤201),例如读取系统预设值为“75%”,或是读取接收模块110所接收的使用者输入的期望匹配度,在本实施例中,假设使用者输入期望匹配度为“60%”,接收模块110在接收到使用者所输入的期望匹配度后,参数读取模块120会读取使用者输入的“60%”做为期望匹配度。
在参数读取模块120读取期望匹配度(步骤201)之后,使用者输入待翻译句“I’m a man”,接收模块110便接收到使用者所输入的待翻译句“I’ma man”(步骤210)。
接着,查找模块150会至存储模块130中查找匹配句(步骤220),若存储模块130是以如图2A以及图2B所示的主数据表310与索引数据表32存储匹配句,则查找模块150将会以如图5所示的查询语法500对数据库进行一次的查找动作,以此查找出匹配句。
其中,上述的查找模块150所进行的查找动作(步骤220),会先计算出待翻译句“I’m a man”的所有单词(“im”、“a”、“man”)在匹配句“I’m a student,I study in school”的所有单词(“im”、“a”、“student”、“i”、“study”、“in”、“school”、“man”)中出现的次数的总合(此即匹配单词出现次数)为2,而后,将由待翻译句与匹配句的两个句子之间,选出单词较多者作为单词数的来源,由于待翻译句“I’m a man”与匹配句“I’ma student,I study in school”间,单词较多的句子为匹配句,因此单词数的来源将由匹配句所提供,而匹配句有七个单词,所以单词数即为7,因此待翻译句“I’m a man”对应匹配句“I’m a student,I study in school”的最大相似度为28.6%(匹配单词出现次数2除以单词数7),由于最大相似度仅有28.6%,小于期望匹配度60%,因此匹配句“I’m a student,I study in school”将不会被查找模块150所查找出来。
若匹配句为“I’m a woman”,则查找模块150经由上述相同的计算方式,可以得到匹配单词出现次数为2、最大相似度为66.7%,由于最大相似度不小于期望匹配度60%,因此匹配句“I’m a woman”会被查找模块150查找出来。
在最大相似度不小于期望匹配度的匹配句都被查找模块150查找出来(步骤220)之后,计算模块160会依据待翻译句对应匹配句的匹配单词出现次数、最大相似度以及连续匹配单词数计算最终相似度(步骤230),其中,计算模块160会先以如上述所提的矩阵匹配法等方式计算出连续匹配单词数为2,并在计算出连续匹配单词数后,以连续匹配单词数除以匹配单词出现次数后,再乘上最大相似度的计算方式计算最终相似度,也就是说,匹配句“I’m a woman”的最终相似度为2÷2×66.7%=66.7%。
在计算模块160计算出最终相似度(步骤230)之后,判断模块170会判断出匹配句“I’m a woman”的最终相似度66.7%不小于期望匹配度(步骤250),因此显示模块180会显示出匹配句“I’m a woman”(步骤270)以及译文“我是一个女人。”,以此提供使用者作为翻译的参考。
而若查找模块150查找出多句匹配句(步骤230),且在经过计算模块160计算最终相似度之后,不小于期望匹配度的匹配句不只一句(步骤250),则本发明的排序模块190会将上述匹配句以最终匹配度的顺序进行排序(步骤260),使显示模块180可显示出排序后的匹配句(步骤270)。
综上所述,可知本发明与现有技术之间的差异在于具有在查找匹配句的同时排除肯定不符合期望匹配度的句子的技术手段,通过此一技术手段可以使得待翻译句所需比对的匹配句大幅减少,解决现有技术所存在的使用精确的电脑辅助翻译演算法会导致负载较高的问题,进而达成降低负载的技术功效。
再者,本发明的查找相似的匹配句的方法,可实现在硬件、软件或硬件与软件的组合中,也可在电脑系统中以集中方式实现或以不同元件散布于若干互连的电脑系统的分散方式实现。
虽然本发明所提供的实施方式如上,所述的内容并非用以直接限定本发明的专利保护范围。任何本发明所属技术领域中具有通常知识者,在不脱离本发明所提供的精神和范围之内,在实施的形式上及细节上所为的更动或润饰,均属本发明的专利保护范围。因此本发明的专利保护范围仍须以本说明书所附的权利要求书所界定者为准。

Claims (9)

1、一种查找相似的匹配句的方法,其特征在于,所述方法包含下列步骤:
读取一期望匹配度;
接收一待翻译句;
依据一匹配单词出现次数计算所述待翻译句与一匹配句间的一最大相似度,并比对所述最大相似度与所述期望匹配度以过滤所述匹配句,其中所述匹配单词出现次数是所述待翻译句的所有单词在所述匹配句中出现的次数;
依据一连续匹配单词数、所述匹配单词出现次数及所述最大相似度计算一最终相似度,其中所述连续匹配单词数是所述待翻译句与所述匹配句间,连续最大数量的相同单词;及
当所述最终相似度不小于所述期望匹配度时,显示所述匹配句。
2、如权利要求1所述的方法,其特征在于:其中所述最大相似度是依据所述匹配单词出现次数与一最多单词数计算,所述最多单词数是所述待翻译句与所述匹配句中的单词数较多者。
3、如权利要求1所述的方法,其特征在于:其中所述方法更包含依据最终相似度排序各所述匹配句的步骤。
4、如权利要求1所述的方法,其特征在于:其中所述读取所述期望匹配度的步骤是读取接收被输入的所述期望匹配度的步骤。
5、一种查找相似的匹配句的系统,其特征在于,所述系统包含:
一接收模块,用于接收一待翻译句;
一参数读取模块,用于读取一期望匹配度;
一存储模块,用于存储至少一匹配句;
一查找模块,用于依据一匹配单词出现次数计算所述待翻译句与一匹配句间的一最大相似度,并比对所述最大相似度与所述期望匹配度以过滤所述匹配句,其中所述匹配单词出现次数是所述待翻译句的所有单词在所述匹配句中出现的次数;
一计算模块,用于依据一连续匹配单词数、所述匹配单词出现次数及所述最大相似度计算一最终相似度,其中所述连续匹配单词数是所述待翻译句与所述匹配句间,连续最大数量的相同单词;
一判断模块,用于判断所述最终相似度是否不小于所述期望匹配度;及
一显示模块,用于在所述判断模块判断所述最终相似度不小于所述期望匹配度时,显示所述匹配句。
6、如权利要求5所述的方法,其特征在于:其中所述最大相似度是依据所述匹配单词出现次数与一最多单词数计算,所述最多单词数是所述待翻译句与所述匹配句中的单词数较多者。
7、如权利要求5所述的方法,其特征在于:其中所述计算模块是以矩阵匹配法计算所述连续匹配单词数。
8、如权利要求5所述的方法,其特征在于:其中所述系统更包含一排序模块,用于依据所述最终相似度排序各所述匹配句。
9、如权利要求5所述的方法,其特征在于:其中所述接收模块更用于接收被输入的所述期望匹配度,并由所述参数读取模块读取。
CN200810084751A 2008-03-14 2008-03-14 一种查找相似的匹配句的系统及其方法 Pending CN101533391A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200810084751A CN101533391A (zh) 2008-03-14 2008-03-14 一种查找相似的匹配句的系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810084751A CN101533391A (zh) 2008-03-14 2008-03-14 一种查找相似的匹配句的系统及其方法

Publications (1)

Publication Number Publication Date
CN101533391A true CN101533391A (zh) 2009-09-16

Family

ID=41104001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810084751A Pending CN101533391A (zh) 2008-03-14 2008-03-14 一种查找相似的匹配句的系统及其方法

Country Status (1)

Country Link
CN (1) CN101533391A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693222A (zh) * 2012-05-25 2012-09-26 熊晶 基于实例的甲骨文释文机器翻译方法
CN103377188A (zh) * 2012-04-24 2013-10-30 苏州引角信息科技有限公司 翻译库的构建方法及系统
CN104731893A (zh) * 2015-03-17 2015-06-24 北京京东尚科信息技术有限公司 一种基于dubbo的web服务查找方法、装置和系统
CN109035001A (zh) * 2018-06-28 2018-12-18 招联消费金融有限公司 智能语音应答处理方法及系统
CN113919371A (zh) * 2021-09-06 2022-01-11 山东智慧译百信息技术有限公司 一种翻译语料库的匹配方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103377188A (zh) * 2012-04-24 2013-10-30 苏州引角信息科技有限公司 翻译库的构建方法及系统
CN102693222A (zh) * 2012-05-25 2012-09-26 熊晶 基于实例的甲骨文释文机器翻译方法
CN104731893A (zh) * 2015-03-17 2015-06-24 北京京东尚科信息技术有限公司 一种基于dubbo的web服务查找方法、装置和系统
CN109035001A (zh) * 2018-06-28 2018-12-18 招联消费金融有限公司 智能语音应答处理方法及系统
CN113919371A (zh) * 2021-09-06 2022-01-11 山东智慧译百信息技术有限公司 一种翻译语料库的匹配方法

Similar Documents

Publication Publication Date Title
US20200081899A1 (en) Automated database schema matching
WO2021135469A1 (zh) 基于机器学习的信息抽取方法、装置、计算机设备及介质
JP2005222532A (ja) 大規模な電子的なドキュメントのコレクション(集まり)を探索するためのドキュメント関連性の決定に対する機械学習アプローチ
CN113312461A (zh) 基于自然语言处理的智能问答方法、装置、设备及介质
US10540444B2 (en) Text mining a dataset of electronic documents to discover terms of interest
CN110569289B (zh) 基于大数据的列数据处理方法、设备及介质
CN112445775B (zh) 一种光刻机的故障分析方法、装置、设备和存储介质
CN102959538B (zh) 给文档编索引
CN113139387A (zh) 语义纠错方法、电子设备及存储介质
CN102200968A (zh) 一种excel表格数据排重的方法和装置
CN101533391A (zh) 一种查找相似的匹配句的系统及其方法
CN109871473A (zh) 一种对工程文件和数据库建立全文检索文档的方法
CN108776673A (zh) 关系模式的自动转换方法、装置及存储介质
CN107704474A (zh) 属性对齐方法和装置
CN111460797A (zh) 关键字抽取方法、装置、电子设备及可读存储介质
CN106933824A (zh) 在多个文档中确定与目标文档相似的文档集合的方法和装置
CN106570196B (zh) 视频节目的搜索方法和装置
CN110069594B (zh) 合同确认方法、装置、电子设备及存储介质
CN107748748A (zh) 水利水电技术标准全文检索系统
CN104142947A (zh) 文件分类系统及方法
CN103678355B (zh) 文本挖掘方法和文本挖掘装置
CN102646099B (zh) 模式匹配系统、模式映射系统及方法
CN115640378A (zh) 工单检索方法、服务器、介质及产品
JP2609196B2 (ja) 類似度計算装置
WO2019043380A1 (en) SEMANTIC ANALYSIS

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20090916