CN101470704A - 对译文提取装置及对译文提取方法 - Google Patents

对译文提取装置及对译文提取方法 Download PDF

Info

Publication number
CN101470704A
CN101470704A CNA2007103015831A CN200710301583A CN101470704A CN 101470704 A CN101470704 A CN 101470704A CN A2007103015831 A CNA2007103015831 A CN A2007103015831A CN 200710301583 A CN200710301583 A CN 200710301583A CN 101470704 A CN101470704 A CN 101470704A
Authority
CN
China
Prior art keywords
literary composition
translation
extract
civilian
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007103015831A
Other languages
English (en)
Inventor
刘绍明
吴宏林
闫永明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to CNA2007103015831A priority Critical patent/CN101470704A/zh
Priority to JP2008127262A priority patent/JP5428199B2/ja
Publication of CN101470704A publication Critical patent/CN101470704A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供可高精度地提取对译文提取装置及对译文提取方法。该装置具有:计算单元,其使用通过对第1语言所记载的第1文及第2语言所记载的第2文的统计处理而得到的统计信息,计算表示第1文和第2文类似的程度的指标;提取单元,其根据计算单元所计算出的指标从构成第2语言所表示的第2文章的文中提取被考虑为第1文的对译文的提取文;调节单元,其根据表示将提取单元所提取出的提取文及构成第2文章的其他第2文合并的合并文、和第1文类似的程度的指标,将第1文的对译文从提取文调节为合并文。根据该结构,将对译文从使用根据统计信息所计算的指标而提取出的文调节为将所提取出的文和其他文合并的文,所以可高精度地提取对译文。

Description

对译文提取装置及对译文提取方法
技术领域
本发明涉及对译文提取装置及对译文提取方法。
背景技术
以往,公知有对译词典自动生成方式,该方式使用将翻译前的语言即原语言所表示的例文和翻译成翻译后的语言即目的语言的例文对应起来预先存储的例文对译词典,可自动生成将原语言的单词和翻译成目的语言的单词对应起来存储的单词对译词典(例如专利文献1)。
该方式的特征在于,其具有如下步骤:读入例文对译词典所存储的相对应的文的步骤;以及在所读入的文内,根据基于单词的使用频度的统计分析所计算出的似然度,将构成原语言所表示的文的单词和构成翻译成目的语言的文的单词对应为译对的步骤。
另外,公知有对译对提取装置,虽然是使用频度低的表达并且是构成由无对译关系的两种语言所表示的文档的表达,但可将分别处于对译关系的表达作为对译对来进行提取(例如专利文献2)。
该装置的特征在于,其具有:固有表达提取单元,其从使用第1语言所表示的文档及使用第2语言所表示的文档中提取出例如被称为人名和地名等的某文档中固有的固有表达;对应关系确定单元,其确定固有表达提取单元从使用第1语言所表示的文档中提取出的固有表达和使用第2语言所表示的固有表达之间的对应关系;以及对译对提取单元,其根据由对应关系确定单元所确定的对应关系,将各固有表达作为对译对来进行提取。
另外,公知有如下的方法:根据由不同语言所表示的文的长度,计算出表示各文处于对译关系的可能性的指标(例如非专利文献1)。
该计算方法的特征在于,利用不同语言所表示的文的长度和通过对不同语言所表示的例文对译词典所存储的文进行统计处理而预先计算出的参数,来计算出指标。
[专利文献1]日本特开平7—28819号公报
[专利文献2]日本特开2005—135217号公报
[非专利文献1]X.Q.Lv,Q.Y.Li,Z.D.Huang,Y.N.Shen and T.S.Yao,“Towards Chinese—English Sentence Alignment Based on StatisticalMethod”,Journal of MINI—MICRO Systems,2004,Vo1.25,No.6,pp.990—992
发明内容
本发明的目的在于提供一种可高精度地提取出对译文的对译文提取装置及对译文提取方法。
本发明所涉及的对译文提取装置的特征在于,其具有:计算单元,其使用通过对使用第1语言所记载的第1文及使用第2语言所记载的第2文的统计处理而得到的统计信息,计算表示第1文和第2文类似的程度的指标;提取单元,其根据计算单元所计算出的指标从构成使用第1语言所表示的第1文章的文中提取被考虑为第2文的对译文的第1提取文,并且根据指标从构成使用第2语言所表示的第2文章的文中提取被考虑为第1提取文的对译文的第2提取文;以及调节单元,其在提取单元所提取的第2提取文是被考虑为第1提取文的对译文的第2文的情况下,根据计算单元计算的表示第1提取文和将第2提取文及构成第2文章的其他第2文合并的第2合并文类似的程度的指标,将第1提取文的对译文从第2提取文调节为第2合并文。
在上述结构中,可采用如下的结构:在提取单元所提取的第2提取文是被考虑为第1提取文的对译文的第2文的情况下,调节单元根据计算单元计算的表示第2提取文和将第1提取文及构成第1文章的其他第1文合并的第1合并文类似的程度的指标,将第2提取文的对译文从第1提取文调节为第1合并文。
在上述结构中,可采用如下的结构:在提取单元所提取的第2提取文是被考虑为第1提取文的对译文的第2文的情况下,调节单元根据计算单元计算的表示将第1提取文及构成第1文章的其他第1文合并的第1合并文、和将第2提取文及构成第2文章的其他第2文合并的第2合并文类似的程度的指标,将第1提取文的对译文从第2提取文调节为第2合并文,并且将第2合并文的对译文调节为第1合并文。
在上述结构中,可采用如下的结构:提取单元根据计算单元所计算出的指标从构成第1文章的文中提取被考虑为位于第2提取文的附近的第2文的对译文的其他第1提取文,并且根据指标从构成第2文章的文中提取被考虑为其他第1提取文的对译文的其他第2提取文,在提取单元所提取出的其他第2提取文是被考虑为其他第1提取文的对译文的第2文的情况下,调节单元根据计算单元计算的表示将第2提取文及其他第2提取文合并的文、和其他第1提取文类似的程度的指标,将其他第1提取文的对译文从其他第2提取文调节为将第2提取文和其他第2提取文合并的文。
在上述结构中,可采用如下的结构:提取单元根据计算单元所计算出的指标从构成第2文章的文中提取被考虑为位于第1提取文的附近的第1文的对译文的其他第2提取文,并且根据指标从构成第1文章的文中提取被考虑为其他第2提取文的对译文的其他第1提取文,在提取单元所提取出的其他第1提取文是被考虑为其他第2提取文的对译文的第1文的情况下,调节单元根据计算单元计算的表示将第1提取文及其他第1提取文合并的文、和其他第2提取文类似的程度的指标,将其他第2提取文的对译文从其他第1提取文调节为将第1提取文和其他第1提取文合并的文。
在上述结构中,可采用如下的结构:计算单元使用对第1文及第2文的统计信息以及与第1文及第2文所具有的意思相关的意思信息这双方来计算指标。
在上述结构中,可采用如下的结构:意思信息包括与构成文的单词的意思相关的信息。
在上述结构中,可采用如下的结构:计算单元使用统计信息和与文的长度相关的信息来计算指标。
在上述结构中,可采用如下的结构:计算单元根据在第1文及第2文中共同地对第1文及第2文附加特征的数字、英文字符串、以及记号中的任一个来计算指标。
在上述结构中,可采用如下的结构:第1语言及第2语言是中文及日文、或日文及中文,计算单元根据构成第1文及第2文的文字的形状共同的程度来计算指标。
本发明所涉及的对译文提取方法的特征在于,其具有如下的步骤:计算步骤,其使用通过对使用第1语言所记载的第1文及使用第2语言所记载的第2文的统计处理而得到的统计信息,计算表示第1文及第2文类似的程度的指标;提取步骤,其根据在计算步骤中所计算出的指标从构成使用第1语言所表示的第1文章的文中提取被考虑为第2文的对译文的第1提取文,并且根据指标从构成使用第2语言所表示的第2文章的文中提取被考虑为第1提取文的对译文的第2提取文;以及调节步骤,其在提取步骤中所提取的第2提取文是被考虑为第1提取文的对译文的第2文的情况下,根据在计算步骤中计算的表示第1提取文、和将第2提取文及构成第2文章的其他第2文合并的第2合并文类似的程度的指标,将第1提取文的对译文从第2提取文调节为第2合并文。
根据本发明的第1方案,根据使用统计信息所计算出的指标,将第1提取文的对译文从第2提取文调节为将第2提取文和其他第2文合并的第2合并文,所以可高精度地提取对译文。
根据本发明的第2方案,根据使用统计信息所计算出的指标,将第2提取文的对译文从第1提取文调节为将第1提取文和其他第1文合并的第1合并文,所以可高精度地提取对译文。
根据本发明的第3方案,根据使用统计信息所计算出的指标,将第1提取文的对译文从第2提取文调节为将第2提取文和其他第2文合并的第2合并文,并且将第2合并文的对译文调节为将第1提取文和其他第1文合并的第1合并文,所以可高精度地提取对译文。
根据本发明的第4方案,在位于第2提取文的附近的文是被考虑为其他第1提取文的对译文的文的情况下,把将第2提取文和位于第2提取文的附近的文合并的文、与其他第1提取文作为对译文来调节,所以可高精度地提取对译文。
根据本发明的第5方案,在位于第1提取文的附近的文是被考虑为其他第2提取文的对译文的文的情况下,把将第1提取文和位于第1提取文的附近的文合并的文、与其他第2提取文作为对译文来调节,所以可高精度地提取对译文。
根据本发明的第6方案,使用根据统计信息及意思信息这双方来计算出的指标提取被考虑为对译文的文,所以可高精度地提取各种语言间的对译文。
根据本发明的第7方案,可使用根据与单词的意思相关的信息所计算出的指标提取被考虑为对译文的文。
根据本发明的第8方案,可根据文的长度来统计地提取被考虑为对译文的文。
根据本发明的第9方案,可使用根据构成文的共同的数字、英文字符串、及记号所计算出的指标提取被考虑为对译文的文。
根据本发明的第10方案,可使用根据构成文的文字的形状所计算出的指标来提取被考虑为对译文的文。
根据本发明的第11方案,不仅是使用根据统计信息所计算出的指标而提取出的第1提取文,把将第1提取文和其他第1文合并的第1合并文也作为对译文来调节,所以可高精度地提取对译文。
附图说明
图1是示出由本发明的对译文提取装置所构成的翻译系统的一个实施方式的结构图。
图2是示出对译文提取装置的一个结构例的图。
图3是示出对译文提取装置的硬件的一个结构例的图。
图4是示出控制部的一个结构例的图。
图5是示出计算部的一个结构例的图。
图6是示出形状类似度计算部所执行的形状类似度计算处理的一个例子的流程图。
图7是示出特征量提取部所执行的特征量提取处理的一个例子的流程图的一部分。
图8是示出特征量提取部所执行的特征量提取处理的一个例子的流程图的其他部分。
图9是示出调节部所执行的调节处理的一个例子的流程图的一部分。
图10是示出调节部所执行的要素调节处理的一个例子的流程图的一部分。
图11是示出调节部所执行的要素调节处理的一个例子的流程图的其他部分。
图12是示出调节部所执行的情形2的处理的一个例子的流程图的一部分。
图13是示出调节部所执行的情形2的处理的一个例子的流程图的其他部分。
图14是示出调节部所执行的情形3的处理的一个例子的流程图的一部分。
图15是示出调节部所执行的情形3的处理的一个例子的流程图的其他部分。
图16是示出调节部所执行的修正处理的一个例子的流程图的一部分。
图17是示出调节部所执行的修正处理的一个例子的流程图的其他部分。
图18是示出调节部所执行的修正处理的一个例子的流程图的其他部分。
图19是示出调节部所执行的修正处理的一个例子的流程图的其他部分。
图20是示出调节部所执行的修正处理的一个例子的流程图的其他部分。
图21是示出调节部所执行的行调节处理的一个例子的流程图的一部分。
图22是示出调节部所执行的行调节处理的一个例子的流程图的其他部分。
图23是示出调节部所执行的空列调节处理的一个例子的流程图的一部分。
图24是示出调节部所执行的空列调节处理的一个例子的流程图的其他部分。
图25是示出调节部所执行的空行调节处理的一个例子的流程图的一部分。
图26是示出调节部所执行的空行调节处理的一个例子的流程图的其他部分。
图27是示出控制部所执行的对译文提取处理的一个例子的流程图。
具体实施方式
以下,参照附图来说明本发明的优选的实施方式。
(实施例1)
图1是示出由本发明的对译文提取装置所构成的翻译系统的一个实施方式的结构图。
图1所示的翻译系统10由通信网100、对译文提取装置1000、显示装置2000、输入装置3000、翻译装置4000、显示装置5000、以及输入装置6000构成。
通信网100例如由LAN(Local Area Network,局域网)、WAN(WideArea Network,广域网)、MAN(Metropolitan Area Network,城域网)、或公共电话网构成,将对译文提取装置1000和翻译装置4000可通信地连接。
对译文提取装置1000例如由个人计算机构成,与通信网100、显示装置2000、以及输入装置3000连接。
对译文提取装置1000在从翻译装置4000取得使用第1语言所表示的文章(以下简称为第1文章)之后,从输入装置3000取得使用第2语言所表示的文章(以下简称为第2文章),从构成所取得的第2文章的文中提取出构成所取得的第1文章的文的对译文。
在本实施例中,语言除了中文、日文、以及英文等自然语言之外,还包括世界语等人工语言。
另外,在本实施例中,以第1语言为中文,并且第2语言为日文来进行说明。但是不限于此,例如如第1语言为日文,并且第2语言为中文那样,只要第1语言和第2语言不同即可。
另外,对译文是指,与使用第1语言(或第2语言)所表示的文成对的文,即、将使用第1语言(或第2语言)所表示的文翻译成第2语言(或第1语言)的文。
此处参照图2来说明对译文提取装置1000的结构。图2是示出对译文提取装置1000的一个结构例的图。
图2所示的对译文提取装置1000由通信部1100、控制部1200、以及存储部1300构成。通信部1100、控制部1200、以及存储部1300所具有的功能通过对译文提取装置1000所执行的软件控制来实现。
此处,参照图3来说明用于执行软件控制的对译文提取装置1000的硬件结构。图3是示出用于实现该软件控制的对译文提取装置1000的硬件的一个结构例的图。
对译文提取装置1000例如包括:CPU(Central Processing Unit,中央处理单元)等运算部1001、EPROM(Erasable Programmable Read-OnlyMemory,可擦写可编程只读存储器)或EEPROM(Electrically ErasableProgrammable Read-Only Memory,电可擦写可编程只读存储器)等作为读出专用存储器的ROM 1002(Read-Only Memory,只读存储器)、由DRAM(Dynamic RAM,动态RAM)或SRAM(Static RAM,静态RAM)等易失性存储器及NVRAM(Non Volatile RAM,非易失性存储器)等非易失性存储器所构成的RAM 1003(Random Access Memory,随机存储器)、以及由硬盘等外部存储装置所构成的外部存储部1004,运算部1001、ROM 1002、RAM 1003、以及外部存储部1004通过总线1005相互连接。
实现上述各部的功能的软件控制通过如下动作来实现,即运算部1001读入存储在ROM 1002或外部存储部1004中的程序即应用程序,并按照所读入的应用程序进行运算来实现。另外,在RAM 1003中写入运算结果的数据,特别在NVRAM中,保存在电源断开时需要备份的数据。
接下来,返回图2,继续说明对译文提取装置1000的结构。
通信部1100例如由网卡构成,与通信网100和控制部1200连接。
通信部1100经由通信网100从翻译装置4000接收第1文章,并向控制部1200输出所取得的文章。
另外,通信部1100从控制部1200取得存储部1300所存储的最新的例文对译词典,并向翻译装置4000发送所取得的例文对译词典。
此处,例文对译词典是指,把使用第1语言(或第2语言)所表示的例文、和将使用第1语言(或第2语言)所表示的例文翻译成第2语言(或第1语言)的例文即对译文相互关联起来的信息。
控制部1200与通信部1100、存储部1300、显示装置2000、以及输入装置3000连接。控制部1200通过执行后述控制处理来控制通信部1100及显示装置2000。另外,控制部1200通过执行后述对译文提取处理,从第2文章中提取出构成第1文章的文的对译文。
首先,说明控制部1200所执行的控制处理。控制部1200从通信部1100中取得翻译装置4000所发送的第1文章。另外,通信部1100所接收的文章是翻译装置4000的使用者判断为翻译装置4000无法充分翻译的文章。
接下来,控制部1200控制显示装置2000,以显示出所取得的文章。之后,控制部1200取得通过参照显示装置2000所显示的第1文章的对译文提取装置1000的使用者操作输入装置3000而输入的文章。之后,控制部1200结束控制处理的执行。
另外,输入装置3000所输入的文章是对译文提取装置1000的使用者将显示装置2000所显示出的使用第1语言所表示的文章翻译成第2语言的文章。另外,控制部1200在控制处理的执行之后,执行对译文提取处理。
此处参照图4来说明执行对译文提取处理的控制部1200的结构。图4是示出控制部1200的一个结构例的图。
控制部1200由第1句子提取部1210、第2句子提取部1220、第1词素分析部1230、第2词素分析部1240、计算部1250、提取部1260、调节部1270、以及登记部1280构成。
第1句子提取部1210与通信部1100和第1词素分析部1230连接。第1句子提取部1210从通信部1100取得表示第1文章的电子文件。
接下来,第1句子提取部1210通过执行后述句子提取处理,取得构成所取得的文章的句子(以下简称为第1文)。之后,第1句子提取部1210向第1词素分析部1230输出所提取的句子。
此处,说明第1句子提取部1210所执行的句子提取处理的一个例子。另外,以下将第1句子提取部1210所执行的句子提取处理简称为第1句子提取处理,以下将第2句子提取部1220所执行的提取处理简称为第2句子提取处理。
首先,第1句子提取部1210打开表示从通信部1100取得的文章的电子文件。接下来,第1句子提取部1210逐个文字地读入所打开的电子文件,直到表示电子文件的终端的码(EOF(End of File))。
接下来,第1句子提取部1210判断所读入的文字是否为记号“.”(点)、“,”(逗号)、“。”(句号)、“?”(问号)、“!”(感叹号)这样的表示句子的终端的记号。
第1句子提取部1210在判断为是表示句子的终端的记号的情况下,将从文章的最初到表示句子的终端的记号之前的字符串、或由表示句子的终端的记号所围起来的字符串作为句子而提取出。否则,重复上述处理。
另外,在本实施例中,以表示句子的终端的记号包括“.”(点)等记号来进行说明,但不限于此,可采用在第1语言中通常包括表示文的结束的其他记号的结构。
另外,可采用表示句子的终端的记号包括例如表示使用“CR”(回车)或“CRLF”(回车+换行)所表示的换行的码、以及“EOF”等表示电子文件的终端的码的结构。
第2句子提取部1220与输入装置3000和第2词素分析部1240连接。第2句子提取部1220从输入装置3000取得第2文章。
接下来,第2句子提取部1220通过执行所述句子提取处理来取得构成文章的句子(以下简称为第2文)。之后,第2句子提取部1220向第2词素分析部1240输出所提取的句子。
另外此处,第1句子提取部1210将从第1文章中提取的第1文按照所提取的顺序设为CS1、CS2、...、CSm,第2句子提取部1220将从使用第2语言所表示的文章中提取的第2文,按照所提取的顺序设为JS1、JS2、...、JSn。
第1词素分析部1230与第1句子提取部1210和计算部1250连接。
第1词素分析部1230从第1句子提取部1210取得句子,对所取得的句子执行词素分析处理。另外,以下将第1词素分析部1230所执行的词素分析处理简称为第1词素分析处理,以下将第2词素分析部1240所执行的词素分析处理简称为第2词素分析处理。
之后,第1词素分析部1230针对通过词素分析处理所取得的单词,将所提取的顺序和设为提取对象的句子关联起来而输出给计算部1250。
第2词素分析部1240与第2句子提取部1220和计算部1250连接。
第2词素分析部1240从第2句子提取部1220中取得句子,对所取得的句子执行词素分析处理。之后,第2词素分析部1240针对通过词素分析处理所取得的单词,将所提取的顺序和设为提取对象的句子关联起来而输出给计算部1250。
另外,在本实施例中,第1词素分析部1230设为处理对象的句子是使用中文来表示的,所以第1词素分析部1230所执行的词素分析处理可使用清华大学的Seg & POS工具、或中国东北大学的CiPosSDK来执行。
另外,第2词素分析部1240设为处理对象的句子是使用日语来表示的,所以第2词素分析部1240所执行的词素分析处理可使用奈良先端科学技术大学院大学的Chasen(茶筌)来执行。
计算部1250与第1词素分析部1230、第2词素分析部1240、提取部1260、以及存储部1300连接。
计算部1250通过执行后述计算处理,从第1词素分析部1230和第2词素分析部1240中取得第1文及构成第1文的单词、以及第2文及构成第2文的单词,使用针对第1文及第2文的统计处理、以及与第1文及第2文所具有的意思相关的意思信息这双方,计算出表示所取得的第1文和第2文类似的程度的指标。
此处,计算部1250所计算出的指标包括类似度和对类似度进行了加权的权重指标。另外,所谓类似度是指,表示第1文和第2文相互类似的程度的指标。
类似度包括后述的词汇类似度、形状类似度、特征量类似度、以及长度类似度。另外,权重指标是使用规定的权重系数来对类似度所包含的词汇类似度、形状类似度、特征量类似度、以及长度类似度进行加权的指标。
此处参照图5来说明计算部1250的结构。图5是示出计算部1250的一个结构例的图。
计算部1250由词汇类似度计算部1251、形状类似度计算部1252、特征量提取部1253、特征量类似度计算部1254、长度类似度计算部1255、以及指标计算部1256构成。
词汇类似度计算部1251与第1词素分析部1230、第2词素分析部1240、指标计算部1256、以及存储部1300连接。词汇类似度计算部1251通过执行后述的词汇类似度计算处理,使用意思信息来计算出词汇类似度。
此处,词汇类似度是表示构成第1文的单词的意思和构成第2文的单词的意思类似的程度的指标。
另外,意思信息是与文所具有的意思相关的信息,包括与构成文的单词的意思相关的信息。
此处,参照式1,说明词汇类似度计算部1251所计算的词汇类似度。式1是表示词汇类似度计算部1251所计算的词汇类似度的一个例子的公式。
SimDict ( CSi , JSj ) = | TransSetC | + | TransSetJ | | CSi | + | JSj | · · · ( 1 )
TransSetC = { ch | ch ∈ CSi , ∃ jk ( jk ∈ JSj ) : SimDict ( ch , jk ) = 1 }
TransSetJ = { jk | jk ∈ JSj , ∃ ch ( ch ∈ CSi ) : SimDict ( ch , jk ) = 1 }
SimDict(CSi,JSj):词汇类似度
CSi(1≤i≤m):     使用第1言语所表示的第i句子
JSj(1≤j≤n):     使用第2语言所表示的第j句子
|A|:              集合A的要素数
|CSi|:            有构成句子CSi的意思的单词数
|JSj|:            有构成句子JSj的意思的单词数
ch:               有构成句子CSi的意思的单词
jk:               有构成句子JSj的意思的单词
SimDict(ch,jk):  在单词对译词典中作为ch的译语而登记有jk或作为jk的译语而登记有ch的情况下返回值“1”,否则返回值“0”的函数
接下来,说明词汇类似度计算部1251所执行的词汇类似度计算处理的一个例子。
首先,词汇类似度计算部1251从第1词素分析部1230和第2词素分析部1240中取得第1文及构成第1文的单词、以及第2文及构成第2文的单词。
此处,将词汇类似度计算部1251所取得的第1文设为CSi(1≤i≤m)以及将第2文设为JSj(1≤j≤n)。另外,将构成第1文CSi的单词设为c1、c2、...、ch,将构成第2文JSj的单词设为j1、j2、...、jk。
接下来,词汇类似度计算部1251参照存储部1300所存储的单词对译词典。另外,单词对译词典是指将第1语言的单词和该单词的第2语言的译语关联起来的信息、以及将第2语言的单词和该单词的第1语言的译语关联起来的信息。
之后,词汇类似度计算部1251通过所取得的单词、所参照的单词对译词典、上述式1来计算词汇类似度,将所计算出的词汇类似度和设为处理对象的句子关联起来输出给指标计算部1256。
形状类似度计算部1252与第1词素分析部1230、第2词素分析部1240、以及指标计算部1256连接。形状类似度计算部1252通过执行后述形状类似度计算处理,计算形状类似度。
此处,形状类似度是表示构成第1文和第2文的文字的形状共同的程度的指标。
此处,参照式2来说明形状类似度计算部1252所计算的形状类似度。式2是表示形状类似度计算部1252所计算的形状类似度的一个例子的公式。
SimMorph ( CSi , JSj ) = | MorphSetC | + | MorphSetJ | | CTi | + | JTj | · · · ( 2 )
MorphSetC = { ctr | ctr ∈ CTi , ∃ jts ( jts ∈ JTj ) : SimMorph ( ctr , jts ) = 1 }
MorphSetJ = { jts | jts ∈ JTj , ∃ ctr ( ctr ∈ CTi ) : SimMorph ( ctr , jts ) = 1 }
SimMorph(CSi,JSj):形状类似度
CSi(1≤i≤m):      使用第1言语所表示的第i句子
JSj(1≤j≤n):      使用第2语言所表示的第j句子
CTi:        将构成句子CSi的文字的转换后的文字设为要素的集合
JTj:        将构成句子JSj的文字的转换后的文字设为要素的集合
|A|:               集合A的要素数
|CTi|:             转换后的句子CTi的文字数
|JTj|:             转换后的句子JTj的文字数
ctr:               构成转换后的句子CTi的文字
jts:               构成转换后的句子JTj的文字
SimMorph(ctr,jts):在ctr属于文字集合ISO 10646且文字ctr和jts的unicode相同的情况下返回值“1”,否则返回值“0”的函数
接下来,参照图6来说明形状类似度计算部1252所执行的形状类似度计算处理。图6是示出形状类似度计算部1252所执行的形状类似度计算处理的一个例子的流程图。
首先,形状类似度计算部1252从第1词素分析部1230中取得第1文(步骤ST 0001)。接下来,形状类似度计算部1252从第2词素分析部1240中取得第2文(步骤ST 0002)。接下来,形状类似度计算部1252通过参照存储部1300所存储的转换表,转换构成文即句子的文字、数字和记号(步骤ST 0003)。
另外,在步骤ST 0003中,形状类似度计算部1252所执行的转换处理例如包括将半角文字、半角数字、及半角记号转换为全角文字、全角数字、及全角记号的处理、以及其逆转换处理,或者将汉字数字转换为数字的处理、以及其逆转换处理。
另外,包括:将作为构成第1语言即中文的句子的文字的、使用繁体文字所表示的文字转换为简体文字的转换处理;将简体文字转换为繁体文字的转换处理;或者转换为与使用简体文字或繁体文字所表示文字对应的第2语言即日语的文字的处理、或者其逆转换处理。
之后,词汇类似度计算部1251针对实施了转换处理的句子使用上述式2,由此计算出形状类似度(步骤ST 0004)。虽然省略图示,但词汇类似度计算部1251将所计算出的形状类似度和设为处理对象的句子关联起来输出给指标计算部1256。之后,词汇类似度计算部1251结束词汇类似度计算处理的执行。
特征量提取部1253与第1词素分析部1230、第2词素分析部1240、以及特征量类似度计算部1254连接。特征量提取部1253通过执行后述特征量提取处理,从句子中提取出特征量。
此处,特征量是指根据对作为句子的文附加特征的信息而计算出的量。具体而言,在本实施例中,特征量是根据表示在第1文和第2文中共同地对文附加特征的数字、英文字符串、引用记号的对(以下简称为引用记号对)、以及括弧的有无的信息来计算出的量。
此处参照图7及图8来说明特征量提取部1253所执行的特征量提取处理。图7是示出特征量提取部1253所执行的特征量提取处理的一个例子的流程图的一部分,图8是示出特征量提取部1253所执行的特征量提取处理的一个例子的流程图的其他部分。
首先,特征量提取部1253从第1词素分析部1230中取得第1文CSi(步骤ST 0101)。接下来,特征量提取部1253从第2词素分析部1240中取得第2文JSj(步骤ST 0102)。
之后,特征量提取部1253判断是否在句子CSi和JSj中存在共同的数字(步骤ST 0103)。特征量提取部1253在判断为存在共同的数字的情况下执行步骤ST 0104的处理,否则执行步骤ST 0105的处理。
在步骤ST 0103中,特征量提取部1253在判断为存在共同的数字的情况下,将特征量F1的值设为“(1—K)/4”(步骤ST 0104)。
此处,K是规定的常数。常数K的具体值例如举出“0.8”,但不限于此,可根据实验或设计来确定。
在步骤ST 0103中,特征量提取部1253在判断为没有共同的数字的情况下,将特征量F1设为“0”(步骤ST 0105)。
在执行步骤ST 0104或步骤ST 0105之后,特征量提取部1253判断是否在句子CSi和JSj中存在共同的英文字符串(步骤ST 0106)。特征量提取部1253在判断为存在共同的英文字符串的情况下执行步骤ST0107的处理,否则执行步骤ST 0108的处理。
在步骤ST 0106中,特征量提取部1253在判断为存在共同的英文字符串的情况下,将特征量F2的值设为“(1—K)/4”(步骤ST 0107)。
在步骤ST 0106中,特征量提取部1253在判断为没有共同的数字的情况下,将特征量F2设为“0”(步骤ST 0108)。
在执行步骤ST 0107或步骤ST 0108之后,特征量提取部1253判断是否在句子CSi和JSj中存在共同的引用记号对(步骤ST 0109)。特征量提取部1253在判断为存在共同的引用记号对的情况下执行步骤ST 0110的处理,否则执行步骤ST 0111的处理。
在步骤ST 0109中,特征量提取部1253在判断为存在共同的引用记号对的情况下,将特征量F3的值设为“(1—K)/4”(步骤ST 0110)。
在步骤ST 0109中,特征量提取部1253在判断为没有共同的引用记号对的情况下,将特征量F3设为“0”(步骤ST 0111)。
在执行步骤ST 0110或步骤ST 0111之后,特征量提取部1253判断是否在句子CSi和JSj中例如存在小括弧、中括弧、以及大括弧等共同的括弧记号(步骤ST 0112)。特征量提取部1253在判断为存在共同的括弧记号的情况下执行步骤ST 0113的处理,否则执行步骤ST 0114的处理。
在步骤ST 0112中,特征量提取部1253在判断为存在共同的括弧记号的情况下,将特征量F4的值设为“(1—K)/4”(步骤ST 0113)。
在步骤ST 0112中,特征量提取部1253在判断为没有共同的括弧记号的情况下,将特征量F4设为“0”(步骤ST 0114)。
在执行步骤ST 0113或步骤ST 0114之后,特征量提取部1253向特征量类似度计算部1254输出所提取的特征量F1到F4(步骤ST 0115)。之后,特征量提取部1253结束特征量提取处理的执行。
此处返回图5,继续说明计算部1250的结构。
特征量类似度计算部1254与特征量提取部1253和指标计算部1256连接。特征量类似度计算部1254通过执行特征量类似度计算处理,计算出特征量类似度。
此处,特征量类似度是根据从第1文和第2文中取得的特征量而计算出的指标,是表示第1文和第2文类似的程度的指标。
此处,说明特征量类似度计算部1254所执行的特征量类似度计算处理的一个例子。
首先,特征量类似度计算部1254从特征量提取部1253中取得特征量F1到F4。接下来,特征量类似度计算部1254通过计算所取得的特征量F1到F4的总和,来计算特征量类似度。
之后,特征量类似度计算部1254向指标计算部1256输出所计算出的特征量类似度。接下来,特征量类似度计算部1254结束特征量类似度计算处理的执行。
在本实施例中,以特征量类似度计算部1254通过计算特征量F1到F4的总和来计算特征量类似度来进行说明,但不限于此,可采用将特征量类似度设为将特征量F1到F4相乘的值的结构、或设为以规定的加权系数对特征量F1到F4进行加权的值的结构。
长度类似度计算部1255与第1词素分析部1230、第2词素分析部1240、以及指标计算部1256连接。长度类似度计算部1255通过执行长度类似度计算处理,计算长度类似度。之后,长度类似度计算部1255向指标计算部1256输出所计算出的长度类似度。
此处,长度类似度是表示第1文的长度和第2文的长度类似的程度的指标。
此处,参照式3来说明长度类似度计算部1255所计算的长度类似度。式3是表示长度类似度计算部1255所计算的长度类似度的一个例子的公式。
SimLen ( CSi , JSj ) = arg max A Π P ∈ A Pr ( δ ( li , lj ) | match ( P ) ) · · · ( 3 )
Pr ( δ ( li , lj ) | match ( P ) ) = 1 2 π ∫ - ∞ | δ ( li , lj ) | e - x 2 2 dx
δ ( li , lj ) = lj - C * li li + lj C 2 * S 2
SimLen(CSi,JSj):长度类似度
li:              句子CSi的长度
lj:              句子JSj的长度
C,S2:           统计信息
另外,统计信息C和S^2是通过对已经登记在例文对译词典中的第1文和第2文的统计处理而取得的值。
另外,关于统计信息C和S^2的计算方法、以及在使用所计算出的统计信息和句子的长度li及lj之后使用上述式3来计算长度类似度的长度类似度计算处理的详细内容,记载于非专利文献3中。
此处,以计算部1250计算出1文的句子CSi和1文的句子JSj的类似度进行了说明,但不限于此,也可以针对第1文CS1到CSm中的1文和第2文的JS 1到JS n中的1文的所有组合,计算出类似度。
另外,计算部1250计算例如将第1文CSi—1及CSi作为1文而合并的第1合并文(以下表示为CSi—1CSi)和第2文JSj的类似度。相同地,计算部1250针对将句子CS1到CSm中的连续的2文合并的第1合并文CSi—1CSi和句子JS1到JSn中的1文JSj的所有组合,计算出类似度。
另外,计算部1250针对第1文CS1到CSm中的1文Si和将第2文JS1到JSn中的连续的2文作为1文而合并的第2合并文(以下简单表示为JSj—1JSj)的所有组合,计算出类似度。
另外,计算部1250针对第1合并文SCi—1SCi和第2合并文JSj—1JSj的所有组合,计算出类似度。
此处返回图5,继续说明计算部1250的结构。
指标计算部1256与词汇类似度计算部1251、形状类似度计算部1252、特征量类似度计算部1254、长度类似度计算部1255、以及提取部1260连接。指标计算部1256通过执行后述指标计算处理,计算出权重指标。
此处,参照图4来说明指标计算部1256所计算的权重指标。式4是表示指标计算部1256所计算的权重指标的一个例子的公式。
Weight(CSi,JSj)=α*SimDict(CSi,JSj)
                +β*SimMorph(CSi,JSj)
                +γ*SimLen(CSi,JSj)
                +EigenValue(CSi,JSj)
                                             ...(4)
SimDict(CSi,JSj):CSi和JSj的词汇类似度
SimMorph(CSi,JSj):CSi和JSj的形态类似度
SimLength(CSi,JSj):CSi和JSj的长度类似度
EigenValue(CSi,JSj):CSi和JSj的特征量类似度
α、β、γ:             规定的常数
接下来,说明指标计算部1256所执行的指标计算处理的一个例子。
首先,指标计算部1256从词汇类似度计算部1251、形状类似度计算部1252、特征量类似度计算部1254、以及长度类似度计算部1255中取得第1文CSi和第2文JSj的词汇类似度、形状类似度、特征量类似度、以及长度类似度。接下来,指标计算部1256通过使用上述式4来对所取得的词汇类似度、形状类似度、特征量类似度、以及长度类似度进行加权,计算出权重指标。
之后,指标计算部1256向提取部1260输出所计算出的权重指标。接下来,指标计算部1256结束指标计算处理的执行。
此处,以指标计算部1256根据1文的句子CSi和1文的句子JSj的类似度来计算出权重指标进行说明,但不限于此,也可以计算出对针对使用第1语言所表示的句子CS1到CSm中的1文和使用第2语言所表示的句子JS1到JSn中的1文的所有组合的类似度进行加权的权重指标。
另外,指标计算部1256对针对将第1文CS1到CSm中的连续的2文CSi—1及CSi合并的第1合并文和句子JS1到JSn中的1文的所有组合的类似度,使用对类似度进行加权的下述式5来计算出权重指标。
式5是表示指标计算部1256所计算的权重指标的另一例子的公式。
Weight(CSi-1CSi,JSj)=ξ21*{α*SimDict(CSi-1CSi,JSj)
                     +β*SimMorph(CSi-1CSi,JSj)
                     +γ*SimLen(CSi-1CSi,JSj)
                     +EigenValue(CSi-1CSi,JSj)}
                                                    ...(5)
SimDict(CSi—1CSi,JSj):CSi—1CSi和JSj的词汇类似度
SimMorph(CSi—1CSi,JSj):CSi—1CSi和JSj的形态类似度
SimLen(CSi—1CSi,JSj):CSi—1CSi和JSj的长度类似度
EigenValue(CSi—1CSi,JSj):CSi—1CSi和JSj的特征量类似度
α、β、γ:                   规定的常数
ξ21:                       调节参数
另外,指标计算部1256对针对第1文的CS1到CSm中的1文和将第2文的JS1到JSn中的连续的2文JSj—1及JSj合并的第2合并文的所有组合的类似度,使用对类似度进行加权的下述式6来计算出权重指标。
式6是表示指标计算部1256所计算的权重指标的另一例子的公式。
Weight(CSi,JSj-1JSj)=ξ12*{α*SimDict(CSi,JSj-1JSj)
                     +β*SimMorph(CSi,JSj-1JSj)
                     +γ*SimLen(CSi,JSj-1JSj)
                     +EigenValue(CSi,JSj-1JSj)}
                                                   ...(6)
SimDict(CSi,JSj—1JSj):CSi和JSj—1JSj的词汇类似度
SimMorph(CSi,JSj—1JSj):  CSi和JSj—1JSj的形态类似度
SimLen(CSi,JSj—1JSj):    CSi和JSj—1JSj的长度类似度
EigenValue(CSi,JSj—1JSj):CSi和JSj—1JSj的特征量类似度
α、β、γ:                   规定的常数
ξ12:                       调节参数
另外,指标计算部1256对针对将第1文的CS1到CSm中的连续的2文CSi—1及CSi合并的第1合并文和将第2文的JS1到JSn中的连续的2文JSj—1及JSj合并的第2合并文的所有组合的类似度,使用对类似度进行加权的下述式7来计算出权重指标。
式7是表示指标计算部1256所计算的权重指标的另一例子的公式。
Weight(CSi-1CSi,JSj-1JSj)=ξ22*{α*SimDict(CSi-1CSi,JSj-1JSj)
                          +β*SimMorph(CSi-1CSi,JSj-1JSj)
                          +γ*SimLen(CSi-1CSi,JSj-1JSj)
                          +EigenValue(CSi-1CSi,JSj-1JSj)}
                                                            ...(7)
SimDict(CSi—1CSi,JSj—1JSj):CSi—1CSi和JSj—1JSj的词汇类似度
SimMorph(CSi—1CSi,JSj—1JSj):CSi—1CSi和JSj—1JSj的形态类似度
SimLen(CSi—1CSi,JSj—1JSj):CSi—1CSi和JSj—1JSj的长度类似度
EigenValue(CSi—1CSi,JSj—1JSj):CSi—1CSi和JSj—1JSj的特征量类似度
α、β、γ:                       规定的常数
ξ22:                           调节参数
另外,调节参数ξ12、ξ21、以及ξ22是规定的常数。调节参数ξ12、ξ21、以及ξ22的具体值可根据实验或设计来确定。
接下来,说明计算部1250所执行的计算处理的一个例子。
首先,计算部1250执行上述词汇类似度计算处理。接下来,计算部1250执行上述形状类似度计算处理。之后,计算部1250进行上述特征量提取处理。接下来,计算部1250执行上述特征量类似度计算处理。
之后,计算部1250执行上述长度类似度计算处理。接下来,计算部1250执行指标计算处理。之后,计算部1250结束计算处理的执行。
此处返回图4,继续说明控制部1200的结构。
提取部1260与计算部1250和调节部1270连接。提取部1260通过执行后述的提取处理,根据计算部1250所计算的指标从构成第1文章的文中提取出考虑为第2文的对译文的第1提取文,并且根据指标从构成第2文章的文中提取出考虑为第1提取文的对译文的第2提取文。
此处,说明提取部1260所执行的提取处理的一个例子。
首先,提取部1260从计算部1250中取得权重指标。接下来,提取部1260根据所取得的指标来生成单元矩阵。
此处,参照表1来说明单元矩阵。表1是示出单元矩阵的一个例子的表。
表1
Figure A200710301583D00261
单元矩阵具有与第1文的总数m相同数量的行和与第2文的总数n相同数量的列。单元矩阵所具有的行和列与第1文和第2文对应。
即,第i(1≤i≤m)行与第i个构成第1文章的第1文对应。同样地,第j(1≤j≤n)列与第j个构成第2文章的第2文对应。
单元矩阵的要素是由斜线记号“/”和位于记号的左右的数字构成的字符串。位于斜线记号的左侧的数字是表示与具有要素的行对应的第1文和与具有要素的列对应的第2文的权重指标在与相同行对应的第1文和与其他列对应的第2文的权重指标内,为第几大的数字。
具体而言,构成i行j列的要素即“1/1”的左侧的数字“1”表示与具有要素的i行对应的第1文CSi和与具有要素的列j对应的第2文JSj的权重指标在与相同行i对应的第1文CSi和与其他列对应的第2文JS1、...、JSj—1、JSj+1、...、JSn的权重指标内最大。
同样地,位于斜线记号的右侧的数字是表示与具有要素的列对应的第2文和与具有要素的行对应的第1文的权重指标在与相同列对应的第2文和与其他行对应的第1文的权重指标内,为第几大的数字。
具体而言,作为i行j列的要素的“1/1”表示与具有要素的i行对应的第1文CSi和与具有要素的列j对应的第2文JSj的权重指标在与相同列j对应的第2文JSj和与其他行对应的第1文CS1、...、CSi—1、CSi+1、...、CSm的权重指标内最大。
接下来,说明提取部1260所执行的提取处理。
在根据计算部1250所计算出的指标来生成单元矩阵之后,提取部1260从调节部1270取得表示第2文JSj在第2文章中所使用的顺序的值“j”。
接下来,提取部1260在所生成的单元矩阵的“j”列中所保存的要素内,选择右侧的序号为“1”的要素。
之后,提取部1260将与具有所选择的要素的“i*”行对应的第1文CSi*作为被考虑为第2文JSj的对译文的第1提取文CSi*而提取出。接下来,提取部1260向调节部1270输出所提取的第1提取文CSi*
另外,提取部1260在与第1提取文CSi*对应的单元矩阵的“i*”行中所保存的要素内,选择左侧的序号为“1”的要素。
之后,提取部1260将与具有所选择的要素的“j*”列对应的第2文JSj*作为被考虑为第1提取文CSi*的对译文的第2提取文JSj*而提取出。接下来,提取部1260向调节部1270输出所提取的第2提取文JSj*
之后,提取部1260从调节部1270取得表示位于第2提取文JSj*附近的第2文JSj’在第2文章中所使用的顺序的变量“j”’。
接下来,提取部1260在所生成的单元矩阵的“j”’列中所保存的要素内,选择右侧的序号为“1”的要素。
之后,提取部1260将与具有所选择的要素的“i*’”行对应的第1文CSi*’作为被考虑为第2文JSj’的对译文的其他第1提取文CSi*’而提取出。接下来,提取部1260向调节部1270输出所提取的其他第1提取文CSi*
之后,提取部1260在与其他第1提取文对应的单元矩阵的“i*’”行中所保存的要素内,选择左侧的序号为“1”的要素。
之后,提取部1260将与具有所选择的要素的“j*’”列对应的第2文JSj*’作为被考虑为其他第1提取文CSi*’的对译文的其他第2提取文JSj*’而提取出。接下来,提取部1260向调节部1270输出所提取出的其他第2提取文JSj*’。之后,提取部1260结束提取处理的执行。
另外,第2提取文的附近的位置是达成本发明的目的的位置,并且包括第2提取文的规定的文前或文后的位置。另外,在本实施例中,以规定的文前或文后是1文前或后的位置进行了说明,但不限于此,例如,可采用2文前或后的位置的结构。
另外,在本实施例中,假设被考虑为对译文的第1文的序号i和第2文的序号j的差属于规定的范围内来提取出对译文。
因此,提取部1260在句子序号i和序号j的差超过规定的范围的情况下,单元矩阵的要素一律设为“0/0”,第i句子和第j句子不会作为对译文而提取出。
另外,在本实施例中,以规定的范围是5文以内的范围进行了说明,但不限于此。
接下来,返回图4,继续说明控制部1200的结构。
调节部1270与提取部1260和登记部1280连接。调节部1270通过执行后述的调节处理,根据计算部1250所计算出的指标来调节对译文。
此处参照图9来说明调节部1270所执行的调节处理。图9是示出调节部1270所执行的调节处理的一个例子的流程图。
首先,调节部1270执行后述的要素调节处理(步骤ST 0201)。
所谓要素调节处理是在单元矩阵的要素为“1/1”的情况下,将与保存要素的行对应的第1提取文或第2提取文的对译文,从第2提取文或第1提取文向其他文调节的处理。
另外,所谓单元矩阵的“i”行“j”列的要素为“1/1”的情况是提取部1260所提取的第2提取文是被考虑为第1提取文的对译文的第2文的情况。
接下来,调节部1270执行后述的行调节处理(步骤ST 0202)。
所谓行调节处理是在要素调节处理中对与没有调节对译文的行对应的第1文,根据已经调节了对译文的文和该对译文的位置关系来调节对译文的处理。
之后,调节部1270执行后述的空列调节处理(步骤ST 0203)。
所谓空列调节处理是在上述处理中着眼于与没有调节对译文的列对应的第2提取文,把其他第1提取文的对译文从其他第2提取文调节为将第2提取文和其他第2提取文合并的文的处理。
接下来,调节部1270执行后述空行调节处理(步骤ST 0204)。
所谓空行调节处理是在上述处理中着眼于与没有调节对译文的行对应的第1提取文,把其他第2提取文的对译文从其他第1提取文调节为将第1提取文和其他第1提取文合并的文的处理。
之后,调节部1270向登记部1280输出提取了对译文的调节结果。接下来,调节部1270结束调节处理的执行(步骤ST 0205)。
接下来,参照图10及图11来说明调节部1270所执行的要素调节处理。图10是示出调节部1270所执行的要素调节处理的一个例子的流程图的一部分,图11是示出调节部1270所执行的要素调节处理的一个例子的流程图的其他部分。
调节部1270为了对存储有调节结果(即校准结果)的变量CA(在图中,简单表示为调节结果CA)进行初始化,删除所存储的调节结果(步骤ST 0301)。
接下来,调节部1270将单元矩阵的表示行的变量i(1≤i≤m)以及表示列的变量j(1≤j≤n)的值初始化为“1”(步骤ST 0302)。
之后,调节部1270判断变量i的值是否为单元矩阵的行的总数m以下(步骤ST 0303)。调节部1270在判断为变量i为m以下的情况下执行步骤ST 0304的处理,否则结束要素调节处理的执行。
在步骤ST 0303中,在判断为变量i为m以下的情况下,调节部1270判断变量j的值是否为单元矩阵的列的总数n以下(步骤ST 0304)。调节部1270在判断为变量j为n以下的情况下执行步骤ST 0305的处理,否则执行步骤ST 0313的处理。
在步骤ST 0304中,在判断为变量j为n以下的情况下,调节部1270判断单元矩阵的i行j列的要素是否为“1/1”(步骤ST 0305)。调节部1270在单元矩阵的i行j列的要素为“1/1”的情况下执行步骤ST 0306的处理,否则执行步骤ST 0312的处理。
此处,虽然省略图示,但对调节部1270判断单元矩阵的i行j列的要素是否为“1/1”的处理的一个例子进行说明。
调节部1270向提取部1260输出第2文JSj在第2文章中所使用的序号“j”,之后,从提取部1260取得第1提取文CSi*。接下来,调节部1270向提取部1260输出第1提取文CSi*在第1文章中所使用的序号“i*”,之后,从提取部1260中取得第2提取文JSj*
接下来,调节部1270通过判断所取得的第2提取文JSj*是否为使用被考虑为第1提取文CSi*的对译文的序号“j”来识别的第2文JSj,从而判断要素是否为“1/1”。
在本实施例中,以通过判断提取部1260所提取的第2提取文是否为被考虑为第1提取文的对译文的第2文,来判断单元矩阵的要素是否为“1/1”进行了说明,但不限于此,可采用仅判断单元矩阵的要素是否与字符串“1/1”一致的结构。
在步骤ST 0305中,调节部1270在判断为要素为“1/1”的情况下,判断是否满足图11所示的条件11(步骤ST 0306)。调节部1270在判断为满足条件11的情况下执行步骤ST 0309的处理,否则执行步骤ST 0307的处理。
此处所谓条件11是单元矩阵的i—1行j—1列的要素为“1/1”,i行j列的要素为“1/1”,并且i+1行j+1列的要素为“1/1”的条件。
在步骤ST 0306中,调节部1270在判断为不满足条件11的情况下,判断是否满足条件12(步骤ST 0307)。调节部1270在判断为满足条件12的情况下执行步骤ST 0310的处理,否则执行步骤ST 0308的处理。
此处所谓条件12是单元矩阵的i—1行j—1列的要素不为“1/1”,但i行j列的要素为“1/1”,并且i+1行j+1列的要素为“1/1”的条件。
在步骤ST 0307中,调节部1270在判断为不满足条件12的情况下,判断是否满足条件13(步骤ST 0308)。调节部1270在判断为满足条件13的情况下执行步骤ST 0311的处理,否则执行步骤ST 0312的处理。
此处所谓条件13是单元矩阵的i—1行j—1列的要素为“1/1”,并且i行j列的要素为“1/1”,但i+1行j+1列的要素不为“1/1”的条件。
在步骤ST 0306中,调节部1270在判断为满足条件11的情况下,向表示调节结果的变量CA追加匹配句(CSi)—(JSj)(步骤ST 0309)。之后,调节部1270执行步骤ST 0312的处理。
此处,匹配句(CSi)—(JSj)表示将第1文(第1提取文)CSi的对译文设为第2文(第2提取文)JSj。
作为相同的表述,调节结果(CSi—1CSi)—(JSj)表示将被考虑为第2提取文JSj的对译文的第1提取文CSi调节为将连续的第1提取文CSi和构成第1文章的其他第1文CSi—1合并的第1合并文。
另外,匹配句(CSi)—(JSj—1JSj)表示将被考虑为第1文CSi的对译文的第2提取文JSj调节为将连续的第2提取文JSj和构成第2文章的其他第2文JSj—1合并的第2合并文JSj—1JSj。
另外,匹配句(CSi—1CSi)—(JSj—1JSj)表示将被考虑为第1提取文CSi的对译文的第2提取文JSj调节为将连续的第2提取文JSj和其他第2文JSj—1合并的第2合并文JSj—1JSj,并且将第2合并文JSj—1JSj的对译文调节为将第1提取文CSi和其他第1文CSi—1合并的第1合并文CSi—1CSi。
在步骤ST 0307中,调节部1270在判断为满足条件12的情况下,执行后述的情形2的处理(步骤ST 0310)。之后,调节部1270执行步骤ST 0312的处理。
在步骤ST 0308中,调节部1270在判断为满足条件13的情况下,执行后述的情形3的处理(步骤ST 0311)。之后,调节部1270执行步骤ST 0312的处理。
在步骤ST 0305中,调节部1270在判断为要素不为“1/1”的情况下,在执行步骤ST 0309、步骤ST 0310、以及步骤ST 0311的处理之后,以及在步骤ST 0308中,在判断为不满足条件13的情况下,将变量j增加1(步骤ST 0312)。之后,调节部1270返回步骤ST 0304,重复上述处理。
在步骤ST 0304中,调节部1270在判断为变量j超过值n的情况下,将变量i增加1,将变量j设为1(步骤ST 0313)。之后,调节部1270返回步骤ST 0303,重复上述处理。
接下来,参照图12及图13来说明调节部1270所执行的情形2的处理。图12是示出调节部1270所执行的情形2的处理的一个例子的流程图的一部分,图13是示出调节部1270所执行的情形2的处理的一个例子的流程图的其他部分。
首先,调节部1270在变量NCA中,存储在属于集合A的匹配句内权重指标最大的匹配句(步骤ST 0401)。
此处,集合A是将匹配句(CSi—1)—(JSj—1)、(CSi)—(JSj—1JSj)、(CSi—1CSi)—(JSj)、(CSi—1CSi)—(JSj—1JSj)设为要素的集合。
接下来,调节部1270判断变量NCA是否存储有匹配句(CSi—1)—(JSj—1)(步骤ST 0402)。调节部1270在判断为变量NCA存储有匹配句(CSi—1)—(JSj—1)的情况下执行步骤ST 0405的处理,否则执行步骤ST 0403的处理。
在步骤ST 0402中,调节部1270在判断为变量NCA没有存储匹配句(CSi—1)—(JSj—1)的情况下,判断变量NCA是否存储有匹配句(CSi)—(JSj—1JSj)(步骤ST 0403)。调节部1270在判断为变量NCA存储有匹配句(CSi)—(JSj—1JSj)的情况下执行步骤ST 0408的处理,否则执行步骤ST 0404的处理。
在步骤ST 0403中,调节部1270在判断为变量NCA没有存储匹配句(CSi)—(JSj—1JSj)的情况下,判断变量NCA是否存储有匹配句(CSi—1CSi)—(JSj)(步骤ST 0404)。调节部1270在判断为变量NCA存储有匹配句(CSi—1CSi)—(JSj)的情况下执行步骤ST0409的处理,否则设变量NCA存储有匹配句(CSi—1CSi)—(JSj—1JSj)来执行步骤ST 0410的处理。
在步骤ST 0402中,调节部1270在判断为变量NCA存储有匹配句(CSi—1)—(JSj—1)的情况下,将变量CA、NCA、i—1、以及j—1作为自变量而执行修正处理(步骤ST 0405)。
另外,修正处理是在规定的情况下,为了使用存储在变量NCA中的匹配句来调节对译文,将表示已经调节的调节结果的变量CA中存储的匹配句修正而变更的处理。另外,在修正处理中设为修正对象的匹配句是作为自变量而赋予的第i个第1文和第j个第2文所相关的匹配句。
接下来,调节部1270在变量NCA中存储匹配句(CSi)—(JSj)(步骤ST 0406)。之后,调节部1270将变量CA、NCA、i、以及j作为自变量而执行修正处理(步骤ST 0407)。接下来,调节部1270执行步骤ST0411的处理。
在步骤ST 0403中,调节部1270在判断为变量NCA存储有匹配句(CSi)—(JSj—1JSj)的情况下,将变量CA、NCA、i、以及j—1作为自变量而执行修正处理(步骤ST 0408)。之后,调节部1270执行步骤ST 0411的处理。
在步骤ST 0404中,调节部1270在判断为变量NCA存储有匹配句(CSi—1CSi)—(JSj)的情况下,将变量CA、NCA、i—1、以及j作为自变量而执行修正处理(步骤ST 0409)。之后,调节部1270执行步骤ST 0411的处理。
在步骤ST 0404中,调节部1270在判断为变量NCA没有存储匹配句(CSi—1CSi)—(JSj)的情况下,将变量CA、NCA、i—1、以及j—1作为自变量而执行修正处理(步骤ST 0410)。之后,调节部1270执行步骤ST 0411的处理。
在执行步骤ST 0407、步骤ST 0408、步骤ST 0409、以及步骤ST 0410之后,调节部1270判断是否通过修正处理的执行而变更了表示调节结果的变量CA(步骤ST 0411)。调节部1270在判断为变更了表示调节结果的变量CA的情况下结束情形2的处理的执行,否则执行步骤ST0412的处理。
另外,调节部1270可利用修正处理的返回值来判断是否变更了表示调节结果的变量CA。具体而言,调节部1270在表示返回值的变量Ret为“真”的情况下判断为变更了表示调节结果的变量CA,否则判断为没有变更。
在步骤ST 0411中,调节部1270在判断为没有变更表示调节结果的变量CA的情况下,判断变量NCA是否存储有匹配句(CSi—1)—(JSj—1)(步骤ST0412)。调节部1270在判断为变量NCA存储有匹配句(CSi—1)—(JSj—1)的情况下结束情形2的处理的执行,否则在变量NCA中存储匹配句(CSi)—(JSj)(步骤ST 0413)。
之后,调节部1270将变量CA、NCA、i、以及j作为自变量而执行修正处理(步骤ST 0414)。之后,调节部1270结束情形2的处理的执行。
接下来,参照图14及图15来说明调节部1270所执行的情形3的处理。图14是示出调节部1270所执行的情形3的处理的一个例子的流程图的一部分,图15是示出调节部1270所执行的情形3的处理的一个例子的流程图的其他部分。
首先,调节部1270在变量NCA中,存储在属于集合中的匹配句内权重指标最大的匹配句(步骤ST 0501)。
此处,集合A是将匹配句(CSi+1)—(JSj+1)、(CSi)—(JSjJSj+1)、(CSiCSi+1)—(JSj)、(CSiCSi+1)—(JSjJSj+1)设为要素的集合。
接下来,调节部1270判断变量NCA是否存储有匹配句(CSi+1)—(JSj+1)(步骤ST 0502)。调节部1270在判断为变量NCA存储有匹配句(CSi+1)—(JSj+1)的情况下执行步骤ST 0505的处理,否则执行步骤ST 0503的处理。
在步骤ST 0502中,调节部1270在判断为变量NCA没有存储匹配句(CSi+1)—(JSj+1)的情况下,判断变量NCA是否存储有匹配句(CSi)—(JSjJSj+1)(步骤ST 0503)。调节部1270在判断为变量NCA存储有匹配句(CSi)—(JSjJSj+1)的情况下执行步骤ST 0508的处理,否则执行步骤ST 0504的处理。
在步骤ST 0503中,调节部1270在判断为变量NCA没有存储匹配句(CSi)—(JSjJSj+1)的情况下,判断变量NCA是否存储有匹配句(CSiCSi+1)—(JSj)(步骤ST 0504)。调节部1270在判断为变量NCA存储有匹配句(CSiCSi+1)—(JSj)的情况下执行步骤ST 0509的处理,否则设变量NCA存储有匹配句(CSiCSi+1)—(JSjJSj+1)而执行步骤ST 0510的处理。
在步骤ST 0502中,调节部1270在判断为变量NCA存储有匹配句(CSi+1)—(JSj+1)的情况下,将变量CA、NCA、i+1、以及j+1作为自变量而执行修正处理(步骤ST 0505)。
接下来,调节部1270在变量NCA中存储匹配句(CSi)—(JSj)(步骤ST 0506)。之后,调节部1270将变量CA、NCA、i、以及j作为自变量而执行修正处理(步骤ST 0507)。接下来,调节部1270执行步骤ST 0511的处理。
在步骤ST 0503中,调节部1270在判断为变量NCA存储有匹配句(CSi)—(JSjJSj+1)的情况下,将变量CA、NCA、i、以及j+1作为自变量而执行修正处理(步骤ST 0508)。之后,调节部1270执行步骤ST 0511的处理。
在步骤ST 0504中,调节部1270在判断为变量NCA存储有匹配句(CSiCSi+1)—(JSj)的情况下,将变量CA、NCA、i+1、以及j作为自变量而执行修正处理(步骤ST 0509)。之后,调节部1270执行步骤ST 0511的处理。
在步骤ST 0504中,调节部1270在判断为变量NCA没有存储匹配句(CSiCSi+1)—(JSj)的情况下,将变量CA、NCA、i+1、以及j+1作为自变量而执行修正处理(步骤ST 0510)。之后,调节部1270执行步骤ST 0511的处理。
在执行步骤ST 0507、步骤ST 0508、步骤ST 0509、以及步骤ST 0510之后,调节部1270判断是否通过修正处理的执行而变更了表示调节结果的变量CA(步骤ST 0511)。调节部1270在判断为变更了表示调节结果的变量CA的情况下结束情形3的处理的执行,否则执行步骤ST 0512的处理。
在步骤ST 0511中,调节部1270在判断为没有变更表示调节结果的变量CA的情况下,判断变量NCA是否存储有匹配句(CSi+1)—(JSj+1)(步骤ST 0512)。调节部1270在判断为变量NCA存储有匹配句(CSi+1)—(JSj+1)的情况下结束情形3的处理的执行,否则在变量NCA中存储匹配句(CSi)—(JSj)(步骤ST 0513)。
之后,调节部1270将变量CA、NCA、i、以及j作为自变量而执行修正处理(步骤ST 0514)。之后,调节部1270结束情形3的处理的执行。
接下来,参照图16至图20来说明调节部1270所执行的修正处理。图16是示出调节部1270所执行的修正处理的一个例子的流程图的一部分,图17至图20是示出调节部1270所执行的修正处理的一个例子的流程图的其他部分。
首先,调节部1270将变量CA、NCA、i、以及j依次作为自变量而取得(步骤ST 0601)。接下来,调节部1270将表示返回值的变量Ret初始化为值“假”(步骤ST 0602)。
接下来,调节部1270判断满足条件式21的变量k是否存在(步骤ST 0603)。调节部1270在判断为满足条件式21的变量k存在的情况下执行步骤ST 0613的处理,否则执行步骤ST 0604的处理。另外,所谓条件式21是由以下的式8来表示的公式。
Figure A200710301583D00361
另外,上述式8表示使将与作为自变量而赋予的列数j对应的第2文JSj及其1文前的文JSj—1合并的合并文JSj—1JSj、和不是与作为自变量而赋予的行数i对应的文的第1文CSk匹配的匹配句存储在表示调节结果的变量CA中。
在步骤ST 0603中,调节部1270在判断为满足条件式21的变量k不存在的情况下,判断满足条件式22的变量k是否存在(步骤ST 0604)。调节部1270在判断为满足条件式22的变量k存在的情况下执行步骤ST0617的处理,否则执行步骤ST 0605的处理。另外,所谓条件式22是由以下的式9来表示的公式。
Figure A200710301583D00371
另外,上述式9表示使将与作为自变量而赋予的列数j对应的第2文JSj及其1文后的文JSj+1合并的合并文JSjJSj+1、和不是与作为自变量而赋予的行数i对应的文的第1文CSk匹配的匹配句存储在表示调节结果的变量CA中。
在步骤ST 0604中,调节部1270在判断为满足条件式22的变量k不存在的情况下,判断满足条件式23的变量k是否存在(步骤ST 0605)。调节部1270在判断为满足条件式23的变量k存在的情况下执行步骤ST0621的处理,否则执行步骤ST 0606的处理。另外,所谓条件式23是由以下的式10所表示的公式。
Figure A200710301583D00372
另外,上述式10表示使与作为自变量而赋予的列数j对应的第2文JSj、和不是与作为自变量而赋予的行数i对应的文的第1文CSk匹配的匹配句存储在表示调节结果的变量CA中。
在步骤ST 0605中,调节部1270在判断为满足条件式23的变量k不存在的情况下,判断满足条件式24的变量k是否存在(步骤ST 0606)。调节部1270在判断为满足条件式24的变量k存在的情况下执行步骤ST0625的处理,否则执行步骤ST0607的处理。另外,所谓条件式24是由以下的式11所表示的公式。
Figure A200710301583D00373
另外,上述式11表示使与作为自变量而赋予的列数j对应的第2文JSj、和将不是与作为自变量而赋予的行数i对应的文的第1文CSk及其1文前的文CSk—1合并的合并文CSk—1CSk匹配的匹配句存储在表示调节结果的变量CA中。
在步骤ST 0606中,调节部1270在判断为满足条件式24的变量k不存在的情况下,判断满足条件式25的变量k是否存在(步骤ST 0607)。
调节部1270在判断为满足条件式25的变量k存在的情况下执行步骤ST0629的处理,否则执行步骤ST 0608的处理。另外,所谓条件式25是由以下的式12所表示的公式。
Figure A200710301583D00381
另外,上述式12表示使与作为自变量而赋予的列数j对应的第2文JSj、和将不是与作为自变量而赋予的行数i对应的文的第1文CSk及其1文后的文CSk+1合并的合并文CSkCSk+1匹配的匹配句存储在表示调节结果的变量CA中。
在步骤ST 0607中,调节部1270在判断为满足条件式25的变量k不存在的情况下,判断满足条件式26的变量k是否存在(步骤ST 0608)。调节部1270在判断为满足条件式26的变量k存在的情况下执行步骤ST0633的处理,否则执行步骤ST 0609的处理。另外,所谓条件式26是由以下的式13所表示的公式。
Figure A200710301583D00382
另外,上述式13表示使与作为自变量而赋予的行数i对应的第1文CSi、和不是与作为自变量而赋予的列数j对应的文的第2文JSk匹配的匹配句存储在表示调节结果的变量CA中。
在步骤ST 0608中,调节部1270在判断为满足条件式26的变量k不存在的情况下,判断满足条件式27的变量k是否存在(步骤ST 0609)。调节部1270在判断为满足条件式27的变量k存在的情况下执行步骤ST0637的处理,否则执行步骤ST 0610的处理。另外,所谓条件式27是由以下的式14所表示的公式。
Figure A200710301583D00383
另外,上述式14表示使与作为自变量而赋予的行数i对应的第1文CSi、和将不是与作为自变量而赋予的列数j对应的文的第2文JSk及其1文前的文JSk—1合并的合并文JSk—1JSk匹配的匹配句存储在表示调节结果的变量CA中。
在步骤ST 0609中,调节部1270在判断为满足条件式27的变量k不存在的情况下,判断满足条件式28的变量k是否存在(步骤ST 0610)。调节部1270在判断为满足条件式28的变量k存在的情况下执行步骤ST0641的处理,否则执行步骤ST 0611的处理。另外,所谓条件式28是由以下的式15所表示的公式。
Figure A200710301583D00391
另外,上述式15表示使与作为自变量而赋予的行数i对应的第1文CSi、和将不是与作为自变量而赋予的列数j对应的文的第2文JSk及其1文后的文JSk+1合并的合并文JSkJSk+1匹配的匹配句存储在表示调节结果的变量CA中。
在步骤ST 0610中,调节部1270在判断为满足条件式28的变量k不存在的情况下,判断满足条件式29的变量k是否存在(步骤ST 0611)。调节部1270在判断为满足条件式29的变量k存在的情况下执行步骤ST0645的处理,否则执行步骤ST0612的处理。另外,所谓条件式29是由以下的式16所表示的公式。
另外,上述式16表示使将与作为自变量而赋予的行数i对应的第1文CSi及其1文前的文CSi—1合并的文CSi—1CSi、和不是与作为自变量而赋予的列数j对应的文的第2文JSk匹配的匹配句存储在表示调节结果的变量CA中。
在步骤ST 0611中,调节部1270在判断为满足条件式29的变量k不存在的情况下,判断满足条件式30的变量k是否存在(步骤ST 0612)。调节部1270在判断为满足条件式30的变量k存在的情况下执行步骤ST0649的处理,否则执行步骤ST 0653的处理。另外,所谓条件式30是由以下的式17来表示的式。
另外,上述式17表示使将与作为自变量而赋予的行数i对应的第1文CSi及其1文后的文CSi+1合并的文CSiCSi+1、和不是与作为自变量而赋予的列数j对应的文的第2文JSk匹配的匹配句存储在表示调节结果的变量CA中。
在步骤ST 0603中,调节部1270在判断为满足条件式21的变量k存在的情况下,判断是否满足条件31(步骤ST 0613)。调节部1270在判断为满足条件31的情况下执行步骤ST 0614的处理,否则结束修正处理的处理。
另外,所谓条件31是存储在变量NCA中的匹配句的权重指标大于已经存储在表示调节结果的变量CA中的匹配句(CSk)—(JSj—1JSj)的条件。
此处,在存储于变量NCA中的匹配句为(CSi)—(JSj—1JSj)或(CSi)—(JSjJSj+1)的情况下,存储在变量NCA中的匹配句的权重指标Weight(NCA)是表示计算部1250所计算的第1提取文CSi、和将第2提取文JSj及构成第2文章的其他所述第2文JSj—1或JSj+1合并的第2合并文JSj—1JSj或JSjJSj+1类似的程度的指标。
同样地,在存储于变量NCA中的匹配句为(CSi—1CSi)—(JSj)或(CSiCSi+1)—(JSj)的情况下,存储在变量NCA中的匹配句的权重指标Weight(NCA)是表示将计算部1250所计算的第1提取文CSi及构成第1文章的其他所述第1文CSi—1或CSi+1合并的第1合并文CSi—1CSi或CSiCSi+1、和第2提取文JSj类似的程度的指标。
另外同样地,在存储于变量NCA中的匹配句为(CSi—1CSi)—(JSj—1JSj)或(CSiCSi+1)—(JSjJSj+1)的情况下,存储在变量NCA中的匹配句的权重指标Weight(NCA)是表示将计算部1250所计算的第1提取文CSi及构成第1文章的其他所述第1文CSi—1或CSi+1合并的第1合并文CSi—1CSi或CSiCSi+1、和将第2提取文JSj及构成第2文章的其他所述第2文JSj—1或JSj+1合并的第2合并文JSj—1JSj或JSjJSj+1类似的程度的指标。
在步骤ST 0613中,调节部1270在判断为满足条件31的情况下,从表示调节结果的变量CA中删除匹配句(CSk)—(JSj—1JSj)(步骤ST 0614)。接下来,调节部1270向表示调节结果的变量CA追加变量NCA所存储的匹配句(步骤ST 0615)。
即,在存储于变量NCA中的匹配句为(CSi)—(JSj—1JSj)或(CSi)—(JSjJSj+1)的情况下,调节部1270向表示调节结果的变量CA追加变量NCA所存储的匹配句,由此将第1提取文CSi的对译文从第2提取文JSj调节为将第2提取文JSj和其他第2文JSj—1或JSj+1合并的第2合并文JSj—1JSj或JSjJSj+1。
同样地,在存储于变量NCA中的匹配句为(CSi—1CSi)—(JSj)或(CSiCSi+1)—(JSj)的情况下,调节部1270向表示调节结果的变量CA追加变量NCA所存储的匹配句,由此将第2提取文JSj的对译文从第1提取文CSi调节为将第1提取文CSi和其他第1文CSi—1或CSi+1合并的第1合并文CSi—1CSi或CSiCSi+1。
另外同样地,在存储于变量NCA中的匹配句为(CSi—1CSi)—(JSj—1JSj)或(CSiCSi+1)—(JSjJSj+1)的情况下,调节部1270向表示调节结果的变量CA追加变量NCA所存储的匹配句,由此将第1提取文CSi的对译文从第2提取文JSj调节为将第2提取文JSj和其他第2文JSj—1或JSj+1合并的第2合并文JSj—1JSj或JSjJSj+1,并且将第2合并文JSj—1JSj或JSjJSj+1的对译文调节为将第1提取文CSi和其他第1文CSi—1或CSi+1合并的第1合并文CSi—1CSi或CSiCSi+1。
之后,调节部1270在变量Ret中存储值“真”(步骤ST 0616)。接下来,调节部1270结束修正处理的执行。
在步骤ST 0604中,调节部1270在判断为满足条件式22的变量k存在的情况下,判断是否满足条件32(步骤ST 0617)。调节部1270在判断为满足条件32的情况下执行步骤ST 0618的处理,否则结束修正处理的执行。
另外,所谓条件32是存储在变量NCA中的匹配句的权重指标大于已经存储在表示调节结果的变量CA中的匹配句(CSk)—(JSjJSj+1)的条件。
在步骤ST 0617中,调节部1270在判断为满足条件32的情况下,从表示调节结果的变量CA中删除匹配句(CSk)—(JSjJSj+1)(步骤ST 0618)。接下来,调节部1270向表示调节结果的变量CA追加变量NCA所存储的匹配句(步骤ST 0619)。
之后,调节部1270在变量Ret中存储值“真”(步骤ST 0620)。接下来,调节部1270结束修正处理的执行。
在步骤ST 0605中,调节部1270在判断为满足条件式23的变量k存在的情况下,判断是否满足条件33(步骤ST 0621)。调节部1270在判断为满足条件33的情况下执行步骤ST 0622的处理,否则结束修正处理的执行。
另外,所谓条件33是存储在变量NCA中的匹配句的权重指标大于已经存储在表示调节结果的变量CA中的匹配句(CSk)—(JSj)的条件。
在步骤ST 0621中,调节部1270在判断为满足条件33的情况下,从表示调节结果的变量CA中删除匹配句(CSk)—(JSj)(步骤ST 0622)。接下来,调节部1270向表示调节结果的变量CA追加变量NCA所存储的匹配句(步骤ST 0623)。
之后,调节部1270在变量Ret中存储值“真”(步骤ST0624)。接下来,调节部1270结束修正处理的执行。
在步骤ST 0606中,调节部1270在判断为满足条件式24的变量k存在的情况下,判断是否满足条件34(步骤ST 0625)。调节部1270在判断为满足条件34的情况下执行步骤ST 0626的处理,否则结束修正处理的执行。
另外,所谓条件34是存储在变量NCA中的匹配句的权重指标大于已经存储在表示调节结果的变量CA中的匹配句(CSk—1CSk)—(JSj)的条件。
在步骤ST 0625中,调节部1270在判断为满足条件34的情况下,从表示调节结果的变量CA中删除匹配句(CSk—1CSk)—(JSj)(步骤ST 0626)。接下来,调节部1270向表示调节结果的变量CA追加变量NCA所存储的匹配句(步骤ST 0627)。
之后,调节部1270在变量Ret中存储值“真”(步骤ST0628)。接下来,调节部1270结束修正处理的执行。
在步骤ST 0607中,调节部1270在判断为满足条件式25的变量k存在的情况下,判断是否满足条件35(步骤ST 0629)。调节部1270在判断为满足条件35的情况下执行步骤ST 0630的处理,否则结束修正处理的执行。
另外,所谓条件35是存储在变量NCA中的匹配句的权重指标大于匹配句(CSkCSk+1)—(JSj)的条件。
在步骤ST 0629中,调节部1270在判断为满足条件35的情况下,从表示调节结果的变量CA中删除匹配句(CSkCSk+1)—(JSj)(步骤ST 0630)。接下来,调节部1270向表示调节结果的变量CA追加变量NCA所存储的匹配句(步骤ST 0631)。
之后,调节部1270在变量Ret中存储值“真”(步骤ST 0632)。接下来,调节部1270结束修正处理的执行。
在步骤ST 0608中,调节部1270在判断为满足条件式26的变量k存在的情况下,判断是否满足条件36(步骤ST 0633)。调节部1270在判断为满足条件36的情况下执行步骤ST 0634的处理,否则结束修正处理的执行。
另外,所谓条件36是存储在变量NCA中的匹配句的权重指标大于匹配句(CSi)—(JSk)的条件。
在步骤ST 0633中,调节部1270在判断为满足条件36的情况下,从表示调节结果的变量CA中删除匹配句(CSi)—(JSk)(步骤ST 0634)。接下来,调节部1270向表示调节结果的变量CA追加变量NCA所存储的匹配句(步骤ST 0635)。
之后,调节部1270在变量Ret中存储值“真”(步骤ST 0636)。接下来,调节部1270结束修正处理的执行。
在步骤ST 0609中,调节部1270在判断为满足条件式27的变量k存在的情况下,判断是否满足条件37(步骤ST 0637)。调节部1270在判断为满足条件37的情况下执行步骤ST 0638的处理,否则结束修正处理的执行。
另外,所谓条件37是存储在变量NCA中的匹配句的权重指标大于匹配句(CSi)—(JSk—1JSk)的条件。
在步骤ST 0637中,调节部1270在判断为满足条件37的情况下,从表示调节结果的变量CA中删除匹配句(CSi)—(JSk—1JSk)(步骤ST 0638)。接下来,调节部1270向表示调节结果的变量CA追加变量NCA所存储的匹配句(步骤ST 0639)。
之后,调节部1270在变量Ret中存储值“真”(步骤ST 0640)。接下来,调节部1270结束修正处理的执行。
在步骤ST 0610中,调节部1270在判断为满足条件式28的变量k存在的情况下,判断是否满足条件38(步骤ST 0641)。调节部1270在判断为满足条件38的情况下执行步骤ST 0642的处理,否则结束修正处理的执行。
另外,所谓条件38是存储在变量NCA中的匹配句的权重指标大于匹配句(CSi)—(JSkJSk+1)的条件。
在步骤ST 0641中,调节部1270在判断为满足条件38的情况下,从表示调节结果的变量CA中删除匹配句(CSi)—(JSkJSk+1)(步骤ST 0642)。接下来,调节部1270向表示调节结果的变量CA追加变量NCA所存储的匹配句(步骤ST 0643)。
之后,调节部1270在变量Ret中存储值“真”(步骤ST 0644)。接下来,调节部1270结束修正处理的执行。
在步骤ST 0611中,调节部1270在判断为满足条件式29的变量k存在的情况下,判断是否满足条件39(步骤ST 0645)。调节部1270在判断为满足条件39的情况下执行步骤ST 0646的处理,否则结束修正处理的执行。
另外,所谓条件39是存储在变量NCA中的匹配句的权重指标大于匹配句(CSi—1CSi)—(JSk)的条件。
在步骤ST 0645中,调节部1270在判断为满足条件39的情况下,从表示调节结果的变量CA中删除匹配句(CSi—1CSi)—(JSk)(步骤ST 0646)。接下来,调节部1270向表示调节结果的变量CA追加变量NCA所存储的匹配句(步骤ST 0647)。
之后,调节部1270在变量Ret中存储值“真”(步骤ST 0648)。接下来,调节部1270结束修正处理的执行。
在步骤ST 0612中,调节部1270在判断为满足条件式30的变量k存在的情况下,判断是否满足条件40(步骤ST 0649)。调节部1270在判断为满足条件40的情况下执行步骤ST 0650的处理,否则结束修正处理的执行。
另外,所谓条件40是存储在变量NCA中的匹配句的权重指标大于已经存储在表示调节结果的变量CA中的匹配句(CSiCSi+1)—(JSk)的条件。
在步骤ST 0649中,调节部1270在判断为满足条件40的情况下,从表示调节结果的变量CA中删除匹配句(CSiCSi+1)—(JSk)(步骤ST 0650)。接下来,调节部1270向表示调节结果的变量CA追加变量NCA所存储的匹配句(步骤ST 0651)。
之后,调节部1270在变量Ret中存储值“真”(步骤ST 0652)。接下来,调节部1270结束修正处理的执行。
在步骤ST 0612中,调节部1270在满足条件式30的变量k不存在的情况下,向表示调节结果的变量CA追加变量NCA所存储的匹配句(步骤ST 0653)。
之后,调节部1270在变量Ret中存储值“真”(步骤ST 0654)。接下来,调节部1270结束修正处理的执行。
接下来,参照图21及图22来说明调节部1270所执行的行调节处理。图21是示出调节部1270所执行的行调节处理的一个例子的流程图的一部分,图22是示出调节部1270所执行的行调节处理的一个例子的流程图的其他部分。
首先,调节部1270将表示单元矩阵的行序号的变量i初始化为值“1”(步骤ST 0701)。接下来,调节部1270判断变量i的值是否为表示构成第1文章的第1文的总数的值m以下(步骤ST 0702)。调节部1270在判断为i值为值m以下的情况下执行步骤ST 0703的处理,否则结束行调节处理的执行。
在步骤ST 0702中,调节部1270在判断为变量i的值为值m以下的情况下,判断在第i行的要素内,值为“1/1”的要素是否存在(步骤ST0703)。调节部1270在判断为值为“1/1”的要素存在于第i行的情况下执行步骤ST 0708的处理,否则执行步骤ST 0704的处理。
在步骤ST 0703中,调节部1270在判断为值为“1/1”的要素在第i行不存在的情况下,取得通过式18所确定的列序号j(步骤ST 0704)。
此处参照式18来说明在步骤ST 0704中调节部1270所取得的列序号j。式18是表示调节部1270所取得的列序号j的一个例子的公式。
SelMatrix[i][j]=min(SelMatrix[i][js].SelMatrix[i][js+1],…
               ,SelMatrix[i][jt])
                                                     ...(18)
js、js+1、...、jt:没有调节的列
SelMatrix[i][j]:i行j列的单元矩阵的要素
另外,min函数是返回将作为单元矩阵的要素即字符串所具有的斜线记号“/”的右侧和左侧的数字相加所得的数中、为最小数的单元矩阵的要素的函数。
但是,不限于此,可采用min函数是返回将作为单元矩阵的要素的字符串所具有的斜线记号“/”的右侧(或左侧)的数字中、为最小数的单元矩阵的要素的函数的结构。
接下来,调节部1270判断满足条件41的变量k及h是否存在(步骤ST 0705)。调节部1270在判断为满足条件41的变量k及h存在的情况下执行步骤ST 0706的处理,否则执行步骤ST 0708的处理。另外,所谓条件41是由以下的式19来表示的式。
Figure A200710301583D00461
                                                  ...(19)
在步骤ST 0705中,调节部1270在判断为满足条件41的变量j存在的情况下,在变量NCA中保存匹配句(CSi)—(JSj)(步骤ST 0706)。
接下来,调节部1270将变量CA、NCA、i、以及j作为自变量而执行修正处理(步骤ST 0707)。之后,调节部1270执行步骤ST 0708的处理。
在步骤ST 0703中,调节部1270在判断为值为“1/1”的要素在第i行不存在的情况下,在步骤ST 0705中判断为满足条件41的变量j不存在的情况下,或者在执行步骤ST 0707之后,将变量i增加1(步骤ST 0708)。之后,调节部1270返回步骤ST 0702而重复上述处理。
接下来,参照图23及图24来说明调节部1270所执行的空列调节处理。图23是示出调节部1270所执行的空列调节处理的一个例子的流程图的一部分,图24是示出调节部1270所执行的空列调节处理的一个例子的流程图的其他部分。
首先,调节部1270通过向表示与第2文对应的列的序号的变量j代入值“1”来进行初始化(步骤ST 0801)。接下来,调节部1270判断变量j是否为表示构成第2文章的第2文的总数的值n以下(步骤ST 0802)。
调节部1270在判断为j为值n以下的情况下执行步骤ST 0803的处理,否则结束空列调节处理的执行。
在步骤ST 0802中,调节部1270在判断为变量j为值n以下的情况下,判断第j列是否为已经调节的列。调节部1270在判断为第j列为已经调节的列的情况下执行步骤ST 0810的处理,否则执行步骤ST 0804的处理。
在步骤ST 0803中,调节部1270在判断为第j列不为已经调节的列的情况下,判断可否取得满足条件51的i1以及满足条件52的i2(步骤ST 0804)。调节部1270在判断为可取得i1以及i2的情况下执行步骤ST0805的处理,否则执行步骤ST 0810的处理。另外,所谓条件51是由以下的式20来表示的条件,所谓条件52是由以下的式21来表示的条件。
SelMatrix[i1][j-1]=″1/1″
                                 ...(20)
SelMatrix[i2][j+1]=″1/1″
                                 ...(21)
另外,虽然省略图示,但调节部1270将第2提取文设为JSj,而将位于第2提取文JSj附近的第2文设为JSj—1或JSj+1。
接下来,调节部1270向提取部1260输出值“j—1”或“j+1”之后,从提取部1260中取得其他第1提取文CSi1或CSi2。
之后,调节部1270向提取部1260输出值“i1”或“i2”之后,从提取部1260中取得其他第2提取文JSj’。
此处,调节部1270在单元矩阵的“i1”行“j—1”列的要素或“i2”行“j+1”列的要素为“1/1”的情况下,判断为提取部1260所提取的其他第2提取文JSj’是被考虑为其他第1提取文CSi1或CSi2的对译文的第2文JSj—1或JSj+1。
在步骤ST 0804中,调节部1270在判断为可取得i1以及i2的情况下,取得i1以及i2,判断所取得的i1以及i2是否满足条件53(步骤ST0805)。调节部1270在判断为满足条件53的情况下执行步骤ST 0807的处理,否则执行步骤ST 0806的处理。另外,所谓条件53是由以下的式22所表示的条件。
(Weight((CSi1)-(JSj-1JSj))>=Weight((CSi2)-(JSjJSj+1)))
and
(Weight((CSi1)-(JSj-1JSj))>=Weight((CSi1)-(JSj-1)))
                                                  ...(22)
另外,由Weight((CSi1)—(JSj—1JSj))所表示的指标是表示将第2提取文JSj和其他第2提取文JSj—1合并的文JSj—1JSj、与其他第1提取文CSi1类似的程度的指标。同样地,由Weight((CSi2)—(JSjJSj+1))所表示的指标是表示将第2提取文JSj和其他第2提取文JSj+1合并的文JSjJSj+1、与其他第1提取文CSi2类似的程度的指标。
在步骤ST 0805中,调节部1270在判断为不满足条件53的情况下,判断所取得的i1以及i2是否满足条件54(步骤ST 0806)。调节部1270在判断为满足条件54的情况下执行步骤ST 0808的处理,否则执行步骤ST 0809的处理。另外,所谓条件54是由以下的式23所表示的条件。
(Weight((CSi2)-(JSjJSj+1))>=Weight((CSi1)-(JSj-1JSj)))
and
(Weight((CSi2)-(JSjJSj+1))>=Weight((CSi2)-(JSj+1)))
                                                  ...(23)
在步骤ST 0805中,调节部1270在判断为满足条件53的情况下,向表示调节结果的变量CA追加匹配句(CSi1)—(JSj—1JSj)(步骤ST0807)。之后,调节部1270执行步骤ST 0810的处理。
即,调节部1270将其他第1提取文CSi1的对译文从其他第2提取文JSj—1调节为将第2提取文JSj和其他第2提取文JSj—1合并的文JSj—1JSj。
在步骤ST 0806中,调节部1270在判断为满足条件54的情况下,向表示调节结果的变量CA追加匹配句(CSi2)—(JSjJSj+1)(步骤ST0808)。之后,调节部1270执行步骤ST 0810的处理。
即,调节部1270将其他第1提取文CSi2的对译文从其他第2提取文JSj+1调节为将第2提取文JSj和其他第2提取文JSj+1合并的文JSjJSj+1。
在步骤ST 0806中,调节部1270在判断为不满足条件54的情况下,向表示调节结果的变量CA追加匹配句(NULL)—(JSj)(步骤ST 0809)。之后,调节部1270执行步骤ST 0810的处理。
另外,匹配句(NULL)—(JSj)表示使用第2语言所表示的句子JSj的对译文不存在。
在步骤ST 0803中,调节部1270在判断为第j列为已经调节的列的情况下,在步骤ST 0804中,在判断为无法取得i1或i2的情况下,在执行步骤ST 0807、步骤ST 0808、或步骤ST 0809之后,将变量j增加1(步骤ST 0810)。之后,调节部1270返回步骤ST 0802而重复上述处理。
接下来,参照图25及图26来说明调节部1270所执行的空行调节处理。图25是示出调节部1270所执行的空行调节处理的一个例子的流程图的一部分,图26是示出调节部1270所执行的空行调节处理的一个例子的流程图的其他部分。
首先,调节部1270通过向表示行序号的变量i代入值“1”来进行初始化(步骤ST 0901)。接下来,调节部1270判断变量i是否为表示构成第1文章的第1文的总数的值m以下(步骤ST 0902)。调节部1270在判断为i的值为值m以下的情况下执行步骤ST 0903的处理,否则结束空行调节处理的执行。
在步骤ST 0902中,调节部1270在判断为变量i为值m以下的情况下,判断第i行是否为已经调节的行(步骤ST 0903)。调节部1270在判断为第i行为已经调节的行的情况下执行步骤ST 0910的处理,否则执行步骤ST 0904的处理。
在步骤ST 0903中,调节部1270在判断为第i行不是已经调节的行的情况下,判断可否取得满足条件61的j1以及满足条件62的j2(步骤ST 0904)。调节部1270在判断为可取得j1以及j2的情况下执行步骤ST0905的处理,否则执行步骤ST 0910的处理。另外,所谓条件61是由以下的式24来表示的条件,所谓条件62是由以下的式25来表示的条件。
SelMatrix[i-1][j1]=″1/1″
                              ...(24)
SelMatrix[i+1][j2]=″1/1″
                              ...(25)
另外,虽然省略图示,但调节部1270将第1提取文设为CSi,而将位于第1提取文CSi附近的第1文设为CSi—1或CSi+1。
接下来,调节部1270向提取部1260输出值“i—1”或“i+1”之后,从提取部1260取得其他第2提取文JSj1或JSj2。
之后,调节部1270向提取部1260输出值“j1”或“j2”之后,从提取部1260取得其他第1提取文CSi’。
此处,调节部1270在单元矩阵的“i—1”行“j1”列的要素或“i+1”行“j2”列的要素为“1/1”的情况下,判断为提取部1260所提取的其他第1提取文CSi’是被考虑为其他第2提取文JSj1或JSj2的对译文的第1文CSi—1或CSi+1。
在步骤ST 0904中,调节部1270在判断为可取得j1及j2的情况下,取得j1及j2,判断所取得的j1及j2是否满足条件63(步骤ST 0905)。调节部1270在判断为满足条件63的情况下执行步骤ST 0907的处理,否则执行步骤ST 0906的处理。另外,所谓条件63是由以下的式26来表示的条件。
(Weight((CSi-1CSi)-(JSj1))>=Weight((CSiCSi+1)-(JSj2)))
and
(Weight((CSi-1CSi)-(JSj1))>=Weight((CSi-1)-(JSj1)))
                                                ...(26)
另外,由Weight((CSi—1CSi)—(JSj1))来表示的指标是表示将第1提取文CSi和其他第1提取文CSi—1合并的文CSi—1CSi、与其他第2提取文JSj1类似的程度的指标。同样地,由Weight((CSiCSi+1)—(JSj2))来表示的指标是表示将第1提取文CSi和其他第1提取文CSi+1合并的文CSiCSi+1、与其他第2提取文JSj2类似的程度的指标。
在步骤ST 0905中,调节部1270在判断为不满足条件63的情况下,判断所取得的j1及j2是否满足条件64(步骤ST 0906)。调节部1270在判断为满足条件64的情况下执行步骤ST 0908的处理,否则执行步骤ST0909的处理。另外,所谓条件64是由以下的式27来表示的条件。
(Weight((CSiCSi+1)-(JSj2))>=Weight((CSi-1CSi)-(JSj1)))
and
(Weight((CSiCSi+1)-(JSj2))>=Weight((CSi+1)-(JSj2)))
                                                    ...(27)
在步骤ST 0905中,调节部1270在判断为满足条件63的情况下,向表示调节结果的变量CA追加匹配句(CSi—1CSi)—(JSj1)(步骤ST 0907)。之后,调节部1270执行步骤ST 0910的处理。
即,调节部1270将其他第2提取文JSj1的对译文从其他第1提取文CSi—1调节为将第1提取文CSi和其他第1提取文CSi—1合并的文CSi—1CSi。
在步骤ST 0906中,调节部1270在判断为满足条件64的情况下,向表示调节结果的变量CA追加匹配句(CSiCSi+1)—(JSj2)(步骤ST 0908)。之后,调节部1270执行步骤ST 0910的处理。
即,调节部1270将其他第2提取文JSj2的对译文从其他第1提取文CSi+1调节为将第1提取文CSi和其他第1提取文CSi+1合并的文CSiCSi+1。
在步骤ST 0906中,调节部1270在判断为不满足条件64的情况下,向表示调节结果的变量CA追加匹配句(CSi)—(NULL)(步骤ST 0909)。之后,调节部1270执行步骤ST 0910的处理。
另外,匹配句(CSi)—(NULL)表示使用第1语言所表示的句子CSi的对译文不存在。
在步骤ST 0903中,调节部1270在判断为第i行为已经调节的行的情况下,在步骤ST 0904中,在判断为无法取得j1或j2的情况下,在执行步骤ST 0907、步骤ST 0908、或步骤ST 0909之后,将变量i增加1(步骤ST 0910)。之后,调节部1270返回步骤ST 0902而重复上述处理。
此处,返回图4,继续说明控制部1200的结构。
登记部1280与调节部1270及存储部1300连接。登记部1280通过执行后述登记处理,向存储部1300登记调节部1270所提取的匹配句。
此处,说明登记部1280所执行的登记处理的一个例子。
首先,登记部1280从调节部1270中取得使用第1语言所表示的1文或将2文合并的句子、以及作为其对译文而提取的使用第2语言所表示的1文或将2文合并的句子。
接下来,登记部1280通过将所取得的使用第1语言所表示的句子和使用第2语言所表示的句关联起来登记到存储部1300,由此更新对译例文词典。之后,登记部1280结束登记处理的执行。
此处参照表2来说明登记部1280所更新登记的对译例文词典。表2是示出登记部1280所更新登记的对译例文词典的一个例子的表。
表2
Figure A200710301583D00521
对译例文词典具有中文文域和日文文域。中文文域存储有使用第1语言即中文所表示的1文、或将2文合并的句子,日文文域存储有相同记录的中文文域中保存的句子的对译文,即、使用第2语言即日语所表示的1文、或将2文合并的句子。
接下来参照图27来说明控制部1200所执行的对译文提取处理。图27是示出控制部1200所执行的对译文提取处理的一个例子的流程图。
首先,控制部1200执行上述第1句子提取处理(步骤ST 1001)。接下来,控制部1200执行上述第2句子提取处理(ST 1002)。
之后,控制部1200执行上述第1词素分析处理(步骤ST 1003)。接下来,控制部1200执行上述第2词素分析处理(ST 1004)。
之后,控制部1200执行上述计算处理(步骤ST 1005)。接下来,控制部1200执行上述提取处理(步骤ST 1006)。
之后,控制部1200执行上述调节处理(步骤ST 1007)。接下来,控制部1200执行上述登记处理(步骤ST 1008)。之后,控制部1200结束对译文提取处理的执行。
此处返回图2,继续说明对译文提取装置1000的结构。
存储部1300例如由RAM 1003或外部存储部1004构成,与控制部1200连接。存储部1300存储有包括对译例文词典的上述信息,由控制部1200参照所存储的信息。
此处返回图1,继续说明翻译系统10的结构。
显示装置2000例如由CRT(Cathode Ray Tube,阴极射线管显示器)、液晶显示器、或等离子显示器构成,与对译文提取装置1000连接。显示装置2000由对译文提取装置1000控制而显示出包括使用第1语言所表示的文章的上述信息。
输入装置3000例如由键盘、指示设备(所谓鼠标)、或触摸面板构成,与对译文提取装置1000连接。输入装置3000由对译文提取装置1000的使用者操作,输入包括将显示装置2000所显示的文章翻译成第2语言的文章的上述信息。
翻译装置4000例如由个人计算机构成,与通信网100、显示装置5000、以及输入装置6000连接。翻译装置4000通过执行后述的翻译处理,将第1文章翻译成第2文章。
此处,说明翻译装置4000所执行的翻译处理的一个例子。
首先,翻译装置4000从经由通信网100连接的对译文提取装置1000中取得对译例文词典而存储。
接下来,翻译装置4000经由通信网100、或从输入装置6000取得第1文章,提取出构成所取得的文章的句子即第1文。
之后,翻译装置4000从所存储的对译例文词典中检索所提取出的句子的使用第2语言所表示的对译文。翻译装置4000在可检索出对译文的情况下,控制显示装置5000,以显示出所检索出的对译文。
翻译装置4000在无法检索出对译文的情况下,向对译文提取装置1000发送由无法检索出对译文的第1文构成的第1文章。之后,翻译装置4000结束翻译处理的执行。
另外,翻译装置4000通过从对译文提取装置1000中取得将所发送的句子和该句子的对译文关联起来登记的对译例文词典,由此发挥学习功能。
另外,翻译装置4000可采用如下的结构:不仅在无法检索出对译文的情况下,在输入装置6000输入表示显示装置5000所显示的对译文不恰当的意思的信号的情况下,也向对译文提取装置1000发送第1文章。
另外,翻译装置4000可采用向对译文提取装置1000仅发送无法检索出对译文的句子而不发送文章的结构。
显示装置5000与显示装置2000同样地,例如由CRT(Cathoe RayTube)、液晶显示器、或等离子显示器构成,与翻译装置4000连接。显示装置5000由翻译装置4000控制而显示出包括构成使用第1语言所表示的文章的第1文以及使用第2语言所表示的对译文的上述信息。
输入装置6000与输入装置3000同样地,例如由键盘、指示设备(所谓鼠标)、或触摸面板构成,与翻译装置4000连接。输入装置6000由翻译装置4000的使用者操作,输入表示显示装置5000所显示的对译文不恰当的意思的信号。
在本实施例中,计算部1250相当于计算单元,提取部1260相当于提取单元,调节部1270相当于调节单元。
另外在本实施例中,计算部1250所执行的计算处理相当于计算步骤,提取部1260所执行的提取处理相当于提取步骤,调节部1270所执行的调节处理相当于调节步骤。
对译文提取装置1000通过运算部1001执行存储在ROM 1002、RAM1003、以及外部存储装置1004的至少一个中的程序来实现。另外,该程序可通过存储在磁盘或光盘、半导体存储器、其他存储介质中而发布,或者经由网络发布来提供。
以上详细叙述了本发明的优选实施例,但本发明不限于所述特定的实施例,可在记载于权利要求的范围内的本发明的要旨的范围内进行各种变形、变更。
在上述实施方式中,以外部存储装置由硬盘(HardDisk)构成进行了说明,但不限于此,可采用例如由软盘、CD-ROM(Compact Disc ReadOnly Memory,只读光盘存储器)、DVD-ROM(Digital Versatile Disk ReadOnly Memory,数字多用光盘只读存储器)、DVD-RAM(Digital VersatitleDisk Random Access Memory,数字多用光盘随机访问存储器)、MO(magneto-optic,磁光存储存储器)以及闪存(flash memory)构成的实施方式。

Claims (11)

1.一种对译文提取装置,其特征在于,该对译文提取装置具有:
计算单元,其使用通过对使用第1语言所记载的第1文及使用第2语言所记载的第2文的统计处理而得到的统计信息,来计算表示所述第1文和所述第2文类似的程度的指标;
提取单元,其根据所述计算单元所计算出的指标从构成使用所述第1语言所表示的第1文章的文中提取被考虑为所述第2文的对译文的第1提取文,并且根据所述指标从构成使用所述第2语言所表示的第2文章的文中提取被考虑为所述第1提取文的对译文的第2提取文;以及
调节单元,其在所述提取单元所提取的第2提取文是被考虑为所述第1提取文的对译文的所述第2文的情况下,根据所述计算单元计算的表示所述第1提取文、和将所述第2提取文及构成所述第2文章的其他所述第2文合并的第2合并文类似的程度的所述指标,将所述第1提取文的对译文从所述第2提取文调节为所述第2合并文。
2.根据权利要求1所述的对译文提取装置,其特征在于,在所述提取单元所提取的第2提取文是被考虑为所述第1提取文的对译文的所述第2文的情况下,所述调节单元根据所述计算单元计算的表示所述第2提取文和将所述第1提取文及构成所述第1文章的其他所述第1文合并的第1合并文类似的程度的所述指标,将所述第2提取文的对译文从所述第1提取文调节为所述第1合并文。
3.根据权利要求1或2所述的对译文提取装置,其特征在于,在所述提取单元所提取的第2提取文是被考虑为所述第1提取文的对译文的所述第2文的情况下,所述调节单元根据所述计算单元计算的表示将所述第1提取文及构成所述第1文章的其他所述第1文合并的第1合并文、和将所述第2提取文及构成所述第2文章的其他所述第2文合并的第2合并文类似的程度的所述指标,将所述第1提取文的对译文从所述第2提取文调节为所述第2合并文,并且将所述第2合并文的对译文调节为第1合并文。
4.根据权利要求1~3中的任一项所述的对译文提取装置,其特征在于,所述提取单元根据所述计算单元所计算出的指标从构成所述第1文章的文中提取被考虑为位于所述第2提取文的附近的所述第2文的对译文的其他第1提取文,并且根据所述指标从构成所述第2文章的文中提取被考虑为所述其他第1提取文的对译文的其他第2提取文,
在所述提取单元所提取出的所述其他第2提取文是被考虑为所述其他第1提取文的对译文的所述第2文的情况下,所述调节单元根据所述计算单元计算的表示将所述第2提取文及所述其他第2提取文合并的文、和所述其他第1提取文类似的程度的所述指标,将所述其他第1提取文的对译文从所述其他第2提取文调节为将所述第2提取文和所述其他第2提取文合并的文。
5.根据权利要求1~4中的任一项所述的对译文提取装置,其特征在于,所述提取单元根据所述计算单元所计算出的指标从构成所述第2文章的文中提取被考虑为位于所述第1提取文的附近的所述第1文的对译文的其他第2提取文,并且根据所述指标从构成所述第1文章的文中提取被考虑为所述其他第2提取文的对译文的其他第1提取文,
在所述提取单元所提取出的所述其他第1提取文是被考虑为所述其他第2提取文的对译文的所述第1文的情况下,所述调节单元根据所述计算单元计算出的表示将所述第1提取文及所述其他第1提取文合并的文、和所述其他第2提取文类似的程度的所述指标,将所述其他第2提取文的对译文从所述其他第1提取文调节为将所述第1提取文和所述其他第1提取文合并的文。
6.根据权利要求1~5中的任一项所述的对译文提取装置,其特征在于,所述计算单元使用对所述第1文及所述第2文的所述统计信息以及与所述第1文及所述第2文所具有的意思相关的意思信息这双方来计算出所述指标。
7.根据权利要求6所述的对译文提取装置,其特征在于,所述意思信息包括与构成所述文的单词的意思相关的信息。
8.根据权利要求1~7中的任一项所述的对译文提取装置,其特征在于,所述计算单元使用所述统计信息和与所述文的长度相关的信息来计算所述指标。
9.根据权利要求1~8中的任一项所述的对译文提取装置,其特征在于,所述计算单元根据在所述第1文及所述第2文中共同地对所述第1文及所述第2文附加特征的数字、英文字符串、以及记号中的任一个来计算所述指标。
10.根据权利要求1~9中的任一项所述的对译文提取装置,其特征在于,所述第1语言及所述第2语言是中文及日文、或日文及中文,
所述计算单元根据构成所述第1文及所述第2文的文字的形状共同的程度来计算所述指标。
11.一种对译文提取方法,其特征在于,该对译文提取方法具有如下的步骤:
计算步骤,其使用通过对使用第1语言所记载的第1文及使用第2语言所记载的第2文的统计处理而得到的统计信息,计算表示所述第1文及所述第2文类似的程度的指标;
提取步骤,其根据在所述计算步骤中所计算出的指标从构成使用所述第1语言所表示的第1文章的文中提取被考虑为所述第2文的对译文的第1提取文,并且根据所述指标从构成使用所述第2语言所表示的第2文章的文中提取被考虑为所述第1提取文的对译文的第2提取文;以及
调节步骤,其在所述提取步骤中所提取的第2提取文是被考虑为所述第1提取文的对译文的所述第2文的情况下,根据在所述计算步骤中计算的表示所述第1提取文、和将所述第2提取文及构成所述第2文章的其他所述第2文合并的第2合并文类似的程度的所述指标,将所述第1提取文的对译文从所述第2提取文调节为所述第2合并文。
CNA2007103015831A 2007-12-25 2007-12-25 对译文提取装置及对译文提取方法 Pending CN101470704A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CNA2007103015831A CN101470704A (zh) 2007-12-25 2007-12-25 对译文提取装置及对译文提取方法
JP2008127262A JP5428199B2 (ja) 2007-12-25 2008-05-14 対訳文抽出装置及び対訳文抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2007103015831A CN101470704A (zh) 2007-12-25 2007-12-25 对译文提取装置及对译文提取方法

Publications (1)

Publication Number Publication Date
CN101470704A true CN101470704A (zh) 2009-07-01

Family

ID=40828181

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007103015831A Pending CN101470704A (zh) 2007-12-25 2007-12-25 对译文提取装置及对译文提取方法

Country Status (2)

Country Link
JP (1) JP5428199B2 (zh)
CN (1) CN101470704A (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105843801B (zh) * 2016-03-25 2018-05-11 北京语言大学 多译本平行语料库的构建系统
CN105868187B (zh) * 2016-03-25 2018-05-08 北京语言大学 多译本平行语料库的构建方法
KR102667631B1 (ko) * 2023-11-28 2024-05-22 한화시스템(주) 다출처데이터 계보관계 분석 시스템 및 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05282361A (ja) * 1992-03-30 1993-10-29 Toshiba Corp データベース作成支援装置及び機械翻訳装置
JP3778705B2 (ja) * 1998-09-24 2006-05-24 沖電気工業株式会社 対訳文書対応付けシステム
US7054803B2 (en) * 2000-12-19 2006-05-30 Xerox Corporation Extracting sentence translations from translated documents
JP2004348514A (ja) * 2003-05-23 2004-12-09 Patolis Corp 対訳語抽出方法、対訳辞書構築方法及び翻訳メモリ構築方法

Also Published As

Publication number Publication date
JP5428199B2 (ja) 2014-02-26
JP2009157900A (ja) 2009-07-16

Similar Documents

Publication Publication Date Title
Buckwalter et al. A frequency dictionary of Arabic: Core vocabulary for learners
US5907821A (en) Method of computer-based automatic extraction of translation pairs of words from a bilingual text
Sato et al. Automatic Assessment of Japanese Text Readability Based on a Textbook Corpus.
CN105988990A (zh) 用于汉语中的零指代消解的装置和方法以及模型训练方法
JP6404511B2 (ja) 翻訳支援システム、翻訳支援方法、および翻訳支援プログラム
US10949615B2 (en) Apparatus and method for verifying sentence
US9015098B1 (en) Method and system for checking the consistency of established facts within internal works
JP4778474B2 (ja) 質問応答装置、質問応答方法、質問応答プログラム並びにそのプログラムを記録した記録媒体
CN103729347A (zh) 机器翻译装置、方法及程序
CN102193912A (zh) 短语划分模型建立方法、统计机器翻译方法以及解码器
CN106844356B (zh) 一种基于数据选择改善英中机器翻译质量的方法
Riza et al. Question generator system of sentence completion in TOEFL using NLP and k-nearest neighbor
CN101470704A (zh) 对译文提取装置及对译文提取方法
CN103116575A (zh) 基于层次短语模型的译文词序概率确定方法及装置
JP2017010274A (ja) 対応付け装置及びプログラム
Nassiri et al. MoSAR: modern standard Arabic readability corpus for L1 learners
JP2011008553A (ja) 翻訳装置及び翻訳プログラム
JP6502279B2 (ja) 外れ値箇所抽出装置、方法及びプログラム
Liang et al. Researching collocational features: Towards China English as a distinctive new variety
Sadjirin et al. The development of malaysian corpus of financial english (MaCFE)
Al Oudah et al. Wajeez: An extractive automatic arabic text summarisation system
CN110598209A (zh) 用于提取关键词的方法、系统及存储介质
Cortelazzo et al. Authorship Attribution and Text Clustering in Contemporary Italian Novels: Does Elena Ferrante’s and Domenico Starnone's regional origin play a role?
Macalister The Maori lexical presence in New Zealand English: Constructing a corpus for diachronic change
Ginsburgh et al. Economics of literary translation: A simple theory and evidence

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20090701