CN101382933A - 创建用于学习单词翻译的数据的装置和方法 - Google Patents

创建用于学习单词翻译的数据的装置和方法 Download PDF

Info

Publication number
CN101382933A
CN101382933A CNA2008102148614A CN200810214861A CN101382933A CN 101382933 A CN101382933 A CN 101382933A CN A2008102148614 A CNA2008102148614 A CN A2008102148614A CN 200810214861 A CN200810214861 A CN 200810214861A CN 101382933 A CN101382933 A CN 101382933A
Authority
CN
China
Prior art keywords
translation
word
unit
learning data
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008102148614A
Other languages
English (en)
Inventor
出羽达也
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of CN101382933A publication Critical patent/CN101382933A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

输入单元接收源语言形式的输入语句。翻译生成单元针对输入语句中包括的单词生成目标语言形式的翻译,并生成目标语言形式的翻译的似真性。对应信息创建单元创建对应信息,在所述对应信息中,使所述单词相关于所述翻译。判断单元判断针对对应信息中包括的目标语言形式的翻译所生成的似真性是否大于预定阈值。学习数据创建单元创建学习数据,在所述学习数据中,使输入语句中包括的单词相关于包括其所具有的似真性大于阈值的目标语言形式的翻译的对应信息。

Description

创建用于学习单词翻译的数据的装置和方法
技术领域
本发明涉及创建用于根据上下文学习单词翻译的学习数据的装置和方法。
背景技术
将源语言输入文本(原文)翻译成不同于所述源语言的目标语言文本(译文)的机器翻译装置包括存储了源语言单词与目标语言翻译的多个组合的双语词典。一般采用原文的部分或全部作为关键字对所述双语词典进行搜索,从而基于搜索到的翻译创建所要输出的翻译。
即使对于源语言形式的同一单词而言,有时也会根据所出现的上下文具有不同的适当翻译。因此,在所述双语词典中,往往相对于源语言形式的一个单词注册目标语言形式的多个翻译。因此,一个重要的问题是从所述多个翻译中根据所出现的上下文选择适当的翻译,从而提高机器翻译装置的翻译准确性。
作为针对该问题的一种措施,有人提出了一种方法,其中,针对所出现的每一上下文学习合适的翻译,从而通过参考学习结果选择翻译。例如,JP-A 2002-73602(特开)提出了一种针对翻译学习方法的技术,其中,用户参考原文和机器翻译装置输出的翻译,针对原文单词指定适当的翻译,其中已为原文单词输出了不适当的翻译。
然而,根据JP-A 2002-73602(特开)中描述的翻译学习方法,用户需要逐字向系统指示适当的翻译,因此要付出大量的劳动。也就是说,在常规方法中,由于每个所出现的上下文的翻译学习的翻译学习数据通常是人工创建的,所以产生学习数据的处理工作量就变得过大。
发明内容
根据本发明的一个方面,数据创建装置创建学习数据,所述学习数据用于学习与源语言形式的一个单词相对应的多个翻译候选的适当使用,所述翻译候选是以目标语言形式描述的。
所述数据创建装置包括:输入单元,其用于输入所述源语言形式的语句;翻译生成单元,其用于将所述语句中的一个单词翻译成所述目标语言形式,并针对所述单词生成所述目标语言形式的多个翻译候选和表示所述翻译候选的概率的似真性;对应信息创建单元,其用于创建多条对应信息,在所述多条对应信息中,使所述单词分别相关于所述多个翻译候选;判断单元,其用于判断所述翻译候选的似真性是否大于预定阈值;以及学习数据创建单元,其用于创建所述学习数据,在所述学习数据中,将所述语句中的另一个单词添加到其所具有的所述似真性大于所述阈值的所述翻译候选的对应信息内。
根据本发明的另一方面,在数据创建装置中执行数据创建方法,其创建学习数据,所述学习数据用于学习与源语言形式的一个单词相对应的多个翻译候选的适当使用,所述翻译候选是以目标语言形式描述的。
所述数据创建方法包括:输入所述源语言形式的语句;将所述语句中的一个单词翻译成目标语言形式,并针对所述单词生成所述目标语言形式的多个翻译候选和表示所述翻译候选的概率的似真性;创建多条对应信息,在所述多条对应信息中,使所述单词分别相关于所述多个翻译候选;判断所述翻译候选的似真性是否大于预定阈值;以及创建所述学习数据,在所述学习数据中,将所述语句中的另一个单词添加到其所具有的所述似真性大于所述阈值的所述翻译候选的对应信息内。
附图说明
图1是根据本发明的实施例的单词翻译学习装置的构造的方框图;
图2是用于说明双语词典的数据结构的例子的示意图;
图3是用于说明翻译规则的例子的示意图;
图4是用于说明学习结果的数据结构的例子的示意图;
图5是根据实施例的学习数据创建/学习处理的整个流程的流程图;
图6是根据实施例的翻译生成处理的整个流程的流程图;
图7是用于说明语形学分析和翻译获取处理的处理结果的例子的示意图;
图8是用于说明相关性分析的处理结果的例子的示意图;
图9是相关关系的直观表达的示意图;
图10是用于说明应用了翻译规则时的处理结果的示意图;
图11是用于说明判断结果的例子的示意图;
图12是用于说明所要创建的单词翻译学习数据的数据结构的例子的示意图;
图13是根据实施例的单词翻译学习处理的整个流程的流程图;
图14是用于说明学习矢量的例子的示意图;
图15是用于说明学习结果的另一数据格式的例子的示意图;
图16是用于说明处理结果的例子的示意图;
图17是用于说明矢量表示的例子的示意图;以及
图18是用于说明根据实施例的单词翻译学习装置的硬件配置的示意图。
具体实施方式
下面将参考附图详细说明根据本发明的用于针对单词翻译学习创建数据的装置和方法的示范性实施例。将通过举例的方式说明本发明的实施例,在所述例子中,将本发明实现为单词翻译学习装置,其创建用于学习单词翻译的数据,并根据所创建的学习数据学习单词翻译,以输出学习结果。注意,本发明的装置不限于单词翻译学习装置,其可以是任何能够创建用于学习单词翻译的学习数据的装置。
根据本实施例的单词翻译学习装置机械地翻译源语言的输入语句(下文称为“输入文本”),以创建单词翻译学习数据,所述数据包括在翻译时应用了翻译规则的翻译和输入文本。相应地,在出现了输入文本所包括的单词的上下文中,能够学习通过应用了翻译规则而获取的翻译的采纳。
如图1所示,单词翻译学习装置100包括双语词典存储单元121、翻译规则存储单元122、学习结果存储单元123、输入单元101、翻译生成单元110、对应信息创建单元102、判断单元103、学习数据创建单元104、学习单元105和输出控制器106。
双语词典存储单元121存储双语词典,在所述双语词典中,至少一个翻译与源语言单词相关。如图2所示,所述双语词典包括单词描述、作为原型的单词的描述、词性和翻译列表。在针对一个单词存在多个翻译候选时,在翻译列表的列中描述通过符号“;”分隔的多个翻译。
返回到图1,翻译规则存储单元122存储翻译时采用的翻译规则。如图3所示,所述翻译规则包括根据翻译规则用于标识单词的单词ID、单词描述、作为原型的单词描述、词性、指示具有相关关系的单词的ID的相关目的地ID和翻译。在将在下文中予以描述的翻译单元114根据相关性分析结果(语法分析结果)从多个翻译候选中选择适当的翻译时,参考所述翻译规则。
在图3所示的翻译规则中,在原型为“interest”、词性为名词的单词修饰原型为“pay”,词性为动词的单词时,将“interest”的日文翻译指定为单词301(利息)。此外,当列“描述”、“原型”或“词性”为空时,将空白列以外的项目与分析结果进行对照(collate)。在“翻译”列为空时,不选择任何翻译。
返回到图1,学习结果存储单元123存储学习单元105的学习结果。如图4所示,在本实施例中,按照一定的格式表达学习结果,在所述格式中,使在所要学习的单词之前和之后出现的单词的频率矢量化。在下述说明中,将具有矢量格式的学习结果称为学习矢量。学习矢量的矢量化方法不限于此,可以采用任何常规使用的方法,例如,按照与所关注的单词相隔的距离对值加权的方法等。
图4示出了相对于作为“interest”的日文翻译候选的单词401(興味)、单词402(榷利)和单词403(利息)的学习结果。在所述单词翻译学习数据中出现在“interest”附近的相应单词对应于所述学习矢量的相应维度。所述相应维度的值指示对应单词的频率。最初将所述学习矢量的相应维度的所有值都设为0。
双语词典存储单元121、翻译规则存储单元122和学习结果存储单元123可以是任何一般采用的记录介质,例如,硬盘驱动器(HDD)、光盘、存储卡和随机存取存储器(RAM)。
返回到图1,输入单元101通过诸如键盘之类的输入装置(未示出)或者从诸如磁盘之类的记录介质(未示出)输入源语言形式的文本(输入文本)。
翻译生成单元110相对于输入文本中包括的每一单词生成目标语言的翻译和表示所述翻译的概率的似真性。在本实施例中,翻译生成单元110采用与常规采用的转换方法中的机器翻译相同的方法将输入文本翻译成目标语言。翻译生成单元110包括语形学(morphological)分析单元111、翻译获取单元112、相关性分析单元113和翻译单元114。
语形学分析单元111针对输入文本执行语形学分析,从而以单词为单位对文本进行划分。翻译获取单元112从双语词典存储单元121获取对应于每一划分出的单词的目标语言翻译。相关性分析单元113分析所划分的单词之间的相关关系。
翻译单元114通过向所述相关性分析结果应用翻译规则而根据所述相关关系获取适当的翻译。具体地,在从双语词典存储单元121获取了多个翻译作为针对所划分的单词的翻译时,翻译单元114参考所分析的相关关系和翻译规则存储单元122中的翻译规则获取对应于作为相关目的地的单词的翻译。
例如,在相关性分析单元113获取的相关性分析结果的部分与图3所示的翻译规则中的“单词ID”、“描述”、“原型”、“词性”和“相关目的地ID”指定的语法模式相匹配时,获取翻译规则中的“翻译”列中所指定的翻译。
翻译生成单元110将通过应用翻译规则获取的翻译设为似真性=1,将未经应用翻译规则而获取的翻译设为似真性=0。翻译生成单元110的翻译处理和似真性设置方法不限于此,可以应用任何常规采用的机器翻译技术,只要能够生成输入文本中包括的每一单词的翻译并且能够生成表示每一翻译的概率的似真性即可。
对应信息创建单元102通过将输入文本中的单词与翻译生成单元110针对该单词生成的翻译相组合来创建对应信息。
判断单元103相对于所创建的各条对应信息判断翻译的似真性是否大于预定阈值,由此判断是否采纳所述对应信息作为单词翻译学习数据。在本实施例中,由于似真性的值为0或1,因而,例如,可以采用0作为阈值。之后,判断单元103判断采用包括似真性为1的翻译的对应信息,即,包括通过应用转换规则获取的翻译的对应信息。
学习数据创建单元104通过使输入文本中包括的每一单词与被作为单词翻译学习数据采用的对应信息相关而创建单词翻译学习数据。下面将说明单词翻译学习数据的数据结构的细节。
学习单元105采用所创建的经翻译的翻译学习数据执行单词翻译学习。具体地,学习单元105采用存储在学习结果存储单元123中的学习矢量学习翻译。由学习单元105执行的单词翻译学习方法不限于采用学习矢量的方法,可以应用任何常规采用的方法,例如,采用以支持矢量机(SVM)为代表的机械学习机学习翻译的方法。
输出控制器106控制学习数据创建单元104创建的单词翻译学习数据或者学习单元105的学习结果的输出处理。例如,输出控制器106将学习结果输出至学习结果存储单元123。其构造可以使得输出控制器106将学习结果输出至诸如显示单元或打印机的输出单元(未示出)。
接下来将参考图5说明根据本实施例的由单词翻译学习装置100执行的学习数据创建/学习处理。在所述学习数据创建/学习处理中,由输入文本创建学习数据,并基于所创建的学习数据学习翻译。
输入单元101首先接收输入文本的输入(步骤S501)。翻译生成单元110执行相对于输入文本中的各个单词生成翻译的翻译生成处理(步骤502)。在下文中将说明翻译生成处理的细节。
在翻译生成处理之后,对应信息创建单元102创建对应信息,在所述信息中,使输入文本中的每一单词与相应翻译相关(步骤S503)。判断单元103从所创建的各条对应信息中获取尚未针对其判断是否采用其作为单词翻译学习数据的对应信息(步骤S504)。
判断单元103判断所获取的对应信息中包括的翻译的似真性是否大于阈值(步骤S505)。如上所述,所述似真性的值为0或1,并将应用了翻译规则的翻译设为似真性=1。因此,这一步骤对应于判断所述翻译是否是通过应用翻译规则而获取的。
在似真性不大于阈值时,即,在未采用所述翻译规则的情况下获取了所述翻译时(步骤S505处的“否”),那么判断单元103判断不采用当前的对应信息作为单词翻译学习数据(步骤S506)。
在似真性大于阈值时,即,在通过应用翻译规则而获取了所述翻译时(步骤S505处的“是”),判断单元103判断采用当前的对应信息作为单词翻译学习数据(步骤S507)。在这种情况下,学习数据创建单元104创建使所采用的对应信息与输入文本相关的单词翻译学习数据(步骤S508)。
之后,判断单元103判断是否处理了所有的对应信息(步骤S509)。在尚未处理所有的对应信息时(步骤S509处的“否”),判断单元103获取下一对应信息,以重复所述处理(步骤S504)。在处理了所有的对应信息时(步骤S509处的“是”),学习单元105基于所创建的单词翻译学习数据执行单词翻译学习处理(步骤S510)。在下文中将说明单词翻译学习处理的细节。
在单词翻译学习处理之后,输出控制器106将单词翻译学习处理的结果输出至学习结果存储单元123(步骤S511),并完成学习数据创建/学习处理。
将参考图6详细说明步骤S502处的翻译生成处理。
语形学分析单元111针对输入文本执行语形学分析,从而将输入文本划分为单词(步骤S601)。翻译获取单元112从双语词典存储单元121中的双语词典获取分别对应于所划分的单词的翻译(步骤S602)。
图7示出了在源语言为英语,目标语言为日语,并且提供了英文输入文本“pay deposit interest”的情况下的处理结果。
如图7所示,所述处理结果包括用于标识输入文本的单词的单词ID、输入文本的单词的描述、所述单词的原型、词性、相关目的地、翻译列表和指示规则应用的存在的标记。对于原型、词性和翻译列表而言,设置从双语词典获取的信息。
在“相关目的地”列中设置具有单词相关关系的单词的单词ID。由于相关目的地是通过语形学分析之后执行的语法分析设置的,因而在这一阶段相关目的地列为空白。在“规则应用”列中,在应用了翻译规则时设置1,在未应用翻译规则时设置0。也就是说,在“规则应用”列中设置对应于针对相应的翻译的似真性的值。由于“规则应用”列是通过应用在语法分析之后执行的翻译规则的处理设置的,因而在这一阶段将默认值设为“0”。
返回到图6,相关性分析单元113针对所划分的单词执行相关性分析(语法分析)(步骤S603)。因此,明确了单词之间的相关关系。
如图8所示,将每一单词的相关目的地的单词ID设置到“相关目的地”列内。在没有相关目的地时,将“-1”设置到“相关目的地”列内。
图9是用于对图8中的相关关系进行直观表达的示意图。图9示出了处于通过椭圆形表示的节点内的单词修饰处于上方节点内的单词的情况。
翻译单元114应用翻译规则以判断针对单词的翻译,其中,在翻译列表中包含了多个针对所述单词的翻译(步骤S604)。
图10是用于说明在将图3所示的翻译规则应用于图8所示的语形学分析结果时的处理结果的示意图。图8所示的语形学分析结果中的“interest”修饰“pay”的部分符合图3中的翻译规则。因此,将图3中的单词301(利息)判断为“interest”的翻译,并将包括三个翻译的“interest”的翻译列表的值更改为图8中的翻译1001(利息)。将应用了规则的“interest”的列的值从“1”改为“0”。
对应信息创建单元102针对图10所示的每一行处理结果创建使描述与翻译列表中的翻译相关的对应信息。
接下来将说明单词翻译学习数据的数据结构的细节。将针对源语言为英语,目标语言为日语,并且提供了英文输入文本“pay deposit interest”的情况说明所要创建的单词翻译学习数据的数据结构。
通过针对输入文本的翻译生成处理获取了图10所示的处理结果。接下来,判断单元103判断是否采纳所述对应信息作为单词翻译学习数据。
在图10的例子中,由于表格中的每一行对应于每一条对应信息,因而判断单元103针对每一行执行判断。判断单元103基于是否包括应用了翻译规则的翻译判断是否采纳所述对应信息作为单词翻译学习数据。也就是说,判断单元103采用对应于“规则应用”的所在的行的值为“1”的行的对应信息作为单词翻译学习数据。在图10所示的例子中,仅将使单词“interest”与日文翻译1001(利息)相关的对应信息采纳为单词翻译学习数据。
在图11中,以表格形式示出了表达判断结果的例子。如图11所示,所述判断结果包括单词ID、描述、原型、词性、翻译和指示是否将所述对应信息采纳为单词翻译学习数据的学习标记。将图10所示的翻译生成处理的处理结果的值直接设置到单词ID、描述和词性列内。
将图10所示的翻译列表列中的最上面的翻译设为所述翻译。在图10所示的例子中,没有在翻译列表中保留了多个翻译的单词。因此,将图10中的翻译列表的值直接设置到图11所示的翻译列中。直接设置图10中的规则应用值。
学习数据创建单元104参考图11所示的判断结果来创建单词翻译学习数据。如图12所示,学习数据创建单元104创建了这样的单词翻译学习数据,其中,将所采纳的对应信息的翻译作为“<learn>”标签的“tw”属性的值嵌入到了输入文本中。
单词翻译学习数据的数据结构不限于图12所示的格式,可以采用任何使单词和翻译的组合与输入文本中的所述单词之外的至少一个单词相关的数据格式。例如,可以采用图11所示的表格格式中的整个判断结果作为单词翻译学习数据。可以采用通过相关单词表达的上下文中的单词翻译学习数据来学习具体翻译的选择。
图12中的单词翻译学习数据表明,相对于文本“pay depositinterest”,即,在出现了“pay”和“deposit”的上下文中,将“interest”转换为日文单词1201(利息)。
就常规而言,已经人工创建了单词翻译学习数据;但是,在本实施例中,能够仅通过用户根据上述处理输入源语言文本获取单词翻译学习数据。相应地,能够显著降低创建单词翻译学习数据的时间和工作量。
将参考图13说明步骤S510处的单词翻译学习处理的细节。例如,将说明这样一种情况,其中,采用具有图11所示的表格格式的单词翻译学习数据来执行学习。
学习单元105首先从所创建的单词翻译学习数据中获取未经处理的单词ID(下文中称为IDa)(步骤S1301)。之后,学习单元105判断对应于所获取的IDa的学习标记是否为“1”(步骤S1302)。在学习标记为“1”时(步骤S1302处的“是”),学习单元105将对应于具有IDa的单词的翻译设置到变量tw中(步骤S1303)。
学习单元105获取所创建的单词翻译学习数据中的IDa以外的单词ID(下文称为IDb)(步骤S1304)。之后,学习单元105针对被设置为变量tw的翻译的学习矢量将与单词ID为IDb的单词相对应的维度值加1(步骤S1305)。
之后,学习单元105判断所述单词ID中除IDa之外是否还存在未经处理的单词ID(步骤S1306)。当存在未经处理的单词ID时(步骤S1306处的“是”),学习单元105获取下一单词ID作为IDb,并重复所述处理(步骤S1304)。
在不存在未经处理的单词ID时(步骤S1306处的“否”),学习单元105判断是否相对于所有单词ID执行了上述处理(步骤S1307)。
当尚未处理所有的单词ID时(步骤S1307处的“否”),学习单元105获取下一个未经处理的单词ID作为IDa,以重复所述处理(步骤S1301)。在已经处理了所有的单词ID时(步骤S1307中的“是”),学习单元105完成所述单词翻译学习处理。
接下来将说明单词翻译学习处理的具体例子。例如,将说明这样一种情况,其中,在学习结果处于图4所示的起始状态时,采用图11所示的单词翻译学习数据来学习翻译。
在以0作为单词ID的单词“pay”和以1作为单词ID的单词“deposit”中,学习标记为“0”(步骤S1302处的“否”),因此不执行翻译学习。在以2为单词ID的单词“interest”中,学习标记为“1”(步骤S1302处的“是”),因此将更新对应翻译1101(利息)的学习矢量。
也就是说,在图4的例子中,学习单元105更新对应于单词403的学习矢量,其中,单词403是处于最右侧位置的翻译。学习单元105首先将对应于以0作为单词ID的单词“pay(动词)”的维度值加1。接下来,学习单元105还将对应于以1作为单词ID的单词“deposit(名词)”的维度值加1。图14是用于说明通过这种方式更新的学习矢量的一个例子的示意图。如图14所示,将对应于单词403的学习矢量的维度值更新为1。
输出控制器106能够将学习矢量转换成外部装置可用的数据格式,并输出所述数据格式。图15是将对应于学习矢量的各个维度的单词的原型和词性转换成了特定格式的学习结果的例子。
图15的学习结果表明,不存在将“interest(名词)”翻译成了日文单词1501(興味)或单词1502(榷利)的学习数据;但是,存在将“interest(名词)”翻译成了单词1503(利息)的学习数据,并且所述学习数据表明“pay(动词)”和“deposit(名词)”分别在“interest”之前和之后出现一次。
可以通过下述方式采用图15中的学习数据,以提高机器翻译的质量。例如,将说明将英文输入文本“The bank owes me 10 years of depositinterest.”翻译成日文的情况。
在采用图2所示的双语词典和图3所示的翻译规则翻译输入文本时,能够获取图16所示的处理结果。如果观察到了对应于以8作为单词ID的“interest”的翻译列表,那么由于未向输入文本应用所述翻译规则,因而保留三个翻译候选(興味、榷利、利息)。
如果假设在存在多个翻译候选时输出顶部翻译,那么在这一例子中则相对于“interest”输出了不合适的翻译(興味)。在这样的情况下,可以通过采用图15所示的学习结果来选择合适的翻译(利息)。
这里,假设获取了图14所示的学习矢量,或者在获取了图15所示的学习结果时,将其转换为图14所示的学习矢量。
相对于输入文本“The bank owes me 10 years of deposit interest.”中的“interest”,采用与学习矢量中相同的方法使前后单词的出现频率矢量化。所述矢量的维度不分配给冠词、代词、介词、数字和符号。图17是用于说明通过这种方式转换的矢量表示的一个例子的示意图。
选择与图14的三个学习矢量中与图17中的矢量具有最大的余弦相似性的学习矢量相对应的翻译。相应地,由于能够选择前后具有共同的单词的翻译,因而能够获取更加合适的翻译。
例如,由于图14中的三个学习矢量的单词401(興味)和单词402(榷利)的学习矢量的所有分量均为0,因而余弦相似性变成0。另一方面,对于单词403(利息)的学习矢量而言,对应于“deposit(名词)”的维度值为1,对于图17中的矢量而言,对应于“deposit(名词)”的维度值也为1。因此,余弦相似性取得比0大的值。因此,与图17中的矢量具有最大余弦相似性的学习矢量是对应于单词403(利息)的学习矢量。也就是说,能够将单词403(利息)选作输入文本“The bank owes me 10 years of depositinterest.”中的单词“interest”的翻译。
因而,在根据本实施例的单词翻译学习装置100中,能够创建输入文本,并且能够在对输入文本进行机器翻译时创建包括应用了翻译规则的翻译的单词翻译学习数据。相应地,能够降低通常由人工执行的单词翻译学习数据的创建的负荷。由于能够基于通过这种方式创建的单词翻译学习数据执行单词翻译学习,因而能够提高单词翻译学习处理的效率。
参考图18说明根据本实施例的单词翻译学习装置100的硬件配置。
根据本实施例的单词翻译学习装置100包括诸如中央处理单元(CPU)51之类的控制器、诸如只读存储器(ROM)52和RAM 53之类的存储单元、连接至网络以执行通信的通信I/F54、诸如硬盘驱动器(HDD)和光盘(CD)驱动器之类的外部存储单元、诸如显示器之类的显示单元、诸如键盘和鼠标之类的输入单元、以及用于使各个单元相互连接的总线61,其是采用普通计算机的硬件配置。
将通过根据本实施例的单词翻译学习装置100执行的数据创建程序按照可安装或可执行的格式文件的形式记录到诸如只读光盘存储器(CD-ROM)、软盘(FD)、可记录光盘(CD-R)和数字通用盘(DVD)之类的计算机可读记录介质上,并提供所述数据创建程序。
可以通过将由根据本实施例的单词翻译学习装置100执行的数据创建程序存储到连接至诸如Internet之类的网络的计算机上来提供所述数据创建程序,并经由所述网络下载数据创建程序。此外,能够通过诸如Internet之类的网络提供或散布由根据所述实施例的单词翻译学习装置100执行的数据创建程序。
能够将根据所述实施例的数据创建程序集成到ROM等内,从而加以提供。
通过根据本实施例的单词翻译学习装置100执行的数据创建程序具有包括上述各单元(输入单元、翻译单词生成单元、对应信息创建单元、判断单元、学习数据创建单元、学习单元和输出控制器)的模块配置。作为实际硬件,CPU 51(处理器)从记录介质读出数据创建程序,并执行所述程序,从而将这些相应的单元加载到主存储器上,从而在所述主存储器上生成相应的单元。

Claims (9)

1、一种数据创建装置,其用于创建学习数据,所述学习数据用于学习与源语言形式的一个单词相对应的多个翻译候选的适当使用,所述翻译候选是以目标语言形式描述的,所述装置包括:
输入单元,其用于输入所述源语言形式的语句;
翻译生成单元,其用于将所述语句中的一个单词翻译成所述目标语言形式,并针对所述单词生成所述目标语言形式的多个翻译候选和表示所述翻译候选的概率的似真性;
对应信息创建单元,其用于创建多条对应信息,在所述多条对应信息中,使所述单词分别相关于所述多个翻译候选;
判断单元,其用于判断所述翻译候选的似真性是否大于预定阈值;以及
学习数据创建单元,其用于创建所述学习数据,在所述学习数据中,将所述语句中的另一个单词添加到所具有的所述似真性大于所述阈值的所述翻译候选的对应信息中。
2、根据权利要求1所述的装置,其中,所述翻译生成单元基于预定的翻译规则将所述语句翻译成所述目标语言形式,并生成所述翻译候选和所述似真性。
3、根据权利要求2所述的装置,还包括:
词典存储单元,其用于存储双语词典,在所述双语词典中,将所述源语言形式的单词与针对所述源语言形式的单词的所述翻译候选彼此相关;以及
翻译规则存储单元,其用于存储所述翻译规则,在所述翻译规则中,将所述源语言形式的单词、与所述源语言形式的单词具有相关关系的单词、和所述翻译候选彼此相关,其中
所述翻译生成单元包括
语形学分析单元,其用于针对所述语句执行语形学分析,以将所述语句划分成多个单词,
翻译获取单元,其用于从所述词典存储单元获取针对所划分的单词的所述翻译候选,
相关性分析单元,其用于分析所划分的多个单词之间的所述相关关系,以及
翻译单元,其用于针对所划分的每一单词,按照所述翻译规则存储单元中存储的所述翻译规则,将所划分的单词和与所划分的单词具有所述相关关系的单词分别与所述源语言形式的单词和与所述源语言形式的单词具有所述相关关系的单词进行对照,并按照来自所述翻译规则存储单元的所述翻译规则获取与所述源语言形式的所述单词相关的匹配的翻译候选。
4、根据权利要求3所述的装置,其中,所述翻译生成单元针对从所述翻译规则存储单元获取的所述翻译候选,生成比从所述词典存储单元获取的所述翻译候选的似真性大的似真性。
5、根据权利要求3所述的装置,其中,所述学习数据创建单元创建所述学习数据,在所述学习数据中,使所述语句中包括的单词相关于包括从所述翻译规则存储单元获取的所述翻译候选的所述对应信息。
6、根据权利要求1所述的装置,其中,所述学习数据创建单元创建所述学习数据,在所述学习数据中,使所述语句所包括的多个单词中的除了所述对应信息内包括的单词之外的单词相关于包括所具有的似真性大于所述阈值的所述翻译候选的所述对应信息。
7、根据权利要求1所述的装置,其中,所述学习数据创建单元创建所述学习数据,在所述学习数据中,在所述语句包括的多个单词的范围内,使所述对应信息中的所述翻译候选相关于包括所述语句中含有的单词和所具有的似真性大于所述阈值的所述翻译候选的所述对应信息中的单词。
8、根据权利要求1所述的装置,还包括学习单元,其基于所述学习数据学习所述多个翻译候选的适当使用。
9、一种在数据创建装置中执行的数据创建方法,其创建学习数据,所述学习数据用于学习与源语言形式的一个单词相对应的多个翻译候选的适当使用,所述翻译候选是以目标语言形式描述的,所述方法包括:
输入所述源语言形式的语句;
将所述语句中的一个单词翻译成目标语言形式,并针对所述单词生成所述目标语言形式的多个翻译候选和表示所述翻译候选的概率的似真性;
创建多条对应信息,在所述多条对应信息中,使所述单词分别相关于所述多个翻译候选;
判断所述翻译候选的似真性是否大于预定阈值;以及
创建所述学习数据,在所述学习数据中,将所述语句中的另一个单词添加到所具有的所述似真性大于所述阈值的所述翻译候选的对应信息中。
CNA2008102148614A 2007-09-03 2008-09-03 创建用于学习单词翻译的数据的装置和方法 Pending CN101382933A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP228051/2007 2007-09-03
JP2007228051A JP5342760B2 (ja) 2007-09-03 2007-09-03 訳語学習のためのデータを作成する装置、方法、およびプログラム

Publications (1)

Publication Number Publication Date
CN101382933A true CN101382933A (zh) 2009-03-11

Family

ID=40408825

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008102148614A Pending CN101382933A (zh) 2007-09-03 2008-09-03 创建用于学习单词翻译的数据的装置和方法

Country Status (3)

Country Link
US (1) US8135573B2 (zh)
JP (1) JP5342760B2 (zh)
CN (1) CN101382933A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104796A (zh) * 2019-12-18 2020-05-05 北京百度网讯科技有限公司 用于翻译的方法和装置
CN115485039A (zh) * 2020-02-28 2022-12-16 Cy游戏公司 用于支持游戏脚本的创建的系统和方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9552353B2 (en) * 2011-01-21 2017-01-24 Disney Enterprises, Inc. System and method for generating phrases
US10303762B2 (en) 2013-03-15 2019-05-28 Disney Enterprises, Inc. Comprehensive safety schema for ensuring appropriateness of language in online chat
CN110414013A (zh) * 2019-07-31 2019-11-05 腾讯科技(深圳)有限公司 数据处理方法、装置及电子设备

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4829580A (en) * 1986-03-26 1989-05-09 Telephone And Telegraph Company, At&T Bell Laboratories Text analysis system with letter sequence recognition and speech stress assignment arrangement
JP4043176B2 (ja) 2000-08-31 2008-02-06 株式会社東芝 自然言語処理装置
US7483828B2 (en) * 2001-03-16 2009-01-27 Meaningful Machines, L.L.C. Multilingual database creation system and method
US7016829B2 (en) * 2001-05-04 2006-03-21 Microsoft Corporation Method and apparatus for unsupervised training of natural language processing units
US7295962B2 (en) * 2001-05-11 2007-11-13 University Of Southern California Statistical memory-based translation system
US7734459B2 (en) * 2001-06-01 2010-06-08 Microsoft Corporation Automatic extraction of transfer mappings from bilingual corpora
US7191115B2 (en) * 2001-06-20 2007-03-13 Microsoft Corporation Statistical method and apparatus for learning translation relationships among words
US7003444B2 (en) * 2001-07-12 2006-02-21 Microsoft Corporation Method and apparatus for improved grammar checking using a stochastic parser
US7249012B2 (en) * 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
JP2005092253A (ja) * 2003-09-11 2005-04-07 Fuji Xerox Co Ltd 機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラム
US7689412B2 (en) * 2003-12-05 2010-03-30 Microsoft Corporation Synonymous collocation extraction using translation information
US20050216253A1 (en) * 2004-03-25 2005-09-29 Microsoft Corporation System and method for reverse transliteration using statistical alignment
US7577562B2 (en) * 2004-11-04 2009-08-18 Microsoft Corporation Extracting treelet translation pairs
US20060282255A1 (en) * 2005-06-14 2006-12-14 Microsoft Corporation Collocation translation from monolingual and available bilingual corpora
WO2006133571A1 (en) * 2005-06-17 2006-12-21 National Research Council Of Canada Means and method for adapted language translation
US7680647B2 (en) * 2005-06-21 2010-03-16 Microsoft Corporation Association-based bilingual word alignment
US20070083357A1 (en) * 2005-10-03 2007-04-12 Moore Robert C Weighted linear model
US20080120092A1 (en) * 2006-11-20 2008-05-22 Microsoft Corporation Phrase pair extraction for statistical machine translation
GB2444084A (en) * 2006-11-23 2008-05-28 Sharp Kk Selecting examples in an example based machine translation system
US7983898B2 (en) * 2007-06-08 2011-07-19 Microsoft Corporation Generating a phrase translation model by iteratively estimating phrase translation probabilities

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104796A (zh) * 2019-12-18 2020-05-05 北京百度网讯科技有限公司 用于翻译的方法和装置
CN111104796B (zh) * 2019-12-18 2023-05-05 北京百度网讯科技有限公司 用于翻译的方法和装置
CN115485039A (zh) * 2020-02-28 2022-12-16 Cy游戏公司 用于支持游戏脚本的创建的系统和方法
CN115485039B (zh) * 2020-02-28 2023-06-09 Cy游戏公司 用于支持游戏脚本的创建的系统和方法

Also Published As

Publication number Publication date
US8135573B2 (en) 2012-03-13
JP2009059300A (ja) 2009-03-19
US20090063127A1 (en) 2009-03-05
JP5342760B2 (ja) 2013-11-13

Similar Documents

Publication Publication Date Title
US11210468B2 (en) System and method for comparing plurality of documents
JP4058057B2 (ja) 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム
JP2011501258A (ja) 情報抽出装置および方法
JP2011018330A (ja) 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法
JP2003532194A (ja) 言語間リーディングウィザードを用いたコンピュータ援用リーディングシステムおよび方法
CN101382933A (zh) 创建用于学习单词翻译的数据的装置和方法
CN113407709A (zh) 生成式文本摘要系统和方法
Somers The translator's workstation
EP4348603A1 (en) Application-specific optical character recognition customization
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
CN103136195A (zh) 翻译装置和翻译方法
JP3899414B2 (ja) 教師データ作成装置およびプログラム、ならびに言語解析処理装置およびプログラム
Higuchi KH Coder 2. x reference manual
JPH1145289A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
FI114347B (fi) Menetelmä ja laitteisto datan kääntämiseksi
JP6837604B2 (ja) 入力ミス検知装置、入力ミス検知方法および入力ミス検知プログラム
JP2004334341A (ja) 文書検索装置、文書検索方法及び記録媒体
JP7416665B2 (ja) 対話システム、及び対話システムの制御方法
JP6936370B1 (ja) 情報処理システム、及び情報処理プログラム
JP7415495B2 (ja) 文書処理プログラム、文書処理装置、及び文書処理方法
JP5085975B2 (ja) 日本語固有表現抽出装置、日本語固有表現抽出方法、およびその方法をコンピュータに実行させるプログラム
JP4102897B2 (ja) 特許明細書デバッグツールおよび特許明細書デバッグツールプログラム
WO2014030258A1 (ja) 形態素解析装置、テキスト分析方法、及びそのプログラム
JPH09223146A (ja) 翻訳方法
CN115376153B (zh) 一种合同比对方法、装置及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20090311