CN101393547A - 机器翻译设备、方法和系统 - Google Patents

机器翻译设备、方法和系统 Download PDF

Info

Publication number
CN101393547A
CN101393547A CNA200810149207XA CN200810149207A CN101393547A CN 101393547 A CN101393547 A CN 101393547A CN A200810149207X A CNA200810149207X A CN A200810149207XA CN 200810149207 A CN200810149207 A CN 200810149207A CN 101393547 A CN101393547 A CN 101393547A
Authority
CN
China
Prior art keywords
statement
term information
bilingual term
translation
source statement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA200810149207XA
Other languages
English (en)
Inventor
铃木博和
木下聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of CN101393547A publication Critical patent/CN101393547A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

接收单元接收包括输入语句和双语词条信息的翻译请求。源语句获得单元计算输入语句和源语句之间的相似度,并从源语句存储单元获得相似度高于阈值的源语句。双语词条信息获得单元从辞典存储单元获得双语词条信息ID对应于所获得的源语句的双语词条信息。当所获得的双语词条信息中的第一单词包括在输入语句中时,翻译单元将输入语句中包括的第一单词翻译成所获得的双语词条信息中的对应第二单词。存储单元在辞典存储单元中存储翻译请求中包括的双语词条信息,并在源语句存储单元中存储彼此相关联的所存储的双语词条信息的双语词条信息ID和输入语句。

Description

机器翻译设备、方法和系统
技术领域
本发明涉及一种设备、方法和系统,其从客户端终端接收翻译请求,在服务器端进行从作为输入语句语言的第一语言到作为输出语句语言的第二语言的翻译处理,并向作为请求源的客户端发送翻译结果。
背景技术
公知的机器翻译系统包括多个供请求翻译的用户使用的客户端、以及提供机器翻译功能的机器翻译服务器。这些机器翻译系统利用双语词条信息或文档领域信息进行翻译,其中双语词条信息是翻译期间用户指定的源语言形式的单词和单词翻译的组合。这种机器翻译系统通过利用用户在双语词条信息中表示的翻译或利用根据指定的文档领域信息确定的翻译辞典,可以提供高质量的机器翻译。
例如,JP-A 2003-223442(特开)提出了一种针对每个领域学习用户指定的双语词条信息并在翻译期间利用所学双语词条信息的技术。JP-A2003-296327(特开)提出了一种利用用户提供的领域信息确定要使用的辞典的技术。
JP-A 2003-223442或2003-296327(特开)中描述的技术在待翻译的文档处于一个领域中的情况下是有效的。当一个文档包括与多个领域相关的语句(例如新闻稿)时,翻译质量可能会下降。
在这些技术中,在翻译期间必需要明确给出领域。翻译质量随着领域的颗粒度而变化。例如,当设置了“体育”领域时,单词的翻译可能会随着运动类型(例如“棒球”和“足球”)而变化。在这种情况下,在选择译文时会产生歧义(ambiguity)。
在根据运动类型(例如“棒球”或“足球”)设置细分的领域时,几乎不会产生歧义。然而,当有多种运动中通用的翻译时,因为所指定的领域太细而不能参考通用翻译,这可能会使翻译质量下降。
发明内容
根据本发明的一个方面,一种机器翻译设备包括:辞典存储单元,其用于存储双语词条信息和标识信息,在所述双语词条信息中使第一语言形式的第一单词和第二语言形式的第二单词彼此相关联,所述标识信息标识所述双语词条信息;源语句存储单元,其用于存储彼此相关联的所述第一语言形式的源语句和用于翻译所述源语句的所述双语词条信息的标识信息;接收单元,其用于接收包括所述第一语言形式的输入语句的翻译请求;源语句获得单元,其用于计算所述输入语句和所述源语句之间的相似度,并从所述源语句存储单元获得所述相似度高于预定阈值的所述源语句;双语词条信息获得单元,其用于从所述辞典存储单元获得所述标识信息对应于由所述源语句获得单元获得的所述源语句的所述双语词条信息;以及翻译单元,其用于判断由所述双语词条信息获得单元获得的所述双语词条信息中的所述第一单词是否包括在所述输入语句中,并且在所述第一单词包括在所述输入语句中时,将在所述输入语句中包括的所述第一单词翻译成所述双语词条信息中的所述第二单词。
根据本发明的另一个方面,机器翻译方法包括接收包括第一语言形式的输入语句的翻译请求;计算所述输入语句和所述第一语言形式的源语句之间的相似度;从源语句存储单元获得所述相似度高于预定阈值的所述源语句,并使所述第一语言形式的第一单词与第二语言形式的第二单词彼此相关联,其中所述源语句存储单元用于存储所述源语句和双语词条信息的标识信息,所述双语词条信息用于翻译所述源语句;从用于存储所述双语词条信息和所述标识信息的辞典存储单元获得所述标识信息对应于所获得的源语句的所述双语词条信息;判断所获得的双语词条信息中的所述第一单词是否包括在所述输入语句中;以及当所述第一单词包括在所述输入语句中时,将在所述输入语句中包括的所述第一单词翻译成所述双语词条信息中的所述第二单词。
根据本发明的又一方面,一种机器翻译系统包括:终端设备,其用于请求进行翻译;以及机器翻译设备,其用于经由网络连接到所述终端设备。
所述终端设备包括:请求发送单元,其用于发送包括第一语言形式的输入语句的翻译请求;以及结果接收单元,其用于接收翻译结果。
所述机器翻译设备包括:辞典存储单元,其用于存储双语词条信息和标识信息,在所述双语词条信息中使所述第一语言形式的第一单词和第二语言形式的第二单词彼此相关联,所述标识信息标识所述双语词条信息;源语句存储单元,其用于存储彼此相关联的所述第一语言形式的源语句和用于翻译所述源语句的所述双语词条信息的标识信息;接收单元,其用于接收所述翻译请求,所述翻译请求包括所述第一语言形式的输入语句;源语句获得单元,其用于计算所述输入语句和所述源语句之间的相似度,并从所述源语句存储单元获得所述相似度高于预定阈值的所述源语句;双语词条信息获得单元,其用于从所述辞典存储单元获得所述标识信息对应于由所述源语句获得单元获得的所述源语句的所述双语词条信息;翻译单元,其用于判断由所述双语词条信息获得单元获得的所述双语词条信息中的所述第一单词是否包括在所述输入语句中,并且在所述第一单词包括在所述输入语句中时,将在所述输入语句中包括的所述第一单词翻译成所述双语词条信息中的所述第二单词;以及输出单元,其用于向所述终端设备输出由所述翻译单元翻译的所述翻译结果。
附图说明
图1是根据本发明第一实施例的机器翻译系统的配置的方框图;
图2为示出了根据第一实施例的源语句存储单元中存储的数据结构范例的图示;
图3为示出了根据第一实施例的辞典存储单元中存储的数据结构范例的图示;
图4是根据第一实施例的机器翻译处理的总体流程的流程图;
图5为示出了根据第一实施例的源语句存储单元中存储的数据的另一种结构范例的图示;
图6为示出了根据第一实施例的辞典存储单元中存储的数据的另一结构范例的图示;
图7是根据本发明第二实施例的机器翻译系统的配置的方框图;
图8为示出了根据第二实施例的在源语句存储单元中存储的数据结构0范例的图示;
图9是根据第二实施例的机器翻译处理的总体流程的流程图;
图10为示出了根据第二实施例的在辞典存储单元中存储的数据结构范例的图示;以及
图11为示出了根据第一和第二实施例的机器翻译设备的硬件配置的示意图。
具体实施方式
以下将参考附图详细描述根据本发明的设备、方法和系统的示范性实施例。
根据本发明第一实施例的机器翻译系统从作为终端装置的客户端接收翻译请求,在作为机器翻译设备的机器翻译服务器中执行从作为输入语句语言的第一语言到作为输出语句语言的第二语言的翻译处理,并将翻译结果发送到请求源。此时,用户可以将第一语言形式的单词和第二语言形式的单词(前述单词的翻译)的集合指定为双语词条信息。机器翻译服务器在翻译期间使用指定的双语词条信息来获得翻译。
根据第一实施例的机器翻译系统存储由多个用户指定的双语词条信息和输入语句(二者彼此相关)。在存储有与被请求翻译的输入语句类似的语句时,机器翻译系统还引用涉及到所存储语句的双语词条信息,以高精度翻译输入语句。
在下文中以英语和日语之间的机器翻译为例加以描述。翻译所使用的语言不限于此。可以将本发明应用于任何语言之间的机器翻译。
如图1所示,机器翻译系统10具有这样的配置:其中,机器翻译服务器100和多个客户端200a到200c通过诸如因特网和局域网(LAN)之类的网络300连接。
客户端200a到200c向机器翻译服务器100发送翻译请求,该翻译请求包括要翻译的输入语句和翻译输入语句期间使用的双语词条信息,并且客户端200a到200c从机器翻译服务器100接收翻译结果,由此翻译期望的输入语句。客户端200a到200c具有相同的配置,因此也统称为客户端200。客户端200的数量不限于三个。
机器翻译服务器100响应于来自客户端200a到200c的翻译请求进行机器翻译,并将翻译结果返回到请求翻译的客户端200a到200c之一。稍后详细介绍机器翻译服务器100的功能。
下文详细介绍客户端200的功能。如图1所示,客户端200包括请求发送器201和结果接收器202。
请求发送器201向机器翻译服务器100发送翻译请求。如上所述,翻译请求包括要翻译的输入语句和翻译期间使用的双语词条信息。翻译请求还包括能够标识用户的标识信息,例如请求翻译的用户名称。使用标识信息来标识发送翻译请求的用户。用户可以不指定双语词条信息而请求翻译。在这种情况下,在翻译请求中设置双语词条信息之外的信息。
结果接收器202接收机器翻译服务器100获得的翻译结果,机器翻译服务器100响应于翻译请求来翻译输入语句。
客户端200可以根据一种应用(未示出)来执行翻译请求的发送和翻译结果的接收,该应用具有指定要翻译的输入语句或要使用的双语词条信息的功能以及显示翻译结果的功能。
下面详细介绍机器翻译服务器100的功能。如图1所示,机器翻译服务器100包括源语句存储单元121、辞典存储单元122、接收单元101、源语句获得单元102、双语词条信息获得单元103、翻译单元104、存储单元105和输出单元106。
源语句存储单元121存储先前发出过翻译请求的输入语句,从而可以参考先前翻译输入语句时使用的双语词条信息。也将源语句存储单元121中存储的先前输入语句称为源语句信息。
如图2所示,源语句存储单元121存储彼此相关联的组成(component)单词索引、源语句信息和双语词条信息ID数据。组成单词索引用于有效地检索源语句信息。
根据第一实施例,采用这样的组成单词索引,其列出了对源语句信息进行语形学分析而获得的单词。当要检索类似于输入语句的源语句信息时,仅把利用组成单词索引检索的源语句信息作为目标,这样就不需要以所有源语句信息为目标,提高了检索处理的效率。
双语词条信息ID是用于标识请求翻译源语句信息时指定的双语词条信息的标识信息。
返回到图1,辞典存储单元122存储双语词条信息,双语词条信息是第一语言形式的单词和该单词的第二语言形式的翻译的集合,是在指定请求翻译的输入语句的同时指定的。
如图3所示,辞典存储单元122存储彼此相关联的用户名、双语词条信息和双语词条信息ID数据。用户名是请求翻译的用户的名称。将双语词条信息是“第一语言单词=第二语言翻译”的形式的组。在指定多组第一语言形式的单词和第二语言形式的翻译时,在双语词条信息中设置该多个组。在图3中,将两个集合“Ew4=Jw4”和“Ew5=Jw5”指定为用户名=UserA的双语词条信息。
使用双语词条信息ID来标识如上所述的双语词条信息。使用双语词条信息ID来关联源语句存储单元121中存储的源语句信息和辞典存储单元122中存储的双语词条信息。亦即,在利用与源语句存储单元121中的某源语句信息相对应的双语词条信息ID在辞典存储单元122中搜索时,能够获得发出源语句信息翻译请求时指定的双语词条信息。
可以利用任何通用存储介质,例如硬盘驱动器(HDD)、光盘、存储卡和随机存取存储器(RAM)来构造源语句存储单元121和辞典存储单元122。
源语句信息和双语词条信息的存储方法不限于上文提到的那些。可以采用任何能够标识在请求翻译任何源语句时指定的双语词条信息的存储方法。
返回到图1,接收单元101接收从客户端200发送的翻译请求。
源语句获得单元102计算输入语句和源语句存储单元121中存储的源语句信息之间的相似度,以获得相似度高于预定阈值的源语句信息。具体而言,源语句获得单元102执行语形学分析以将输入语句分成单词。源语句获得单元102从源语句存储单元121获得包括组成单词索引中的所划分的每个单词的源语句信息。
源语句获得单元102计算所获得的每条源语句信息和输入语句之间的相似度。源语句获得单元102基于源语句信息和输入语句之间的编辑距离计算相似度。亦即,源语句获得单元102为与输入语句之间的编辑距离更小的源语句信息指定比与输入语句的编辑距离更大的源语句信息更高的相似度。相似度计算方法不限于此。可以采用任何能够计算语句间相似程度的方法。
双语词条信息获得单元103利用对应于源语句获得单元102获得的源语句信息的双语词条信息ID作为搜索关键字从辞典存储单元122中获得双语词条信息。
源语句获得单元102和双语词条信息获得单元103使得能够获得类似于输入语句的源语句信息以及在翻译源语句期间使用的双语词条信息。
翻译单元104翻译请求翻译的输入语句。翻译单元104使用的翻译方法可以是变换(transfer)法或中间语言法,变换法是在诸如分析、转移和生成的处理步骤配置的。亦即,可以使用任何通用的翻译方法,只要该方法利用双语词条信息指定的翻译进行翻译即可。
翻译单元104通过参考各种翻译辞典(例如用户定制辞典、术语辞典和翻译规则辞典(未示出))来翻译输入语句。翻译单元104具有向/从/在用户定制辞典中寄存/删除/修订其他信息的功能,所述其他信息例如为源单词、翻译以及用户指定的条件。
翻译单元104通过使用用户在翻译请求中指定的双语词条信息来翻译输入语句。亦即,相对于从翻译辞典获得的翻译,翻译单元104优先使用双语词条信息中指定的翻译来翻译输入语句。翻译单元104判断双语词条信息获得单元103是否获得了双语词条信息。在获得了双语词条信息时,翻译单元104利用所获得的双语词条信息以及用户在翻译请求中指定的双语词条信息翻译输入语句。当未在翻译请求中指定双语词条信息时,翻译单元104仅利用双语词条信息获得单元103获得的双语词条信息翻译输入语句。当在翻译请求中没有指定双语词条信息且双语词条信息获得单元103没有获得双语词条信息时,翻译单元104仅参考如上所述的翻译辞典而不利用双语词条信息来翻译输入语句。
存储单元105为翻译请求中包括的双语词条信息分配新的双语词条信息ID并存储在辞典存储单元122中。存储单元105使所存储的双语词条信息的双语词条信息ID与要存储在源语句存储单元121中的请求翻译的输入语句相关联。
输出单元106向客户端200输出翻译单元104获得的输入语句的翻译结果。
参考图4介绍根据第一实施例的机器翻译服务器100进行的机器翻译处理。
接收单元101从客户端200接收包括输入语句和双语词条信息的翻译请求(步骤S401)。源语句获得单元102计算输入语句和源语句存储单元121中存储的源语句信息之间的相似度(步骤S402)。
具体而言,源语句获得单元102从源语句存储单元121获得源语句信息,该源语句信息具有的组成单词索引包括对输入语句进行语形学分析获得的每个单词。源语句获得单元102计算源语句信息和输入语句之间的相似度,使得所获得的源语句信息和输入语句之间的编辑距离较小时,相似度较高。
源语句获得单元102比较相似度和预定阈值,获得相似度高于阈值的源语句信息(步骤S403)。源语句获得单元102可以用于在相似度高于阈值的源语句信息中获得预定条数的具有较高相似度的源语句信息。源语句获得单元102可以用于仅获得相似度高于阈值以及具有最高相似度的源语句信息。
双语词条信息获得单元103判断是否获得了源语句信息(步骤S404)。在获得源语句信息时(步骤S404处的“是”),双语词条信息获得单元103从源语句存储单元121获得对应于源语句信息的双语词条信息ID(步骤S405)。双语词条信息获得单元103从辞典存储单元122获得具有对应的双语词条信息ID的双语词条信息(步骤S406)。
翻译单元104判断双语词条信息获得单元103是否获得了双语词条信息(步骤S407)。在获得了双语词条信息时(步骤S407处的“是”),翻译单元104利用所获得的双语词条信息以及用户在翻译请求中指定的双语词条信息来翻译输入语句(步骤S408)。
根据该处理,对于用户未指定双语词条信息的单词,利用先前翻译类似语句时使用的双语词条信息可以获得更恰当的翻译结果。
在未获得双语词条信息时(步骤S407处的“否”),翻译单元104利用用户在翻译请求中指定的双语词条信息翻译输入语句(步骤S409)。
存储单元105分别在源语句存储单元121和辞典存储单元122中存储输入语句和双语词条信息(步骤S410)。具体而言,存储单元105为翻译请求中包括的双语词条信息分配新的双语词条信息ID,并存储在辞典存储单元122中。在步骤S402存储单元105根据源语句获得单元102获得的单词生成组成单词索引,并在源语句存储单元121中存储彼此相关联的所生成的组成单词索引、输入语句和所分配的双语词条信息ID数据。
输出单元106向发送翻译请求的客户端200输出翻译单元104获得的输入语句的翻译结果(步骤S411),并终止机器翻译处理。
未必一定要按照上述次序执行这些步骤。例如,在翻译单元104执行的处理中,可以与获得相关双语词条信息的处理(步骤S402到S407)并行地进行除了利用双语词条信息选择单词翻译的处理之外的处理。可以交换在对应存储单元中存储信息(步骤S410)的处理和向客户端200输出翻译结果的处理(步骤S411)的次序,或者可以并行执行这些处理。
下面介绍根据第一实施例的机器翻译处理的具体范例。在假定以下情况下进行介绍:用户名为User A(在下文中简称为User A)的用户通过客户端200请求翻译。User A向机器翻译服务器100发送翻译请求,该翻译请求包括要翻译的输入语句和翻译输入语句期间要采用的双语词条信息。
在此假设User A指定包括三个单词Ew1、Ew2和Ew3的输入语句“------Ew1-----Ew2-----Ew3----”以及双语词条信息“Ew2=Jw2”以确定英语单词Ew2的日语翻译为Jw2。
符号“-”表示的部分代表在相似度确定中不重要的那些部分。要采用的确定相似度的一些方法使用输入语句中所有的字符序列,而一些方法仅使用其中包括的部分单词。要使用的字符序列取决于所采用的相似度确定方法。因此,符号“-”表示的部分是什么并不重要。
机器翻译服务器100从客户端200接收包括输入语句和双语词条信息的翻译请求(步骤S401)。在执行通常为输入语句执行的机器翻译处理时,源语句获得单元102在源语句存储单元121内存储的源语句信息中检索与输入语句的相似度最高的源语句信息(步骤S403)。在这种情况下,从如图2所示存储数据的源语句存储单元121中检索出包括四个单词Ew1、Ew2、Ew3和Ew4的源语句信息“----Ew1----Ew2----Ew3----Ew4--”作为相似度最高的源语句。
双语词条信息获得单元103获得与该源语句信息相关的双语词条信息ID(步骤S405)。在图2所示的情况下,双语词条信息获得单元103获得1作为双语词条信息ID。
双语词条信息获得单元103从如图3所示的辞典存储单元122中检索双语词条信息ID=1的双语词条信息(步骤S406)。在该处理中获得了四条登记的双语词条信息:“Ew1=Jw1’”、“Ew2=Jw2’”、“Ew3=Jw3’”和“Ew4=Jw4’”。
输入语句仅包括单词Ew1、Ew2和Ew3,User A仅指定了与Ew2相关的双语词条信息。因此,对于其余单词Ew1和Ew3,翻译单元104使用上述处理中获得的双语词条信息“Ew1=Jw1’”和“Ew3=Jw3’”来翻译输入语句(步骤S408)。
如果User A未指定双语词条信息,翻译单元104利用三条双语词条信息“Ew1=Jw1’”、“Ew2=Jw2’”和“Ew3=Jw3’”来翻译输入语句。
在获得了多条源语句信息时,可以合并对应的双语词条信息。或者,可以使用对应于相似度更高的源语句信息的双语词条信息。
在翻译之后,存储单元105在源语句存储单元121中存储输入语句的信息,并在辞典存储单元122中存储用户指定的双语词条信息(步骤S410)。图5示出了当在源语句存储单元121中登记了输入语句的信息之后,图2的源语句存储单元121的状态。如图5所示,增加了包括三个单词(Ew1、Ew2和Ew3)的输入语句作为新的源语句信息。
图6示出了当在图3的辞典存储单元122中登记了该翻译中指定的双语词条信息之后图3的辞典存储单元122的状态。如图6所示,新增加了双语词条信息ID=3的双语词条信息。
当在其后请求进行另一翻译时,利用更新后的源语句信息和双语词条信息重复翻译处理、存储源语句信息的处理和存储双语词条信息的处理。亦即,客户端200每次请求翻译的时候,都升级源语句存储单元121和辞典存储单元122的信息并积累翻译知识。
在与第一实施例一样的可以由很多用户使用的机器翻译系统10中,用户请求翻译的语句或类似于其的语句可能已经根据另一用户的翻译请求被翻译过。
在这种情况下,因为根据第一实施例的机器翻译设备可以积累先前的翻译知识,所以它可以参考翻译知识以获得高质量的翻译,具体而言,可以利用翻译类似于输入语句的语句时参考的双语词条信息来翻译未给出翻译的单词。于是,和仅仅检索辞典源单词来输出翻译的情况相比,可以获得更高质量的翻译。
即使在一个文档包括多个领域的语句时,因为相似度确定是以句子为单位执行的,也能够为每个句子选择适当的翻译。因此,即使在一个文档包括与多领域相关的语句时,翻译质量也不会下降。每当用户请求翻译附属有双语词条信息的源语句时,都相应地升级双语词条信息。因此,当大量用户请求翻译时,可以实现更高质量的翻译。
根据本发明第二实施例的机器翻译设备将输入语句转换成能够与其他语句比较相似度的形式,并与先前翻译过并进行过类似转换的其他语句比较相似度,以便获得相关的双语词条信息。
如图7所示,机器翻译系统70包括通过网络300连接的机器翻译服务器700和多个客户端200a到200c。
根据第二实施例,机器翻译服务器700的配置与第一实施例中的不同。其他组件和功能与图1所示的相同,图1是根据第一实施例的机器翻译系统10的配置方框图。因此,用类似的附图标记表示这些组件并将省略其介绍。
机器翻译服务器700包括源语句存储单元721、辞典存储单元122、接收单元101、源语句获得单元702、双语词条信息获得单元103、翻译单元104、存储单元105、输出单元106和转换单元707。
第二实施例与第一实施例的不同之处在于源语句存储单元721中存储的数据结构、源语句获得单元702的功能以及增加了转换单元707。其他组件和功能与图1所示的相同,图1是根据第一实施例的机器翻译系统10的方框图。因此,用类似的附图标记表示这些组件并将省略其介绍。
源语句存储单元721与根据第一实施例的源语句存储单元121的不同之处在于源语句存储单元721存储被转换成能够与其他语句比较相似度的形式的源语句信息。根据相似度计算方法定义能够比较相似度的形式。在第二实施例中,通过将输入语句中包括的单词的频率转换成矢量将输入语句转换成矢量形式,并采用余弦相似度作为相似度。
相似度计算方法和转化方法不限于此。可以采用任何相似度计算方法和转化方法,只要转换输入语句以与其他语句比较相似度即可。例如,可以在对划分后的单词进行规范化之后计算相似度。规范化表示对含义相同而记法(notation)不同的单词进行标准化,例如将“コンピユ—タ—”和“コンピユ—タ”标准化为典型记法。可以使用参考语句的句法结构来计算句法相似度的方法,或考虑语言措辞的依存结构中的相似度来获得语言措辞相似度的方法。
如图8所示,源语句存储单元721存储相互关联的以矢量形式表达的源语句信息以及双语词条信息ID数据。为了解释,图8示出了矢量的范例,其从左边开始分别表示单词Ew1、Ew2、Ew3、Ew4和Ew5的出现频率。符号“...”表示省略了其他单词。
图8示出了将根据第一实施例示出源语句存储单元121的图2的源语句信息转换成矢量形式的情形。亦即,因为图2第一行中的源语句信息包括单词Ew1、Ew2、Ew3和Ew4,因此图8中对应的矢量为(...,1,1,1,1,0,...)。因为图2内第二行中的源语句信息包括单词Ew4和Ew5,图8中对应的矢量为(...,0,0,0,1,1,...)。
转换单元707将输入语句转换成能够与其他语句比较相似度的预定形式。具体而言,转换单元707对输入语句进行语形学分析以划分成单词。转换单元707将划分后的每个单词的频率转换成矢量,以将输入语句转换成矢量形式。
源语句获得单元702计算已由转换单元707转换形式的输入语句和源语句存储单元721中存储的源语句信息之间的余弦相似度,并获得余弦相似度高于预定阈值的源语句信息。
下面参考图9介绍根据第二实施例的机器翻译服务器700进行的机器翻译处理。
步骤S901处的翻译请求接收处理与根据第一实施例的机器翻译服务器100中的步骤S401处的处理相同,因此将省略其介绍。
转换单元707将输入语句转换成能够比较相似度的形式,即矢量形式(步骤S902)。源语句获得单元702计算输入语句和源语句存储单元721中存储的源语句信息之间的余弦相似度(步骤S903)。
源语句获得单元702比较计算得到的余弦相似度和预定阈值,并获得余弦相似度高于阈值的源语句信息(步骤S904)。
从步骤S905到S910的双语词条信息获得处理和翻译处理与根据第一实施例的机器翻译服务器100中的步骤S404到S409的处理相同,因此将省略其介绍。
在翻译单元104翻译输入语句之后,存储单元105分别在源语句存储单元721和辞典存储单元122中存储转换后的输入语句和双语词条信息(步骤S911)。
步骤S912处的翻译结果输出处理与根据第一实施例的机器翻译服务器100中的步骤S411处的处理相同,因此将省略其介绍。
根据第二实施例的机器翻译设备将输入语句转换成能够与其他语句比较相似度的形式,并与先前翻译过且进行过类似转换的语句比较相似度,以获得相关的双语词条信息。
在上述实施例中,在获得了多条源语句信息时,使用所有的双语词条信息,或者使用对应于相似度较高的源语句信息的双语词条信息。可以使相关信息与源语句信息或双语词条信息相关联,以基于相关信息获得双语词条信息的优先级并使用具有较高优先级的双语词条信息。
如图10所示,根据该修改的范例,除了用户名、双语词条信息以及双语词条信息ID之外,辞典存储单元122还存储在辞典存储单元122中登记双语词条信息的日期和时间以及应用双语词条信息的领域的数据,它们作为相关信息而关联。
双语词条信息获得单元103用于在获得多条双语词条信息时优先获得例如登记日期和时间更近的双语词条信息。通过在翻译请求中包括领域指定,双语词条信息获得单元103可以用于优先获得与所指定领域相关的双语词条信息。
可以根据用户的权限确定双语词条信息的优先权。例如,对应于用户名的用户的权限是使用用户管理数据库(未示出)等获得的。当用户具有管理员权限时,用户可以优先于具有其他权限的用户选择双语词条信息。通过确定辞典存储单元122中的用户名,可以优先于其他用户的双语词条信息使用该用户自己先前请求翻译时使用的双语词条信息。当以包括多个用户的组为单位管理用户时,可以优先于其他组中用户的双语词条信息使用该用户所属组先前请求翻译时使用的双语词条信息。在这种情况下,登记标识组的组名(或者还有辞典存储单元122中的用户名)而不是辞典存储单元122中的用户名。
参考图11解释根据第一和第二实施例的机器翻译设备的硬件配置。
根据第一或第二实施例的机器翻译设备包括诸如中央处理单元(CPU)51之类的控制器、诸如只读存储器(ROM)52和RAM53之类的存储装置、连接到网络以建立通信的通信接口(I/F)54、诸如HDD和光盘(CD)驱动器之类的外存储装置、诸如显示单元之类的显示装置、诸如键盘和鼠标之类的输入装置以及连接这些组件的总线61。该机器翻译设备具有利用通用计算机的硬件配置。
提供了一种由根据第一或第二实施例的机器翻译设备执行的机器翻译程序,其以可安装或可执行格式文档的形式记录在计算机可读存储介质上中,计算机可读存储介质例如为光盘只读存储器(CD-ROM)、软盘(FD)、可记录光盘(CD-R)和数字多用盘(DVD)。
可以将根据第一或第二实施例的由机器翻译设备执行的机器翻译程序存储在与诸如因特网之类的网络相连接的计算机中,并通过网络下载。可以通过诸如因特网之类的网络提供或分发根据第一或第二实施例的由机器翻译设备执行的机器翻译程序。
可以提前在ROM等中安装根据第一或第二实施例的机器翻译程序。
根据第一或第二实施例的由机器翻译设备执行的机器翻译程序具有模块配置,该配置包括如上所述的组件(接收单元、源语句获得单元、双语词条信息获得单元、翻译单元、存储单元和输出单元)。作为实际硬件,CPU51(处理器)从存储介质读取机器翻译程序并加以执行,从而在主存储器中加载上述组件并在主存储器上产生上述组件。

Claims (12)

1、一种机器翻译设备,其包括:
辞典存储单元,其用于存储双语词条信息和标识信息,在所述双语词条信息中使第一语言形式的第一单词和第二语言形式的第二单词彼此相关联,所述标识信息标识所述双语词条信息;
源语句存储单元,其用于存储彼此相关联的所述第一语言形式的源语句和用于翻译所述源语句的所述双语词条信息的标识信息;
接收单元,其用于接收包括所述第一语言形式的输入语句的翻译请求;
源语句获得单元,其用于计算所述输入语句和所述源语句之间的相似度,并从所述源语句存储单元获得所述相似度高于预定阈值的所述源语句;
双语词条信息获得单元,其用于从所述辞典存储单元获得所述标识信息对应于由所述源语句获得单元获得的所述源语句的所述双语词条信息;以及
翻译单元,其用于判断由所述双语词条信息获得单元获得的所述双语词条信息中的所述第一单词是否包括在所述输入语句中,并且在所述第一单词包括在所述输入语句中时,将在所述输入语句中包括的所述第一单词翻译成所述双语词条信息中的所述第二单词。
2、根据权利要求1所述的设备,其中
所述接收单元接收所述翻译请求,所述翻译请求包括所述输入语句和在翻译所述输入语句期间要使用的输入双语词条信息,以及
所述翻译单元还判断所获得的双语词条信息中的所述第一单词与所述输入双语词条信息中的所述第一单词是否相同,并且在所获得的双语词条信息中的所述第一单词与所述输入双语词条信息中的所述第一单词相同且所述相同的第一单词包括在所述输入语句中时,将所述输入语句中包括的所述第一单词翻译成所述输入双语词条信息中的所述第二单词。
3、根据权利要求1所述的设备,其中,所述源语句获得单元计算所述输入语句和所述源语句之间的编辑距离,并为编辑距离较小的所述源语句分配比编辑距离较大的所述源语句更高的相似度。
4、根据权利要求1所述的设备,其中
所述源语句存储单元存储包括所述源语句中的单词的索引、所述源语句和所述标识信息,其中包括所述源语句中的单词的索引、所述源语句和所述标识信息彼此相关联,以及
所述源语句获得单元从所述源语句存储单元获得与包括所述输入语句中的单词的所述索引相关联的所述源语句,并计算所获得的源语句和所述输入语句之间的所述相似度。
5、根据权利要求1所述的设备,其中,所述源语句获得单元从所述源语句存储单元在所述相似度高于所述阈值的所述源语句中获得预定数量的按所述相似度以降序排序的所述源语句。
6、根据权利要求1所述的设备,还包括:
转换单元,其用于将所述输入语句转换成能够与其他语句比较相似度的预定形式,其中
所述源语句存储单元存储彼此相关联的所述标识信息和被转换成所述预定形式的所述源语句,以及
所述源语句获得单元计算所述转换的输入语句和所述源语句之间的所述相似度,并从所述源语句存储单元获得所述相似度高于所述阈值的所述源语句。
7、根据权利要求6所述的设备,其中
所述预定形式为矢量形式,所述矢量形式是通过将对所述输入语句进行语形学分析获得的语素转换成矢量而获得的,以及
所述源语句获得单元将所述矢量形式的输入语句和所述矢量形式的源语句之间的所述相似度作为余弦相似度加以计算,并从所述源语句存储单元获得所述余弦相似度高于所述阈值的所述源语句。
8、根据权利要求1所述的设备,其中
所述辞典存储单元存储彼此相关联的所述双语词条信息、所述标识信息和存储所述双语词条信息的日期和时间,以及
所述双语词条信息获得单元从所述辞典存储单元在所述标识信息对应于所获得的源语句的所述双语词条信息中,优先于获得相关日期和时间较早的所述双语词条信息,而获得相关日期和时间较近的所述双语词条信息。
9、根据权利要求1所述的设备,其中
所述辞典存储单元存储彼此相关联的所述双语词条信息、所述标识信息和应用所述双语词条信息的领域,
所述接收单元接收还包括所述领域的所述翻译请求,以及
所述双语词条信息获得单元从所述辞典存储单元在所述标识信息对应于所获得的源语句的所述双语词条信息中,优先于获得相关领域与所述翻译请求中包括的领域不匹配的所述双语词条信息,而获得相关领域与所述翻译请求中包括的领域匹配的所述双语词条信息。
10、根据权利要求1所述的设备,其中
所述接收单元接收所述翻译请求,所述翻译请求包括所述输入语句和输入双语词条信息,所述输入双语词条信息用于翻译所述输入语句的所述双语词条信息,以及
所述设备还包括存储单元,其用于在所述辞典存储单元中存储所输入的双语词条信息,并存储彼此相关联的所存储的输入双语词条信息的标识信息和所述输入语句。
11、一种机器翻译方法,其包括:
接收包括第一语言形式的输入语句的翻译请求;
计算所述输入语句和所述第一语言形式的源语句之间的相似度;
从源语句存储单元获得所述相似度高于预定阈值的所述源语句,并使所述第一语言形式的第一单词与第二语言形式的第二单词彼此相关联,其中所述源语句存储单元存储所述源语句和用于翻译所述源语句的双语词条信息的标识信息;
从用于存储所述双语词条信息和所述标识信息的辞典存储单元获得所述标识信息对应于所获得的源语句的所述双语词条信息;
判断所获得的双语词条信息中的所述第一单词是否包括在所述输入语句中;以及
当所述第一单词包括在所述输入语句中时,将在所述输入语句中包括的所述第一单词翻译成所述双语词条信息中的所述第二单词。
12、一种机器翻译系统,其包括:
终端设备,其用于请求进行翻译;以及
机器翻译设备,其用于经由网络连接到所述终端设备,其中
所述终端设备包括:
请求发送单元,其用于发送包括第一语言形式的输入语句的翻译请求;以及
结果接收单元,其用于接收翻译结果,以及
所述机器翻译设备包括:
辞典存储单元,其用于存储双语词条信息和标识信息,在所述双语词条信息中使所述第一语言形式的第一单词和第二语言形式的第二单词彼此相关联,所述标识信息标识所述双语词条信息;
源语句存储单元,其用于存储彼此相关联的所述第一语言形式的源语句和用于翻译所述源语句的所述双语词条信息的标识信息;
接收单元,其用于接收所述翻译请求,所述翻译请求包括所述第一语言形式的输入语句;
源语句获得单元,其用于计算所述输入语句和所述源语句之间的相似度,并从所述源语句存储单元获得所述相似度高于预定阈值的所述源语句;
双语词条信息获得单元,其用于从所述辞典存储单元获得所述标识信息对应于由所述源语句获得单元获得的所述源语句的所述双语词条信息;
翻译单元,其用于判断由所述双语词条信息获得单元获得的所述双语词条信息中的所述第一单词是否包括在所述输入语句中,并且在所述第一单词包括在所述输入语句中时,将在所述输入语句中包括的所述第一单词翻译成所述双语词条信息中的所述第二单词;以及
输出单元,其用于向所述终端设备输出由所述翻译单元翻译的所述翻译结果。
CNA200810149207XA 2007-09-20 2008-09-17 机器翻译设备、方法和系统 Pending CN101393547A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2007243195A JP2009075791A (ja) 2007-09-20 2007-09-20 機械翻訳を行う装置、方法、プログラムおよびシステム
JP243195/2007 2007-09-20

Publications (1)

Publication Number Publication Date
CN101393547A true CN101393547A (zh) 2009-03-25

Family

ID=40472643

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA200810149207XA Pending CN101393547A (zh) 2007-09-20 2008-09-17 机器翻译设备、方法和系统

Country Status (3)

Country Link
US (1) US20090083024A1 (zh)
JP (1) JP2009075791A (zh)
CN (1) CN101393547A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933038A (zh) * 2014-03-20 2015-09-23 株式会社东芝 机器翻译方法和机器翻译装置
CN105573989A (zh) * 2014-11-04 2016-05-11 富士通株式会社 翻译装置及翻译方法
CN106776590A (zh) * 2016-12-22 2017-05-31 北京金山办公软件股份有限公司 一种获取词条译文的方法及系统
CN107329961A (zh) * 2017-07-03 2017-11-07 西安市邦尼翻译有限公司 一种云翻译记忆库快速增量式模糊匹配的方法
CN107632982A (zh) * 2017-09-12 2018-01-26 郑州科技学院 语音控制外语翻译设备用的方法和装置
CN108572953A (zh) * 2017-03-07 2018-09-25 上海颐为网络科技有限公司 一种词条结构的合并方法
CN110147881A (zh) * 2018-03-13 2019-08-20 腾讯科技(深圳)有限公司 语言处理方法、装置、设备及存储介质
CN110472256A (zh) * 2019-08-20 2019-11-19 南京题麦壳斯信息科技有限公司 一种基于篇章的机器翻译引擎测评优选方法及系统

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8566078B2 (en) * 2010-01-29 2013-10-22 International Business Machines Corporation Game based method for translation data acquisition and evaluation
US20120330643A1 (en) * 2010-06-04 2012-12-27 John Frei System and method for translation
US8983850B2 (en) 2011-07-21 2015-03-17 Ortsbo Inc. Translation system and method for multiple instant message networks
US9070090B2 (en) * 2012-08-28 2015-06-30 Oracle International Corporation Scalable string matching as a component for unsupervised learning in semantic meta-model development
JP6320982B2 (ja) 2014-11-26 2018-05-09 ネイバー コーポレーションNAVER Corporation 翻訳文エディタ提供装置、並びに翻訳文エディタ提供方法
US10482128B2 (en) 2017-05-15 2019-11-19 Oracle International Corporation Scalable approach to information-theoretic string similarity using a guaranteed rank threshold
JP7322428B2 (ja) * 2019-02-28 2023-08-08 富士フイルムビジネスイノベーション株式会社 学習装置及び学習プログラム並びに文生成装置及び文生成プログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933038A (zh) * 2014-03-20 2015-09-23 株式会社东芝 机器翻译方法和机器翻译装置
CN105573989A (zh) * 2014-11-04 2016-05-11 富士通株式会社 翻译装置及翻译方法
CN106776590A (zh) * 2016-12-22 2017-05-31 北京金山办公软件股份有限公司 一种获取词条译文的方法及系统
CN108572953A (zh) * 2017-03-07 2018-09-25 上海颐为网络科技有限公司 一种词条结构的合并方法
CN107329961A (zh) * 2017-07-03 2017-11-07 西安市邦尼翻译有限公司 一种云翻译记忆库快速增量式模糊匹配的方法
CN107632982A (zh) * 2017-09-12 2018-01-26 郑州科技学院 语音控制外语翻译设备用的方法和装置
CN110147881A (zh) * 2018-03-13 2019-08-20 腾讯科技(深圳)有限公司 语言处理方法、装置、设备及存储介质
CN110147881B (zh) * 2018-03-13 2022-11-22 腾讯科技(深圳)有限公司 语言处理方法、装置、设备及存储介质
CN110472256A (zh) * 2019-08-20 2019-11-19 南京题麦壳斯信息科技有限公司 一种基于篇章的机器翻译引擎测评优选方法及系统

Also Published As

Publication number Publication date
US20090083024A1 (en) 2009-03-26
JP2009075791A (ja) 2009-04-09

Similar Documents

Publication Publication Date Title
CN101393547A (zh) 机器翻译设备、方法和系统
CN101416179B (zh) 用来向每个用户提供调整推荐字的系统和方法
US8171029B2 (en) Automatic generation of ontologies using word affinities
CN100527125C (zh) 一种统计机器翻译中的在线翻译模型选择方法和系统
KR100721406B1 (ko) 카테고리별 검색 로직을 이용한 상품 검색 시스템 및 방법
US20200265074A1 (en) Searching multilingual documents based on document structure extraction
US20120323554A1 (en) Systems and methods for tuning parameters in statistical machine translation
JPH10198680A (ja) 分散辞書管理方法及びそれを用いた機械翻訳方法
EP1128277A2 (en) Data processing method and system, program for realizing the method, and computer readable storage medium storing the program
CN100454305C (zh) 文档管理方法和装置以及文档搜索方法和装置
CN102138142A (zh) 对部分用户输入的词典建议
CN100454294C (zh) 用于将日文翻译成中文的设备
JP2021192283A (ja) 情報照会方法、装置及び電子機器
Wang et al. Template-guided clarifying question generation for web search clarification
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
Michel Bioschemas & Schema. org: a lightweight semantic layer for life sciences websites
CN101520778A (zh) 用于确定中文词性的设备和方法
US7593844B1 (en) Document translation systems and methods employing translation memories
WO2021239631A1 (en) Neural machine translation method, neural machine translation system, learning method, learning system, and programm
US8918383B2 (en) Vector space lightweight directory access protocol data search
Wang Chinese to English automatic patent machine translation at SIPO
Chevallet X-IOTA: An Open XML Framework for IR Experimentation: Application on Multiple Weighting Scheme Tests in a Bilingual Corpus
EP3103029A1 (en) A query expansion system and method using language and language variants
KR102564470B1 (ko) 딥러닝 모델 기반 미등록어의 의미 분석을 통한 유의어 추출 시스템 및 그 방법
Matthews et al. Internationalising data access through LIMBER

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20090325