CN102591898B - 双语信息检索设备、翻译设备及双语信息检索方法 - Google Patents

双语信息检索设备、翻译设备及双语信息检索方法 Download PDF

Info

Publication number
CN102591898B
CN102591898B CN201110353121.0A CN201110353121A CN102591898B CN 102591898 B CN102591898 B CN 102591898B CN 201110353121 A CN201110353121 A CN 201110353121A CN 102591898 B CN102591898 B CN 102591898B
Authority
CN
China
Prior art keywords
information
language
tectonic
tectonic information
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110353121.0A
Other languages
English (en)
Other versions
CN102591898A (zh
Inventor
刘绍明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of CN102591898A publication Critical patent/CN102591898A/zh
Application granted granted Critical
Publication of CN102591898B publication Critical patent/CN102591898B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

双语信息检索设备、翻译设备及双语信息检索方法。双语信息检索设备包括输入文本获取单元、第一存储器、第一语言构造信息选择单元、第二存储器和第二语言构造信息选择单元。输入文本获取单元获得第一语言输入文本。第一存储器存储指示第一语言文本构造的多个第一语言构造信息。第一语言构造信息选择单元从存储的多个第一语言构造信息中选择一个与输入文本对应的第一语言构造信息。第二存储器存储指示与选择的第一语言构造信息对应的第二语言文本构造的多个第二语言构造信息。第二语言构造信息选择单元基于与多个第一语言构造信息和多个第二语言构造信息相关的评价信息,从存储在第二存储器的多个第二语言构造信息中选择一个第二语言构造信息。

Description

双语信息检索设备、翻译设备及双语信息检索方法
技术领域
本发明涉及一种双语信息检索设备、翻译设备及双语信息检索方法。
背景技术
日本未审查专利申请公开第2010-152420号公开了一种将输入文本从某一种语言翻译为另一种语言的翻译设备,其中在翻译前选择与输入文本相对应的双语信息。双语信息包括双语示例模板(pattern),该双语示例模板包括指示源语言文本的可变项和固定项的源语言构造信息,和指示由源文本翻译成的目标语言文本的可变项和固定项的目标语言构造信息。
Satoshi SATO和Makoto NAGAO,“Jitsurei Ni MotoduitaHonyaku(基于存储器的翻译)”,日本信息处理学会,特别兴趣小组技术报告,1989年1月20日,第89卷,第6期,pp.70.9.1-70.9.8,公开了一种用于选择与输入文本相似的双语示例并使用所选择的双语示例进行翻译的翻译方法。
发明内容
从而,本发明的目的是提供一种能够选择反映输入文本特征的目标语言构造信息的双语信息检索设备,而不是不使用与源语言构造信息和目标语言构造信息相关联的评价信息的机构,并提供了使用该技术的翻译设备和一种双语信息检索方法。
按照本发明的第一方面,提供了一种包括输入文本获取单元、第一存储器、第一语言构造信息选择单元、第二存储器和第二语言构造信息选择单元的双语信息检索设备。输入文本获取单元获得第一语言输入文本。第一存储器存储指示第一语言文本的构造的多个第一语言构造信息。多个第一语言构造信息中的每一个均包括指示文本中固定字符串的固定项和指示文本中可变字符串的可变项。第一语言构造信息选择单元从存储的多个第一语言构造信息中选择一个与输入文本相应的第一语言构造信息。第二存储器存储指示与所选择的第一语言构造信息相应的第二语言文本的构造的多个第二语言构造信息。多个第二语言构造信息中的每一个包括指示文本中固定字符串的固定项和指示文本中可变字符串的可变项。第二语言构造信息选择单元基于与所述多个第一语言构造信息和所述多个第二语言构造信息相关的评价信息,从存储在第二存储器中的所述多个第二语言构造信息中选择一个第二语言构造信息。
按照本发明的第二方面,在按照本发明第一方面的双语信息检索设备中,评价信息包括指示多个第一语言构造信息的每一个与对应于该第一语言构造信息的一个第二语言构造信息之间的对应的语言间对应关系信息。另外,第二语言构造信息选择单元基于使用所选择的第一语言构造信息和语言间对应关系信息产生的翻译文本的产生概率,从多个第二语言构造信息中选择一个第二语言构造信息。
按照本发明的第三方面,在按照本发明第一或第二方面的双语信息检索设备中,评价信息包括把包含在多个第一语言构造信息中的可变项的属性与多个第二语言构造信息关联起来的信息。另外,第二语言构造信息选择单元基于与所选择的第一语言构造信息的可变项相对应的输入文本中字符串的属性,并基于把包含在多个第一语言构造信息中的可变项的属性与多个第二语言构造信息关联起来的信息,从多个第二语言构造信息中选择一个第二语言构造信息。
按照本发明的第四方面,按照本发明第三方面的双语信息检索设备进一步包括形态分析单元,其将形态分析应用到输入文本以获得多个单词和关于这些单词的词性信息。评价信息包括把包含在多个第一语言构造信息中的可变项的词性与多个第二语言构造信息关联起来的信息。另外,第二语言构造信息选择单元基于把输入文本中单词的词性信息与包含在所选择的第一语言构造信息中的可变项的词性关联起来的信息,从多个第二语言构造信息中选择一个第二语言构造信息。
按照本发明的第五方面,在按照本发明第三或第四方面的双语信息检索设备中,评价信息包括把包含在多个第一语言构造信息中的可变项的词汇(lexicon)与多个第二语言构造信息关联起来的信息。另外,第二语言构造信息选择单元基于与所选择的第一语言构造信息中的可变项相应的输入文本中的字符串,并基于把词汇与多个第二语言构造信息关联起来的信息,从多个第二语言构造信息中选择一个第二语言构造信息。
按照本发明的第六方面,在按照本发明第三到第五任一方面的双语信息检索设备中,评价信息包括把包含在多个第一语言构造信息中的可变项的用法示例信息与多个第二语言构造信息关联起来的信息。另外,第二语言构造信息选择单元基于与所选择的第一语言构造信息中的可变项相应的输入文本中的字符串,并基于把用法示例信息与多个第二语言构造信息关联起来的信息,从多个第二语言构造信息中选择一个第二语言构造信息。
按照本发明的第七方面,在按照本发明第一到第六任一方面的双语信息检索设备中,评价信息包括多个双语示例,其每一个包括与任一第一语言构造信息匹配的第一语言示例和与任一第二语言构造信息匹配的第二语言示例。另外,第二语言构造信息选择单元基于双语示例的数目从多个第二语言构造信息中选择一个第二语言构造信息,该双语示例包括与所选择的第一语言构造信息匹配的第一语言示例和与相应于所选择的第一语言构造信息的第二语言构造信息匹配的第二语言示例。
按照本发明的第八方面,提供了一种包括输入文本获取单元、第一语言构造信息选择单元、第二语言构造信息选择单元和翻译文本输出单元的翻译设备。输入文本获取单元获得以第一语言输入的输入文本。第一语言构造信息选择单元从指示第一语言文本的构造的多个第一语言构造信息中选择一个与输入文本相应的第一语言构造信息。多个第一语言构造信息中的每一个包括指示文本中固定字符串的固定项和指示文本中可变字符串的可变项。第二语言构造信息选择单元基于与所述多个第一语言构造信息中的任一个和指示与所选择的第一语言构造信息相应的第二语言文本的构造的多个第二语言构造信息中的任一个相关联的评价信息,从所述多个第二语言构造信息中选择一个第二语言构造信息。多个第二语言构造信息中的每一个包括指示文本中固定字符串的固定项和指示文本中可变字符串的可变项。翻译文本输出单元基于所选择的第二语言构造信息和与所选择的第二语言构造信息相应的所选择的第一语言构造信息,输出输入文本的翻译文本。
按照本发明的第九方面,提供了一种双语信息检索方法,包括:获得第一语言的输入文本;将指示第一语言文本的构造的多个第一语言构造信息存储到第一存储器中,其中所述多个第一语言构造信息中的每一个均包括指示文本中固定字符串的固定项和指示文本中可变字符串的可变项;从所存储的多个第一语言构造信息中选择与输入文本相应的一个第一语言构造信息;将指示与所选择的第一语言构造信息相应的第二语言文本的构造的多个第二语言构造信息存储到第二存储器中,其中所述多个第二语言构造信息中的每一个均包括指示文本中固定字符串的固定项和指示文本中可变字符串的可变项;以及基于与多个第一语言构造信息和多个第二语言构造信息相关联的评价信息,从存储在第二存储器中的多个第二语言构造信息中选择一个第二语言构造信息。
按照本发明的第一和第九方面,可以选择比使用不使用与源语言构造信息和目标语言构造信息相关联的评价信息的机构所得到的目标语言构造信息更能反映输入文本特征的目标语言构造信息。
按照本发明的第二方面,可以选择比使用不使用上述配置的机构所得到的目标语言构造信息更匹配输入文本的目标语言构造信息。
按照本发明的第三方面,当目标语言构造信息依赖于输入文本中字符串的属性而不同时,可以选择与输入文本匹配的目标语言构造信息。
按照本发明的第四方面,当目标语言构造信息依赖于输入文本中短语的词性而不同时,可以选择与输入文本匹配的目标语言构造信息。
按照本发明的第五方面,当翻译方法依赖于输入文本中短语的词汇列表而不同时,可以选择与输入文本匹配的源语言构造信息。
按照本发明的第六方面,当翻译方法依赖于与源语言构造信息中的可变项相应的输入文本中的短语而不同时,可以选择与输入文本匹配的目标语言构造信息。
按照本发明的第七方面,当与源语言构造信息和目标语言构造信息的组合相匹配的双语示例的数目依赖于该组合而不同时,可以选择与输入文本匹配的目标语言构造信息。
按照本发明的第八方面,可以执行比不使用与源语言构造信息和目标语言构造信息相关联的评价信息的机构所执行的翻译更能反映输入文本特征的翻译。
附图说明
将基于下面的附图详细描述本发明的示例性实施例,其中:
图1示出了根据本发明示例性实施例的翻译设备的示例配置;
图2是示出了根据本发明示例性实施例的翻译设备所实现的功能功能框图;
图3示出使用双语示例模板翻译源语言输入文本的例子;
图4示出了一种示例模板的数据结构;
图5示出了示例性双语示例模板;
图6示出了源语言构造信息选择单元的示例性处理流程;
图7示出了距离计算单元的示例性处理流程;
图8示出了距离计算单元的示例性计算过程;
图9A示出了映射抽取单元的示例性处理流程;
图9B示出了映射抽取单元的示例性处理流程;
图9C示出了映射抽取单元的示例性处理流程;
图10示出了当存在用于所选择的源语言构造信息的多个双语示例模板时的示例性双语示例模板;
图11示出了目标语言构造信息选择单元的示例性处理流程;
图12A示出了使用第一评价准则计算评价值的处理流程;
图12B示出了使用第二评价准则计算评价值的处理流程;
图12C示出了使用第三评价准则计算评价值的处理流程;
图12D示出了使用第四评价准则计算评价值的处理流程;
图12E示出了使用第五评价准则计算评价值的处理流程;
图13示出了示例性词汇;
图14示出了示例性双语示例;
图15示出了如何从图10所示的候选中选择目标语言示例模板的例子;以及
图16示出了使用基于第四评价准则的计算来产生译文的例子。
具体实施方式
下面将根据附图详细描述本发明的示例性实施例。图1示出根据本发明示例性实施例的翻译设备1的示例配置。如图1所示,翻译设备1包括中央处理单元(CPU)11、存储单元12、通信单元13、和输入/输出单元14。翻译设备1可以为例如个人电脑、服务器或类似设备。
CPU 11按照存储在存储单元12中的程序进行操作。该程序可以通过存储在信息记录介质(例如压缩光盘只读存储器(CD-ROM)或数字通用光盘只读存储器(DVD-ROM))中来提供,或者可以通过网络(例如因特网)来提供。
存储单元12可以为存储元件,例如随机存取存储器(RAM)或ROM、硬盘驱动器、或类似装置。存储单元12存储上述程序。存储单元12还存储由各个单元输入的信息和计算结果。
通信单元13可以为连接到另一装置以建立通信的通信介质或类似物。通信单元13在CPU 11的控制下,将从另一装置接收的信息输入到CPU 11或存储单元12,并将信息发送到另一装置。
输入/输出单元14可以为控制显示输出单元(例如监视器)、输入单元(例如键盘或鼠标)、或类似装置的一个单元。输入/输出单元14在CPU 11的控制下将图像数据或其他任何适合数据输出到监视器或类似物,并通过键盘或鼠标从操作者获取信息。
图2是示出了根据本发明示例性实施例的翻译设备1所实现的功能的功能框图。翻译设备1从功能上包括输入文本获取单元51、形态分析单元52、源语言构造信息候选检索单元53、源语言构造信息选择单元54、目标语言构造信息选择单元55、翻译文本输出单元56、和词典单元57。源语言构造信息选择单元54从功能上包括距离计算单元61、映射抽取单元62、和最佳映射选择单元63。上述功能可以通过CPU 11执行存储在存储单元12中的程序、并控制通信单元13和输入/输出单元14来实现。
这里,根据本示例性实施例的翻译设备1可以使用双语信息来进行翻译。双语信息包括双语示例模板,该双语示例模板包括指示源语言中文本模板的源语言示例模板和指示由源语言文本翻译出的目标语言文本的模板的目标语言示例模板。图3示出使用双语示例模板翻译源语言输入文本的例子。在双语示例模板中,“[v]”代表可变项,指示相应的一个或多个单词是可变的。在图3所示的例子中,当输入“彼は電車に乗る。(他坐电车)”作为输入文本时,可以获得如图3所示的翻译文本。在翻译过程中,翻译设备1检索包含与输入文本匹配的源语言示例模板“[v]は[v]に乗る。([v]坐[v])”的最佳双语示例模板,将输入文本中对应于源语言示例模板中[v]的单词的翻译项应用到双语示例模板中目标语言示例模板“[v]坐[v]”中的[v]部分,从而得到翻译文本。上述翻译技术被称作基于模板的翻译。由于源语言示例模板和目标语言示例模板都代表组合使用可变字符串和固定字符串的文本,因此在下文中两种语言的示例模板统称为“示例模板”。
在翻译设备1中,输入文本获取单元51、形态分析单元52、源语言构造信息候选检索单元53、源语言构造信息选择单元54、目标语言构造信息选择单元55执行上述的过程来检索双语示例模板。包含上述组件的机构可以被用作双语信息检索设备。
图4示出了一种示例模板的数据结构。示例模板可以是指示某一种语言文本构造的信息。示例模板包括多个项,每个项对应于构成文本的字符串中的一个或多个字符串,且所述项可以分为固定项和可变项。每个固定项表示作为文本中的相应字符串的唯一确定的固定字符串,以及每个可变项表示作为文本中的相应字符串的包括字符数目的可变字符串。此处使用的术语“字符串”表示一个单词或具有多个单词的一个短语。一种示例模板包括一个或多个固定项和一个或多个可变项。在图4中,固定项和可变项从文本开头的位置开始按顺序排列。
每个可变项包括位置信息、类型信息、变量信息、词汇信息和用法示例信息。每个固定项包括位置信息、类型信息、固定内容、词性信息和子结构信息。位置信息在固定项和可变项中都包含,可以表示相应项在文本中出现的位置,其中位置用顺序编号表示。类型信息可以为指示相应项是可变项还是固定项的信息,且可以针对固定项设为“f”,针对可变项设为“v”。变量信息可以为指示可变项词性的信息。例如,“NP”表示名词变量,“AP”表示形容词变量,“DP”表示副词变量。词汇信息可以为指示可变项中包含的单词的词汇的信息。用法示例信息可以为指示示例模板中的可变项中包含的单词的用法示例的信息。固定内容可以为指示固定项中字符串的信息。词性信息可以为指示设置为固定项的单词的词性的信息。例如,具有词性信息“61”的固定项表示日语小品词。子结构信息指示关于组成固定项的多个单词中每一个的信息。
这里,指示可变项存在的信息和关于固定项的固定内容的信息(其可以是示例模板中的特征),被称作“语言构造信息”。具体地,语言构造信息可以对应于可变项中的位置信息和类型信息,以及固定项中的位置信息、类型信息和固定内容。在下面的描述中,包含在源语言示例模板中的语言构造信息在下文中被称为“源语言构造信息”,包含在目标语言模板中的语言构造信息在下文中被称为“目标语言构造信息”。
图5示出了双语示例模板的例子。双语示例模板包括源语言示例模板、目标语言示例模板和对准信息。在图5所示的示例模板中,固定项和可变项之间的分隔符是空格,包含在固定项和可变项中的多个信息间的分隔符是正斜杠(/)。此外,在图5中,位置信息使用固定项和可变项排列的顺序来表示,而不是使用单个可变项或固定项中的任何符号。例如,“v/NP/人/”是源语言示例模板中的第一项,指示该项是一个可变项,其具有表示其词性是名词的变量、词汇“人”(人),此处没有设置用法示例。源语言示例模板中的第五项,“f/改選する/89/attribute change[改選/17/する/47/]”指示该项是固定项,具有字符串“改選する”,该字符串是具有被称作sa-gyohenkaku katsuyo的不规则连接或sa-row不规则连接的动词(89),该不规则连接是日语动词连接的一种。字符串“改選する”由子结构“改選(kaisen(改选))”和“する(suru(做))”构成,其中属性发生变化。
对准信息可以是语言间对应信息,包括源语言可变项和目标语言可变项间的对应以及源语言固定项和目标语言固定项间的对应。在图5中,“3:”指示存在3个关联,“1-1;”指示源语言示例模板中的第一项与目标语言示例模板中的第一项相关联,“501,502-2;”指示源语言示例模板中第五项的第一和第二个子项与目标语言示例模板中的第二项相关联。此处,“501”指示源语言示例模板中第五项的第一个子项。
词典单元57可以由CPU 11和存储单元12实现。词典单元57可以存储多个双语示例模板、一个单词词典、一个双语示例词典以及任何其他合适信息。
上面所述的使用双语示例模板翻译的过程将在下文中进行更详细的说明。输入文本获取单元51可以由CPU 11、存储单元12、通信单元13和输入/输出单元14来实现。输入文本获取单元51从通过输入/输出单元14获得的关于键盘操作的信息、从存储单元12获得的信息、或从通过网络连接的客户端装置接收的信息中获得关于输入文本(其是使用源语言输入的文本)的信息。
形态分析单元52可以由CPU 11和存储单元12来实现。形态分析单元52将形态分析应用到输入文本,以获得组成输入文本的多个单词和关于每个单词的词性信息。例如,作为“彼は電車に乗る(他坐电车)”的形态分析的结果,形态分析单元52可以获得五个单词,“彼(他)”、“は”、“電車(电车)”、“に”和“乗る(坐)”,还获得关于各个单词的词性信息,也就是,名词、日语小品词、名词、日语小品词和动词。
源语言构造信息候选检索单元53可以由CPU 11和存储单元12来实现。源语言构造信息候选检索单元53从存储在词典单元57中的多个双语示例模板中检索源语言构造信息候选。源语言构造信息选择单元54从候选中选择源语言构造信息。一旦检索到源语言构造信息的候选,就可以指定包含源语言构造信息的源语言示例模板和包含源语言示例模板的双语示例模板。
更具体地,在上面描述的检索过程中,源语言构造信息候选检索单元53检索输入文本和源语言构造信息中固定项之间的相似度Sim和覆盖率Cov大于各自阈值的源语言构造信息候选。源语言构造信息候选检索单元53确定输入文本中字符串中的双字母组(bigrams)(S)和源语言构造信息中字符串中的双字母组(A),根据双字母组(S)和双字母组(A)计算出相似度Sim和覆盖率Cov。相似度Sim和覆盖率Cov可以由下面的公式来确定:
Sim=(2×|S∩A|)/(|S|+|A|),和
Cov=|S∩A|/|S|,
其中,|S|表示包含在输入文本中的双字母组的数量,|A|表示源语言构造信息中双字母组的数量,|S∩A|表示输入文本和源语言构造信息共有的双字母组的数量。
源语言构造信息选择单元54可以由CPU 11和存储单元12来实现。源语言构造信息选择单元54从指示源语言文本构造的多个源语言构造信息中选择相应于输入文本的一个源语言构造信息。多个源语言构造信息中的每一个均包括指示文本中固定字符串的固定项和指示文本中可变字符串的可变项。更具体地,源语言构造信息选择单元54从源语言构造信息候选检索单元53所检索到的多个源语言构造信息候选中选择最接近输入文本的一个源语言构造信息,并进一步获得指示输入文本中包含的字符串和源语言构造信息中的可变项和固定项之间的对应的映射信息。当选择了一个源语言构造信息时,实质上也就选择了包含所选择的源语言构造信息的源语言示例模板和双语示例模板。如果多个源语言构造信息最接近输入文本,则源语言构造信息选择单元54可以选择多个源语言构造信息。
图6示出了源语言构造信息选择单元54的示例性处理流程。首先,源语言构造信息选择单元54中的距离计算单元61确定每个源语言构造信息候选和输入文本之间的距离(步骤S101)。该过程由源语言构造信息选择单元54中的距离计算单元61执行。步骤S101的处理将在下文中参照距离计算单元61的处理流程进行说明。
距离计算单元61可以由CPU 11和存储单元12来实现。图7示出了距离计算单元61的示例性处理流程。在图7中,仅示出了计算输入文本和一个源语言构造信息候选之间的距离的处理流程。实际上,所示出的处理流程重复对应于源语言构造信息候选数目的多次。首先,距离计算单元61将由形态分析单元52划分的输入文本中的单词(用m表示单词的数目)按顺序存储到数据串s1到sm中(步骤S111)。然后,距离计算单元61为一个源语言构造信息候选中的可变项和固定项(用n表示其总数目)中的每一个确定信息集合,该信息集合包含指示所述项是否是可变项的信息和当所述项是固定项时关于固定内容字符串的信息,以及距离计算单元从具有位置信息的最小值的项开始,将信息集合按顺序存储到数据串a1到an中(步骤S112)。在下面的描述中,还使用s0和a0分别表示输入文本和源语言构造信息的开头,并对应于空字符串。
输入文本和源语言构造信息之间的距离可以依赖于输入文本中的各个单词和源语言构造信息中的可变项和固定项之间的对应关系。输入文本和源语言构造信息之间的距离可以通过为输入文本和源语言构造信息之间的多个可能对应关系中的每一个确定变换加权,并将所确定的变换加权中的最小变换加权设为该距离来确定。对于某一对应关系的变换加权可以通过结合(integrate)可变项和固定项的每一个与对应单词之间的加权以及单词和项不互相对应时单词和项之间加权来确定。更具体地,例如,假设ai(其中i为1到n)对应于sj(其中j为从1到m)。在此情况下,如果ai和sj表示同一单词,则编辑加权可以为0,因为不需要编辑。如果ai和sj表示不同单词,则需要进行替换,从而编辑加权可以为p。如果不存在对应于ai的sj,则需要向输入文本中增加单词,从而编辑加权可以为q。相反地,如果不存在对应于sj的ai,则需要从输入文本中删除单词,从而编辑加权可以为r。对得到的加权进行结合。这里,p,q和r是正的常数。对应关系可以满足源语言构造信息中的单词没有重排序或输入文本中的单词没有重排序这一条件和可变项对应于输入文本中的多个单词这一条件。前面的条件是,例如,如果ai和sj互相对应,则a(i+1)和s(j-1)不互相对应。后面的条件是由于可变项可以是包含多个单词的短语而产生的。根据前面的条件,如果获得了所有的d(i-1,j-1)、d(i-1,j)、d(i,j-1)以及ai和sj之间的关系,则源语言构造信息中的a1到ai和输入文本中的s1到sj之间的所有对应关系中的最小距离d(i,j)也可以确定。将对使用上述规则的计算方法进行说明。
距离计算单元61初始化存储距离值的二维(n+1)×(m+1)数组d和指示使用d(i-1,j-1)、d(i-1,j)、d(i,j-1)中哪一个来获得距离d(i,j)的n×m数组PathFlag(步骤S113)。数组d具有d(0,0)到d(n,m),d(i,j)代表字符串片段a1,a2,…,ai和s1,s2,…,sj之间的距离。i×q代入到d(i,0),j×r代入到d(0,j)。数组PathFlag具有PathFlag(1,1)到PathFlag(n,m)。接下来,用1替换变量i和j(步骤S114),启动迭代过程。距离计算单元61确定a1到ai和s1到sj之间的距离d(i,j),存储用于获得距离d(i,j)的d(i-1,j-1)、d(i-1,j)、d(i,j-1)中的任一个到PathFlag(i,j)中(步骤S 115)。d(i,j)可以通过下面的方法计算:
如果ai是可变项,
d(i,j)=min{d(i-1,j-1)+w(ai,sj),d(i-1,j)+q,d(i,j-1)}
如果ai是固定项,
d(i,j)=min{d(i-1,j-1)+w(ai,s i),d(i-1,j)+q,d(i,j-1)+r}
在上面的公式中,例如,如果ai是可变项,则w(ai,sj)为0。例如,如果ai是固定项,当ai与sj相等时w(ai,sj)为0,当ai与sj不相等时,w(ai,sj)为p。如果d(i-1,j-1)、d(i-1,j)、d(i,j-1)中多个距离是最小值,则将关于所有这些距离的信息存储到PathFlag(i,j)中。
接下来,距离计算单元61将j加1(步骤S116)。如果j小于或等于m(步骤S117中为是),则从步骤S115重复该过程。如果j不小于或等于m(步骤S117中为否),距离计算单元61将i加1(步骤S118),并判断i是否小于或等于n(步骤S119)。如果i小于或等于n(步骤S119中为是),则从步骤S115重复该过程。如果i不小于或等于n(步骤S119中为否),距离计算单元61将距离变量d(n,m)和数组PathFlag与源语言示例模板相关联的进行存储(步骤S120)。然后,过程结束。
图8示出了距离计算单元61的示例性计算过程。在图8所示的表格中,每个单元格有一个值,其表示数组d的单元(cell)中相应单元的值,箭头表示单元格沿着其从左上到右下,从左到右,从上到下进行计算以获得距离。在所示的例子中,通过示例的方式,计算输入文本“私は富士ゼロツクスの社員です(我是富士施乐的职员)”和源语言构造信息候选“[v]は[v]です([v]是[v])”的距离。在所示的例子中,p=q=r=1。由所示的表格可以看出,数组PathFlag表示计算距离时输入文本中的单词与可变项和固定项之间的关系。
使用步骤S101的处理确定出输入文本和每个源语言构造信息候选之间的距离后,源语言构造信息选择单元54从源语言构造信息候选中选择具有最小距离的源语言构造信息候选(步骤S102)。这里,可选择的源语言构造信息的数目不限制为一个。不管具有最小距离的源语言构造信息的种类数是否为1,例如,如果存在具有相同源语言构造信息的多个双语示例模板,则可以选择对应于双语示例模板数目的多个源语言构造信息。
然后,源语言构造信息选择单元54确定所选择的源语言构造信息的固定项和可变项中的每一个与输入文本中的字符串之间的对应关系(在下文中称作“映射”)(步骤S103)。步骤S103的处理由源语言构造信息选择单元54中的映射抽取单元62来执行。下文中将参照映射抽取单元62的处理流程来描述步骤S103的处理。
映射抽取单元62可以使用CPU 11和存储单元12来实现。图9A到图9C示出了映射抽取单元62的示例性处理流程。首先,映射抽取单元62获得与所选择的源语言构造信息相关联存储的数组PathFlag,还获得数据串a1到an,其中包含在源语言构造信息中的关于可变项和固定项的信息按照位置信息指示的顺序存储在该数据串中(S131)。具体地,关于可变项和固定项的信息包括关于所述项是否是可变项的信息和当所述项是固定项时关于固定内容字符串的信息。接下来,映射抽取单元62初始化数组Mat,该数组包括n个列表,每个存储对应于所选择的源语言构造信息中的每个可变项和固定项的一个或多个单词,并将(n,m)、0和数组Mat推入堆栈(步骤S132)。
接下来,映射抽取单元62从堆栈中弹出上述数值,并将该数值存储在变量集合(i,j)、变量u和数组Mat中(步骤S133)。如果变量集合(i,j)是(0,0)(步骤S134中为是),就确定了映射,从而将数组Mat添加到映射列表Fset中(步骤S135)。如果还剩余任何堆栈(步骤S136中为是),则从步骤S133重复该过程。如果没有剩余堆栈(在步骤S136中为否),则结束过程。如果在步骤S134中确定变量集合(i,j)不是(0,0)(步骤S134中为否),则确定变量i是否为0(步骤S137)。如果变量i是0(步骤S137中为是),则输入文本中的第j个单词缺失,从而将其添加到列表Mat(0)(步骤S138)。推送变量集合(i,j-1)、0和数组Mat(步骤S139)。然后从步骤S133重复该过程。
如果在步骤S137中确定变量i不是0(步骤S137中为否),则确定ai是否是固定项(步骤S140)。如果ai是固定项(步骤S140中为是),执行PathFlag(i,j)的判断(步骤S141)。如果PathFlag(i,j)指示d(i,j)已由d(i-1,j-1)确定(步骤S141中为是),将第j个单词添加到列表Mat(i)(步骤S142),并推送变量集合(i-1,j-1)、0和数组Mat(步骤S143)。指示d(i,j)已由d(i-1,j-1)确定的PathFlag(i,j)在下文中被称作“通过(i-1,j-1)的PathFlag(i,j)”。更进一步地,指示d(i,j)已由d(i,j-1)和d(i-1,j)确定的PathFlag(i,j)在下文中分别被称作“通过(i,j-1)的PathFlag(i,j)”和“通过(i-1,j)的PathFlag(i,j)”。如果步骤S141中确定PathFlag(i,j)没通过(i-1,j-1)(步骤S141中为否)以及步骤S143的处理后,确定PathFlag(i,j)是否通过(i,j-1)(步骤S144)。如果PathFlag(i,j)通过(i,j-1)(步骤S144中为是),这意味着需要添加单词,从而将第j个单词添加到列表Mat(i)(步骤S145),并推送变量集合(i,j-1)、0和数组Mat(步骤S146)。如果步骤S144中确定PathFlag(i,j)没通过(i,j-1)(步骤S144中为否)并且在步骤S146的处理后,过程进入到步骤S153。
如果在步骤S140中确定ai是可变项(步骤S140中为否),则确定PathFlag(i,j)是否通过(i-1,j-1)(步骤S147)。如果PathFlag(i,j)通过(i-1,j-1)(步骤S147中为是),则将第j到(j+u)个单词添加到列表Mat(i)(步骤S148),并推送变量集合(i-1,j-1)、0和数组Mat(步骤S149)。如果在步骤S147中确定PathFlag(i,j)没通过(i-1,j-1)(步骤S147中为否)以及步骤S149的处理后,确定PathFlag(i,j)是否通过(i,j-1)(步骤S150)。如果PathFlag(i,j)通过(i,j-1)(步骤S150中为是),则u加1(步骤S151),并推送变量集合(i,j-1)、变量u和数组Mat(步骤S152)。如果在步骤S150中确定PathFlag(i,j)没通过(i,j-1)(步骤S150中为否)以及步骤S152的处理后,则过程进入到步骤S153。
步骤S153中,确定PathFlag(i,j)是否通过(i-1,j)。如果PathFlag(i,j)通过(i-1,j)(步骤S153中为是),这意味着出现了单词缺失。因此,清空列表Mat(i)(步骤S154),并推送变量集合(i-1,j)、0和数组Mat(步骤S155)。如果在步骤S153中确定PathFlag(i,j)没通过(i-1,j)(步骤S153中为否)以及步骤S155的处理后,从步骤S133重复该过程。通过上述过程,获得了映射列表Fset。堆栈的使用使得能够获得多个映射。
通过步骤S103的处理获得映射后,源语言构造信息选择单元54检查是否存在多个映射。如果存在多个映射,选择其中的一个映射(步骤S104)。步骤S104的处理可以由最佳映射选择单元63来执行。最佳映射选择单元63可以由CPU 11和存储单元12来实现。如果存在多个映射,最佳映射选择单元63按照某种标准针对每个映射评价包含作为可变项的单词的短语,并且根据得到的评价的整体评估选择一个映射。用于评价的标准示例包括是否在词典中找到短语,以及短语是否包含动词、小品词或助动词。
目标语言构造信息选择单元55可以由CPU 11和存储单元12实现。目标语言构造信息选择单元55基于与源语言构造信息和目标语言构造信息相关联的评价信息,从指示与所选择的源语言构造信息相对应的目标语言文本构造的多个目标语言构造信息中选择一个目标语言构造信息。多个目标语言构造信息中的每一个均包括指示文本中固定字符串的固定项和指示文本中可变字符串的可变项。评价信息可以参考排除了源语言构造信息双语示例模板的一部分。双语示例模板包括源语言示例模板和目标语言示例模板,从而其与源语言构造信息和目标语言构造信息相关联。进一步地,源语言示例模板中的可变项中的可变信息(词性信息)、词汇和用法示例信息,以及双语示例模板中的语言间对应信息、双语示例信息等也与源语言构造信息相关联。可变项中的可变信息(词性信息)、词汇和用法示例信息是指示可变项属性的信息。选择目标语言构造信息实质上也相当于选择目标语言示例模板和双语示例模板。
如果存在多个目标语言构造信息和包含所选择的源语言构造信息的多个双语示例模板,则目标语言构造信息选择单元55从与所选择的源语言构造信息相对应的多个目标语言构造信息中选择一个目标语言构造信息和一个双语示例模板。图10示出了当针对所选择的源语言构造信息存在多个双语示例模板时的示例性双语示例模板。在图10所示的例子中,“彼は電車に乗る(他坐电车)”作为输入文本,选择源语言构造信息“[v]は[v]に乗る([v]坐[v])”([v]表示可变项)。在所示的例子中,存在包含该源语言构造信息的三个双语示例模板。第一个双语示例模板表示人通过交通工具移动。第二个双语示例模板表示人按韵律或跟随调子。第三个双语示例模板表示人坐在动物或类似物上,并控制该动物或类似物。在图10中,为了方便理解,不再使用对准信息,为源语言示例模板中可变项中的可变信息和目标语言示例模板中可变项中的可变信息分配通用的数字,以显示源语言示例模板中可变项和目标语言示例模板中可变项之间的对应关系。其他元素按照与图5所示的双语示例模板的数据结构中的符号相同的符号来表示。
目标语言构造信息选择单元55获得包含所选择的源语言构造信息的双语示例模板的集合,基于五个评价准则为每个双语示例模板计算评价值Sep1到Sep5,并基于由评价值Sep1到Sep5的加权和获得的综合评价值SepP来选择双语示例模板。图11示出了目标语言构造信息选择单元55的示例性处理流程。图12A、图12B、图12C、图12D和图12E分别示出了使用第一评价准则计算评价值Sep1的处理流程、使用第二评价准则计算评价值Sep2的处理流程、使用第三评价准则计算评价值Sep3的处理流程、使用第四评价准则计算评价值Sep4的处理流程、和使用第五评价准则计算评价值Sep5的处理流程。图12A到图12D仅示出了对于一个双语示例模板的处理。在使用第一到第三评价准则计算评价值Sep1到Sep3的处理中,目标语言构造信息选择单元55可以基于与源语言构造信息中可变项相应的输入文本中字符串的属性,并基于将源语言构造信息中可变项的属性与目标语言构造信息相关联的信息,来选择一个目标语言构造信息。
下面将说明基于第一评价准则计算评价值Sep1(步骤S171)。目标语言构造信息选择单元55基于与输入文本中单词的词性信息、所选择的源语言构造信息中包含的可变项的词性信息和目标语言构造信息相关联的信息来选择一个目标语言构造信息。首先,目标语言构造信息选择单元55获得关于某一双语示例模板中包含的源语言示例模板中的可变项(用h表示数目)的信息,将该信息存储到SP1到SPh,并初始化用于存储各个可变项处理结果的变量FS1到FSh(步骤S211)。然后,目标语言构造信息选择单元55从对应于SP1到SPh中每一个的输入文本中的字符串(一个或多个单词)中获得重点(influential)单词,并将该重点单词存储到变量SW1到SWh(步骤S212)。此处使用的术语“重点单词”是与可变项相对应的一个或多个单词中的单词,其连接到另一个固定项或可变项。在日语中,最后一个单词可能为重点单词。然后,目标语言构造信息选择单元55将变量i替换为1(步骤S213)。
目标语言构造信息选择单元55检查关于词性集合的信息(可变信息)是否已设置在第i个可变项SPi中(步骤S214)。如果该信息还没有设置(步骤S214中为否),目标语言构造信息选择单元55将变量Fsi替换为1(步骤S215)。如果该信息已经设置(步骤S214中为是),确定词性集合是否包括SWi的词性(步骤S216)。SWi的词性可以从形态分析单元52的处理结果获得。如果词性集合包括SWi的词性(步骤S216中为是),则目标语言构造信息选择单元55将变量FSi替换为1(步骤S215)。如果词性集合不包括SWi的词性(步骤S216中为否),则目标语言构造信息选择单元55将变量FSi替换为0(步骤S217)。将变量FSi替换为某一值后,目标语言构造信息选择单元55将变量i加1(步骤S218)。如果值i小于或等于h(步骤S219中为是),则从步骤S214重复该过程。如果值i超过h(步骤S219中为否),获得FS1到FSh的平均值,并基于双语示例模板的第一评价准则将其设为评价值Sep1(步骤S220)。为所有所选择的双语示例模板执行步骤S211到S220的处理。
例如,在图10所示的例子中,当“彼は電車に乗る(他坐电车)”作为输入文本获得时,对应于源语言构造信息中可变项的单词“彼(他)”和“電車(电车)”是名词,并且这些可变项在双语示例模板1到3的任一个中都是名词变量。因此,评价值Sep1是1。
下面将描述基于第二评价准则计算评价值Sep2(步骤S172)。目标语言构造信息选择单元55基于与相应于源语言构造信息中可变项的输入文本中的字符串、词汇和目标语言构造信息相关联的信息选择一个目标语言构造信息。首先,目标语言构造信息选择单元55将关于某一双语示例模板中包含的源语言示例模板中的可变项(用h表示数目)的信息存储到SP1到SPh,并初始化变量FS1到FSh(步骤S231)。然后,目标语言构造信息选择单元55从对应于SP1到SPh中每一个的输入文本中的字符串(一个或多个单词)中获得重点单词,并将该重点单词存储到变量SW1到SWh中(步骤S232)。然后,目标语言构造信息选择单元55将变量i替换为1(步骤S233)。
目标语言构造信息选择单元55检查词汇信息是否已设置在第i个可变项SPi中(步骤S234)。如果词汇信息还没有设置(步骤S234中为否),则目标语言构造信息选择单元55将变量FSi替换为1(步骤S235)。如果词汇信息已经设置(步骤S234中为是),则确定由词汇信息所指示的词汇是否包含单词SWi(步骤S236)。如果词汇包含单词SWi(步骤S236中为是),目标语言构造信息选择单元55将变量FSi替换为1(步骤S235)。如果词汇不包含单词SWi(步骤S236中为否),则目标语言构造信息选择单元55将变量FSi替换为0(步骤S237)。将变量FSi替换为某一值后,目标语言构造信息选择单元55将变量i加1(步骤S238)。如果值i小于或等于h(步骤S239中为是),从步骤S234重复该过程。如果值i超过h(步骤S239中为否),获得FS1到FSh的平均值,并基于双语示例模板的第二评价准则将其设为评价值Sep2(步骤S240)。对所选择的所有双语示例模板执行步骤S231到S240的处理。
图13示出了词汇的例子。例如,在图10所示的例子中,当获得“彼は電車に乗る(他坐电车)”作为输入文本时,则对应于源语言构造信息中第一个可变项的单词“彼(他)”包含在词汇“人”中。如图13所示,对应于第二个可变项的单词“電車(电车)”包含在词汇“交通工具”中。因此,对已经设置了关于上述词汇的信息的双语示例模板1到3,评价值Sep2为1,对仅设置了对应于前面的词汇信息的词汇“人”的双语示例模板,评价值Sep2为0.5.
下面将描述基于第三评价准则计算评价值Sep3(步骤S173)。目标语言构造信息选择单元55基于与相应于源语言构造信息中可变项的输入文本中的字符串、用法示例信息和目标语言构造信息相关联的信息来选择一个目标语言构造信息。首先,目标语言构造信息选择单元55将关于某一双语示例模板中包含的源语言示例模板中的可变项(用h表示数目)的信息存储到SP1到SPh,并初始化变量FS1到FSh(步骤S251)。然后,目标语言构造信息选择单元55从对应于SP1到SPh中每一个的输入文本中的字符串(一个或多个单词)中获得重点单词,并将该重点单词存储到变量SW1到SWh(步骤S252)。然后,目标语言构造信息选择单元55将变量i替换为1(步骤S253)。
目标语言构造信息选择单元55检查SPi中的用法示例信息是否已设置(步骤S254)。如果用法示例信息还没有设置(步骤S254中为否),目标语言构造信息选择单元55将变量FSi替换为1(步骤S255)。如果用法示例信息已经设置(步骤S254中为是),目标语言构造信息选择单元55从SPi中的用法示例信息中获得用法示例集合SPE(步骤S256)。然后,目标语言构造信息选择单元55计算SWi和SPE之间的相似度SimW,并将相似度SimW存储到变量FSi中(步骤S256)。相似度SimW可以通过首先确定SWi和包含在用法示例集合中的单个用法示例中的单词之间的相似度Sim来确定。相似度Sim可以通过使用,例如,SWi的双字母组和包含用法示例中单词的字符串中的双字母组,而利用实质上与源语言构造信息候选检索单元53中所使用的方法相同的计算方法来确定。如果使用t来表示包含在用法示例集合中的用法示例数目,使用Sim(j)来表示第j个用法示例和SWi之间的相似度,则相似度SimW可以通过SimW=max{sim(1),sim(2),...,sim(t)}来确定。
相似度SimW也可以通过SimW={sim(1)+sim(2)+...+sim(t)}/t来确定。
将变量FSi替换为某一值后,目标语言构造信息选择单元55将变量i加1(步骤S258)。如果值i小于或等于h(步骤S259中为是),则从步骤S254重复该过程。如果值i超过h(步骤S259中为否),则获得FS1到FSh的平均值,并基于双语示例模板的第三评价准则将其设为评价值Sep3(步骤S260)。对所选择的所有双语示例模板执行步骤S251到S260的处理。
下面将描述基于第四评价准则计算评价值Sep4(步骤S174)。目标语言构造信息选择单元55基于使用所选择的源语言构造信息和语言间对应信息产生翻译文本的产生概率来选择一个目标语言构造信息。首先,目标语言构造信息选择单元55从与某一双语示例模板中包含的源语言示例模板中的每个可变项(用h表示数目)相对应的输入文本中的字符串(一个或多个单词)中获得重点单词,并将该重点单词存储到数组SW1到SWh(步骤S271)。
然后,目标语言构造信息选择单元55使用存储在词典单元57中的单词词典,为SW1到SWh中的每一个确定翻译单词列表,并将翻译的单词列表存储到TW1到TWh中(步骤S272)。这里,单词词典可能具有源语言与目标语言之间的一对多的关系。因此,TW1到TWh中的每一个可能包括多个翻译单词。目标语言构造信息选择单元55确定所有可能的组合,以从TW1到TWh中的每一个翻译单词列表中选择一个翻译单词(步骤S273)。确定所有可能的组合可以对应于确定用于替换目标语言构造信息中可变项的翻译单词的组合。然后,用包含在每个组合中的每个翻译单词替换目标语言示例模板中相应的一个可变项,并将其添加到固定项上以产生译文(步骤S274)。可变项的翻译单词仅表示重点单词的翻译单词,所产成的译文可能比想要翻译的文本更简单。另外,针对各个组合所产生的每个译文,译文的产生概率是使用单词的N-gram模型产生的(步骤S275)。基于双语示例模板的第四评价准则将最大的产生概率设为评价值Sep4(步骤S276)。对所选择的所有双语示例模板执行步骤S271到S276的处理。
图16示出了当在图10所示的例子中获得“彼は電車に乗る(他坐电车)”作为输入文本时,使用双语示例模板1、双语示例模板2和双语示例模板3所产生的翻译。指示N-gram模型中第N个单词根据第N-1个单词出现的概率的信息存储在词典单元57中。
下面将描述基于第五评价准则计算评价值Sep5(步骤S175)。这里,除了源语言示例模板和目标语言示例模板之间的对应关系外,存储在词典单元57中的双语示例词典也可以用作评价信息。双语示例词典包括多个双语示例。各个双语示例包括与多个源语言构造信息的任一个匹配的源语言示例和与多个目标语言构造信息的任一个匹配的目标语言示例。图14示出了示例性双语示例。包含在双语示例中的源语言示例和包含在双语示例中的目标语言示例可以是字符串,并且不一定包括关于形态分析结果的信息。可以预先存储双语示例与源语言构造信息或目标语言构造信息之间的关联。
目标语言构造信息选择单元55基于双语示例的数目选择一个目标语言构造信息,该双语示例包括与所选择的源语言构造信息匹配的源语言示例和与对应于所选择的源语言构造信息的目标语言构造信息相匹配的目标语言示例。首先,目标语言构造信息选择单元55按顺序从包括所选择的源语言构造信息的双语示例模板集合中获得一个双语示例模板(步骤S291)。然后,目标语言构造信息选择单元55从双语示例词典中获得包括与所选择的源语言构造信息匹配的源语言示例的双语示例集合BSS(步骤S292),并从双语示例词典中获得包括与所获得的示例模板的目标语言构造信息匹配的目标语言示例的双语示例集合BST(步骤S293)。然后,目标语言构造信息选择单元55确定并存储包含在集合BSS和BST中的共有双语示例的数目(步骤S294)。如果没有获得所有的双语示例模板(步骤S295中为否),则从步骤S291重复该过程。如果获得了所有的双语示例模板(步骤S295中为是),则目标语言构造信息选择单元55确定一个标准化值,从而每个双语示例模板中双语示例的最大数目变为1,并针对每个双语示例模板基于第五评价准则将该值存储为评价值Sep5(步骤S296)。具体地,评价值Sep5是通过以所有双语示例模板中双语示例数目的和除以每个双语示例模板中的双语示例数目来获得的。
基于第一到第五评价准则计算出评价值Sep1到Sep5后,目标语言构造信息选择单元55计算各个双语示例模板的综合评价值SepP(步骤S176)。综合评价值SepP可以通过将加权评价值Sep1到Sep5加起来获得,若用k1到k5(也就是,k1,k2,k3,k4和k5)分别表示分配给Sep1到Sep5的加权,则综合评价值SepP可以通过下面的公式来确定:
SepP=k1×FS1+k2×FS2+k3×FS3+k4×FS4+k5×FS5。
然后,目标语言构造信息选择单元55选择具有最大综合评价值SepP的一个双语示例模板(步骤S177)。所选择的双语示例模板包括一个目标语言构造信息,并且已经选择了一个目标语言构造信息。
图15示出了如何从图10所示的候选中选择目标语言示例模板的例子。在图15所示的例子中,使用k1=k2=k3=k5=0.15和k4=0.4来计算综合评价值SepP。这里,值k1到k5可以是任何其他用实验方法确定的值。
翻译文本输出单元56可以由CPU 11、存储单元12、通信单元13和输入/输出单元14来实现。翻译文本输出单元56按照所选择的目标语言构造信息和所选择的与目标语言构造信息相应的源语言构造信息将输入文本的翻译文本输出到与输入/输出单元14连接的输出单元、通过通信单元13和网络连接的客户端装置、或存储单元12。具体地,使用单词词典来翻译与源语言构造信息中包含的可变项的每一个相应的输入文本中的单词,从而产生翻译的单词,并将所翻译的单词代入到目标语言示例模板中的相应的可变项中。按照位置信息指示的顺序将所翻译的单词代入到可变项中,并输出固定内容的字符串。从而输出翻译文本。如果某一可变项对应于包含多个单词的短语,则选择匹配短语内容的源语言示例模板和双语示例模板,并翻译所翻译的单词。
按照所示的示例性实施例的翻译设备1不一定专用于文本翻译。例如,翻译设备1可以合并到翻译辅助系统中。
前述的本发明示例性实施例的描述用于举例和说明。其并不是穷举或将本发明限制于所公开的确切结构。明显的,许多修改和变化对本领域技术人员来说是显而易见的。所选择和描述的实施例是为了最好地解释本发明的原理和实际应用,从而使本领域的其他技术人员能够理解本发明各种实施例和各种修改适合于预期的特定用途。使用所附的权利要求和其等价物来定义本发明的范围。

Claims (21)

1.一种双语信息检索设备,包括:
输入文本获取单元,用于获得第一语言输入文本;
第一存储器,用于存储指示第一语言文本构造的多个第一语言构造信息,所述多个第一语言构造信息中的每一个均包括指示文本中固定字符串的固定项和指示文本中可变字符串的可变项;
第一语言构造信息选择单元,用于从存储的多个第一语言构造信息中选择与输入文本相对应的一个第一语言构造信息;
第二存储器,用于存储指示与所选择的第一语言构造信息相对应的第二语言文本的构造的多个第二语言构造信息,所述多个第二语言构造信息中的每一个均包括指示文本中固定字符串的固定项和指示文本中可变字符串的可变项;以及
第二语言构造信息选择单元,用于基于与所述多个第一语言构造信息和所述多个第二语言构造信息相关联的评价信息,从存储在第二存储器中的所述多个第二语言构造信息中选择一个第二语言构造信息,
其中,所述第二语言构造信息选择单元基于多个评价准则分别产生多个评价值,并且基于对所述多个评价值加权而获得的评价信息,从存储在第二存储器中的所述多个第二语言构造信息中选择一个第二语言构造信息。
2.按照权利要求1所述的双语信息检索设备,其中所述评价信息包括指示所述多个第一语言构造信息中的每一个与对应于所述第一语言构造信息的一个第二语言构造信息之间的对应关系的语言间对应关系信息,以及
其中第二语言构造信息选择单元基于使用所选择的第一语言构造信息和语言间对应关系信息产生的翻译文本的产生概率,从多个第二语言构造信息中选择一个第二语言构造信息。
3.按照权利要求1所述的双语信息检索设备,其中所述评价信息包括把包含在所述多个第一语言构造信息中的可变项的属性与所述多个第二语言构造信息关联起来的信息,以及
其中第二语言构造信息选择单元基于与所选择的第一语言构造信息中的可变项相对应的输入文本中的字符串的属性,并基于把包含在所述多个第一语言构造信息中的可变项的属性与所述多个第二语言构造信息关联起来的信息,从所述多个第二语言构造信息中选择一个第二语言构造信息。
4.按照权利要求2所述的双语信息检索设备,其中所述评价信息包括把包含在所述多个第一语言构造信息中的可变项的属性与所述多个第二语言构造信息关联起来的信息,以及
其中第二语言构造信息选择单元基于与所选择的第一语言构造信息中的可变项相对应的输入文本中的字符串的属性,并基于把包含在所述多个第一语言构造信息中的可变项的属性与所述多个第二语言构造信息关联起来的信息,从所述多个第二语言构造信息中选择一个第二语言构造信息。
5.按照权利要求3所述的双语信息检索设备,进一步包括形态分析单元,其将形态分析应用到输入文本以获得多个单词和关于所述单词的词性信息,
其中所述评价信息包括把包含在所述多个第一语言构造信息中的可变项的词性与所述多个第二语言构造信息关联起来的信息,以及
其中所述第二语言构造信息选择单元基于把输入文本中单词的词性信息与包含在所选择的第一语言构造信息中的可变项的词性关联起来的信息,从所述多个第二语言构造信息中选择一个第二语言构造信息。
6.按照权利要求4所述的双语信息检索设备,进一步包括形态分析单元,其将形态分析应用到输入文本以获得多个单词和关于所述单词的词性信息,
其中所述评价信息包括把包含在所述多个第一语言构造信息中的可变项的词性与所述多个第二语言构造信息关联起来的信息,以及
其中所述第二语言构造信息选择单元基于把输入文本中单词的词性信息与包含在所选择的第一语言构造信息中的可变项的词性关联起来的信息,从所述多个第二语言构造信息中选择一个第二语言构造信息。
7.按照权利要求3所述的双语信息检索设备,其中所述评价信息包括把包含在所述多个第一语言构造信息中的可变项的词汇与所述多个第二语言构造信息关联起来的信息,以及
其中所述第二语言构造信息选择单元基于与所选择的第一语言构造信息中的可变项相对应的输入文本中的字符串,并基于把所述词汇与所述多个第二语言构造信息关联起来的信息,从所述多个第二语言构造信息中选择一个第二语言构造信息。
8.按照权利要求4所述的双语信息检索设备,其中所述评价信息包括把包含在所述多个第一语言构造信息中的可变项的词汇与所述多个第二语言构造信息关联起来的信息,以及
其中所述第二语言构造信息选择单元基于与所选择的第一语言构造信息中的可变项相对应的输入文本中的字符串,并基于把词汇与所述多个第二语言构造信息关联起来的信息,从所述多个第二语言构造信息中选择一个第二语言构造信息。
9.按照权利要求5所述的双语信息检索设备,其中所述评价信息包括把包含在所述多个第一语言构造信息中的可变项的词汇与所述多个第二语言构造信息关联起来的信息,以及
其中所述第二语言构造信息选择单元基于与所选择的第一语言构造信息中的可变项相对应的输入文本中的字符串,并基于把词汇与所述多个第二语言构造信息关联起来的信息,从所述多个第二语言构造信息中选择一个第二语言构造信息。
10.按照权利要求6所述的双语信息检索设备,其中所述评价信息包括把包含在所述多个第一语言构造信息中的可变项的词汇与所述多个第二语言构造信息关联起来的信息,以及
其中所述第二语言构造信息选择单元基于与所选择的第一语言构造信息中的可变项相对应的输入文本中的字符串,并基于把词汇与所述多个第二语言构造信息关联起来的信息,从所述多个第二语言构造信息中选择一个第二语言构造信息。
11.按照权利要求3所述的双语信息检索设备,其中所述评价信息包括把包含在所述多个第一语言构造信息中的可变项的用法示例信息与所述多个第二语言构造信息关联起来的信息,以及
其中所述第二语言构造信息选择单元基于与所选择的第一语言构造信息中的可变项相对应的输入文本中的字符串,并基于把所述用法示例信息与所述多个第二语言构造信息关联起来的信息,从所述多个第二语言构造信息中选择一个第二语言构造信息。
12.按照权利要求4所述的双语信息检索设备,其中所述评价信息包括把包含在所述多个第一语言构造信息中的可变项的用法示例信息与所述多个第二语言构造信息关联起来的信息,以及
其中所述第二语言构造信息选择单元基于与所选择的第一语言构造信息中的可变项相对应的输入文本中的字符串,并基于把所述用法示例信息与所述多个第二语言构造信息关联起来的信息,从所述多个第二语言构造信息中选择一个第二语言构造信息。
13.按照权利要求5所述的双语信息检索设备,其中所述评价信息包括把包含在所述多个第一语言构造信息中的可变项的用法示例信息与所述多个第二语言构造信息关联起来的信息,以及
其中所述第二语言构造信息选择单元基于与所选择的第一语言构造信息中的可变项相对应的输入文本中的字符串,并基于把所述用法示例信息与所述多个第二语言构造信息关联起来的信息,从所述多个第二语言构造信息中选择一个第二语言构造信息。
14.按照权利要求6所述的双语信息检索设备,其中所述评价信息包括把包含在所述多个第一语言构造信息中的可变项的用法示例信息与所述多个第二语言构造信息关联起来的信息,以及
其中所述第二语言构造信息选择单元基于与所选择的第一语言构造信息中的可变项相对应的输入文本中的字符串,并基于把所述用法示例信息与所述多个第二语言构造信息关联起来的信息,从所述多个第二语言构造信息中选择一个第二语言构造信息。
15.按照权利要求7所述的双语信息检索设备,其中所述评价信息包括把包含在所述多个第一语言构造信息中的可变项的用法示例信息与所述多个第二语言构造信息关联起来的信息,以及
其中所述第二语言构造信息选择单元基于与所选择的第一语言构造信息中的可变项相对应的输入文本中的字符串,并基于把所述用法示例信息与所述多个第二语言构造信息关联起来的信息,从所述多个第二语言构造信息中选择一个第二语言构造信息。
16.按照权利要求8所述的双语信息检索设备,其中所述评价信息包括把包含在所述多个第一语言构造信息中的可变项的用法示例信息与所述多个第二语言构造信息关联起来的信息,以及
其中所述第二语言构造信息选择单元基于与所选择的第一语言构造信息中的可变项相对应的输入文本中的字符串,并基于把所述用法示例信息与所述多个第二语言构造信息关联起来的信息,从所述多个第二语言构造信息中选择一个第二语言构造信息。
17.按照权利要求9所述的双语信息检索设备,其中所述评价信息包括把包含在所述多个第一语言构造信息中的可变项的用法示例信息与所述多个第二语言构造信息关联起来的信息,以及
其中所述第二语言构造信息选择单元基于与所选择的第一语言构造信息中的可变项相对应的输入文本中的字符串,并基于把所述用法示例信息与所述多个第二语言构造信息关联起来的信息,从所述多个第二语言构造信息中选择一个第二语言构造信息。
18.按照权利要求10所述的双语信息检索设备,其中所述评价信息包括把包含在所述多个第一语言构造信息中的可变项的用法示例信息与所述多个第二语言构造信息关联起来的信息,以及
其中所述第二语言构造信息选择单元基于与所选择的第一语言构造信息中的可变项相对应的输入文本中的字符串,并基于把所述用法示例信息与所述多个第二语言构造信息关联起来的信息,从所述多个第二语言构造信息中选择一个第二语言构造信息。
19.按照权利要求1至18任一项所述的双语信息检索设备,其中所述评价信息包括多个双语示例,每一个双语示例均包括与所述多个第一语言构造信息中的任一个匹配的第一语言示例和与所述多个第二语言构造信息中的任一个匹配的第二语言示例,以及
其中所述第二语言构造信息选择单元基于双语示例的数目从所述多个第二语言构造信息中选择一个第二语言构造信息,其中所述双语示例包括与所选择的第一语言构造信息匹配的第一语言示例和与对应于所选择的第一语言构造信息的第二语言构造信息匹配的第二语言示例。
20.一种翻译设备,包括:
输入文本获取单元,用于获得以第一语言输入的输入文本;
第一语言构造信息选择单元,用于从指示第一语言文本的构造的多个第一语言构造信息中选择一个与所述输入文本对应的第一语言构造信息,所述多个第一语言构造信息中的每一个均包括指示文本中固定字符串的固定项和指示文本中可变字符串的可变项;
第二语言构造信息选择单元,用于基于与所述多个第一语言构造信息中的任一个和指示与所选择的第一语言构造信息对应的第二语言文本的构造的多个第二语言构造信息的多个第二语言构造信息中的任一个相关联的评价信息,从所述多个第二语言构造信息中选择一个第二语言构造信息,所述多个第二语言构造信息中的每一个均包括指示文本中固定字符串的固定项和指示文本中可变字符串的可变项;以及
翻译文本输出单元,用于基于所选择的第二语言构造信息和与所选择的第二语言构造信息相对应的所选择的第一语言构造信息,输出所述输入文本的翻译文本,
其中,所述第二语言构造信息选择单元基于多个评价准则分别产生多个评价值,并且基于对所述多个评价值加权而获得的评价信息,从存储在第二存储器中的所述多个第二语言构造信息中选择一个第二语言构造信息。
21.一种双语信息检索方法,包括:
获取第一语言输入文本;
将指示第一语言文本的构造的多个第一语言构造信息存储到第一存储器中,其中所述多个第一语言构造信息中的每一个均包括指示文本中固定字符串的固定项和指示文本中可变字符串的可变项;
从所存储的所述多个第一语言构造信息中选择与所述输入文本相对应的一个第一语言构造信息;
将指示与所选择的第一语言构造信息相对应的第二语言文本的构造的多个第二语言构造信息存储到第二存储器中,其中所述多个第二语言构造信息中的每一个均包括指示文本中固定字符串的固定项和指示文本中可变字符串的可变项;以及
基于与所述多个第一语言构造信息和多个第二语言构造信息相关联的评价信息,从存储在所述第二存储器中的所述多个第二语言构造信息中选择一个第二语言构造信息,
其中,基于多个评价准则分别产生多个评价值,并且基于对所述多个评价值加权而获得的评价信息,从存储在第二存储器中的所述多个第二语言构造信息中选择一个第二语言构造信息。
CN201110353121.0A 2011-01-05 2011-11-09 双语信息检索设备、翻译设备及双语信息检索方法 Active CN102591898B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-000513 2011-01-05
JP2011000513A JP5747508B2 (ja) 2011-01-05 2011-01-05 対訳情報検索装置、翻訳装置及びプログラム

Publications (2)

Publication Number Publication Date
CN102591898A CN102591898A (zh) 2012-07-18
CN102591898B true CN102591898B (zh) 2017-04-26

Family

ID=46381531

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110353121.0A Active CN102591898B (zh) 2011-01-05 2011-11-09 双语信息检索设备、翻译设备及双语信息检索方法

Country Status (3)

Country Link
US (1) US8909511B2 (zh)
JP (1) JP5747508B2 (zh)
CN (1) CN102591898B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014075073A (ja) * 2012-10-05 2014-04-24 Fuji Xerox Co Ltd 翻訳処理装置及びプログラム
CN104731774B (zh) * 2013-12-24 2018-02-02 哈尔滨工业大学 面向通用机译引擎的个性化翻译方法及装置
KR102357322B1 (ko) 2016-05-06 2022-02-08 이베이 인크. 인공신경망 기계 번역시 메타 정보를 이용하는 기법
CN108763225A (zh) * 2016-06-28 2018-11-06 大连民族大学 属性信息多语机器翻译子系统的翻译方法
EP3511844A4 (en) * 2016-09-09 2019-08-07 Panasonic Intellectual Property Management Co., Ltd. TRANSLATION DEVICE AND METHOD
CN109791572A (zh) * 2017-02-07 2019-05-21 松下知识产权经营株式会社 翻译装置以及翻译方法
CN110914827B (zh) * 2017-04-23 2024-02-09 赛伦斯运营公司 生成多语言语义解析器的系统和计算机实现方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1475907A (zh) * 2002-06-28 2004-02-18 微软公司 基于例子的机器翻译系统
CN1928862A (zh) * 2005-09-08 2007-03-14 富士通株式会社 基于数据挖掘获取词或词组单元译文信息的系统和方法
CN101520779A (zh) * 2009-04-17 2009-09-02 哈尔滨工业大学 一种机器翻译自动诊断评价方法
JP2010152420A (ja) * 2008-12-23 2010-07-08 Fuji Xerox Co Ltd 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2870279B2 (ja) * 1992-01-13 1999-03-17 日本電気株式会社 訳語選択装置
JP3176750B2 (ja) * 1993-04-01 2001-06-18 シャープ株式会社 自然言語の翻訳装置
GB2415518A (en) * 2004-06-24 2005-12-28 Sharp Kk Method and apparatus for translation based on a repository of existing translations
US7505894B2 (en) * 2004-11-04 2009-03-17 Microsoft Corporation Order model for dependency structure
CN101124579A (zh) * 2005-02-24 2008-02-13 富士施乐株式会社 单词翻译装置、翻译方法以及翻译程序
JP4404211B2 (ja) * 2005-03-14 2010-01-27 富士ゼロックス株式会社 マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム
JP4961755B2 (ja) * 2006-01-23 2012-06-27 富士ゼロックス株式会社 単語アライメント装置、単語アライメント方法、単語アライメントプログラム
JP2008065395A (ja) * 2006-09-04 2008-03-21 Fuji Xerox Co Ltd 翻訳装置、翻訳方法および翻訳プログラム
JP5082374B2 (ja) * 2006-10-19 2012-11-28 富士通株式会社 フレーズアラインメントプログラム、翻訳プログラム、フレーズアラインメント装置およびフレーズアラインメント方法
GB2444084A (en) 2006-11-23 2008-05-28 Sharp Kk Selecting examples in an example based machine translation system
JP5057916B2 (ja) * 2007-09-28 2012-10-24 日本電信電話株式会社 固有表現抽出装置、その方法、プログラム及び記録媒体
JP5239307B2 (ja) * 2007-11-20 2013-07-17 富士ゼロックス株式会社 翻訳装置及び翻訳プログラム
JP5298833B2 (ja) * 2008-12-23 2013-09-25 富士ゼロックス株式会社 翻訳装置及び翻訳プログラム
JP2010244385A (ja) * 2009-04-08 2010-10-28 Nec Corp 機械翻訳装置、機械翻訳方法、およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1475907A (zh) * 2002-06-28 2004-02-18 微软公司 基于例子的机器翻译系统
CN1928862A (zh) * 2005-09-08 2007-03-14 富士通株式会社 基于数据挖掘获取词或词组单元译文信息的系统和方法
JP2010152420A (ja) * 2008-12-23 2010-07-08 Fuji Xerox Co Ltd 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
CN101520779A (zh) * 2009-04-17 2009-09-02 哈尔滨工业大学 一种机器翻译自动诊断评价方法

Also Published As

Publication number Publication date
JP2012141879A (ja) 2012-07-26
JP5747508B2 (ja) 2015-07-15
US20120173223A1 (en) 2012-07-05
CN102591898A (zh) 2012-07-18
US8909511B2 (en) 2014-12-09

Similar Documents

Publication Publication Date Title
CN102591898B (zh) 双语信息检索设备、翻译设备及双语信息检索方法
Matci et al. Address standardization using the natural language process for improving geocoding results
CN111785368A (zh) 基于医疗知识图谱的分诊方法、装置、设备及存储介质
CN102902821B (zh) 基于网络热点话题的图像高级语义标注、检索方法及装置
CN103678670B (zh) 一种微博热词与热点话题挖掘系统及方法
CN113011189A (zh) 开放式实体关系的抽取方法、装置、设备及存储介质
CN113535974B (zh) 诊断推荐方法及相关装置、电子设备、存储介质
CN110866093A (zh) 机器问答方法及装置
CN111460091B (zh) 医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法
CN115688760B (zh) 一种智能化导诊方法、装置、设备及存储介质
CN110413319A (zh) 一种基于深度语义的代码函数味道检测方法
CN109522420A (zh) 一种获取学习需求的方法及系统
CN113094533B (zh) 一种基于混合粒度匹配的图文跨模态检索方法
US20050209786A1 (en) Method of diagnosing biological states through the use of a centralized, adaptive model, and remote sample processing
CN115359873B (zh) 用于手术质量的控制方法
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
CN111651579B (zh) 信息查询方法、装置、计算机设备和存储介质
CN112613321A (zh) 一种抽取文本中实体属性信息的方法及系统
CN114330267A (zh) 一种基于语义学关联的结构化报告模板的设计方法
WO2011109195A1 (en) System and associated method for determining and applying sociocultural characteristics
CN115329210A (zh) 一种基于交互图分层池化的虚假新闻检测方法
CN110866094B (zh) 指令识别方法、装置、存储介质、电子装置
CN111460107A (zh) 一种应答方法和应答系统
JPWO2019176398A1 (ja) 情報処理装置、情報処理方法、および、プログラム
KR102187594B1 (ko) 신약 후보 물질 발굴을 위한 멀티오믹스 데이터 처리 장치 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Tokyo

Patentee after: Fuji film business innovation Co.,Ltd.

Address before: Tokyo

Patentee before: Fuji Xerox Co.,Ltd.