CN107038158B - 对译语料库制作方法、装置、记录介质以及机器翻译系统 - Google Patents

对译语料库制作方法、装置、记录介质以及机器翻译系统 Download PDF

Info

Publication number
CN107038158B
CN107038158B CN201611197994.6A CN201611197994A CN107038158B CN 107038158 B CN107038158 B CN 107038158B CN 201611197994 A CN201611197994 A CN 201611197994A CN 107038158 B CN107038158 B CN 107038158B
Authority
CN
China
Prior art keywords
sentence
synonymous
corpus
translation
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611197994.6A
Other languages
English (en)
Other versions
CN107038158A (zh
Inventor
藤原菜菜美
山内真树
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Publication of CN107038158A publication Critical patent/CN107038158A/zh
Application granted granted Critical
Publication of CN107038158B publication Critical patent/CN107038158B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供得到进一步改善的对译语料库制作方法、装置及程序和使用了该方法、装置和/或程序的机器翻译系统。该对译语料库制作方法、装置、程序和机器翻译系统,通过同义转换候选文生成部(2)将第1语言的第1原文所包含的多个片段中的一个或多个片段同义转换成第1语言的其他表达,由此生成对第1原文的多个同义转换候选文;通过同义转换文识别部(3a)从这些多个同义转换候选文中,识别意思与第1原文的意思相同的一个或多个同义转换候选文来作为一个或多个同义转换文;通过对译语料库制作部(4)将该识别出的一个或多个同义转换文和对第1原文进行翻译而得到的第2原文设为成对文,由此生成新成对文,用该生成的新成对文制作对译语料库。

Description

对译语料库制作方法、装置、记录介质以及机器翻译系统
技术领域
本发明涉及制作对译语料库(Translation Corpus)的对译语料库制作方法、对译语料库制作装置、对译语料库制作程序以及使用了该方法、装置和/或程序的机器翻译系统,所述对译语料库汇集有由互不相同的语言形成的成对文(成对语句)。
背景技术
近年来,将第1语言的语句翻译成与所述第1语言不同的第2语言的语句的机器翻译正在被进行研究和开发,例如,提出了专利文献1~专利文献4的专利文献和非专利文献1以及非专利文献2的非专利文献等各种技术。
现有技术文献
专利文献
专利文献1:日本特许第3919720号公报
专利文献2:日本特开2002-278963号公报
专利文献3:日本特开2006-190072号公报
专利文献4:日本特开2015-118498号公报
非专利文献
非专利文献1:Generating Targeted Paraphrases for Improved Translation,NITIN MADNANI,Educational Testing Service,ACM2013
非专利文献2:Distributional Phrasal Paraphrase Generation forStatistical Machine Translation,YUVAL MARTON,University of Marryland,ColumbiaUniversity,ACM2013
发明内容
发明要解决的技术问题
然而,要提高机器翻译性能,则可利用于翻译的例文越多越好。即,希望对译语料库汇集更多的成对文,对于对译语料库的制作,存在改善的余地。
本发明是鉴于上述情况而完成的发明,其目的在于提供得到进一步改善的对译语料库制作方法、对译语料库制作装置、对译语料库制作程序以及使用了该方法、装置和/或程序的机器翻译系统。
用于解决问题的技术方案
本发明涉及的对译语料库制作方法、对译语料库制作装置、对译语料库制作程序以及使用了该方法、装置和/或程序的机器翻译系统,通过将第1语言的第1原文所包含的多个片段中的一个或多个片段同义转换(换言、说法变换)成所述第1语言的其他表达,生成对所述第1原文的多个同义转换候选文;从这些多个同义转换候选文中识别意思与所述第1原文的意思相同的一个或多个同义转换候选文来作为一个或多个同义转换文;通过将该识别出的一个或多个同义转换文和对所述第1原文进行翻译而得到的第2原文设为成对文来生成新的成对文,用该生成的新的成对文来制作对译语料库。
发明效果
本发明涉及的对译语料库制作方法、对译语料库制作装置、对译语料库制作程序以及使用了该方法、装置和/或程序的机器翻译系统,能够改善对译语料库的制作。
附图说明
图1是表示第1实施方式中的对译语料库制作装置的构成的框图。
图2是表示所述对译语料库制作装置中的同义转换候选文生成部的构成的框图。
图3是表示存储在所述同义转换候选文生成部的同义转换数据库存储部中的同义转换数据库的一例的图。
图4是表示所述对译语料库制作装置中的同义转换文识别部的构成的框图。
图5是表示存储在所述同义转换文识别部的学习数据存储部中的学习数据集的一例的图。
图6是表示所述同义转换候选文生成部中的同义转换数据库选择部的工作的流程图。
图7是表示所述同义转换候选文生成部中的同义转换部的工作的流程图。
图8是表示所述同义转换文识别部中的学习数据选择部的工作的流程图。
图9是表示所述同义转换文识别部中的模型生成部的工作的流程图。
图10是表示所述同义转换文识别部中的识别部的工作的流程图。
图11是用于说明同义转换数据库以及学习数据集的第1方式的选择方法的图。
图12是用于说明同义转换数据库以及学习数据集的第2方式的选择方法的图。
图13是用于说明同义转换数据库以及学习数据集的第3方式的选择方法的图。
图14是用于使用一个具体例子来说明对译语料库的制作的图。
图15是表示所述对译语料库制作装置中的同义转换文识别部的变形形式的构成的框图。
图16是用于说明所述变形形式的同义转换文识别部的工作的图。
图17是用于使用一个具体例子来说明所述对译语料库制作装置的变形形式的图。
图18是表示第2实施方式中的机器翻译系统的构成的框图。
图19是表示所述机器翻译系统中的学习部的工作的流程图。
标号说明
M:对译语料库制作装置
T:翻译装置
S:机器翻译系统
1:输入部(第1输入部)
2:同义转换候选文生成部
3a、3b:同义转换文识别部
4:对译语料库制作部
5:对译语料库存储部
21:同义转换数据库存储部
22:同义转换数据库选择部
23:同义转换部
31a、31b:学习数据存储部
32a、32b:学习数据选择部
33:模型生成部
34:识别部
211:工厂用同义转换DB存储部
212:旅行用同义转换DB存储部
213:购物用同义转换DB存储部
214:医疗用同义转换DB存储部
215:铁路用同义转换DB存储部
311:工厂用学习数据存储部
312:旅行用学习数据存储部
313:购物用学习数据存储部
314:医疗用学习数据存储部
315:铁路用学习数据存储部
具体实施方式
以下,基于附图对本发明涉及的一个实施方式进行说明。此外,各图中标注有同一标号的结构表示同一结构,适当地省略其说明。在本说明书中,在进行统称的情况下由省略了下标的参照标号来表示,在特指个别结构的情况下由标注了下标的参照标号来表示。
(第1实施方式:对译语料库制作方法、语料库制作装置、语料库制作程序)
图1是表示第1实施方式中的对译语料库制作装置的构成的框图。图2是表示所述对译语料库制作装置中的同义转换候选文生成部的构成的框图。图3是表示存储在所述同义转换候选文生成部的同义转换数据库存储部中的同义转换数据库的一例的图。图4是表示所述对译语料库制作装置中的同义转换文识别部的构成的框图。图5是表示存储在所述同义转换文识别部的学习数据存储部中的学习数据集的一例的图。图5的(A)表示第1方式的学习数据集,图5的(B)表示第2方式的学习数据集。
实施方式中的对译语料库制作装置M是制作对译语料库的装置,所述对译语料库汇集有多个使第1语言的第1文和与所述第1语言不同的第2语言的第2文成对的成对文,例如,如图1所示,对译语料库制作装置M具备输入部1、同义转换候选文生成部2、同义转换文识别部3a和对译语料库制作部4,再者,在图1所示的例子中,还具备存储其制作出的对译语料库的对译语料库存储部5。此外,对译语料库存储部5也可以设置于与对译语料库制作装置M分开的外部设备(例如服务器计算机等),该情况下,图1所示的对译语料库制作装置M中,取代具备对译语料库存储部5而具备与外部设备通信数据的接口部,将其制作出的对译语料库经由所述接口部输出给外部设备。所述接口部例如是使用USB标准的接口电路、遵循IEEE802.11标准等的通信接口电路等。
具备这样的各部1~5的对译语料库制作装置M例如由信息处理装置构成。信息处理装置例如具备计算机、通过显示数据来输出所述数据的显示器、和输入数据的输入装置,所述计算机具备CPU(Central Processing Unit,中央处理单元)、ROM(Read Only Memory,只读存储器)、RAM(Random Access Memory,随机存取存储器)以及辅助存储装置。作为这样的信息处理装置,例如可以采用台式计算机这样的固定式的信息处理装置,也可以采用笔记本式计算机、平板式计算机等便携式的信息处理装置。
图1所示的各块(功能块)例如通过由CPU执行存储于辅助存储装置的、使计算机作为对译语料库制作装置M发挥功能的程序(对译语料库制作程序)来实现。因此,在所述计算机中安装(实施,执行)有对译语料库制作方法。在图1中,由四边形表示的块主要通过CPU来实现其功能,由圆柱形表示的块主要通过由ROM、RAM以及辅助存储装置等构成的存储装置来实现其功能。此外,后述的图2、图4、图15以及图18也是同样的。
输入部(第1输入部)1连接于同义转换候选文生成部2,例如是受理预定操作、并向该对译语料库制作装置M输入数据的电路。输入部1例如是具备被分配了预定功能的多个输入开关等的键盘和/或鼠标等输入装置。另外,例如,输入部1也可以是与外部设备通信数据的与上述同样的接口部。所述预定操作例如包括:将第1语言的第1原文和用与所述第1语言不同的第2语言对所述第1原文进行翻译而得到的第2原文向该对译语料库制作装置M进行输入的所述第1原文以及第2原文的输入操作、指示该对译语料库制作装置M制作对译语料库的开始命令的输入操作等、在通过该对译语料库制作装置M制作对译语料库方面所需的各种操作等。
同义转换候选文生成部2连接于同义转换文识别部3a,通过将由输入部1受理的第1原文所包含的多个片段中的一个或多个片段同义转换(替换)成所述第1语言的其他表达,生成对所述第1原文的多个同义转换候选文,所述片段是通过按照预先设定的预定规则将语句进行分割而形成的。所述预定规则可以是任意的规则。例如,所述预定规则可以是按多个(n个)文字(例如两个文字、三个文字等)将语句进行切分的规则,该情况下,所述片段成为所述多个(n个)文字。另外,例如,所述预定规则也可以是按单词将语句进行切分的规则,该情况下,所述片段成为所述单词。另外,例如,所述预定规则也可以是按词性将语句进行切分的规则,该情况下,所述片段成为所述词性的词。另外,例如,所述预定规则也可以是按词组将语句进行切分的规则,该情况下,所述片段成为所述词组。另外,例如,所述预定规则也可以是按语义类别(class)将语句进行切分的规则,该情况下,所述片段成为所述语义类别的类别的词。另外,例如,所述预定规则也可以是按词素分析中的词素将语句进行切分的规则,该情况下,所述片段成为所述词素。如上所述,针对第1语言的第1原文的同义转换候选文,是将所述第1原文所包含的多个片段中的一个或多个片段同义转换(替换)成所述第1语言的其他表达而得到的语句,针对该第1语言的第1原文的同义转换候选文不一定保证与所述第1原文的意思相同。因此,对该第1原文的同义转换候选文是不参考所述第1原文的意思而生成的。此外,也可以将第1原文中的同一片段多次进行同义转换,但在将该同一片段多次进行同义转换时,该同义转换候选文的意思变得与所述第1原文不同的可能性会升高,因此,对同一片段的同义转换次数例如优选限定为一次或两次等较少的次数。
更具体而言,例如如图2所示,这样的同义转换候选文生成部2具备同义转换数据库存储部(同义转换DB存储部)21、同义转换数据库选择部(同义转换DB选择部)22和同义转换部23。
同义转换DB存储部21连接于同义转换DB选择部22,对同义转换数据库(同义转换DB)进行存储。同义转换DB是使第1语言的第1片段和用所述第1语言的其他表达来表达了所述第1片段的第2片段相互关联而成的数据库。例如,如图3所示,第1语言的第1片段201-1、和与该第1片段201-1关联的用所述第1语言的其他表达来表达了所述第1片段201-1的第2片段202-1,作为同义转换数据库CT中的一个数据,存储于同义转换DB存储部21。
而且,在本实施方式中,如图2所示,同义转换DB存储部21存储有按照预先设定的预定的分类法进行分类而得到的多个同义转换DB。所述预定的分类法可以是与该对译语料库制作装置M的用途相应的适当的分类法。例如,所述预定的分类法可以是按体裁(genre)进行分类的分类法,另外,例如也可以是按产业领域进行分类的分类法。在图2所示的例子中,所述多个同义转换DB包括用于对工厂所使用的片段进行同义转换的工厂用的同义转换DB、用于对旅行所使用的片段进行同义转换的旅行用的同义转换DB、用于对购物所使用的片段进行同义转换的购物用的同义转换DB、用于对医疗所使用的片段进行同义转换的医疗用的同义转换DB、以及用于对铁路所使用的片段进行同义转换的铁路用的同义转换DB等。为了分别存储这些各个同义转换DB,同义转换DB存储部21具备存储所述工厂用的同义转换DB的工厂用同义转换DB存储部211、存储所述旅行用的同义转换DB的旅行用同义转换DB存储部212、存储所述购物用的同义转换DB的购物用同义转换DB存储部213、存储所述医疗用的同义转换DB的医疗用同义转换DB存储部214、以及存储所述铁路用的同义转换DB的铁路用同义转换DB存储部215等。此外,某个分类的同义转换DB的数据也可以是其他分类的同义转换DB的数据。而且,在本实施方式中,对这些多个同义转换DB分别赋予用于确定并识别(标识)同义转换DB的标识符(ID)。
同义转换DB选择部22分别连接于输入部1和同义转换部23,按照预定的选择方法从同义转换DB存储部21所存储的多个同义转换DB中选择与由输入部1受理的第1原文对应的同义转换DB。同义转换DB选择部22将该选择结果输出给同义转换部23。关于所述预定的选择方法,只要能够从同义转换DB选择部22所存储的多个同义转换DB中选择出与由输入部1受理的第1原文最匹配(match)的同义转换DB,则可以是任意的方法。例如,所述预定的选择方法是从所述多个同义转换DB中选择语言模型最接近的同义转换DB的方法(第1方式的选择方法)。另外,例如,所述预定的选择方法是从所述多个同义转换DB中选择类别最相似的同义转换DB的方法(第2方式的选择方法)。另外,例如,所述预定的选择方法是从所述多个同义转换DB中选择频出词汇或特有词汇最相似的同义转换DB的方法(第3方式的选择方法)。将在后面对这些选择方法进行更详细的说明。
同义转换部23分别连接于输入部1和同义转换文识别部3a,通过基于由同义转换DB选择部22选择出的同义转换DB将由输入部1受理的第1原文所包含的多个片段中的一个或多个片段同义转换成第1语言的其他表达,生成对所述第1原文的多个同义转换候选文。例如,在由输入部1受理的第1原文包含图3所示的第1语言的第1片段201-1、201-2的情况下,该第1原文的第1片段201-1被同义转换成第1语言的第2片段202-1,从而生成对第1原文的一个同义转换候选文,而且,所述第1原文的第1片段201-2被同义转换成第1语言的第2片段202-2,从而生成对所述第1原文的另一个同义转换候选文。因此,该情况下,同义转换部23生成对第1原文的两个同义转换候选文。同义转换部23将这些所生成的对第1原文的多个同义转换候选文输出给同义转换文识别部3a。
同义转换文识别部3a连接于对译语料库制作部4,从由同义转换候选文生成部2生成的多个同义转换候选文中,识别意思与所述第1原文的意思相同的一个或多个同义转换候选文来作为一个或多个同义转换文。例如,同义转换文识别部3a通过使用对同义转换候选文的意思是否与第1原文的意思相同进行识别(判定、辨别)的识别模型,从所述多个同义转换候选文中识别所述一个或多个同义转换文。
更具体而言,例如如图4所示,这样的同义转换文识别部3a具备学习数据存储部31a、学习数据选择部32a、模型生成部33和识别部34。
学习数据存储部31a连接于学习数据选择部32a,对学习数据集进行存储。学习数据集包括多个数据,该多个数据用于通过学习来生成对同义转换候选文的意思是否与第1原文的意思相同进行识别的识别模型。在本实施方式中,由于模型生成部33通过有监督(supervised)的机器学习来生成识别模型,所以例如如图5的(A)所示,语句301-1和表示该语句301-1在所述识别中是正解还是非正解的区别的正误(正解与否)数据302-1,作为学习数据集LTa中的一个数据,存储于学习数据存储部31a。另外,例如,如图5的(B)所示,学习数据集LTb存储于学习数据存储部31a,该学习数据集LTb具有与互不相同的多个片段分别对应设置的多个片段域303(303-1、303-2、303-3、303-4、303-5、303-6、303-7、303-8、……)和登记有正误数据的正误数据域304,并按各个语句Ln具有记录(record)(n是正整数)。在各片段域303中登记有表示该记录的语句Ln是否包含该片段域303的片段的片段标志(flag)。片段标志“1”表示该记录的语句Ln包含该片段域303的片段,片段标志“0”表示该记录的语句Ln不包含该片段域303的片段。正误数据在图5的(B)中由正误标志来表示,正误标志“1”表示该记录的语句Ln在所述识别中是正解,正误标志“0”表示该记录的语句Ln在所述识别中是非正解。例如,在图5的(B)所示的例子中,关于第1条记录的语句L1,因为在片段域303-1、303-2、303-3、303-4、303-5中登记有片段标志“1”,所以由片段域303-1、303-2、303-3、303-4、303-5的各片段构成,因为在正误数据域304中登记有正误标志“1”,所以在生成识别模型的机器学习中是正解的语句。
而且,在本实施方式中,如图4所示,学习数据存储部31a与同义转换DB存储部21同样地,存储有按照预先设定的预定的分类法进行分类而得到的多个学习数据集。关于学习数据集的所述预定的分类法,由于能够使同义转换部23中的同义转换的精度和识别部34中的识别的精度为同等精度,因此优选与同义转换DB的所述预定的分类法相同,但也可以不一定相同。在图4所示的例子中,所述多个学习数据集包括:工厂用的学习数据集,其用于通过在工厂所使用的文(语句,第1文)中以能够从其同义转换候选文中识别出同义转换文的方式进行学习来生成识别模型;旅行用的学习数据集,其用于通过在旅行所使用的文(第1文)中以能够从其同义转换候选文中识别出同义转换文的方式进行学习来生成识别模型;购物用的学习数据集,其用于通过在购物所使用的文(第1文)中以能够从其同义转换候选文中识别出同义转换文的方式进行学习来生成识别模型;医疗用的学习数据集,其用于通过在医疗所使用的文(第1文)中以能够从其同义转换候选文中识别出同义转换文的方式进行学习来生成识别模型;以及铁路用的学习数据集,其用于通过在铁路所使用的文(第1文)中以能够从其同义转换候选文中识别出同义转换文的方式进行学习来生成识别模型。为了分别存储这些各个学习数据集,学习数据存储部31a具备存储所述工厂用的学习数据集的工厂用学习数据存储部311、存储所述旅行用的学习数据集的旅行用学习数据存储部312、存储所述购物用的学习数据集的购物用学习数据存储部313、存储所述医疗用的学习数据集的医疗用学习数据存储部314、以及存储所述铁路用的学习数据集的铁路用学习数据存储部315等。此外,某个分类的学习数据集的数据也可以是其他分类的学习数据集的数据。如此,在本实施方式中,学习数据集的所述预定的分类法与同义转换DB的所述预定的分类法相同,对各学习数据集分别分配有对被分类成与该学习数据集同种类的同义转换DB赋予的ID。例如,对所述工厂用的学习数据集分配有对所述工厂用的同义转换DB赋予的ID,另外,例如,对所述医疗用的学习数据集分配有对所述医疗用的同义转换DB赋予的ID。
学习数据选择部32a分别连接于输入部1和模型生成部33,按照预定的选择方法从学习数据存储部31a所存储的多个学习数据集中选择与由输入部1受理的第1原文对应的学习数据集。学习数据选择部32a将该选择结果输出给模型生成部33。关于所述预定的选择方法,只要能够从学习数据存储部31a所存储的多个学习数据集中选择出与由输入部1受理的第1原文最匹配的学习数据集,则可以是任意的方法。在本实施方式中,学习数据选择部32a可以采用与同义转换DB选择部22同样的选择方法。再者,在学习数据集的选择中,例如还可以采用从所述多个学习数据集中选择文长(语句长度)最相似的学习数据集的方法(第4方式的选择方法)来作为所述预定的选择方法。
模型生成部33连接于识别部34,基于由学习数据选择部32a选择出的学习数据集,通过机器学习来生成所述识别模型。在机器学习中,例如使用深度学习(Deep Learning)、多层结构的神经网络(Neural Network)等。模型生成部33将其生成的识别模型输出给识别部34。
识别部34分别连接于同义转换候选文生成部2和对译语料库制作部4,基于由模型生成部33生成的识别模型,从由同义转换候选文生成部2生成的多个同义转换候选文中,识别一个或多个同义转换文。识别部34将通过该识别而得到的一个或多个同义转换文输出给对译语料库制作部4。
对译语料库制作部4连接于对译语料库存储部5,通过将由同义转换文识别部3a识别出的一个或多个同义转换文和由输入部1受理的第2原文设为成对文来生成新的成对文,用该生成的新的成对文来制作新的对译语料库,或者通过将该生成的新的成对文追加到已有的对译语料库中来制作(更新)对译语料库。更详细而言,在对译语料库存储部5中未存储对译语料库的情况下,对译语料库制作部4用生成的所述新的成对文来制作新的对译语料库,将该制作出的新的对译语料库存储于对译语料库存储部5。另一方面,在对译语料库存储部5中存储有对译语料库的情况下,对译语料库制作部4通过将生成的所述新的成对文追加到对译语料库存储部5所存储的已有的对译语料库中来制作(更新)对译语料库。
接着,对本实施方式中的对译语料库制作装置M的工作进行说明。图6是表示所述同义转换候选文生成部中的同义转换数据库选择部的工作的流程图。图7是表示所述同义转换候选文生成部中的同义转换部的工作的流程图。图8是表示所述同义转换文识别部中的学习数据选择部的工作的流程图。图9是表示所述同义转换文识别部中的模型生成部的工作的流程图。图10是表示所述同义转换文识别部中的识别部的工作的流程图。图11是用于说明同义转换数据库以及学习数据集的第1方式的选择方法的图。图11的(A)表示使用输入语料库的语言模型的情况,图11的(B)表示不使用输入语料库的语言模型的情况。图12是用于说明同义转换数据库以及学习数据集的第2方式的选择方法的图。图13是用于说明同义转换数据库以及学习数据集的第3方式的选择方法的图。图14是用于使用一个具体例子来说明对译语料库的制作的图。图14的(A)作为一例表示输入语料库所包含的第1原文和第2原文的成对文,图14的(B)表示图的14(A)所示的第1原文的片段,图14的(C)表示针对图14的(A)所示的第1原文的4个同义转换候选文,图14的(D)表示被判定为与图14的(A)所示的第1原文的意思相同的两个同义转换候选文(正确文)、以及未被判定为与图的14的(A)所示的第1原文的意思相同的两个同义转换候选文(错误文),而且,图14的(E)表示相对于图14的(A)所示的第1原文制作出的对译语料库。
本实施方式中的对译语料库制作装置M大致通过下面的工作来制作对译语料库。首先,输入部1受理第1语言的第1原文和用与所述第1语言不同的第2语言对所述第1原文进行翻译而得到的第2原文(受理步骤)。接着,同义转换候选文生成部2通过将由输入部1在所述受理步骤中受理的所述第1原文所包含的多个片段中的一个或多个片段同义转换成所述第1语言的其他表达,生成对所述第1原文的多个同义转换候选文(同义转换候选文生成步骤)。接着,同义转换文识别部3a从由同义转换候选文生成部2通过所述同义转换候选文生成步骤生成的所述多个同义转换候选文中,识别意思与所述第1原文的意思相同的一个或多个同义转换候选文,来作为一个或多个同义转换文(同义转换文识别步骤)。接着,对译语料库制作部4通过将由同义转换文识别部3a在所述同义转换文识别步骤中识别出的一个或多个同义转换文和在所述受理步骤中受理的所述第2原文设为成对文,生成新的成对文,用生成的所述新的成对文来制作新的对译语料库,或者通过将生成的所述新的成对文追加到已有的对译语料库中来制作(更新)对译语料库(对译语料库制作步骤)。而且,将该制作出的对译语料库存储于对译语料库存储部5。以下,使用附图进行更具体的说明。
<输入语料库的受理以及同义转换DB的选择>
本实施方式中的对译语料库制作装置M首先执行受理输入语料库的工作,并执行选择同义转换DB的工作。在该输入语料库的受理工作以及同义转换DB的选择工作中,在图6中,首先,对译语料库制作装置M通过输入部1受理输入语料库来取得输入语料库(S11)。输入语料库是汇集有使第1语言的互不相同的多个(N个)第1原文和用所述第2语言对所述多个(N个)第1原文分别进行翻译而得到的多个第2原文分别成对的多个(N个)成对文而成的语料库(N为正整数)。第1原文和第2原文可以逐个从输入部1输入到对译语料库制作装置M,但在本实施方式中,通过汇集有多个第1原文以及第2原文的输入语料库,高效地将多个第1原文以及第2原文集中从输入部1输入到对译语料库制作装置M。
接着,对译语料库制作装置M通过同义转换候选文生成部2,基于预定的基准(选择方法),选择与输入语料库接近的同义转换DB(S12)。更具体而言,同义转换候选文生成部2的同义转换DB选择部22按照预定的选择方法,从同义转换DB存储部21所存储的多个同义转换DB中,选择与由输入部1受理的输入语料库中的多个第1原文对应的同义转换DB。
所述预定的选择方法可以使用上述第1~第3方式的选择方法等。对于各方式的选择方法,以下进行更具体的说明。
如上所述,第1方式的选择方法是从多个同义转换DB中选择语言模型最接近的同义转换DB的方法。在该第1方式的选择方法中,首先,按同义转换DB存储部21所存储的各同义转换DB的各分类,预先制作各语言模型。因为按各分类来制作各语言模型,所以能够针对各分类分别制作更准确地反映了该分类的语言模型,能够选择更适合的同义转换DB。为了制作各语言模型,要按各同义转换DB的各分类准备各语料库。这些各个语料库也可以分别汇集如上述那样按各分类准备的各学习数据集中的正解的语句来分别制作。之后,对于该第1方式的选择方法,例如列举下面的第1A方式和第1B方式这两种方法。
在第1A方式中,同义转换DB选择部22利用按各同义转换DB的各分类制作出的语言模型,按各同义转换DB的各分类来求取由输入部1受理的第1原文的语言模型。而且,同义转换DB选择部22对按各同义转换DB的各分类求出的所述第1原文的语言模型进行比较,选择最接近的语言模型。
在本实施方式中,作为输入语料库而存在多个第1原文,因此,同义转换DB选择部22对由输入部1受理的输入语料库中的多个第1原文分别执行上述的各处理,将被选的次数最多的语言模型最终选择为所述最接近的语言模型。或者,同义转换DB选择部22利用按各同义转换DB的各分类制作出的语言模型,按各同义转换DB的各分类来求取由输入部1受理的第1原文的语言模型,按各同义转换DB的各分类来求取其平均值。然后,同义转换DB选择部22对按各同义转换DB的各分类求出的各平均值进行比较,最终选择最接近的语言模型。
而且,同义转换DB选择部22选择与该选择出的语言模型对应的同义转换DB。
在第1B方式中,作为输入语料库而存在多个第1原文,因此,首先,同义转换DB选择部22制作由输入部1受理的输入语料库的语言模型。接着,同义转换DB选择部22针对由输入部1受理的输入语料库中的多个第1原文的各第1原文,利用按各同义转换DB的各分类制作出的语言模型,按各同义转换DB的各分类来求取该第1原文的语言模型。然后,同义转换DB选择部22选择与输入语料库的语言模型最接近的语言模型。更详细而言,同义转换DB选择部22针对由输入部1受理的输入语料库中的多个第1原文的各第1原文,对输入语料库的语言模型和按各同义转换DB的各分类求出的语言模进行比较,选择最接近的语言模型,将该被选的次数最多的语言模型最终选择为与输入语料库的语言模型最接近的语言模型。然后,同义转换DB选择部22选择与该选择出的语言模型对应的同义转换DB。该第1B方式的选择方法制作输入语料库的语言模型作为用于比较各同义转换DB的各分类的基准,因此与第1A方式的选择方法相比,能够从各同义转换DB的各分类中选择与输入语料库更接近的同义转换DB的分类(即,同义转换DB)。
关于语言模型,只要能够在语言模型间进行比较,可以是任意的模型,在此对于使用了N-gram语言模型的情况,使用图11来说明第1A和第1B方式各自的一个具体例子。图11的(A)表示第1B方式的情况,图11的(B)表示第1A方式的情况。
N-gram语言模型作为统计语言模型之一是已知的,是求取第N个词的出现概率的语言模型。例如,在制作旅行用的同义转换DB的语言模型(旅行用的语言模型)的情况下,首先准备汇集有与旅行关联使用的多个语句的旅行语料库。接着,将该旅行语料库作为母体(种群)来求出N-gram的出现概率。由此制作旅行用的语言模型。按各同义转换DB的各分类执行这样的语言模型的制作,按各同义转换DB的各分类制作语言模型。
在这样的准备之后,在第1B方式的选择方法中,制作输入语料库的语言模型,针对输入语料库中的多个第1原文的各第1原文,利用按各同义转换DB的各分类制作出的语言模型,按各同义转换DB的各分类求出该第1原文的语言模型。其结果的一例示出在图11的(A)中。此外,第1原文的语言模型通过求取该第1原文所包含的N-gram、并将该求出的N-gram的出现概率全部相乘而求出。然后,同义转换DB选择部22选择与输入语料库的语言模型最接近的语言模型。在图11的(A)所示的例子中,对于旅行的语言模型相对于输入语料库的语言模型和交通的语言模型相对于输入语料库的语言模型,在针对多个第1原文分别比较概率的数值时,与交通的语言模型相比,在旅行的语言模型中,具有被判定为与输入语料库的语言模型接近的概率的数值的第1原文的数量更多。因此,选择旅行的语言模型,并选择旅行用的同义转换DB。
另一方面,在上述的准备之后,在第1A方式的选择方法中,针对输入语料库中的多个第1原文的各第1原文,利用按各同义转换DB的各分类制作出的语言模型,按各同义转换DB的各分类求出该第1原文的语言模型。其结果的一例示出在图11的(B)中。然后,同义转换DB选择部22选择与输入语料库最接近的语言模型。在图11的(B)所示的例子中,对于旅行的语言模型和交通的语言模型,在针对多个第1原文分别比较概率的数值时,旅行的语言模型相比于交通的语言模型,具有较大的概率的数值的第1原文的数量更多。因此,选择旅行的语言模型,并选择旅行用的同义转换DB。此外,如上所述,也可以用它们的平均值进行比较。
如上所述,第2方式的选择方法是从多个同义转换DB中选择类别最相似的同义转换DB的方法。类别化是指以共同的属性将单词进行分组,类别是对该组赋予的名称。例如,语义类别是以单词的意思进行分组而形成的组的名称,在一例中,<地名>类别是由表示地名的单词构成的组的名称,在另一例中,<货币>类别是由表示货币的单词构成的组的名称。另外,例如,词性类别是通过以单词的词性进行分组而形成的组的名称,在一例中,<名词>类别是由名词的单词构成的组的名称,在另一例中,<动词>类别是由动词的单词构成的组的名称。
在该第2方式的选择方法中,更具体而言,同义转换DB选择部22首先提取由输入部1受理的第1原文所包含的类别。接着,同义转换DB选择部22从各同义转换DB中、或者从按各同义转换DB的各分类预先准备的各语料库中,提取与所述提取出的包含在所述第1原文中的类别相同的类别并进行计数。此外,在所述第1原文中包含多个类别的情况下,按各类别进行计数。然后,同义转换DB选择部22基于计数结果来选择与第1原文最接近的同义转换DB。例如,可选择具有最大计数值的同义转换DB。另外,例如,可选择包含最多的与所述第1原文所包含的类别相同的类别的同义转换DB。另外,例如,按各个类别,可选择具有最大计数值的同义转换DB,可选择该被选的次数最多的同义转换DB。
在本实施方式中,作为输入语料库而存在多个第1原文,因此,同义转换DB选择部22针对由输入部1受理的输入语料库中的多个第1原文分别执行上述的各处理,将被选的次数最多的同义转换DB最终选择为所述最接近的同义转换DB。或者,也可以对由输入部1受理的输入语料库中的多个第1原文集中执行上述的各处理。更详细而言,同义转换DB选择部22提取由输入部1受理的输入语料库中的多个第1原文所包含的类别。接着,同义转换DB选择部22从各同义转换DB中、或者从按各同义转换DB的各分类预先准备的各语料库中,提取与所述提取出的包含在所述多个第1原文中的类别相同的类别并进行计数。此外,在所述第1原文中包含多个类别的情况下,按各类别进行计数。然后,同义转换DB选择部22基于计数结果,选择与所述多个第1原文(即输入语料库)最接近的同义转换DB。例如,可选择具有最大计数值的同义转换DB。另外,例如,可选择包含最多的与所述多个第1原文所包含的类别相同的类别的同义转换DB。另外,例如,按各个类别,可选择具有最大计数值的同义转换DB,可选择该被选的次数最多的同义转换DB。
在一个具体例子中,例如,如图12的(A)所示,从输入语料库CUin中的4个第1原文中,提取到两个类别即<地名>类别CL1和<货币>类别CL2。输入语料库CUin包含3个<地名>类别CL1,并包含1个<货币>类别CL2。如图12的(B)所示,旅行语料库CUtr包含两个<地名>类别CL1,并包含1个<货币>类别CL2。另一方面,如图12的(C)所示,工厂语料库CUfa既不包含<地名>类别CL1也不包含<货币>类别CL2,取而代之包含两个<工具>类别CL3。因此,选择旅行语料库CUtr,并选择旅行用的同义转换DB。
如上所述,第3方式的选择方法是从多个同义转换DB中选择频出词汇或特有词汇最相似的同义转换DB的方法。特有词汇被预先设定。
在该第3方式的选择方法中,更具体而言,同义转换DB选择部22首先提取由输入部1受理的第1原文所包含的特有词汇。在该特有词汇的提取中,优选在提取之前,例如执行将自然语言的语句分割成词素(在一例中是在该语言中具有语义的最小单位)串的词素分析等。接着,同义转换DB选择部22从各同义转换DB中、或者从按各同义转换DB的各分类预先准备的各语料库中,提取与所述提取出的包含在所述第1原文中的特有词汇相同的词汇并进行计数。此外,在所述第1原文中包含多个特有词汇的情况下,按各特有词汇进行计数。然后,同义转换DB选择部22基于计数结果,选择与第1原文最接近的同义转换DB。例如,可选择具有最大计数值的同义转换DB。另外,例如,可选择包含最多的与所述第1原文所包含的特有词汇相同的特有词汇的同义转换DB。另外,例如,按各个特有词汇,可选择具有最大计数值的同义转换DB,可选择该被选的次数最多的同义转换DB。
在本实施方式中,作为输入语料库而存在多个第1原文,因此,同义转换DB选择部22针对由输入部1受理的输入语料库中的多个第1原文分别执行上述的各处理,将被选的次数最多的同义转换DB最终选择为所述最接近的同义转换DB。此外,该情况下,也可以取代提取特有词汇而从输入语料库中提取频出词汇,并使用该提取出的频出词汇。频出词汇例如是以预先设定的阈值(频出次数阈值)以上的次数出现在输入语料库中的词汇。关于所述频出次数阈值,通过使用多个样本,例如设定为2、3、5、10等为了恰当地选择同义转换DB的、适当的值。另外,例如,也可以按各词汇对出现次数进行合计,将出现次数为前两成(前20%)的词汇设定为频出词汇。或者,也可以对由输入部1受理的输入语料库中的多个第1原文集中执行上述的各处理。更详细而言,同义转换DB选择部22提取由输入部1受理的输入语料库中的多个第1原文所包含的特有词汇(或频出词汇)。接着,同义转换DB选择部22从各同义转换DB中、或者从按各同义转换DB的各分类预先准备的各语料库中,提取与所述提取出的包含在所述多个第1原文中的特有词汇(或频出词汇)相同的特有词汇(或频出词汇)并进行计数。此外,在所述第1原文中包含多个特有词汇(或频出词汇)的情况下,按各特有词汇(或频出词汇)进行计数。然后,同义转换DB选择部22基于计数结果,选择与所述多个第1原文(即输入语料库)最接近的同义转换DB。例如,可选择具有最大计数值的同义转换DB。另外,例如,可选择包含最多的与所述多个第1原文所包含的特有词汇(或频出词汇)相同的特有词汇(或频出词汇)的同义转换DB。另外,例如,按各个特有词汇(或频出词汇),可选择具有最大计数值的同义转换DB,可选择该被选的次数最多的同义转换DB。
在一个具体例子中,例如,对省略图示的输入语料库进行词素分析,提取名词,从这些提取出的名词中提取出现两次以上的名词来作为频出词汇。名词的提取结果以及频出词汇示出在图13的(A)中。在所述输入语料库中,频出词汇FW1出现四次,频出词汇FW2出现四次,频出词汇FW3出现两次,频出词汇FW4出现两次,频出词汇FW5出现两次,而且,频出词汇FW6出现两次。对省略图示的旅行语料库进行词素分析,提取名词,从这些提取出的名词中提取出现两次以上的名词来作为频出词汇。名词的提取结果以及频出词汇示出在图13的(B)中。同样地,对省略图示的工厂语料库进行词素分析,提取名词,从这些提取出的名词中提取出现两次以上的名词来作为频出词汇。名词的提取结果以及频出词汇示出在图13的(C)中。其结果是,在旅行语料库中,频出词汇FW1的出现次数为两次,频出词汇FW6的出现次数为两次,而且,频出词汇FW2的出现次数为两次。另一方面,在工厂语料库中,频出词汇FW1~FW5未出现,在工厂语料库中,频出词汇FW6的出现次数为三次,频出词汇FW7的出现次数为两次,而且,频出词汇FW8的出现次数为两次。因此,选择旅行语料库,并选择旅行用的同义转换DB。
返回到图6,接着,对译语料库制作装置M通过同义转换候选文生成部2的同义转换DB选择部22,取得对通过处理S12选择出的同义转换DB赋予的ID,将该取得的ID输出给同义转换文识别部3a(S13),结束该输入语料库的受理工作以及同义转换DB的选择工作。
通过这样的工作,对译语料库制作装置M通过输入部1受理输入语料库,并选择与由输入部1受理的输入语料库对应的同义转换DB。
<同义转换候选文的生成>
接着,本实施方式中的对译语料库制作装置M执行生成同义转换候选文的工作。在该同义转换候选文的生成工作中,在图7中,首先,对译语料库制作装置M通过同义转换候选文生成部2的同义转换部23,从同义转换DB存储部21取得通过上述的处理S11~处理S13的各处理所选择出的同义转换DB(S21)。
接着,对译语料库制作装置M对由输入部1受理的输入语料库中的多个(N个)第1原文全部进行以下的处理S22以及处理S23(N为正整数)。
在处理S22中,对译语料库制作装置M通过同义转换部23判定在由输入部1受理的输入语料库中的第1原文所包含的多个片段中,是否存在与所述选择出的同义转换DB的第1片段一致的片段,在该判定的结果是存在一致的片段的情况下,将所述第1原文所包含的所述一致的片段以替换成与所述同义转换DB的第1片段关联的第2片段的方式进行同义转换(S22)。由此,对第1原文生成一个同义转换候选文。
在处理S23中,对译语料库制作装置M通过同义转换部23判定在所述处理S22中进行了处理后的所述第1原文是否还能够对片段以置换的方式进行同义转换,在该判定的结果是能够以置换的方式进行同义转换的情况下(S23:是),将处理返回到处理S22,另一方面,在结果为不能以置换的方式进行同义转换的情况下(S23:否),结束该同义转换候选文的生成工作的处理。当在处理S23中使处理返回到处理S22的情况下,进一步对第1原文生成另一个同义转换候选文。其结果是,对第1原文生成多个同义转换候选文。此外,也可以限制同义转换次数。即,在即使可以同义转换但同义转换次数达到了限制值的情况下,也结束同义转换候选文的生成工作。同义转换次数的限制值可以是包括1次的任意值。
使用图14,列举一个具体例子来说明。在图14中,在输入语料库中,如图14的(A)所示,包含第1语言的第1原文OS1和用第2语言对该第1原文OS1进行翻译而得到的第2原文OS2。该第1原文OS1如图14的(B)所示那样由5个片段SD11~SD15构成。在通过上述的处理S11~处理S13的各处理所选择出的同义转换DB中,如下所述,第1片段SD11k和第2片段SD12k互相关联(k在该例中为1~6的整数)。对于与片段SD11一致的第1片段SD111(未图示)(SD11=SD111),关联有第2片段SD122(参照图14的(C))
Figure GDA0003252207830000211
对于与片段SD13一致的第1片段SD112(未图示),关联有第2片段SD123(参照图14的(C))。再者,对于与片段SD13一致的第1片段SD115(未图示)(SD13=SD115),关联有null(空值)的第2片段SD125(参照图14的(C)
Figure GDA0003252207830000212
对于与片段SD15一致的第1片段SD111(未图示)(SD15=SD111),关联有第2片段SD121(参照图14的(C))
Figure GDA0003252207830000213
再者,对于与片段SD15一致的第1片段SD114(未图示)(SD15=SD144),关联有第2片段SD124(参照图14的(C)参照)
Figure GDA0003252207830000214
再者,对于与片段SD15一致的第1片段SD116(未图示)(SD15=SD116),关联有第2片段SD126(参照图14的(C))
Figure GDA0003252207830000215
在这样的情况下,如图14的(B)以及图的14(C)所示,在第1原文OS1中,通过处理S22以及处理S23,片段SD15被同义转换成第2片段SD121,从该第1原文OS1生成同义转换候选文CS11。通过接下来的处理S22以及处理S23,片段SD11被同义转换成第2片段SD122,从第1原文OS1生成同义转换候选文CS12。通过接下来的处理S22以及处理S23,片段SD13、SD15分别被同义转换成第2片段SD123、SD124,从第1原文OS1生成同义转换候选文CS13。然后,通过接下来的处理S22以及处理S23,片段SD13、SD15分别被同义转换成第2片段SD125、SD126,从第1原文OS1生成同义转换候选文CS14。如此,从1个第1原文OS1生成4个同义转换候选文CS11~CS14。
通过这样的工作,对译语料库制作装置M对由输入部1受理的输入语料库中的多个第1原文分别生成多个同义转换候选文。
<学习数据集的选择>
接着,本实施方式中的对译语料库制作装置M执行选择学习数据集的工作。在该学习数据集的选择工作中,在图8中,首先,对译语料库制作装置M通过同义转换文识别部3a的学习数据选择部32a,从同义转换DB选择部22取得在上述的处理S13中由同义转换DB选择部22所取得的同义转换DB的ID(S31)。
然后,对译语料库制作装置M通过学习数据选择部32a,从学习数据存储部31a所存储的多个学习数据集中,选择具有通过该处理S31取得的ID的学习数据集(S32),结束该学习数据集的选择工作的处理。
通过这样的工作,对译语料库制作装置M选择与由输入部1受理的输入语料库对应的学习数据集。
此外,在上述中,对互相对应的同分类的同义转换DB和学习数据集赋予相同的ID,基于通过同义转换DB的选择工作选择出的同义转换DB的ID,而选择了学习数据集,但也可以不使用ID,而通过与同义转换DB的选择工作同样的处理,从学习数据存储部31a所存储的多个学习数据集中,选择与由输入部1受理的输入语料库对应的学习数据集。
即,在第1方式的选择方法中,通过与同义转换DB的选择工作中的第1方式的选择方法同样的处理,从多个学习数据集中选择语言模型最接近的学习数据集。在第2方式的选择方法中,通过与同义转换DB的选择工作中的第2方式的选择方法同样的处理,从多个学习数据集中选择类别最相似的学习数据集。在第3方式的选择方法中,通过与同义转换DB的选择工作中的第3方式的选择方法同样的处理,从多个学习数据集中选择与频出词汇或特有词汇最相似的学习数据集。
在此,在学习数据集的选择工作中,还可以采用下面的第4方式的选择方法。该第4方式的选择方法是从多个学习数据集中选择文长最相似的学习数据集的方法。文长例如是总文字数。另外,例如,文长是总单词数。
在该第4方式的选择方法中,更具体而言,学习数据选择部32a首先求取由输入部1受理的第1原文的文长。然后,学习数据选择部32a按各学习数据集,求取与所求出的所述第1原文的文长之间的差异,选择具有与所求出的所述第1原文的文长最接近的文长的学习数据集。该情况下,学习数据集的文长例如是在该学习数据集中最频出的文长。或者,学习数据选择部32a按各学习数据集,求取该学习数据集中的各数据分别与所求出的所述第1原文的文长之间的各差异并求取其平均差异,选择具有所求出的所述各平均差异中的最小的平均差异的学习数据集,作为与所述第1原文的文长最接近的学习数据集。
在本实施方式中,作为输入语料库而存在多个第1原文,因此,学习数据选择部32a针对由输入部1受理的输入语料库中的多个第1原文分别执行上述的各处理,将被选的次数最多的学习数据集最终选择为所述最接近的学习数据集。或者,学习数据选择部32a求取由输入部1受理的输入语料库的文长,按各学习数据集求取与所求出的所述输入语料库的文长之间的差异,选择具有与所求出的所述输入语料库的文长最接近的文长的学习数据集。该情况下,输入语料库的文长例如是在该输入语料库中最频出的文长。
<识别模型的生成>
接着,本实施方式中的对译语料库制作装置M执行生成识别模型的工作。在该识别模型的生成工作中,在图9中,首先,对译语料库制作装置M通过同义转换文识别部3a的模型生成部33,从学习数据存储部31a取得通过上述的处理S31以及处理S32的各处理所选择出的学习数据集(S41)。
接着,对译语料库制作装置M利用模型生成部33,基于由学习数据选择部32a选择出的学习数据集,通过基于预定的基准(特性)进行机器学习来生成识别模型(S42)。例如,在词素分析之后,将N-gram语言模型和/或词袋(Bag-Of-Words)模型等的词汇的出现频度等作为特性,通过深度学习来形成识别模型。
通过这样的工作,对译语料库制作装置M在同义转换文识别部3a生成识别模型。
<同义转换文的识别以及对译语料库的制作>
接着,本实施方式中的对译语料库制作装置M执行基于识别模型从同义转换候选文中识别同义转换文的工作,而且,执行基于该识别结果制作对译语料库的工作。在该同义转换文的识别工作以及对译语料库的制作工作中,在图10中,首先,对译语料库制作装置M通过同义转换文识别部3a的识别部34,取得由模型生成部33生成的识别模型(S51)。
接着,对译语料库制作装置M利用识别部34,取得通过上述的处理S21~处理S23的各处理所生成的多个同义转换候选文(S52)。
接着,对译语料库制作装置M对通过该处理S52取得的多个(M个)同义转换候选文全部进行以下的处理S53(M为正整数)。
在该处理S53中,对译语料库制作装置M基于通过上述的处理S41~处理S42生成并通过处理S51取得的识别模型,判定是否作为同义文是正确文。在该判定的结果为作为同义文是正确文的情况下(S53:是),识别部34将判定对象的同义转换候选文设为同义转换文,另一方面,在判定为不同义而不是正确文的情况下(S53:否),识别部34不将判定对象的同义转换候选文设为同义转换文。
例如,在图14所示的一个具体例子中,对图14的(C)所示的4个同义转换候选文CS11~CS14分别执行处理S53,其结果是,如图14的(D)所示,两个同义转换候选文CS11、CS13作为同义文而被设为正确文,并被设为同义转换文,另一方面,两个同义转换候选文CS12、CS14并不是相同含义而被设为错误文(非正确文)。
通过这样的处理,识别部34基于由模型生成部33生成的识别模型,从由同义转换候选文生成部2生成的多个同义转换候选文中,识别意思与第1原文的意思相同的一个或多个同义转换候选文来作为一个或多个同义转换文。
接下来,对译语料库制作装置M通过对译语料库制作部4,基于上述的处理S53的识别结果来制作新语料库,将该制作出的新语料库与对译语料库存储部5所存储的已有的对译语料库成对地(进行关联地)存储于对译语料库存储部5,从而制作对译语料库(S54),结束该同义转换文的识别工作以及对译语料库的制作工作。更具体而言,对译语料库制作部4通过将由上述的处理S53识别出的一个或多个同义转换文和由上述的处理S11受理的第2原文设为成对文来生成新的成对文。例如,在图14所示的一个具体例子中,被设为正确文并被设为同义转换文的、图14的(D)所示的同义转换候选文CS11和图14的(A)所示的第2原文OS2,如图14的(E)的中部所示那样被设为新的成对文;被设为正确文并被设为同义转换文的、图14的(D)所示的同义转换候选文CS13和图14的(A)所示的第2原文OS2,如图14的(E)的下部所示那样被设为新的成对文。此外,在上述中是一对一地设为新的对,但也可以将被设为同义转换文的同义转换候选文CS11、CS13和第2原文OS2设为多对一的新的成对文。而且,针对输入语料库中的多个(N个)第1原文和第2原文分别执行这样的处理,收集与输入语料库中的多个(N个)第1原文和第2原文分别对应的多个新的成对文,将其设为新语料库。此外,在该新语料库中,也可以包含输入语料库本身。然后,对译语料库制作部4通过将如此制作出的新语料库和对译语料库存储部5所存储的已有的对译语料库成对地(进行关联地)存储于对译语料库存储部5,从而制作对译语料库。此外,在对译语料库存储部5中未存储已有的对译语料库的情况下,对译语料库制作部4也可以将如此制作出的新语料库作为新的对译语料库存储于对译语料库存储部5。
通过这样的工作,对译语料库制作装置M制作对译语料库。
如上所述,本实施方式中的对译语料库制作装置M和其所安装的对译语料库制作方法以及对译语料库制作程序能够自动地生成同义转换文,能够制作汇集有更多成对文的对译语料库。因此,上述对译语料库制作装置M、方法以及程序能够改善对译语料库的制作。特别是,通常在汇集有更多成对文的对译语料库的制作中,由于成对文的收集需要工夫和/或时间,因此需要花费较大的成本。然而,上述对译语料库制作装置M、方法以及程序如上所述,能够自动地生成语句,因此能够抑制成本的增加,能够降低收集一个成对文所需的单位成本(单价)。
在此,在所述专利文献3中,例如提出了在机器翻译装置的前处理中使用的、与用于将被输入的源表达变换成(同义转换成)意思相同且适合于后续处理的其他表达的自动同义转换装置、自动同义转换方法以及同义转换处理程序有关的技术。更具体而言,所述专利文献3所公开的自动同义转换装置包括:表达片段存储单元,其用于将在预定语言的第1用例文(例句)群中出现的表达片段,与所述表达片段各自在所述第1用例文群中的出现频度数一起进行存储;同义转换文存储单元,其用于将与所述预定语言的第2用例文群中的用例文分别对应的一个或者多个同义转换文,与表示得到该同义转换文时的同义转换的方式的同义转换信息一起进行存储;同义转换信息存储单元,其用于将表示从所述第2用例文群中的用例文向同义转换文同义转换的方式的同义转换信息,与这些同义转换信息的应用频度一起进行存储;检索单元,其接收成为同义转换对象的原文,从所述同义转换文存储单元所存储的同义转换文中检索与所述原文共用所述表达片段存储单元所存储的表达片段中的至少一个片段的同义转换文;评价单元,其用于针对由所述检索单元检索出的各个同义转换文与对应的原来的用例文之间的同义转换以及与所述原文之间的同义转换,对基于所述同义转换信息存储单元所存储的同义转换信息的应用频度而通过预先确定计算方法而算出的妥当性评分进行评价;以及原文同义转换单元,其用于通过将在所述同义转换文存储单元中与由所述评价单元评价得到的妥当性评分满足预定条件的同义转换文关联的同义转换信息反向应用于所述原文,生成对所述原文的同义转换文。
如此,所述专利文献3所公开的自动同义转换装置,是生成将输入到机器翻译装置的源表达同义转换成了对所述机器翻译装置而言易于翻译的表达的同义转换文的装置。因此,所述专利文献3所公开的自动同义转换装置,对一个输入文仅生成一个同义转换文而不生成多个同义转换文。再者,所述专利文献3所公开的自动同义转换装置并不将该生成的同义转换文追加到对译语料库中,不生成对译语料库。因此,所述专利文献3既没有公开也没有启示上述的实施方式。
另外,在所述专利文献4中,提出了为声音对话系统制作类似文(相似文)的技术。更具体而言,所述专利文献4所公开的装置是制作相同意图的类似文的装置,使计算机作为如下的单元发挥功能:重点(seed)文分析单元,其检索重点文(核心文)中使任意的相同意图文产生关系的重点词(核心词);近义词检索单元,其使用近义词数据库,检索与重点词类似的一个以上的近义词;重点词同现向量算出单元,其参照所述相同意图文的集合,以各语境词(上下文词语)作为向量的要素,算出由涉及重点词的各语境词的出现频度构成的重点词同现向量;近义词同现向量算出单元,其按照大量的一般文集合,以各语境词为向量的要素,算出由涉及各近义词的各语境词的出现频度构成的近义词同现向量;近义词选择单元,其与对于重点词的重点词同现向量进行比较,选择成为预定阈值以上的类似度的近义词同现向量的近义词;以及类似文制作单元,其制作重点词和各近义词同现(同时出现)的类似文。
如此,所述专利文献4是与声音对话系统有关的文献,未设想机器翻译。因此,在所述专利文献4中,未制作对译语料库。而且,所述专利文献4所公开的装置是制作相同意图的类似文的装置,因此不限于使所制作出的类似文的意思必须与其原来文的意思相同。因此,所述专利文献4既没有公开也没有启示上述的实施方式。
另外,上述对译语料库制作装置M、方法以及程序从同义转换DB存储部21所存储的多个同义转换DB中,选择与由输入部1受理的第1原文对应的同义转换DB,基于该选择出的同义转换DB来生成对所述第1原文的多个同义转换候选文,因此,能够针对所述第1原文生成更适合的同义转换候选文,能够制作更高精度的对译语料库。
另外,上述对译语料库制作装置M、方法以及程序从学习数据存储部31a所存储的多个学习数据集中,选择与由输入部1受理的第1原文对应的学习数据集,通过基于该选择出的所述学习数据集生成的识别模型,从所述多个同义转换候选文中识别所述一个或多个同义转换文,因此,能够针对所述第1原文识别出更适合的同义转换文,能够制作更高精度的对译语料库。
此外,在上述的实施方式中,对译语料库制作装置M在学习数据存储部31a中存储按照预定的分类法进行分类而得到的多个学习数据集,从这些多个学习数据集中选择了与由输入部1受理的第1原文对应的学习数据集,但也可以不进行分类而存储包括属于各种分类的多个数据的一个学习数据集,从该一个学习数据集中选择与由输入部1受理的第1原文对应的数据,制作用于实际生成识别模型的学习数据集。对于具备这样的变形形式的同义转换文识别部的对译语料库制作装置M,以下进行更具体的说明。
图15是表示所述对译语料库制作装置中的同义转换文识别部的变形形式的构成的框图。图16是用于说明所述变形形式的同义转换文识别部的工作的图。
在该变形形式中,对译语料库制作装置M中,取代具备上述的同义转换文识别部3a而具备同义转换文识别部3b。即,如图1所示,具备该变形形式的同义转换文识别部3b的对译语料库制作装置M具备输入部1、同义转换候选文生成部2、同义转换文识别部3b、对译语料库制作部4和对译语料库存储部5。这些输入部1、同义转换候选文生成部2、对译语料库制作部4以及对译语料库存储部5与上述是同样的,因此省略其说明。
例如如图15所示,该变形形式的同义转换文识别部3b具备学习数据存储部31b、学习数据选择部32b、模型生成部33和识别部34。这些模型生成部33以及识别部34与上述是同样的,因此省略其说明。
学习数据存储部31b连接于学习数据选择部32b,存储学习数据集。学习数据集包括多个数据,该多个数据用于通过学习来生成对同义转换候选文的意思是否与第1原文的意思相同进行识别的识别模型,但在该变形形式中,是不进行分类而包括属于各种分类的多个数据的一个数据集。例如,该变形形式的学习数据集包括上述的包含在工厂用的学习数据集中的多个数据、包含在旅行用的学习数据集中的多个数据、包含在购物用的学习数据集的多个数据、包含在医疗用的学习数据集中的多个数据、以及包含在铁路用的学习数据集中的多个数据。该变形形式的学习数据集的一个具体例子作为学习数据集LTc示出在图16中。在图16所示的例子中,例如,数据305-1是属于旅行分类的数据,数据305-4是属于购物分类的数据,数据305-8是属于工厂分类的数据。
学习数据选择部32b分别连接于输入部1和模型生成部33,按照预定的选择方法从学习数据存储部31b所存储的学习数据集中选择与由输入部1受理的第1原文对应的数据。关于所述预定的选择方法,例如可以采用与上述的学习数据选择部32a所使用的选择方法同样的选择方法。学习数据选择部32b将该选择结果输出给模型生成部33。
具备这样的变形形式的同义转换文识别部3b的对译语料库制作装置M,在同义转换DB的选择工作中,执行图6所示的上述的处理S11以及处理S12(不执行处理S13),在同义转换候选文的生成工作中,执行图7所示的上述的处理S21~处理S23。
接下来,该对译语料库制作装置M在从学习数据集中选择数据的数据选择工作中,取代执行图8所示的上述的处理S31以及处理S32,而通过同义转换文识别部3b的学习数据选择部32b,按照预定的选择方法从学习数据存储部31b所存储的学习数据集中选择与通过处理S11取得的输入语料库的第1原文对应的数据。例如,在图16所示的例子中,通过学习数据选择部32b,选择出由粗框包围的3个数据305-1、305-2、305-3来作为与由输入部1受理的第1原文OS3对应的数据。
而且,该对译语料库制作装置M在识别模型的生成工作中,使用如上所述由学习数据选择部32b选择出的数据,执行图9所示的上述的处理S41以及处理S42,在同义转换文的识别工作以及对译语料库的制作工作中,执行图10所示的上述的处理S51~处理S54。
具备该变形形式的同义转换文识别部3b的对译语料库制作装置M,通过这样的工作来制作对译语料库。
这样的对译语料库制作装置M、方法以及程序从学习数据存储部31b所存储的学习数据集中选择与由输入部1受理的第1原文对应的数据,通过基于该选择出的所述数据生成的识别模型,从所述多个同义转换候选文中识别所述一个或多个同义转换文,因此,能够针对所述第1原文识别更适合的同义转换文,能够制作更高精度的对译语料库。另外,该对译语料库制作装置M、方法以及程序能够省略对学习数据集的数据进行分类的工夫和/或时间。
另外,在上述的实施方式中,对译语料库制作装置M根据自输入部1输入的第1原文和第2原文中的所述第1原文,借助多个同义转换候选文得到一个或多个同义转换文,将该得到的一个或多个同义转换文和所述第2原文设为新的成对文,由此制作出对译语料库,但是,也可以进一步,根据所述第2原文,借助多个第2同义转换候选文得到一个或多个第2同义转换文,将该得到的一个或多个第2同义转换文和所述第1原文设为新的成对文,由此制作对译语料库。
图17是用于使用一个具体例子来说明所述对译语料库制作装置的变形形式的图。在这样的变形形式的对译语料库制作装置M中,同义转换候选文生成部2通过将由输入部1受理的所述第2原文所包含的多个所述片段中的一个或多个片段同义转换成所述第2语言的其他表达,进一步生成对所述第2原文的多个第2同义转换候选文。同义转换文识别部3a(3b)从由同义转换候选文生成部2生成的所述多个第2同义转换候选文中,进一步识别意思与所述第2原文的意思相同的一个或多个第2同义转换候选文来作为一个或多个第2同义转换文。对译语料库制作部4通过将由同义转换文识别部3a(3b)识别出的一个或多个第2同义转换文和由输入部1受理的所述第1原文设为成对文,来进一步生成新的第2成对文,用生成的所述新的第2成对文来进一步制作新的对译语料库,或者通过将生成的所述新的第2成对文追加到已有的对译语料库中来进一步制作对译语料库。此外,该情况下,对译语料库制作部4也可以通过将基于所述第1原文生成的同义转换文(第1同义转换文)和基于所述第2原文生成的第2同义转换文设为成对文来进一步生成新的第2成对文,用生成的所述新的第2成对文来进一步制作新的对译语料库,或者通过将生成的所述新的第2成对文追加到已有的对译语料库中来进一步制作对译语料库。
使用上述的图14所示的第1原文OS1以及第2原文OS2,举出一个具体例子来说明。在该例子中,第2原文OS2如图17的(B)下部所示,由4个片段SD21~SD24构成。在通过上述的处理S11~处理S13的各处理所选择出的同义转换DB中,下面的第1片段SD21k和第2片段SD22k互相关联(k在本例中为1~4的整数)。对于与片段SD22一致的第1片段SD211(未图示)(SD22=SD211),关联有第2片段SD221(参照图17的(C)下部)
Figure GDA0003252207830000311
而且,对于与片段SD22一致的第1片段SD212(未图示),关联有第2片段SD222(参照图17的(C)下部)。再者,对于与片段SD22一致的第1片段SD214(未图示)(SD22=SD214),关联有第2片段SD224(参照图17的(C)下部)
Figure GDA0003252207830000312
对于与片段SD24一致的第1片段SD213(未图示)(SD24=SD213),关联有第2片段SD223(参照图17的(C)下部)
Figure GDA0003252207830000313
在如此情况下的基于第2原文OS2的第2同义转换候选文的生成中,如图17的(B)以及图17的(C)所示,在第2原文OS2中,通过最初的处理S22以及处理S23,片段SD22被以置换的方式同义转换成第2片段SD221,从第2原文OS2生成第2同义转换候选文CS21。通过接下来的处理S22以及处理S23,片段SD22被以置换的方式同义转换成第2片段SD222,从第2原文OS2生成第2同义转换候选文CS22。通过接下来的处理S22以及处理S23,片段SD24被以置换的方式同义转换成第2片段SD223,从第2原文OS2生成第2同义转换候选文CS23。而且,通过接下来的处理S22以及处理S23,片段SD22、SD24分别被以置换的方式同义转换成第2片段SD224、SD223,从第2原文OS2生成第2同义转换候选文CS24。如此,从1个第2原文OS2生成4个第2同义转换候选文CS21~CS24。
在同义转换文的识别中,对图17的(C)所示的4个第2同义转换候选文CS21~CS24分别执行处理S53,其结果是,如图17的(D)所示,两个同义转换候选文CS21、CS24作为同义文被设为正确文,被设为第2同义转换文,另一方面,两个同义转换候选文CS22、CS23不同义而被设为错误文。
在对译语料库的制作中,被设为正确文并被设为第2同义转换文的、图17的(D)的第3层所示的所述第2同义转换候选文CS21和图17的(A)所示的第1原文OS1,如图17的(E)的第4层所示那样被设为新的成对文;被设为正确文且被设为同义转换文的、图17的(D)的第3层所示的所述第2同义转换候选文CS24和图17的(A)所示的第1原文OS1被设为新的成对文(未图示)。在图17所示的例子中,被设为正确文且被设为第2同义转换文的、图17的(D)的第3层所示的所述第2同义转换候选文CS21和被设为正确文且被设为同义转换文(第1同义转换文)的、图17的(D)的第1层所示的所述同义转换候选文(第1同义转换候选文)CS13,如图17的(E)的第5层所示那样被设为新的成对文。然后,用这些新的成对文来制作对译语料库。
这样的对译语料库制作装置M、方法以及程序能够对所述第1原文和第2原文相互地分别自动生成同义转换文,能够制作进一步汇集有更多的成对文的对译语料库。因此,上述对译语料库制作装置M、方法以及程序能够进一步改善对译语料库的制作。上述对译语料库制作装置M、方法以及程序如上所述对所述第1原文和第2原文相互地分别自动生成语句,因此能够进一步抑制成本的增加,能够进一步降低收集一个成对文所需的单位成本。
另外,在上述的实施方式中,同义转换文识别部3a、3b进行有监督的机器学习,但例如也可以进行使用了集群(cluster)分析等的无监督的机器学习。在进行该无教师的机器学习的情况下,通过所谓的爬虫(Crawler)从互联网收集学习数据集的各数据,由此能够省略学习数据存储部31a、31b。
接着,对另一实施方式进行说明。
(第2实施方式:机器翻译系统)
图18是表示第2实施方式中的机器翻译系统的构成的框图。图19是表示所述机器翻译系统中的学习部的工作的流程图。
在第1实施方式中,对于对译语料库制作装置M和其所安装的对译语料库制作方法以及对译语料库制作程序,以包含其变形形式的方式进行了说明,而在第2实施方式中,对使用了该对译语料库制作装置M的、即安装有对译语料库制作方法以及对译语料库制作程序的机器翻译系统进行说明。
例如如图18所示,该第2实施方式中的机器翻译系统S具备对译语料库制作装置M和翻译装置T。
对译语料库制作装置M是制作对译语料库的装置,所述对译语料库汇集有多个使第1语言的第1文和与所述第1语言不同的第2语言的第2文成对的成对文。该对译语料库制作装置M是第1实施方式中说明的装置(包含其变形形式)。即,该对译语料库制作装置M安装第1实施方式中说明的对译语料库制作方法以及对译语料库制作程序。
翻译装置T是基于由对译语料库制作装置M制作出的对译语料库,将作为翻译对象的对象文在第1语言和第2语言之间进行翻译的装置。翻译装置T例如具备学习部6、翻译部7、第2输入部8和输出部9。
第2输入部8连接于翻译部7,例如是将指示翻译开始的命令等各种命令、以及例如为了对第1语言的对象文等进行翻译所需要的各种数据输入到翻译装置T的设备,例如是键盘以及鼠标等。输出部9连接于翻译部7,是将从第2输入部8输入的命令、数据以及由翻译部7翻译得到的第2语言的翻译文等输出的设备,例如是CRT显示器、LCD(液晶显示器)以及有机EL显示器等显示装置或打印机等印刷装置等。
此外,也可以由第2输入部8和输出部9构成触摸面板。在构成该触摸面板的情况下,第2输入部8例如是电阻膜方式或静电容量方式等的检测操作位置并进行输入的位置输入装置,输出部9是显示装置。关于该触摸面板,在显示装置的显示面上设有位置输入装置,在显示装置显示可以进行输入的一个或多个输入内容的候选,当用户触摸示出了想要输入的输入内容的显示位置时,通过所述位置输入装置检测到该位置,显示在所检测到的位置的显示内容作为用户的操作输入内容输入到翻译装置T。根据这样的触摸面板,用户容易直观地理解输入操作,因此可提供对用户而言容易操作的翻译装置T(机器翻译系统S)。
学习部6连接于翻译部7,使用由对译语料库制作装置M制作出的对译语料库来生成或者学习翻译部7的翻译模型。
翻译部7将由第2输入部8受理的第1语言的对象文翻译成第2语言从而生成第2语言的翻译文,并输出给输出部9。
具备这样的各部6~9的翻译装置T例如由台式、笔记本式、平板式等的计算机等的信息处理装置构成。
在这样的翻译系统S中,对译语料库制作装置M通过第1实施方式中说明的各工作来制作新的对译语料库(新对译语料库)。接下来,在图19中,学习部6取得由该对译语料库制作装置M制作出的新对译语料库(S61),通过该取得的新对译语料库来生成或者学习翻译部7的翻译模型(S62)。本实施方式中的对译语料库制作装置M如第1实施方式中说明的那样,包含更多的例文,因此能够更高精度地生成或者学习翻译部7的翻译模型。而且,当从第2输入部8受理到对象文、并被指示进行翻译时,翻译部7对对象文进行翻译,将翻译文输出给输出部9。因为如上所述由学习部6更高精度地生成或学习翻译模型,所以翻译部7能够更高精度地进行翻译。
这样的机器翻译系统S,具备第1实施方式中说明的安装上述的对译语料库制作方法以及对译语料库制作程序的对译语料库制作装置M,因此能够自动地生成同义转换文,能够制作汇集有更多成对文的对译语料库。因此,上述机器翻译系统S能够改善对译语料库的制作。上述机器翻译系统S如上所述能够自动地生成语句,因此能够抑制成本的增加,能够降低收集一个成对文所需的单位成本。
此外,在上述的第2实施方式中,对译语料库制作装置M和翻译装置T也可以经由网络以能够互相通信的方式连接。另外,翻译装置T也可以由具备学习部6的第1主体装置和具备翻译部7、第2输入部8以及输出部9的第2主体装置构成,所述第1主体装置和所述第2主体装置经由网络以能够互相通信的方式连接。
另外,在上述的实施方式中,对译语料库制作装置M和翻译装置T由单独的信息处理装置分别来构成,但也可以由一体化的一个信息处理装置来构成。
本说明书如上所述公开了各种技术方案的技术,下面对其中的主要技术进行总结。
一个技术方案涉及的对译语料库制作方法,是制作对译语料库的方法,所述对译语料库汇集有多个使第1语言的第1文和与所述第1语言不同的第2语言的第2文成对的成对文,所述对译语料库制作方法包括:受理步骤,受理所述第1语言的第1原文和用所述第2语言对所述第1原文进行翻译而得到的第2原文;同义转换候选文生成步骤,通过将在所述受理步骤中受理的所述第1原文所包含的多个片段中的一个或多个片段同义转换成所述第1语言的其他表达,生成对所述第1原文的多个同义转换候选文,所述片段是通过按照预先设定的预定规则对语句进行分割而形成的片段;同义转换文识别步骤,从通过所述同义转换候选文生成步骤生成的所述多个同义转换候选文中,识别意思与所述第1原文的意思相同的一个或多个同义转换候选文,来作为一个或多个同义转换文;以及对译语料库制作步骤,通过将在所述同义转换文识别步骤中识别出的一个或多个同义转换文和在所述受理步骤中受理的所述第2原文设为成对文来生成新的成对文,用生成的所述新的成对文来制作新的对译语料库,或者通过将生成的所述新的成对文追加到已有的对译语料库中来制作对译语料库。
这样的对译语料库制作方法能够自动地生成同义转换文,能够制作汇集有更多成对文的对译语料库。因此,上述对译语料库制作方法能够改善对译语料库的制作。特别是,通常在汇集有更多成对文的对译语料库的制作中,由于成对文的收集需要工夫和/或时间,因此需要花费较大的成本。然而,上述对译语料库制作方法如上所述,能够自动地生成语句,因此能够抑制成本的增加,能够降低收集一个成对文所需的单位成本。此外,成对文包括在第1语言的语句和与所述第1语言不同的第2语言的语句之间一对一的成对文、多对一的成对文以及一对多的成对文。
另外,在另一技术方案中,在上述的对译语料库制作方法中,所述同义转换候选文生成步骤包括:同义转换数据库选择步骤,从按照预先设定的预定的分类法进行分类而得到的多个同义转换数据库中,选择与通过所述受理步骤受理的所述第1原文对应的同义转换数据库,所述同义转换数据库具备所述第1语言的第1片段和与所述第1片段关联的用所述第1语言的其他表达来表达了所述第1片段的第2片段;以及同义转换步骤,通过基于在所述同义转换数据库选择步骤中选择出的所述同义转换数据库,将通过所述受理步骤受理的所述第1原文所包含的多个所述片段中的一个或多个片段同义转换成所述第1语言的其他表达,生成对所述第1原文的多个同义转换候选文。
这样的对译语料库制作方法从所述多个同义转换数据库中选择与通过所述受理步骤受理的所述第1原文对应的同义转换数据库,基于该选择出的所述同义转换数据库,生成对所述第1原文的多个同义转换候选文,因此能够针对所述第1原文生成更适合的同义转换候选文,能够制作更高精度的对译语料库。
另外,在另一技术方案中,在这些上述的对译语料库制作方法中,所述同义转换文识别步骤包括:学习数据选择步骤,从按照预先设定的预定的分类法进行分类而得到的多个学习数据集中,选择与通过所述受理步骤受理的所述第1原文对应的学习数据集,所述学习数据集包括多个数据,所述多个数据用于通过学习来生成对所述同义转换候选文的意思是否与所述第1原文的意思相同进行识别的识别模型;模型生成步骤,基于通过所述学习数据选择步骤选择出的所述学习数据集,生成所述识别模型;以及识别步骤,基于通过所述模型生成步骤生成的识别模型,从通过所述同义转换候选文生成步骤生成的所述多个同义转换候选文中,识别所述一个或多个同义转换文。
这样的对译语料库制作方法从所述多个学习数据集中选择与通过所述受理步骤受理的所述第1原文对应的学习数据集,利用基于该选择出的所述学习数据集生成的识别模型,从所述多个同义转换候选文中识别所述一个或多个同义转换文,因此能够针对所述第1原文生成更适合的同义转换文,能够制作更高精度的对译语料库。
另外,在另一技术方案中,在这些上述的对译语料库制作方法中,所述同义转换文识别步骤包括:第2学习数据选择步骤,从学习数据集中选择与通过所述受理步骤受理的所述第1原文对应的数据,所述学习数据集包括多个数据,所述多个数据用于通过学习来生成对所述同义转换候选文的意思是否与所述第1原文的意思相同进行识别的识别模型;第2模型生成步骤,基于通过所述第2学习数据选择步骤选择出的所述数据,生成所述识别模型;以及第2识别步骤,基于通过所述第2模型生成步骤生成的识别模型,从通过所述同义转换候选文生成步骤生成的所述多个同义转换候选文中,识别所述一个或多个同义转换文。
这样的对译语料库制作方法从所述学习数据集中选择与通过所述受理步骤受理的所述第1原文对应的数据,利用基于该选择出的所述数据生成的识别模型,从所述多个同义转换候选文中识别所述一个或多个同义转换文,因此能够针对所述第1原文生成更适合的同义转换文,能够制作更高高精度的对译语料库。
另外,在另一技术方案中,在这些上述的对译语料库制作方法中,在所述同义转换候选文生成步骤中,进一步,通过将在所述受理步骤中受理的所述第2原文所包含的多个所述片段中的一个或多个片段同义转换成所述第2语言的其他表达,生成对所述第2原文的多个第2同义转换候选文,在所述同义转换文识别步骤中,进一步,从通过所述同义转换候选文生成步骤生成的所述多个第2同义转换候选文中,识别意思与所述第2原文的意思相同的一个或多个第2同义转换候选文,来作为一个或多个第2同义转换文,在所述对译语料库制作步骤中,进一步,通过将在所述同义转换文识别步骤中识别出的一个或多个第2同义转换文和通过所述受理步骤受理的所述第1原文设为成对文,生成新的第2成对文,用生成的所述新的第2成对文来进一步制作新的对译语料库,或者通过将生成的所述新的第2成对文追加到已有的对译语料库中来进一步制作对译语料库。
这样的对译语料库制作方法能够对所述第1原文和第2原文相互地分别自动生成同义转换文,能够制作进一步汇集有更多的成对文的对译语料库。因此,上述对译语料库制作方法能够进一步改善对译语料库的制作。上述对译语料库制作方法如上所述,能够对所述第1原文和第2原文相互地分别自动生成语句,因此能够进一步抑制成本的增加,能够进一步降低收集一个成对文所需的单位成本。
另外,另一技术方案涉及的对译语料库生成装置,是制作对译语料库的装置,所述对译语料库汇集有多个使第1语言的第1文和与所述第1语言不同的第2语言的第2文成对的成对文,所述对译语料库制作装置具备:输入部,受理所述第1语言的第1原文和用所述第2语言对所述第1原文进行翻译而得到的第2原文;同义转换候选文生成部,通过将由所述输入部受理的所述第1原文所包含的多个片段中的一个或多个片段同义转换成所述第1语言的其他表达,生成对所述第1原文的多个同义转换候选文,所述片段是通过按照预先设定的预定规则对语句进行分割而形成的片段;同义转换文识别部,从由所述同义转换候选文生成部生成的所述多个同义转换候选文中,识别意思与所述第1原文的意思相同的一个或多个同义转换候选文,来作为一个或多个同义转换文;以及对译语料库制作部,通过将由所述同义转换文识别部识别出的一个或多个同义转换文和由所述输入部受理的所述第2原文设为成对文来生成新的成对文,用生成的所述新的成对文来制作新的对译语料库,或者通过将生成的所述新的成对文追加到已有的对译语料库中来制作对译语料库。
另外,另一技术方案涉及的对译语料库生成程序,是制作对译语料库的程序,所述对译语料库汇集有多个使第1语言的第1文和与所述第1语言不同的第2语言的第2文成对的成对文,所述对译语料库制作程序用于使计算机执行如下步骤:受理步骤,受理所述第1语言的第1原文和用所述第2语言对所述第1原文进行翻译而得到的第2原文;同义转换候选文生成步骤,通过将在所述受理步骤中受理的所述第1原文所包含的多个片段中的一个或多个片段同义转换成所述第1语言的其他表达,生成对所述第1原文的多个同义转换候选文,所述片段是通过按照预先设定的预定规则对语句进行分割而形成的片段;同义转换文识别步骤,从通过所述同义转换候选文生成步骤生成的所述多个同义转换候选文中,识别意思与所述第1原文的意思相同的一个或多个同义转换候选文,来作为一个或多个同义转换文;以及对译语料库制作步骤,通过将在所述同义转换文识别步骤中识别出的一个或多个同义转换文和在所述受理步骤中受理的所述第2原文设为成对文来生成新的成对文,用生成的所述新的成对文来制作新的对译语料库,或者通过将生成的所述新的成对文追加到已有的对译语料库中来制作对译语料库。
这样的对译语料库制作装置以及对译语料库制作程序,能够自动地生成同义转换文,能够制作汇集有更多成对文的对译语料库。因此,上述对译语料库制作制作以及程序能够改善对译语料库的制作。特别是,通常在汇集有更多成对文的对译语料库的制作中,由于成对文的收集需要工夫和/或时间,因此需要花费较大的成本。然而,上述对译语料库制作制作以及程序如上所述,能够自动地生成语句,因此能够抑制成本的增加,能够降低收集一个成对文所需的单位成本。
另外,另一技术方案涉及的机器翻译系统,具备:对译语料库制作装置,其制作对译语料库,所述对译语料库汇集有多个使第1语言的第1文和与所述第1语言不同的第2语言的第2文成对的成对文;以及翻译装置,其基于由所述对译语料库制作装置制作出的对译语料库,将作为翻译对象的对象文在所述第1语言和所述第2语言之间进行翻译,所述对译语料库制作装置安装权利要求1所述的对译语料库制作方法。
这样的机器翻译系统具备安装上述的任一个对译语料库制作方法的对译语料库制作装置,因此能够自动地生成同义转换文,能够制作汇集有更多成对文的对译语料库。因此,上述机器翻译系统能够改善对译语料库的制作。上述机器翻译系统如上所述能够自动地生成语句,因此能够抑制成本的增加,能够降低收集一个成对文所需的单位成本。
为了表达本发明,在上述中参照附图利用实施方式适当且充分地说明了本发明,但应该认识到对于本领域技术人员来说容易对上述的实施方式进行变更和/或改良。因此,只要本领域技术人员实施的变更方式或改良方式不脱离权利要求书所记载的权利要求的权利范围,该变更方式或该改良方式就可被解释为包含在该权利要求的权利范围内。
产业上的可利用性
本发明能够提供得到进一步改善的对译语料库制作方法、对译语料库制作装置、对译语料库制作程序以及使用了该方法、装置和/或程序的机器翻译系统。

Claims (8)

1.一种对译语料库制作方法,是制作对译语料库的方法,所述对译语料库汇集有多个使第1语言的第1文和与所述第1语言不同的第2语言的第2文成对的成对文,所述对译语料库制作方法包括:
受理步骤,受理所述第1语言的第1原文和用所述第2语言对所述第1原文进行翻译而得到的第2原文;
同义转换候选文生成步骤,通过将在所述受理步骤中受理的所述第1原文所包含的多个片段中的一个或多个片段,基于具备所述第1语言的第1片段和与所述第1片段关联的用所述第1语言的其他表达来表达了所述第1片段的第2片段的同义转换数据库,同义转换成所述第1语言的其他表达,生成对所述第1原文的多个同义转换候选文,所述片段是通过按照预先设定的预定规则对语句进行分割而形成的片段;
同义转换文识别步骤,基于对所述同义转换候选文的意思是否与所述第1原文的意思相同进行识别的识别模型,从通过所述同义转换候选文生成步骤生成的所述多个同义转换候选文中,识别意思与所述第1原文的意思相同的一个或多个同义转换候选文,来作为一个或多个同义转换文;以及
对译语料库制作步骤,通过将在所述同义转换文识别步骤中识别出的一个或多个同义转换文和在所述受理步骤中受理的所述第2原文设为成对文来生成新的成对文,用生成的所述新的成对文来制作新的对译语料库,或者通过将生成的所述新的成对文追加到已有的对译语料库中来制作对译语料库。
2.根据权利要求1所述的对译语料库制作方法,
所述同义转换候选文生成步骤包括:
同义转换数据库选择步骤,从按在预定的领域所使用的片段进行分类而得到的多个所述同义转换数据库中,基于预定的选择方法,选择与通过所述受理步骤受理的所述第1原文最匹配的所述同义转换数据库;以及
同义转换步骤,通过基于在所述同义转换数据库选择步骤中选择出的所述同义转换数据库,将通过所述受理步骤受理的所述第1原文所包含的多个所述片段中的一个或多个片段同义转换成所述第1语言的其他表达,生成对所述第1原文的多个同义转换候选文。
3.根据权利要求1或2所述的对译语料库制作方法,
所述同义转换文识别步骤包括:
学习数据选择步骤,从按在预定的领域所使用的语句进行分类而得到的多个学习数据集中,基于预定的选择方法,选择与通过所述受理步骤受理的所述第1原文对应的学习数据集,所述学习数据集包括多个数据,所述多个数据按同义转换文与表示同义转换文是否是正解的正误数据相关联;
模型生成步骤,基于通过所述学习数据选择步骤选择出的所述学习数据集,生成所述识别模型;以及
识别步骤,基于通过所述模型生成步骤生成的识别模型,从通过所述同义转换候选文生成步骤生成的所述多个同义转换候选文中识别所述一个或多个同义转换文。
4.根据权利要求1或2所述的对译语料库制作方法,
所述同义转换文识别步骤包括:
第2学习数据选择步骤,从包括按在预定的领域所使用的语句进行分类而得到的多个学习数据集各自所包含的多个数据的学习数据集中,基于预定的选择方法,选择与通过所述受理步骤受理的所述第1原文对应的数据,所述学习数据集包括多个数据,所述多个数据按同义转换文与表示同义转换文是否是正解的正误数据相关联;
第2模型生成步骤,基于通过所述第2学习数据选择步骤选择出的所述数据,生成所述识别模型;以及
第2识别步骤,基于通过所述第2模型生成步骤生成的识别模型,从通过所述同义转换候选文生成步骤生成的所述多个同义转换候选文中识别所述一个或多个同义转换文。
5.根据权利要求1所述的对译语料库制作方法,
在所述同义转换候选文生成步骤中,进一步,通过将在所述受理步骤中受理的所述第2原文所包含的多个所述片段中的一个或多个片段,基于具备所述第2语言的第3片段和与所述第3片段关联的用所述第2语言的其他表达来表达了所述第3片段的第4片段的第2同义转换数据库,同义转换成所述第2语言的其他表达,生成对所述第2原文的多个第2同义转换候选文,
在所述同义转换文识别步骤中,进一步,基于对所述第2同义转换候选文的意思是否与所述第2原文的意思相同进行识别的第2识别模型,从通过所述同义转换候选文生成步骤生成的所述多个第2同义转换候选文中,识别意思与所述第2原文的意思相同的一个或多个第2同义转换候选文,来作为一个或多个第2同义转换文,
在所述对译语料库制作步骤中,进一步,通过将在所述同义转换文识别步骤中识别出的一个或多个第2同义转换文和在所述受理步骤中受理的所述第1原文设为成对文,生成新的第2成对文,用生成的所述新的第2成对文来进一步制作新的对译语料库,或者通过将生成的所述新的第2成对文追加到已有的对译语料库中来进一步制作对译语料库。
6.一种对译语料库制作装置,是制作对译语料库的装置,所述对译语料库汇集有多个使第1语言的第1文和与所述第1语言不同的第2语言的第2文成对的成对文,所述对译语料库制作装置具备:
输入部,受理所述第1语言的第1原文和用所述第2语言对所述第1原文进行翻译而得到的第2原文;
同义转换候选文生成部,通过将由所述输入部受理的所述第1原文所包含的多个片段中的一个或多个片段,基于具备所述第1语言的第1片段和与所述第1片段关联的用所述第1语言的其他表达来表达了所述第1片段的第2片段的同义转换数据库,同义转换成所述第1语言的其他表达,生成对所述第1原文的多个同义转换候选文,所述片段是通过按照预先设定的预定规则对语句进行分割而形成的片段;
同义转换文识别部,基于对所述同义转换候选文的意思是否与所述第1原文的意思相同进行识别的识别模型,从由所述同义转换候选文生成部生成的所述多个同义转换候选文中,识别意思与所述第1原文的意思相同的一个或多个同义转换候选文,来作为一个或多个同义转换文;以及
对译语料库制作部,通过将由所述同义转换文识别部识别出的一个或多个同义转换文和由所述输入部受理的所述第2原文设为成对文来生成新的成对文,用生成的所述新的成对文来制作新的对译语料库,或者通过将生成的所述新的成对文追加到已有的对译语料库中来制作对译语料库。
7.一种计算机可读的记录介质,其存储有制作对译语料库的对译语料库制作程序,所述对译语料库汇集有多个使第1语言的第1文和与所述第1语言不同的第2语言的第2文成对的成对文,所述对译语料库制作程序用于使计算机执行如下步骤:
受理步骤,受理所述第1语言的第1原文和用所述第2语言对所述第1原文进行翻译而得到的第2原文;
同义转换候选文生成步骤,通过将在所述受理步骤中受理的所述第1原文所包含的多个片段中的一个或多个片段,基于具备所述第1语言的第1片段和与所述第1片段关联的用所述第1语言的其他表达来表达了所述第1片段的第2片段的同义转换数据库,同义转换成所述第1语言的其他表达,生成对所述第1原文的多个同义转换候选文,所述片段是通过按照预先设定的预定规则对语句进行分割而形成的片段;
同义转换文识别步骤,基于对所述同义转换候选文的意思是否与所述第1原文的意思相同进行识别的识别模型,从通过所述同义转换候选文生成步骤生成的所述多个同义转换候选文中,识别意思与所述第1原文的意思相同的一个或多个同义转换候选文,来作为一个或多个同义转换文;以及
对译语料库制作步骤,通过将在所述同义转换文识别步骤中识别出的一个或多个同义转换文和在所述受理步骤中受理的所述第2原文设为成对文来生成新的成对文,用生成的所述新的成对文来制作新的对译语料库,或者通过将生成的所述新的成对文追加到已有的对译语料库中来制作对译语料库。
8.一种机器翻译系统,具备:
对译语料库制作装置,其制作对译语料库,所述对译语料库汇集有多个使第1语言的第1文和与所述第1语言不同的第2语言的第2文成对的成对文;以及
翻译装置,其基于由所述对译语料库制作装置制作出的对译语料库,将作为翻译对象的对象文在所述第1语言和所述第2语言之间进行翻译,
所述对译语料库制作装置安装权利要求1所述的对译语料库制作方法。
CN201611197994.6A 2016-02-01 2016-12-22 对译语料库制作方法、装置、记录介质以及机器翻译系统 Active CN107038158B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016017111A JP6655788B2 (ja) 2016-02-01 2016-02-01 対訳コーパス作成方法、該装置および該プログラムならびに機械翻訳システム
JP2016-017111 2016-02-01

Publications (2)

Publication Number Publication Date
CN107038158A CN107038158A (zh) 2017-08-11
CN107038158B true CN107038158B (zh) 2021-12-03

Family

ID=59385612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611197994.6A Active CN107038158B (zh) 2016-02-01 2016-12-22 对译语料库制作方法、装置、记录介质以及机器翻译系统

Country Status (3)

Country Link
US (1) US9916304B2 (zh)
JP (1) JP6655788B2 (zh)
CN (1) CN107038158B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102589638B1 (ko) * 2016-10-31 2023-10-16 삼성전자주식회사 문장 생성 장치 및 방법
JP7030434B2 (ja) * 2017-07-14 2022-03-07 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 翻訳方法、翻訳装置及び翻訳プログラム
JP2019061298A (ja) * 2017-09-22 2019-04-18 大日本印刷株式会社 情報処理装置、コンピュータプログラム及び文章表示方法
KR102509822B1 (ko) * 2017-09-25 2023-03-14 삼성전자주식회사 문장 생성 방법 및 장치
KR102424540B1 (ko) * 2017-10-16 2022-07-25 삼성전자주식회사 문장 생성 모델의 업데이트 방법 및 문장 생성 장치
CN107861954B (zh) * 2017-11-06 2020-11-10 北京百度网讯科技有限公司 基于人工智能的信息输出方法和装置
CN110472251B (zh) * 2018-05-10 2023-05-30 腾讯科技(深圳)有限公司 翻译模型训练的方法、语句翻译的方法、设备及存储介质
CN110555203B (zh) * 2018-05-31 2023-05-30 北京百度网讯科技有限公司 文本复述方法、装置、服务器及存储介质
CN109492233B (zh) * 2018-11-14 2023-10-17 北京捷通华声科技股份有限公司 一种机器翻译方法和装置
US10832680B2 (en) * 2018-11-27 2020-11-10 International Business Machines Corporation Speech-to-text engine customization
CN110781689B (zh) * 2019-10-25 2021-08-06 北京小米智能科技有限公司 信息处理方法、装置及存储介质
CN112836057B (zh) * 2019-11-22 2024-03-26 华为技术有限公司 知识图谱的生成方法、装置、终端以及存储介质
US11947926B2 (en) 2020-09-25 2024-04-02 International Business Machines Corporation Discourse-level text optimization based on artificial intelligence planning
JP7333377B2 (ja) * 2021-12-14 2023-08-24 楽天グループ株式会社 情報処理装置、情報処理方法およびプログラム
CN114781409B (zh) * 2022-05-12 2023-12-01 北京百度网讯科技有限公司 文本的翻译方法、装置、电子设备和存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004355224A (ja) * 2003-05-28 2004-12-16 Oki Electric Ind Co Ltd 対訳表現抽出装置、対訳表現抽出方法、および対訳表現抽出プログラム
JP2005108184A (ja) * 2003-09-09 2005-04-21 Advanced Telecommunication Research Institute International 機械翻訳システム、その制御装置、及びコンピュータプログラム
JP2005250540A (ja) * 2004-03-01 2005-09-15 Advanced Telecommunication Research Institute International 換言規則選別装置及び方法、そのためのコンピュータプログラム、並びに当該コンピュータプログラムによりプログラムされたコンピュータ
JP2006190072A (ja) * 2005-01-06 2006-07-20 Advanced Telecommunication Research Institute International 自動換言装置、自動換言方法及び換言処理プログラム
CN101526937A (zh) * 2008-03-07 2009-09-09 株式会社东芝 机器翻译设备和方法
JP2009217689A (ja) * 2008-03-12 2009-09-24 National Institute Of Information & Communication Technology 情報処理装置、情報処理方法、及びプログラム
JP2011180823A (ja) * 2010-03-01 2011-09-15 National Institute Of Information & Communication Technology 機械翻訳装置、機械翻訳方法、およびプログラム
CN102650987A (zh) * 2011-02-25 2012-08-29 北京百度网讯科技有限公司 一种基于源语言复述资源的机器翻译方法及装置
CN103530284A (zh) * 2013-09-22 2014-01-22 中国专利信息中心 短句切分装置、机器翻译系统及对应切分方法和翻译方法
CN103729347A (zh) * 2012-10-10 2014-04-16 株式会社东芝 机器翻译装置、方法及程序
CN103838718A (zh) * 2014-02-24 2014-06-04 武汉传神信息技术有限公司 一种翻译系统及翻译方法
CN104239286A (zh) * 2013-06-24 2014-12-24 阿里巴巴集团控股有限公司 同义短语的挖掘方法和装置及搜索相关内容的方法和装置
CN104408078A (zh) * 2014-11-07 2015-03-11 北京第二外国语学院 一种基于关键词的中英双语平行语料库构建方法
CN104978310A (zh) * 2014-04-08 2015-10-14 纳宝株式会社 基于各种意思类别的翻译结果的提供方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278963A (ja) 2001-03-15 2002-09-27 Logo Vista Corp 事例翻訳装置
JP3919720B2 (ja) 2003-08-28 2007-05-30 株式会社国際電気通信基礎技術研究所 換言装置及びコンピュータプログラム
JP6251562B2 (ja) 2013-12-18 2017-12-20 Kddi株式会社 同一意図の類似文を作成するプログラム、装置及び方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004355224A (ja) * 2003-05-28 2004-12-16 Oki Electric Ind Co Ltd 対訳表現抽出装置、対訳表現抽出方法、および対訳表現抽出プログラム
JP2005108184A (ja) * 2003-09-09 2005-04-21 Advanced Telecommunication Research Institute International 機械翻訳システム、その制御装置、及びコンピュータプログラム
JP2005250540A (ja) * 2004-03-01 2005-09-15 Advanced Telecommunication Research Institute International 換言規則選別装置及び方法、そのためのコンピュータプログラム、並びに当該コンピュータプログラムによりプログラムされたコンピュータ
JP2006190072A (ja) * 2005-01-06 2006-07-20 Advanced Telecommunication Research Institute International 自動換言装置、自動換言方法及び換言処理プログラム
CN101526937A (zh) * 2008-03-07 2009-09-09 株式会社东芝 机器翻译设备和方法
JP2009217689A (ja) * 2008-03-12 2009-09-24 National Institute Of Information & Communication Technology 情報処理装置、情報処理方法、及びプログラム
JP2011180823A (ja) * 2010-03-01 2011-09-15 National Institute Of Information & Communication Technology 機械翻訳装置、機械翻訳方法、およびプログラム
CN102650987A (zh) * 2011-02-25 2012-08-29 北京百度网讯科技有限公司 一种基于源语言复述资源的机器翻译方法及装置
CN103729347A (zh) * 2012-10-10 2014-04-16 株式会社东芝 机器翻译装置、方法及程序
CN104239286A (zh) * 2013-06-24 2014-12-24 阿里巴巴集团控股有限公司 同义短语的挖掘方法和装置及搜索相关内容的方法和装置
CN103530284A (zh) * 2013-09-22 2014-01-22 中国专利信息中心 短句切分装置、机器翻译系统及对应切分方法和翻译方法
CN103838718A (zh) * 2014-02-24 2014-06-04 武汉传神信息技术有限公司 一种翻译系统及翻译方法
CN104978310A (zh) * 2014-04-08 2015-10-14 纳宝株式会社 基于各种意思类别的翻译结果的提供方法及系统
CN104408078A (zh) * 2014-11-07 2015-03-11 北京第二外国语学院 一种基于关键词的中英双语平行语料库构建方法

Also Published As

Publication number Publication date
US20170220561A1 (en) 2017-08-03
JP2017138655A (ja) 2017-08-10
US9916304B2 (en) 2018-03-13
JP6655788B2 (ja) 2020-02-26
CN107038158A (zh) 2017-08-11

Similar Documents

Publication Publication Date Title
CN107038158B (zh) 对译语料库制作方法、装置、记录介质以及机器翻译系统
US10997370B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
Kim et al. Two-stage multi-intent detection for spoken language understanding
KR102329127B1 (ko) 방언을 표준어로 변환하는 방법 및 장치
CN106537370B (zh) 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统
US8131539B2 (en) Search-based word segmentation method and device for language without word boundary tag
CN107025217B (zh) 同义转换文生成方法、装置、记录介质以及机器翻译系统
CN107870901B (zh) 从翻译源原文生成相似文的方法、记录介质、装置以及系统
JP5666937B2 (ja) 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
KR102491172B1 (ko) 자연어 질의응답 시스템 및 그 학습 방법
CN104166462A (zh) 一种文字的输入方法和系统
JP6817556B2 (ja) 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム
Prabhakar et al. Machine transliteration and transliterated text retrieval: a survey
CN108536781B (zh) 一种社交网络情绪焦点的挖掘方法及系统
Palogiannidi et al. Valence, arousal and dominance estimation for English, German, Greek, Portuguese and Spanish lexica using semantic models.
CN107870900B (zh) 提供翻译文的方法、装置以及记录介质
KR101333485B1 (ko) 온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치
CN110929518A (zh) 一种使用重叠拆分规则的文本序列标注算法
Mermer Unsupervised search for the optimal segmentation for statistical machine translation
Şenel et al. Measuring cross-lingual semantic similarity across European languages
Jamro Sindhi language processing: A survey
Sen et al. Bangla natural language processing: A comprehensive review of classical machine learning and deep learning based methods
Wang et al. Mongolian named entity recognition system with rich features
Singh et al. Urdu to Punjabi machine translation: An incremental training approach
Luekhong et al. Pooja: similarity-based bilingual word alignment framework for SMT

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant