CN107870900B - 提供翻译文的方法、装置以及记录介质 - Google Patents

提供翻译文的方法、装置以及记录介质 Download PDF

Info

Publication number
CN107870900B
CN107870900B CN201710669428.9A CN201710669428A CN107870900B CN 107870900 B CN107870900 B CN 107870900B CN 201710669428 A CN201710669428 A CN 201710669428A CN 107870900 B CN107870900 B CN 107870900B
Authority
CN
China
Prior art keywords
text
texts
input
sentence
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710669428.9A
Other languages
English (en)
Other versions
CN107870900A (zh
Inventor
今出昌宏
山内真树
藤原菜菜美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2017102876A external-priority patent/JP6934621B2/ja
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Publication of CN107870900A publication Critical patent/CN107870900A/zh
Application granted granted Critical
Publication of CN107870900B publication Critical patent/CN107870900B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Abstract

本公开涉及提供翻译文的方法、装置以及程序。所述方法包括:经由用户终端,取得作为翻译对象的用第1语言记述的第1文;判定包括多个成对的用第1语言记述的文和用第2语言记述的对译文的数据库中是否包含有第1文;在判定为数据库中没有包含第1文的情况下,生成将构成第1文的一个以上的单词基于预定规则进行替换而得到的多个第2文;分别算出多个第2文与数据库所包含的用第1语言记述的多个文之间的句法的一致度;提取所算出的一致度在阈值以上的、包含于数据库的用第1语言记述的一个以上的第3文;使一个以上的第4文作为第1文的对译参照显示于用户终端,一个以上的第4文是一个以上的第3文在数据库中的用第2语言记述的对译文。

Description

提供翻译文的方法、装置以及记录介质
技术领域
本公开涉及对输入文进行翻译的技术。
背景技术
近年来,正在积极地进行如下研究:翻译输入文时,不单单提示输入文的机器翻译结果,而将多方面的翻译结果提示给用户。
例如,专利文献1公开了如下技术:生成将所输入的文本文(语句)用相同内容的其他表达进行改述(换言、说法变换)而得到的多个改述文,对生成的改述文进行机器翻译,基于翻译可信度从生成的改述文中提取翻译对象改述文的候选,从提取出的翻译对象改述文的候选中确定翻译对象的改述文。
专利文献2公开了如下技术:为了弥补机器翻译的不确定性,搜索与输入原文具有近似表达的例文,取得与搜索出的例文对应的目标语言的对译文本,将取得的对译文本与输入原文的机器翻译结果一起进行显示。
现有技术文献
专利文献1:日本特开2012-159969号公报
专利文献2:日本专利第5103718号
发明内容
发明要解决的技术问题
然而,上述现有的技术存在如果不增强翻译器所具备的知识空间则无法期望提高翻译可信度这一问题,因此需要进一步的改善。
用于解决问题的技术方案
本公开的一个技术方案涉及的方法,是提供翻译文的方法,包括:经由用户终端,取得作为翻译对象的用第1语言记述的第1文;判定包括多个成对的用所述第1语言记述的文和用第2语言记述的对译文的数据库中是否包含有所述第1文;在判定为所述数据库中没有包含所述第1文的情况下,生成将构成所述第1文的一个以上的单词基于预定规则进行替换而得到的多个第2文;分别算出所述多个第2文与所述数据库所包含的用所述第1语言记述的多个文之间的句法的一致度;提取所算出的一致度在阈值以上的、包含于所述数据库的用所述第1语言记述的一个以上的第3文;使一个以上的第4文作为所述第1文的对译参照显示于所述用户终端,所述一个以上的第4文是所述一个以上的第3文在所述数据库中的用第2语言记述的对译文。
发明效果
根据本公开,即使不为了以高可信度生成输入文或者其相似文的翻译文而增强知识空间,也能够提示对用户而言有用的翻译结果。
附图说明
图1是表示作为本公开实施方式涉及的装置的一例的翻译辅助装置的构成的框图。
图2是表示通过便携信息终端构成时的翻译辅助装置、以及通过固定式计算机构成时的翻译辅助装置的一例的图。
图3是表示通过云系统(cloud system)构成时的翻译辅助装置1的一例的图。
图4是表示改述文生成部的详细构成的框图。
图5是表示输入改述文和用例文(例句)的一例的图。
图6是对本实施方式中的具体例进行归纳而得到的表。
图7是表示输出部所显示的输出图像的一例的图。
图8是表示本公开的实施方式涉及的翻译辅助装置的处理的一例的流程图。
图9是表示图8的S5的处理的详细内容的一例的流程图。
图10是表示图8的S6的处理的详细内容的一例的流程图。
标号说明
A1、A2、A3、A4:指标               B1:输入文
C1、C2、C3:输入改述文
D1、D2、D3、D4、D5:用例文
511:上下文(语境)相似词DB       512:同现关系DB
513:蕴含关系DB                 514:上下位关系DB
1:翻译辅助装置                 2:输入部
3:用例一致判定部               4:用例对译DB
5:改述文生成部                 6:提取部
7:机器翻译部                   8:可信度赋予部
9:输出部                       51:改述DB存储部
52:改述候选生成部              53:改述文识别部
500:输出图像                   510:输入文显示栏
520、530、540:翻译辅助信息显示栏
具体实施方式
(得到本公开的一个技术方案的经过)
为了提高翻译器的翻译质量,提出了如下技术:对输入文进行改述,生成多个输入改述文,对生成的多个输入改述文的翻译文进行提示,让用户从所提示的多个输入改述文的翻译文中选择最优的翻译文(专利文献1)。
另外,也提出了将与输入文相似的语句和/或部分一致的语句的用例翻译结果和机器翻译结果一起进行提示的技术(专利文献2)。
然而,专利文献1的技术存在如下问题:当在翻译器为了生成翻译文所使用的知识空间内,不存在输入文以及输入改述文的邻近的知识数据的情况下,无法提示高精度的翻译文。
另外,专利文献2的技术存在如下问题:如果翻译器所具有的用例对译数据库中没有包含与输入文相似的用例文和/或部分一致的用例文,则无法提示可以弥补输入文的机器翻译的不确定性那样的用例对译。
如此,专利文献1、2的技术存在如果不增强知识空间则没有期望提高翻译可信度这一问题。另外,专利文献1、2的技术在即使增强了知识空间但被输入了包括所增强的知识空间的范围之外的表达的输入文的情况下,也无法期望提高翻译可信度。另外,增强知识空间在性价比方面存在问题。
本公开提供一种即使不为了以高可信度生成输入文或者其相似文的翻译文而增强知识空间,也能够提示对用户而言有用的翻译文的技术。
(1)本公开的一个技术方案涉及的方法,是提供翻译文的方法,包括:经由用户终端,取得作为翻译对象的用第1语言记述的第1文;判定包括多个成对的用所述第1语言记述的文和用第2语言记述的对译文的数据库中是否包含有所述第1文;在判定为所述数据库中没有包含所述第1文的情况下,生成将构成所述第1文的一个以上的单词基于预定规则进行替换而得到的多个第2文;分别算出所述多个第2文与所述数据库所包含的用所述第1语言记述的多个文之间的句法的一致度;提取所算出的一致度在阈值以上的、包含于所述数据库的用所述第1语言记述的一个以上的第3文;使一个以上的第4文作为所述第1文的对译参照显示于所述用户终端,所述一个以上的第4文是所述一个以上的第3文在所述数据库中的用第2语言记述的对译文。
本技术方案不单单提示作为翻译对象的第1文的改述文的翻译文。即,本技术方案从存储于数据库的用第1语言记述的多个文中提取一个以上的文作为第3文,所述一个以上的文相对于将第1文以预定规则进行替换而得到的多个第2文,句法的一致度在阈值以上。而且,本技术方案将提取出的第3文的对译文、即第4文作为对译参照进行显示。
在此,提示作为虽然内容与第1文不同但文结构与第1文一致或相似的第3文的用例对译的第4文,与提示第1文的改述文的翻译文相比,反而会提高能够提示对于用户而言有用的翻译结果的可能性。
即,提示这种第4文,更能广泛地使用生成翻译文时所使用的知识空间,获得对于用户而言有用的翻译结果。本技术方案着眼于此处,因此能够提示对于用户而言有用的翻译结果。
另外,本技术方案不要求以高可信度地生成输入文或其相似文的翻译文,所以无需使用可满足该要求那样的具备丰富的知识数据的知识空间。因此,根据本技术方案,即使不增强知识空间,也能够提示对用户而言有用的翻译结果。
(2)在上述技术方案中,也可以为,还包括:将所述多个第2文中的一个以上的第2文机器翻译成所述第2语言从而生成一个以上的第5文;使所述一个以上的第4文和所述一个以上的第5文中的至少某一方显示于所述用户终端。
在本技术方案中,生成一个以上的第5文,提示第4文和第5文中的至少某一方,所述一个以上的第5文是将第1文以预定规则进行改述而得到的多个第2文中的一个以上的第2文的翻译文。因此,通过提示第5文,能提示多种多样的翻译结果,提高能够提示对于用户而言有用的翻译结果的可能性。
(3)在上述技术方案中,也可以为,所述一致度基于第1指标来算出,所述第1指标表示所述多个第2文与所述数据库所包含的多个文的文本相似度。
根据本技术方案,从存储于数据库的多个文中提取文本相似度与多个第2文一致或相似的文作为第3文。因此,不仅能够广泛地使用知识空间,而且能够防止提取与多个第2文无关的文作为第3文。
(4)在上述技术方案中,也可以为,所述一致度基于第2指标来算出,所述第2指标是对于所述数据库所包含的多个文中的文结构与所述多个第2文一致或者相似的文,越是与所述第1文的文本相似度小的文则表示越大的值的指标。
根据本技术方案,提取数据库所包含的多个文中的、作为文结构与第2文一致或者相似的文的、内容与第1文偏离的用例文。因此,能够提取多种多样的第3文,能够广泛地使用知识空间。
(5)在上述技术方案中,也可以为,所述一致度基于第3指标来算出,所述第3指标表示所述多个第2文与所述数据库所包含的多个文的文结构的相似性。
根据本技术方案,提取文结构与多个第2文一致或者相似的文作为第3文。因此,不仅能够广泛地使用知识空间,而且能够防止提取与多个第2文相关性低的第3文。
(6)在上述技术方案中,也可以为,所述一致度基于第4指标来算出,所述第4指标是在所述多个第2文与所述数据库所包含的多个文中词性的一致数越多则表示越大的值的指标。
根据本技术方案,提取与多个第2文一致的词性的数量多的文作为第3文。因此,不仅能够广泛地使用知识空间,而且能够防止提取与多个第2文相关性低的文。
另外,本技术方案也可以使所述第1指标~第4指标中的至少两个进行组合并算出评价值。由此,能够提取更加多种多样的第3文,提示多种多样的翻译结果。其结果,能够提取出在第1语言方面与第1文的相似度低但翻译结果会成为第1文的翻译启示(hint)那样的第3文。
(7)在上述技术方案中,也可以为,越是替换部位多的第2文,则所述第1指标表示越大的值。
根据本技术方案,第2文的替换部位越多,第1指标变得越大,因此,能够提取与替换部位多的第2文相似的第3文,能够提示更加多种多样的翻译结果。
(8)在上述技术方案中,也可以为,基于所述多个第2文与所述一个以上的第3文的文本相似度,从所述多个第2文中提取所述一个以上的第2文。
根据本技术方案,相对于基于一致度提取出的第3文,从多个第2文中提取相似的第2文,因此,不仅能够广泛地使用知识空间,而且能够防止提取与第1文无关的第2文。
(9)在上述技术方案中,也可以为,所述预定规则是将构成所述第1文的片段所包含的第1单词用处于上下文相似关系的第2单词进行改述的第1改述规则。
根据本技术方案,生成将构成第1文的第1单词用处于上下文相似关系的第2单词进行改述而得到的第2文。因此,相比于采用相对于第1文仅仅是生成具有相同意思的第2文的方式的情况,能够生成多种多样的第2文。其结果,能够生成在第1语言方面与第1文的相似度低但翻译结果会成为第1文的翻译启示那样的第2文。
(10)在上述技术方案中,也可以为,所述预定规则是将构成所述第1文的片段所包含的第1单词改述为处于同现关系的第2单词的第2改述规则。
根据本技术方案,生成将构成第1文的第1单词用处于同现关系的第2单词进行改述而得到的第2文。因此,相比于采用相对于第1文仅仅是生成具有相同意思的第2文的方式的情况,能够生成多种多样的第2文。其结果,能够生成在第1语言方面与第1文的相似度低但翻译结果会成为第1文的翻译启示那样的第2文。
(11)在上述技术方案中,也可以为,所述预定规则是将构成所述第1文的片段所包含的第1单词改述为处于蕴含关系的第2单词的第3改述规则。
根据本技术方案,生成将构成第1文的第1单词用处于蕴含关系的第2单词进行改述而得到的第2文。因此,相比于采用相对于第1文仅仅是生成具有相同意思的第2文的方式的情况,能够生成多种多样的第2文。其结果,能够生成在第1语言方面与第1文的相似度低但翻译结果会成为输入文的翻译启示那样的第2文。
(12)在上述技术方案中,也可以为,所述预定规则是将构成所述第1文的片段所包含的第1单词改述为处于上下位关系的第2单词的第4改述规则。
根据本技术方案,生成将构成第1文的第1单词用处于上下位关系的第2单词进行改述而得到的第2文。因此,相比于采用相对于第1文仅仅是生成具有相同意思内容的第2文的方式的情况,能够生成多种多样的第2文。其结果,能够生成在第1语言方面与第1文的相似度低但翻译结果等会成为第1文的翻译启示那样的第2文。
(13)在上述技术方案中,也可以为,所述一个以上的第4文以其对所述第1文的改述部位区别于其他部位的方式来提示。
根据本技术方案,能够使用户容易地识别到对第1文的改述部位。
(实施方式)
图1是表示作为本公开实施方式涉及的装置的一例的翻译辅助装置1的构成的框图。翻译辅助装置1是将用第1语言记述的输入文翻译成第2语言的装置。作为第1语言,例如可以采用如日语、英语、法语、德语这样的语言。作为第2语言,可以采用与第1语言不同的语言。在下面的说明中,采用日语作为第1语言,采用英语作为第2语言,但这仅为一例。
翻译辅助装置1具备输入部2、用例一致判定部3、用例对译DB(数据库)4(数据库的一例)、改述文生成部5、提取部6、机器翻译部7、可信度赋予部8以及输出部9(提示部的一例)。在图1中,翻译辅助装置1例如通过包括CPU、ROM以及RAM的计算机来构成。输入部2例如通过触摸面板等输入装置、或者键盘及鼠标等输入装置来构成。用例一致判定部3、改述文生成部5、提取部6、机器翻译部7、可信度赋予部8例如既可以通过CPU执行使计算机作为翻译辅助装置1而发挥其功能的程序来实现,也可以由专用的硬件电路来实现。该程序既可以通过经由网络下载来提供,也可以记录于计算机可读取的非瞬时性记录介质来提供。另外,用例对译DB4可以通过存储装置(存储器)来构成。另外,输出部9可以通过显示装置或者扬声器来构成。
此外,翻译辅助装置1既可以通过智能手机和/或平板终端等便携信息终端来构成,也可以通过固定式计算机来构成。
图2是表示通过便携信息终端构成时的翻译辅助装置1、以及通过固定式计算机构成时的翻译辅助装置1的一例的图。在图2的左图中,翻译辅助装置1通过智能手机或平板终端等便携信息终端来构成。在图2的右图中,翻译辅助装置1通过固定式计算机来构成。在这些情况下,图1所示的各构成要素汇集在便携信息终端或者固定式计算机内。
或者,翻译辅助装置1也可以通过云系统来构成。图3是表示通过云系统构成时的翻译辅助装置1的一例的图。云系统通过服务器SV1以及一个或者多个终端TE1构成。服务器SV1与终端TE1以能够经由互联网等网络NT通信的方式连接。服务器SV1是通过一台或者多台计算机构成的云服务器。终端TE1既可以通过智能手机和/或平板终端等便携信息终端来构成,也可以通过固定式计算机来构成。
在该情况下,图1所示的输入部2以及输出部9通过用户所持有的终端TE1来构成。另外,图1所示的用例一致判定部3、用例对译DB4、改述文生成部5、提取部6、机器翻译部7以及可信度赋予部8通过服务器SV1来构成。也就是说,翻译辅助功能由服务器SV1实施,终端TE1提供用户接口(界面)。
重新参照图1。输入部2取得作为翻译对象的用第1语言记述的输入文(第1文的一例)。输入文是由用户输入的文,是用第1语言记述的文。
用例一致判定部3判定用例对译DB4是否存储有与输入部2所取得的输入文一致的用例文。而且,用例一致判定部3在用例对译DB4存储有与输入文一致的用例文时,将一致的用例文和包括该用例文的用例对译输出给输出部9。在此,用例一致判定部3例如在用例文和输入文完全一致的情况下判定为一致即可。另一方面,用例一致判定部3在用例对译DB4没有存储有输入部2所取得的输入文时,将该输入文输出给改述文生成部5以及机器翻译部7。
用例对译DB4是存储将用例文与用例对译文关联的一个以上的用例对译的数据库,所述用例文是用第1语言记述的文,所述用例对译文是用第2语言记述用例文而得到的文。用例对译DB4是包括多个成对的用第1语言记述的文和用第2语言记述的对译文的数据库的一例。详细而言,用例对译DB4例如是对一个用例对译分配一条记录(record)的数据库,包括用例文的字段(field)和用例对译的字段。用例文的字段中存储有用例文,用例对译的字段中存储有与用例文对应的翻译文。用例文指的是实际使用过(有使用先例)的语句,用例对译指的是实际翻译过的、用例文的翻译文。用例文与用例对译的翻译可信度例如为100%。
改述文生成部5在由用例一致判定部3判定为用例对译DB4没有存储有输入文的情况下,将输入部2所取得的输入文分割成多个片段,使用预定的改述规则(预定规则的一例)将多个片段中的一个或多个改述(替换)成第1语言的其他表达,由此,生成多个输入改述文(多个第2文的一例)。
在此,作为将输入文分割成多个片段的方法,例如采用将输入文按单词进行划分的方法。但是,本实施方式不限定于此,也可以:采用将输入文按词性进行划分的方法,或采用将输入文按预定文字数(例如两个文字、三个文字等)进行划分的方法,或采用将输入文按词组进行划分的方法,或采用将输入文按语义类别进行划分的方法,或采用将输入文按词素进行划分的方法。
另外,作为改述规则,可以采用下述的第1~第4改述规则。
第1改述规则是将构成输入文的片段所包含的第1单词用处于上下文相似关系的第2单词进行改述的规则。在此,上下文相似关系指的是在上下文中,处于相似关系的单词彼此的关系,例如可以采用登记在ALAGIN(Advanced LAnGuage Information Forum,高级语言信息论坛)语言资源的上下文相似词数据库中的单词彼此的关系。例如,作为与“ルパン三世(鲁邦三世)”处于上下文相似关系的单词,有“名探偵コナン(名侦探柯南)”、“宇宙戦艦ヤマト(宇宙战舰大和号)”等。另外,作为与“チャイコフスキー(柴可夫斯基)”处于上下文相似关系的单词,有“ブラームス(勃拉姆斯)”、“シューマン(舒曼)”、“メンデルスゾーン(门德尔松)”等。此外,在ALAGIN语言资源的上下文相似词数据库中,“ルパン三世(鲁邦三世)”和“ルパン3世(鲁邦3世)”被判断为处于上下文相似关系,但在本实施方式中,由于两者内容过于相近,因此从上下文相似关系中排除。
第2改述规则是将构成输入文的片段所包含的第1单词改述为处于同现关系的第2单词的规则。在此,同现关系指的是出现在同一文章内的频度高的单词彼此的关系,例如相当于登记在ALAGIN语言资源的单词同现频度数据库中的单词彼此的关系。例如,作为与“海外旅行(国外旅游)”处于同现关系的单词,按DICE系数从高到低的顺序,有“国内旅行(国内旅游)”、“格安航空券(特价机票)”、“ツアー(团体游)”、“航空券(机票)”、“旅行(旅游)”。另外,作为与“クリスマス(圣诞节)”处于同现关系的单词,按DICE系数从高到低的顺序,有“お正月(元旦)”、“誕生日(生日)”、“サンタ(圣诞老人)”、“冬(冬天)”、“年末(年末)”。此外,DICE系数是对单词彼此的相似性和/或同现性进行了量化的指标。
第3改述规则是将构成输入文的片段所包含的第1单词改述为处于蕴含关系的第2单词的规则。在此,蕴含关系(含意关系)指的是第1单词含有第2单词的意思的关系,例如相当于登记在ALAGIN语言资源的蕴含关系数据库中的单词彼此的关系。第1单词含有第2单词的意思意味着,如果第1单词所表现的情势成立,则同时或者在此之前第2单词所表现的情势已成立。例如,对于“チンする(用微波炉)”有“加熱する(加热)”符合该关系,对于“デトックスする(排毒)”有“解毒する(解毒)”符合该关系,对于“銀ブラする(在银座闲逛)”有“うろつく(转悠)”符合该关系,对于“アポトーシス(细胞凋亡)”有“死ぬ(死亡)”符合该关系,对于“壊れる(毁坏)”有“イカれる(破旧)”符合该关系,对于“酔っぱらう(醉)”有“飲む(喝)”符合该关系。此外,蕴含关系包括上下位关系成立的情况,也包括如“チンする”和“加熱する”这样上下位关系不成立的情况。
第4改述规则是将构成输入文的片段所包含的第1单词改述为处于上下位关系的第2单词的规则。在此,上下位关系例如指的是,登记在ALAGIN语言资源的上位词层级数据库中的单词彼此的关系。在第1单词指包括第2单词的、更一般的、更总称的、更抽象的事物的情况下,第1单词对于第2单词处于上位关系。
图4是表示改述文生成部5的详细构成的框图。改述文生成部5具备存储改述DB(数据库)的改述DB存储部51、改述候选生成部52以及改述文识别部53。改述DB是将第1语言的第1单词与用第1语言的其他表达来表现第1单词而得到的第2单词相互关联的数据库。
在本实施方式中,改述DB存储部51存储上下文相似词DB511、同现关系DB512、蕴含关系DB513以及上下位关系DB514。以下,在不特别对上下文相似词DB511、同现关系DB512、蕴含关系DB513以及上下位关系DB514进行区分的情况下,记载为改述DB。上下文相似词DB511是用于将输入文根据第1改述规则进行改述的数据库,是将处于上下文相似关系的单词彼此预先进行关联并存储的数据库。在此,作为上下文相似词DB511,例如可以采用ALAGIN语言资源的上下文相似词数据库。
同现关系DB512是用于将输入文根据第2改述规则进行改述的数据库,是将处于同现关系的单词彼此预先进行关联并存储的数据库。在此,作为同现关系DB512,例如可以采用ALAGIN语言资源的单词同现频度数据库。
蕴含关系DB513是用于将输入文根据第3改述规则进行改述的数据库,是将处于蕴含关系的单词彼此预先进行关联并存储的数据库。在此,作为蕴含关系DB513,例如可以采用ALAGIN语言资源的蕴含关系数据库。
上下位关系DB514是用于将输入文根据第4改述规则进行改述的数据库,是将处于上下位关系的单词彼此预先进行关联并存储的数据库。在此,作为上下位关系DB514,例如可以采用ALAGIN语言资源的上位词层级数据库。
改述候选生成部52通过参照改述DB来将输入文根据第1~第4改述规则的每一个进行改述,生成输入改述文。在此,改述候选生成部52例如被输入了输入文B1“門真までタクシーにしたい((我)想坐出租车去门真)”(在日语中,该表达偏口语化,另外“门真”是日本的城市名),则如“門真/まで/タクシー/に/したい”那样将输入文B1以单词为单位进行划分。而且,改述候选生成部52通过参照上下文相似词DB511、同现关系DB512、蕴含关系DB513以及上下位关系DB514的每一个来根据第1~第4改述规则的每一个将输入文进行改述,至少生成4个输入改述文。
在此,改述候选生成部52在使用第1~第4改述规则中的第i(i=1~4)改述规则来生成输入改述文时,既可以对一个单词进行改述来生成一个输入改述文,也可以对多处单词进行改述来生成一个输入改述文。另外,改述候选生成部52在使用第i改述规则对输入文进行改述时,也可以生成改述的单词数不同的多个输入改述文。
例如,改述候选生成部52从划分后的输入文中随机确定一个单词,如果改述DB中登记有与所确定的一个单词相同的单词,则将该一个单词用改述DB所登记的能改述的其他单词进行改述即可。另一方面,如果改述DB中没有登记与所确定的一个单词相同的单词,则改述候选生成部52从输入文中随机地确定该一个单词以外的另一个单词,如果改述DB中登记有与所确定的另一个单词相同的单词,则将该另一个单词用改述DB所登记的能改述的其他单词进行改述即可。改述候选生成部52反复进行这种处理,生成由第i改述规则改述出的一个或多个输入改述文即可。
例如,若在上下文相似词DB511中,作为与“タクシー(出租车)”处于上下文相似关系的单词而登记有“バス(公交车)”、“トラック(卡车)”,则既可以从“バス”、“トラック”中随机决定一个单词,用该一个单词来对“タクシー”进行改述,也可以用与“タクシー”最相似的单词来对“タクシー”进行改述。
此外,改述候选生成部52在所生成的输入改述文中添加表示改述部位的附加数据并输出给改述文识别部53即可。
改述文识别部53从输入改述文中提取像是人的语言的文,输出给提取部6。在此,改述文识别部53例如使用N-gram语言模型,算出输入改述文的出现概率,将算出的出现概率在基准值以上的输入改述文输出给提取部6。N-gram语言模型是以可能会是人使用的“语言符合程度”来作为概率进行建模得到的概率性语言模型。例如在有“今日の夕食はカレーです(今天的晚餐是咖喱饭)”这一语句B2和“今日の夕食は野球です(今天的晚餐是棒球)”这一语句B3的情况下,可以说语句B2比语句B3更合适。在该情况下,在N-gram语言模型中,语句B2的出现概率会比语句B3的出现概率高。在此,作为基准值,可以采用若出现概率低于该值则判定为是不自然的语句的值、即根据经验所获得的值。此外,改述文识别部53使得在成为输出对象的输入改述文中也包括表示改述部位的附加数据,并输出给提取部6。
重新参照图1。提取部6分别算出从改述文生成部5输出的输入改述文与存储于用例对译DB4的用例文之间的表示相关性的综合评价值(一致度的一例),基于算出的综合评价值,从用例对译DB4中提取一个以上的用例文(第3文的一例)。另外,提取部6从由改述文生成部5输出的输入改述文中提取与所提取出的用例文相似的一个以上的输入改述文。以下,将所提取出的输入改述文记述为“改述提取文”(一个以上的第2文的一例)。此外,相关性指的是,输入改述文与用例文在句法上具有一定的关系。
在此,提取部6使用下述的指标A1~指标A4来算出各输入改述文与各用例文的综合评价值。
指标A1(第3指标的一例)是表示各输入改述文与各用例文之间的文结构的相似性的指标。图5是表示输入改述文和用例文的一例的图。
参照图5,例如若作为输入文B1“門真までタクシーにしたい”的输入改述文,由改述文生成部5生成了输入改述文C1“門真までタクシーにのりたい(想乘出租车到门真)”、以及输入改述文C2“門真までバスを利用したい(想利用公交车去门真)”。
另外,假设在用例对译DB4中存储有用例文D1“とことんまで話にのりたい(对(这件事)支持到底)”以及用例文D2“京橋まで電車でいきたい(想坐电车去京桥)”。
首先,提取部6将输入改述文C1、C2按文节或单词进行划分,解析输入改述文C1、C2的文结构,生成句法树。在此,在输入改述文C1的例子中,文节“門真まで”和文节“タクシーに”都涉及到文节“のりたい”。因此,生成包括分别将与文节“門真まで”对应的节点N11和与文节“タクシーに”对应的节点N12连接于与文节“のりたい”对应的节点N13的两条边E11、E12的树结构T1。
这种树结构的生成例如能够使用作为句法解析工具的“KNP”来实现。另外,对构成语句的单词的词性的解析例如能够使用作为词素解析工具的“juman”来实现。因此,提取部6利用“KNP”以及“juman”来进行对语句的树结构的生成以及对构成语句的单词的词性的提取即可。
在输入改述文C2的例子中,文节“門真まで”和文节“バスを”都涉及到文节“利用したい”。因此,生成包括分别将与文节“門真まで”对应的节点N21和与文节“バスを”对应的节点N22连接于与文节“利用したい”对应的节点N23的两条边E21、E22的树结构T2。
在用例文D1的例子中,文节“とことんまで”和文节“話に”都涉及到文节“のりたい”。因此,生成包括分别将与文节“とことんまで”对应的节点N31和与文节“話に”对应的节点N32连接于与文节“のりたい”对应的节点N33的两条边E31、E32的树结构T3。
在用例文D2的例子中,文节“京橋まで”和文节“電車で”都涉及到文节“いきたい”。因此,生成包括分别将与文节“京橋まで”对应的节点N41和与文节“電車で”对应的节点N42连接于与文节“いきたい”对应的节点N43的两条边E41、E42的树结构T4。
如此,提取部6对输入改述文和用例文的树结构进行解析。而且,提取部6例如使用树匹配(tree matching)的方法,算出输入改述文和用例文的树结构的相似度来作为指标A1即可。此外,用例文的树结构也可以事先存储于用例对译DB4。在本实施方式中,指标A1取0~100%的数值,树结构一致的程度越高则值越大。
在图5的例子中,输入改述文C1、C2和用例文D1、D2的树结构T1~T4全部为相同的结构。因此,提取部6将输入改述文C1的对用例文D1、D2的指标A1分别计算为100%。另外,提取部6将输入改述文C2的对用例文D1、D2的指标A1也分别计算为100%。
此外,在图5中,<体言>(名词或代词)以及<用言:动>等括号的记载是为了便于对所对应的文节的词性进行说明所附加的内容,实际上没有在指标A1的计算中被使用。
指标A2(第4指标的一例)是各输入改述文和各用例文中的词性的一致数越多则表示越大的值的指标。
在本实施方式中,提取部6在文结构一致的输入改述文与用例文中(在指标A1为100%的输入改述文与用例文中),根据位于同一部位的文节彼此的词性的一致数来算出指标A2。
在图5的例子中,提取部6在文结构一致的输入改述文与用例文中,以根据名词而位于同一部位的文节的词性越一致则值越大的方式算出指标A2。以下,将“位于同一部位的文节”记述为“相对应的文节”。另外,“名词文节”意味着“包含名词的文节”。例如,文节“門真まで”由单词“門真”和单词“まで”构成,由于单词“門真”为名词,因此“門真まで”成为名词文节。
详细而言,指标A2根据下述式(1)来规定。
指标A2=(1-α/β)×100(%)     (1)
α:相对应的文节彼此不都是名词的数量
β:输入改述文的名词文节的总数
在图5所示的输入改述文C1中,名词文节为“門真まで”和“タクシーに”这两个。另外,与输入改述文C1的文节“門真まで”对应的用例文D1的文节“とことんまで”为副词,与输入改述文C1的文节“タクシーに”对应的用例文D1的文节“話に”为名词。因此,在输入改述文C1与用例文D1中,β=2,α=1,指标A2为50%。
另外,与输入改述文C1的文节“門真まで”对应的用例文D2的文节“京橋まで”为名词,与输入改述文C1的文节“タクシーに”对应的用例文D2的文节“電車で”为名词。因此,在输入改述文C1与用例文D2中,β=2,α=0,指标A2为100%。同样地,输入改述文C2与用例文D1、D2的指标A2分别为50%、100%。
此外,式(1)的α也可以是相对应的文节彼此的类别(category)不同的数量。在此,类别例如指的是如地名、交通、抽象物这样的名词的单词所属的种类。在图5中,作为地名,对应有“門真”以及“京橋”,作为交通,对应有“タクシー”和“バス”,作为抽象物,对应有“話”。
在采用该方式的情况下,例如,输入改述文C1的文节“タクシーに”以及用例文D1的文节“話に”都是名词文节,但由于前者的类别为“交通”,后者的类别为“抽象物”,因此α被计数加1,由此,相比于采用不考虑类别的方式的情况,指标A2会变小。
在此,提取部6针对文结构一致的输入改述文和用例文算出了指标A2,但本公开不限定于此,也可以不考虑文结构是否一致、即独立于指标A1,算出指标A2。另外,基于名词文节的一致数算出了指标A2,但也可以基于词性的一致数来算出指标A2。
例如,假设存在包括“文节C11/文节C12/文节C13/文节C14”而成的输入改述文C1X。另外,假设存在包括“文节D11/文节D12/文节D13”而成的用例文D1X。此外,“/”表示文节的间隔。在该情况下,提取部6在输入改述文C1X与用例文D1X中,提取从开头数位于相同位次的文节彼此作为相对应的文节,基于提取出的文节彼此的词性的一致数来算出指标A2即可。
例如,提取部6提取“文节C11”与“文节D11”、“文节C12”与“文节D12”、以及“文节C13”与“文节D13”这三个文节对(pair)作为相对应的文节。此外,由于“文节C14”没有用例文D1X所对应的文节,因此从提取对象排除。然后,提取部6算出词性不一致的文节对的总数作为α,将从输入改述文C1X提取出的文节数作为β,使用式(1)来算出指标A2即可。
指标A3(第2指标的一例)是文结构和输入改述文一致的用例文与输入文之间的文本相似度越小则表示越大的值的指标。
详细而言,指标A3根据式(2)来规定。
指标A3=100-输入文与用例文的文本相似度(2)
首先,提取部6从用例对译DB中提取文结构与输入改述文一致的用例文。然后,提取部6算出所提取出的用例文与输入文的文本相似度,以使所算出的文本相似度越小则值越大的方式对每个用例文算出指标A3。
文结构一致意味着如上述那样树结构一致,即指标A1为100%。文本相似度表示语句的表达及字面这样的语句彼此的内容以怎样的程度一致,例如使用计算两个字符串彼此的相似性的PHP语言的similar_text函数来算出。
例如,作为对输入文B1“門真までタクシーにしたい”的输入改述文,生成了输入改述文C1“門真までタクシーにのりたい”。在该情况下,提取部6从对译用例DB4中提取文结构与输入改述文C1一致的用例文。在此,假设提取了用例文D2“京橋まで電車でいきたい”、用例文D3“守口まで車を利用したい(利用汽车去守口)”、用例文D4“東京まで新幹線で行く(坐新干线去东京)”以及用例文D5“とことんまで話にのりたい”这四个用例文。
在该情况下,提取部6使用式(2)算出输入文B1与四个用例文D2~D5的各自的指标A3。
在上述说明中,提取部6在算出指标A3时,提取了文结构与输入改述文一致的用例文,但本公开不限定于此,也可以提取文结构与输入改述文相似的用例文。在此,文结构相似例如相当于指标A1在基准值以上的情况。作为基准值,可以采用50%、60%、70%、80%、90%这样的至少大于50%的值。
指标A4(第1指标的一例)是表示输入改述文与用例文的文本相似度的指标。文本相似度与算出指标A3时所使用的文本相似度相同。
在本实施方式中,提取部6从对译用例DB4中提取文结构与输入改述文一致的用例文、即指标A1为100%的用例文,算出所提取的用例文与输入改述文的各自的文本相似度来作为指标A4。
例如,若生成了上述的输入改述文C1“門真までタクシーにのりたい”,则提取部6从对译用例DB4中提取文结构与输入改述文C1一致的用例文。在此,假设提取出在关于指标A3的说明中的四个用例文D2~D5。在该情况下,提取部6算出输入改述文C1与用例文D2~D5的各自的文本相似度来作为指标A4即可。
此外,提取部6也可以以改述部位越多的输入改述文则值越大的方式算出指标A4。例如,提取部6也可以通过对文本相似度乘以改述率,算出最终的指标A4。作为改述率,例如可以采用输入改述文的所有字符数中的、被改述的字符数的比例。
而且,提取部6算出各用例文的指标A1~A4的例如乘积来作为各用例文的综合评价值。然后,提取部6按综合评价值从大到小的顺序提取n(大于等于1的整数)个用例文。
此外,提取部6也可以提取各用例文中的综合评价值大于基准值(阈值的一例)的用例文。或者,提取部6也可以提取各用例文中的综合评价值大于基准值的用例文,并在所提取出的用例文大于等于n个时,按综合评价值从大到小的顺序提取n个用例文。
而且,提取部6从用例对译DB4中提取所提取出的n个用例文的用例对译,输出给输出部9。
提取部6在结束提取用例文的处理后,进行提取与所提取出的n个用例文相似的n个改述提取文的处理。在此,提取部6通过对所提取出的n个用例文的每一个,提取指标A4为最大的输入改述文,从而提取作为n个改述提取文。
例如,若从改述文生成部5输出四个输入改述文C1~C4,根据综合评价值提取出两个用例文D1、D2,则提取部6对用例文D1、D2的每一个算出输入改述文C1~C4的各自的指标A4。而且,提取部6提取在用例文D1、D2的每一个中指标A4为最大的输入改述文来作为改述提取文。
在上述说明中,提取部6使用全部的指标A1~A4来算出综合评价值,但本公开不限定于此,提取部6也可以使用指标A1~A4中的至少一个来算出综合评价值。另外,提取部6采用指标A1~A4的乘积作为综合评价值,但本公开不限定于此,提取部6也可以采用指标A1~A4的平均值和/或加权平均值作为综合评价值。
机器翻译部7通过将从提取部6输出的n个改述提取文分别机器翻译成第2语言,生成n个改述翻译文(第5文的一例)。在此,在机器翻译部7中,通过利用某种翻译引擎来进行机器翻译。例如,机器翻译部7可以利用网站上所提供的翻译引擎,也可以利用翻译辅助装置1本身所具备的翻译应用软件。另外,机器翻译部7对从用例一致判定部3输出的输入文进行机器翻译,生成输入翻译文。
可信度赋予部8算出由机器翻译部7生成的n个改述翻译文的翻译可信度。在此,可信度赋予部8根据将改述翻译文从第2语言逆向翻译成第1语言时的与所对应的改述提取文的一致度来算出翻译可信度即可。另外,可信度赋予部8也对输入翻译文算出翻译可信度。
输出部9显示由提取部6提取出的n个用例对译(第4文的一例)。另外,输出部9将由机器翻译部7生成的n个改述翻译文及其所对应的n个输入改述文与翻译可信度一起进行显示。再者,输出部9将输入文及输入翻译文与翻译可信度一起进行显示。
此外,输出部9在由用例一致判定部3判定为输入文与用例对译DB4所存储的某个用例文一致的情况下,显示从用例一致判定部3输出的用例对译即可。
图7是表示输出部9所显示的输出图像500的一例的图。输出图像500包括输入文显示栏510和翻译辅助信息显示栏520。输入文显示栏510将输入文511“門真までタクシーにしたい”和作为输入文511的机器翻译结果的输入翻译文512“I want to taxi to kadoma”(机器翻译的结果例,由于输入文511的表达偏重于口语化,因此该英语译文存在语病)进行排列显示。另外,在输入文显示栏510中,也显示有表示输入翻译文512的翻译可信度的可信度显示栏513。在此,输入翻译文512的逆向翻译结果与输入文511的一致度为70%,因此在可信度显示栏513中显示为“70%”。
翻译辅助信息显示栏520是显示与输入文511关联的用例文等的显示栏。在此,由提取部6提取了两个用例文作为对输入文511的用例文,因此,显示有与两个用例文531a、541a对应的两个翻译辅助信息显示栏530、540。另外,用例文531a的综合评价值高于用例文541a,因此,与用例文531a对应的翻译辅助信息显示栏530显示在与用例文541a对应的翻译辅助信息显示栏540的上侧。
在翻译辅助信息显示栏530中,包括附有“参考用例1”这一标题的参考用例显示栏531以及附有“参考翻译1”这一标题的参考翻译显示栏532。
在参考用例显示栏531中,排列显示有综合评价值为首位的用例文531a“京橋まで電車でいきたい”以及与其对应的用例对译531b“I want to go by train to kyobashi”。
在参考翻译显示栏532中,排列显示有对于用例文531a,文本相似度(指标A4)为最大的改述提取文532a“門真まで電車でいきたい(想坐电车去门真)”以及与其对应的改述翻译文532b“I want to go by train to kadoma”。
另外,在翻译辅助信息显示栏530中,显示有表示改述翻译文532b的翻译可信度的可信度显示栏533。在此,改述翻译文532b的逆向翻译结果与改述提取文532a的一致度为95%,因此显示为“95%”。
另外,对于改述提取文532a,在“電車でいきたい”处画了下划线,使得对于输入文511的改述部位显示为能够区别于其他部位。另外,对于改述翻译文532b,也在“I want togo by train”处画了下划线,使得改述部位的翻译结果显示为能够区别于其他部位的翻译结果。
由此,用户能够一目了然地在改述提取文532a以及改述翻译文532b中识别出对于输入文511的改述部位。
翻译辅助信息显示栏540也与翻译辅助信息显示栏530同样地,显示有参考用例显示栏541和参考翻译显示栏542。
在参考用例显示栏541中,排列显示有综合评价值为第2位的用例文541a“守口まで車を利用したい”以及与其对应的用例对译541b“I want to take a car tomoriguchi”。
在参考翻译显示栏542中,排列显示有对于用例文541a,文本相似度(指标A4)为最大的改述提取文542a“門真までバスを利用したい”以及与其对应的改述翻译文542b“Iwant to take the bus to kadoma”。
在改述提取文542a中,对于输入文511的改述部位为“バスを利用したい”,因此对该部位画了下划线。另外,在改述翻译文542b中,对与改述部位对应的翻译部位“I want totake the bus”画了下划线。再者,改述翻译文542b的逆向翻译结果与改述提取文的一致度为90%,因此,在可信度显示栏中显示为“90%”。
如此,在输出图像500中,所包括的用例文的综合评价值越高,则翻译辅助信息显示栏520越显示于上侧,因此,用户能够一目了然地识别出包括重要度高的用例对译以及改述翻译文等的翻译支援信息。
此外,在图7的例子中,示出了两个翻译辅助信息显示栏520,但这仅为一例,如果由提取部6提取出三个以上的用例文,则输出图像500显示包括三个以上的用例文的翻译辅助信息显示栏520即可。在该情况下,也以综合评价值越高的用例文越位于上侧的方式显示翻译辅助信息显示栏520即可。
另外,在图7的例子中,使用下划线对改述部位(字符串)进行了突出(highlight)显示,但本公开不限定于此,也可以:采用对改述部位的背景赋予标记来突出显示的方式,或采用将改述部位的字符颜色改变为不同于非改述部位的字符颜色来突出显示的方式,或采用以粗体字突出显示改述部位的方式,或采用将这些方式进行组合而得到的方式。再者,本公开也可以不对改述部位进行突出显示,而对非改述部位进行突出显示。
另外,在图7的例子中,没有特别对用例文以及用例对译进行突出显示,但本公开不限定于此,也可以将与改述提取文对应的用例文以及用例对译的地方(字符串)进行突出显示。
接着,对翻译辅助装置1中的提取部6的处理的具体例进行说明。在此,假设输入了输入文(I)“門真までタクシーにしたい”,并由改述文生成部5生成了以下的三个输入改述文。在本例中,假设(A)~(C)全部具有相同的文结构、即相同的树结构。
(A)“門真まで電車でいきたい”
(B)“門真までバスを利用したい”
(C)“門真までタクシーにのりたい”
另外,设指标A1为100%,即,对于上述的输入改述文(A)~(C),从用例对译DB4中提取出具有相同文结构的下述四个用例文(1)~(4)。此外,在该具体例中,假设提取部6从用例对译DB4中提取文结构与输入改述文相同的用例文,对提取出的用例文算出指标A2~指标A4。
(1)“京橋まで電車でいきたい”
(2)“守口まで車を利用したい”
(3)“東京まで新幹線で行く”
(4)“とことんまで話にのりたい”
接着,提取部6对用例文(1)~(4)的每一个,使用上述的式(1)算出指标A2。在该具体例中,输入改述文(A)~(C)具有相同的文结构,因此,以输入改述文(A)为代表,算出用例文(1)~(4)与输入改述文(A)的指标A2。
输入改述文(A)的名词文节为“京橋まで”和“電車で”这两个,即总数为2,因此β=2。
另外,用例文(1)~(3)对于输入改述文(A),相对应的文节彼此不都是名词的数量为0,因此α=0,指标A2=100%。另一方面,在用例文(4)中,与输入改述文(A)的名词文节“電車で”对应的文节“話に”为名词,但与输入改述文(A)的名词文节“門真まで”对应的文节“とことんまで”不是名词。因此,用例文(4)对于输入改述文(A),相对应的文节彼此不都是名词的数量为1。由此,对于用例文(4),α=1,指标A2=(1-1/2)×100=50%。因此,如图6的表H1所示,用例文(1)~(4)的指标A2分别为“100%”、“100%”、“100%”、“50%”。图6是对本实施方式中的具体例进行归纳而得到的表H1。在表H1中,算出了对用例文(1)~(4)的指标A2~A4。
接着,提取部6使用上述的式(2),分别算出用例文(1)~(4)与输入文(I)的指标A3。在此,如表H1所示,用例文(1)~(4)的指标A3分别被算出为“36.8%”、“41.1%”、“61.8%”、“55.8%”。由此可知,用例文(1)~(4)中的用例文(3)“東京まで新幹線で行く”相对于输入文(I)“門真までタクシーにしたい”,文本相似度最低,即意思内容相差最远。
此外,在该具体例中,输入改述文(B)、(C)的指标A3成为与输入改述文(A)的指标A3相同的值。其原因在于,对于输入改述文(B)、(C),在算出指标A3时,也使用了用例文(1)~(4)。
如此,通过提取指标A3大的用例文,能够提取出文结构与输入文相似但意思内容出现了偏离的用例文。其结果,能够向用户提示多种多样的用例对译。
接着,提取部6分别算出输入改述文(A)~(C)与用例文(1)~(4)的指标A4。在该具体例中,算出3×4=12个指标A4,各自的值如表H1所示。
接着,提取部6根据指标A1×指标A2×指标A3×指标A4来算出用例文(1)~(4)的综合评价值[%]。在该具体例中,按用例文(1)~(4)的顺序获得了从高(大)到低(小)的综合评价值。此外,在该具体例中,用例文(1)~(4)的文结构与输入改述文(A)~(C)相同,因此,用例文(1)~(4)的指标A1全部为100%。
接着,提取部6按综合评价值从高到低的顺序提取前n个用例文,并从用例对译DB4中提取包括所提取出的n个用例文的n个用例对译。例如,如果n=2,则提取部6提取包括用例文(1)、(2)的两个用例对译。
接着,提取部6提取在所提取出的用例文中指标A4(文本相似度)为最大的输入改述文来作为改述提取文。在此,提取了用例文(1)、(2),因此,提取出在用例文(1)中指标A4为最大的输入改述文(A)、和在用例文(2)中指标A4为最大的输入改述文(B)作为改述提取文。
接着,对翻译辅助装置1的流程图进行说明。图8是表示本公开的实施方式涉及的翻译辅助装置1的处理的一例的流程图。
首先,输入部2受理来自用户的操作,取得输入文(S1)。在此,例如取得了输入文(I)“門真までタクシーにする”。
接着,用例一致判定部3判定用例对译DB4中是否存储有与输入文(I)一致的用例文(S2)。在此,在用例对译DB4中存在与输入文(I)一致的用例文时(S2:是),用例一致判定部3从用例对译DB4中提取一致的用例文的用例对译,输出部9显示所提取出的用例对译(S3)。
另一方面,在用例对译DB4没有存储与输入文(I)一致的用例文时(S2:否),处理前进至S4。
在S4中,改述文生成部5通过使用上述的第1~第4改述规则来对输入文(I)进行改述从而生成多个输入改述文(S4)。由此,例如生成了上述的输入改述文(A)~(C)。
接着,提取部6通过对输入改述文(A)~(C)与存储于用例对译DB4的用例文进行比较,算出上述的综合评价值,并通过按照算出的综合评价值从大到小的顺序提取n个用例文,从而提取n个用例对译(S5)。由此,例如提取出上述的两个用例文(1)、(2)以及包括它们的用例对译。
接着,提取部6通过从在S4中生成的输入改述文中,对于在S5中提取出的n个用例文的每一个,提取文本相似度最大的输入改述文,从而提取n个改述提取文(S6)。由此,例如提取出上述的两个输入改述文(A)、(B)来作为改述提取文。
接着,机器翻译部7通过对在S6中提取出的n个改述提取文进行机器翻译从而生成n个改述翻译文,并且通过对在S1中取得的输入文进行机器翻译从而生成输入翻译文(S7)。由此,例如生成了上述的两个输入改述文(A)、(B)的改述翻译文以及输入翻译文。
接着,可信度赋予部8算出在S7中生成的输入翻译文以及n个改述翻译文的翻译可信度(S8)。接着,输出部9将包括在S5中提取出的用例对译、在S7中生成的输入翻译文及改述翻译文、和在S8中算出的翻译可信度等的翻译结果显示于输出图像500(S9)。
图9是表示图8的S5的处理的详细内容的一例的流程图。循环L5是对如下的组的每一个反复进行S501的处理的循环,所述组是在S4中生成的所有输入改述文中的一个输入改述文、与用例对译DB4所存储的所有用例对译中的一个用例对译的组。循环L5在对在S4中生成的所有输入改述文和用例对译DB4所存储的所有用例对译执行了S501的处理后结束。
在S501中,提取部6算出对一个输入改述文与一个用例文的组的指标A1~A4。另外,在S501中,提取部6根据算出的指标A1~A4来算出对一个组的综合评价值。
假设在S4中生成了输入改述文(A)~(C),首先,对输入改述文(A)算出与用例对译DB4所存储的所有用例文的各自的综合评价值,接着,对输入改述文(B)算出与用例对译DB4所存储的所有用例文的各自的综合评价值,接着,对输入改述文(C)算出与用例对译DB4所存储的所有用例文的各自的综合评价值。
在S502中,提取部6提取综合评价值靠前的n个用例文和与n个用例文对应的n个用例对译。
图10是表示图8的S6的处理的详细内容的一例的流程图。循环L61是对在S5中提取出的n个用例文中的每一个用例文(i)执行的循环。i是确定n个用例文中的一个用例文的索引(index),是大于等于1且小于等于n的整数。结束循环L61的条件为对n个用例文的处理结束、即变为i=n。循环L62是在循环L61的一个循环中对一个用例文(i)与所有输入改述文的每一个的组反复进行S601~S602的处理的循环。结束循环L62的条件是对于一个用例文(i)与所有输入改述文的每一个结束了S601~S602的处理。
在S601中,提取部6算出一个用例文(i)与所有输入改述文中的一个输入改述文的指标A4。接着,提取部6在所算出的指标A4在一个用例文(i)中为最大时(S601:是),将该输入改述文作为改述提取文(i)保持在存储器中(S602)。
另一方面,在所算出的指标A4在一个用例文(i)中并非最大时(S601:否),不进行S602的处理而继续进行循环L62。通过反复进行循环L62,对于一个用例文(i),从所有输入改述文中决定出指标A4为最大的输入改述文(i)。而且,通过循环L61,对于n个用例文(i)提取出指标A4为最大的n个输入改述文(i)。
例如,假设在S4中生成了输入改述文(A)~(C),在S5中提取出用例文(1)~(4)。在该情况下,首先,对于用例文(1),从输入改述文(A)~(C)中提取出指标A4为最大的输入改述文来作为改述提取文(1),接着,对于用例文(2),从输入改述文(A)~(C)中提取出指标A4为最大的输入改述文来作为改述提取文(2),像这样,提取出四个改述提取文。
如此,根据本实施方式,不单单提示输入改述文的翻译文。即,在本实施方式中,提取用例对译DB4所存储的用例文中的、对于输入改述文的综合评价值在基准值以上的n个用例文,并且提取与所提取的n个用例文相似的n个输入改述文。而且,提示将所提取的n个输入改述文进行机器翻译而得到的n个改述翻译文以及所提取的n个用例文的n个用例对译。
由此,能够广泛地使用在生成输入文或其相似文的翻译文时所使用的知识空间,提示对于用户而言有用的翻译结果。
另外,本实施方式不要求以高可信度地生成输入文或其相似文的翻译文,所以无需使用可满足该要求那样的具备范围广且丰富的知识数据的知识空间。因此,根据本实施方式,即使不增强知识空间,也能够提示对用户而言有用的翻译结果。
另外,本实施方式会提示与所提取的用例文相似的输入改述文的翻译文,因此能够防止提示与输入文相关性低的输入改述文的翻译结果。
此外,本公开可以采用以下的方式。
(1)在上述实施方式中,输出部9使用如输出图像500所示的图像,显示了用例对译以及输入改述文的翻译结果等,但本公开不限定于此,输出部9也可以用声音输出输出图像500所包含的内容。在该情况下,输出部9通过扬声器构成。
(2)图7所示的输出图像500仅为一例,在本公开中,也可以从输出图像500中省去图7所示的某个项目。例如,在翻译辅助信息显示栏530中,既可以省去参考用例显示栏531,也可以省去参考翻译显示栏532。
(3)在图7所示的输出图像500中,无法一次性显示所有翻译辅助信息显示栏520的情况下,输出部9使输出图像500滚动显示(利用滚动条显示)即可。由此,能够防止在显示装置的显示面积小时,用户无法浏览所有的翻译辅助信息显示栏520这一情况。
(4)在图7所示的输出图像500中,也可以不显示改述提取文(一个以上的第2文)以及改述翻译文(第5文)。

Claims (14)

1.一种方法,是提供翻译文的方法,包括:
经由用户终端,取得作为翻译对象的用第1语言记述的第1文;
判定包括多个成对的用所述第1语言记述的文和用第2语言记述的对译文的数据库中是否包含有所述第1文;
在判定为所述数据库中没有包含所述第1文的情况下,生成将构成所述第1文的一个以上的单词基于预定规则进行替换而得到的多个第2文;
分别算出所述多个第2文与所述数据库所包含的用所述第1语言记述的多个文之间的句法的一致度;
提取所算出的一致度在阈值以上的、包含于所述数据库的用所述第1语言记述的一个以上的第3文;
提取一个以上的第4文,所述一个以上的第4文是所述一个以上的第3文在所述数据库中的用第2语言记述的对译文;
将所述多个第2文中的一个以上的第2文机器翻译成所述第2语言从而生成一个以上的第5文;
使所述一个以上的第4文和所述一个以上的第5文中的至少某一方作为所述第1文的对译参照显示于所述用户终端。
2.根据权利要求1所述的方法,
所述一致度基于第1指标来算出,所述第1指标表示所述多个第2文与所述数据库所包含的多个文的文本相似度。
3.根据权利要求1所述的方法,
所述一致度基于第2指标来算出,所述第2指标是对于所述数据库所包含的多个文中的文结构与所述多个第2文一致或者相似的文,越是与所述第1文的文本相似度小的文则表示越大的值的指标。
4.根据权利要求1所述的方法,
所述一致度基于第3指标来算出,所述第3指标表示所述多个第2文与所述数据库所包含的多个文的文结构的相似性。
5.根据权利要求1所述的方法,
所述一致度基于第4指标来算出,所述第4指标是在所述多个第2文与所述数据库所包含的多个文中词性的一致数越多则表示越大的值的指标。
6.根据权利要求2所述的方法,
越是替换部位多的第2文,则所述第1指标表示越大的值。
7.根据权利要求1所述的方法,
基于所述多个第2文与所述一个以上的第3文的文本相似度,从所述多个第2文中提取所述一个以上的第2文。
8.根据权利要求1所述的方法,
所述预定规则是将构成所述第1文的片段所包含的第1单词用处于上下文相似关系的第2单词进行改述的第1改述规则。
9.根据权利要求1所述的方法,
所述预定规则是将构成所述第1文的片段所包含的第1单词改述为处于同现关系的第2单词的第2改述规则。
10.根据权利要求1所述的方法,
所述预定规则是将构成所述第1文的片段所包含的第1单词改述为处于蕴含关系的第2单词的第3改述规则。
11.根据权利要求1所述的方法,
所述预定规则是将构成所述第1文的片段所包含的第1单词改述为处于上下位关系的第2单词的第4改述规则。
12.根据权利要求1所述的方法,
所述一个以上的第4文以其对所述第1文的改述部位区别于其他部位的方式来提示。
13.一种装置,是提供翻译文的装置,具备:
数据库,其包括多个成对的用第1语言记述的文和用第2语言记述的对译文;
输入部,其经由用户终端,取得作为翻译对象的用第1语言记述的第1文;
改述文生成部,其在所述数据库中没有包含所述第1文的情况下,生成将构成所述第1文的一个以上的单词基于预定规则进行替换而得到的多个第2文;
提取部,其分别算出所述多个第2文与所述数据库所包含的用所述第1语言记述的多个文之间的句法的一致度,提取所述一致度在阈值以上的、包含于所述数据库的用所述第1语言记述的一个以上的第3文;以及
提示部,其提取一个以上的第4文,所述一个以上的第4文是所述一个以上的第3文在所述数据库中的用第2语言记述的对译文,将所述多个第2文中的一个以上的第2文机器翻译成所述第2语言从而生成一个以上的第5文,使所述一个以上的第4文和所述一个以上的第5文中的至少某一方作为所述第1文的对译参照显示于所述用户终端。
14.一种计算机可读的记录介质,存储有程序,用于使计算机执行权利要求1所述的方法。
CN201710669428.9A 2016-09-27 2017-08-08 提供翻译文的方法、装置以及记录介质 Active CN107870900B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2016188456 2016-09-27
JP2016-188456 2016-09-27
JP2017-102876 2017-05-24
JP2017102876A JP6934621B2 (ja) 2016-09-27 2017-05-24 方法、装置、及びプログラム

Publications (2)

Publication Number Publication Date
CN107870900A CN107870900A (zh) 2018-04-03
CN107870900B true CN107870900B (zh) 2023-04-18

Family

ID=61685417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710669428.9A Active CN107870900B (zh) 2016-09-27 2017-08-08 提供翻译文的方法、装置以及记录介质

Country Status (2)

Country Link
US (1) US10346545B2 (zh)
CN (1) CN107870900B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102589638B1 (ko) * 2016-10-31 2023-10-16 삼성전자주식회사 문장 생성 장치 및 방법
JPWO2022123637A1 (zh) * 2020-12-07 2022-06-16

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462072A (zh) * 2014-11-21 2015-03-25 中国科学院自动化研究所 面向计算机辅助翻译的输入方法与装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3822990B2 (ja) * 1999-01-07 2006-09-20 株式会社日立製作所 翻訳装置、記録媒体
US6356865B1 (en) * 1999-01-29 2002-03-12 Sony Corporation Method and apparatus for performing spoken language translation
JP3768105B2 (ja) * 2001-01-29 2006-04-19 株式会社東芝 翻訳装置、翻訳方法並びに翻訳プログラム
JP5103718B2 (ja) 2005-08-09 2012-12-19 日本電気株式会社 自動翻訳システムおよび方法並びにそのプログラム
JP4393494B2 (ja) * 2006-09-22 2010-01-06 株式会社東芝 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
JP2012159969A (ja) 2011-01-31 2012-08-23 Nec Corp 機械翻訳装置、方法およびプログラム
WO2013102052A1 (en) * 2011-12-28 2013-07-04 Bloomberg Finance L.P. System and method for interactive automatic translation
US9298703B2 (en) * 2013-02-08 2016-03-29 Machine Zone, Inc. Systems and methods for incentivizing user feedback for translation processing
US8996352B2 (en) * 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for correcting translations in multi-user multi-lingual communications
JP6175900B2 (ja) * 2013-05-23 2017-08-09 富士通株式会社 翻訳装置、方法、及びプログラム
US9753976B1 (en) * 2013-09-19 2017-09-05 Amazon Technologies, Inc. Providing user-influenced search results based on user-defined query language translation
US9613027B2 (en) * 2013-11-07 2017-04-04 Microsoft Technology Licensing, Llc Filled translation for bootstrapping language understanding of low-resourced languages
US9600474B2 (en) * 2013-11-08 2017-03-21 Google Inc. User interface for realtime language translation
US10248653B2 (en) * 2014-11-25 2019-04-02 Lionbridge Technologies, Inc. Information technology platform for language translation and task management

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462072A (zh) * 2014-11-21 2015-03-25 中国科学院自动化研究所 面向计算机辅助翻译的输入方法与装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于同步树序列替换文法的统计机器翻译模型;蒋宏飞等;《自动化学报》(第10期);全文 *

Also Published As

Publication number Publication date
US20180089180A1 (en) 2018-03-29
US10346545B2 (en) 2019-07-09
CN107870900A (zh) 2018-04-03

Similar Documents

Publication Publication Date Title
Huck et al. Target-side word segmentation strategies for neural machine translation
Şeker et al. Initial explorations on using CRFs for Turkish named entity recognition
US20070021956A1 (en) Method and apparatus for generating ideographic representations of letter based names
KR101500617B1 (ko) 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법
JP6404511B2 (ja) 翻訳支援システム、翻訳支援方法、および翻訳支援プログラム
Mohamed et al. Arabic Part of Speech Tagging.
JP6626917B2 (ja) 英語の音節計算法に基づいた可読性評価方法及びシステム
Jain et al. “UTTAM” An Efficient Spelling Correction System for Hindi Language Based on Supervised Learning
CN107870900B (zh) 提供翻译文的方法、装置以及记录介质
CN108932233B (zh) 翻译文生成方法、翻译文生成装置以及翻译文生成程序
Ganfure et al. Design and implementation of morphology based spell checker
JP5097802B2 (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
Larrivée et al. The empirical reality of bridging contexts: Strong polarity contexts as the transition between NPIs and n-words
Jamro Sindhi language processing: A survey
Durrani Typology of word and automatic word Segmentation in Urdu text corpus
Sakaguchi et al. Joint English spelling error correction and POS tagging for language learners writing
JP5298834B2 (ja) 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
KR101686114B1 (ko) 애드인 프로그램을 활용한 한글문장단위 한자 자동변환 방법
Behera Odia parts of speech tagging corpora: suitability of statistical models
Tongtep et al. Multi-stage automatic NE and pos annotation using pattern-based and statistical-based techniques for thai corpus construction
Spiegler et al. Learning the morphology of Zulu with different degrees of supervision
JP2017151849A (ja) 外れ値箇所抽出装置、方法及びプログラム
Arai et al. Grammatical-error-aware incorrect example retrieval system for learners of Japanese as a second language
JP6934621B2 (ja) 方法、装置、及びプログラム
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant