CN113228028A - 翻译装置、翻译方法以及程序 - Google Patents
翻译装置、翻译方法以及程序 Download PDFInfo
- Publication number
- CN113228028A CN113228028A CN201980087217.1A CN201980087217A CN113228028A CN 113228028 A CN113228028 A CN 113228028A CN 201980087217 A CN201980087217 A CN 201980087217A CN 113228028 A CN113228028 A CN 113228028A
- Authority
- CN
- China
- Prior art keywords
- sentence
- translation
- translated
- reverse
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/51—Translation evaluation
Abstract
翻译装置(2)具备获取部(22、24~26)和控制部(20)。获取部获取第1语言中的输入语句(S1)。控制部控制针对由获取部获取到的输入语句的机器翻译。控制部基于输入语句,获取表示输入语句从第1语言被机器翻译为第2语言的结果的翻译语句(S2),基于翻译语句,获取表示翻译语句从第2语言被机器翻译为第1语言的结果的反向翻译语句(S3)。控制部基于输入语句,按照将获取到的反向翻译语句中的与翻译语句中的多义词对应的译词变更为输入语句中与该多义词对应的语句的方式,修正反向翻译语句中包含译词的部分(S4)。
Description
技术领域
本公开涉及基于机器翻译的翻译装置、翻译方法以及程序。
背景技术
专利文献1公开了一种用于用户容易地进行误译的检测以及原文的误译位置的修正的翻译装置。专利文献1的翻译装置生成将被输入的第1自然语言的原文翻译为第2自然语言的翻译语句,生成将翻译语句翻译为第1自然语言的反向翻译语句,将翻译语句以及反向翻译语句与原文建立对应并显示。此时,生成原文的词素之中第2自然语言的译词的候选的列表即原文译词候选列表。若通过操作部接受来自用户的指示,则从原文译词候选列表选择一个候选,将选择的译词使用为对应的词素的译词并进行翻译语句以及反向翻译语句的重新生成。在专利文献1中,为了误译的修正而重复进行反向翻译语句的生成。
在先技术文献
专利文献
专利文献1:日本特开2006-318202号公报
非专利文献
非专利文献1:Dzmitry Bahdanau et al.,cNeural Machine Translation byJointly Learning to Align and Translate速,arXiv preprint arXiv:1409.0473,September 2014.
发明内容
-发明要解决的课题-
本公开提供一种能够使针对输入语句被机器翻译的翻译语句的反向翻译语句的精度良好的翻译装置、翻译方法以及程序。
-解决课题的手段-
本公开所涉及的翻译装置具备:具备获取部和控制部。获取部获取第1语言中的输入语句。控制部控制针对由获取部获取到的输入语句的机器翻译。控制部基于输入语句,获取表示输入语句从第1语言被机器翻译为第2语言的结果的翻译语句,基于翻译语句,获取表示翻译语句从第2语言被机器翻译为第1语言的结果的反向翻译语句。控制部基于输入语句,按照将获取到的反向翻译语句中与翻译语句中的多义词对应的译词变更为与输入语句中的该多义词对应的语句的方式,对反向翻译语句中包含译词的部分进行修正。
这些概括性并且确定性的方式也可以通过系统、方法以及计算机程序、及其组合来实现。
-发明效果-
根据本公开所涉及的翻译装置、翻译方法以及程序,能够使针对输入语句被机器翻译的翻译语句的反向翻译语句的精度优良。
附图说明
图1是表示本公开的实施方式1所涉及的翻译系统的概要的图。
图2是对实施方式1中的翻译装置的结构进行示例的框图。
图3是用于对翻译装置中的表述变换对象列表进行说明的图。
图4是对实施方式1中的翻译服务器的结构进行示例的框图。
图5是用于对实施方式1所涉及的翻译系统的动作进行说明的图。
图6是表示实施方式1所涉及的翻译装置的动作的流程图。
图7A是对翻译装置的动作中获取的各种信息进行示例的表。
图7B是对基于图7A的信息的修正结果的反向翻译语句进行示例的表。
图8是对翻译装置中的反向翻译语句的表述变换修正的处理进行示例的流程图。
图9是对实施方式1中的表述变换对象的检测处理进行示例的流程图。
图10是对实施方式1的表述变换对象的检测处理中使用的对齐表进行示例的图。
图11是对实施方式1中的活用转换处理进行示例的流程图。
图12是用于对实施方式1的活用转换处理中使用的学习完成模型进行说明的图。
图13是表示表述变换对象的检测处理的变形例1的流程图。
图14是用于对表述变换对象的检测处理的变形例1进行说明的图。
图15是表示表述变换对象的检测处理的变形例2的流程图。
具体实施方式
以下,适当参照附图,来对实施方式详细进行说明。其中,可能省略非必要详细的说明。例如,可能省略已知事项的详细说明、针对实质相同的结构的重复说明。这是为了避免以下的说明变得不必要地冗余,使本领域技术人员容易理解。
另外,申请人为了本领域技术人员充分理解本公开而提供附图以及以下的说明,并不意图通过这些来限定权利要求书所述的主题。
(实施方式1)
以下,使用附图,对本公开的实施方式1进行说明。
1.结构
1-1.系统概要
使用图1来对实施方式1所涉及的翻译系统进行说明。图1是表示本实施方式所涉及的翻译系统1的概要的图。
本实施方式所涉及的翻译系统1具备:用户5利用的翻译装置2、执行各种的两语言间的机器翻译的翻译服务器3。在本实施方式的翻译系统1中,翻译装置2经由互联网等的通信网络10而与翻译服务器3进行数据通信。翻译服务器3例如是ASP服务器。翻译系统1也可以包含多个翻译装置2。该情况下,适当地,在各翻译装置2发送的数据中包含本装置的识别信息,翻译服务器3能够向接收的识别信息所示的翻译装置2发送数据。
本实施方式的翻译系统1在翻译装置2中,接受用户5所希望的说话内容等的输入,在翻译服务器3中,将通过翻译源的语言表示被输入的内容的输入语句T1机器翻译为所希望的翻译目标的语言中的翻译语句T2。本实施方式的翻译装置2例如图1所示,在用于显示给用户5的用户用的显示区域A1显示输入语句T1,并且在用户5的对方用的显示区域A2显示翻译语句T2。翻译源的语言是第1语言的一个例子,翻译目标的语言是第2语言的一个例子。第1以及第2语言能够设定为各种自然语言。
例如在翻译系统1的使用时,用户5具有希望通过翻译源的语言来确认针对输入语句T1的机器翻译的结果的翻译语句T2是否为预期的内容的迫切期望。因此,本实施方式的翻译系统1例如针对翻译语句T2再次进行基于翻译服务器3的机器翻译,在用户用的显示区域A1显示将翻译语句T2重新翻译为翻译源的语言的反向翻译语句T3。由此,用户5通过观察对比输入语句T1和反向翻译语句T3,能够容易进行翻译语句T2的内容确认。
在以上的翻译系统1中,在基于翻译服务器3的机器翻译没有误译地成功的情况下,期待输入语句T1与反向翻译语句T3大体一致,相互的差异较小。在本实施方式中,为了避免尽管翻译服务器3中的机器翻译成功,但输入语句T1与反向翻译语句T3出现偏差的这种情况,提供一种考虑输入语句T1来提高反向翻译语句T3的精度的翻译装置2。
1-2.翻译装置的结构
参照图2、图3来对本实施方式的翻译系统1中的翻译装置2的结构进行说明。图2是对翻译装置2的结构进行示例的框图。
翻译装置2例如包含平板终端、智能手机或者PC等的信息终端。图2中示例的翻译装置2具备:控制部20、存储部21、操作部22、显示部23、机器接口24、网络接口25。以下,将接口简记为“I/F”。此外,例如翻译装置2具备话筒26和扬声器27。
控制部20包含例如与软件配合并实现规定的功能的CPU或者MPU,对翻译装置2的整体动作进行控制。控制部20读取存储部21中保存的数据以及程序并进行各种运算处理,实现各种功能。例如,控制部20执行包含用于实现本实施方式的翻译方法中的翻译装置2的处理的命令群的程序。上述的程序可以从通信网络10等提供,也可以保存于具有可移动性的记录介质。
另外,控制部20也可以是被设计为实现规定的功能的专用的电子电路或者可重构的电子电路等的硬件电路。控制部20也可以包含CPU、MPU、GPU、GPGPU、TPU、微型计算机、DSP、FPGA以及ASIC等各种半导体集成电路。
存储部21是对为了实现翻译装置2的功能所需的程序以及数据进行存储的存储介质。存储部21如图2所示,包含保存部21a以及临时存储部21b。
保存部21a对用于实现规定的功能的参数、数据以及控制程序等进行保存。保存部21a例如包含HDD或者SSD。例如,保存部21a对上述的程序、表述变换对象列表D1以及学习完成模型D2等进行保存。
图3是用于对翻译装置2中的表述变换对象列表D1进行说明的图。表述变换对象列表D1是举例后述的反向翻译语句的表述变换修正(参照图6)中作为表述变换对象的候选的列表。表述变换对象列表D1将翻译目标的语言(例如英语)中的多义词与翻译源的语言(例如日语)中的对译词汇建立关联并登记。
返回到图2,临时存储部21b例如包含DRAM或者SRAM等的RAM,将数据临时存储(即保持)。例如,临时存储部21b除了输入语句以及翻译语句,还保持后述的用户信息等。此外,临时存储部21b可以作为控制部20的工作区域而发挥功能,也可以包含控制部20的内部存储器中的存储区域。
操作部22是用户进行操作的用户接口。操作部22也可以与显示部23一起构成触摸面板。操作部22并不局限于触摸面板,例如,也可以是键盘、触摸板、按钮以及开关等。操作部22是对通过用户的操作而输入的各信息进行获取的获取部的一个例子。
显示部23例如是包含液晶显示器或者有机EL显示器的输出部的一个例子。显示部23对例如包含上述各显示区域A1、A2的图像进行显示。此外,显示部23也可以显示用于对操作部22进行操作的各种图标以及从操作部22输入的信息等各种的信息。
设备I/F24是用于将翻译装置2与外部设备连接的电路。设备I/F24是按照规定的通信标准进行通信的通信部的一个例子。规定的标准中,包含USB、HDMI(注册商标)、IEEE1395、WiFi、Bluetooth(注册商标)等。设备I/F24也可以构成在翻译装置2中对外部设备接收各信息的获取部或者发送各信息的输出部。
网络I/F25是用于经由无线或者有线的通信线路来将翻译装置2与通信网络10连接的电路。网络I/F25是进行依据规定的通信标准的通信的通信部的一个例子。规定的通信标准中,包含IEEE802.3、IEEE802.11a/11b/11g/11ac等的通信标准。网络I/F25也可以构成在翻译装置2中经由通信网络10来接收各信息的获取部或者发送各信息的输出部。
话筒26是对声音进行收音并生成声音数据的获取部的一个例子。翻译装置2可以具有声音识别功能,也可以例如对通过话筒26而生成的声音数据进行声音识别并转换为文本数据。
扬声器27是对声音数据进行声音输出的输出部的一个例子。翻译装置2可以具有声音合成功能,例如也可以对基于机器翻译的文本数据进行声音合成,从扬声器27进行声音输出。
以上的翻译装置2的结构是一个例子,翻译装置2的结构并不局限于此。翻译装置2也可以由不限于信息终端的各种计算机构成。此外,翻译装置2中的获取部也可以通过与控制部20等中的各种软件的配合来实现。翻译装置2中的获取部也可以通过将各种存储介质(例如保存部21a)中保存的各信息读取到控制部20的工作区域(例如临时存储部21b),来进行各信息的获取。
1-3.翻译服务器的结构
作为本实施方式的翻译系统1中的各种服务器3、11、12的硬件结构的一个例子,参照图4来对翻译服务器3的结构进行说明。图4是对本实施方式中的翻译服务器3的结构进行示例的框图。
图4中示例的翻译服务器3具备运算处理部30、存储部31、通信部32。翻译服务器3包含一个或者多个计算机。
运算处理部30包含例如与软件配合来实现规定的功能的CPU以及GPU等,对翻译服务器3的动作进行控制。运算处理部30读取存储部31中保存的数据以及程序并进行各种运算处理,实现各种功能。
例如,运算处理部30执行在本实施方式中执行机器翻译的翻译模型35的程序。翻译模型35包含例如各种神经网络。翻译模型35例如包含基于所谓注意力机构来实现两语言间的机器翻译的注意力神经机器翻译模型(例如参照非专利文献1)。翻译模型35可以是多语言间共享的模型,也可以包含按照每个翻译源和翻译目标的语言而不同的模型。运算处理部30也可以执行用于进行翻译模型35的机器学习的程序。上述的各程序可以从通信网络10等提供,也可以保存于具有可移动性的记录介质。
另外,运算处理部30也可以是被设计为实现规定的功能的专用的电子电路或者可重构的电子电路等的硬件电路。运算处理部30也可以包含CPU、GPU、TPU、MPU、微型计算机、DSP、FPGA以及ASIC等各种半导体集成电路。
存储部31是对为了实现翻译服务器3的功能所需的程序以及数据进行存储的存储介质,例如包含HDD或者SSD。此外,存储部31例如包含DRAM或者SRAM等,也可以作为运算处理部30的工作区域而发挥功能。存储部31例如对翻译模型35的程序、以及基于机器学习来规定翻译模型35的各种参数群进行存储。参数群例如包含神经网络的各种权重参数。
通信部32是用于按照规定的通信标准进行通信的I/F电路,在通信网络10或者外部设备等通信连接翻译服务器3。规定的通信标准中,包含IEEE802.3、IEEE802.11a/11b/11g/11ac、USB、HDMI、IEEE1395、WiFi、Bluetooth等。
翻译系统1中的翻译服务器3并不限定于上述的结构,也可以具有各种结构。本实施方式的翻译方法也可以在云计算中执行。
2.动作
以下对以上那样构成的翻译系统1以及翻译装置2的动作进行说明。
2-1.整体动作
使用图1、图5来对本实施方式所涉及的翻译系统1的动作进行说明。图5是用于对翻译系统1的动作进行说明的图。
本实施方式的翻译系统1从翻译装置2输入用户5所希望的输入语句T1。在翻译系统1中,翻译服务器3从翻译装置2接收输入语句T1以及表示翻译目标的语言等的信息,执行将输入语句T1从翻译源的语言机器翻译为翻译目标的语言的翻译处理。翻译处理例如将来自翻译装置2的信息向翻译模型35输入并执行。翻译服务器3作为翻译处理的结果而生成翻译语句T2,并发送给翻译装置2。
此外,在本实施方式中,翻译服务器3进行对翻译语句T2进行机器翻译并返回到翻译源的语言的反向翻译处理。反向翻译处理例如能够通过翻译服务器3从翻译装置2接收翻译语句T2以及表示翻译源的语言等的信息,从而与上述的翻译处理同样地执行。翻译服务器3作为反向翻译处理的结果而生成反向翻译语句T3a,发送给翻译装置2。在翻译装置2中,进行针对用户5的翻译结果的输出。
图5中表示以上的翻译系统1的动作的一个例子。以下,说明翻译源的语言是日语、翻译目标的语言是英语的例子。
在图5的例子中,对“ここでお預かりします”这一输入语句T1进行翻译处理,其结果,生成“I willtake ithere.”这一翻译语句T2。此外,对该翻译语句T2进行反向翻译处理,其结果,生成“ここで取らせていただきます。”这一反向翻译语句T3a。
在本例中,翻译语句T2在没有特别误译的情况下准确地翻译输入语句T1,基于翻译服务器3的翻译处理成功。此外,反向翻译语句T3a也在没有特别误译的情况下准确地对翻译语句T2进行翻译,反向翻译处理也成功。但是,根据反向翻译语句T3a中的“取ら”和输入语句T1中的“預かり”,反向翻译语句T3a和输入语句T1偏差为相差较远的意思。
如上所述,根据从输入语句T1偏差的反向翻译语句T3a,担心即使基于翻译服务器3的翻译处理和反向翻译处理都单独成功,也会给用户5带来机器翻译失败的误解。认为上述那样的情况是,如翻译语句T2中的“take”那样,包含具有多个语义的多义词所导致的。
因此,本实施方式的翻译装置2进行修正,以使得针对翻译语句T2中的多义词导致与输入语句T1不同的反向翻译语句T3a中的部分,考虑输入语句T1来进行表述变换。图5中示例修正后的反向翻译语句T3。
在图5的例子中,修正后的反向翻译语句T3如“ここで預からせていただきます。”那样,虽然措辞与输入语句T1不同,但意思没有偏差而相一致。本实施方式的翻译装置2通过将这样的修正结果的反向翻译语句T3显示于用户用的显示区域A1(图1),能够避免上述的用户的误解。以下,对翻译装置2的动作的详细进行说明。
2-2.翻译装置的动作
参照图6~图7B来对本实施方式所涉及的翻译装置2的动作的详细进行说明。
图6是表示本实施方式所涉及的翻译装置2的动作的流程图。图7A是对翻译装置2的动作中获取的各种信息进行示例的表。图7B是对基于图7A的信息的修正结果的反向翻译语句T3进行示例的表。
图6所示的流程图的各处理通过翻译装置2的控制部20而执行。本流程图例如根据用户5的操作而开始。
首先,翻译装置2的控制部20例如通过基于用户5的操作部22的操作,获取输入语句T1(S1)。步骤S1的处理并不局限于操作部22,也可以使用话筒26、网络I/F23或者设备I/F24等各种的获取部来进行。例如,可以来自话筒26的用户5的说话声音等被声音输入,也可以基于声音识别来获取输入语句T1。图7A中示例各种情况中步骤S1中获取的输入语句T1。
接下来,控制部20经由网络I/F23,将包含获取的输入语句T1的信息发送给翻译服务器3,作为来自翻译服务器3的响应,获取翻译语句T2(S2)。翻译服务器3能够将翻译语句T2与各种附加信息一起发送给翻译装置2。例如,作为附加信息,能够包含翻译处理时的注意分数。图7A中,示例与各情况的输入语句T1相应的翻译语句T2。本例的翻译语句T2如加粗字所示包含多义词。
接下来,控制部20从翻译服务器3经由网络I/F23,获取作为针对翻译语句T2的反向翻译处理的结果而生成的反向翻译语句T3a(S3)。图7A中,示例根据输入语句T1以及翻译语句T2而生成的反向翻译语句T3a。本例的反向翻译语句T3a由于多义词而与输入语句T1偏差。
接下来,控制部20基于获取的输入语句T1以及翻译语句T2,进行反向翻译语句的表述变换修正(S4)。反向翻译语句的表述变换修正是进行修正以使得考虑输入语句T1来对所获取的反向翻译语句T3a换一种说法的处理。图7B中表示针对图7A的例子的反向翻译语句T3a的表述变换修正后的反向翻译语句T3。后面叙述步骤S4中的反向翻译语句的表述变换修正的处理。
接下来,控制部20作为翻译系统1中的翻译结果的输出,使输入语句T1、翻译语句T2以及修正后的反向翻译语句T3显示于显示部23(S5)。翻译结果并不局限于显示部23中的显示,能够通过来自扬声器27的声音输出或者向外部设备的数据发送等各种手段来输出。
翻译装置2的控制部20通过翻译结果的输出(S5),结束基于本流程图的处理。
根据以上的翻译装置2的动作,如图7A所示,由于翻译语句T2中的多义词导致与输入语句T1偏差的反向翻译语句T3a通过反向翻译语句的表述变换修正(S4),如图7B所示,被自动地表述变换并输出(S5)。此时,能够不经由用户5的操作等地自动地结束处理。
2-2-1.关于反向翻译语句的表述变换修正
参照图8来对图6的步骤S4中的反向翻译语句的表述变换修正(图6的S4)的处理进行说明。
图8是示例翻译装置2中的反向翻译语句的表述变换修正的处理的流程图。图8的流程图在图6的步骤S1~S3中获取到各语句T1、T2、T3a之后执行。
首先,控制部20例如进行与输入语句T1、翻译语句T2以及反向翻译语句T3a分别相关的词素解析(S11)。另外,也可以适当省略步骤S11中的处理的一部分或者全部。
接下来,控制部20进行反向翻译语句T3a中的表述变换对象的检测处理(S12)。在本处理中,认为由于翻译语句T2中的多义词而与输入语句T1偏差的反向翻译语句T3中的译词被检测为表述变换对象。
例如,在图7A中的情况编号“1”的例子中,由于翻译语句T2中的“football”是多义词,因此反向翻译语句T3中对应的单词“ラグビ一”与输入语句T1中对应的单词“サツカ一”不同。在步骤S12中,控制部20进行输入语句T1、翻译语句T2、反向翻译语句T3a的各个中的语句间的建立对应,在上述的反向翻译语句T3中检测表述变换对象的译词“ラグビ一”。另外,作为表述变换修正的处理对象的“语句”可以是一个单词或者词素,也可以包含多个单词等。后面叙述步骤S12的处理的详细。
控制部20若步骤S12的处理的结果、检测表述变换对象的译词(S13中为是),则在反向翻译语句T3中将表述变换对象的译词置换为对应的输入语句T1中的单词(S14)。由此,例如上述的例子中反向翻译语句T3中的译词“ラグビ一”被表述变换为“サツカ一”。
在此,若步骤S14的处理被应用于动词以及形容词等的活用词,则考虑文章中被置换的语句的前后的连接等变得不自然的情况。因此,例如控制部20判断步骤S14的置换后的语句是否为活用词(S15)。例如,在上述的例子中,由于“サツカ一”是名词而不是活用词,因此控制部20在步骤S15中进入到否。另外,步骤S15的判断也可以使用步骤S14中的置换前的表述变换对象的语句。
控制部20若判断为置换后的语句是活用词的情况下(S15中为是),则进行活用转换处理(S16)。在本处理中,控制部20对置换后的反向翻译语句的一部分或者全部的语句进行活用形的转换等,使被置换的部分的前后关系通顺。后面叙述活用转换处理(S16)的详细。
控制部20将通过活用转换处理而通顺的反向翻译语句T3作为修正结果,结束图6的步骤S4。在之后的步骤S5中,输出修正结果的反向翻译语句T3。
另一方面,控制部20在判断为置换后的语句不是活用词的情况下(S15中为否),不进行活用转换处理(S16),结束图6的步骤S4。该情况下,步骤S14的置换结果为修正结果。
此外,在表述变换对象未被检测到的情况下(S13中为否),控制部20不进行步骤S14~S16的处理,结束图6的步骤S4。该情况下,步骤S5中显示的反向翻译语句T3几乎不从步骤S3中获取的反向翻译语句T3a特别变更。
根据以上的处理,在通过反向翻译处理而生成的反向翻译语句T3a中,通过将翻译语句T2中的多义词所导致的译出结果的偏差置换为输入语句T1的语句的简单的处理,能够得到被精度优良地修正的反向翻译语句T3。
此外,在将动词等的活用词作为表述变换对象的情况下,也能够通过活用转换处理(S16),使修正结果的反向翻译语句T3成为自然的语句。另外,步骤S15的判断也可以省略,控制部20也可以在步骤S14之后进入到步骤S16。
2-2-2.表述变换对象的检测处理
使用图9、图10来对实施方式1中的表述变换对象的检测处理(图8的S12)的详细进行说明。以下,说明参照图3的表述变换对象列表D1而进行的处理例。
图9是对本实施方式中的表述变换对象的检测处理进行示例的流程图。图10是对本实施方式的表述变换对象的检测处理中使用的对齐表进行示例的图。
首先,控制部20获得输入语句T1与翻译语句T2之间的对齐(S21)。对齐(alignment)是对两个语句之间处于对译关系的语句的组进行整理的处理。步骤S21的处理例如能够通过将基于翻译模型35的翻译处理时得到的注意分数(参照非专利文献1)更高的语句彼此建立对应而进行。作为获得对齐的语句,并不特别局限于单词,能够在基于BytePair Encoding的子词等的机器翻译中假定的各种语义粒度中设定。
此外,控制部20获得翻译语句T2与反向翻泽语句T3a之间的对齐(S22)。步骤S22的处理例如能够使用反向翻译处理时得到的注意分数来进行。另外,步骤S21、S22的处理的顺序并不被特别限定。
控制部20作为步骤S21、S22的处理结果,例如图10所示那样生成对齐表D3(S23)。对齐表D3在每个识别编号的对齐数据D30中,将输入语句T1中的语句、翻译语句T2中的语句、反向翻译语句T3a中的语句建立对应并记录。
图10的例子对图6的步骤S3中,图7A的情况编号“1”的反向翻译语句T3a被获取的情况进行示例。本例中,在识别编号n2的对齐数据D30中,输入语句T1中的单词“サツカ一”、翻译语句T2中的单词“football”、反向翻译语句T3中的单词“ラグビ一”被相互建立对应。在步骤S23中,控制部20可以将向该表格D3的记录限制为表述变换对象的候选,也可以限制为例如名词以及动词这种特定的词类。
返回到图9,控制部20例如在识别编号中按照顺序,从对齐表D3选择一个对齐数据D30(S24)。
接下来,控制部20参照存储部21中保存的表述变换对象列表D1,判断选择中的对齐数据D30是否对应于表述变换对象列表D1(S25)。步骤S25的判断根据对齐数据D30中的翻译语句中的语句是否包含于表述变换对象列表D1中的多义词、并且该数据D30中的输入语句中以及反向翻译语句中的各语句是否分别包含于该多义词的对译词汇而进行。
例如,在上述的识别编号n2的对齐数据D30的选择时,控制部20基于图3的表述变换对象列表D1中的多义词中登记的“football”、对应的对译词汇的“サツカ一”以及“ラグビ一”,在步骤S25中进入到是。另一方面,在选择中的对齐数据D30中的输入语句中的语句、翻译语句中的语句和反向翻译语句中的语句之中的至少一个不包含于表述变换对象列表D1的情况下,控制部20在步骤S25中进入到否。
此外,对齐数据D30中的输入语句的单词与反向翻译语句的单词相同的情况下,控制部20也在步骤S25中进入到否。步骤S25的判断特别地能够无视各单词的活用形的差异等而进行。通过步骤S25的判断,可检测多义词所导致的输入语句T1与反向翻译语句T3a的差异。
控制部20若判断为选择中的对齐数据D30对应于表述变换对象列表D1(S25中为是),则将该对齐数据D30中的反向翻译语句中的语句确定为表述变换对象(S26)。
控制部20判断例如对齐表D3中的全部对齐数据D30是否被选择(S27)。在存在未被选择的对齐数据D30的情况下(S27中为否),控制部20关于未选择的对齐数据进行步骤S21以后的处理。由此,可检测反向翻译语句T3a中的各个语句是否为表述变换对象。
另外,控制部20若判断为选择中的对齐数据D30不对应于表述变换对象列表D1(S25中为否),则不进行步骤S26的处理,进入步骤S27。
控制部20在对齐表D3中的全部对齐数据D30的选择后(S27是),结束图8的步骤S12。在之后的步骤S14中,将被确定为表述变换对象的语句设为检测结果,进行表述变换的置换。
根据以上的处理,参照表述变换对象列表D1,检测多义词所导致的输入语句T1与反向翻译语句T3a的差异(S25),从而能够精度优良地检测适当的表述变换对象。
例如,在基于输入语句T1而翻译语句T2的翻译处理失败、翻译语句T2存在误译而导致输入语句T1与反向翻译语句T3偏差的情况下,认为考虑输入语句T1对反向翻译语句T3进行表述变换是不恰当的。在上述那样的情况下,由于在步骤S25中不对应于表述变换对象列表D1,因此能够不被误检测为表述变换对象。
在步骤S21、S22的处理中,也可以对注意分数设置用于可否建立对应的阈值。此外,也可以通过与执行翻译处理的翻译模型35独立的方法来获得对齐,也可以采用IBM模型或隐马尔可夫模型这种统计性的机器翻译中的手法。该情况下,能够在产生误译时在对齐的处理时不建立对应,将误译位置从表述变换对象排除。
2-2-3.活用转换处理
使用图11、图12来对实施方式1中的活用转换处理(图8的S16)的详细进行说明。以下,说明通过使其机器学习从不自然的文章向流畅的文章的转换的学习完成模型D2来实现活用转换处理的例子。
图11是对本实施方式中的活用转换处理进行示例的流程图。图12是用于对本实施方式的活用转换处理中使用的学习完成模型D2进行说明的图。图11的流程图在预先进行了机器学习的学习完成模型D2被保存于存储部21的状态下进行。
首先,控制部20将基于图8的步骤S14的置换后的反向翻译语句的一部分或者整体转换为活用转换中的基本形的单词被罗列的文章(S31)。以下,将如步骤S31那样转换的文章称为“罗列语句”。另外,罗列语句并不局限于基本形,能够设定为预先确定的活用形的罗列。
接下来,控制部20将转换的罗列语句输入到学习完成模型D2(S32)。学习完成模型D2实现若输入罗列语句则输出流畅的文章的语言处理。图12中表示基于学习完成模型D2的语言处理的一个例子。
在图12的例子中,作为基本形的单词的罗列,包含“預かる”、“せ”、“て”、“いただく”、“ます”的罗列语句T31被输入到学习完成模型D2。在本例中,学习完成模型D2基于被输入的罗列语句T31,输出“预からせていただきます”这一流畅的文章T32。
接下来,控制部20执行基于学习完成模型D2的语言处理,通过学习完成模型D2的输出,获取修正结果的反向翻译语句T3(S33)。由此,控制部20结束图8的步骤S16。
通过以上的活用转换处理,通过学习完成模型D2的语言处理,能够实现消除了置换后的反向翻译语句的不自然的通顺,得到流畅的反向翻译语句T3。
以上的学习完成模型D2能够与基于机器学习的机器翻译机同样地构成。例如,能够对学习完成模型D2的构造应用各种递归神经网络等用作为机器翻译机的各种构造。此外,该模型35的机器学习能够取代机器翻译机的训练数据中使用的对译语料库,使用将各种罗列语句与希望使其输出与该罗列语句相同的内容的程度上流畅的文章相互建立关联的数据从而进行实施。
3.总结
如以上那样,本实施方式所涉及的翻译装置2具备操作部22等的获取部、控制部20。获取部获取第1语言中的输入语句T1(S1)。控制部20控制针对由获取部获取的输入语句T1的机器翻译。控制部20基于输入语句T1,获取表示输入语句T1被从第1语言机器翻译为第2语言的结果的翻译语句T2(S2),基于翻译语句T2,获取表示翻译语句T2被从第2语言机器翻译为第1语言的结果的反向翻译语句T3a(S3)。控制部20基于输入语句T1,按照将获取到的反向翻译语句T3a中翻译语句T2中的多义词所对应的译词变更为输入语句T1中的该多义词所对应的语句的方式,对反向翻译语句T3a中包含译词的部分进行修正(S4)。
通过以上的翻译装置2,通过考虑输入语句T1来局部修正机器翻译的结果的反向翻译语句T3a的简单的处理,能够使反向翻译语句T3的精度优良。
在本实施方式中,控制部20对获取到的反向翻译语句T3a以及输入语句T1之间与翻译语句T2中的多义词相应的差异进行检测(S25),进行反向翻译语句T3a的修正。由此,对由于翻译语句T2的多义词导致与输入语句T1偏差的部分进行检测,修正该部分,从而能够得到精度优良的反向翻译语句T3。
本实施方式的翻译装置2还具备对将第2语言中的多义词与第1语言中的多义词的译词建立关联的数据列表的一个例子即表述变换对象列表D1进行存储的存储部21。控制部20参照表述变换对象列表D1,对与多义词相应的差异进行检测(S25)。将希望修正的多义词预先登记于表述变换对象列表D1,从而能够精度优良地进行反向翻译语句T3a的修正。
在本实施方式中,控制部20将获取的反向翻译语句T3a中多义词所对应的译词置换为输入语句T1中该多义词所对应的语句(S14),对反向翻译语句T3a中包含被置换的语句的部分的活用形进行转换,获取反向翻译语句T3a的修正结果(S16)。在将动词等的活用词修正为表述变换对象的情况下,也可得到精度优良的反向翻译语句T3。
在本实施方式中,控制部20作为反向翻译语句T3a中包含被置换的语句的部分被转换为规定的活用形的文章的一个例子,将罗列语句输入到学习完成模型D2(S32),根据来自学习完成模型D2的输出,获取反向翻译语句T3a的修正结果(S33)。学习完成模型D2被进行机器学习,以使得若输入第1语言中的规定的活用形的语句排列的文章,则输出流畅的文章。该机器学习中能够适当设定使学习完成模型D2获得的流畅度的程度。例如,学习完成模型D2能够输出比规定的活用形的语句排列的文章流畅的文章。在通过学习完成模型D2而得到的流畅的文章T31中能够得到修正结果的反向翻译语句T3。
本实施方式的翻译方法是由翻译装置2等的计算机执行的方法。本方法包含:计算机获取第1语言中的输入语句T1的步骤;基于输入语句T1,获取表示输入语句T1被从第1语言机器翻译为第2语言的结果的翻译语句T2的步骤;和基于翻译语句T2,获取表示翻译语句T2被从第2语言机器翻译为第1语言的结果的反向翻译语句T3a的步骤。本方法包含:计算机基于输入语句T1,按照将获取到的反向翻译语句T3a中与翻译语句T2中的多义词对应的译词变更为输入语句T1中与该多义词对应的语句的方式,对反向翻译语句T3a中包含译词的部分进行修正的步骤。
在本实施方式中,提供用于使计算机执行以上的翻译方法的程序。通过以上的翻译方法,能够使针对输入语句T1被机器翻译的翻译语句T2的反向翻译语句T3的精度优良。
(其他实施方式)
如以上那样,作为本申请中公开的技术示例,说明了实施方式1。但是,本公开中的技术并不局限于此,也能够应用于适当进行了变更、置换、附加、省略等的实施方式。此外,也能够将上述各实施方式中说明的各结构要素组合来设为新的实施方式。因此,以下,示例其他实施方式。
在上述的实施方式1中,说明了使用表述变换对象列表D1来检测输入语句T1与反向翻译语句T3a之间的差异即意思的变动的表述变换对象的检测处理(图9)。使用图13~图15来对不使用表述变换对象列表D1的变形例进行说明。
图13是表示表述变换对象的检测处理的变形例1的流程图。图14是用于对表述变换对象的检测处理的变形例1进行说明的图。在本变形例中,在与图9同样的处理中,取代步骤S25,控制部20对对齐数据D30中的输入语句的单词与反向翻译语句的单词之间的相似度进行计算(S25a)。相似度的计算中能够利用例如Word2Vec或者Glove等的单词分散表现。
控制部20在计算出的相似度小于规定的阈值的情况下(S25b中为是),确定为表述变换对象(S26)。规定的阈值例如被设定为检测有无意思的变动的值。在图14中,针对输入语句的单词“アンケ一ト”,示例了反向翻译语句的单词为“質問票”的情况和“問診票”的情况。例如若将阈值设定为“0.7”,则前者中,相似度0.8大于阈值,检测为没有意思的变动(S25b中为否)。另一方面,后者中,相似度0.8小于阈值,检测为存在意思的变动(S25b中为是)。
此外,在本变形例中,在进行对齐的步骤S21A、S22A中,如上述那样采用在存在误译的情况下误译位置不被建立对应的手法。通过本变形例,能够将步骤S25b中检测的意思的变动、即输入语句T1与反向翻译语句T3a间的差异限制为不是误译而是翻译语句T2所导致的。
图15是表示表述变换对象的检测处理的变形例2的流程图。在本变形例中,在与图13同样的处理中,取代步骤S25a、S25b,使用同义词词典(S28)。同义词词典例如上述例的“アンケ一ト”和“問診票”那样,将意思相似的词语群登记为同义词。因此,控制部20在对齐数据D30中的输入语句的单词与反向翻译语句的单词未在同义词词典中被登记为同义词的情况下(S28中为否),认为存在意思的变动,因此确定为表述变换对象(S26)。作为同义词词典,例如能够使用WordNet等。
在上述的实施方式中,在活用转换处理(图11)中,使用了使其机器学习向流畅的文章的转换的学习完成模型D2,但也可以通过其他方法进行活用转换处理。例如,也可以使用对表示文章中相邻的单词的搭配性的指标进行表示的语言模型分数。例如,控制部20也可以取代图11的流程图,使步骤S14中被置换的语句的活用形基于翻译源的语言的语法规则变形活用并计算语言模型分数。此时,控制部20能够选出语言模型分数最高的活用形的文章,得到修正结果的反向翻译语句T3。
此外,在上述的各实施方式中,说明了在翻译装置2的外部的翻译服务器3中进行机器翻译的例子。在本实施方式中,也可以在翻译装置2的内部进行机器翻译。例如,也可以在翻译装置2的存储部21中保存与翻译模型35同样的程序,控制部20执行该程序。此外,本实施方式的翻译装置2也可以是服务器装置。
如以上那样,作为本公开中的技术示例,说明了实施方式。因此,提供了附图以及详细的说明。
因此,在附图以及详细的说明所述的结构要素中,不仅包含为了课题解决所需的结构要素,也能够为了示例上述技术而包含并非为了课题解决所需的结构要素。因此,即使这些非必须的结构要素被记载于附图、详细的说明,也不应直接认定为这些非必须的结构要素是必须的。
此外,上述的实施方式用于示例本公开中的技术,因此能够在权利要求书或者其等同的范围内进行各种变更、置换、附加、省略等。
产业上的可利用性
本公开能够应用于基于各种机器翻译的翻译装置、翻译方法以及程序。
Claims (7)
1.一种翻译装置,具备:
获取部,获取第1语言中的输入语句;和
控制部,控制针对由所述获取部获取到的输入语句的机器翻译,
所述控制部基于所述输入语句,获取表示所述输入语句从所述第1语言被机器翻译为第2语言的结果的翻译语句,
所述控制部基于所述翻译语句,获取表示所述翻译语句从所述第2语言被机器翻译为所述第1语言的结果的反向翻译语句,
所述控制部基于所述输入语句,按照将获取到的反向翻译语句中与所述翻译语句中的多义词对应的译词变更为与所述输入语句中的该多义词对应的语句的方式,对所述反向翻译语句中包含所述译词的部分进行修正。
2.根据权利要求1所述的翻译装置,其中,
所述控制部在获取到的反向翻译语句以及输入语句之间检测与所述翻译语句中的多义词相应的差异,进行所述反向翻译语句的修正。
3.根据权利要求2所述的翻译装置,其中,
所述翻译装置还具备:
存储部,对将所述第2语言中的多义词与所述第1语言中的所述多义词的译词建立关联的数据列表进行存储,
所述控制部参照所述数据列表,对与所述多义词相应的差异进行检测。
4.根据权利要求1~3的任一项所述的翻译装置,其中,
所述控制部将获取到的反向翻译语句中与所述多义词对应的译词置换为所述输入语句中与该多义词对应的语句,
所述控制部对所述反向翻译语句中包含被置换的语句的部分的活用形进行转换,获取所述反向翻译语句的修正结果。
5.根据权利要求4所述的翻译装置,其中,
所述控制部将所述反向翻译语句中包含被置换的语句的部分被转换为规定的活用形的文章输入到学习完成模型,根据来自所述学习完成模型的输出,获取所述反向翻译语句的修正结果,
所述学习完成模型进行了机器学习,以使得若输入所述第1语言中的所述规定的活用形的语句排列的文章则输出流畅的文章。
6.一种翻译方法,是由计算机执行的翻译方法,所述翻译方法包含:
获取第1语言中的输入语句的步骤;
基于所述输入语句,获取表示所述输入语句从所述第1语言被机器翻译为第2语言的结果的翻译语句的步骤;
基于所述翻译语句,获取表示所述翻译语句从所述第2语言被机器翻译为所述第1语言的结果的反向翻译语句的步骤;和
基于所述输入语句,按照将获取到的反向翻译语句中与所述翻译语句中的多义词对应的译词变更为与所述输入语句中的该多义词对应的语句的方式,对所述反向翻译语句中包含所述译词的部分进行修正的步骤。
7.一种程序,用于使计算机执行权利要求6所述的翻译方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019004402 | 2019-01-15 | ||
JP2019-004402 | 2019-01-15 | ||
PCT/JP2019/049200 WO2020149069A1 (ja) | 2019-01-15 | 2019-12-16 | 翻訳装置、翻訳方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113228028A true CN113228028A (zh) | 2021-08-06 |
Family
ID=71613302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980087217.1A Pending CN113228028A (zh) | 2019-01-15 | 2019-12-16 | 翻译装置、翻译方法以及程序 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20210312144A1 (zh) |
JP (1) | JPWO2020149069A1 (zh) |
CN (1) | CN113228028A (zh) |
WO (1) | WO2020149069A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230095352A1 (en) * | 2022-05-16 | 2023-03-30 | Beijing Baidu Netcom Science Technology Co., Ltd. | Translation Method, Apparatus and Storage Medium |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5521816A (en) * | 1994-06-01 | 1996-05-28 | Mitsubishi Electric Research Laboratories, Inc. | Word inflection correction system |
US20070016401A1 (en) * | 2004-08-12 | 2007-01-18 | Farzad Ehsani | Speech-to-speech translation system with user-modifiable paraphrasing grammars |
JP4064413B2 (ja) * | 2005-06-27 | 2008-03-19 | 株式会社東芝 | コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム |
US20090326913A1 (en) * | 2007-01-10 | 2009-12-31 | Michel Simard | Means and method for automatic post-editing of translations |
JP5100445B2 (ja) * | 2008-02-28 | 2012-12-19 | 株式会社東芝 | 機械翻訳する装置および方法 |
JP2016071439A (ja) * | 2014-09-26 | 2016-05-09 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 翻訳方法及び翻訳システム |
DE102016114265A1 (de) * | 2016-08-02 | 2018-02-08 | Claas Selbstfahrende Erntemaschinen Gmbh | Verfahren zum zumindest teilweise maschinellen Transferieren einer in einer Quellsprache abgefassten Wortfolge in eine Wortfolge einer Zielsprache |
JP6706810B2 (ja) * | 2016-12-13 | 2020-06-10 | パナソニックIpマネジメント株式会社 | 翻訳装置および翻訳方法 |
JP2018195248A (ja) * | 2017-05-22 | 2018-12-06 | パナソニックIpマネジメント株式会社 | 翻訳表示装置、コンピュータ端末及び翻訳表示方法 |
JP2018206356A (ja) * | 2017-06-08 | 2018-12-27 | パナソニックIpマネジメント株式会社 | 翻訳情報提供方法、翻訳情報提供プログラム、及び翻訳情報提供装置 |
-
2019
- 2019-12-16 JP JP2020566156A patent/JPWO2020149069A1/ja active Pending
- 2019-12-16 CN CN201980087217.1A patent/CN113228028A/zh active Pending
- 2019-12-16 WO PCT/JP2019/049200 patent/WO2020149069A1/ja active Application Filing
-
2021
- 2021-06-22 US US17/354,211 patent/US20210312144A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
JPWO2020149069A1 (ja) | 2021-11-25 |
US20210312144A1 (en) | 2021-10-07 |
WO2020149069A1 (ja) | 2020-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10311146B2 (en) | Machine translation method for performing translation between languages | |
US10762293B2 (en) | Using parts-of-speech tagging and named entity recognition for spelling correction | |
US8655643B2 (en) | Method and system for adaptive transliteration | |
US10832012B2 (en) | Method executed in translation system and including generation of translated text and generation of parallel translation data | |
JP2022003539A (ja) | テキスト誤り訂正方法、装置、電子機器及び記憶媒体 | |
US20140316764A1 (en) | Clarifying natural language input using targeted questions | |
CN105468585A (zh) | 机器翻译装置和机器翻译方法 | |
EP2226733A1 (en) | Computer assisted natural language translation | |
JP2016218995A (ja) | 機械翻訳方法、機械翻訳装置及びプログラム | |
WO2003065245A1 (fr) | Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur | |
US20120136647A1 (en) | Machine translation apparatus and non-transitory computer readable medium | |
CN110678868A (zh) | 翻译支持系统等 | |
CN113228028A (zh) | 翻译装置、翻译方法以及程序 | |
JPWO2018198807A1 (ja) | 翻訳装置 | |
KR20200057277A (ko) | 자동 번역 오류를 자동으로 진단 및 교정하는 장치 및 방법 | |
JP2021144256A (ja) | 翻訳装置、システム、方法及びプログラム並びに学習方法 | |
KR102437008B1 (ko) | 번역 서비스 제공 장치 및 방법 | |
US20180011833A1 (en) | Syntax analyzing device, learning device, machine translation device and storage medium | |
JP5302784B2 (ja) | 機械翻訳方法、及びシステム | |
JP5398638B2 (ja) | 記号入力支援装置、記号入力支援方法、及びプログラム | |
JP7161255B2 (ja) | 文書作成支援装置、文書作成支援方法、及び、文書作成プログラム | |
US11544301B2 (en) | Identification method with multi-type input and electronic device using the same | |
US20240111967A1 (en) | Simultaneous translation device and computer program | |
WO2022123716A1 (ja) | 述語項構造修正プログラム、述語項構造修正方法、および情報処理装置 | |
JP2011232855A (ja) | 文字変換装置、文字変換システム、文字変換方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210806 |
|
WD01 | Invention patent application deemed withdrawn after publication |