CN116940944A - 同声传译装置以及计算机程序 - Google Patents
同声传译装置以及计算机程序 Download PDFInfo
- Publication number
- CN116940944A CN116940944A CN202180093511.0A CN202180093511A CN116940944A CN 116940944 A CN116940944 A CN 116940944A CN 202180093511 A CN202180093511 A CN 202180093511A CN 116940944 A CN116940944 A CN 116940944A
- Authority
- CN
- China
- Prior art keywords
- translation
- sentence
- word string
- translated
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004590 computer program Methods 0.000 title claims description 7
- 238000003860 storage Methods 0.000 claims abstract description 67
- 238000001514 detection method Methods 0.000 claims abstract description 47
- 238000013519 translation Methods 0.000 claims description 297
- 230000004044 response Effects 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 18
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000003780 insertion Methods 0.000 claims description 2
- 230000037431 insertion Effects 0.000 claims description 2
- 239000013598 vector Substances 0.000 abstract description 84
- 230000014616 translation Effects 0.000 description 284
- 238000000034 method Methods 0.000 description 50
- 238000012545 processing Methods 0.000 description 50
- 230000008569 process Effects 0.000 description 34
- 238000009826 distribution Methods 0.000 description 19
- 230000001537 neural effect Effects 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 7
- 238000004519 manufacturing process Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 244000140975 Prunus simonii Species 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000009751 slip forming Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000014621 translational initiation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
同声传译系统(150)包含:将输入单词串编码成中间语言表达的编码器(200);检测单词串中的语块的末端的语块末检测装置(170);将到由语块末检测装置(170)检测到的语块末构成的部分单词串输入到编码器(200)的单词矢量读出部(172);以来自编码器(200)的中间语言表达为输入并输出针对部分单词串的翻译单词串的解码器(202)以及译词搜索部(204);和存储解码器(202)以及译词搜索部(204)输出的翻译单词串的译词串存储部(178),解码器(202)以及译词搜索部(204)以编码器输出的中间语言表达为输入,将存储于译词串存储部(178)的翻译单词串设为既定,搜索后续的翻译单词串,由此,逐次输出针对部分单词串的给定语言的翻译单词串。
Description
技术领域
本发明涉及机器翻译装置,特别涉及同声传译装置。本申请主张基于2021年2月24日申请的日本申请第2021-027112号的优先权,援用记载于所述日本申请的全部记载内容。
背景技术
机器翻译装置的普及不断推进。在后述的非专利文献2所记载的、使用了神经网络的机器翻译装置(所谓的“神经机器翻译”)中,即使是相当的长句,也能以远高于以前的精度进行翻译。
但在所谓的同声传译的领域中,机器翻译装置的普及尚未推进。在同声传译的情况下,作为其输入,存在声音认识装置。声音认识装置的输出不含所谓的标点。为此,将以1句为单位的翻译作为前提的神经机器翻译不能原样不变地翻译声音认识装置的输出。
为了解决这样的问题,有后述的非专利文献1中公开的技术。非专利文献1中公开的技术从不含标点的单词串中检测句末。该技术也使用神经网络。若使用该技术将声音认识装置的输出分割成1句单位,则能通过神经机器翻译将声音认识装置的输出以1句为单位进行翻译。
但在同声传译的情况下,在以1句为单位进行的翻译中,存在翻译会落后于会话的进程这样的问题。因此,存在对于能以比1句单位短的单位大致实时进行翻译的同声传译装置的需求。
在先技术文献
专利文献
专利文献1:JP特开2017-199363号公报
非专利文献
非专利文献1:Xiaolin Wang,Masao Utiyama and Eiichiro Sumita.(2019)Online Sentence Segmentation for Simultaneous Interpretation using Multi-Shifted Recurrent Neural Network.MT Summit.
非专利文献2:Ashish Vaswani,Noam Shazeer,Niki Parmar,Jakob Uszkoreit,Llion Jones,Aidan NGomez,Lukasz Kaier,and Illia Polosukh in.2017.Attention isall you need.In I.Guyon,U.V.Luxburg,S.Bengio,H.Wallach,R.Fergus,S.Vishwanathan,and R.Garnett,editors,Advances in Neural InformationProcessing Systems 30,pages 5998-6008.Curran Associates,Inc.
非专利文献3:Jiatao Gu,Graham Neubig,Kyunghyun Cho,Victor O.K.Li(2016)Learning to Translate in Real-time with Neural Machine Translation.https://arxiv.org/abs/1610.00388
非专利文献4:Mingbo Ma,Liang Huang,Hao Xiong,Renjie Zheng,Kaibo Liu,Baigong Zheng,Chuanqiang Zhang,Zhongjun He,Hairong Liu,Xing Li,Hua Wu,andHaifeng Wan.STACL:Simultaneous translation with implicit anticipation andcontrollable latency using prefix-to-prefix framework.In Proceedings of the57th Annual Meeting of the Association for Computational Linguistics,pages3025-3036,Florence,Italy,July 2019.Association for Computational Linguistics.
发明内容
-发明所要解决的课题-
用于解决上述的问题的提案在非专利文献3、4中进行。这些文献提出使用在神经机器翻译自身的机制加进改变的机器翻译引擎。这些加进改变的机器翻译引擎将输入的单词串分割成比1句小的单位(被称作“语块(chunk)”),以这些语块为单位进行翻译。通过以语块单位进行机器翻译,至少存在能避免机器翻译落后于会话的进程这样的问题。
但在非专利文献公开的提案中,存在加进改变的机器翻译引擎自身的性能并不充分的问题。则即使能跟上会话的进程,若翻译的精度不高,则无法实现同声传译的作用。
因而,本发明的目的在于,提供能对所输入的单词串大致实时且以高的精度进行同声传译的同声传译装置。
-用于解决课题的手段-
本发明的第1方面所涉及的同声传译装置包含:编码器,其用于将所输入的单词串编码成给定的中间语言表达;语块末端检测单元,其用于实时检测单词串中的语块的末端;单词串输入单元,其用于将所输入的所述单词串的、到由语块末端检测单元检测到末端的语块为止构成的部分单词串输入到编码器;解码单元,其用于将编码器输出的中间语言表达作为输入,输出针对部分单词串的给定语言的翻译单词串;和翻译单词串存储单元,其用于存储解码单元输出的翻译单词串,解码单元包含逐次解码单元,其用于将编码器输出的中间语言表达作为输入,将存储于翻译单词串存储单元的翻译单词串设为既定,搜索后续的翻译单词串,由此逐次地输出针对部分单词串的给定语言的翻译单词串。
优选地,同声传译装置还包含:句末检测单元,其用于检测所输入的单词串中的句末;1句翻译装置,其用于对由句末检测单元检测到句末进行响应,并输出针对到句末为止的单词串的给定语言的翻译句;和翻译句置换单元,其用于对由1句翻译装置输出翻译句进行响应,并将解码单元的输出用来自1句翻译装置的翻译句进行置换。
更优选地,同声传译装置还包含:清除单元,其用于在由翻译句置换单元进行的翻译句的置换后,对语块末端检测单元检测到单词串的语块的末端进行响应,并将翻译单词串存储单元进行清除。
进一步优选地,翻译句置换单元包含:评价单元,其用于对由1句翻译装置输出翻译句进行响应,对解码单元的输出与来自1句翻译装置的翻译句的差异的大小进行评价;和置换单元,其用于对由评价单元评价为差异的大小大于阈值进行响应,将解码单元的输出用来自1句翻译装置的翻译句进行置换。
优选地,同声传译装置还包含:标签赋予单元,其用于对所输入的单词串的开头赋予由给定的条件确定的第1标签;和标签插入单元,其用于在翻译单词串存储单元被清除时,通过使与第1标签对应的第2标签存储于翻译单词串存储单元,从而在翻译单词串的开头插入第2标签。
本发明的第2方面所涉及的计算机程序使计算机作为上述的任一装置发挥功能。
本发明的上述以及其他目的、特征、方面以及优点将从与附图相关联地理解的与本发明有关的下面的详细说明中变得清楚。
附图说明
图1是示意性地表示本发明的第1实施方式所涉及的同声传译装置的机器翻译的序列的图。
图2是表示本发明的第1实施方式所涉及的同声传译装置的功能结构的概略的框图。
图3是表示使计算机作为第1实施方式所涉及的同声传译装置发挥功能的程序的控制构造的流程图。
图4是在图3所示的程序中表示与语块输入处理的详细相关的控制构造的流程图。
图5是在图3所示的程序中表示与翻译完毕语块再翻译处理的详细相关的控制构造的流程图。
图6是在图3所示的程序中表示与新语块翻译处理的详细相关的控制构造的流程图。
图7是示意性地表示本发明的第2实施方式所涉及的同声传译装置的机器翻译的序列的图。
图8是表示第2实施方式所涉及的同声传译装置的功能结构的概略的框图。
图9是表示使计算机作为第2实施方式所涉及的同声传译装置发挥功能的程序的控制构造的流程图。
图10是在图9所示的程序中表示与翻译完毕语块再翻译处理的详细相关的控制构造的流程图。
图11是用于实现第1实施方式以及第2实施方式的计算机系统的外观图。
图12是表示图11所示的计算机系统的硬件结构的框图。
具体实施方式
在以下的说明以及附图中,对相同的部件标注相同的参照编号。因此,不再重复对它们的详细的说明。
第一:第1实施方式
1.第1实施方式中的翻译方式的概略
在图1示出第1实施方式所涉及的同声传译装置的翻译序列的概略。在该实施方式中,例如也是设想在其前级存在声音认识装置。因此,对同声传译装置的输入是来自声音认识装置的单词串,不含标点。在该实施方式中,应用非专利文献1公开的技术,将1句分割成更小的单位即语块,每当检测到新的语块,则对从所输入的单词串的开头到该语块为止的部分单词串进行语块翻译50。该语块翻译50具有2个特征。
第1特征在于,语块翻译50能大致原样不变地专用现有的1句单位的神经机器翻译的翻译方式来实现。以非专利文献2记载的神经机器翻译为首,当前成为主流的神经机器翻译是包含编码器和解码器的所谓的端到端型。在它们的机器翻译中,编码器将所输入的单词串变换成中间语言表达,并输入到解码器。解码器基于该输入,遍及翻译目标语言的词汇的整体来算出各译词成为翻译句的开头单词的概率,作为矢量。将矢量在这里仅称作“概率分布”。
解码器进一步基于这些概率分布,选择概率靠前的几个单词作为译词候补,将它们各自再度输入到解码器,来得到下一概率分布。其结果,对于处理中的译词候补进一步得到多个下一译词候补,能对它们各自算出概率。通过对选择这样的作业的译词候补各自进行,不断形成译词候补串的树。通过进行基于概率的集束搜索,作为针对构成所输入的句的单词串的译词串而选择概率最高的译词候补串,决定为所输入的句的译句。
在该实施方式中,大致原样不变地承袭这样的现有的翻译形式。其中,在以下的第2特征的点上,实施方式与现有的翻译形式不同。
语块翻译50按每个语块进行翻译。这时,成为翻译的对象的单词串是从所输入的字符串的开头起到最后检测到的语块位置。例如,参照图1的(A),包含单词w1、w2以及w3的语块60是输入单词串的开头,因此,最初检测到该语块的末端(语块末)。语块60通过语块翻译50来翻译,能得到包含翻译目标语言的单词t1以及t2的翻译单词串62。
接下来,参照图1的(B),将包含单词w4以及w5的语块64输入到语块翻译50,检测到该语块末。在该情况下,不仅包含语块64还包含先前翻译完成的语块60的语块串66成为语块翻译50的翻译对象。因此,语块60被重复翻译第2次。但在该实施方式中,第2次的语块60的翻译结果,将第1次的翻译结果即翻译单词串62设为既定,来进行上述译词候补串的搜索。即,语块串66的翻译结果即译词串72原样不变地包含翻译单词串62,进而在其附加语块64的翻译结果即译词串70(单词t3、t4、t5以及t6)。这点是本实施方式的第2特征。
这样的翻译在检测到第3个语块74的语块末时也重复。即,参照图1的(C),作为下一翻译对象的语块串76包含语块串66和紧接其后的语块74。语块翻译50对语块串76进行翻译的结果而输出的译词串80成为在作为刚刚之前的输出的译词串72附加语块74的翻译结果即译词串78而得到的译词串。
参照图1的(D),重复这样的翻译,例如检测到句末的语块的前1个语块84的语块末。这时成为翻译对象的语块串86成为在该刚刚之前完成翻译的语块串82附加语块84而得到的译词串。然后,其翻译结果即译词串92成为在刚刚之前的语块串82的翻译结果即译词串88附加语块84的翻译结果即译词串90而得到的译词串。
参照图1的(E),检测到句末的语块94。翻译对象的语块串96是在语块串86附加语块94而得到的语块串。其翻译结果即译词串100成为在刚刚之前的翻译结果即译词串92附加语块94的翻译结果即译词串98而得到的译词串。该译词串100作为输入单词串的翻译句而输出。
如此地,在该实施方式中,检测到某语块的语块末时成为翻译对象是从所输入的单词串的开头到该语块为止的部分。然后,其翻译结果成为在到刚刚之前的语块为止的翻译结果附加作为检测到语块末的语块的翻译结果的译词串的结果。
这里应注意的是,虽说是重复翻译的语块串的翻译结果设为既定而被固定,但并不算是说新的语块孤立地成为翻译的对象。由于重复翻译的语块也成为翻译对象,因此,在解码器的内部是重复计算针对这些的译词串候补的概率分布。成为翻译对象的语块串每当重复翻译则会变长。为此,编码器输出的该语块串的中间语言表达每次都发生变化。这样,由于概率分布发生变化,因此,若是通常的翻译,则各译词串候补的概率也发生变化,所选择的译词串也有发生变化的可能性。但在该实施方式中,不管这样算出的概率分布如何,对于翻译完毕的译词,在以后的翻译中都设为既定来进行处置。这意味着,在新的语块的翻译中,将到该刚刚之前为止翻译完毕的单词串作为其上下文来处置。
2.第1实施方式的结构
(1)功能的说明
在图2中以框图形式示出第1实施方式所涉及的同声传译系统150的功能的概略结构。参照图2,同声传译系统150包含:同声传译装置160,其承担进行同声传译的中心的作用,用于每当接受到新的语块则大致实时地逐次翻译在这之前输入的语块串;和1句翻译装置162,其用于在单词串到达句末时,将在这之前输入的单词串作为1句来进行机器翻译。在该实施方式中,作为1句翻译装置162,使用现有的机器翻译装置。关于同声传译装置160,如后述那样使用基本与非专利文献2的记载同样的编码器/解码器型的机器翻译装置。其中,在同声传译装置160的情况下,与现有的机器翻译装置在译词串的搜索方式上有若干的差异。但差异并不大,关于如前述那样在这之前翻译完毕的单词串,在以后的翻译中,仅设为既定的上下文进行处置这样的点不同,译词搜索的手法自身是相同的。
同声传译系统150还包含:用于接收并蓄积来自未图示的声音认识装置的单词串的输入缓存器164;用于将蓄积于输入缓存器164的单词串的各单词按顺序变换成单词嵌入矢量的单词矢量生成部166;和用于将由单词矢量生成部166生成的单词嵌入矢量从开头其按顺序进行存储的单词矢量存储部168。同声传译系统150还包含:用于检测蓄积于输入缓存器164的单词串的新的语块末并输出语块末检测信号的语块末检测装置170;和用于检测蓄积于输入缓存器164的单词串的句末并输出句末检测信号的句末检测装置174。
在该实施方式中,语块末检测装置170以及句末检测装置174均通过使用与非专利文献1的记载相同的技术进行训练的神经网络来实现。更具体地,在语块末检测装置170的情况下,使用将对成为语块末的单词标注表示语块末的标签的单词串作为示教数据进行训练的神经网络。在句末检测装置174的情况下,使用将对成为句末的单词标注表示句末的标签的单词串作为示教数据进行训练的神经网络。
同声传译系统150还包含:单词矢量读出部172,其用于对从语块末检测装置170接受到语块末检测信号进行响应,将存储于单词矢量存储部168的单词矢量串读出,输入到同声传译装置160并开始翻译;和单词矢量读出部176,其用于对从句末检测装置174接受到句末检测信号进行响应,将存储于单词矢量存储部168的单词矢量串读出,输入到1句翻译装置162并开始翻译。
同声传译系统150还包含:用于存储由同声传译装置160输出的翻译目标语言的译词串的译词串存储部178;用于显示存储于译词串存储部178的译词串的显示装置180;和用于存储由1句翻译装置162输出的1句的译词串的1句翻译译句存储部182。同声传译系统150还包含:译句比较部184,其用于对在1句翻译译句存储部182中存储了新的译词串进行响应,将存储于译词串存储部178的译词串和存储于1句翻译译句存储部182的译词串进行比较,在其差异的大小为一定以上的情况下,用存储于1句翻译译句存储部182的译词串来置换存储于译词串存储部178的译词串;和缓存清除部186,其用于在从句末检测装置174接收到句末检测信号后,对最初从语块末检测装置170接收到语块末检测信号进行响应,将译词串存储部178清除。这里的译词串的差异例如能通过存储于译词串存储部178的单词串与存储于1句翻译译句存储部182的1句翻译结果之间的字符N-Gram的差异等现有技术来决定。
同声传译装置160包含:编码器200,其由神经网络构成,该神经网络预先训练完毕,以使得将从单词矢量读出部172读出的单词矢量串作为输入,输出作为与该输入所表征的内容对应的中间语言表达的矢量;和解码器202,其由神经网络构成,该神经网络预先训练完毕,以使得将翻译目标语言的单词矢量作为输入,输出该单词矢量虽表征的单词的下一个出现的单词的概率分布。同声传译装置160还包含:译词搜索部204,其用于将来自编码器200的作为中间表达的矢量作为最初的输入给到解码器202,从作为解码器202的输出的概率分布预测下一单词,并进一步输入到解码器202,通过重复这样的处理,来搜索给出最高的概率的翻译目标语言的单词串。解码器202和译词搜索部204将编码器200输出的中间语言表达作为输入,将已经翻译完毕的翻译单词串设为既定,对后续的翻译单词串进行搜索,由此逐次输出针对输入单词串的翻译单词串。
这里说的所谓单词的概率分布,是指以如下概率为要素的矢量,其中,该概率是关于对作为翻译目标语言的词汇而选择的给定数的单词(以后仅称作“翻译目标语言的词汇”)的各自而各单词在在这之前输入到解码器202的单词串的下一个出现的概率。因此,解码器202的输出存在与翻译目标语言中选择为翻译对象的词汇中的单词数相同数量,是能得到在译词搜索部204的输出层进行softmax运算的结果的数据。此外,将由译词搜索部204预测的下一单词候补输入到解码器202来给出。因此,解码器202具有与单词矢量的要素数相同数量的输入。为此,编码器200输出的中间表达矢量也是与该单词矢量相同形式。其中,编码器200的输入必须与存储于单词矢量存储部168的单词矢量的最大数至少同数。在该实施方式中,编码器200成为最大能输入至300词的结构。由于在所输入的单词串的末尾附带给定的句末令牌,因此,实质成为能输入299词的单词数的上限。在所输入的单词串的长度不足300词时,在该单词串之后插入给定的填充字符串。
(2)程序的控制构造
(A)整体构造
图3是表示用于使计算机作为图2所示的同声传译系统150发挥功能的程序的整体的控制构造的流程图。参照图3,该程序包含用于执行程序的初始处理的步骤250。在步骤250,在表征输出完毕单词数的变量N0以及表征译出完毕词数的变量NT分别代入0。在步骤250,进一步对临时表示蓄积于图2所示的输入缓存器164的单词串是否到达句末的临时标记、和表示确定了到达句末的句末标记双方代入表示不是句末的值即“0”。若检测到句末,则在临时标记临时地代入9,进而,若确定了是句末,则在句末标记代入9。
该程序还包含:步骤254(与图2、图8的缓存清除部186对应),将图2所示的译词串存储部178清除;和步骤256,直到上述的句末标记的值成为9为止、即直到检测到句末并确定句末为止都重复执行以下的步骤258。若步骤256的处理结束,即,若到句末为止的处理结束,则控制回到步骤250。另外,在该程序自身中并不存在结束执行的功能。在操作系统从利用者或特定的过程等接受到表示结束该程序的什么信号时,操作系统结束该程序的执行。
另外,在步骤256的执行时检测到句末的情况下,执行由步骤260到步骤268示出的1句翻译处理。关于其内容之后叙述。
(B)语块输入处理
参照图4,图3的步骤252所示的语块输入处理(步骤308也相同)包含:步骤350,将存放于图2的输入缓存器164的单词串读出;和步骤352(与图2、图8的单词矢量生成部166对应),通过将读出的单词串内的单词变换成单词嵌入矢量来将单词矢量化,并追加到存储于单词矢量读出部172内的单词矢量串的末尾。语块输入处理还包含:步骤356,判定是否从图2所示的语块末检测装置170接收到表示语块末的检测的语块末检测信号,按照判定结果来使控制的流程分支。另外,句末也是语块的末端的一种。因此,不仅在句末以外的语块,在句末,语块末检测装置170也输出语块末检测信号。
该程序还包含:步骤358,对步骤356的判定为肯定进行响应,通过来自图2所示的句末检测装置174的句末检测信号来进一步判定是否检测到句末,按照判定结果来使控制的流程分支;和步骤360,对步骤358的判定为否定进行响应,在临时标记代入0。该程序还包含:步骤362,对步骤358的判定为肯定进行响应,在临时标记代入9;和步骤364,在步骤360之后以及步骤362之后,在存储于图2所示的单词矢量存储部168的单词串的末尾追加给定的句末令牌,并结束语块输入处理(相当于图2、图8的单词矢量读出部172)。在步骤356的判定为否定时,控制回到步骤350。
另外,在步骤362在临时标记代入9,但尚未执行对存储于单词矢量存储部168的单词串的处理。因此,该临时标记的值能说是表示是临时的句末的值。此外,句末令牌与现有的神经机器翻译的情况同样,表示输入的末端。在翻译时,在从解码器输出与该句末令牌对应的给定的令牌时,,针对输入的翻译完成。
(C)步骤258
回到图3,步骤258包含:步骤290,判定临时标记的值是否是9,按照其结果来使控制的流程分支;和步骤292,在步骤290的判定为肯定时,在句末标记代入9。步骤258还包含:步骤294,将前述的1句翻译处理作为与该程序的过程不同的过程来启动;和步骤296,在步骤290的判定为否定时,以及在步骤290的判定为肯定且步骤292以及步骤294的执行结束时,将存放于图2所示的单词矢量读出部172的单词矢量串输入到编码器200。步骤258还包含:步骤298,将对该输入进行响应而编码器200输出的、作为与单词矢量串对应的中间语言表达的矢量读出,接下来输入到解码器202。
该程序还包含:步骤300,通过解码器202以及译词搜索部204的共同工作,将存储于图2的译词串存储部178的翻译完毕的单词串作为相对于以后的语块的单词串的上下文进行再翻译;和步骤302,对通过步骤300而翻译完毕的单词串的再翻译结束进行响应,通过图2所示的解码器202以及译词搜索部204的共同工作来对未翻译的语块中所含的单词串进行翻译,将译词追加到存储于译词串存储部178的翻译完毕的单词串的末尾。
该程序还包含:步骤304,对步骤302中的翻译结束进行响应,将由存储于译词串存储部178的翻译目标的单词构成的译词串显示于图2所示的显示装置180的显示面上;和步骤306,按照句末标记的值是否是0来使控制的流程分支。该程序还包含:步骤308,对步骤306的判定为肯定进行响应,执行与步骤252相同的语块输入的处理,使步骤258的执行结束。在步骤306的判定为否定的情况下,直接结束步骤258的执行。
(D)上下文再翻译处理
参照图5来说明图3的步骤300的详细。参照图5,步骤300包含:步骤400,在表征本次的翻译中输出完毕的单词数的变量N0代入0;和步骤402,直到变量N0的值变得与表征到目前为止译出的确定完毕的单词数的变量NT相等位置,都重复执行以下的步骤404。
步骤404包含:步骤420,读取图2所示的解码器202输出的概率分布;步骤422,根据该概率的分布,将存储于译词串存储部178的第N0个的译词选择为下一单词;步骤424,将步骤422中选择的单词输入到解码器202;和步骤426,在变量N0的值上加上1,并结束步骤404的执行。
即,通常的话,从解码器202的输出选择概率靠前的给定个数的译词候补,在上下文再翻译处理中,采用存储于译词串存储部178的译词,不进行译词候补的搜索。
(E)新语块翻译处理
参照图6来说明图3的步骤302的详细。参照图6,步骤302包含:步骤450,读取解码器202输出的概率分布;和步骤452,以将存储于译词串存储部178的译出后的单词串和概率靠前的给定个数(这里是5个)的译词候补连结的单词串为起点,分别搜索针对输入语块的翻译单词串。步骤302还包含:步骤454,将步骤452中搜索的结果得到的紧接译出后的单词的新的单词串(与新的语块对应)追加到译出完毕的单词的末尾;和步骤456,在变量NT上加上步骤454中新追加的译词数,并结束该处理。
另外,在步骤452的处理中,在搜索的中途得到大量的译词串候补。因此,例如期望通过进行基于各单词串的概率的剪枝来将处理时间缩短化。
(F)用于1句翻译的程序
另一方面,图3的步骤294中启动的用于1句翻译的过程中执行的程序具有以下那样的控制构造。参照图3,即,该程序包含:步骤260,执行1句翻译处理;和步骤262,比较通过步骤260得到的译句和通过步骤258的处理针对句末为止的单词串得到的译句,算出其差异。该程序还包含:步骤264,按照步骤262中算出的差异的大小是否比给定的阈值大来使控制的流程分支;和步骤266,对步骤264的判定为肯定进行响应,将存储于图2所示的译词串存储部178内的同声传译的结果的单词串用通过步骤260的处理得到的翻译句进行置换。该程序还包含:步骤268,对置换了存储于译词串存储部178的单词串进行响应,更新显示装置180的显示,并结束1句翻译的处理。若步骤264的判定为否定,则显示装置180的显示不更新,结束1句翻译的处理。
3.第1实施方式的动作
具有上述的结构的同声传译系统150如以下那样动作。
(1)翻译的开始
参照图1的(A)以及图2,若开始同声传译,则将构成语块60的单词w1、w2以及w3按该顺序存放到输入缓存器164。另外,在同声传译处理的开始时,输入缓存器164的内容为空。语块末检测装置170检测语块末,将语块末检测信号和单词w3的输入一起发送到单词矢量读出部172。在此,单词w3并非句末。因此,句末检测装置174不输出句末检测信号。
这里的处理通过图3的步骤250以及步骤252(详细是图4的语块输入处理)来实现。参照图3,计算机在步骤250执行初始化处理。进而参照图4,计算机对在输入缓存器164内存放新的单词(单词w1)进行响应,读取该单词w1(步骤350)。计算机将该单词w1单词矢量化,使其存储于单词矢量存储部168(步骤352)。接下来,在步骤356判定是否检测到语块末。对于最初的单词w1,该判定为否定。因此,控制回到步骤350。
其结果,在单词矢量存储部168中存放与最初的单词w1对应的单词矢量。译词串存储部178保持空不变。
关于单词w2,也执行与单词w1同样的处理。其结果,在单词矢量存储部168中存放与单词串w1、w2对应的单词矢量串。
关于单词w3,到图4的步骤352为止,都执行与单词w1、w2相同的处理。其结果,在步骤352结束的阶段,在单词矢量存储部168中存放与单词串w1、w2、w3对应的单词矢量串。
在单词w3检测到语块末。因此,控制从步骤356前进到步骤358。由于单词w3不是句末,因此,控制从步骤358前进到步骤360。在步骤360,在临时标记代入0。即,通过该临时标记表示不是句末。
进而,在步骤364,在存储于图2的单词矢量存储部168的单词矢量串的末尾追加句末令牌,针对最初的语块的步骤结束。
(2)最初的语块的翻译
回到图3,在最初的语块的翻译时,在步骤256的开始时,句末标记为0。因此,执行步骤258。步骤258按每个语块执行。
在该语块中,临时标记=0。因此,步骤290的判定为否定。控制前进到步骤296。在步骤296,图2所示的单词矢量读出部172将存储于单词矢量存储部168的单词矢量串读出,在末尾附加句末令牌并输入到编码器200。编码器200将该单词矢量串变换成中间语言表达的矢量并输出。
回到图3,步骤298将编码器200输出的矢量输入到解码器202,执行步骤300。
参照图5,在步骤300的最初的步骤400,在变量N0代入0。接下来,直到步骤402中变量N0的值变得与变量NT相等为止都执行步骤404。
在此,变量N0表征通过步骤404的处理输出的译词的数量。变量NT表征从这以前的语块翻译的译词的总数。因此,在对最初的语块的处理中,变量NT为0。即,在此,变量N0和变量NT均为0,两者的值相等。因此,步骤404一次都不执行,步骤300结束。
回到图3,接下来步骤300执行步骤302。参照图6,步骤302的步骤450读取图2所示的解码器202输出的矢量。该矢量是与译词候补相关的概率分布。具体地,具有翻译目标语言的词汇中所含的单词的数量的要素,各要素表示是针对输入到解码器202的翻译源的单词的译词的概率。这时,由于解码器202的内部状态对应于在这之前的翻译而发生变化,因此,该概率并非由翻译源的单词与译词的组合单纯地决定。
在步骤452,对于与已经翻译且存储于图2所示的译词串存储部178的单词串的末尾接续的各个译词候补,输入到解码器202,求取下一单词串的前5位为止的候补。这些译词候补是步骤450中读出的矢量中的前5个。对所得到的单词进一步继续同样的处理。直到解码器202输出句末令牌、或者翻译单词串的概率成为阈值以下、或者翻译单词串的概率不再成为前5位以内为止,都进行这样的处理,来搜索翻译单词串。在步骤452中的搜索结束的时间点,控制前进到步骤454。
在步骤454,将搜索到的翻译单词串中概率最高的单词串选择为针对输入语块的译词串。即,将这样的单词串追加到存储于图2所示的译词串存储部178的译词串的末尾。由于在进行最初的语块的处理时,译词串存储部178为空,因此,将这里选择的译词串存放在译词串存储部178的开头。
在接下来的步骤456,在变量NT的值上加上1,使控制回到图3所示的步骤304。
在步骤304,将存储于图2所示的译词串存储部178的译词串显示于显示装置180。
接下来,在步骤306,判定句末标记的值是否是0。在此,由于句末标记的值为0,因此执行步骤308。即,执行对第2个语块(图1的(B)所示的语块64的步骤。步骤308是与图3所示的步骤252相同的处理。
参照图4,在此进行步骤350到步骤356的处理,在图2所示的单词矢量存储部168中存储由图1的(B)所示的针对语块60的单词矢量串和针对语块64的单词矢量串构成的单词矢量。接下来的步骤358的判定成为否定,在步骤360中在临时标记设定0。步骤364在处理对象的单词矢量串的末尾追加句末令牌。
在图3的步骤296中,将该单词矢量串输入到编码器200,编码器200输出其中间语言表达。在步骤298,将该中间表达输入到解码器202。
(3)第2个语块的翻译
在对第2个语块的翻译时执行步骤300以及步骤302。参照图5,在步骤300,步骤402中的变量NT在图1所示的示例中成为3。因此,步骤404执行3次。
在第1次的执行中,步骤420读取解码器202的输出即概率分布。步骤422在该概率分布中,在存储于译词串存储部178的译词串中选择第变量N0个译词。由于变量N0=0,因此选择开头的译词。在该译词选择中,不执行译句的搜索。
在接下来的步骤424,将所选择的单词(翻译完毕的开头的译词)输入到解码器202。在步骤426,在变量N0的值上加上1,步骤404的最初的处理结束。
在变量N0为1时的步骤404,执行与上述的处理同样的处理,不执行译句的搜索而选择存储于译词串存储部178的第2个单词,在变量N0的值上加上1,步骤404的2次处理结束。
同样的处理对存储于译词串存储部178的第3个单词也重复。其结果,译词串存储部178的存储内容中没有变化地结束步骤300的执行。
对第2个语块,在图3所示的步骤302中进行以下那样的处理。参照图6,步骤450读取解码器202输出的矢量。步骤452根据该矢量所表征的概率分布来选择前5位为止的译词候补,将其各自作为起点来搜索翻译单词串候补。在步骤454,在这些翻译单词串候补中选择概率最高的单词串,追加到译词串存储部178的末尾。在步骤456,在变量NT的值上加上1,步骤302结束。
另外,在步骤452中的翻译单词串的搜索中,解码器202重复输出概率分布。这时的概率分布将译出完毕的单词串设为既定,将步骤300中算出概率分布时的解码器202的内部状态作为起点。因此,不一定限定于带来与完全不进行步骤300的处理地独立进行对第2个语块的翻译单词串的搜索时相同的结果结果。即,在对该第2个语块的译词串的搜索中,能将针对存储于译词串存储部178的第1个语块的译词串作为上下文处置。
(4)第3个以后的语块的翻译
第3个以后的语块的翻译也与针对第2个语块的翻译同样。其中,在第3个语块的翻译时,将针对第1个以及第2个语块决定的译词串作为上下文来处置,在第4个语块的翻译时,将针对第1个到第3个语块决定的译词串作为上下文来处置,以下同样,需要在这点上注意。即,在这些处理中,存储于译词串存储部178的译词串没有变化,仅是在其末尾追加了针对新的语块的译词串。其中,新追加的译词串并非针对新的语块的单纯的翻译,而是以存储于译词串存储部178的译词串为上下文而搜索的译词串。
(5)最后的语块的翻译
如此地,总之成为对从最后数第2个语块进行步骤258的处理的状态。在该情况下,步骤258的步骤290到步骤306的处理与对到从最后数第3个为止的语块的处理同样。但步骤308的处理与到目前为止不同。
参照图4,在读取从最后数第2个语块的下一语块即最后的语块时,对最后的语块执行步骤350到步骤356的处理,来将最后的语块单词矢量化。之后,步骤的步骤358的判定成为肯定。在步骤362在临时标记设定9。
其结果,接下来,在对最后的语块的步骤258的处理中,步骤290的判定成为肯定,在步骤292,在句末标记设定9。在步骤294启动1句翻译处理。1句翻译处理由图2所示的1句翻译装置162执行。关于1句翻译装置162的动作,之后叙述。
接下来,图3的步骤296到步骤304的处理与到目前为止的语块同样地进行。但对于最后的语块,步骤306的判定成为否定,不进行步骤308,控制回到步骤250。其结果,在步骤250执行初始处理,在步骤252等待下一语块,若下一语块的输入开始,则对新的语块串执行与以上叙述相同的处理。
(6)1句翻译处理
如前述那样,1句翻译处理通过在步骤294启动的步骤260来实现。因此,步骤260与步骤258的最后的语块的翻译处理并行地执行。在该实施方式中,该步骤260基本上以与图2所示的同声传译装置160相同的动作原理进行翻译。其中,在同声传译装置160中,将1句分割成1个或多个语块,将翻译完毕的单词作为上下文处置来不断进行语块的翻译,与此相对,1句翻译装置162仅在如下点不同:将1句的整体作为一个语块来处置进行翻译;以及将其结果得到的1句翻译的译句存放于1句翻译译句存储部182。因此,关于步骤260的内容,这里不再重复其详细。
在通过步骤260完成1句翻译的步骤262的时间点,算出通过步骤258最终针对语块串整体得到的同声传译结果与通过步骤260得到的1句翻译结果的差异。该处理在图2中由译句比较部184执行。在该实施方式中,该差异的大小通过2个译句之间的字符N-Gram的差异等现有技术来决定。
在接下来的步骤264,根据步骤262中算出的差异的值是否比阈值大来使控制的流程分支。通常认为以句为单位的翻译有更高的精度。因此,在步骤264的判定为肯定时,在步骤266将图2所示的译词串存储部178的内容用1句翻译译句存储部182的内容进行置换,在步骤268将该内容显示于显示装置180。通常认为同声传译装置160的同声传译的结束比1句翻译处理更早完成。因此,在将通过同声传译得到的翻译结果显示于显示装置180后,1句翻译结束,并且在两者的差异比阈值大时,将显示装置180的显示内容用1句翻译的结果进行置换。
另外,显示装置180的显示内容直到执行对下1句的开头语块的步骤258并进行步骤304的处理位置都维持。即,不管是针对所输入的语块串的翻译结果为同声传译的情况,还是为1句翻译的情况,直到对下一语块串的开头的语块的步骤258的翻译处理实质结束位置,都维持其显示。
4.第1实施方式的效果
(1)根据该第1实施方式,将所输入的单词串分割成语块,以这些语块为单位来进行翻译。并且,将翻译完毕的语块作为上下文处置,并不进行实质的翻译。因此,能在短时间内进行以语块为单位的翻译,能实施进行针对连续输入的单词串的翻译。其结果,能提供能对所输入的单词串大致实时且高精度地进行同声传译的同声传译装置。
(2)在关于在先的语块串的翻译完成后,将与这些语块串对应的译词单词串作为上下文处置,除了与1句翻译的结果进行替换时以外,这些都不因针对后续的语块串的翻译而发生变化。为此,翻译单词串的显示稳定,例如在将翻译单词串作为字幕进行显示时,译词串的顺序或其内容频繁替换而使利用者混乱的可能性变小。
(3)通常认为,1句翻译的精度更高,同声传译重视同时性,精度不及1句翻译。在上述实施方式中,在1句翻译的结果与基于同声传译的口译结果的差异为阈值以上时,用1句翻译的结果将同声传译的结果置换。为此,假设在同声传译的结果难以理解的情况下,也能增大能通过1句翻译的结果容易地进行理解的可能性。并且,这些显示直到相对于下一语块串的最初的语块的同声传译处理实质完成为止都维持。为此,能增大能确实地理解发声的内容的可能性。
(4)此外,若下一语块串的相对于最初的语块的同声传译处理实质完成,则用针对该语块的同声传译结果来置换针对其刚刚之前的句的翻译结果。对利用者而言,能早期确认针对开始完毕的发声的同声传译结果,能减小即使开始后续的发声也长期显示刚刚之前的发声的翻译结果而导致混乱的危险性。
(5)关于同声传译装置160,可以是现有装置(例如非专利文献2记载的装置),只要是编码器/解码器形式,则可以是任何装置。此外,关于1句翻译装置162,也没有编码器/解码器形式这样的制约。因此,只要是能在该范围内利用的装置,怎样的机器翻译装置都能利用在本实施方式中。不需要开发新的方式的装置。为此,例如能利用已经确定了能得到高的性能这样的评价的装置,能没有大的负担地实现高性能且稳定的同声传译装置。
5.变形例
在上述第1实施方式中,在步骤264中比较同声传译的口译结果和1句翻译译句比较,算出它们的差异。但若通常认为以1句为单位的翻译精度更高,则也可以不进行该比较,在1句翻译结束的时间点必定将同时口译的翻译结果用1句翻译的结果进行置换,并显示于显示装置180。通过这样的方法,在多数情况下也能得到能更加信赖的翻译结果。
第二:第2实施方式
1.第2实施方式中的翻译方式的概略
在上述的第1实施方式中,将所输入的单词串分割成语块并分别进行翻译。并不对所输入的单词串特别进行加工。但如专利文献1公开的那样,仅从所输入的单词串得到的信息被限定。例如,不能仅从所输入的单词串容易地判定关于如下的信息:所输入的单词串是关于哪个领域的句、该单词串是怎样的人物的发声、正在说话的对方是怎样的人物、该单词串与在怎样的场面进行的发声相关。在进行翻译的情况下,通过根据进行该发声的状况、领域等分开进行合适的翻译,能使译词的选择合适,更加提高翻译的精度。
为了解决这样的问题,在专利文献1中,公开了:为了将超出原文的范围的信息输入到机器翻译装置,在对所输入的单词串的开头赋予特定的标签后进行翻译。通过将这样的技术原样不变地运用于上述第1实施方式,有能进一步提高同声传译的精度的可能性。
其中,在将专利文献1公开的技术原样不变地运用于上述第1实施方式的情况下,存在针对开头的标签的解码器的输出无法成为与该标签正确对应的输出、或位置发生变化的可能性。由于译出完毕的单词在对之后的语块的处理中作为上下文处置,因此,期望开头的标签成为在译出后的单词串中也正确的标签,且其位置也成为单词串的开头。
该第2实施方式中,如此地对所输入的单词串的开头赋予的标签在同声传译后也在译词单词串的开头作为与所赋予的标签对应的正确的标签而被赋予。
即,参照图7,例如所输入的单词串的开头语块是语块60。在第2实施方式的情况下,在翻译之前,对开头的语块的进一步的开头赋予标签500。即,最初输入到编码器的是由标签500和语块60构成的语块串502。对该语块串502进行翻译而得到的译词串506是标签504和翻译单词串62。标签504是与标签500对应的翻译目标语言的标签,翻译单词串62是语块60的译词串。
以后,关于该标签504,即使翻译推进,标签504也始终位于译词串的开头,空气位置不会变化,或者改变为其他标签或单词。此外,该标签504预先确定为与标签500对应,不会成为其他标签。
更具体地,参照图7的(B),下一翻译对象是由语块串502和第2个语块串508构成的语块串510。与语块串510对应的译词串516包含译词串506和译词串514。参照图7的(C),第3次的翻译对象是由语块串510和第3个语块518构成的语块串520。与语块串520对应的译词串524包含译词串516和译词串522。
参照图7的(D),如此地,从最后数第2个翻译对象是包含语块串530和语块532的语块串534。语块串534是曾经是从最后数第3个翻译对象的语块。与语块串534对应的翻译结果即译词串540包含译词串536和译词串538。译词串536是曾经是从最后数第3个翻译对象的语块串530的翻译后的单词串。然后,参照图7的(E),最后的翻译对象即语块串544包含曾经是从最后数第2个翻译对象的语块串534和最后的语块542。该语块串544的翻译结果即译词串550包含从最后数第2个翻译结果即译词串540和语块542的翻译结果即译词串548。
从该图7可知,位于输入单词串的开头的标签500在译词的单词串中始终在其开头作为标签504而存在。
2.第2实施方式的结构
在图8以概略框图形式示出第2实施方式所涉及的同声传译系统600的功能的结构。该同声传译系统600与图2所示的第1实施方式所涉及的同声传译系统150不同点在于:
·取代图2的同声传译装置160,而包含同声传译装置630,其如上述那样将与开头的标签对应的标签附加在译词串的开头的同时进行同声传译;
·取代图2的1句翻译装置162而包含1句翻译装置632,其对在开头被赋予标签的形式的输入单词串进行1句翻译;
·包含标签检查部620,其在由单词矢量读出部172以及单词矢量读出部176从单词矢量存储部168读出的单词串中检查开头的语块串,在该开头被赋予标签的情况下什么都不做,在并非如此的情况下,按照预先由利用者指示的信息、或例如从对输入缓存器164发送来单词串的声音认识装置指示的信息来选择给定的标签,并输出该标签;
·包含标签追加部622,其设于单词矢量读出部172与同声传译装置630之间,用于在单词矢量读出部172从单词矢量存储部168读出的语块串的开头附加从标签检查部620输出的标签,并输入到编码器200;
·包含标签追加部624,其设于单词矢量读出部176与1句翻译装置632之间,对单词矢量读出部176从单词矢量存储部168读出的语块串的开头附加从标签检查部620输出的标签,并输入到1句翻译装置632;以及
·包含标签对应表格628,其与同声传译装置630以及1句翻译装置632连接,将翻译源的标签与翻译目标的标签的对应关系以表格形式存储。
另外,标签追加部622以及标签追加部624在标签检查部620未输出标签的情况下,不对单词矢量读出部172以及单词矢量读出部176的输出做任何处理地将它们输出到同声传译装置630以及1句翻译装置632。这相当于对输入单词串的开头预先赋予标签的情况。
同声传译装置630取代图2所示的同声传译装置160的译词搜索部204而包含译词搜索部640的点,其具有如下功能:在对开头的语块与译词搜索部204同样地进行译词搜索之前,参照标签对应表格628,将与赋予开头的语块的翻译源语言的标签对应的翻译目标语言的标签取出,并存放到译词串存储部178的开头,由此在译词单词串的开头插入翻译目标语言的标签。在其他点上,同声传译装置630与图2所示的同声传译装置160相同。
1句翻译装置632也与同声传译装置630同样,图2的1句翻译装置162不同,具有如下功能:在翻译之前,将与赋予所输入的单词串的开头赋予的翻译源语言的标签对应的翻译目标语言的标签从标签对应表格628取出并存放到1句翻译译句存储部182的开头,由此在译词串的开头插入标签。在其他点上,1句翻译装置632与1句翻译装置162同样。
其中,同声传译装置630以及1句翻译装置632的结构自身与图2所示的同声传译装置160以及1句翻译装置162分别相当,但需要注意的是,对它们进行训练时的训练数据不同这点。在它们的训练时,均使用由翻译源语言的句和与该句对应的翻译目标语言的文构成的对译。但在同声传译装置160以及1句翻译装置162的训练时,在所输入的对译的开头不附带标签,与此相对,在同声传译装置630以及1句翻译装置632的训练时,需要在所输入的训练数据的各对译的翻译源语言的句的开头和翻译目标语言的句的开头附带相互对应的标签。训练的方法自身与第1实施方式和第2实施方式没有不同之处。
在图9以流程图形式示出用于使计算机作为该第2实施方式所涉及的同声传译系统600发挥功能的计算机程序的控制构造。图9所示的流程图与图3的不同点在于:
·在步骤254与步骤256之间包含步骤650,判定是否对所输入的语块的开头赋予了标签,若赋予了标签,则存储该标签,若未赋予标签,则按照预先由利用者指示的信息、或从声音认识装置指示的信息来选择给定的标签,将该标签赋予开头语块的单词矢量串的开头;
·取代图2的步骤256而包含步骤652,其重复执行以下说明的步骤654。
步骤654具有与图2的步骤258同样的结构。但步骤654在取代图2的步骤300而包含步骤670这点上与步骤258不同,该步骤670虽然是与步骤300同样的结构,但关于开头的语块串与步骤300不同,执行与开头的标签相关的特别的处理。
在图10示出用于使计算机执行步骤670的程序的控制构造。用于图10所示的步骤的程序与步骤300的不同点在于:
·在图3的步骤400与步骤402之间包含步骤700,判定在语块的开头是否有标签,按照其结果来使控制的流程分支;
·包含步骤702,对步骤700的判定为肯定进行响应,从图8所示的标签对应表格628查找与所输入的语块的开头标签对应的翻译目标语言的标签,并存放到图8所示的1句翻译译句存储部182的开头,由此在翻译单词串的开头插入翻译目标语言的标签;以及
·紧接步骤702包含步骤704,在变量NT代入1。
另外,在步骤700的判定为否定时,控制分支到步骤402。
3.第2实施方式的动作
同声传译系统600的动作在输入到输入缓存器164的单词串中除了对最初的语块的动作以外,都与第1实施方式同样。
即,在新的翻译对象的单词串输入到输入缓存器164的情况下,对开头语块执行步骤650的处理。具体地,若在开头语块的开头赋予了标签,则保存该标签,若未赋予标签,则按照预先由利用者指示的信息等将给定的标签赋予开头语块的开头。之后,在步骤652中,直到句末标记成为9为止都重复执行步骤654,在这点上与第1实施方式同样。
其中,关于开头语块,在步骤654的步骤670进行第1实施方式中未进行的处理。即,参照图10,步骤700的判定在该情况下成为肯定,在步骤702,从标签对应表格628(图8)将与赋予所输入的语块(开头语块)的开头的翻译源语言的句头标签对应的标签读出,存放到1句翻译译句存储部182的开头。进而,在接下来的步骤704,将变量NT设定为1。
由于变量NT被设定为1,因此,存放于1句翻译译句存储部182的开头的标签在开头语块的翻译时作为上下文处置。因此,开头语块的标签以外的字符串依次存放于1句翻译译句存储部182的第2个以后。这点是该第2实施方式所涉及的同声传译系统600的动作与第1实施方式所涉及的同声传译系统150的不同点。
4.第2实施方式的效果
在该第2实施方式中,通过对输入单词串的开头附加标签,与第1实施方式不同,能配合特定的领域、正在发声的人物、发声的对方的人物等进行发声的状况来进行更正确的翻译。特别在译词选择中,由于将赋予译词的开头的标签作为译词串搜索时的上下文处置,因此,认为选择合适的译词的可能性比第1实施方式更高。
其结果,能提供能对所输入的单词串大致实时且以比第1实施方式高的精度进行同声传译的同声传译装置。
第三:基于计算机的实现
图11是实现上述各实施方式的计算机系统的外观图。图12是图11所示的计算机系统的硬件框图。
参照图11,该计算机系统950包含:具有DVD驱动器1002的计算机970;和均与计算机970连接的用于与用户进行对话的键盘974、鼠标976以及监视器972。当然,这些是用于需要用户对话时的结构的一例,只要是能利用在用户对话中的一般的硬件以及软件(例如一般是触控面板、声音输入、指向设备),则能使用任何结构。
参照图12,计算机970除了DVD驱动器1002以外还包含CPU990和GPU992。计算机970还包含:与CPU990、GPU992以及DVD驱动器1002连接的总线1010;和与总线1010连接且存储计算机970的启动程序等的ROM996。计算机970还包含:与总线1010连接且存储构成程序的命令、系统程序以及作业数据等的RAM998;与总线1010连接的非易失性存储器的SSD1000。SSD1000用于存储CPU990以及GPU992所执行的程序、和CPU990以及GPU992所执行的程序所使用的数据等。计算机970还包含:提供能与其他末端的通信的向网络986的连接的网络I/F1008;和能拆装USB存储器984且提供USB存储器984与计算机970内的各部的通信的USB端口1006。
计算机970还包含:声音I/F1004,其与麦克风982以及扬声器980和总线1010连接,用于将由CPU990生成且保存于RAM998或SSD1000的声音信号、影像信号以及文本数据安装CPU990的指示读出,进行模拟变换以及放大处理并驱动扬声器980,或者将来自麦克风982的模拟的声音信号数字化,并保存到RAM998或SSD1000的由CPU990指定的任意的地址。
在上述实施方式中,将成为翻译对象的输入单词串、对输入单词串进行变换后的单词矢量串、翻译后的译词单词串、由显示装置180显示的数据、构成同声传译装置160以及630的参数以及程序等均存放到例如图12所示的SSD1000、RAM998、DVD978或USB存储器984、或者经由网络I/F1008以及网络986而连接的未图示的外部装置的存储介质等。典型地,这些数据以及参数等例如从外部写入到SSD1000,在计算机970的执行时载入到RAM998。
用于使该计算机系统动作以使得实现图2所示的同声传译系统150、图8所示的同声传译系统600以及其各构成要素的功能的计算机程序存储于装备于DVD驱动器1002的DVD978,从DVD驱动器1002转发到SSD1000。或者,这些程序存储于USB存储器984,将USB存储器984装备到USB端口1006,将程序转发到SSD1000。或者,也可以将该程序经过网络986发送到计算机970,并存储在SSD1000。
将程序在执行时载入到RAM998。当然,也可以使用键盘974、监视器972以及鼠标976输入源程序,将进行编译后的目标程序存放到SSD1000。在该情况下,源程序以及目标程序均相当于该实施方式。在脚本语言的情况下,也可以将使用键盘974等输入的脚本存放到SSD1000。在虚拟机上动作的程序的情况下,需要将作为虚拟机发挥功能的程序预先安装到计算机970。在同声传译系统150以及600的机器翻译处理、1句翻译装置162、同声传译装置630以及1句翻译装置632的训练中,由于伴随大量的计算,因此,不是脚本语言而是设为由计算机的本地的代码构成的目标程序来实现本发明的实施方式的各部更为优选。出于同样的理由,期望在计算机中装有能高速执行大量的积和运算的GPU992。
CPU990按照由其内部的被称作程序计数器的寄存器(未图示)示出的地址来从RAM998读出程序,并对命令进行解释,按照由命令指定的地址从RAM998、SSD100或这以外的设备将命令的执行所需的数据读出,来执行由命令指定的处理。CPU990将执行结果的数据存放到由RAM998、SSD1000、CPU990内的寄存器等、程序指定的地址。这时,程序计数器的值也通过程序进行更新。计算机程序可以从DVD978、从USB存储器984或经由网络直接载入到RAM998。另外,在CPU990所执行的程序中,关于一部分任务(主要是数值计算),通过程序中所含的命令或按照CPU990的命令执行时的解析结果分派给GPU992。
由计算机970实现上述的各实施方式所涉及的各部的功能的程序包含记述、排列成使计算机970动作以使得实现这些功能的多个命令。执行该命令所需的基本的功能的几个通过在计算机970上动作的操作系统(OS)或第三方的程序、或者安装于计算机970的各种工具包的模块来提供。因此,该程序不一定过饱和实现该实施方式的系统以及方法所需的全部功能。该程序在命令中仅包含通过静态地链接或动态地调用在控制成能得到所期望的结果的措施中合适的功能或“编程工具包”的功能来执行作为上述的各装置以及其构成要素的动作的命令即可。用于此的计算机970的动作方法由于周知,因此,这里不再重复。
另外,GPU992能进行并列处理,能同时并列或流水线地执行与机器学习相伴的大量的计算。例如,将在程序的编译时在程序中发现的并列的计算要素、或在程序的执行时发现的并列的计算要素随时从CPU990分派到GPU992并执行,将其结果直接或经由RAM998的给定地址返还CPU990,代入到程序中的给定的变量。
第四:变形例
在上述实施方式中,将语块末检测装置170和句末检测装置174设为分开的结构。但本发明并不限定于这样的实施方式。还能通过在语块末的单词附加1这样的标签、在句末的单词附加9这样的标签、在这以外的单词附加0这样的标签,来训练能判别语块末、句末以及这以外的单独的神经网络。在该情况下,能将语块末检测装置170和句末检测装置174汇总在一起。
此外,在上述实施方式中,进行语块末、句末以及这以外这样的区别。但本发明并不限定于此。也可以进一步组合以语块与1句的中间为单位进行翻译的方案,还可以进一步组合超过1句的范围成为翻译对象的方案。
此外,在上述实施方式中,同声传译装置160以及同声传译装置630均使用与非专利文献2的公开相同的技术。但本发明并不限定于此。只要如编码器/解码器形式那样是在以某种形式将输入单词串变换成中间语言表达后从其中间语言表达搜索译句的单词串的方案,则不管何种方案都能编入实施方式来使用。此外,1句翻译装置162以及632不一定非要与同声传译装置160以及630是同形式,例如可以是基于统计的机器翻译、短语翻译的机器翻译、或神经机器翻译的任一者。
进而,在上述实施方式中,翻译结果显示于显示装置180。但本发明并不限定于这样的实施方式。同声传译装置例如可以将翻译结果作为基于声音合成的声音而输出到扬声器(未图示)。进而,在同声传译装置具备2系统的输出装置的情况下,同声传译装置也可以对其双方输出翻译结果。例如,在同声传译装置具备显示装置和扬声器作为输出系统的情况下,也可以将同声传译装置的同声传译的结果作为基于声音合成的声音从扬声器输出,在显示装置显示1句翻译的结果。此外,也可以反过来。进而,也可以在显示装置,在显示同声传译装置的翻译结果后用1句翻译结果进行置换,在声音合成中,仅输出1句翻译的翻译结果。
本次公开的实施方式仅是例示,本发明并不仅限制在上述的实施方式。本发明的范围参酌发明的详细的说明的记载的基础上,由权利要求书的各权利要求示出,包含与记载于那里的词句等同的意义以及范围内的全部变更。
-符号说明-
50 语块翻译
60、64、74、84、94、518、532、542 语块
62、70、72、78、80、88、90、92、98、100、506、514、516、522、524、536、538、540、548、550 译词串
66、76、82、86、96、502、508、510、520、530、534、544 语块串
150、600 同声传译系统
160、630 同声传译装置
162、632 1句翻译装置
164 输入缓存器
166 单词矢量生成部
168 单词矢量存储部
170 语块末检测装置
172、176 单词矢量读出部
174 句末检测装置
178 译词串存储部
180 显示装置
182 1句翻译译句存储部
184 译句比较部
186 缓存清除部
200编码器
202解码器
204、640译词搜索部
500、504标签
620标签检查部
622、624标签追加部
628标签对应表格
990CPU。
Claims (6)
1.一种同声传译装置,其特征在于,包含:
编码器,其用于将所输入的单词串编码成给定的中间语言表达;
语块末端检测单元,其用于实时检测所述单词串中的语块的末端;
单词串输入单元,其用于将所输入的所述单词串的、到由所述语块末端检测单元检测到末端的语块为止构成的部分单词串输入到所述编码器;
解码单元,其用于将所述编码器输出的所述中间语言表达作为输入,输出针对所述部分单词串的给定语言的翻译单词串;和
翻译单词串存储单元,其用于存储所述解码单元输出的所述翻译单词串,
所述解码单元包含逐次解码单元,其用于将所述编码器输出的所述中间语言表达作为输入,将存储于所述翻译单词串存储单元的翻译单词串设为既定,搜索后续的翻译单词串,由此逐次地输出针对所述部分单词串的给定语言的翻译单词串。
2.根据权利要求1所述的同声传译装置,其中,
所述同声传译装置还包含:
句末检测单元,其用于检测所输入的单词串中的句末;
1句翻译装置,其用于对由所述句末检测单元检测到句末进行响应,并输出针对到所述句末为止的所述单词串的所述给定语言的翻译句;和
翻译句置换单元,其用于对由所述1句翻译装置输出所述翻译句进行响应,并将所述解码单元的输出用来自所述1句翻译装置的所述翻译句进行置换。
3.根据权利要求2所述的同声传译装置,其中,
所述同声传译装置还包含:
清除单元,其用于在由所述翻译句置换单元进行的所述翻译句的置换后,对所述语块末端检测单元检测到所述单词串的语块的末端进行响应,并将所述翻译单词串存储单元进行清除。
4.根据权利要求2或3所述的同声传译装置,其中,
所述翻译句置换单元包含:
评价单元,其用于对由所述1句翻译装置输出所述翻译句进行响应,对所述解码单元的输出与来自所述1句翻译装置的所述翻译句的差异的大小进行评价;和
置换单元,其用于对由所述评价单元评价为所述差异的大小大于阈值进行响应,将所述解码单元的输出用来自所述1句翻译装置的所述翻译句进行置换。
5.根据权利要求1~4中任一项所述的同声传译装置,其中,
所述同声传译装置还包含:
标签赋予单元,其用于对所述输入的单词串的开头赋予由给定的条件确定的第1标签;和
标签插入单元,其用于在所述翻译单词串存储单元被清除时,通过使与所述第1标签对应的第2标签存储于所述翻译单词串存储单元,从而在所述翻译单词串的开头插入所述第2标签。
6.一种计算机程序,其特征在于,用于使计算机作为权利要求1~5中任一项所述的同声传译装置发挥功能。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021027112 | 2021-02-24 | ||
JP2021-027112 | 2021-02-24 | ||
PCT/JP2021/048527 WO2022181040A1 (ja) | 2021-02-24 | 2021-12-27 | 同時翻訳装置及びコンピュータプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116940944A true CN116940944A (zh) | 2023-10-24 |
Family
ID=83048078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180093511.0A Pending CN116940944A (zh) | 2021-02-24 | 2021-12-27 | 同声传译装置以及计算机程序 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20240111967A1 (zh) |
JP (1) | JPWO2022181040A1 (zh) |
CN (1) | CN116940944A (zh) |
WO (1) | WO2022181040A1 (zh) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61175858A (ja) * | 1985-01-31 | 1986-08-07 | Toshiba Corp | 自動翻訳装置 |
JP6334354B2 (ja) * | 2014-09-30 | 2018-05-30 | 株式会社東芝 | 機械翻訳装置、方法およびプログラム |
-
2021
- 2021-12-27 US US18/264,595 patent/US20240111967A1/en active Pending
- 2021-12-27 WO PCT/JP2021/048527 patent/WO2022181040A1/ja active Application Filing
- 2021-12-27 JP JP2023502119A patent/JPWO2022181040A1/ja active Pending
- 2021-12-27 CN CN202180093511.0A patent/CN116940944A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2022181040A1 (ja) | 2022-09-01 |
US20240111967A1 (en) | 2024-04-04 |
JPWO2022181040A1 (zh) | 2022-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6493866B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2020537765A (ja) | 多言語音声認識ネットワークをトレーニングする方法、音声認識システム及び多言語音声認識システム | |
JP6004452B2 (ja) | 言語モデル用の学習テキストを選択する方法及び当該学習テキストを使用して言語モデルを学習する方法、並びに、それらを実行するためのコンピュータ及びコンピュータ・プログラム | |
CN109710929A (zh) | 一种语音识别文本的校正方法、装置、计算机设备和存储介质 | |
CN109616096B (zh) | 多语种语音解码图的构建方法、装置、服务器和介质 | |
JPH03224055A (ja) | 同時通訳向き音声認識システムおよびその音声認識方法 | |
CN111341293B (zh) | 一种文本语音的前端转换方法、装置、设备和存储介质 | |
CN113380223B (zh) | 多音字消歧方法、装置、系统及存储介质 | |
CN111326144B (zh) | 语音数据处理方法、装置、介质和计算设备 | |
CN113327574A (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
CN113327597A (zh) | 语音识别方法、介质、装置和计算设备 | |
JP6772394B1 (ja) | 情報学習装置、情報処理装置、情報学習方法、情報処理方法及びプログラム | |
KR20120045906A (ko) | 코퍼스 오류 교정 장치 및 그 방법 | |
EP4156174A2 (en) | Voice generating method and apparatus, electronic device and storage medium | |
CN116597807A (zh) | 基于多尺度风格的语音合成方法、装置、设备及介质 | |
CN116940944A (zh) | 同声传译装置以及计算机程序 | |
CN111090720B (zh) | 一种热词的添加方法和装置 | |
CN118471266B (zh) | 发音预测方法、发音预测装置、电子设备及存储介质 | |
CN116013278B (zh) | 基于拼音对齐算法的语音识别多模型结果合并方法及装置 | |
WO2023243273A1 (ja) | 発話データ生成装置、対話装置及び生成モデルの作成方法 | |
JP6772393B1 (ja) | 情報処理装置、情報学習装置、情報処理方法、情報学習方法及びプログラム | |
KR102445497B1 (ko) | 학습 예문 및 어휘 패턴 생성 장치와 이의 동작 방법 | |
WO2023209857A1 (ja) | 機械動作指令プログラム検索装置 | |
JP4631076B2 (ja) | 音素単位セットを最適化する方法及びシステム | |
Nazari | NoLoR: An ASR-Based Framework for Expedited Endangered Language Documentation with Neo-Aramaic as a Case Study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |