CN110245358A - 一种机器翻译方法及相关装置 - Google Patents

一种机器翻译方法及相关装置 Download PDF

Info

Publication number
CN110245358A
CN110245358A CN201810194674.8A CN201810194674A CN110245358A CN 110245358 A CN110245358 A CN 110245358A CN 201810194674 A CN201810194674 A CN 201810194674A CN 110245358 A CN110245358 A CN 110245358A
Authority
CN
China
Prior art keywords
information
translation
unit
current
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810194674.8A
Other languages
English (en)
Other versions
CN110245358B (zh
Inventor
姜里羊
王宇光
陈伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Sogou Hangzhou Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd, Sogou Hangzhou Intelligent Technology Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201810194674.8A priority Critical patent/CN110245358B/zh
Publication of CN110245358A publication Critical patent/CN110245358A/zh
Application granted granted Critical
Publication of CN110245358B publication Critical patent/CN110245358B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种机器翻译方法及相关装置,所述方法包括获取当前信息单元和所述当前信息单元的上文相关信息;获取所述上文相关信息对应的译文信息,作为上文译文信息;对包括所述当前信息单元和所述上文相关信息的合并信息进行翻译,获得包括所述上文译文信息的目标译文信息;从所述目标译文信息中筛除所述上文译文信息,得到所述当前信息单元对应的译文信息。可见,本发明实施例对当前信息单元进行翻译时能够结合上文相关信息,相当于在机器翻译时扩大了信息粒度,从而提高了译文信息的准确性。此外,本发明实施例在结合上文相关信息的同时,不需要对已上屏的上文译文信息进行修改,适用于实时翻译等应用场景中。

Description

一种机器翻译方法及相关装置
技术领域
本申请涉及互联网领域,尤其是涉及一种机器翻译方法及相关装置。
背景技术
机器翻译(英文:machine translation),又称为自动翻译,是指利用计算机将一种自然语言(即源语言)转换为另一种自然语言(即目标语言)。
目前在进行机器翻译时,通常将待翻译信息以一定的划分单位划分成信息单元,对单个信息单元独立地进行翻译,例如,将信息单元依次输入到翻译模型中,翻译模型输出概率最大的译文信息。然而,这种方式得到的译文信息往往准确度不高,尤其是在实时翻译等对翻译速度要求较高的场景中,信息单元的信息粒度较小,因此译文信息的准确性更加难以得到保证。
发明内容
本申请解决的技术问题在于提供一种机器翻译方法及相关装置,能够在进行机器翻译时扩大信息单元的信息粒度,从而提高译文信息的准确性。
为此,本申请解决技术问题的技术方案是:
本发明实施例提供了一种机器翻译方法,包括:
获取当前信息单元和所述当前信息单元的上文相关信息;
获取所述上文相关信息对应的译文信息,作为上文译文信息;
对包括所述当前信息单元和所述上文相关信息的合并信息进行翻译,获得包括所述上文译文信息的目标译文信息;
从所述目标译文信息中筛除所述上文译文信息,得到所述当前信息单元对应的译文信息。
可选的,获取所述当前信息单元的上文相关信息,包括:
从所述当前信息单元的上文信息中,获取与所述当前信息单元相邻的一个或多个信息单元。
可选的,获取所述当前信息单元的上文相关信息,包括:
获取所述当前信息单元中的关键词;
从所述当前信息单元的上文信息中,获取与所述关键词相关的一个或多个信息单元。
可选的,对包括所述当前信息单元和所述上文相关信息的合并信息进行翻译,获得包括所述上文译文信息的目标译文信息,包括:
将所述合并信息和所述上文译文信息输入至翻译模型;
获得所述翻译模型输出的包括所述上文译文信息的所述目标译文信息。
可选的,所述翻译模型包括解码器;获得所述翻译模型输出的包括所述上文译文信息的所述目标译文信息,包括:
通过所述解码器选择合并信息对应的输出序列,其中所述解码器在选择所述上文相关信息对应的输出序列时,选择所述上文译文信息匹配的输出序列,在选择所述当前信息单元对应的输出序列时,根据计算出的为正确译文信息的概率选择输出序列;
获取所述解码器输出的所述合并信息对应的输出序列,作为所述目标译文信息。
可选的,获取所述上文相关信息对应的译文信息,作为上文译文信息之前,还包括:
对所述上文相关信息进行翻译,获得所述上文译文信息;对所述上文译文信息执行上屏操作;
获取所述上文相关信息对应的译文信息,作为上文译文信息,包括:
获取已上屏的所述上文译文信息。
本发明实施例提供了一种机器翻译装置,包括:
第一获取单元,用于获取当前信息单元;
第二获取单元,用于获取所述当前信息单元的上文相关信息;
第三获取单元,用于获取所述上文相关信息对应的译文信息,作为上文译文信息;
翻译单元,用于对包括所述当前信息单元和所述上文相关信息的合并信息进行翻译,获得包括所述上文译文信息的目标译文信息;
筛除单元,用于从所述目标译文信息中筛除所述上文译文信息,得到所述当前信息单元对应的译文信息。
可选的,所述第二获取单元具体用于,从所述当前信息单元的上文信息中,获取与所述当前信息单元相邻的一个或多个信息单元。
可选的,所述第二获取单元具体用于,获取所述当前信息单元中的关键词;从所述当前信息单元的上文信息中,获取与所述关键词相关的一个或多个信息单元。
可选的,所述翻译单元包括:
输入子单元,用于将所述合并信息和所述上文译文信息输入至翻译模型;
获得子单元,用于获得所述翻译模型输出的包括所述上文译文信息的所述目标译文信息。
可选的,所述翻译模型包括解码器;所述获得子单元具体用于,通过所述解码器选择合并信息对应的输出序列,其中所述解码器在选择所述上文相关信息对应的输出序列时,选择所述上文译文信息匹配的输出序列,在选择所述当前信息单元对应的输出序列时,根据计算出的为正确译文信息的概率选择输出序列;获取所述解码器输出的所述合并信息对应的输出序列,作为所述目标译文信息。
可选的,还包括:上屏单元;
所述翻译单元还用于,对所述上文相关信息进行翻译,获得所述上文译文信息;
所述上屏单元用于,对所述上文译文信息执行上屏操作;
所述第三获取单元,具体用于获取已上屏的所述上文译文信息。
本发明实施例提供了一种用于机器翻译的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取当前信息单元和所述当前信息单元的上文相关信息;
获取所述上文相关信息对应的译文信息,作为上文译文信息;
对包括所述当前信息单元和所述上文相关信息的合并信息进行翻译,获得包括所述上文译文信息的目标译文信息;
从所述目标译文信息中筛除所述上文译文信息,得到所述当前信息单元对应的译文信息。
本发明实施例提供了一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行上述任一个或多个所述的机器翻译方法的方法实施例。
通过上述技术方案可知,本发明实施例中并不是对当前信息单元独立地进行翻译,而是对包括当前信息单元和其上文相关信息的合并信息进行翻译,并且使得翻译出的目标译文信息中包括上文相关信息对应的上文译文信息,最后通过从目标译文信息中筛除上文译文信息,得到当前信息单元对应的译文信息。因此,本发明实施例对当前信息单元进行翻译时能够结合上文相关信息,相当于在机器翻译时扩大了信息粒度,从而提高了译文信息的准确性。此外,本发明实施例在结合上文相关信息的同时,不需要对已上屏的上文译文信息进行修改,适用于实时翻译等应用场景中。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种方法实施例的流程示意图;
图2为本申请实施例提供的一种装置实施例的结构示意图;
图3为根据一示例性实施例示出的一种用于机器翻译的装置的框图;
图4为本发明实施例中服务器的结构示意图。
具体实施方式
机器翻译(英文:machine translation),又称为自动翻译,是指利用计算机将一种自然语言(即源语言)转换为另一种自然语言(即目标语言)。例如,将中文文本转换成英文文本,或者将英文文本转换成中文文本。
目前在进行机器翻译时,通常将待翻译信息以一定的划分单位划分成多个信息单元,例如,将待翻译信息以段落为单位划分成多个信息单元,对各个信息单元独立地进行翻译。例如,将各个信息单元依次输入到翻译模型中,翻译模型分别输出每个信息单元对应的概率最大的译文信息。其中,概率最大的译文信息指的是为正确译文信息的概率,可以由翻译模型进行计算。例如,将待翻译信息以句子为单位划分成2个信息单元:信息单元A和信息单元B,将信息单元A输入到翻译模型,翻译模型输出信息单元A对应的概率最大的译文信息,之后将信息单元B输入到翻译模型,翻译模型输出信息单元B对应的概率最大的译文信息。
然而这种翻译方式中,由于对每个信息单元独立地进行翻译,而不会参考信息单元的上文信息,得到的译文信息往往准确度不高,例如当信息单元缺少主语时,包括多义词时,或者出现文本错误时,译文信息的准确性都较低。尤其是在实时翻译(例如同声传译)等对翻译速度要求较高的场景中,信息单元的信息粒度较小,因此译文信息的准确性更加难以得到保证。
下面举例说明说明信息单元包括多义词的情况,当待翻译信息为英文文本:“Hegoes to the hospital.He is a doctor.”,将该英文文本划分成两个信息单元:信息单元A“He works at the hospital.”以及信息单元B“He is a doctor”。由于“doctor”是多义词,既可以翻译为博士,也可以翻译为医生,虽然能够根据信息单元B的上文判断出应该翻译为医生,但是如果将信息单元B单独输入到翻译模型,在对信息单元B进行翻译时并不参考信息单元A,则很有可能会出现翻译错误。
下面举例说明信息单元缺少主语的情况,当待翻译信息为中文文本:“上帝很不开心;觉得人类太自大了”,将该中文文本划分成两个信息单元:信息单元A“上帝很不开心”以及信息单元B“觉得人类太自大了”。由于信息单元B缺少主语,虽然能够根据信息单元A确定出信息单元B的主语,但是如果将信息单元B单独输入到翻译模型,在对信息单元B进行翻译时并不参考信息单元A,则很有可能使得信息单元B的译文信息不包括主语,从而影响了准确性。
本发明实施例解决的技术问题在于提供一种机器翻译方法及相关装置,能够在进行机器翻译时参考上文相关信息,因此扩大信息单元的信息粒度,从而提高译文信息的准确性。
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
请参阅图1,本发明实施例提供了机器翻译方法的一种方法实施例。本实施例包括:
S101:获取当前信息单元和所述当前信息单元的上文相关信息。
在本发明实施例中,用户可以通过键盘、触屏、麦克风等输入设备,输入待翻译信息,例如本发明实施例用于同声传译等实时翻译的应用场景时,用户可以通过麦克风实时输入语音数据,对该语音数据进行语音识别得到对应的文本信息,作为待翻译信息。将用户输入的待翻译信息按照一定的划分单元,划分成多个信息单元。例如在实时翻译等对翻译速度要求较高的场景中,通过对句号、分号以及逗号中一种或多种标点符号的识别,以分句、句子或者段落为单位将待翻译信息划分成多个信息单元。其中,将所述多个信息单元中当前待翻译的信息单元,作为当前信息单元。
其中,当需要对当前信息单元进行翻译时,还需要获取当前信息单元的上文相关信息,上文相关信息指的是当前信息单元的上文信息中,与当前信息单元相关的一个或多个信息单元。上文相关信息的译文信息可以为已上屏的译文信息,例如在同声传译等实时翻译的应用场景中,将已翻译出的译文信息执行上屏操作,上屏后的译文信息通常情况下不能进行修改。
举例说明,在同声传译等实时翻译的应用场景中,待翻译信息为英文文本:“Heworks at the hospital.He is a doctor.”,以句子为单位将待翻译信息划分成两个信息单元:信息单元“He works at the hospital”和信息单元“He is a doctor”,对信息单元依次进行翻译。当对信息单元“He works at the hospital”已经翻译完成,得到对应的译文信息并且执行上屏操作之后,需要对信息单元“he is a doctor”进行翻译时,将信息单元“he is a doctor”作为当前信息单元,将信息单元“He works at the hospital”作为上文相关信息。
S102:获取所述上文相关信息对应的译文信息,作为上文译文信息。
其中,当上文相关信息对应的译文信息为已上屏的译文信息时,获取该已上屏的译文信息。具体地,在对当前信息单元进行翻译之前,对上文相关信息进行翻译,并且得到上文相关信息对应的上文译文信息,该上文译文信息执行上屏操作,获取该已上屏的上文译文信息。
S103:对包括所述当前信息单元和所述上文相关信息的合并信息进行翻译,获得包括所述上文译文信息的目标译文信息。
在本发明实施例中,在对当前信息单元进行翻译时,不再是将当前信息单元单独地进行翻译,而是将当前信息单元和所述上文相关信息合并后,得到两者的合并信息,并对合并信息整体进行翻译。例如对当前信息单元“He is a doctor”进行翻译时,将合并信息“He works at the hospital.He is a doctor.”整体进行翻译,使得在对当前信息单元进行翻译时,能够结合上文相关信息“He works at the hospital”。
在一种实施方式中,可以通过翻译模型进行机器翻译。具体地,将所述当前信息单元和所述上文相关信息的合并信息输入至翻译模型,获取所述翻译模型输出的包含所述上文译文信息的目标译文信息。其中,将上述合并信息输入至翻译模型后,翻译模型能够根据训练好的翻译规则,计算出一个或多个对应的译文信息,从计算出的译文信息中,筛选出包含上文译文信息的目标译文信息。例如,上文译文信息为“他在医院工作”,筛选出包括上文译文信息:“他在医院工作”的目标译文信息:“他在医院工作,他是个医生”。可见,通过结合上文相关信息,能够对当前信息单元中的多义词进行准确地翻译。
S104:从所述目标译文信息中筛除所述上文译文信息,得到所述当前信息单元对应的译文信息。
由于所述目标译文信息为合并信息对应的译文信息,当需要获取当前信息单元对应的译文信息时,需要从目标译文信息中筛除上文相关信息对应的上文译文信息。例如,目标译文信息为“他在医院工作,他是个医生”,上文相关信息为“他在医院工作”,最终得到筛选后的译文信息为“他是个医生”。
可见,本发明实施例中并不是将当前信息单元独立地进行翻译,而是对包括当前信息单元和其上文相关信息的合并信息进行翻译,并且使得翻译出的目标译文信息中包括上文相关信息对应的上文译文信息,最后通过从目标译文信息中筛除上文译文信息,得到当前信息单元对应的译文信息。因此,本发明实施例对当前信息单元进行翻译时能够结合上文相关信息,相当于在机器翻译时扩大了信息粒度,从而提高了译文信息的准确性,尤其是当信息单元缺少主语时,包括多义词时,或者出现文本错误时,本发明实施例能够有效地提高译文信息的准确性。例如,当前信息单元缺少主语时,通过结合上文相关信息,能够使得当前信息单元对应的译文信息中包含主语。例如,当前信息单元包括多义词时,通过结合上文相关信息,能够对多义词实现准确地翻译。例如当前信息单元中出现文本错误时,又例如对用户输入的语音数据进行语音识别时出现识别错误,导致当前信息单元出现文本错误时,通过结合上文相关信息,能够对当前信息单元进行纠错,得到准确地译文信息。
此外,本发明实施例在结合上文相关信息的同时,不需要对已上屏的上文译文信息进行修改,适用于实时翻译等应用场景中。
在本发明实施例中,将当前信息单元和上文相关信息的合并信息输入至翻译模型后,能够得到对应输出的目标译文信息。其中,上文相关信息为当前信息单元的上文信息中,与当前信息单元相关的一个或多个信息单元,下面对上文相关信息的多种获取方式进行示例性地说明。
一种实施方式中,从所述当前信息单元的上文信息中,获取与所述当前信息单元相邻的一个或多个信息单元,即当前信息单元的前一个或者多个信息单元,作为上文相关信息。例如,信息单元以句子为单元进行划分,从当前信息单元的上文信息中,获取与当前信息单元相邻的一个或多个句子作为上文相关信息。举例说明,当前信息单元为分句“Heis a doctor”,将当前信息单元的前一个句子“He works at the hospital”作为上文相关信息,将当前信息“he is a doctor”和上文相关信息“He works at the hospital”的合并信息“he is a doctor,He works at the hospital”输入至翻译模型中进行翻译。
另一种实施方式中,根据当前信息单元中的关键词,获取上文相关信息。具体地,获取所述当前信息单元中的关键词;从所述当前信息单元的上文信息中,获取与所述关键词相关的一个或多个信息单元,作为上文相关信息。例如,可以通过分词处理、切词处理、与词库匹配等方式,从当前信息单元中提取出一个或多个关键词,将当前信息单元的上文信息与提取出的关键词进行匹配,将匹配出的一个或多个信息单元,作为上文相关信息。例如,从当前信息单元中提取出关键词“doctor”,从当前信息单元的上文信息中,匹配得到包括“hospital”的信息单元,作为上文相关信息。将当前信息“he is a doctor”和包括“hospital”的信息单元的合并信息“He is a doctor.He works at the hospital”输入至翻译模型中进行翻译。
此外,本发明实施例也可以结合上述两种实施方式确定出上文相关信息,或者采用其他的实施方式确定出上文相关信息,本发明实施例对此并不加以限定。
在本发明实施例中,在对所述合并信息进行翻译时,可以是将所述合并信息和所述上文译文信息输入至翻译模型中,由所述翻译模型对所述合并信息进行翻译,为了使得翻译模型输出的目标译文信息包括上文译文信息,可以通过对序列到序列(Seq2Seq)技术的解码(Decode)输出过程进行限定,下面具体说明。
Seq2Seq技术的主要思路是通过深度神经网络模型,将输入序列映射为输出序列,这一过程包括编码(Encode)输入过程和解码输出过程。其中,编码输入过程主要用于将输入序列经由编码器编译为语义向量,在本发明实施例中,可以将输入至翻译模型的合并信息作为输入序列,将该合并信息经由翻译模型中的编码器编译为语义向量。解码输出过程主要用于将语义向量在翻译模型中的解码器中进行解译,得到输出序列,在本发明实施例中,可以将解码器对语义向量解译得到的输出序列作为合并信息对应的目标译文信息。下面对解码器得到目标译文信息的具体实现方式进行示例性说明。
可选的,通过所述解码器选择合并信息对应的输出序列,并输出所述输出序列,其中所述解码器在选择所述上文相关信息对应的输出序列时,选择所述上文译文信息匹配的输出序列,例如选择与已上屏的上文译文信息内容完全一致的输出序列;在选择所述当前信息单元对应的输出序列时,根据计算出的为正确译文的概率选择输出序列,例如选择为正确译文的概率最大的输出序列;获取所述解码器输出的所述合并信息对应的输出序列,作为所述目标译文信息。
其中,解码器可以采用集束搜索(Beam Search)算法进行解译。具体地,翻译模型建立译文信息树,所述译文信息树包括多个层级,每个层级包括一个或多个节点,其中一个层级的不同节点分别对应合并信息中的一个词的不同译文信息。例如,译文信息树的第一层级对应合并信息中的第一个词的译文信息,其中第一层级的节点A对应第一个词的译文信息a,第一层级的节点B对应第一个词的译文信息b,译文信息树的第二层级对应合并信息中的第二个词的译文信息,依次类推。在建立译文信息树之后,解码器从所述译文信息树中确定出一条译文路径信息,将该路径信息包括的节点所对应的译文信息,作为目标译文信息。例如,建立的一条译文路径信息包括:第一层级的节点A-第二层级的节点B-第三层级的节点C,将节点A、节点B和节点C分别对应的译文信息所组合得到的译文信息,作为目标译文信息。其中,为了实现目标译文信息中包括上文译文信息,解码器在确定译文路径信息时,会强制该路径信息包括上文译文信息对应的节点,即,在确定上文相关信息对应的译文路径信息时,选择上文译文信息对应的节点,而在确定当前信息单元对应的译文路径信息时,可以选择计算出的为正确译文的概率最大的节点。
对应上述图1所示的方法实施例,本发明实施例还提供了相应的装置实施例,下面具体说明。
请参阅图2,本发明实施例提供了机器翻译装置的一种装置实施例,包括:第一获取单元201、第二获取单元202、第二获取单元203、翻译单元204和筛选单元205。
第一获取单元201,用于获取当前信息单元。
在本发明实施例中,用户可以通过键盘、触屏、麦克风等输入设备,输入待翻译信息,例如本发明实施例用于同声传译等实时翻译的应用场景时,用户可以通过麦克风实时输入语音数据,对该语音数据进行语音识别得到对应的文本信息,作为待翻译信息。将用户输入的待翻译信息按照一定的划分单元,划分成多个信息单元。例如在实时翻译等对翻译速度要求较高的场景中,通过对句号、分号以及逗号中一种或多种标点符号的识别,以分句、句子或者段落为单位将待翻译信息划分成多个信息单元。其中,将所述多个信息单元中当前待翻译的信息单元,作为当前信息单元。
第二获取单元202,用于获取所述当前信息单元的上文相关信息。
在本发明实施例中,当需要对当前信息单元进行翻译时,还需要获取当前信息单元的上文相关信息,上文相关信息指的是当前信息单元的上文信息中,与当前信息单元相关的一个或多个信息单元。上文相关信息的译文信息可以为已上屏的译文信息,例如在同声传译等实时翻译的应用场景中,将已翻译出的译文信息执行上屏操作,上屏后的译文信息通常情况下不能进行修改。
第三获取单元203,用于获取所述上文相关信息对应的译文信息,作为上文译文信息。
其中,当上文相关信息对应的译文信息为已上屏的译文信息时,获取该已上屏的译文信息。可选的,所述机器翻译装置还包括:上屏单元;所述翻译单元还用于,对所述上文相关信息进行翻译,获得所述上文译文信息;所述上屏单元用于,对所述上文译文信息执行上屏操作;所述第三获取单元,具体用于获取已上屏的所述上文译文信息。
翻译单元204,用于对包括所述当前信息单元和所述上文相关信息的合并信息进行翻译,获得包括所述上文译文信息的目标译文信息。
在本发明实施例中,在对当前信息单元进行翻译时,不再是将当前信息单元单独地进行翻译,而是由翻译单元将当前信息单元和所述上文相关信息合并后,得到两者的合并信息,并对合并信息整体进行翻译。
在一种实施方式中,可以通过翻译模型进行机器翻译。可选的,所述翻译单元包括:输入子单元和获得子单元,所述输入子单元用于将所述合并信息和所述上文译文信息输入至翻译模型;所述获得子单元用于获得所述翻译模型输出的包括所述上文译文信息的所述目标译文信息。其中,将上述合并信息输入至翻译模型后,翻译模型能够根据训练好的翻译规则,计算出一个或多个对应的译文信息,从计算出的译文信息中,筛选出包含上文译文信息的目标译文信息。
筛除单元205,用于从所述目标译文信息中筛除所述上文译文信息,得到所述当前信息单元对应的译文信息。
由于所述目标译文信息为合并信息对应的译文信息,当需要获取当前信息单元对应的译文信息时,需要从目标译文信息中筛除上文相关信息对应的上文译文信息。
可见,本发明实施例中并不是将当前信息单元独立地进行翻译,而是对包括当前信息单元和其上文相关信息的合并信息进行翻译,并且使得翻译出的目标译文信息中包括上文相关信息对应的上文译文信息,最后通过从目标译文信息中筛除上文译文信息,得到当前信息单元对应的译文信息。因此,本发明实施例对当前信息单元进行翻译时能够结合上文相关信息,相当于在机器翻译时扩大了信息粒度,从而提高了译文信息的准确性,尤其是当信息单元缺少主语时,包括多义词时,或者出现文本错误时,本发明实施例能够有效地提高译文信息的准确性。此外,本发明实施例在结合上文相关信息的同时,不需要对已上屏的上文译文信息进行修改,适用于实时翻译等应用场景中。
在本发明实施例中,上文相关信息为当前信息单元的上文信息中,与当前信息单元相关的一个或多个信息单元,下面对获取上文相关信息的第二获取单元进行示例性地说明。
一种实施方式中,所述第二获取单元具体用于,从所述当前信息单元的上文信息中,获取与所述当前信息单元相邻的一个或多个信息单元,即当前信息单元的前一个或者多个信息单元,作为上文相关信息。
另一种实施方式中,所述第二获取单元具体用于,获取所述当前信息单元中的关键词;从所述当前信息单元的上文信息中,获取与所述关键词相关的一个或多个信息单元,作为上文相关信息。例如,可以通过分词处理、切词处理、与词库匹配等方式,从当前信息单元中提取出一个或多个关键词,将当前信息单元的上文信息与提取出的关键词进行匹配,将匹配出的一个或多个信息单元,作为上文相关信息。
此外,第二获取单元也可以结合上述两种实施方获取上文相关信息,或者采用其他的实施方式获取上文相关信息,本发明实施例对此并不加以限定。
在本发明实施例中,在对所述合并信息进行翻译时,可以是将所述合并信息和所述上文译文信息输入至翻译模型中,由所述翻译模型对所述合并信息进行翻译,为了使得翻译模型输出的目标译文信息包括上文译文信息,可以通过对Seq2Seq技术的解码输出过程进行限定。下面具体说明。
可选的,所述翻译模型包括解码器;所述获得子单元具体用于,通过所述解码器选择合并信息对应的输出序列,其中所述解码器在选择所述上文相关信息对应的输出序列时,选择所述上文译文信息匹配的输出序列,在选择所述当前信息单元对应的输出序列时,根据计算出的为正确译文信息的概率选择输出序列;获取所述解码器输出的所述合并信息对应的输出序列,作为所述目标译文信息。
图3是根据一示例性实施例示出的一种用于机器翻译的装置300的框图。例如,装置300可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图3,装置300可以包括以下一个或多个组件:处理组件302,存储器304,电源组件306,多媒体组件308,音频组件310,输入/输出(I/O)的接口312,传感器组件314,以及通信组件316。
处理组件302通常控制装置300的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件302可以包括一个或多个处理器320来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件302可以包括一个或多个模块,便于处理组件302和其他组件之间的交互。例如,处理部件302可以包括多媒体模块,以方便多媒体组件308和处理组件302之间的交互。
存储器304被配置为存储各种类型的数据以支持在设备300的操作。这些数据的示例包括用于在装置300上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件306为装置300的各种组件提供电力。电源组件306可以包括电源管理系统,一个或多个电源,及其他与为装置300生成、管理和分配电力相关联的组件。
多媒体组件308包括在所述装置300和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件308包括一个前置摄像头和/或后置摄像头。当设备300处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件310被配置为输出和/或输入音频信号。例如,音频组件310包括一个麦克风(MIC),当装置300处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器304或经由通信组件316发送。在一些实施例中,音频组件310还包括一个扬声器,用于输出音频信号。
I/O接口312为处理组件302和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件314包括一个或多个传感器,用于为装置300提供各个方面的状态评估。例如,传感器组件314可以检测到设备300的打开/关闭状态,组件的相对定位,例如所述组件为装置300的显示器和小键盘,传感器组件314还可以检测装置300或装置300一个组件的位置改变,用户与装置300接触的存在或不存在,装置300方位或加速/减速和装置300的温度变化。传感器组件314可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件314还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件314还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件316被配置为便于装置300和其他设备之间有线或无线方式的通信。装置300可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件316还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置300可以被一个或多个应用专用集成电路
(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子组件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器304,上述指令可由装置300的处理器320执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种机器翻译方法,所述方法包括:
获取当前信息单元和所述当前信息单元的上文相关信息;
获取所述上文相关信息对应的译文信息,作为上文译文信息;
对包括所述当前信息单元和所述上文相关信息的合并信息进行翻译,获得包括所述上文译文信息的目标译文信息;
从所述目标译文信息中筛除所述上文译文信息,得到所述当前信息单元对应的译文信息。
可选的,获取所述当前信息单元的上文相关信息,包括:
从所述当前信息单元的上文信息中,获取与所述当前信息单元相邻的一个或多个信息单元。
可选的,获取所述当前信息单元的上文相关信息,包括:
获取所述当前信息单元中的关键词;
从所述当前信息单元的上文信息中,获取与所述关键词相关的一个或多个信息单元。
可选的,对包括所述当前信息单元和所述上文相关信息的合并信息进行翻译,获得包括所述上文译文信息的目标译文信息,包括:
将所述合并信息和所述上文译文信息输入至翻译模型;
获得所述翻译模型输出的包括所述上文译文信息的所述目标译文信息。
可选的,所述翻译模型包括解码器;获得所述翻译模型输出的包括所述上文译文信息的所述目标译文信息,包括:
通过所述解码器选择合并信息对应的输出序列,其中所述解码器在选择所述上文相关信息对应的输出序列时,选择所述上文译文信息匹配的输出序列,在选择所述当前信息单元对应的输出序列时,根据计算出的为正确译文信息的概率选择输出序列;
获取所述解码器输出的所述合并信息对应的输出序列,作为所述目标译文信息。
可选的,获取所述上文相关信息对应的译文信息,作为上文译文信息之前,还包括:
对所述上文相关信息进行翻译,获得所述上文译文信息;对所述上文译文信息执行上屏操作;
获取所述上文相关信息对应的译文信息,作为上文译文信息,包括:
获取已上屏的所述上文译文信息。
图4是本发明实施例中服务器的结构示意图。该服务器400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)422(例如,一个或一个以上处理器)和存储器432,一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器422可以设置为与存储介质430通信,在服务器400上执行存储介质430中的一系列指令操作。
服务器400还可以包括一个或一个以上电源426,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口458,一个或一个以上键盘456,和/或,一个或一个以上操作系统441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种机器翻译方法,其特征在于,包括:
获取当前信息单元和所述当前信息单元的上文相关信息;
获取所述上文相关信息对应的译文信息,作为上文译文信息;
对包括所述当前信息单元和所述上文相关信息的合并信息进行翻译,获得包括所述上文译文信息的目标译文信息;
从所述目标译文信息中筛除所述上文译文信息,得到所述当前信息单元对应的译文信息。
2.根据权利要求1所述的方法,其特征在于,获取所述当前信息单元的上文相关信息,包括:
从所述当前信息单元的上文信息中,获取与所述当前信息单元相邻的一个或多个信息单元。
3.根据权利要求1所述的方法,其特征在于,获取所述当前信息单元的上文相关信息,包括:
获取所述当前信息单元中的关键词;
从所述当前信息单元的上文信息中,获取与所述关键词相关的一个或多个信息单元。
4.根据权利要求1所述的方法,其特征在于,对包括所述当前信息单元和所述上文相关信息的合并信息进行翻译,获得包括所述上文译文信息的目标译文信息,包括:
将所述合并信息和所述上文译文信息输入至翻译模型;
获得所述翻译模型输出的包括所述上文译文信息的所述目标译文信息。
5.根据权利要求4所述的方法,其特征在于,所述翻译模型包括解码器;获得所述翻译模型输出的包括所述上文译文信息的所述目标译文信息,包括:
通过所述解码器选择合并信息对应的输出序列,其中所述解码器在选择所述上文相关信息对应的输出序列时,选择所述上文译文信息匹配的输出序列,在选择所述当前信息单元对应的输出序列时,根据计算出的为正确译文信息的概率选择输出序列;
获取所述解码器输出的所述合并信息对应的输出序列,作为所述目标译文信息。
6.根据权利要求1所述的方法,其特征在于,获取所述上文相关信息对应的译文信息,作为上文译文信息之前,还包括:
对所述上文相关信息进行翻译,获得所述上文译文信息;对所述上文译文信息执行上屏操作;
获取所述上文相关信息对应的译文信息,作为上文译文信息,包括:
获取已上屏的所述上文译文信息。
7.一种机器翻译装置,其特征在于,包括:
第一获取单元,用于获取当前信息单元;
第二获取单元,用于获取所述当前信息单元的上文相关信息;
第三获取单元,用于获取所述上文相关信息对应的译文信息,作为上文译文信息;
翻译单元,用于对包括所述当前信息单元和所述上文相关信息的合并信息进行翻译,获得包括所述上文译文信息的目标译文信息;
筛除单元,用于从所述目标译文信息中筛除所述上文译文信息,得到所述当前信息单元对应的译文信息。
8.根据权利要求7所述的装置,其特征在于,所述第二获取单元具体用于,从所述当前信息单元的上文信息中,获取与所述当前信息单元相邻的一个或多个信息单元;或者,
所述第二获取单元具体用于,获取所述当前信息单元中的关键词;从所述当前信息单元的上文信息中,获取与所述关键词相关的一个或多个信息单元。
9.一种用于机器翻译的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取当前信息单元和所述当前信息单元的上文相关信息;
获取所述上文相关信息对应的译文信息,作为上文译文信息;
对包括所述当前信息单元和所述上文相关信息的合并信息进行翻译,获得包括所述上文译文信息的目标译文信息;
从所述目标译文信息中筛除所述上文译文信息,得到所述当前信息单元对应的译文信息。
10.一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至6中一个或多个所述的机器翻译方法。
CN201810194674.8A 2018-03-09 2018-03-09 一种机器翻译方法及相关装置 Active CN110245358B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810194674.8A CN110245358B (zh) 2018-03-09 2018-03-09 一种机器翻译方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810194674.8A CN110245358B (zh) 2018-03-09 2018-03-09 一种机器翻译方法及相关装置

Publications (2)

Publication Number Publication Date
CN110245358A true CN110245358A (zh) 2019-09-17
CN110245358B CN110245358B (zh) 2024-02-02

Family

ID=67882205

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810194674.8A Active CN110245358B (zh) 2018-03-09 2018-03-09 一种机器翻译方法及相关装置

Country Status (1)

Country Link
CN (1) CN110245358B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487831A (zh) * 2020-11-27 2021-03-12 江苏省舜禹信息技术有限公司 一种拆分式人工智能翻译方法
CN114492470A (zh) * 2021-12-31 2022-05-13 广州华多网络科技有限公司 商品标题文本翻译方法及其装置、设备、介质、产品

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678287A (zh) * 2013-11-30 2014-03-26 武汉传神信息技术有限公司 一种关键词翻译统一的方法
CN103714054A (zh) * 2013-12-30 2014-04-09 北京百度网讯科技有限公司 翻译方法和翻译装置
CN104915337A (zh) * 2015-06-18 2015-09-16 中国科学院自动化研究所 基于双语篇章结构信息的译文篇章完整性评估方法
US20160092438A1 (en) * 2014-09-30 2016-03-31 Kabushiki Kaisha Toshiba Machine translation apparatus, machine translation method and program product for machine translation
CN106126506A (zh) * 2016-06-22 2016-11-16 上海者信息科技有限公司 一种在线语料对齐方法及系统
US20160342585A1 (en) * 2015-05-18 2016-11-24 Google Inc. Coordinated user word selection for translation and obtaining of contextual information for the selected word
CN106649288A (zh) * 2016-12-12 2017-05-10 北京百度网讯科技有限公司 基于人工智能的翻译方法和装置
CN106649293A (zh) * 2016-12-28 2017-05-10 语联网(武汉)信息技术有限公司 一种翻译方法及系统
CN106844352A (zh) * 2016-12-23 2017-06-13 中国科学院自动化研究所 基于神经机器翻译系统的单词预测方法及系统
CN107632980A (zh) * 2017-08-03 2018-01-26 北京搜狗科技发展有限公司 语音翻译方法和装置、用于语音翻译的装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678287A (zh) * 2013-11-30 2014-03-26 武汉传神信息技术有限公司 一种关键词翻译统一的方法
CN103714054A (zh) * 2013-12-30 2014-04-09 北京百度网讯科技有限公司 翻译方法和翻译装置
US20160092438A1 (en) * 2014-09-30 2016-03-31 Kabushiki Kaisha Toshiba Machine translation apparatus, machine translation method and program product for machine translation
US20160342585A1 (en) * 2015-05-18 2016-11-24 Google Inc. Coordinated user word selection for translation and obtaining of contextual information for the selected word
CN104915337A (zh) * 2015-06-18 2015-09-16 中国科学院自动化研究所 基于双语篇章结构信息的译文篇章完整性评估方法
CN106126506A (zh) * 2016-06-22 2016-11-16 上海者信息科技有限公司 一种在线语料对齐方法及系统
CN106649288A (zh) * 2016-12-12 2017-05-10 北京百度网讯科技有限公司 基于人工智能的翻译方法和装置
CN106844352A (zh) * 2016-12-23 2017-06-13 中国科学院自动化研究所 基于神经机器翻译系统的单词预测方法及系统
CN106649293A (zh) * 2016-12-28 2017-05-10 语联网(武汉)信息技术有限公司 一种翻译方法及系统
CN107632980A (zh) * 2017-08-03 2018-01-26 北京搜狗科技发展有限公司 语音翻译方法和装置、用于语音翻译的装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MARIA GANZHA等: "Streaming semantic translations", 2017 21ST INTERNATIONAL CONFERENCE ON SYSTEM THEORY, CONTROL AND COMPUTING (ICSTCC) *
朱顺乐 等: "融合深度学习特征的汉维短语表过滤研究", 计算机技术与发展 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487831A (zh) * 2020-11-27 2021-03-12 江苏省舜禹信息技术有限公司 一种拆分式人工智能翻译方法
CN112487831B (zh) * 2020-11-27 2024-10-15 江苏省舜禹信息技术有限公司 一种拆分式人工智能翻译方法
CN114492470A (zh) * 2021-12-31 2022-05-13 广州华多网络科技有限公司 商品标题文本翻译方法及其装置、设备、介质、产品

Also Published As

Publication number Publication date
CN110245358B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
JP2021093113A (ja) 機械翻訳モデルのトレーニング方法、装置およびシステム
CN107291704B (zh) 处理方法和装置、用于处理的装置
CN107564526B (zh) 处理方法、装置和机器可读介质
CN109471919B (zh) 零代词消解方法及装置
CN108628813B (zh) 处理方法和装置、用于处理的装置
CN108628819B (zh) 处理方法和装置、用于处理的装置
EP3734472A1 (en) Method and device for text processing
CN112036195A (zh) 机器翻译方法、装置及存储介质
CN113673261A (zh) 数据生成方法、装置及可读存储介质
CN111414766B (zh) 一种翻译方法及装置
CN110795014B (zh) 一种数据处理方法、装置和用于数据处理的装置
CN110245358B (zh) 一种机器翻译方法及相关装置
CN109977424B (zh) 一种机器翻译模型的训练方法及装置
CN108733657B (zh) 神经机器翻译中注意力参数的修正方法、装置及电子设备
CN111090998A (zh) 一种手语转换方法、装置和用于手语转换的装置
JP7208968B2 (ja) 情報処理方法、装置および記憶媒体
CN111324214B (zh) 一种语句纠错方法和装置
CN110780749B (zh) 一种字符串纠错方法和装置
CN109979435B (zh) 数据处理方法和装置、用于数据处理的装置
CN107301188B (zh) 一种获取用户兴趣的方法及电子设备
CN110837741B (zh) 一种机器翻译方法、装置及系统
CN114462410A (zh) 实体识别方法、装置、终端及存储介质
CN108073566B (zh) 分词方法和装置、用于分词的装置
CN108345590B (zh) 一种翻译方法、装置、电子设备以及存储介质
CN112905023A (zh) 一种输入纠错方法、装置和用于输入纠错的装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220726

Address after: Room 01, floor 9, Sohu Internet building, building 9, No. 1 yard, Zhongguancun East Road, Haidian District, Beijing 100190

Applicant after: BEIJING SOGOU TECHNOLOGY DEVELOPMENT Co.,Ltd.

Address before: 100084. Room 9, floor 01, cyber building, building 9, building 1, Zhongguancun East Road, Haidian District, Beijing

Applicant before: BEIJING SOGOU TECHNOLOGY DEVELOPMENT Co.,Ltd.

Applicant before: SOGOU (HANGZHOU) INTELLIGENT TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant