CN116306704A - 篇章级文本机器翻译方法、系统、设备及介质 - Google Patents

篇章级文本机器翻译方法、系统、设备及介质 Download PDF

Info

Publication number
CN116306704A
CN116306704A CN202310557293.2A CN202310557293A CN116306704A CN 116306704 A CN116306704 A CN 116306704A CN 202310557293 A CN202310557293 A CN 202310557293A CN 116306704 A CN116306704 A CN 116306704A
Authority
CN
China
Prior art keywords
information
context
sentence
context information
target sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310557293.2A
Other languages
English (en)
Other versions
CN116306704B (zh
Inventor
冯骁骋
秦兵
聂润泽
刘挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peng Cheng Laboratory
Original Assignee
Peng Cheng Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peng Cheng Laboratory filed Critical Peng Cheng Laboratory
Priority to CN202310557293.2A priority Critical patent/CN116306704B/zh
Publication of CN116306704A publication Critical patent/CN116306704A/zh
Application granted granted Critical
Publication of CN116306704B publication Critical patent/CN116306704B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了篇章级文本机器翻译方法、系统、设备及介质,属于自然语言技术领域。方法包括:获取待翻译的目标句子和对应的上下文信息;对目标句子和上下文信息进行编码,得到结合上下文信息编码后的第一隐藏层状态信息;对目标句子进行编码,得到单独编码后的第二隐藏层状态信息;将第一隐藏层状态信息和第二隐藏层状态信息输入到预置的判别模型中,得到进行语义相似度计算后输出的模型输出信息;根据模型输出信息确定目标句子对上下文信息的依赖性信息,根据依赖性信息对满足依赖关系的目标句子和上下文信息进行翻译操作。本申请针对性选择上下文信息进行翻译,机器翻译过程中会关注不同语句对于上下文信息的依赖性差别,提高机器翻译的质量。

Description

篇章级文本机器翻译方法、系统、设备及介质
技术领域
本申请涉及自然语言技术领域,尤其涉及一种篇章级文本机器翻译方法、系统、设备及介质。
背景技术
机器翻译(Machine Translation)是指给定源语言的句子,利用计算机将其翻译成另一种语言的句子。目前常用神经网络进行机器翻译,按照所处理数据类型可以分为句子级别(Sentence-Level)的翻译方法和篇章级别(Document-Level)的翻译方法两类。
相关技术中,篇章级别的翻译方法在接收输入数据的同时引入上下文相关信息,从而在解码的同时考虑到上下文信息从而得到更为准确且上下文一致的翻译,相比于句子级别的方法大大提升了前后文翻译的一致性。但由于引入额外的上下文信息,不同句子与上下文信息的依赖程度不同,在与当前语句相结合时依靠来自解码器端的监督信号进行指导学习,导致其结合的效果变得不可控且不可靠,使得翻译质量较差。
发明内容
本申请实施例的主要目的在于提出一种篇章级文本机器翻译方法、系统、设备及介质,能够针对性选用上下文信息进行翻译,提高机器翻译的质量。
为实现上述目的,本申请实施例的第一方面提出了一种篇章级文本机器翻译方法,所述方法包括:获取待翻译的目标句子和对应的上下文信息;对所述目标句子和所述上下文信息进行编码,得到所述目标句子在结合所述上下文信息编码后的第一隐藏层状态信息;对所述目标句子进行编码,得到所述目标句子在单独编码后的第二隐藏层状态信息;将所述第一隐藏层状态信息和所述第二隐藏层状态信息输入到预先设置的判别模型中,得到所述判别模型进行语义相似度计算后输出的模型输出信息;根据所述模型输出信息确定所述目标句子对所述上下文信息的依赖性信息,根据所述依赖性信息对满足依赖关系的所述目标句子和所述上下文信息进行翻译操作。
在一些实施例中,所述得到所述判别模型进行语义相似度计算后输出的模型输出信息,包括:获取所述目标句子的源语言信息,以及所述目标句子需要翻译的目标语言信息;根据所述源语言信息、所述目标语言信息、所述第一隐藏层状态信息和所述第二隐藏层状态信息,对所述第一隐藏层状态信息和所述第二隐藏层状态信息之间进行条件交叉互信息计算,得到所述目标句子对所述上下文信息的条件交叉互信息值;将所述条件交叉互信息值作为模型输出的模型输出信息。
在一些实施例中,所述条件交叉互信息值通过以下公式(1)得到:
Figure SMS_1
(1)
根据公式(1)形式化表示为公式(2):
Figure SMS_2
(2)
其中,
Figure SMS_3
为所述条件交叉互信息值,/>
Figure SMS_4
为所述第一隐藏层状态信息,/>
Figure SMS_5
为所述第一隐藏层状态信息中的概率,/>
Figure SMS_6
为所述第二隐藏层状态信息,/>
Figure SMS_7
为所述第二隐藏层状态信息中的概率,C为所述上下文信息,X对应所述源语言信息,Y对应所述目标语言信息。
在一些实施例中,所述依赖性信息包括第一依赖性信息和第二依赖性信息;所述根据所述模型输出信息确定所述目标句子对所述上下文信息的依赖性信息,包括:获取预设的条件交叉互信息阈值;若所述模型输出信息大于所述条件交叉互信息阈值,确定所述目标句子对所述上下文信息的所述第一依赖性信息,其中,所述第一依赖性信息表征所述目标句子对所述上下文信息满足依赖关系;若所述模型输出信息小于或等于所述条件交叉互信息阈值,确定所述目标句子对所述上下文信息的所述第二依赖性信息,其中,所述第二依赖性信息表征所述目标句子对所述上下文信息不满足依赖关系。
在一些实施例中,所述根据所述依赖性信息对满足依赖关系的所述目标句子和所述上下文信息进行翻译操作,包括:获取预设的上下文编码器和解码器;若所述依赖性信息为所述第一依赖性信息,满足依赖关系的所述目标句子和所述上下文信息输入到所述上下文编码器中进行编码,得到编码结果;将所述编码结果输入到所述解码器中进行解码,得到翻译结果。
在一些实施例中,所述判别模型为神经网络模型,所述判别模型基于多层感知机结构,并由前馈神经网络构成,用于对文本进行分类;其中,所述判别模型通过以下步骤训练得到,包括:获取样本句子和对应的样本上下文信息;对所述样本句子和所述样本上下文信息进行编码,得到所述样本句子在结合所述样本上下文信息编码后的第三隐藏层状态信息;对所述样本句子进行编码,得到所述样本句子在单独编码后的第四隐藏层状态信息;将所述第三隐藏层状态信息和所述第四隐藏层状态信息输入到所述判别模型中,得到所述判别模型进行语义相似度计算后输出的样本模型输出信息;获取预设的条件交叉互信息阈值,根据所述样本模型输出信息和所述条件交叉互信息阈值确定所述判别模型的预测结果,其中,所述预测结果表征所述样本句子对所述样本上下文信息的依赖性信息;获取所述样本句子对所述样本上下文信息依赖的真实结果,根据所述真实结果和所述预测结果得到所述判别模型的模型损失值,并根据所述模型损失值调整所述判别模型的参数。
在一些实施例中,所述模型损失值通过以下公式(3)中的模型损失函数计算得到:
Figure SMS_8
(3)
其中,
Figure SMS_9
为所述模型损失值,p为所述预测结果,q为所述真实结果。
在一些实施例中,所述对所述目标句子和所述上下文信息进行编码,得到所述目标句子在结合所述上下文信息编码后的第一隐藏层状态信息,包括:获取预设的上下文编码器;将所述目标句子和所述上下文信息输入到所述上下文编码器中进行编码,得到所述目标句子在结合所述上下文信息编码后的第一隐藏层状态信息。
在一些实施例中,所述上下文编码器包含多层;所述将所述目标句子和所述上下文信息输入到所述上下文编码器中进行编码,得到所述目标句子在结合所述上下文信息编码后的第一隐藏层状态信息,包括:将所述目标句子作为当前句子,并将所述当前句子和所述上下文信息输入到所述上下文编码器的首层中进行位置编码,并标记出当前层的目标数据;将上一层的所述目标数据和所述上下文信息作为所述上下文编码器下一层的输入,并经过多层位置编码后,得到所述目标句子在结合所述上下文信息编码后的第一隐藏层状态信息。
为实现上述目的,本申请实施例的第二方面提出了一种篇章级文本机器翻译系统,所述系统包括:信息获取模块,用于获取待翻译的目标句子和对应的上下文信息;第一预处理模块,用于对所述目标句子和所述上下文信息进行编码,得到所述目标句子在结合所述上下文信息编码后的第一隐藏层状态信息;第二预处理模块,用于对所述目标句子进行编码,得到所述目标句子在单独编码后的第二隐藏层状态信息;判别模块,用于将所述第一隐藏层状态信息和所述第二隐藏层状态信息输入到预先设置的判别模型中,得到所述判别模型进行语义相似度计算后输出的模型输出信息;翻译模块,用于根据所述模型输出信息确定所述目标句子对所述上下文信息的依赖性信息,根据所述依赖性信息对满足依赖关系的所述目标句子和所述上下文信息进行翻译操作。
为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面实施例所述的篇章级文本机器翻译方法。
为实现上述目的,本申请实施例的第四方面提出了一种存储介质,所述存储介质为计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面实施例所述的篇章级文本机器翻译方法。
本申请实施例提出的篇章级文本机器翻译方法、系统、设备及介质,篇章级文本机器翻译方法可以应用在篇章级文本机器翻译系统中。通过执行篇章级文本机器翻译方法,可以在得到文章中待翻译的目标句子和对应的上下文信息后,针对目标句子和上下文信息进行编码,得到目标句子在结合上下文信息编码后的第一隐藏层状态信息,并对目标句子进行编码,得到目标句子在单独编码后的第二隐藏层状态信息,通过建立判别模型,将第一隐藏层状态信息和第二隐藏层状态信息输入到别模型中,通过判别模型判断目标句子对上下文信息的依赖性,并基于目标句子和有依赖性的上下文信息进行翻译操作。本申请实施例中可以针对性选择上下文信息进行翻译,使得机器翻译的过程中会关注不同语句对于上下文信息的依赖性差别,提高机器翻译的质量。
附图说明
图1是本申请实施例提供的篇章级文本机器翻译系统的平台示意图;
图2是本申请实施例提供的篇章级文本机器翻译方法的流程示意图;
图3是本申请实施例提供的对目标句子进行单独编码的示意图;
图4是本申请实施例提供的对目标句子结合上下文信息后编码的示意图;
图5是图2中的步骤S104的流程示意图;
图6是图2中的步骤S105的流程示意图;
图7是图2中的步骤S105之中翻译操作的流程示意图;
图8是本申请实施例提供的判别模型训练过程的流程示意图;
图9是图2中的步骤S102的流程示意图;
图10是图9中的步骤S602的流程示意图;
图11是本申请实施例提供的篇章级文本机器翻译系统的功能模块示意图;
图12是本申请实施例提供的电子设备的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
首先,对本申请中涉及的若干名词进行解析:
人工智能(artificial intelligence,AI):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器翻译,即给定源语言的句子,利用计算机将其翻译成另一种语言的句子。神经机器翻译(Neural Machine Translation, NMT)系统利用了神经网络进行机器翻译,其使用编码器将待翻译的源语言句子编码成连续的向量表示,而后给予词表示使用解码器生成目标语言的翻译。
对于神经机器翻译系统,现有方法按照所处理数据类型可以分为句子级别的翻译方法和篇章级别的翻译方法两类。句子级别的方法在解码过程中逐词生成目标语言的翻译结果,其每个词语的生成依赖于已生成翻译结果,对于每一句输入数据计算其独立概率并输出对应翻译。而篇章级别的机器翻译方法在接受输入数据的同时引入上下文相关信息,从而在解码的同时考虑到上下文信息从而得到更为准确且上下文一致的翻译,相比于句子级别的方法大大提升了前后文翻译的一致性。
篇章级别的翻译中,由于引入额外的上下文信息,在与当前语句相结合时依靠来自解码器端的监督信号进行指导学习,其结合的效果变得不可控且不可靠,导致翻译结果仍有很大进步空间。为了解决上述问题,相关技术中使用动态选择方式改进篇章级别机器翻译性能,其不同于一次性导入上下文语句,该方法通过多次筛选从上文中选出对应语句作为上下文信息,并采用强化学习的思想控制选择算法的自我学习。此外,还有使用多跳方法(Multi-Hop)对上下文信息进行筛选,该方法借鉴了阅读理解中的多跳方法,利用当前句信息作为条件对上下文进行查询,从而筛选到有用信息。
综上,有许多工作着力于改进篇章级机器翻译系统对上下文信息的利用情况,以提升翻译准确性及前后一致性,但由于引入额外的上下文信息,不同句子与上下文信息的依赖程度不同,在与当前语句相结合时依靠来自解码器端的监督信号进行指导学习,导致其结合的效果变得不可控且不可靠,使得翻译质量较差。
基于此,本申请实施例提供了一种篇章级文本机器翻译方法、系统、设备及介质,可以通过一个模型实现多种不同的篇章级文本机器翻译任务,能够提高系统的通用性,降低篇章级文本机器翻译的成本和难度。
本申请实施例提供的篇章级文本机器翻译方法、系统、设备及介质,具体通过如下实施例进行说明,首先描述本申请实施例中的篇章级文本机器翻译系统。
本申请实施例中的系统如图1所示,其中,篇章级文本机器翻译系统设置有判别模型、上下文感知编码器(Context-Aware Encoder)和解码器(Decoder),其中,判别模型用于对输入的当前句子是否对上下文信息有依赖进行判断,而上下文感知编码器是一种上下文编码器(后文可直接称上下文编码器),可以对输入的句子和上下文信息进行编码,由于此时输入到上下文编码器中的句子和上下文信息是经过判别模型判断后输入的,因此二者之间是具有依赖性的,所以提高了感知能力。最终上下文编码器可以输出编码结果,并经过解码器进行处理,得到句子的翻译结果。
判别模型的形式有多种,判别模型是一个神经网络模型。示例性的,判别模型内包含设置有编码器,该编码器可以与上述上下文感知编码器相同,也是一种上下文编码器。本申请实施例中,向判别模型中输入当前句子和上下文信息,编码器可以结合当前句子和上下文信息进行编码,从而得到当前句子在结合上下文信息后的编码得到的隐藏层状态;模型中还可以单独对当前句子进行编码,编码的过程可以由模型中普通的句子编码器实现,最终得到不结合上下文信息后编码得到的隐藏层状态。最后,通过这两个隐藏层状态计算当前句子与上下文信息之间的条件交叉互信息(Conditional Cross-MutualInformation,CXMI)值,通过条件交叉互信息值来判断当前句子对上下文信息是否有依赖。
示例性的,判别模型也可以不设置有编码器,可以在得到当前句子和上下文信息后,先通过外置的编码器得到上述两个隐藏层状态后,再将两个隐藏层状态输入到判别模型中,以便计算得到条件交叉互信息值。因此,判别模型的主要作用是对当前句子是否依赖上下文信息进行判断,对判别模型的形式,本申请实施例不做具体限制。
基于此,本申请实施例中的篇章级文本机器翻译方法可以通过如下实施例进行说明。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的篇章级文本机器翻译方法,涉及人工智能技术领域。本申请实施例提供的篇章级文本机器翻译方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的软件。在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等;服务器端可以配置成独立的物理服务器,也可以配置成多个物理服务器构成的服务器集群或者分布式系统,还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器;软件可以是实现篇章级文本机器翻译方法的应用等,但并不局限于以上形式。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
需要说明的是,在本申请的各个具体实施方式中,当涉及到需要根据用户信息、用户行为数据,用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时,都会先获得用户的许可或者同意,例如,获取用户存储的数据以及用户的缓存数据访问请求时,均会先获得用户的许可或者同意;在获取目标句子和上下文信息时,本申请实施例会先获得用户的许可或者同意。而且,对这些数据的收集、使用和处理等,都会遵守相关法律法规和标准。此外,当本申请实施例需要获取用户的敏感个人信息时,会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意,在明确获得用户的单独许可或者单独同意之后,再获取用于使本申请实施例能够正常运行的必要的用户相关数据。
图2是本申请实施例提供的篇章级文本机器翻译方法的一个可选的流程图,图2中的方法可以包括但不限于包括步骤S101至步骤S105。
步骤S101,获取待翻译的目标句子和对应的上下文信息;
步骤S102,对目标句子和上下文信息进行编码,得到目标句子在结合上下文信息编码后的第一隐藏层状态信息;
步骤S103,对目标句子进行编码,得到目标句子在单独编码后的第二隐藏层状态信息;
步骤S104,将第一隐藏层状态信息和第二隐藏层状态信息输入到预先设置的判别模型中,得到判别模型进行语义相似度计算后输出的模型输出信息;
步骤S105,根据模型输出信息确定目标句子对上下文信息的依赖性信息,根据依赖性信息对满足依赖关系的目标句子和上下文信息进行翻译操作。
示例性的,本申请实施例中的篇章级文本机器翻译方法可以应用在上述实施例中的篇章级文本机器翻译系统中,篇章级文本机器翻译系统在上述实施例中已有描述,在此不再赘述。
目标句子是文章中的某个句子,可以是任意段落中的一句,通过定义目标句子,用于描述当前进行依赖性判断的句子,因此,目标句子可以为进行依赖性判断的当前句。目标句子可以是从输入的文章中选取到的,也可以是用户直接输入得到的。
上下文信息描述了上下文的情况,该上下文信息可以包括与该目标句子或所在字段对应于同一关系数据的其他字段的数据项,在此不做具体限制。上下文信息可以有多个,上下文信息可以是全局和局部上下文语句,以便在翻译过程中可以生成上下文连贯的译文,本申请实施例中可以针对目标句子与任意一个上下文信息进行依赖性判断。
在进行依赖性判断的时候,本申请实施例中以输入数据(当前的目标句子)以及上下文信息作为编码的输入,得到针对当前句的结合了上下文信息的表示以及隐状态。具体的,判别模型的计算需要包括两个数据,分别是目标句子单独编码后的隐藏层状态,以及目标句子在结合上下文信息后编码得到的隐藏层状态。
其中,第一隐藏层状态信息是对目标句子和上下文信息进行编码,得到目标句子在结合上下文信息编码后的隐藏层状态,第二隐藏层状态信息是对目标句子进行编码,得到目标句子在单独编码后的隐藏层状态。
示例性的,编码的过程可以通过编码器实现。如图3中,将目标句子输入到句子编码器中进行编码,可以得到句子编码器输出的第二隐藏层状态信息,句子编码器由个同样结构的子编码模块构成,而每个子模块由自注意力网络(Self-Attention Network)以及前馈神经网络(Feed-Forward Network),给定作为源语言句子的目标句子,编码器首先将句子的每个词语转换成其相应的向量表示,并以其为输入经过个子编码模块变换之后,输出源语言句子对应的隐藏层表示;如图4中,可以将目标句子和对应的上下文信息输入到上下文编码器和句子编码器中进行编码,得到结合了上下文信息编码后的第一隐藏层状态信息,该编码器在输入语句中将上下文信息与当前语句一同输入,在引入上下文信息的同时聚焦于当前句翻译,引入有效知识的同时尽量避免噪声,得到针对当前句的结合了上下文信息的表示以及隐状态。
上述判别过程的编码操作可以是判别模型完成的,也可以是额外进行的,在此不做具体限制。
判别模型是本申请实施例中预先建立的一个模型,通过判别模型可以对目标句子对上下文信息是否有依赖进行判断。示例性的,判别模型可以是一个神经网络模型,可以通过预先训练样本数据得到,可以理解的是,判别模型可以将编码得到的隐藏层状态作为输入数据,经过处理后,可以输出判别结果,通过判别结果可以表示目标句子是否对上下文信息有依赖。
本申请实施例中将第一隐藏层状态信息和第二隐藏层状态信息输入到预先设置的判别模型中,经过判别模型的处理后,可以得到判别模型进行语义相似度计算后输出的模型输出信息。
模型输出信息可以是判别模型直接输出得到的结果,在对模型输出信息进行判断后,可以得到模型的判别结果,从而得到目标句子对上下文信息的依赖性信息。
对模型输出信息进行判断的方式有多种。例如,若模型输出信息是一个数值信息,可以通过设定阈值,预该数值进行判断,从而确定判别结果;此外,若模型输出信息是一个向量信息,可以根据该向量信息的方向,或者所处的象限来确定判别结果;不仅如此,模型输出信息还可以是一个特征编码,如1和0,通过不同的特征编码,可以确定对应的判别结果。本申请实施例中以模型输出信息为一个数值信息为例子,并不表示为对本申请实施例的限制。
在得到模型输出信息后,可以根据模型输出信息确定目标句子对上下文信息的依赖性信息,其中,依赖性信息可以表征为依赖关系和不为依赖关系,并在目标句子对上下文信息为依赖关系后,可以对满足依赖关系的目标句子和上下文信息进行翻译操作,反之,若目标句子对上下文信息不为依赖关系,则后续翻译过程中不再结合该上下文信息对目标句子进行翻译操作,从而实现了根据依赖关系来选择所需要的上下文信息。
需要说明的是,本申请实施例中实现的是篇章级的机器翻译,能够在翻译过程中结合上下文信息对当前句子进行翻译,并在翻译之前,先设置判别模型,增加对当前句子是否对上下文信息有依赖关系的判断,从而提高篇章级机器翻译的质量。
本申请实施例能够应用在机器翻译上,在上下文敏感型机器翻译模型中量化识别出上下文信息在翻译过程中起到的作用,给出的架构能够基于语义相似度判断不同语句对于上下文信息的依赖性,动态选择为每一句待翻译语句匹配的上下文内容,从而有针对性为模型添加额外知识,针对性选择上下文信息进行翻译,使得机器翻译的过程中会关注不同语句对于上下文信息的依赖性差别,提高机器翻译的质量。
请参阅图5,在一些实施例中,步骤S104可以包括步骤S201至步骤S203:
步骤S201,获取目标句子的源语言信息,以及目标句子需要翻译的目标语言信息;
步骤S202,根据源语言信息、目标语言信息、第一隐藏层状态信息和第二隐藏层状态信息,对第一隐藏层状态信息和第二隐藏层状态信息之间进行条件交叉互信息计算,得到目标句子对上下文信息的条件交叉互信息值;
步骤S203,将条件交叉互信息值作为模型输出的模型输出信息。
本申请实施例中通过第一隐藏层状态信息和第二隐藏层状态信息来计算条件交叉互信息值,条件交叉互信息值可以在上下文敏感型机器翻译模型中量化识别出上下文信息在翻译过程中起到的作用,最终将条件交叉互信息值作为判别模型输出的模型输出信息。
示例性的,本申请实施例中通过机器翻译实现对目标句子的翻译,其中,目标句子原先的语言可以称为源语言,源语言信息是描述目标句子的语言为源语言的信息,而目标句子需要翻译到的语言可以称为目标语言,目标语言信息是描述目标句子所需要翻译到的语言为目标语言的信息。
具体的,在计算得到条件交叉互信息值时,需要考虑当前的源语言,和所需要翻译到的目标语言,并通过对第一隐藏层状态信息和第二隐藏层状态信息之间进行条件交叉互信息计算,可以得到目标句子对上下文信息的条件交叉互信息值。
示例性的,本申请实施例中将判断目标句子是否对上下文信息有依赖的阶段描述为推理阶段,模型在推理阶段获得的隐状态可以表示为
Figure SMS_10
,对于使用了结合上下文编码器的模型,将推理阶段的隐状态表示为/>
Figure SMS_11
,对于常规的自回归神经机器翻译,将推理阶段的隐状态表示为/>
Figure SMS_12
,那么对于同一对数据X和Y,条件交叉互信息值通过以下公式(1)得到:
Figure SMS_13
(1)
根据公式(1)形式化表示为公式(2):
Figure SMS_14
(2)
其中,
Figure SMS_15
为条件交叉互信息值,/>
Figure SMS_16
为第一隐藏层状态信息,/>
Figure SMS_17
为对应第一隐藏层状态信息中的概率,/>
Figure SMS_18
为第二隐藏层状态信息,/>
Figure SMS_19
为对应第二隐藏层状态信息中的概率,C为上下文信息,X对应源语言信息,Y对应目标语言信息。
需要指出的是,概率是指条件概率,也即隐状态。根据
Figure SMS_20
值进行判断有无上下文的情况,由于隐状态的不同,差值也不同,通过/>
Figure SMS_21
和/>
Figure SMS_22
的差值即反应上下文依赖。
示例性的,依赖性信息包括第一依赖性信息和第二依赖性信息。也就是说,判别模型对目标句子和上下文信息进行依赖性判断时,会输出不同的判别结果,其中一个判别结果对应第一依赖性结果,另一个判别结果对应第二依赖性结果。
请参阅图6,在一些实施例中,步骤S105可以包括步骤S301至步骤S303:
步骤S301,获取预设的条件交叉互信息阈值;
步骤S302,若模型输出信息大于条件交叉互信息阈值,确定目标句子对上下文信息的第一依赖性信息,其中,第一依赖性信息表征目标句子对上下文信息满足依赖关系;
步骤S303,若模型输出信息小于或等于条件交叉互信息阈值,确定目标句子对上下文信息的第二依赖性信息,其中,第二依赖性信息表征目标句子对上下文信息不满足依赖关系。
示例性的,判别模型中可以计算得到条件交叉互信息值,并将条件交叉互信息值作为模型输出信息,因此,在得到模型输出信息后,需要对该值进行判断,以确定目标句子对上下文信息的依赖性。
具体的,本申请实施例中可以通过设定条件交叉互信息阈值的方式,对模型输出信息进行判断。其中,若模型输出信息大于条件交叉互信息阈值,说明目标句子是对上下文信息有依赖的,因此确定目标句子对上下文信息的第一依赖性信息,而第一依赖性信息表征目标句子对上下文信息满足依赖关系;反之,若模型输出信息小于或等于条件交叉互信息阈值,说明目标句子对上下文信息没有依赖,因此确定目标句子对上下文信息的第二依赖性信息,而第二依赖性信息表征目标句子对上下文信息不满足依赖关系。
示例性的,本申请实施例中通过设定条件交叉互信息阈值,来对模型输出信息进行判断,在一实施例中,设定条件交叉互信息阈值为0.5,当模型输出信息大于0.5,输出的判别结果
Figure SMS_23
为1,若模型输出信息小于或等于0.5,输出的判别结果/>
Figure SMS_24
为0,其中,/>
Figure SMS_25
为1表示目标句子对上下文信息的第一依赖性信息,目标句子对上下文信息满足依赖关系,而/>
Figure SMS_26
为0表示目标句子对上下文信息的第二依赖性信息,目标句子对上下文信息不满足依赖关系。
本申请实施例中还可以根据实际需要设定条件交叉互信息阈值,或者在训练判别模型的时候调整条件交叉互信息阈值,在此不做具体限制。
请参阅图7,在一些实施例中,步骤S105还可以包括步骤S401至步骤S403:
步骤S401,获取预设的上下文编码器和解码器;
步骤S402,若依赖性信息为第一依赖性信息,满足依赖关系的目标句子和上下文信息输入到上下文编码器中进行编码,得到编码结果;
步骤S403,将编码结果输入到解码器中进行解码,得到翻译结果。
示例性的,篇章级文本机器翻译方法应用在图1中的篇章级文本机器翻译系统中的,因此,在通过判别模型实现目标句子对上下文信息是否有依赖的判断后,后续解码器接收编码器端的输出结果作为输入,依据已生成的翻译结果逐词生成目标语言的翻译。
示例性的,本申请实施例中基于上述上下文编码器和解码器,当经过判别模型的判断后,输出的判别结果表征目标句子对上下文信息的依赖性信息为第一依赖性信息,则说明目标句子对上下文信息有依赖关系,因此后续可以结合上下文信息对目标句子进行翻译操作,包括将满足依赖关系的目标句子和上下文信息输入到上下文编码器中进行编码,得到编码结果,最后将编码结果输入到解码器中进行解码,得到翻译结果。可以理解的是,后续编码和解码的过程本申请实施例不做具体限制。
示例性的,判别模型为神经网络模型,判别模型基于多层感知机结构,并由前馈神经网络构成,用于对文本进行分类,因此,判别模型需要通过预先训练的方式得到。
示例性的,本申请实施例中的判别模型,使用Sigmoid作为激活函数,可以表示为:
Figure SMS_27
(4)
请参阅图8,在一些实施例中,判别模型通过以下步骤训练得到,可以包括步骤S501至步骤S506:
步骤S501,获取样本句子和对应的样本上下文信息;
步骤S502,对样本句子和样本上下文信息进行编码,得到样本句子在结合样本上下文信息编码后的第三隐藏层状态信息;
步骤S503,对样本句子进行编码,得到样本句子在单独编码后的第四隐藏层状态信息;
步骤S504,将第三隐藏层状态信息和第四隐藏层状态信息输入到判别模型中,得到判别模型进行语义相似度计算后输出的样本模型输出信息;
步骤S505,获取预设的条件交叉互信息阈值,根据样本模型输出信息和条件交叉互信息阈值确定判别模型的预测结果,其中,预测结果表征样本句子对样本上下文信息的依赖性信息;
步骤S506,获取样本句子对样本上下文信息依赖的真实结果,根据真实结果和预测结果得到判别模型的模型损失值,并根据模型损失值调整判别模型的参数。
样本句子是文章中的某个句子,可以是任意段落中的一句,通过定义样本句子,用于描述当前训练时进行依赖性判断的句子,因此,样本句子可以为训练时进行依赖性判断的当前句。样本句子可以是从输入的样本文章中选取到的,也可以是用户直接输入得到的,可以理解的是,样本数据中存放有样本句子是否对样本上下文信息有依赖关系的真实结果。
样本上下文信息描述了上下文的情况,该样本上下文信息可以包括与该样本句子或所在字段对应于同一关系数据的其他字段的数据项,在此不做具体限制。样本上下文信息可以有多个,样本上下文信息可以是全局和局部上下文语句,以便在翻译过程中可以生成上下文连贯的译文,本申请实施例中可以针对样本句子与任意一个样本上下文信息进行依赖性判断。
在进行依赖性判断的时候,本申请实施例中以输入数据(当前的样本句子)以及样本上下文信息作为编码的输入,得到针对当前句的结合了样本上下文信息的表示以及隐状态。具体的,判别模型在训练过程的计算需要包括两个数据,分别是样本句子单独编码后的隐藏层状态,以及样本句子在结合样本上下文信息后编码得到的隐藏层状态。
其中,第三隐藏层状态信息是对样本句子和样本上下文信息进行编码,得到样本句子在结合样本上下文信息编码后的隐藏层状态,第四隐藏层状态信息是对样本句子进行编码,得到样本句子在单独编码后的隐藏层状态。
示例性的,编码的过程可以通过编码器实现,在此不再赘述。本申请实施例中将第三隐藏层状态信息和第四隐藏层状态信息输入到训练过程中的判别模型中,经过判别模型的处理后,可以得到判别模型进行语义相似度计算后输出的样本模型输出信息。
样本模型输出信息可以是判别模型直接输出得到的结果,在对样本模型输出信息进行判断后,可以得到模型的判别结果,从而得到样本句子对样本上下文信息的依赖性信息。
在得到样本模型输出信息后,需要对判别模型的判别结果进行确定,具体的,本申请实施例中可以获取预设的条件交叉互信息阈值,根据样本模型输出信息和条件交叉互信息阈值确定判别模型的预测结果,其中,预测结果表征样本句子对样本上下文信息的依赖性信息,是训练阶段判别模型实际输出的判别结果。
随后,需要结合真实结果进行对比,本申请实施例可以在训练阶段获取样本句子对样本上下文信息依赖的真实结果,这个真实结果可以是样本数据中包含有的,也可以是用户输入得到的。最终,根据真实结果和预测结果输入到预设的模型损失函数中进行计算,可以得到判别模型的模型损失值,并根据模型损失值调整判别模型的参数,经过多次训练后,可以优化判别模型。
可以理解的是,调整判别模型的参数过程中,可以调节模型中编码器的参数,还可以调整条件交叉互信息阈值,在此不做具体限制。
示例性的,对于待输入的样本数据X,根据上述步骤中的思想对文本进行二分类,训练中设计条件交叉互信息阈值为0.5,可以得到公式(5):
Figure SMS_28
(5)
其中,公式(5)中的
Figure SMS_29
可表示训练得到的预测结果,/>
Figure SMS_30
可表示为样本模型输出信息,是一个条件交叉互信息值,模型损失值通过以下公式(3)中的模型损失函数计算得到:
Figure SMS_31
(3)
其中,
Figure SMS_32
为模型损失值,p为预测结果,q为真实结果。/>
最终,通过这一判别模型可以判断待输入文本是否需要使用上下文信息,从而构建基于判别模型的翻译管道。
训练完毕后,在模型推理阶段,待输入语句x首先输入进判别模型中,得到结果q(x),根据q(x)判断是否使用上下文信息,据此判断输入编码器中的数据是否依赖上下文数据。本申请试试有针对性地选择上下文信息进行使用,对翻译整体性能有所提升的同时降低了资源开销。
需要说明的是,本申请实施例中还可以在训练阶段,在编码过程中根据情况动态调整编码方式。具体的,若训练过程中出现多次得到的模型损失值超过预设的损失阈值,说明多次调整后,判别模型依然无法准确对样本句子与样本上下文信息之间的依赖度进行判断,因此,此时可以调整上下文编码器的编码方式。
上述调整编码方式可以具体包括如下:
示例性的,原先在结合当前句子和上下文信息进行编码的过程中,也就是训练阶段结合样本句子和样本上下文信息进行编码的过程中,是在编码器的第一层中全部输入数据(包括样本句子和样本上下文信息),从第二层开始,利用位置编码将第一层输出隐状态中的当前句相关数据取出作为第二层的输入。改进后的编码方式中,可以在第二层开始,再依次结合上下文信息(样本上下文信息)重新进行编码,并增加编码器的层数,最终以提高训练效果、提高判别模型判断的准确率。
请参阅图9,在一些实施例中,步骤S102还可以包括步骤S601至步骤S602:
步骤S601,获取预设的上下文编码器;
步骤S602,将目标句子和上下文信息输入到上下文编码器中进行编码,得到目标句子在结合上下文信息编码后的第一隐藏层状态信息。
示例性的,正如上述系统的描述,本申请实施例中经过改进的引入上下文信息的编码器,并称为上下文编码器,在进行判别时,该编码器在输入语句中将上下文信息与当前语句一同输入,随后根据目标句子和上下文信息进行编码,可以得到目标句子在结合上下文信息编码后输出的表示以及隐状态,即编码得到第一隐藏层状态信息。
示例性的,上下文编码器包含多层,本申请实施例中引入基于自注意力机制的翻译模型的编码器,获得源语言句子的隐藏层表示,编码器由个同样结构的子编码模块构成,而每个子模块由自注意力网络(Self-Attention Network)以及前馈神经网络(Feed-Forward Network),若给定源语言句子,编码器首先将句子的每个词语转换成其相应的向量表示,并以其为输入经过个子编码模块变换之后,输出源语言句子对应的隐藏层表示。
请参阅图10,在一些实施例中,步骤S602还可以包括步骤S701至步骤S702:
步骤S701,将目标句子作为当前句子,并将当前句子和上下文信息输入到上下文编码器的首层中进行位置编码,并标记出当前层的目标数据;
步骤S702,将上一层的目标数据和上下文信息作为上下文编码器下一层的输入,并经过多层位置编码后,得到目标句子在结合上下文信息编码后的第一隐藏层状态信息。
基于上述实施例可知,本申请实施例中在编码时,将目标句子作为当前句子,将当前句子和上下文信息输入到上下文编码器的首层中进行位置编码,同时使用位置编码(Position Embedding)标注相关数据位置,即标记出当前层的目标数据。目标数据就是标记得到的相关数据。
示例性的,上下文编码器在第一层编码全部输入数据,每个子模块与标准Transformer模型一致,从第二层开始,利用位置编码将第一层输出隐状态中的当前句相关数据取出作为第二层的输入,这一方法在引入上下文信息的同时聚焦于当前句翻译,引入有效知识的同时尽量避免噪声。可以理解的是,本申请实施例给出结合上下文信息的编码器运作原理,该编码器以输入数据(当前句)以及上下文语句作为输入,得到针对当前句的结合了上下文信息的表示以及隐状态,最终经过多层位置编码后,得到目标句子在结合上下文信息编码后的第一隐藏层状态信息。
示例性的,本申请实施例中使用的上下文编码器由
Figure SMS_33
个解码子模块(/>
Figure SMS_34
)构成,而每个解码子模块由自注意力网络、编码器-解码器注意力网络(Encoder-DecoderAttention)以及前馈神经网络组成。给定该编码器输出隐含层向量表示/>
Figure SMS_35
,编码器将输入的/>
Figure SMS_36
作为输入,从而获得其相应的隐含层向量表示,该过程可以形式化的表示为:
Figure SMS_37
(6)
其中,首层编码层以上下文信息及当前句作为输入数据,后续编码层以当前句经过编码的隐状态作为输入数据,用s表示当前句,即目标句子,c表示上下文信息,b表示当前句在整段中的开始位置,e表示当前句在整段中的结束位置。这一过程可以形式化地表示为;
Figure SMS_38
(7)
Figure SMS_39
(8)
示例性的,本申请实施例中可以预先利用数据集进行训练。本申请实施例中给出的架构将上述编码器端监督信号训练目标表示为
Figure SMS_40
,其可以形式化为:
Figure SMS_41
(9)
通过公式(9)得到的损失值,可以预先训练上述编码器。
本申请实施例中还可以针对不同类型的文章,设置对应的上下文信息依赖性判断的处理顺序。
示例性的,本申请实施例中由于可以对多种上下文信息进行依赖性判断,即每个句子都可以与不同的上下文信息进行依赖性判断,因此,本申请实施例中可以针对任意一种类型的文章,为该类型的文章下的上下文信息设置判别阈值,并在翻译中按照判别阈值决定是否需要对该类型文章下的各个上下文信息进行选择。
具体的,本申请实施例中还可以:
获取任意一个类型的文章下,目标上下文信息在与不同的句子进行依赖性判断后得到的多个目标判别结果;
若多个目标判别结果中表征无依赖关系的结果数量,低于预设的判别阈值,则不再在同一类型文章下对目标上下文信息进行依赖性判断。
示例性的,目标上下文信息可以为任意一个类型文章下的任意一个上下文信息,不同的文章类型可以包括新闻类文章、娱乐类文章、游戏类文章、学术类文章等,本申请实施例不做具体限制。
目标判别结果是目标上下文信息在与句子输入到判别模型后输出的判别记过,当进行依赖性判断的句子有多个,则目标判别结果也有多个。
在模型的推理阶段,若某个目标上下文信息在与不同的句子进行依赖性判断中,出现大量表征无依赖关系的结果,则说明在该类型文章下,句子对目标上下文信息普遍无依赖关系,因此,本申请实施例中通过设定判别阈值,若多个目标判别结果中表征无依赖关系的结果数量,低于预设的判别阈值,则不再在同一类型文章下对目标上下文信息进行依赖性判断,可以提高不同类型文章下的判别效率、翻译效率。
示例性的,判别阈值可以是一个百分比阈值,本申请实施例中可以计算目标上下文信息对应的表征无依赖关系的判别结果的数量占目标上下文信息下的判别结果数量的百分比,并与判别阈值进行判断,从而确定是否继续将句子与目标上下文信息进行依赖性判断。
示例性的,本申请实施例对提出的模型进行了实现,对比了本身实施例中的系统和基线模型翻译结果。在所测试的英德翻译数据集上,相对于基线模型,本申请实施例所提出的模型在TED数据集、新闻数据集、Europarl数据集上都取得了显著提升,对比结果如表1所示,表1为测试数据对比表,表1如下:
Figure SMS_42
其中,表1中的数据为BLEU值,表征翻译出来的句子和标准答案的相似程度,因此,表1中的数值越大,说明机器翻译的准确率越高。
可以看出,本申请实施例提出的方法能够有针对性地结合上下文信息,使不同语句根据语义特性结合不同的上下文信息,在篇章级文本机器翻译的场景下可以明显改善翻译质量和前后文一致性。
请参阅图11,本申请实施例还提供一种篇章级文本机器翻译系统,可以实现上述篇章级文本机器翻译方法,篇章级文本机器翻译系统包括:
信息获取模块1101,用于获取待翻译的目标句子和对应的上下文信息;
第一预处理模块1102,用于对目标句子和上下文信息进行编码,得到目标句子在结合上下文信息编码后的第一隐藏层状态信息;
第二预处理模块1103,用于对目标句子进行编码,得到目标句子在单独编码后的第二隐藏层状态信息;
判别模块1104,用于将第一隐藏层状态信息和第二隐藏层状态信息输入到预先设置的判别模型中,得到判别模型进行语义相似度计算后输出的模型输出信息;
翻译模块1105,用于根据模型输出信息确定目标句子对上下文信息的依赖性信息,根据依赖性信息对满足依赖关系的目标句子和上下文信息进行翻译操作。
可以理解的是,上述第一预处理模块1102、第二预处理模块1103和判别模块1104可以在判别模型中,即判别模型可以对输入的句子和上下文信息进行编码,并输出判别结果;或者,只有判别模块1104在判别模型中,需要进行依赖性判断的句子和上下文信息先编码后,将隐藏层状态输入到判别模型中。对此本申请实施例不做具体限制。
示例性的,本申请实施例中的篇章级文本机器翻译系统可以执行上述实施例中的篇章级文本机器翻译方法。
目标句子是文章中的某个句子,可以是任意段落中的一句,通过定义目标句子,用于描述当前进行依赖性判断的句子,因此,目标句子可以为进行依赖性判断的当前句。目标句子可以是从输入的文章中选取到的,也可以是用户直接输入得到的。
上下文信息描述了上下文的情况,该上下文信息可以包括与该目标句子或所在字段对应于同一关系数据的其他字段的数据项,在此不做具体限制。上下文信息可以有多个,上下文信息可以是全局和局部上下文语句,以便在翻译过程中可以生成上下文连贯的译文,本申请实施例中可以针对目标句子与任意一个上下文信息进行依赖性判断。
在进行依赖性判断的时候,本申请实施例中以输入数据(当前的目标句子)以及上下文信息作为编码的输入,得到针对当前句的结合了上下文信息的表示以及隐状态。具体的,判别模型的计算需要包括两个数据,分别是目标句子单独编码后的隐藏层状态,以及目标句子在结合上下文信息后编码得到的隐藏层状态。
其中,第一隐藏层状态信息是对目标句子和上下文信息进行编码,得到目标句子在结合上下文信息编码后的隐藏层状态,第二隐藏层状态信息是对目标句子进行编码,得到目标句子在单独编码后的隐藏层状态。
示例性的,编码的过程可以通过编码器实现。如图3中,将目标句子输入到句子编码器中进行编码,可以得到句子编码器输出的第二隐藏层状态信息,句子编码器由个同样结构的子编码模块构成,而每个子模块由自注意力网络(Self-Attention Network)以及前馈神经网络(Feed-Forward Network),给定作为源语言句子的目标句子,编码器首先将句子的每个词语转换成其相应的向量表示,并以其为输入经过个子编码模块变换之后,输出源语言句子对应的隐藏层表示;如图4中,可以将目标句子和对应的上下文信息输入到上下文编码器和句子编码器中进行编码,得到结合了上下文信息编码后的第一隐藏层状态信息,该编码器在输入语句中将上下文信息与当前语句一同输入,在引入上下文信息的同时聚焦于当前句翻译,引入有效知识的同时尽量避免噪声,得到针对当前句的结合了上下文信息的表示以及隐状态。
上述判别过程的编码操作可以是判别模型完成的,也可以是额外进行的,在此不做具体限制。
判别模型是本申请实施例中预先建立的一个模型,通过判别模型可以对目标句子对上下文信息是否有依赖进行判断。示例性的,判别模型可以是一个神经网络模型,可以通过预先训练样本数据得到,可以理解的是,判别模型可以将编码得到的隐藏层状态作为输入数据,经过处理后,可以输出判别结果,通过判别结果可以表示目标句子是否对上下文信息有依赖。
本申请实施例中将第一隐藏层状态信息和第二隐藏层状态信息输入到预先设置的判别模型中,经过判别模型的处理后,可以得到判别模型进行语义相似度计算后输出的模型输出信息。
模型输出信息可以是判别模型直接输出得到的结果,在对模型输出信息进行判断后,可以得到模型的判别结果,从而得到目标句子对上下文信息的依赖性信息。
对模型输出信息进行判断的方式有多种。例如,若模型输出信息是一个数值信息,可以通过设定阈值,预该数值进行判断,从而确定判别结果;此外,若模型输出信息是一个向量信息,可以根据该向量信息的方向,或者所处的象限来确定判别结果;不仅如此,模型输出信息还可以是一个特征编码,如1和0,通过不同的特征编码,可以确定对应的判别结果。本申请实施例中以模型输出信息为一个数值信息为例子,并不表示为对本申请实施例的限制。
在得到模型输出信息后,可以根据模型输出信息确定目标句子对上下文信息的依赖性信息,其中,依赖性信息可以表征为依赖关系和不为依赖关系,并在目标句子对上下文信息为依赖关系后,可以对满足依赖关系的目标句子和上下文信息进行翻译操作,反之,若目标句子对上下文信息不为依赖关系,则后续翻译过程中不再结合该上下文信息对目标句子进行翻译操作,从而实现了根据依赖关系来选择所需要的上下文信息。
需要说明的是,本申请实施例中实现的是篇章级的机器翻译,能够在翻译过程中结合上下文信息对当前句子进行翻译,并在翻译之前,先设置判别模型,增加对当前句子是否对上下文信息有依赖关系的判断,从而提高篇章级机器翻译的质量。
本申请实施例能够应用在机器翻译上,在上下文敏感型机器翻译模型中量化识别出上下文信息在翻译过程中起到的作用,给出的架构能够基于语义相似度判断不同语句对于上下文信息的依赖性,动态选择为每一句待翻译语句匹配的上下文内容,从而有针对性为模型添加额外知识,针对性选择上下文信息进行翻译,使得机器翻译的过程中会关注不同语句对于上下文信息的依赖性差别,提高机器翻译的质量。
该篇章级文本机器翻译系统的具体实施方式与上述篇章级文本机器翻译方法的具体实施例基本相同,在此不再赘述。在满足本申请实施例要求的前提下,篇章级文本机器翻译系统还可以设置其他功能模块,以实现上述实施例中的篇章级文本机器翻译方法。
本申请实施例还提供了一种电子设备,电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述篇章级文本机器翻译方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。
请参阅图12,图12示意了另一实施例的电子设备的硬件结构,电子设备包括:
处理器1201,可以采用通用的CPU(CentralProcessingUnit,中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案;
存储器1202,可以采用只读存储器(ReadOnlyMemory,ROM)、静态存储设备、动态存储设备或者随机存取存储器(RandomAccessMemory,RAM)等形式实现。存储器1202可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1202中,并由处理器1201来调用执行本申请实施例的篇章级文本机器翻译方法;
输入/输出接口1203,用于实现信息输入及输出;
通信接口1204,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信;
总线1205,在设备的各个组件(例如处理器1201、存储器1202、输入/输出接口1203和通信接口1204)之间传输信息;
其中处理器1201、存储器1202、输入/输出接口1203和通信接口1204通过总线1205实现彼此之间在设备内部的通信连接。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述篇章级文本机器翻译方法。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本领域技术人员可以理解的是,图中示出的技术方案并不构成对本申请实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序的介质。
以上参照附图说明了本申请实施例的优选实施例,并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本申请实施例的权利范围之内。

Claims (12)

1.一种篇章级文本机器翻译方法,其特征在于,所述方法包括:
获取待翻译的目标句子和对应的上下文信息;
对所述目标句子和所述上下文信息进行编码,得到所述目标句子在结合所述上下文信息编码后的第一隐藏层状态信息;
对所述目标句子进行编码,得到所述目标句子在单独编码后的第二隐藏层状态信息;
将所述第一隐藏层状态信息和所述第二隐藏层状态信息输入到预先设置的判别模型中,得到所述判别模型进行语义相似度计算后输出的模型输出信息;
根据所述模型输出信息确定所述目标句子对所述上下文信息的依赖性信息,根据所述依赖性信息对满足依赖关系的所述目标句子和所述上下文信息进行翻译操作。
2.根据权利要求1所述的篇章级文本机器翻译方法,其特征在于,所述得到所述判别模型进行语义相似度计算后输出的模型输出信息,包括:
获取所述目标句子的源语言信息,以及所述目标句子需要翻译的目标语言信息;
根据所述源语言信息、所述目标语言信息、所述第一隐藏层状态信息和所述第二隐藏层状态信息,对所述第一隐藏层状态信息和所述第二隐藏层状态信息之间进行条件交叉互信息计算,得到所述目标句子对所述上下文信息的条件交叉互信息值;
将所述条件交叉互信息值作为模型输出的模型输出信息。
3.根据权利要求2所述的篇章级文本机器翻译方法,其特征在于,所述条件交叉互信息值通过以下公式得到:
Figure QLYQS_1
根据以上公式形式化表示为以下公式:
Figure QLYQS_2
其中,
Figure QLYQS_3
为所述条件交叉互信息值,/>
Figure QLYQS_4
为所述第一隐藏层状态信息,/>
Figure QLYQS_5
为所述第一隐藏层状态信息中的概率,/>
Figure QLYQS_6
为所述第二隐藏层状态信息,/>
Figure QLYQS_7
为所述第二隐藏层状态信息中的概率,C为所述上下文信息,X对应所述源语言信息,Y对应所述目标语言信息。
4.根据权利要求2所述的篇章级文本机器翻译方法,其特征在于,所述依赖性信息包括第一依赖性信息和第二依赖性信息;
所述根据所述模型输出信息确定所述目标句子对所述上下文信息的依赖性信息,包括:
获取预设的条件交叉互信息阈值;
若所述模型输出信息大于所述条件交叉互信息阈值,确定所述目标句子对所述上下文信息的所述第一依赖性信息,其中,所述第一依赖性信息表征所述目标句子对所述上下文信息满足依赖关系;
若所述模型输出信息小于或等于所述条件交叉互信息阈值,确定所述目标句子对所述上下文信息的所述第二依赖性信息,其中,所述第二依赖性信息表征所述目标句子对所述上下文信息不满足依赖关系。
5.根据权利要求4所述的篇章级文本机器翻译方法,其特征在于,所述根据所述依赖性信息对满足依赖关系的所述目标句子和所述上下文信息进行翻译操作,包括:
获取预设的上下文编码器和解码器;
若所述依赖性信息为所述第一依赖性信息,满足依赖关系的所述目标句子和所述上下文信息输入到所述上下文编码器中进行编码,得到编码结果;
将所述编码结果输入到所述解码器中进行解码,得到翻译结果。
6.根据权利要求1所述的篇章级文本机器翻译方法,其特征在于,所述判别模型为神经网络模型,所述判别模型基于多层感知机结构,并由前馈神经网络构成,用于对文本进行分类;其中,所述判别模型通过以下步骤训练得到,包括:
获取样本句子和对应的样本上下文信息;
对所述样本句子和所述样本上下文信息进行编码,得到所述样本句子在结合所述样本上下文信息编码后的第三隐藏层状态信息;
对所述样本句子进行编码,得到所述样本句子在单独编码后的第四隐藏层状态信息;
将所述第三隐藏层状态信息和所述第四隐藏层状态信息输入到所述判别模型中,得到所述判别模型进行语义相似度计算后输出的样本模型输出信息;
获取预设的条件交叉互信息阈值,根据所述样本模型输出信息和所述条件交叉互信息阈值确定所述判别模型的预测结果,其中,所述预测结果表征所述样本句子对所述样本上下文信息的依赖性信息;
获取所述样本句子对所述样本上下文信息依赖的真实结果,根据所述真实结果和所述预测结果得到所述判别模型的模型损失值,并根据所述模型损失值调整所述判别模型的参数。
7.根据权利要求6所述的篇章级文本机器翻译方法,其特征在于,所述模型损失值通过以下公式中的模型损失函数计算得到:
Figure QLYQS_8
其中,
Figure QLYQS_9
为所述模型损失值,p为所述预测结果,q为所述真实结果。
8.根据权利要求1所述的篇章级文本机器翻译方法,其特征在于,所述对所述目标句子和所述上下文信息进行编码,得到所述目标句子在结合所述上下文信息编码后的第一隐藏层状态信息,包括:
获取预设的上下文编码器;
将所述目标句子和所述上下文信息输入到所述上下文编码器中进行编码,得到所述目标句子在结合所述上下文信息编码后的第一隐藏层状态信息。
9.根据权利要求8所述的篇章级文本机器翻译方法,其特征在于,所述上下文编码器包含多层;
所述将所述目标句子和所述上下文信息输入到所述上下文编码器中进行编码,得到所述目标句子在结合所述上下文信息编码后的第一隐藏层状态信息,包括:
将所述目标句子作为当前句子,并将所述当前句子和所述上下文信息输入到所述上下文编码器的首层中进行位置编码,并标记出当前层的目标数据;
将上一层的所述目标数据和所述上下文信息作为所述上下文编码器下一层的输入,并经过多层位置编码后,得到所述目标句子在结合所述上下文信息编码后的第一隐藏层状态信息。
10.一种篇章级文本机器翻译系统,其特征在于,所述系统包括:
信息获取模块,用于获取待翻译的目标句子和对应的上下文信息;
第一预处理模块,用于对所述目标句子和所述上下文信息进行编码,得到所述目标句子在结合所述上下文信息编码后的第一隐藏层状态信息;
第二预处理模块,用于对所述目标句子进行编码,得到所述目标句子在单独编码后的第二隐藏层状态信息;
判别模块,用于将所述第一隐藏层状态信息和所述第二隐藏层状态信息输入到预先设置的判别模型中,得到所述判别模型进行语义相似度计算后输出的模型输出信息;
翻译模块,用于根据所述模型输出信息确定所述目标句子对所述上下文信息的依赖性信息,根据所述依赖性信息对满足依赖关系的所述目标句子和所述上下文信息进行翻译操作。
11.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至9任一项所述的篇章级文本机器翻译方法。
12.一种计算机可读存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9任一项所述的篇章级文本机器翻译方法。
CN202310557293.2A 2023-05-17 2023-05-17 篇章级文本机器翻译方法、系统、设备及介质 Active CN116306704B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310557293.2A CN116306704B (zh) 2023-05-17 2023-05-17 篇章级文本机器翻译方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310557293.2A CN116306704B (zh) 2023-05-17 2023-05-17 篇章级文本机器翻译方法、系统、设备及介质

Publications (2)

Publication Number Publication Date
CN116306704A true CN116306704A (zh) 2023-06-23
CN116306704B CN116306704B (zh) 2023-08-22

Family

ID=86803504

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310557293.2A Active CN116306704B (zh) 2023-05-17 2023-05-17 篇章级文本机器翻译方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN116306704B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116882423A (zh) * 2023-09-06 2023-10-13 中国科学院自动化研究所 文本翻译方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114580446A (zh) * 2022-03-15 2022-06-03 中国工商银行股份有限公司 基于文档上下文的神经机器翻译方法及装置
US20220292267A1 (en) * 2021-03-15 2022-09-15 Fujitsu Limited Machine learning method and information processing apparatus
CN115879480A (zh) * 2022-11-10 2023-03-31 中国科学院自动化研究所 语义约束机器翻译方法、装置、电子设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220292267A1 (en) * 2021-03-15 2022-09-15 Fujitsu Limited Machine learning method and information processing apparatus
CN114580446A (zh) * 2022-03-15 2022-06-03 中国工商银行股份有限公司 基于文档上下文的神经机器翻译方法及装置
CN115879480A (zh) * 2022-11-10 2023-03-31 中国科学院自动化研究所 语义约束机器翻译方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116882423A (zh) * 2023-09-06 2023-10-13 中国科学院自动化研究所 文本翻译方法、装置、电子设备及存储介质
CN116882423B (zh) * 2023-09-06 2023-11-17 中国科学院自动化研究所 文本翻译方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN116306704B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN110188158B (zh) 关键词及话题标签生成方法、装置、介质及电子设备
CN117079299B (zh) 数据处理方法、装置、电子设备及存储介质
CN116306704B (zh) 篇章级文本机器翻译方法、系统、设备及介质
CN109902273B (zh) 关键词生成模型的建模方法和装置
CN115019237A (zh) 多模态情感分析方法、装置、电子设备及存储介质
CN114492661B (zh) 文本数据分类方法和装置、计算机设备、存储介质
CN114360502A (zh) 语音识别模型的处理方法、语音识别方法及装置
CN116050352A (zh) 文本编码方法和装置、计算机设备及存储介质
CN111767697A (zh) 文本处理方法、装置、计算机设备以及存储介质
CN116913278B (zh) 语音处理方法、装置、设备和存储介质
CN116913266B (zh) 一种语音检测方法、装置、设备及存储介质
CN116432705A (zh) 文本生成模型构建、文本生成方法和装置、设备及介质
CN117176417A (zh) 网络流量异常确定方法、装置、电子设备和可读存储介质
CN116645956A (zh) 语音合成方法、语音合成系统、电子设备及存储介质
CN115145980B (zh) 对话回复生成方法和装置、电子设备及存储介质
CN112818688B (zh) 文本处理方法、装置、设备及存储介质
CN112149426B (zh) 阅读任务处理方法及相关设备
CN115995225A (zh) 模型训练方法和装置、语音合成方法、设备及存储介质
CN114547308A (zh) 文本处理的方法、装置、电子设备及存储介质
CN116580716B (zh) 音频编码方法、装置、存储介质及计算机设备
CN117152467B (zh) 图像识别方法、装置、介质及电子设备
CN113761157B (zh) 应答语句生成方法和装置
CN116453511A (zh) 模型训练方法和装置、音素分割方法、设备及存储介质
CN116932716A (zh) 答案生成方法、装置、设备与存储介质
CN116975616A (zh) 一种数据处理方法、装置、设备、存储介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant