CN115587600A - 一种口语翻译方法、系统及电子设备 - Google Patents

一种口语翻译方法、系统及电子设备 Download PDF

Info

Publication number
CN115587600A
CN115587600A CN202211226252.7A CN202211226252A CN115587600A CN 115587600 A CN115587600 A CN 115587600A CN 202211226252 A CN202211226252 A CN 202211226252A CN 115587600 A CN115587600 A CN 115587600A
Authority
CN
China
Prior art keywords
data
model
monolingual
machine translation
spoken
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211226252.7A
Other languages
English (en)
Inventor
张为泰
刘微微
宋彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202211226252.7A priority Critical patent/CN115587600A/zh
Publication of CN115587600A publication Critical patent/CN115587600A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种口语翻译方法、系统及电子设备,本方案在获得口语化语言数据后,将规整后的口语化语言数据输入至融入掩码信息及流畅度信息的机器翻译模型中,以得到翻译后的译文,通过机器翻译模型中的掩码信息,能够使得在对机器翻译模型进行训练时加入掩码信息,以增强对输入至机器翻译模型的单语数据中缺失词语的预测能力,从而提高容错性;同时,在机器翻译模型中加入流畅度信息,能够优化机器翻译模型的输出,以提高模型输出的译文的流畅性,从而改善错译、直译、漏译等现象。

Description

一种口语翻译方法、系统及电子设备
技术领域
本申请涉及自然语言处理与语音识别领域,尤其涉及一种口语翻译方法、系统及电子设备。
背景技术
在机器同传中,面对真实会议场景,在形式复杂的中文口语化表达下,现有的标注数据与模型训练的方案通常不可控。具体的,目前的模型训练方案对于大部分中文口语化表达的翻译仍存在直译、错译等问题。
发明内容
有鉴于此,本申请提供一种口语翻译方法、系统及电子设备,其具体方案如下:
一种口语翻译方法,包括:
获得口语化语言数据;
基于依存句法分析及词性标注方式对所述口语化语言数据进行规整,得到第一单语数据;
将所述第一单语数据输入至预先训练完成的机器翻译模型,得到所述机器翻译模型输出的第一译文数据,所述机器翻译模型至少包括:融入掩码信息的编码器及融入流畅度信息的解码器。
进一步的,还包括:
对机器翻译模型进行训练;
其中,所述对机器翻译模型进行训练,包括:
获得训练参数,所述训练参数至少包括:第二单语数据及与所述第二单语数据对应的第二译文数据;
至少基于所述第二单语数据及第二译文数据进行模型训练,得到机器翻译模型。
进一步的,所述至少基于所述第二单语数据及第二译文数据进行模型训练,得到机器翻译模型,包括:
将所述第二单语数据输入至预先训练得到的反顺滑规整模型,得到所述反顺滑规整模型输出的第一单语口语化数据;
基于所述第一单语口语化数据及所述第二译文数据进行模型训练,得到训练完成的机器翻译模型。
进一步的,还包括:
对反顺滑规整模型进行模型训练;
其中,所述对反顺滑规整模型进行模型训练,包括:
获得多个第二单语口语化数据;
获得对每个所述第二单语口语化数据进行规整后得到的第三单语数据;
将所述第二单语口语化数据及所述第三单语数据作为训练数据进行模型训练,得到反顺滑规整模型。
进一步的,所述基于所述第一单语口语化数据及所述第二译文数据进行模型训练,得到训练完成的机器翻译模型,包括:
基于所述第二单语数据及所述第一单语口语化数据确定关键信息;
基于所述关键信息为所述第一单语口语化数据添加掩码信息;
基于添加掩码信息后的所述第一单语口语化数据及第二译文数据进行模型训练,得到机器翻译模型。
进一步的,还包括:
确定所述机器翻译模型的翻译损失数据;
确定添加掩码信息产生的掩码损失数据;
确定融入流畅度信息产生的流畅度解码损失数据;
基于翻译损失数据、添加掩码信息的损失数据及流畅度解码损失数据确定所述机器翻译模型的总体损失数据;
基于所述总体损失数据对所述机器翻译模型进行模型优化。
进一步的,所述基于依存句法分析及词性标注方式对所述口语化语言数据进行规整,得到第一单语数据,包括:
基于所述依存句法分析及词性标注方式确定所述口语化语言数据的核心词及主谓结构;
若所述口语化语言数据存在主谓结构,确定所述主谓结构对应的定中结构;
当所述主谓结构对应的定中结构中存在满足口语化修饰条件的结构时,对所述口语化语言数据进行规整,删除所述满足口语化修饰条件的结构。
一种口语翻译系统,包括:
获得单元,用于获得口语化语言数据;
规整单元,用于基于依存句法分析及词性标注方式对所述口语化语言数据进行规整,得到第一单语数据;
翻译单元,用于将所述第一单语数据输入至预先训练完成的机器翻译模型,得到所述机器翻译模型输出的第一译文数据,所述机器翻译模型至少包括:融入掩码信息的编码器及融入流畅度信息的解码器。
一种电子设备,包括:
处理器,用于获得口语化语言数据;基于依存句法分析及词性标注方式对所述口语化语言数据进行规整,得到第一单语数据;将所述第一单语数据输入至预先训练完成的机器翻译模型,得到所述机器翻译模型输出的第一译文数据,所述机器翻译模型至少包括:融入掩码信息的编码器及融入流畅度信息的解码器;
存储器,用于存储所述处理器执行上述处理过程的程序。
一种可读存储介质,用于至少存储一组指令集;
所述指令集用于被调用并至少执行如上任一项所述的口语翻译的方法。
从上述技术方案可以看出,本申请公开的口语翻译方法、系统及电子设备,获得口语化语言数据,基于依存句法分析及词性标注方式对口语化语言数据进行规整,得到第一单语数据,将第一单语数据输入至预先训练完成的机器翻译模型,得到机器翻译模型输出的第一译文数据,机器翻译模型至少包括:融入掩码信息的编码器及融入流畅度信息的解码器。本方案在获得口语化语言数据后,将规整后的口语化语言数据输入至融入掩码信息及流畅度信息的机器翻译模型中,以得到翻译后的译文,通过机器翻译模型中的掩码信息,能够使得在对机器翻译模型进行训练时加入掩码信息,以增强对输入至机器翻译模型的单语数据中缺失词语的预测能力,从而提高容错性;同时,在机器翻译模型中加入流畅度信息,能够优化机器翻译模型的输出,以提高模型输出的译文的流畅性,从而改善错译、直译、漏译等现象。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种口语翻译方法的流程图;
图2为本申请实施例公开的一种口语翻译方法的流程图;
图3为本申请实施例公开的一种口语翻译方法的流程图;
图4为本申请实施例公开的一种编码器的结构示意图;
图5为本申请实施例公开的一种解码器的结构示意图;
图6为本申请实施例公开的一种机器翻译模型的结构示意图;
图7为本申请实施例公开的一种口语翻译方法的流程图;
图8为本申请实施例公开的一种依存句法分析树的示意图;
图9为本申请实施例公开的一种口语翻译系统的结构示意图;
图10为本申请实施例公开的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请公开了一种口语翻译方法,其流程图如图1所示,包括:
步骤S11、获得口语化语言数据;
步骤S12、基于依存句法分析及词性标注方式对口语化语言数据进行规整,得到第一单语数据;
步骤S13、将第一单语数据输入至预先训练完成的机器翻译模型,得到机器翻译模型输出的第一译文数据,机器翻译模型至少包括:融入掩码信息的编码器及融入流畅度信息的解码器。
现有的机器同传技术中,面对真实会议场景,在形式复杂的口语化表达下,如:中文口语化表达,现有标注数据与模型训练的方案通常并不能涵盖所有中文口语化表达形式,面对复杂的中文口语表达仍旧易出现错译、直译、多译、漏译等情况,这就导致观众仅看译文无法理解发言者传达的信息。
基于此,本方案中首先对获得的口语化语言数据进行规整,之后,将规整后的数据输入机器翻译模型中进行翻译,从而使得翻译得到的译文与规整后的口语化语言数据对应,从而提高对口语表达的翻译的准确性,减少机器同传过程中对口语化表达的错译、直译、漏译等现象。
口语化语言数据,即需要进行翻译的、发言人输出的语言,该语言通常为口语化的语言,即具有用户说话习惯的语言,如:口语化语言数据中包括“这个”、“那个”、“嗯”、“呃”等。
在对获得的口语化语言数据进行翻译之前,首先要对其进行规整,可具体为基于依存句法分析及词性标注的方式对口语化语言数据进行规整,以得到规整之后的第一单语数据。
当发言人的发言中带有口语化的词语时,通常会对翻译结果造成影响,如“这个这个”、“我们的”等,在翻译过程中会出现直译的问题。例如:“这就增加了这样那样的困难”,若直接翻译,则可译为“This adds to the difficulty of this and that”,这样的翻译结果会导致用户理解困难;另外,不同发言人说话习惯不同,其口语化词语通常也不相同,但是口语化词语通常是可归纳的。
因此,对发言人输出的口语化语言数据进行规整,以删除口语化词语,从而使规整后得到的第一单语数据相对于口语化语言数据能够更简洁、清楚的表达,不存在冗余成分,以便能够翻译出更清楚、准确的译文。
具体的,依存句法分析技术能够识别出句子中词与词之间的依存关系,并且,这种依存关系具有方向性,氛围支配者和从属者,一般核心成分通常拥有多个丛书成分,通过口语化词语结合词性标注的结果和从属关系能够在保留句子源文语义的情况下安全的规整句中的口语化表达。
在对口语化语言数据进行规整,得到第一单语数据后,将第一单语数据作为机器翻译模型的输入,通过机器翻译模型对该第一单语数据进行翻译,以便得到机器翻译模型的输出,即第一译文数据,则发言人所输出的口语化语言数据对应的译文即为第一译文数据,该第一译文数据是在删除了发言人的口语化词语之后得到的规整的句子的基础上进行的翻译,使得第一译文数据所表达的内容能够与发言人的口语化语言数据所表达的内容一致,便于其他用户对发言人发言内容的理解,减少了直译、漏译等情况的发生。
其中,机器翻译模型至少包括:融入掩码信息的编码器及融入流畅度信息的解码器。即在进行机器翻译模型的训练时,通过掩码信息对训练参数进行处理,以使得机器翻译模型能够在具有掩码的基础上对句子准确翻译,提高在机器翻译模型应用过程中对获得的词语缺失的句子翻译的准确度。
而机器翻译模型中融入流畅度信息,即在机器翻译模型训练过程中,能够基于对译文的流畅度这一参数对机器翻译模型进行优化,从而使得在机器翻译模型的应用过程中,翻译出的译文的流畅度能够满足需求。
本实施例公开的口语翻译方法,获得口语化语言数据,基于依存句法分析及词性标注方式对口语化语言数据进行规整,得到第一单语数据,将第一单语数据输入至预先训练完成的机器翻译模型,得到机器翻译模型输出的第一译文数据,机器翻译模型至少包括:融入掩码信息的编码器及融入流畅度信息的解码器。本方案在获得口语化语言数据后,将规整后的口语化语言数据输入至融入掩码信息及流畅度信息的机器翻译模型中,以得到翻译后的译文,从而实现基于规整化后的数据进行翻译,提高对口语表达的翻译的准确性;另外,通过机器翻译模型中的掩码信息,能够使得在对机器翻译模型进行训练时加入掩码信息,以增强对输入至机器翻译模型的单语数据中缺失词语的预测能力,从而提高容错性;同时,在机器翻译模型中加入流畅度信息,能够优化机器翻译模型的输出,以提高模型输出的译文的流畅性,从而改善错译、直译、漏译等现象。
本实施例公开了一种口语翻译方法,其流程图如图2所示,包括:
步骤S21、获得口语化语言数据;
步骤S22、基于依存句法分析及词性标注方式对口语化语言数据进行规整,得到第一单语数据;
步骤S23、获得训练参数,训练参数至少包括:第二单语数据及第二单语数据对应的第二译文数据;
步骤S24、至少基于第二单语数据及第二译文数据进行模型训练,得到机器翻译模型;
步骤S25、将第一单语数据输入至机器翻译模型,得到机器翻译模型输出的第一译文数据,机器翻译模型至少包括:融入掩码信息的编码器及融入流畅度信息的解码器。
对机器翻译模型进行训练,可以具体为:获得训练参数,基于训练参数进行训练,从而得到机器翻译模型,以便于对机器翻译模型进行应用。
其中,训练参数至少包括:第二单语数据及与第二单语数据对应的第二译文数据。第二单语数据及第二译文数据为预先获得的,第二单语数据是真实会议场景中发言人输出的口语化语言经过规整后得到的语言数据,第二译文数据为对规整后的语言数据进行翻译后得到的译文数据。
进一步的,在训练过程中,还可以包括:将第二单语数据输入至预先训练得到的反顺滑规整模型,得到反顺滑规整模型输出的第一单语口语化数据,基于第一单语口语化数据及第二译文数据进行模型训练,得到训练完成的机器翻译模型。
在对机器翻译模型进行模型训练的过程中,可以基于第二单语数据及第二译文数据进行模型训练;也可以在基于第二单语数据及第二译文数据进行模型训练后,再基于第一单语口语化数据及第二译文数据进行模型训练;或者,还可以在基于第二单语数据及第二译文数据进行模型训练的同时,基于第一单语口语化数据及第二译文数据进行模型训练。以便使得最终得到的机器翻译模型既能够将规整化之后单语数据作为输入,输出相应的译文,也能够将基于单语数据得到的单语口语化数据作为输入,输出相应的译文。
其中,第一单语口语化数据,即将规整化之后的第二单语数据输入至反顺滑规整模型中,得到的具有口语化数据的第一单语口语化数据。反顺滑规整模型能够将规整后的单语数据调整为具有口语化数据的单语口语化数据,即将规整后的单语数据调整为模拟真实会议场景下发言人所输出的具有口语化词语的数据。第一单语口语化数据可以包括具有口语化词语的句子,也可以包括存在语法错误的句子,即符合日常说话习惯的句子。
在基于第二单语数据得到第一单语口语化数据之后,由于第一单语口语化数据相对于第二单语数据只是增加了口语化词语,因此,与第二单语数据对应的第二译文数据,也是第一单语口语化数据的翻译译文。因此,可利用第一单语口语化数据及第二译文数据作为训练参数,对机器翻译模型进行优化,以使得优化之后的机器翻译模型能够接收包括口语化词语的句子,从而输出与该包括口语化词语的句子对应的单语数据的译文数据,即将包括口语化词语的句子作为机器翻译模型的输入,机器翻译模型输出的译文数据是剔除口语化词语之后的句子的译文数据,从而避免直译、漏译等情况。
例如:第二单语数据X,与第二单语数据X对应的译文为第二译文数据Y,第二单语数据X输入反顺滑规整模型之后,输出的是第一单语口语化数据X’,则可基于(X,Y)作为训练参数对机器翻译模型进行模型训练,还可进一步基于(X’,Y)作为训练参数对机器翻译模型进行进一步训练,以使得训练完成的机器翻译模型在得到规整的单语数据后,能够输出译文数据,在得到未进行规整的口语化单语数据后,也能够输出相应的译文数据。
机器翻译模型具有多种,其具体与输入的单语数据或单语口语化数据的语种及需要将该单语数据或单语口语化数据翻译成的语种相关,如:输入为中文,输出为英文,则机器翻译模型为中英翻译模型;若输入为中文,输出为韩文,则机器翻译模型为中韩翻译模型;若输入为俄文,输出为中文,则机器翻译模型为俄中翻译模型。
其中,反顺滑规整模型是预先经过模型训练得到的,对反顺滑规整模型进行模型训练,包括:获得多个第二单语口语化数据,获得对每个第二单语口语化数据进行规整后得到的第三单语数据,将第二单语口语化数据及第三单语数据作为训练数据进行模型训练,得到反顺滑规整模型。
反顺滑规整模型是类似于机器翻译模型的序列生成模型,但是,机器翻译模型的作用是对输入进行翻译,如:输入中文,输出英文,而反顺滑规整模型的作用是输入中文,输出口语化中文,即将输入的规整句子输出为具有口语化词语的句子。
对反顺滑规整模型进行模型训练所使用的训练数据包括:会议场景下真实发言人的发言语句及存在语法错误的句子Tpre,以及对Tpre进行口语化规整后的句子Tpost,将Tpost作为输入,将Tpre作为输出进行模型训练,以得到反顺滑规整模型。
本实施例公开的口语翻译方法,获得口语化语言数据,基于依存句法分析及词性标注方式对口语化语言数据进行规整,得到第一单语数据,将第一单语数据输入至预先训练完成的机器翻译模型,得到机器翻译模型输出的第一译文数据,机器翻译模型至少包括:融入掩码信息的编码器及融入流畅度信息的解码器。本方案在获得口语化语言数据后,将规整后的口语化语言数据输入至融入掩码信息及流畅度信息的机器翻译模型中,以得到翻译后的译文,从而实现基于规整化后的数据进行翻译,提高对口语表达的翻译的准确性;另外,通过机器翻译模型中的掩码信息,能够使得在对机器翻译模型进行训练时加入掩码信息,以增强对输入至机器翻译模型的单语数据中缺失词语的预测能力,从而提高容错性;同时,在机器翻译模型中加入流畅度信息,能够优化机器翻译模型的输出,以提高模型输出的译文的流畅性,从而改善错译、直译、漏译等现象。
本实施例公开了一种口语翻译方法,其流程图如图3所示,包括:
步骤S31、获得口语化数据;
步骤S32、基于依存句法分析及词性标注方式对口语化语言数据进行规整,得到第一单语数据;
步骤S33、获得训练数据,训练数据至少包括:第二单语数据及与第二单语数据对应的第二译文数据;
步骤S34、将第二单语数据输入至预先训练得到的反顺滑规整模型,得到反顺滑规整模型输出的第一单语口语化数据;
步骤S35、基于第二单语数据及第一单语口语化数据确定关键信息,基于关键信息为第一单语口语化数据添加掩码信息;
步骤S36、基于添加掩码信息后的第一单语口语化数据及第二译文数据进行模型训练,得到机器翻译模型;
步骤S37、将第一单语数据输入至机器翻译模型,得到机器翻译模型输出的第一译文数据,机器翻译模型至少包括:融入掩码信息的编码器及融入流畅度信息的解码器。
现有机器翻译模型通常由编码器encoder、解码器decoder组成,将掩码信息融入编码器端,对于一些较难的口语化表达语句,为其中部分词语添加掩码,可增强编码器预测缺失词语的能力;在解码器端融入流畅度信息,可以激励模型解出更流畅通顺的译文,以大幅改进现有的中文同传模型中错译、直译、漏译的问题。
其中,编码器用于解析输入序列,即输入至机器翻译模型的单语数据,其输出为源文文本向量表示,即单语数据向量表示,编码器的模型结构如图4所示,包括:做和处理模块Add&Normalize,前馈模块Feed Forward及自注意力模块Self-Attention。
解码器用于获得编码器输出的源文文本向量表示以及上一时刻已解码出的译文文本结果history token,输出译文文本。解码器的模型结构如图5所示,包括:做和处理模块Add&Normalize,前馈模块Feed Forward,编解码注意力模块Encoder-decoderAttention及自注意力模块Self-Attention。
无论是编码器还是解码器在机器翻译模型中都可以有多个,当机器翻译模型中存在M个编码器时,则单语数据输入机器翻译模型后,会依次输入每一个编码器,最终计算M次;同理,当机器翻译模型中存在N个解码器时,则会依次计算N次。
另外,机器翻译模型中还可以包括:语言模块language model,其中,语言模块用于计算流畅度信息,其输入为编码器输出的源文文本向量表示、解码器输出的当前时刻文本向量表示以及上一时刻已解码的译文文本结果,输出为流畅度信息。
则如图6所示,为机器翻译模型的示意图,其包括:编码器encoder、解码器decoder及语言模块language model。
其中,在编码器端融入掩码信息,即强制机器翻译模型使用更少的语句信息进行翻译,提升机器翻译模型对于口语化表达的容错性。
机器翻译模型需要为训练数据添加适当比例的掩码,将掩码添加至关键信息对应的位置处。
基于第二单语数据及第一单语口语化数据确定关键信息,具体的,对比第二单语数据及第一单语口语化数据,确定第二单语数据及第一单语口语化数据中重叠的部分,将重叠的部分确定为关键信息。训练数据中被确定为关键信息的词语,通过伯努利份分布,对其进行选择,并为选择的关键信息添加掩码,即从多个关键信息中确定一个或几个词语,为确定的一个或几个词语添加掩码。
例如:第二单语数据为X2,其对应的译文为Y2,X2经由反顺滑规整模型生成的第一单语口语化数据X2’,则需输入模型的训练句对为(X2’,Y),其关键信息可表示为KEY,其对应的公式为:
KEY=[X∩X']
基于伯努利分布,对关键信息KEY选择性的添加掩码,其公式如下:
m~Bernoulli(p)
Figure BDA0003879956450000121
Figure BDA0003879956450000122
其中,m~Bernoulli(p)表示构造一个伯努利分布的m矩阵,如:假设生成矩阵[0,0,0,0,1];
Figure BDA0003879956450000123
表示根据伯努利分布的m矩阵将关键词候选加上〈MASK〉,即掩码;
Figure BDA0003879956450000124
表示将生成掩码后的内容合并到X2’中。
例如:以X2为“今天天气还挺好”为例进行说明,将X2送入反顺滑规整模型,得到X2’为“呃,今天这个天气还挺好”,将X2及X2’的重叠部分分词得到KEY=[“今天”,“天气”,“还”,“挺”,“好”],假设基于伯努利分布生成的矩阵为[0,0,0,0,1],则添加掩码后得到KEY=[“今天”,“天气”,“还”,“挺”,“MASK”],则将添加掩码后的关键词语合并到X2’后,可得到X2’为“呃,今天这个天气还挺〈MASK〉”。
具体的,在模型训练的过程中,可结合上下文信息或当前句式等信息的分析,确定掩码对应的关键字。
在得到添加掩码后的第一单语口语化数据X2’后,将其作为训练数据进行模型训练,则该机器翻译模型的翻译结果损失函数为:
Figure BDA0003879956450000125
进一步的,若要增强编码器的鲁棒性和对于添加了掩码信息的关键词预测能力,在编码器端,模型还需要判断当前的训练数据中哪些词语被替换,并且,预测被替换掉的词语有哪些,其损失函数如下所示:
Figure BDA0003879956450000134
Figure BDA0003879956450000131
其中,d(x)表示所有被添加了掩码的词语,G表示生成器,即编码器的输出,D表示判别器,由非线性隐藏单元组成。
其中,LD表示预测哪些词语被替换,哪些未被替换;LP表示预测被替换掉的词语具体是什么,如:“今天天气还挺好”中的“好”。
进一步的,为解码器融入流畅度信息,可具体为:
确定机器翻译模型的翻译损失数据;确定添加掩码信息产生的掩码损失数据;确定融入流畅度信息产生的流畅度解码损失数据;基于翻译损失数据、添加掩码信息的损失数据及流畅度解码损失数据确定机器翻译模型的总体损失数据;基于总体损失数据对机器翻译模型进行模型优化。
通过融合当前时刻中编码器端与解码器端隐藏信息单元,并结合历史时刻信息,采用交叉注意力机制提取关键信息,最终再将最终信息进行流畅度计算。其中,隐藏信息单元为transformer结构中的hidden state模块,是神经网络中间层向量名词的指代,把指编码器中输出的源文向量表示,当前时刻下解码器学习到的向量表示。
其中,流畅度信息的计算可以为:首先计算融合编码器端信息的流畅度和融合解码器端信息的流畅度,其计算公式如下:
Figure BDA0003879956450000132
Figure BDA0003879956450000133
其中,Henc(x)表示编码器的输出,Fenc表示编码器信息的流畅度信息,Lenc为语言模块的损失函数,解码器信息流畅度信息Fdec计算方式与编码器信息的流畅度信息计算方式类似。
则融入流畅度信息产生的流畅度解码损失数据为:
LF=Fenc+Fdec
结合历史解码信息,并在编码器与解码器信息中融入流畅度信息的计算,其可通过加入流畅度信息的约束,使得机器翻译模型学习并解码出更流畅的译文,即下一时刻翻译的结果需要参考历史时刻翻译的信息,如图6所示,语言模块需要结合历史时刻已解码出的译文端结果history token。
则总体损失数据为:
L=LM+LD+LP+LF
基于该总体损失函数,能够对机器翻译模型进行优化,以使得机器翻译模型输出的译文更流畅。
本实施例公开的口语翻译方法,获得口语化语言数据,基于依存句法分析及词性标注方式对口语化语言数据进行规整,得到第一单语数据,将第一单语数据输入至预先训练完成的机器翻译模型,得到机器翻译模型输出的第一译文数据,机器翻译模型至少包括:融入掩码信息的编码器及融入流畅度信息的解码器。本方案在获得口语化语言数据后,将规整后的口语化语言数据输入至融入掩码信息及流畅度信息的机器翻译模型中,以得到翻译后的译文,从而实现基于规整化后的数据进行翻译,提高对口语表达的翻译的准确性;另外,通过机器翻译模型中的掩码信息,能够使得在对机器翻译模型进行训练时加入掩码信息,以增强对输入至机器翻译模型的单语数据中缺失词语的预测能力,从而提高容错性;同时,在机器翻译模型中加入流畅度信息,能够优化机器翻译模型的输出,以提高模型输出的译文的流畅性,从而改善错译、直译、漏译等现象。
本实施例公开了一种口语翻译方法,其流程图如图7所示,包括:
步骤S71、获得口语化语言数据;
步骤S72、基于依存句法分析及词性标注方式确定口语化语言数据的核心词及主谓结构;
步骤S73、若口语化语言数据存在主谓结构,确定主谓结构对应的定中结构;
步骤S74、当主谓结构对应的定中结构中存在满足口语化修饰条件的结构时,对口语化语言数据进行规整,删除满足口语化修饰条件的结构,得到第一单语数据;
步骤S75、将第一单语数据输入至预先训练完成的机器翻译模型,得到机器翻译模型输出的第一译文数据,机器翻译模型至少包括:融入掩码信息的编码器及融入流畅度信息的解码器。
基于依存句法分析技术能够识别出句子中词与词之间的依存关系,并且这种依存关系具有方向性,分为支配者和从属者,一般核心成分通常拥有多个从属成分。通过口语化词结合词性标注的结构和从属关系能够在保留句子源文语义的情况下安全的规整句中的口语化表达。
以“因为我相信很多的这个公司的这个我们团队的一个些兄弟姐妹们和他们的兄弟姐妹们”为例,上述句子为口语化的句子,将其确定为口语化语言数据,基于依存句法分析技术对其进行分析,如图8所示,为对该口语化语言数据进行依存句法分析技术分析得到的句法分析树。
其中,核心词为句子中最后一个“兄弟姐妹们”,基于该核心词确定主谓结构,该句中存在主谓结构,则可明确其中的主谓结构包括“我相信很多”及“兄弟姐妹们和他们”。
其中,第一个主谓结构的定中结构包括“很多公司”、“这个公司”、“公司团队”、“这个团队”、“我们团队”等多个,从中选择满足口语化修饰条件的结构。
满足口语化修饰条件可以为:当一个主谓结构包括不少于两个定中结构,且其中至少一个定中结构包括口语化修饰词,且该定中结构后具有右附加结构词,则删除该至少一个定中结构中的口语化修饰词以及该至少一个定中结构后的右附加结构词。
以上述句子为例,其中,针对第一个主谓结构,满足口语化修饰条件的,即定中结构是口语化修饰词,且该定中结构后具有右附加结构词的定中结构包括“这个公司”,其中,“这个公司”的右附加结构词为“这个公司”后的“的”,则删除“这个公司的”中的口语化修饰词,即“公司”前的“这个”,和右附加结构词,即“公司”后的“的”。
另外,在确定句子中某个词与某个词之间的关系时是通过依存句法分析确定的,对于“这个”、“我们的”等口语词,只有当其是定中结构且句中有其他定中结构修饰词时,才对其进行过滤,即当句中仅有“这个”、“我们的”等口语词作为定中结构修饰时,该口语词是不能过滤的,过滤口语词后必须保证句子中仍至少保存有一个定中结构。
其中,定中关系词组中,中文口语表达有多种,在中文会议实际应用场景中,有较多的口语化表达,在此不再一一说明。
本实施例公开的口语翻译方法,获得口语化语言数据,基于依存句法分析及词性标注方式对口语化语言数据进行规整,得到第一单语数据,将第一单语数据输入至预先训练完成的机器翻译模型,得到机器翻译模型输出的第一译文数据,机器翻译模型至少包括:融入掩码信息的编码器及融入流畅度信息的解码器。本方案在获得口语化语言数据后,将规整后的口语化语言数据输入至融入掩码信息及流畅度信息的机器翻译模型中,以得到翻译后的译文,从而实现基于规整化后的数据进行翻译,提高对口语表达的翻译的准确性;另外,通过机器翻译模型中的掩码信息,能够使得在对机器翻译模型进行训练时加入掩码信息,以增强对输入至机器翻译模型的单语数据中缺失词语的预测能力,从而提高容错性;同时,在机器翻译模型中加入流畅度信息,能够优化机器翻译模型的输出,以提高模型输出的译文的流畅性,从而改善错译、直译、漏译等现象。
本实施例公开了一种口语翻译系统,其结构示意图如图9所示,包括:
获得单元91,规整单元92及翻译单元93。
其中,获得单元91用于获得口语化语言数据;
规整单元92用于基于依存句法分析及词性标注方式对口语化语言数据进行规整,得到第一单语数据;
翻译单元93用于将第一单语数据输入至预先训练完成的机器翻译模型,得到机器翻译模型输出的第一译文数据,机器翻译模型至少包括:融入掩码信息的编码器及融入流畅度信息的解码器。
进一步的,本实施例公开的口语翻译系统还可以包括:
第一训练单元,用于对机器翻译模型进行训练;
其中,第一训练单元用于:
获得训练参数,训练参数至少包括:第二单语数据及与第二单语数据对应的第二译文数据;至少基于第二单语数据及第二译文数据进行模型训练,得到机器翻译模型。
进一步的,第一训练单元至少基于所述第二单语数据及第二译文数据进行模型训练,得到机器翻译模型,包括:
第一训练单元将第二单语数据输入至预先训练得到的反顺滑规整模型,得到反顺滑规整模型输出的第一单语口语化数据;基于第一单语口语化数据及第二译文数据进行模型训练,得到训练完成的机器翻译模型。
进一步的,本实施例公开的口语翻译系统还可以包括:
第二训练单元,用于对反顺滑规整模型进行模型训练;
其中,第二训练单元用于:
获得多个第二单语口语化数据;获得对每个第二单语口语化数据进行规整后得到的第三单语数据;将第二单语口语化数据及第三单语数据作为训练数据进行模型训练,得到反顺滑规整模型。
进一步的,第一训练单元用于:
基于第二单语数据及第一单语口语化数据确定关键信息;基于关键信息为第一单语口语化数据添加掩码信息;基于添加掩码信息后的第一单语口语化数据及第二译文数据进行模型训练,得到机器翻译模型。
进一步的,本实施例公开的口语翻译系统还可以包括:模型优化单元,用于确定机器翻译模型的翻译损失数据;确定添加掩码信息产生的掩码损失数据;确定融入流畅度信息产生的流畅度解码损失数据;基于翻译损失数据、添加掩码信息的损失数据及流畅度解码损失数据确定机器翻译模型的总体损失数据;基于所述总体损失数据对所述机器翻译模型进行模型优化。
进一步的,规整单元用于:
基于依存句法分析及词性标注方式确定口语化语言数据的核心词及主谓结构;若口语化语言数据存在主谓结构,确定主谓结构对应的定中结构;当主谓结构对应的定中结构中存在满足口语化修饰条件的结构时,对口语化语言数据进行规整,删除满足口语化修饰条件的结构。
本实施例公开的口语翻译系统,是基于上述实施例公开的口语翻译方法实现的,在此不再赘述。
本实施例公开的口语翻译系统,获得口语化语言数据,基于依存句法分析及词性标注方式对口语化语言数据进行规整,得到第一单语数据,将第一单语数据输入至预先训练完成的机器翻译模型,得到机器翻译模型输出的第一译文数据,机器翻译模型至少包括:融入掩码信息的编码器及融入流畅度信息的解码器。本方案在获得口语化语言数据后,将规整后的口语化语言数据输入至融入掩码信息及流畅度信息的机器翻译模型中,以得到翻译后的译文,从而实现基于规整化后的数据进行翻译,提高对口语表达的翻译的准确性;另外,通过机器翻译模型中的掩码信息,能够使得在对机器翻译模型进行训练时加入掩码信息,以增强对输入至机器翻译模型的单语数据中缺失词语的预测能力,从而提高容错性;同时,在机器翻译模型中加入流畅度信息,能够优化机器翻译模型的输出,以提高模型输出的译文的流畅性,从而改善错译、直译、漏译等现象。
本实施例公开了一种电子设备,其结构示意图如图10所示,包括:
处理器101及存储102。
其中,处理器101用于获得口语化语言数据;基于依存句法分析及词性标注方式对口语化语言数据进行规整,得到第一单语数据;将第一单语数据输入至预先训练完成的机器翻译模型,得到机器翻译模型输出的第一译文数据,机器翻译模型至少包括:融入掩码信息的编码器及融入流畅度信息的解码器;
存储器102用于存储处理器执行上述处理过程的程序。
本实施例公开的电子设备,是基于上述实施例公开的口语翻译方法实现的,在此不再赘述。
本实施例公开的电子设备,获得口语化语言数据,基于依存句法分析及词性标注方式对口语化语言数据进行规整,得到第一单语数据,将第一单语数据输入至预先训练完成的机器翻译模型,得到机器翻译模型输出的第一译文数据,机器翻译模型至少包括:融入掩码信息的编码器及融入流畅度信息的解码器。本方案在获得口语化语言数据后,将规整后的口语化语言数据输入至融入掩码信息及流畅度信息的机器翻译模型中,以得到翻译后的译文,从而实现基于规整化后的数据进行翻译,提高对口语表达的翻译的准确性;另外,通过机器翻译模型中的掩码信息,能够使得在对机器翻译模型进行训练时加入掩码信息,以增强对输入至机器翻译模型的单语数据中缺失词语的预测能力,从而提高容错性;同时,在机器翻译模型中加入流畅度信息,能够优化机器翻译模型的输出,以提高模型输出的译文的流畅性,从而改善错译、直译、漏译等现象。
本申请实施例还提供了一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器加载并执行,实现上述口语翻译方法的各步骤,具体实现过程可以参照上述实施例相应部分的描述,本实施例不做赘述。
本申请还提出了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述口语翻译方法方面或口语翻译系统方面的各种可选实现方式中所提供方法,具体实现过程可以参照上述相应实施例的描述,不做赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种口语翻译方法,其特征在于,包括:
获得口语化语言数据;
基于依存句法分析及词性标注方式对所述口语化语言数据进行规整,得到第一单语数据;
将所述第一单语数据输入至预先训练完成的机器翻译模型,得到所述机器翻译模型输出的第一译文数据,所述机器翻译模型至少包括:融入掩码信息的编码器及融入流畅度信息的解码器。
2.根据权利要求1所述的方法,其特征在于,还包括:
对机器翻译模型进行训练;
其中,所述对机器翻译模型进行训练,包括:
获得训练参数,所述训练参数至少包括:第二单语数据及与所述第二单语数据对应的第二译文数据;
至少基于所述第二单语数据及第二译文数据进行模型训练,得到机器翻译模型。
3.根据权利要求2所述的方法,其特征在于,所述至少基于所述第二单语数据及第二译文数据进行模型训练,得到机器翻译模型,包括:
将所述第二单语数据输入至预先训练得到的反顺滑规整模型,得到所述反顺滑规整模型输出的第一单语口语化数据;
基于所述第一单语口语化数据及所述第二译文数据进行模型训练,得到训练完成的机器翻译模型。
4.根据权利要求3所述的方法,其特征在于,还包括:
对反顺滑规整模型进行模型训练;
其中,所述对反顺滑规整模型进行模型训练,包括:
获得多个第二单语口语化数据;
获得对每个所述第二单语口语化数据进行规整后得到的第三单语数据;
将所述第二单语口语化数据及所述第三单语数据作为训练数据进行模型训练,得到反顺滑规整模型。
5.根据权利要求3所述的方法,其特征在于,所述基于所述第一单语口语化数据及所述第二译文数据进行模型训练,得到训练完成的机器翻译模型,包括:
基于所述第二单语数据及所述第一单语口语化数据确定关键信息;
基于所述关键信息为所述第一单语口语化数据添加掩码信息;
基于添加掩码信息后的所述第一单语口语化数据及第二译文数据进行模型训练,得到机器翻译模型。
6.根据权利要求5所述的方法,其特征在于,还包括:
确定所述机器翻译模型的翻译损失数据;
确定添加掩码信息产生的掩码损失数据;
确定融入流畅度信息产生的流畅度解码损失数据;
基于翻译损失数据、添加掩码信息的损失数据及流畅度解码损失数据确定所述机器翻译模型的总体损失数据;
基于所述总体损失数据对所述机器翻译模型进行模型优化。
7.根据权利要求1所述的方法,其特征在于,所述基于依存句法分析及词性标注方式对所述口语化语言数据进行规整,得到第一单语数据,包括:
基于所述依存句法分析及词性标注方式确定所述口语化语言数据的核心词及主谓结构;
若所述口语化语言数据存在主谓结构,确定所述主谓结构对应的定中结构;
当所述主谓结构对应的定中结构中存在满足口语化修饰条件的结构时,对所述口语化语言数据进行规整,删除所述满足口语化修饰条件的结构。
8.一种口语翻译系统,其特征在于,包括:
获得单元,用于获得口语化语言数据;
规整单元,用于基于依存句法分析及词性标注方式对所述口语化语言数据进行规整,得到第一单语数据;
翻译单元,用于将所述第一单语数据输入至预先训练完成的机器翻译模型,得到所述机器翻译模型输出的第一译文数据,所述机器翻译模型至少包括:融入掩码信息的编码器及融入流畅度信息的解码器。
9.一种电子设备,其特征在于,包括:
处理器,用于获得口语化语言数据;基于依存句法分析及词性标注方式对所述口语化语言数据进行规整,得到第一单语数据;将所述第一单语数据输入至预先训练完成的机器翻译模型,得到所述机器翻译模型输出的第一译文数据,所述机器翻译模型至少包括:融入掩码信息的编码器及融入流畅度信息的解码器;
存储器,用于存储所述处理器执行上述处理过程的程序。
10.一种可读存储介质,用于至少存储一组指令集;
所述指令集用于被调用并至少执行如权利要求1-7中任一项所述的口语翻译的方法。
CN202211226252.7A 2022-10-09 2022-10-09 一种口语翻译方法、系统及电子设备 Pending CN115587600A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211226252.7A CN115587600A (zh) 2022-10-09 2022-10-09 一种口语翻译方法、系统及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211226252.7A CN115587600A (zh) 2022-10-09 2022-10-09 一种口语翻译方法、系统及电子设备

Publications (1)

Publication Number Publication Date
CN115587600A true CN115587600A (zh) 2023-01-10

Family

ID=84780222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211226252.7A Pending CN115587600A (zh) 2022-10-09 2022-10-09 一种口语翻译方法、系统及电子设备

Country Status (1)

Country Link
CN (1) CN115587600A (zh)

Similar Documents

Publication Publication Date Title
US7383542B2 (en) Adaptive machine translation service
EP1489523B1 (en) Adaptive machine translation
US8805676B2 (en) Deep model statistics method for machine translation
CN112765345A (zh) 一种融合预训练模型的文本摘要自动生成方法及系统
Oflazer Turkish and its challenges for language processing
CN111428469B (zh) 面向句式结构图解分析的交互式标注方法和系统
WO2010046782A2 (en) Hybrid machine translation
Su et al. Neural machine translation with Gumbel Tree-LSTM based encoder
CN113657123A (zh) 基于目标模板指导和关系头编码的蒙语方面级情感分析方法
CN111666774B (zh) 基于文档上下文的机器翻译方法及装置
CN117332073A (zh) 基于特征融合的工业领域事件联合抽取方法、装置和设备
Zhang et al. Mind the gap: Machine translation by minimizing the semantic gap in embedding space
Seifossadat et al. Stochastic Data-to-Text Generation Using Syntactic Dependency Information
Peng et al. Neural machine translation with attention based on a new syntactic branch distance
Arwidarasti et al. Converting an Indonesian constituency treebank to the Penn treebank format
CN113822044B (zh) 语法纠错数据生成方法、装置、计算机设备及存储介质
CN115587600A (zh) 一种口语翻译方法、系统及电子设备
JP2005284723A (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
CN114239548A (zh) 一种融合依存句法和指针生成网络的三元组抽取方法
Mahmoud et al. Semi-supervised learning and bidirectional decoding for effective grammar correction in low-resource scenarios
JP5528376B2 (ja) 文書平易化装置およびプログラム
Rakhimova et al. The development of the light post-editing module for English-Kazakh translation
Munk et al. Shallow statistical parsing for machine translation
Chiruzzo et al. Spanish HPSG Treebank based on the AnCora Corpus
Hlaing et al. Graph-based Dependency Parser Building for Myanmar Language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination