CN111274764B - 语言生成方法、装置、计算机设备及存储介质 - Google Patents

语言生成方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111274764B
CN111274764B CN202010076717.XA CN202010076717A CN111274764B CN 111274764 B CN111274764 B CN 111274764B CN 202010076717 A CN202010076717 A CN 202010076717A CN 111274764 B CN111274764 B CN 111274764B
Authority
CN
China
Prior art keywords
training
corpus
coding
language generation
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010076717.XA
Other languages
English (en)
Other versions
CN111274764A (zh
Inventor
张涵
肖东凌
李宇琨
孙宇
�田�浩
吴华
王海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010076717.XA priority Critical patent/CN111274764B/zh
Publication of CN111274764A publication Critical patent/CN111274764A/zh
Application granted granted Critical
Publication of CN111274764B publication Critical patent/CN111274764B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本申请提出一种语言生成方法、装置、计算机设备及存储介质,应用于自然语言处理技术领域,其中,方法包括:对各训练语料,从相应训练语料中确定间隔排布的至少一个源片段和至少两个目标片段,根据各训练语料,生成对应的训练样本,训练编码‑解码模型,以采用训练后的编码‑解码模型进行语言生成,通过对训练语料划分成包含间隔排布的多个目标片段,迫使解码时更加依赖编码部分的信息对解码文本进行推断,加强了编码和解码部分的联系,提高了语言生成的准确性,解决了现有技术中训练语料采用划分单一目标片段的方式,导致解码时依赖目标片段的信息对解码文本进行推断,使得编码和解码部分无关联,降低了语言生成的准确性。

Description

语言生成方法、装置、计算机设备及存储介质
技术领域
本申请涉及机器学习技术领域,尤其涉及一种自然语言处理技术领域,主要涉及一种语言生成方法、装置、计算机设备及存储介质。
背景技术
随着人工智能技术的发展以及社会发展的需求,语言生成的使用越来越广泛。
现有自监督生成任务均是继承BERT的思想和基础结构(多层Attention结构的Transformer),同时通过面向语言生成任务构建基于sequence to sequence的自监督生成任务。
现有技术中,利用序列对序列(sequence to sequence)方式构建的面向语言生成的自监督生成任务,例如屏蔽序列到序列预训练(MASS:Masked Sequence to SequencePre-training)的自监督生成任务和预训练模型UniLM(Unified Language Model Pre-training)的自监督生成任务,是通过把连续的一段文本划分为源片段(Source)和单一的目标片段(Target)。这种方式训练得到的模型倾向于依赖目标片段进行语言生成,降低了语言生成的准确度。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种语言生成方法,通过对训练语料划分成包含间隔排布的多个目标片段,破坏了原有单一目标片段内部的上下文连续性,迫使编码-解码模型在进行解码时更加依赖编码部分的源片段信息对解码文本进行推断,从而实现了通过对编码-解码模型的预训练,加强了编码和解码部分的联系,提高了语言生成的准确性,解决了现有技术中训练语料采用划分单一目标片段的方式,导致解码时依赖目标片段的信息对解码文本进行推断,使得编码和解码部分无关联,降低了语言生成的准确性
本申请的第二个目的在于提出一种语言生成装置。
本申请的第三个目的在于提出一种计算机设备。
本申请的第四个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本申请第一方面实施例提出了一种语言生成方法,包括:
获取多个训练语料;
对各训练语料,从相应训练语料中确定至少一个源片段和至少两个目标片段;其中,所述目标片段和所述源片段在相应训练语料中间隔排布;
根据各训练语料,生成对应的训练样本;其中,所述训练样本用于指示相应训练语料中的所述至少一个源片段,并采用相应训练语料中的所述至少两个目标片段标注;
采用各训练样本,训练编码-解码模型,以采用训练后的编码-解码模型进行语言生成。
为达上述目的,本申请第二方面实施例提出了一种语言生成装置,包括:
获取模块,用于获取多个训练语料;
确定模块,用于对各训练语料,从相应训练语料中确定至少一个源片段和至少两个目标片段;其中,所述目标片段和所述源片段在相应训练语料中间隔排布;
生成模块,用于根据各训练语料,生成对应的训练样本;其中,所述训练样本用于指示相应训练语料中的所述至少一个源片段,并采用相应训练语料中的所述至少两个目标片段标注;
训练模块,用于采用各训练样本,训练编码-解码模型,以采用训练后的编码-解码模型进行语言生成。
为了实现上述目的,本申请第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如第一方面所述的语言生成方法。
为了实现上述目的,本申请第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现如第一方面所述的语言生成方法。
本申请实施例所提供的技术方案可以包含如下的有益效果:
获取多个训练语料,对各训练语料,从相应训练语料中确定至少一个源片段和至少两个目标片段,其中,目标片段和源片段在相应训练语料中间隔排布,根据各训练语料,生成对应的训练样本,其中,训练样本用于指示相应训练语料中的至少一个源片段,并采用相应训练语料中的至少两个目标片段标注,采用各训练样本,训练编码-解码模型,以采用训练后的编码-解码模型进行语言生成,通过对训练语料划分成包含间隔排布的多个目标片段,破坏了原有单一目标片段内部的上下文连续性,迫使编码-解码模型在进行解码时更加依赖编码部分的源片段信息对解码文本,也就是目标片段进行推断,从而实现了通过对编码-解码模型的预训练,加强了编码和解码部分的联系,提高了语言生成的准确性。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为采用UniLM的自监督生成任务构造样本数据的结构示意图;
图2为采用MASS的自监督生成任务构造样本数据的结构示意图;
图3为本申请实施例所提供的一种语言生成方法的流程示意图;
图4为本申请实施例提供的基于多个目标片段构造样本数据的结构示意图;
图5为本申请实施例提供的另一种语言生成方法的流程示意图;
图6为本申请实施例提供的一种语言生成装置的结构示意图;以及
图7是本申请实施例的语言生成方法的电子设备的框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的语言生成方法、装置、计算机设备及存储介质。
现有技术中,在构造训练样本时,通常采用的是UniLM的自监督生成任务或者是MASS的自监督生成任务,具体来说:
第一,利用UniLM的自监督生成任务构造样本数据。
图1为采用UniLM的自监督生成任务构造样本数据的结构示意图,如图1所示,预训练模型UniLM(Unified Language Model Pre-training),利用Sequence to Sequence构建了面向语言生成的自监督任务,通过把连续的一段文本划分为前后两段,前段为源片段Source,后段为一个目标片段Target,进而,利用编码-解码模型,对源片段进行编码,并解码得到目标片段。
第二,利用MASS的自监督生成任务构造样本数据。
图2为采用MASS的自监督生成任务构造样本数据的结构示意图,如图2所示,屏蔽序列到序列预训练(MASS:Masked Sequence to Sequence Pre-training),利用Sequenceto Sequence构建了面向语言生成的自监督任务,MASS是对一段连续的文本的中间位置进行随机切分得到一个为MASK的片段,作为目标片段Target,进而,利用编码-解码模型,对源片段进行编码,并解码预测该目标片段。
然而,不论是UniLM还是MASS,在构造语言生成自监督任务的时候,都只划分出一个连续的片段作为目标片段Target进行解码。而只有一个Target的情况下,基于一段连续的文本构建的自监督样本数据就只能学习到该目标片段Target内的语义。同时,当Target是一段较长的连续片段时,在通过decoder进行解码时,由于物理距离和语义距离均离待解码的文本更近,从而自监督语言生成任务的decoder更倾向于依赖Target已经解码出的文本信息来对待解码文本进行推断,进而忽略自监督语言生成任务的编码(encode)部分。这样就导致预训练阶段,seq2seq框架下的编码-解码模型中encoder和decoder不能建立很强的语义联系,降低了语言生成的准确性。为此,为了解决上述的技术问题,本申请提出了一种语言生成方法,通过对训练语料划分成包含间隔排布的多个目标片段,破坏了原有单一目标片段内部的上下文连续性,迫使编码-解码模型在进行解码时更加依赖编码部分的源片段信息对解码文本,也就是目标片段进行推断,从而实现了通过对编码-解码模型的预训练,加强了编码和解码部分的联系,提高了语言生成的准确性。
图3为本申请实施例所提供的一种语言生成方法的流程示意图。
如图3所示,该方法包括以下步骤:
步骤301,获取多个训练语料。
其中,训练语料可以是一段连续文本,该训练语料是从各种场景的数据库中获取得到的,是来源广泛的训练语料,同时,该训练语料是没有经过人工标注的无监督的训练样本。
步骤302,对各训练语料,从相应训练语料中确定至少一个源片段和至少两个目标片段,其中,目标片段和源片段在相应训练语料中间隔排布。
其中,片段可以是词、词组、子句等粒度。
具体地,对一个训练语料,按照设定策略,确定至少两个目标片段,其中,至少两个目标片段的字符长度分别属于设定的至少两个长度区间,将相应训练语料中除至少两个目标片段以外的部分作为至少一个源片段。其中,设定策略包括:间隔随机个字符提取,或者,将一个训练语料中各字符按照字符位置划分为多个部分,例如,语料前段部分,语料中段部分和语料末段部分,并从中随机选择至少两个部分提取,从而实现了确定的至少两个目标片段覆盖整个训练语料,具有更丰富的语义,避免语义单一。
图4为本申请实施例提供的基于多个目标片段构造样本数据的结构示意图,如图4所示,对一个训练语料,针对连续文本,随机选取多个不同位置的片段,构造出2个目标片段,如图4中的T1和T2,以及3个源片段,即S1、S2和S3,其中,T1和T2分别位于训练语料的不同部分,即中段部分和尾段部分。另外,目标片段T1和T2的字符长度分别属于设定的至少两个长度区间,也就是说T1和T2的字符长度是不同的,而目标片段的不同长度对应不同粒度,也就是说,需要这至少两个目标片段具有至少两种粒度,其中,粒度,例如,包括词、词组或句子等,从而进一步增强目标片段的随机性,有助于模型倾向依赖于源片段进行学习,同时,由于两个目标片段在训练语料中的分布位置处于整个训练语料的不同部分,涵盖了更丰富的语义,避免语义单一。
其中,对于设定的至少两个长度区间,作为一种可能的实现方式,至少两个长度区间中的一个长度区间取值为大于或等于1个字符,且小于或等于4个字符,即目标片段T1对应的粒度为词;至少两个长度区间中的另一个长度区间取值为大于或等于10个字符,且小于或等于20个字符,即目标片段T2对应的粒度为词组或子句,实现了不同的目标片段对应不同的粒度,从而进一步增强目标片段的随机性,破坏了目标片段中临近文本的信息和上下文的连续性,有助于模型倾向依赖于源片段的方向进行学习。
需要说明的是,本实施例中仅列举了划分出2个目标片段的情况,实际应用中,还可以划分出更多的目标片段,本实施例中不进行限定。
步骤303,根据各训练语料,生成对应的训练样本,其中,训练样本用于指示相应训练语料中的所述至少一个源片段,并采用相应训练语料中的至少两个目标片段标注。
具体地,将一个训练语料中的至少两个目标片段从所在字符位置上移除,将保留的至少一个源片段按照字符位置排序得到对应的训练样本,将移除的至少两个目标片段按照在相应训练语料中的语序重新排序,以确定字符位置,采用重新排序后的至少两个目标片段,标注对应的训练样本。
如图4所示,在该训练语料中,将目标片段T1和目标片段T2从所在的字符位置PS1r-Ps2l和PS2r-Ps3l上移除,并将保留的3个源片段S1、S2和S3按照字符位置排序得到对应的训练样本,从而该训练样本指示了该训练语料中的3个源片段S1、S2和S3按照位置顺序接续得到的总的源片段,并将移除的两个目标片段T1和T2,按照在相应训练语料中的语序重新排序,以确定字符位置,采用重新排序后的两个目标片段T1和T2标注对应的训练样本。
步骤304,采用各训练样本,训练编码-解码模型,以采用训练后的编码-解码模型进行语言生成。
其中,语言生成,具体为自然语言的生成,适用于设定语言生成的场景,包括:对话生成、机器翻译、问答场景和摘要生成中的一个或多个组合。
本实施例中的编码-解码模型,可以是基于深度学习的注意力模型。
具体地,采用各训练样本,对编码-解码模型进行预训练,具体为利用编码-解码模型对上述得到的总的源片段进行编码,并依照位置顺序,对重新排序后的两个目标片段T1和T2进行逐字符的解码,以得到输出的解码文件的词序列,以使编码-解码模型输出的词序列与相应训练样本的标注之间差异最小化,也就是说利用各训练样本,将训练样本指示的相应训练语料中的至少一个源片段对应的词序列,输入编码-解码模型,并确定输出的词序列与相应样本的标注之间的差异化,当差异化最小时,编码-解码模型模型训练完毕。由于本实施例中,在生成训练样本时,是将训练语料划分为了间隔排布的至少一个源片段和至少两个目标片段,间隔排布的多个目标片段,破坏了现有技术中仅划分为的单一一个目标片段下的较多的临近文本信息,也就是说破坏了划分的单一一个目标片段内部的上下文连续性,从而迫使编码-解码模型在解码时更加依赖用于进行编码的源文本的信息,实现了通过预训练加强了编码部分和解码部分的联系,也就是使得解码部分更倾向于依赖源片段对待解码文本进行推断,继而避免了依赖于目标片段进行解码文本的推断,提高了编码-解码模型的预训练效果,以使得根据预训练得到的编码-解码模型进行语言生成,提高了语音生成的效率。
本申请实施例的语言生成方法中,获取多个训练语料,对各训练语料,从相应训练语料中确定至少一个源片段和至少两个目标片段,其中,目标片段和源片段在相应训练语料中间隔排布,根据各训练语料,生成对应的训练样本,其中,训练样本用于指示相应训练语料中的至少一个源片段,并采用相应训练语料中的至少两个目标片段标注,采用各训练样本,训练编码-解码模型,以采用训练后的编码-解码模型进行语言生成,通过对训练语料划分成包含间隔排布的多个目标片段,破坏了原有单一目标片段内部的上下文连续性,迫使编码-解码模型在进行解码时更加依赖编码部分的源片段信息对解码文本,也就是目标片段进行推断,从而实现了通过对编码-解码模型的预训练,加强了编码和解码部分的联系,提高了语言生成的准确性。
基于上一实施例,本实施例提供了另一种语言生成方法的流程示意图,图5为本申请实施例提供的另一种语言生成方法的流程示意图。
如图5所示,上述步骤304还可以包括以下子步骤:
步骤3041,采用各训练样本,对编码-解码模型进行预训练,以使编码-解码模型输出的词序列与相应训练样本的标注之间差异最小化。
具体地,通过获取不同场景下的海量的无监督的训练样本,对编码-解码模型进行预训练,使得编码-解码模型可以实现通用的语义表示,也就是可以实现通用的语言生成。
步骤3042,根据预训练得到的编码-解码模型进行语言生成。
本实施例中在编码-解码模型完成预训练后,由于预训练完成的编码-解码模型是实现的通用的语言生成,为了提高编码-解码模型在不同场景下语言生成的准确性,需要在不同设定设定语言生成场景下,对编码-解码模型的参数进行微调,以提高编码-解码模型训练的效果,提高语言生成的准确度。
其中,设定语言生成场景包括:对话生成、机器翻译、问答场景和摘要生成中的一个或多个组合。例如,如果源片段是中文句子,目标片段是英文句子,那么就是应用于机器翻译问题的编码-解码模型;如果源片段是一篇文章,目标片段是概括性的几句描述语句,那么就是应用于文本摘要的编码-解码模型;如果源片段是一句问题,目标片段是对应的回答,那么就是应用于问答系统或者对话机器人的编码-解码模型。编码-解码模型还可以用于语音识别、图像处理等领域,本实施例中不进行限定,也不再一一列举。
其中,对预训练得到的编码-解码模型进行参数微调,具体包括:获取对应的有监督训练样本,该有监督的训练样本和上述实施例中预训练阶段的训练语料不同,本实施例中的有监督的训练样本是从设定场景对应的数据库中获取到的,同时是经过人工标注的训练样本。具体来说是采用人工标注的有监督训练样本,对预训练得到的编码-解码模型进行参数调整,根据参数调整后的编码-解码模型,在设定语言生成场景下进行语言生成,实现了在相应场景下确定有监督的训练样本,也就是说对训练样本进行标注,通过有监督的训练对预训练得到的编码-解码模型进行参数调整,提高了模型训练的效果,提高了语言生成的准确度。
本实施例的语言生成方法中,在编码-解码模型完成预训练后,为了提高编码-解码模型参数的准确度,进一步,在设定语言生成场景下,获取相应场景下的有监督训练样本,对预训练得到的编码-解码模型进行参数微调,提高了模型训练的效果,提高了语言生成的准确度。
为了实现上述实施例,本申请还提出一种语言生成装置。
图6为本申请实施例提供的一种语言生成装置的结构示意图。
如图6所示,该语言生成装置包括:获取模块61、确定模块62、生成模块63和训练模块64。
获取模块61,用于获取多个训练语料。
确定模块62,用于对各训练语料,从相应训练语料中确定至少一个源片段和至少两个目标片段,其中,目标片段和源片段在相应训练语料中间隔排布。
生成模块63,用于根据各训练语料,生成对应的训练样本;其中,训练样本用于指示相应训练语料中的至少一个源片段,并采用相应训练语料中的至少两个目标片段标注。
训练模块64,用于采用各训练样本,训练编码-解码模型,以采用训练后的编码-解码模型进行语言生成。
进一步地,在本申请实施例的一种可能的实现方式中,上述确定模块62,具体用于:
对一个训练语料,按照设定策略,确定至少两个目标片段;其中,至少两个目标片段的字符长度分别属于设定的至少两个长度区间,将相应训练语料中除至少两个目标片段以外的部分作为至少一个源片段。
作为一种可能的实现方式,至少两个长度区间中的一个长度区间取值为大于或等于1个字符,且小于或等于4个字符;至少两个长度区间中的另一个长度区间取值为大于或等于10个字符,且小于或等于20个字符。
作为一种可能的实现方式,设定策略包括:间隔随机个字符提取,或者,将一个训练语料中各字符按照字符位置划分为多个部分,随机选择至少两个部分提取。
作为一种可能的实现方式,上述训练模块64,包括:
预训练单元,用于采用各训练样本,对编码-解码模型进行预训练,以使编码-解码模型输出的词序列与相应训练样本的标注之间差异最小化。
生成单元,用于根据预训练得到的编码-解码模型进行语言生成。
作为一种可能的实现方式,所述生成单元,用于:
根据设定语言生成场景,获取对应的有监督训练样本,采用有监督训练样本,对预训练得到的编码-解码模型进行参数调整,根据参数调整后的编码-解码模型,在设定语言生成场景下进行语言生成。
作为一种可能的实现方式,设定语言生成场景包括:对话生成、机器翻译、问答场景和摘要生成中的一个或多个组合。
作为一种可能的实现方式,上述生成模块63,具体用于:
将一个训练语料中的至少两个目标片段从所在字符位置上移除,将保留的至少一个源片段按照字符位置排序得到对应的训练样本,将移除的至少两个目标片段按照在相应训练语料中的语序重新排序,以确定字符位置,采用重新排序后的至少两个目标片段,标注对应的训练样本。
需要说明的是,前述对语言生成方法实施例的解释说明也适用于该实施例的语言生成装置,原理相同,此处不再赘述。
本实施例的语言生成装置中,获取多个训练语料,对各训练语料,从相应训练语料中确定至少一个源片段和至少两个目标片段,其中,目标片段和源片段在相应训练语料中间隔排布,根据各训练语料,生成对应的训练样本,其中,训练样本用于指示相应训练语料中的至少一个源片段,并采用相应训练语料中的至少两个目标片段标注,采用各训练样本,训练编码-解码模型,以采用训练后的编码-解码模型进行语言生成,通过对训练语料划分成包含间隔排布的多个目标片段,破坏了原有单一目标片段内部的上下文连续性,迫使编码-解码模型在进行解码时更加依赖编码部分的源片段信息对解码文本,也就是目标片段进行推断,从而实现了通过对编码-解码模型的预训练,加强了编码和解码部分的联系,提高了语言生成的准确性。
为了实现上述实施例,本申请实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如前述方法实施例所述的语言生成方法。
为了实现上述实施例,本申请实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现如前述方法实施例所述的语言生成方法。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图7所示,是本申请实施例的语言生成方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图7所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器701为例。
存储器702即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的语言生成方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的语言生成方法。
存储器702作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的语言生成方法对应的程序指令/模块(例如,附图7所示的获取模块61、确定模块62、生成模块63和训练模块64)。处理器701通过运行存储在存储器702中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的语言生成方法。
存储器702可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据对语言生成方法的电子设备的使用所创建的数据等。此外,存储器702可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器702可选包括相对于处理器701远程设置的存储器,这些远程存储器可以通过网络连接至语言生成方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
语言生成方法的电子设备还可以包括:输入装置703和输出装置704。处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接,图7中以通过总线连接为例。
输入装置703可接收输入的数字或字符信息,以及产生与语言生成方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置704可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,获取多个训练语料,对各训练语料,从相应训练语料中确定至少一个源片段和至少两个目标片段,其中,目标片段和源片段在相应训练语料中间隔排布,根据各训练语料,生成对应的训练样本,其中,训练样本用于指示相应训练语料中的至少一个源片段,并采用相应训练语料中的至少两个目标片段标注,采用各训练样本,训练编码-解码模型,以采用训练后的编码-解码模型进行语言生成,通过对训练语料划分成包含间隔排布的多个目标片段,破坏了原有单一目标片段内部的上下文连续性,迫使编码-解码模型在进行解码时更加依赖编码部分的源片段信息对解码文本,也就是目标片段进行推断,从而实现了通过对编码-解码模型的预训练,加强了编码和解码部分的联系,提高了语言生成的准确性。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (18)

1.一种语言生成方法,其特征在于,所述方法包括:
获取多个训练语料;
对各训练语料,从相应训练语料中确定至少一个源片段和至少两个目标片段;其中,所述目标片段和所述源片段在相应训练语料中间隔排布;
根据各训练语料,生成对应的训练样本;其中,所述训练样本用于指示相应训练语料中的所述至少一个源片段,并采用相应训练语料中的所述至少两个目标片段标注;
采用各训练样本,训练编码-解码模型,以采用训练后的编码-解码模型进行语言生成。
2.根据权利要求1所述的语言生成方法,其特征在于,所述对各训练语料,从相应训练语料中确定至少一个源片段和至少两个目标片段,包括:
对一个训练语料,按照设定策略,确定至少两个目标片段;其中,所述至少两个目标片段的字符长度分别属于设定的至少两个长度区间;
将相应训练语料中除所述至少两个目标片段以外的部分作为所述至少一个源片段。
3.根据权利要求2所述的语言生成方法,其特征在于,
所述至少两个长度区间中的一个长度区间取值为大于或等于1个字符,且小于或等于4个字符;
所述至少两个长度区间中的另一个长度区间取值为大于或等于10个字符,且小于或等于20个字符。
4.根据权利要求2所述的语言生成方法,其特征在于,所述设定策略包括:间隔随机个字符提取,或者,将一个训练语料中各字符按照字符位置划分为多个部分,随机选择至少两个部分提取。
5.根据权利要求1-4任一项所述的语言生成方法,其特征在于,所述采用各训练样本,训练编码-解码模型,以采用训练后的编码-解码模型进行语言生成,包括:
采用各训练样本,对所述编码-解码模型进行预训练,以使所述编码-解码模型输出的词序列与相应训练样本的标注之间差异最小化;
根据预训练得到的编码-解码模型进行语言生成。
6.根据权利要求5所述的语言生成方法,其特征在于,所述根据预训练得到的编码-解码模型进行语言生成,包括:
根据设定语言生成场景,获取对应的有监督训练样本;
采用所述有监督训练样本,对预训练得到的编码-解码模型进行参数调整;
根据参数调整后的编码-解码模型,在所述设定语言生成场景下进行语言生成。
7.根据权利要求6所述的语言生成方法,其特征在于,所述设定语言生成场景包括:对话生成、机器翻译、问答场景和摘要生成中的一个或多个组合。
8.根据权利要求1-4任一项所述的语言生成方法,其特征在于,所述根据各训练语料,生成对应的训练样本,包括:
将一个训练语料中的至少两个目标片段从所在字符位置上移除;
将保留的至少一个源片段按照字符位置排序得到对应的训练样本;
将移除的至少两个目标片段按照在相应训练语料中的语序重新排序,以确定字符位置;
采用重新排序后的至少两个目标片段,标注对应的训练样本。
9.一种语言生成装置,其特征在于,所述装置包括:
获取模块,用于获取多个训练语料;
确定模块,用于对各训练语料,从相应训练语料中确定至少一个源片段和至少两个目标片段;其中,所述目标片段和所述源片段在相应训练语料中间隔排布;
生成模块,用于根据各训练语料,生成对应的训练样本;其中,所述训练样本用于指示相应训练语料中的所述至少一个源片段,并采用相应训练语料中的所述至少两个目标片段标注;
训练模块,用于采用各训练样本,训练编码-解码模型,以采用训练后的编码-解码模型进行语言生成。
10.根据权利要求9所述的语言生成装置,其特征在于,所述确定模块,具体用于:
对一个训练语料,按照设定策略,确定至少两个目标片段;其中,所述至少两个目标片段的字符长度分别属于设定的至少两个长度区间;
将相应训练语料中除所述至少两个目标片段以外的部分作为所述至少一个源片段。
11.根据权利要求10所述的语言生成装置,其特征在于,
所述至少两个长度区间中的一个长度区间取值为大于或等于1个字符,且小于或等于4个字符;
所述至少两个长度区间中的另一个长度区间取值为大于或等于10个字符,且小于或等于20个字符。
12.根据权利要求10所述的语言生成装置,其特征在于,所述设定策略包括:间隔随机个字符提取,或者,将一个训练语料中各字符按照字符位置划分为多个部分,随机选择至少两个部分提取。
13.根据权利要求9-12任一项所述的语言生成装置,其特征在于,所述训练模块,包括:
预训练单元,用于采用各训练样本,对所述编码-解码模型进行预训练,以使所述编码-解码模型输出的词序列与相应训练样本的标注之间差异最小化;
生成单元,用于根据预训练得到的编码-解码模型进行语言生成。
14.根据权利要求13所述的语言生成装置,其特征在于,所述生成单元,用于:
根据设定语言生成场景,获取对应的有监督训练样本;
采用所述有监督训练样本,对预训练得到的编码-解码模型进行参数调整;
根据参数调整后的编码-解码模型,在所述设定语言生成场景下进行语言生成。
15.根据权利要求14所述的语言生成装置,其特征在于,所述设定语言生成场景包括:对话生成、机器翻译、问答场景和摘要生成中的一个或多个组合。
16.根据权利要求9-12任一项所述的语言生成装置,其特征在于,所述生成模块,具体用于:
将一个训练语料中的至少两个目标片段从所在字符位置上移除;
将保留的至少一个源片段按照字符位置排序得到对应的训练样本;
将移除的至少两个目标片段按照在相应训练语料中的语序重新排序,以确定字符位置;
采用重新排序后的至少两个目标片段,标注对应的训练样本。
17.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-8中任一所述的语言生成方法。
18.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的语言生成方法。
CN202010076717.XA 2020-01-23 2020-01-23 语言生成方法、装置、计算机设备及存储介质 Active CN111274764B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010076717.XA CN111274764B (zh) 2020-01-23 2020-01-23 语言生成方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010076717.XA CN111274764B (zh) 2020-01-23 2020-01-23 语言生成方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN111274764A CN111274764A (zh) 2020-06-12
CN111274764B true CN111274764B (zh) 2021-02-23

Family

ID=70996962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010076717.XA Active CN111274764B (zh) 2020-01-23 2020-01-23 语言生成方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111274764B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949674A (zh) * 2020-08-22 2021-06-11 上海昌投网络科技有限公司 一种多模型融合的语料生成方法及装置
CN112507705B (zh) * 2020-12-21 2023-11-14 北京百度网讯科技有限公司 一种位置编码的生成方法、装置及电子设备
CN112560443B (zh) * 2020-12-29 2022-11-29 平安银行股份有限公司 选择题生成模型训练方法、选择题生成方法、设备及介质
CN112861548B (zh) * 2021-02-10 2023-06-23 百度在线网络技术(北京)有限公司 自然语言生成及模型的训练方法、装置、设备和存储介质
CN113139575B (zh) * 2021-03-18 2022-03-01 杭州电子科技大学 一种基于条件嵌入预训练语言模型的图像标题生成方法
CN113743095A (zh) * 2021-07-19 2021-12-03 西安理工大学 基于词格和相对位置嵌入的中文问题生成统一预训练方法
CN114691858B (zh) * 2022-03-15 2023-10-03 电子科技大学 一种基于改进的unilm摘要生成方法
CN115357710B (zh) * 2022-08-18 2023-07-25 百度在线网络技术(北京)有限公司 表格描述文本生成模型的训练方法、装置及电子设备
CN115470781B (zh) * 2022-11-01 2023-03-14 北京红棉小冰科技有限公司 语料生成方法、装置和电子设备
CN117094283B (zh) * 2023-10-13 2024-02-13 腾讯科技(深圳)有限公司 文本处理方法、装置、电子设备、存储介质和程序产品

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11182566B2 (en) * 2016-10-03 2021-11-23 Google Llc Processing text sequences using neural networks
US10867595B2 (en) * 2017-05-19 2020-12-15 Baidu Usa Llc Cold fusing sequence-to-sequence models with language models
CN107945792B (zh) * 2017-11-06 2021-05-28 百度在线网络技术(北京)有限公司 语音处理方法和装置
CN109992764B (zh) * 2017-12-29 2022-12-16 阿里巴巴集团控股有限公司 一种文案生成方法及装置
US10521701B2 (en) * 2018-05-18 2019-12-31 Google Llc Parallel decoding using autoregressive machine learning models
US10680643B2 (en) * 2018-12-14 2020-06-09 Intel Corporation Compression scheme with control of search agent activity
CN110209784B (zh) * 2019-04-26 2024-03-12 腾讯科技(深圳)有限公司 消息交互方法、计算机设备及存储介质
CN110134953B (zh) * 2019-05-05 2020-12-18 北京科技大学 基于中医古籍文献的中医命名实体识别方法及识别系统
CN110598222B (zh) * 2019-09-12 2023-05-30 北京金山数字娱乐科技有限公司 语言处理方法及装置、语言处理系统的训练方法及装置

Also Published As

Publication number Publication date
CN111274764A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN111274764B (zh) 语言生成方法、装置、计算机设备及存储介质
KR102350543B1 (ko) 시맨틱 표현 모델의 처리 방법, 장치, 전자 기기 및 저장 매체
KR102497945B1 (ko) 텍스트 인식 처리 방법, 장치, 전자 기기 및 저장매체
KR102577514B1 (ko) 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체
CN111709248B (zh) 文本生成模型的训练方法、装置及电子设备
KR102466399B1 (ko) 핵심 엔티티를 레이블링하는 방법, 장치 및 전자 기기
CN111079442B (zh) 文档的向量化表示方法、装置和计算机设备
CN111078865B (zh) 文本标题生成方法和装置
CN112633017B (zh) 翻译模型训练、翻译处理方法、装置、设备和存储介质
CN112347769B (zh) 实体识别模型的生成方法、装置、电子设备及存储介质
KR102565673B1 (ko) 시멘틱 표현 모델의 생성 방법, 장치, 전자 기기 및 저장 매체
CN110797005B (zh) 韵律预测方法、装置、设备和介质
CN111144507B (zh) 情感分析模型预训练方法、装置及电子设备
CN110807331B (zh) 一种多音字读音预测方法、装置和电子设备
CN112506949B (zh) 结构化查询语言查询语句生成方法、装置及存储介质
CN112270198B (zh) 角色确定方法、装置、电子设备及存储介质
CN111079945B (zh) 端到端模型的训练方法及装置
CN111950256A (zh) 断句处理方法、装置、电子设备和计算机存储介质
CN113641830A (zh) 模型预训练方法、装置、电子设备和存储介质
CN112232089B (zh) 语义表示模型的预训练方法、设备和存储介质
JP7121791B2 (ja) 言語生成方法、装置及び電子機器
CN112528605A (zh) 文本风格处理方法、装置、电子设备和存储介质
CN110990569A (zh) 文本聚类方法、装置及相关设备
CN112507188A (zh) 候选搜索词的生成方法、装置、设备及介质
CN114282552B (zh) 非自回归翻译模型的训练方法及其装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant