CN116432654A

CN116432654A - 一种基于内容上下文的自动续写生成方法

Info

Publication number: CN116432654A
Application number: CN202310570040.9A
Authority: CN
Inventors: 周泽安
Original assignee: Zhuhai Biyou Technology Co ltd
Current assignee: Zhuhai Biyou Technology Co ltd
Priority date: 2023-05-19
Filing date: 2023-05-19
Publication date: 2023-07-14

Abstract

本发明涉及自动续写生成技术领域，具体是一种基于内容上下文的自动续写生成方法，包括以下步骤：S1、准备带有命令实体识别训练数据；S11、微调BERT中文预训练模型；S12、测试命名实体识别效果；S13、使用输出结果标注无标样本数据；S2、微调T5中文预训练模型；S3、评估生产文本质量。本发明的有益效果通过理解用户上下文，基于用户提供的信息，拓展相关背景信息，从而生成与用户提供文本内容存在背景知识和逻辑相关的续写内容，让生成内容更加符合用户的创作意图和场景，基于对上下文的理解，有针对性地生成文本内容，解决语言模型生成内容不可控的问题，可以生成符合用户意图和创作场景的内容，使得续写引擎为用户真正带来价值，提高创作生产效率。

Description

一种基于内容上下文的自动续写生成方法

技术领域

本发明涉及自动续写生成技术领域，具体是一种基于内容上下文的自动续写生成方法。

背景技术

智能续写是自然语言生成技术(NLG)在文本创作场景下的一个具体应用。它是由语言模型，根据用户提供的起始文本，为用户批量生成从语言表达上符合人类书写方式，并且与起始文本存在内容逻辑相关性的语句或文段，自动帮助用户完成文章语句的撰写。

随着大规模预训练语言模型的问世，智能续写在小说，剧本等创作场景都展示出了令人惊喜的表现，可以续写出很多用户意想不到的内容，帮助完成文本编辑的同时，也能给用户提供丰富的灵感。而续写意料之外的内容的另一面，是无法写出用户期望的内容，这使得在一些有明确信息点需要传递的场景下，如公文、合同、简历等写作场景，续写的表现往往不尽人意。

基于现有预训练语言模型的续写能力，生成的结果，在内容上不可控，无法生成用户预期的信息内容，也由于缺少对用户使用场景的理解，导致无法形成有效的落地应用的缺点，因此亟需研发一种基于内容上下文的自动续写生成方法。

发明内容

本发明的目的在于提供一种基于内容上下文的自动续写生成方法，以解决上述背景技术中提出的在内容上不可控，无法生成用户预期的信息内容，也由于缺少对用户使用场景的理解的问题。

本发明的技术方案是：包括以下步骤：

S1、准备带有命令实体识别训练数据；

S11、微调BERT中文预训练模型；

S12、测试命名实体识别效果；

S13、使用输出结果标注无标样本数据；

S2、微调T5中文预训练模型；

S3、评估生产文本质量。

进一步地，所述S11中，BERT模型在中文预训练中包括以下步骤：

a.准备标注过实体信息的训练语料；

b.使用BERT中文预训练模型对训练语料针对命名实体识别任务进行微调；

c.测试命名实体识别任务精度。

进一步地，所述S2中，T5模型在中文预训练中包括以下步骤：

a.将标注过实体信息的训练语料的格式转化为：实体信息：语料；

b.将步骤a中准备的语料送入T5模型进行可控文本生成任务进行微调；

c.评估生成文本的可用性。

进一步地，所述S3中采用RFKL范式的场景应用，RFKL范式是知识+语言模型的算法范式，通过知识的方式控制文本的内容的生成，将RFKL范式应用到具体场景下，通过构建海量的场景化的深度知识网络，通过识别被续写文本中的知识，进而推理出与之关联性高的其他知识，在此基础上，进行逻辑上合理，表达上通顺的续写内容生成。

进一步地，所述S11中，BERT模型实际上是学习到输入序列的特征表示，然后再把学习到的特征表示应用到不同的downstream任务，关于为什么要使用双向的结构，单向的结构限制了pre-trained representations的能力，单方向的left-to-right结构或者right-to-left结构，抑或是简单将left-to-right特征和right-to-left简单拼接的ELMo结构都是不够的，这是因为预训练得到的BERT模型要用于处理不同的任务，因此需要知道序列中某个word左边的信息，还需要知道这个word右边的信息，并把这两个方向的信息整合起来。

进一步地，所述S2中，T5将GLUE中所有任务的数据集在微调时连接起来，将所有任务视为一个任务，并且在SuperGLUE中加入了数据集，T5模型使用SQuAD数据集时是将问题和上下文喂入，并逐个生成答案，机器翻译任务中仅对英语数据进行预训练，采用数据集，基于该算法技术训练的续写模型，数据全部来自于真实的场景数据，包括真实简历、真实JD和真实种草文案，训练所用数据集，除了保留完整的生成用训练文本以外，还纳入了大量针对文本内容、应用场景的分类标签，确保模型在学习文本生成的同时，对文本的应用细分场景也有所学习。

进一步地，7.所述S2中，对预训练模型中的多种模型架构(Transformer)进行了比对，最主要的模型架构可以分成下面三种：

第一种，Encoder-Decoder型，即Seq2Seq常用模型，分成Encoder和Decoder两部分，对于Encoder部分，输入可以看到全体，之后结果输给Decoder，而Decoder因为输出方式只能看到之前的。此架构代表是MASS、BART等；

第二种，相当于上面的Decoder部分，当前时间步只能看到之前时间步信息，典型代表是GPT2、CTRL；

第三种，PrefixLM(LanguageModel)型，可看作是上面Encoder和Decoder的融合体，一部分如Encoder一样能看到全体信息，一部分如Decoder一样只能看到过去信息，UniLM便是此结构。

进一步地，8.所述S2中，对预训练目标的大范围探索，总共从四方面来进行比较：

第一个方面，高层次方法对比，总共三种方式，其中发现Bert-style最好；

语言模型式，就是GPT-2那种方式，从左到右预测；

BERT-style式，就是像BERT一样将一部分给破坏掉，然后还原出来；

Deshuffling式，就是将文本打乱，然后还原出来；

第二方面，对文本一部分进行破坏时的策略，也分三种方法，效果最好的是ReplaceSpan法，类似做法如SpanBERT也证明了有效性。

Mask法，如现在大多模型的做法，将被破坏token换成特殊符如[M]；

replacespan法，可以把它当作是把上面Mask法中相邻[M]都合成了一个特殊符，每一小段替换一个特殊符，提高计算效率；

Drop法，没有替换操作，直接随机丢弃一些字符；

第三方面，到底该对文本百分之多少进行破坏呢，挑了4个值，10％，15％，25％，50％，最后发现BERT的15％就很ok了；

第四方面，因为ReplaceSpan需要决定对大概多长的小段进行破坏，于是对不同长度进行探索，2，3，5，10这四个值，最后发现3结果最好。

进一步地，所述S11中，BERT模型通过查询字向量表将文本中的每个字转换为一维向量，作为模型输入；模型输出则是输入各字对应的融合全文语义信息后的向量表示，此外，模型输入除了字向量，还包含另外两个部分：文本向量和位置向量，文本向量：该向量的取值在模型训练过程中自动学习，用于刻画文本的全局语义信息，并与单字/词的语义信息相融合。

进一步地，位置向量：由于出现在文本不同位置的字/词所携带的语义信息存在差异，因此，BERT模型对不同位置的字/词分别附加一个不同的向量以作区分，最后，BERT模型将字向量、文本向量和位置向量的加和作为模型输入，特别地，在目前的BERT模型中，文章作者还将英文词汇作进一步切割，划分为更细粒度的语义单位；此外，对于中文，目前作者尚未对输入文本进行分词，而是直接将单字作为构成文本的基本单位。

本发明通过改进在此提供一种基于内容上下文的自动续写生成方法，与现有技术相比，具有如下改进及优点：

(1)本发明旨在为用户提供一种可通过理解用户上下文，同时可基于用户提供的信息，拓展相关背景信息，从而生成与用户提供文本内容存在背景知识和逻辑相关的续写内容，让生成内容更加符合用户的创作意图和场景。

(2)基于对上下文的理解，有针对性地生成文本内容，解决语言模型生成内容不可控的问题；基于对上下文的信息，拓展相关的知识背景，解决用户创作时缺少背景信息和灵感的问题，本发明所用方法，可以生成符合用户意图和创作场景的内容，使得续写引擎为用户真正带来价值，提高创作生产效率。

(3)本发明将RFKL范式应用到具体场景下，通过构建海量的场景化的深度知识网络，通过识别被续写文本中的知识，进而推理出与之关联性高的其他知识，在此基础上，进行逻辑上合理，表达上通顺的续写内容生成，解决了目前市面上续写引擎生成内容难以适用的问题。

(4)本发明训练所用数据集，除了保留完整的生成用训练文本以外，还纳入了大量针对文本内容、应用场景的分类标签，确保模型在学习文本生成的同时，对文本的应用细分场景也有所学习，通过给模型建立丰富的背景知识，进一步精确续写内容的生成范围。

附图说明

下面结合附图和实施例对本发明作进一步解释:

图1是本发明的流程图；

图2是本发明的预训练模型中的多种模型架构流程图。

具体实施方式

下面将结合附图1-2对本发明进行详细说明，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明通过改进在此提供一种基于内容上下文的自动续写生成方法，如图1-2所示，包括以下步骤：

S1、准备带有命令实体识别训练数据；

S11、微调BERT中文预训练模型，BERT模型在中文预训练中包括以下步骤：

a.准备标注过实体信息的训练语料；

c.测试命名实体识别任务精度；

S12、测试命名实体识别效果；

S13、使用输出结果标注无标样本数据；

S2、微调T5中文预训练模型，T5模型在中文预训练中包括以下步骤：

c.评估生成文本的可用性；

S3、评估生产文本质量。

进一步地，S3中采用RFKL范式的场景应用，RFKL范式是知识+语言模型的算法范式，通过知识的方式控制文本的内容的生成，将RFKL范式应用到具体场景下，通过构建海量的场景化的深度知识网络，通过识别被续写文本中的知识，进而推理出与之关联性高的其他知识，在此基础上，进行逻辑上合理，表达上通顺的续写内容生成，解决了目前市面上续写引擎生成内容难以适用的问题。

进一步地，S2中，T5将GLUE中所有任务的数据集在微调时连接起来，将所有任务视为一个任务，并且在SuperGLUE中加入了数据集，T5模型使用SQuAD数据集时是将问题和上下文喂入，并逐个生成答案，机器翻译任务中仅对英语数据进行预训练，采用数据集，基于该算法技术训练的续写模型，数据全部来自于真实的场景数据，包括真实简历、真实JD和真实种草文案，训练所用数据集，除了保留完整的生成用训练文本以外，还纳入了大量针对文本内容、应用场景的分类标签，确保模型在学习文本生成的同时，对文本的应用细分场景也有所学习，通过给模型建立丰富的背景知识，进一步精确续写内容的生成范围。

进一步地，S2中，对预训练模型中的多种模型架构(Transformer)进行了比对，最主要的模型架构可以分成下面三种：

进一步地，在说明书附图2中，对预训练目标的大范围探索，总共从四方面来进行比较：

语言模型式，就是GPT-2那种方式，从左到右预测；

Deshuffling式，就是将文本打乱，然后还原出来；

Drop法，没有替换操作，直接随机丢弃一些字符；

进一步地，S11中，BERT模型通过查询字向量表将文本中的每个字转换为一维向量，作为模型输入；模型输出则是输入各字对应的融合全文语义信息后的向量表示，此外，模型输入除了字向量，还包含另外两个部分：文本向量和位置向量，文本向量：该向量的取值在模型训练过程中自动学习，用于刻画文本的全局语义信息，并与单字/词的语义信息相融合，位置向量：由于出现在文本不同位置的字/词所携带的语义信息存在差异，因此，BERT模型对不同位置的字/词分别附加一个不同的向量以作区分，最后，BERT模型将字向量、文本向量和位置向量的加和作为模型输入，特别地，在目前的BERT模型中，文章作者还将英文词汇作进一步切割，划分为更细粒度的语义单位；此外，对于中文，目前作者尚未对输入文本进行分词，而是直接将单字作为构成文本的基本单位。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于内容上下文的自动续写生成方法，其特征在于：包括以下步骤：

S1、准备带有命令实体识别训练数据；

S11、微调BERT中文预训练模型；

S12、测试命名实体识别效果；

S13、使用输出结果标注无标样本数据；

S2、微调T5中文预训练模型；

S3、评估生产文本质量。

2.根据权利要求1所述的一种基于内容上下文的自动续写生成方法，其特征在于：所述S11中，BERT模型在中文预训练中包括以下步骤：

a.准备标注过实体信息的训练语料；

c.测试命名实体识别任务精度。

3.根据权利要求1所述的一种基于内容上下文的自动续写生成方法，其特征在于：所述S2中，T5模型在中文预训练中包括以下步骤：

c.评估生成文本的可用性。

4.根据权利要求1所述的一种基于内容上下文的自动续写生成方法，其特征在于：所述S3中采用RFKL范式的场景应用，RFKL范式是知识+语言模型的算法范式，通过知识的方式控制文本的内容的生成，将RFKL范式应用到具体场景下，通过构建海量的场景化的深度知识网络，通过识别被续写文本中的知识，进而推理出与之关联性高的其他知识，在此基础上，进行逻辑上合理，表达上通顺的续写内容生成。

5.根据权利要求1所述的一种基于内容上下文的自动续写生成方法，其特征在于：所述S11中，BERT模型实际上是学习到输入序列的特征表示，然后再把学习到的特征表示应用到不同的downstream任务，关于为什么要使用双向的结构，单向的结构限制了pre-trainedrepresentations的能力，单方向的left-to-right结构或者right-to-left结构，抑或是简单将left-to-right特征和right-to-left简单拼接的ELMo结构都是不够的，这是因为预训练得到的BERT模型要用于处理不同的任务，因此需要知道序列中某个word左边的信息，还需要知道这个word右边的信息，并把这两个方向的信息整合起来。

6.根据权利要求1所述的一种基于内容上下文的自动续写生成方法，其特征在于：所述S2中，T5将GLUE中所有任务的数据集在微调时连接起来，将所有任务视为一个任务，并且在SuperGLUE中加入了数据集，T5模型使用SQuAD数据集时是将问题和上下文喂入，并逐个生成答案，机器翻译任务中仅对英语数据进行预训练，采用数据集，基于该算法技术训练的续写模型，数据全部来自于真实的场景数据，包括真实简历、真实JD和真实种草文案，训练所用数据集，除了保留完整的生成用训练文本以外，还纳入了大量针对文本内容、应用场景的分类标签，确保模型在学习文本生成的同时，对文本的应用细分场景也有所学习。

7.根据权利要求1所述的一种基于内容上下文的自动续写生成方法，其特征在于：所述S2中，对预训练模型中的多种模型架构(Transformer)进行了比对，最主要的模型架构可以分成下面三种：

8.根据权利要求1所述的一种基于内容上下文的自动续写生成方法，其特征在于：所述S2中，对预训练目标的大范围探索，总共从四方面来进行比较：

语言模型式，就是GPT-2那种方式，从左到右预测；

Deshuffling式，就是将文本打乱，然后还原出来；

Drop法，没有替换操作，直接随机丢弃一些字符；

9.根据权利要求1所述的一种基于内容上下文的自动续写生成方法，其特征在于：所述S11中，BERT模型通过查询字向量表将文本中的每个字转换为一维向量，作为模型输入；模型输出则是输入各字对应的融合全文语义信息后的向量表示，此外，模型输入除了字向量，还包含另外两个部分：文本向量和位置向量，文本向量：该向量的取值在模型训练过程中自动学习，用于刻画文本的全局语义信息，并与单字/词的语义信息相融合。

10.根据权利要求9所述的一种基于内容上下文的自动续写生成方法，其特征在于：位置向量：由于出现在文本不同位置的字/词所携带的语义信息存在差异，因此，BERT模型对不同位置的字/词分别附加一个不同的向量以作区分，最后，BERT模型将字向量、文本向量和位置向量的加和作为模型输入，特别地，在目前的BERT模型中，文章作者还将英文词汇作进一步切割，划分为更细粒度的语义单位；此外，对于中文，目前作者尚未对输入文本进行分词，而是直接将单字作为构成文本的基本单位。