CN115795039A

CN115795039A - 基于深度学习的风格标题生成方法、设备及介质

Info

Publication number: CN115795039A
Application number: CN202310079625.0A
Authority: CN
Inventors: 罗明利; 杨瀚; 温序铭
Original assignee: Chengdu Sobey Digital Technology Co Ltd
Current assignee: Chengdu Sobey Digital Technology Co Ltd
Priority date: 2023-02-08
Filing date: 2023-02-08
Publication date: 2023-03-14
Anticipated expiration: 2043-02-08
Also published as: CN115795039B

Abstract

本发明公开了一种基于深度学习的风格标题生成方法、设备及介质，属于新闻文本生成领域，包括：收集新闻标题和文本数据，构建风格数据集和事实内容数据集；利用预训练模型和风格数据集训练风格表征；利用预训练模型和词性表示、句法表示，构建内容重构网络模型，对事实内容数据集训练，获取文本内容的事实表征；融合风格表征和事实内容表征，构建生成端模型；训练标题风格迁移模型；利用训练好的标题风格迁移模型，对生成的标题进行风格迁移。本发明实现了基于事实保留的中文标题迁移，提高了文本风格迁移后的内容质量，降低了对内容编码器和风格编码器的要求，适用中文场景应用，解决了文本风格迁移在实际落地应用时所面临的技术问题。

Description

基于深度学习的风格标题生成方法、设备及介质

技术领域

本发明涉及新闻文本生成领域，更为具体的，涉及一种基于深度学习的风格标题生成方法、设备及介质。

背景技术

文本、视频或多媒体稿件，在任何渠道发布时均需要一个合适的标题。标题是多媒体内容核心的体现，一个好的标题能够更容易吸引读者，提高多媒体内容的传播力。现有算法生成的标题往往是对文本内容的概括，没有额外的修饰或包装，在实际场景中可用度不高。在原有生成标题基础上增加特定的风格元素，满足不同编辑人员个性化需求成为一种迫切需求。

文本风格迁移是自然语言生成任务中的一项重要任务，旨在保持文本主体的情况下，控制文本的某些属性风格（如：句式、情感等）进行改写。近年来文本风格迁移任务在学术界得到了广泛的关注，学术上也取得了一定的进展。从传统基于语言学的模板替换方法（如替换代表情感的词语来改变文本的情感倾向）到如今大热的深度学习方法都涌现了巨多的学术研究成果。由于传统方案在风格定义中的局限性（如有的句子并不具有明确的代表情感倾向的词语），自然而然地深度学习的方法成为了主流。

基于深度学习方法的文本风格迁移算法是基于数据驱动的。从数据构成上，有平行数据和非平行数据。其中，平行数据是指对同一个客观内容的描述运用了两种不同的风格，而这一组具有不同风格的描述被称为一组平行数据。相反的，非平行数据就是指两种不同风格的语料库之间没有内容上的必要关联。不同类型的数据构成对应着不同的算法模型，由于平行数据的构造难度极高、数据量较少，更多的学术研究工作选择针对非平行数据展开。目前几乎所有的文本风格迁移的学术研究都是围绕着英文数据集完成的，仅有的几篇中文文本风格迁移的工作也是采用翻译英文数据集的方式进行的，中文场景应用中数据也是一个必须解决的问题。

现有方法中，通过一个隐空间表达文本所包含的语义和风格特征，然后通过隐空间上的计算实现风格的转换；此类方法最大的优势是避免了风格与内容的显示分离。要实现完美的风格与内容的分离是非常困难的，一定存在某些表达是同时具有风格特性和内容特性，隐空间表征的思路规避了这一问题，也是在最新的研究中受到广泛关注文本风格迁移的思路。然而，隐空间上进行计算变换时是以风格的转换为目标的（而不是内容的保留），也就意味着可能难以保留完整的客观事实。

另一类现有方法，编码器只负责提取输入文本的内容特征，然后解码过程中使用风格依赖的控制向量来实现文本风格的迁移。控制向量可以采用风格编码的方式构建，也可以通过从一批次的风格样例中进行提取。这就对内容编码器和风格编码器提出了较高的要求。

从目前学术界的研究成果来看，风格的迁移成功率已经达到了较高的水平；意味着通过现有的深度学习方法能实现文本风格的明显改动。但从实际数据来看，风格迁移后文本的通顺程度以及事实内容保留上仍存在一定问题；因此进一步关注文本风格迁移后的内容质量将有助于文本风格迁移的实际落地应用。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于深度学习的风格标题生成方法、设备及介质，实现了基于事实保留的中文标题迁移，提高了文本风格迁移后的内容质量，降低了对内容编码器和风格编码器的要求，适用中文场景应用，解决了背景技术中文本风格迁移在实际落地应用时所面临的技术问题。

本发明的目的是通过以下方案实现的：

一种基于深度学习的风格标题生成方法，包括以下步骤：

分别构建风格数据集和事实内容数据集，在数据源头上分离风格数据和事实数据；其中，对收集的新闻标题数据，利用规则、文本分类模型预测，筛选归类不同风格的标题数据，形成风格数据集；对收集的新闻文本数据，通过中文语句分割符号进行分割，然后将分割后的语句分别输入新闻事件抽取模型和所述文本分类模型，抽取出完整事件与事件元素且对事件描述不带风格的句子纳入事实内容数据集；

再利用预训练模型和风格数据集训练风格表征编码器；以及利用预训练模型和词性表示、句法表示，构建内容重构网络模型，对事实内容数据集训练，获取文本内容的事实内容表征编码器；

再融合风格表征编码器和事实内容表征编码器，构建生成端解码器模型，通过生成端解码器模型进一步分离风格数据和事实数据；并利用风格数据集和事实内容数据集训练标题风格迁移模型；

最后利用训练好的标题风格迁移模型，对生成的标题进行风格迁移。

进一步地，所述利用规则、文本分类模型预测，筛选归类不同风格的标题数据，形成风格数据集，具体包括子步骤：

在收集的标题数据中，按规则筛选出带感叹号的作为感叹句式数据，带问号的作为疑问句式数据，对仗形式的标题作为对仗句式数据，另收集诗歌数据作为对仗句式数据的补充；以及对YELP正负情感数据进行中文翻译并人工检查，增加正向情感和负向情感两类风格数据集；

再对用规则筛选后的数据用分类模型训练后再一次进行模型筛选，筛选出置信度高于设定值的数据纳入最终的风格数据集。

进一步地，所述利用预训练模型和风格数据集训练风格表征编码器，包括子步骤：

基于预训练模型BERT获取数据集语句的字符编码，构建基于注意力的风格表征模型，然后接分类网络对风格数据集进行训练，得到能够对语句的风格进行表征的编码器。

进一步地，所述利用预训练模型和词性表示、句法表示，构建内容重构网络模型，对事实内容数据集训练，包括子步骤：

利用BERT预训练模型，结合语句的词性表示、句法表示对文本事实内容进行多层编码；

再构建基于VAE的文本内容重构网络模型，对事实内容数据集进行训练。

进一步地，所述融合风格表征编码器和事实内容表征编码器，构建生成端解码器模型，通过生成端解码器模型进一步分离风格数据和事实数据，具体包括子步骤：

步骤一：将数据集中的语句输入训练所得的风格表征编码器获得关于该语句的原始风格表示，记作

；将数据集中的语句输入训练所得的内容表征编码器，获得关于该语句的原始事实内容表示，记作

；

步骤二：构建风格迁移网络层，将原始风格表示迁移到目标风格表示，记作

；

步骤三：利用AdaIN方法对事实内容表示和目标风格表示进行融合，获得基于目标风格的事实内容表示

；具体方法为：

其中，

代表方差，

代表均值，AdaIN代表自适应实例标准化函数；

步骤四：构建生成端网络模型，利用步骤三获得的基于目标风格的事实内容表示，生成带有目标风格又保留原始事实内容信息的文本；利用训练所得的风格分类模型进行损失约束，以保证融合后生成的文本的风格；利用对抗损失对生成文本和自然文本进行约束，以保证生成文本的自然性；利用实例级重构损失函数对生成文本损失进行约束，以保证生成文本的正确性。

进一步地，在步骤一中，包括子步骤：对训练所得的风格分类模型进行损失约束，以保证原始风格的正确性。

进一步地，在步骤二中，包括子步骤：用训练所得的风格分类模型进行损失约束，以保证迁移风格的正确性。

进一步地，在步骤四中，所述利用实例级重构损失函数对生成文本损失进行约束，具体包括对训练数据中不同的数据定义不同的损失，将损失函数扩充到实例中；对一个批量中的数据进行不同的损失约束。

一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，当所述计算机程序被所述处理器加载时并执行如上任一项所述的方法。

一种计算机可读存储介质，在可读存储介质中存储有计算机程序，所述计算机程序被处理器加载并执行如上任一项所述的方法。

本发明的有益效果包括：

本发明能够更好地分离风格与事实，在源头即数据集构建时就将事实数据和风格数据进行了分离。利用构建的风格数据集和事实内容数据集，分别预训练风格表征编码器和事实内容表征编码器。由于源头数据集的分离，使得编码器学习到了更纯粹的风格和事实。然后构建风格迁移和文本内容重构模型，通过模型约束进一步分离风格和事实，在数据源分离和模型约束分离重构的共同作用下使得最后的迁移模型具有严格遵从内容事实同时改写文本风格的优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中基于事实保留中文标题风格迁移方法的总体框架图；

图2为本发明实施例中关于风格数据集构建的流程图；

图3为本发明实施例中关于事实内容数据集构建的流程图；

图4为本发明实施例中关于风格表征学习方案框架图；

图5为本发明实施例中关于事实内容表征学习方案框架图；

图6为本发明实施例中关于风格迁移方法学习方案框架图。

具体实施方式

本说明书中所有实施例公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

如图1~图6所示，本实施例提供一种基于深度学习的风格标题生成方法、设备及介质。总体框架如图1所示。在具体实施过程中，可以提供一种基于事实保留的中文标题风格迁移方法，具体包括步骤：

步骤1：收集新闻标题和文本数据并对其进行标注，构建风格数据集和事实内容数据集。如图2和图3所示。

步骤2：利用预训练模型和所述风格数据集训练风格表征模型。框架如图4所示。

步骤3：利用预训练模型和词性表示、句法表示，构建内容重构网络模型，对所述事实内容数据集训练，获取文本内容的事实内容表征模型。如图5所示。

步骤4：融合步骤2和步骤3训练好的风格表征模型和事实内容表征模型，构建生成端模型。训练标题风格迁移模型。如图6所示。

步骤5：利用步骤4中训练好的标题风格迁移模型，对生成的标题进行风格迁移。

上述技术方案中的步骤1是数据处理准备过程。步骤1进一步的实施方式中，包括以下子步骤：

步骤1.1：对收集的新闻标题数据集通过规则进行风格分类，本实施例中按规则拟定了三种风格句式，包含感叹句式、疑问句式、对仗句式。即在收集的标题数据中，按规则筛选出带感叹号（！）的作为感叹句式数据，带问号（？）的作为疑问句式数据，对仗形式的标题作为对仗句式数据，另收集了部分诗歌数据作为对仗句式数据的补充。

步骤1.2：为丰富风格的类型，对YELP正负情感数据进行中文翻译并人工检查，增加正向情感和负向情感两类风格数据集。

步骤1.3：对步骤1.1和步骤1.2用规则筛选后的数据用分类模型训练后再一次进行模型筛选，筛选出置信度高于0.9的数据纳入最终的风格数据集。

步骤1.4：对收集的新闻文本数据，利用中文句号分隔符（。）进行语句分割，然后将分割后的语句分别输入以往训练好的新闻事件抽取模型中和步骤1.3所述的风格分类模型中。当新闻事件抽取模型能够抽取出新闻事件且包含完整事件元素，但同时又不属于风格分类模型中分任何一类风格时，可认为该语句仅仅是对事实内容的客观陈述，不带有任何风格色彩，可纳入事实内容数据集，从数据源头上将风格与事实内容进行了分离。

上述技术方案中的步骤2是基于预训练模型BERT获取数据集语句的字符编码，构建基于注意力机制Attention的风格表征（Style Encoder），最后接分类网络对风格数据集进行训练，最后获取的Style Encoder是对语句的风格进行表征的编码器。

上述技术方案中的步骤3是基于预训练模型BERT获取数据集语句的字符编码，利用词性标注工具对数据集语句进行词性编码，再利用中文依存句法分析工具DDParse对数据集语句进行句法编码，对上述编码进行拼接，作为整句的编码。对词性和句法再次进行编码是为了更好地保留事实内容。构建内容表征层（Content Encoder），然后利用VAE的方法对事实内容数据集进行文本内容重构的训练，获取Content Encoder是对语句的事实内容进行表征的编码器。

上述技术方案中的步骤4是在步骤2和步骤3训练的风格和事实内容表征模型的基础之上，构建生成端解码器模型，将风格数据集和事实内容数据集一起进行基于事实内容保留的风格迁移模型的训练。步骤4在进一步的实施方式中，包括以下子步骤：

步骤4.1：将数据集中的语句输入步骤2训练所得的风格表征编码器（StyleEncoder）获得关于该语句的原始风格表示（Original-Style-Embedding），记作

。同时用步骤1训练所得的风格分类模型进行损失约束，保证原始风格的正确性。

步骤4.2：将数据集中的语句输入步骤3训练所得的内容表征编码器（ContentEncoder）获得关于该语句的原始事实内容表示（Content-Embedding），记作

。

步骤4.3：构建风格迁移网络层，将原始风格表示（Original-Style-Embedding）迁移到目标风格表示（Target-Style-Embedding），记作

。同时用步骤1训练所得的风格分类模型进行损失约束，保证迁移风格的正确性。

步骤4.4：利用AdaIN方法对事实内容表示和目标风格表示进行融合，获得基于目标风格的事实内容表示

，具体方法为：

其中，

代表方差，

代表均值，AdaIN代表自适应实例标准化函数。

步骤4.5：构建生成端网络模型（Decoder），利用步骤4.4获得的基于目标风格的事实内容表示，生成带有目标风格又保留原始事实内容信息的文本。利用步骤1训练所得的风格分类模型进行损失约束，以保证融合后生成的文本的风格。利用对抗损失对生成文本和自然文本进行约束，以保证生成文本的自然性。利用实例级重构损失函数对生成文本损失进行约束，以保证生成文本的正确性。进一步地，实例级重构损失函数是指对训练数据中不同的数据定义不同的损失，将损失函数扩充到实例中。对一个批量（batch）中的数据进行不同的损失约束。

上述技术方案中的步骤5是指将生成的标题输入步骤4中训练好的模型，迁移成不同风格的标题。

需要说明的是，在本发明权利要求书中所限定的保护范围内，以下实施例均可以从上述具体实施方式中，例如公开的技术原理，公开的技术特征或隐含公开的技术特征等，以合乎逻辑的任何方式进行组合和/或扩展、替换。

实施例1

如图1所示，一种基于深度学习的风格标题生成方法，包括以下步骤：

实施例2

在实施例1的基础上，所述利用规则、文本分类模型预测，筛选归类不同风格的标题数据，形成风格数据集，具体包括子步骤：

实施例3

在实施例1的基础上，所述利用预训练模型和风格数据集训练风格表征编码器，包括子步骤：

实施例4

在实施例1的基础上，所述利用预训练模型和词性表示、句法表示，构建内容重构网络模型，对事实内容数据集训练，包括子步骤：

实施例5

在实施例1的基础上，所述融合风格表征编码器和事实内容表征编码器，构建生成端解码器模型，通过生成端解码器模型进一步分离风格数据和事实数据，具体包括子步骤：

；

；

；具体方法为：

其中，

代表方差，

代表均值，AdaIN代表自适应实例标准化函数；

实施例6

在实施例5的基础上，在步骤一中，包括子步骤：对训练所得的风格分类模型进行损失约束，以保证原始风格的正确性。

实施例7

在实施例5的基础上，在步骤二中，包括子步骤：用训练所得的风格分类模型进行损失约束，以保证迁移风格的正确性。

实施例8

在实施例5的基础上，在步骤四中，所述利用实例级重构损失函数对生成文本损失进行约束，具体包括对训练数据中不同的数据定义不同的损失，将损失函数扩充到实例中；对一个批量中的数据进行不同的损失约束。

实施例9

一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，当所述计算机程序被所述处理器加载时并执行如实施例1~实施例8任一项所述的方法。

实施例10

一种计算机可读存储介质，在可读存储介质中存储有计算机程序，所述计算机程序被处理器加载并执行如实施例1~实施例8任一项所述的方法。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

根据本发明实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。

作为另一方面，本发明实施例还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。

上述技术方案只是本发明的一种实施方式，对于本领域内的技术人员而言，在本发明公开了应用方法和原理的基础上，很容易做出各种类型的改进或变形，而不仅限于本发明上述具体实施方式所描述的方法，因此前面描述的方式只是优选的，而并不具有限制性的意义。

除以上实例以外，本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例，各个实施例的特征可以互换或替换，本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于深度学习的风格标题生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于深度学习的风格标题生成方法，其特征在于，所述利用规则、文本分类模型预测，筛选归类不同风格的标题数据，形成风格数据集，具体包括子步骤：

3.根据权利要求1所述的基于深度学习的风格标题生成方法，其特征在于，所述利用预训练模型和风格数据集训练风格表征编码器，包括子步骤：

4.根据权利要求1所述的基于深度学习的风格标题生成方法，其特征在于，所述利用预训练模型和词性表示、句法表示，构建内容重构网络模型，对事实内容数据集训练，包括子步骤：

5.根据权利要求1所述的基于深度学习的风格标题生成方法，其特征在于，所述融合风格表征编码器和事实内容表征编码器，构建生成端解码器模型，通过生成端解码器模型进一步分离风格数据和事实数据，具体包括子步骤：

；

；

；具体方法为：

其中，

代表方差，

代表均值，AdaIN代表自适应实例标准化函数；

6.根据权利要求5所述的基于深度学习的风格标题生成方法，其特征在于，在步骤一中，包括子步骤：对训练所得的风格分类模型进行损失约束，以保证原始风格的正确性。

7.根据权利要求5所述的基于深度学习的风格标题生成方法，其特征在于，在步骤二中，包括子步骤：用训练所得的风格分类模型进行损失约束，以保证迁移风格的正确性。

8.根据权利要求5所述的基于深度学习的风格标题生成方法，其特征在于，在步骤四中，所述利用实例级重构损失函数对生成文本损失进行约束，具体包括对训练数据中不同的数据定义不同的损失，将损失函数扩充到实例中；对一个批量中的数据进行不同的损失约束。

9.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，当所述计算机程序被所述处理器加载时并执行如权利要求1~8任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，在可读存储介质中存储有计算机程序，所述计算机程序被处理器加载并执行如权利要求1~8任一项所述的方法。