CN111221964A

CN111221964A - 一种不同分面观点演化趋势引导的文本生成方法

Info

Publication number: CN111221964A
Application number: CN201911360607.XA
Authority: CN
Inventors: 秦涛; 王熙凤; 郑庆华; 罗敏楠; 张玉哲; 王伟帆; 王浩年
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-06-02
Anticipated expiration: 2039-12-25
Also published as: CN111221964B

Abstract

本发明公开了一种不同分面观点演化趋势引导的文本生成方法，(1)构造分面分类器和观点分类器：收集社交网络中特定热点事件的全部博文作为源语料集，根据专家知识或舆情事件管理需要，确定舆情事件的重要分面并给出分面描述；根据语料子句与分面描述的语义距离实现源语料集中不同分面的子句提取，以此训练分面分类器；利用基于观点的文本聚类方法将每个分面中不同观点语料聚类，利用聚类后的语料训练观点分类器。(2)生成对抗观点文本：文本生成模型包括一个生成器和三个对抗训练的判别器，生成器生成和语料句子分面相同、观点对抗的文本，三个判别器区分生成器生成的句子和源语料句子，如此反复对抗训练，直到三个判别器均无法区分生成器生成的句子和源语料句子。

Description

一种不同分面观点演化趋势引导的文本生成方法

技术领域

本发明属于多分面舆情事件中观点演化趋势的对抗引导文本生成领域，特别涉及一种不同分面观点演化趋势引导的文本生成方法。

背景技术

如今各种各样的自媒体平台快速发展，网络成为人们获取信息、参与公共事务、发表个人观点的主要场所。但是由于网络具有匿名性、传播快的特点，各种不实、负面的信息和言论充斥网络，尤其对于关乎法律民生，公众道德的社会事件，恶意煽动网民情绪、传播不实消息会严重危害社会稳定。网络舆情已经成为影响社会稳定的重要因素，在建立正确舆论导向的基础上加强网络舆情监测、进行舆论的引导，对于有效疏导和控制负面舆情，为主流意识形态网络话语的传播营造清朗的网络舆论环境有重要意义。

网络上的信息繁杂多样且传播迅速，给网络舆情引导带来很大挑战。面对网络热点事件中的恶意、不实评论，需要有针对性地进行反驳、澄清和引导，以减轻其对网民的影响，因此本发明提出了一种面向多分面舆情事件的观点对抗型引导文本生成方法。该方法用于对网络热点事件中负面、过激甚至恶意评论的引导，能够自动地生成针对性的对抗观点且符合该热点事件的语境和语言规律，具有高效、准确的优点。针对文本生成方法，有以下现有技术：

现有技术1提出的文本生成方法包括：获得文本生成模型和调用文本生成模型两个阶段。第一阶段包括数据预处理；深度学习算法模型构建；训练深度学习模型；获得文本生成模型。第二阶段包括：接受用户输入的文本；提取用户输入文本的特征信息；调用文本生成模型；生成与用户输入文本的特征信息相匹配的文本。第一阶段采用深度学习算法模型，使得训练过程更加自动化，免去了过多的人工干预，训练过程采用一系列训练策略，使得文本生成模型生成的文本可读性更强。第二阶段，对用户输入信息进行分类，识别用户意图，跟据用户的意图生成出用户想要的文本。

现有技术2提出了一种文本生成方法，该方法包括：使用基于LSTM学习的NLG 技术，通过学习获得的每个字符之间的概率关系来对句子结构的视觉语义、字符的种类以及每一个字符进行编码。对想要表达的评论信息进行了语义和句法方面的融合，并后期通过特定词替换等方法，生成与社交网络几乎一致的生动、通顺、富于变化的高质量评论文本。

现有技术3提出一种基于循环卷积注意力模型的文本生成方法及装置，该方法包含：采集互联网文本数据作为样本数据库；将样本数据库作为循环卷积注意力模型的输入和输出，训练循环卷积注意力模型，其中，循环卷积注意力模型包含长短期记忆网络模块、注意力机制模块和循环卷积网络模块，长短期记忆网络模块包含若干个LSTM长短期记忆网络节点；将待处理文本主题输入到已训练好的循环卷积注意力模型中进行测试，将循环卷积注意力模型输出即为该待处理文本主题的生成文本。

现有技术1只实现了通用的文本生成方法，现有技术2立足社交网络，生成具有社交网络特点的文本，但是不能生成观点对抗的文本，现有技术3可以生成特定主题的文本，但也不是针对舆情事件中不同观点的引导，没有实现舆情事件分面提取、观点识别及生成对抗观点文本。

发明内容

本发明的目的在于提供一种不同分面观点演化趋势引导的文本生成方法，以解决上述问题。

为实现上述目的，本发明采用以下技术方案：

一种不同分面观点演化趋势引导的文本生成方法，包括以下步骤：

步骤1，构造分类器：以社交网络中特定热点事件的全部博文作为源语料集，通过清洗、分割、归类训练得到分类器，将此分类器作为判别器；

步骤2，观点对抗文本生成：文本生成模型包括一个生成器和三个对抗训练的判别器，生成器生成和语料句子分面相同、观点对抗的文本，三个判别器区分生成器生成的句子和源语料句子，如此反复对抗训练，直到三个判别器均无法区分生成器生成的句子和源语料句子。

进一步的，构造分类器具体为：

收集社交网络中特定热点事件的全部博文作为源语料集，对源语料集进行去重、去除 URL、@和无关内容清洗工作后，以标点符号为依据将博文分割为多个子句；

根据语料集中子句与分面描述的语义距离将源语料集中的子句按照不同的分面进行归类，以此训练能够区分不同分面语料的分面分类器，将此分类器作为文本生成模型的分面判别器；

利用基于观点的文本聚类方法将每个分面中不同观点语料聚类，以此训练能够区分该分面不同观点的观点分类器，将此分类器作为文本生成模型的观点判别器。

进一步的，构造分类器过程包括：

1)确定舆情事件的重要分面，对于每个分面，给出一定的关键词或短语描述，称为分面描述；

2)利用源语料集训练word2vec词向量模型，从而获得语料句子和分面描述的词嵌入向量表示；

3)利用源语料集训练编码-解码模型，输入为一个句子的词嵌入向量，优化目标为使解码得到的句子与输入句子相同，这里的编码器、解码器均为长短期记忆网络；

将分面描述和源语料集中每个子句输入训练好的编码器，利用得到的隐含语义向量计算句子和每个分面描述的语义距离，实现源语料集中不同分面的子句提取；

4)给不同分面的语料打上不同的标签，以训练分面分类器，使其可以辨别句子所属分面；

5)针对每个分面的语料，利用基于观点的文本聚类方法，将该分面中的表达不同观点的语料分在不同的簇，表达相同观点的语料分在相同的簇；最后给不同的簇中的文本打上不同的标签，表示其表达了不同的观点；利用得到的带有标签的语料集训练观点分类器，使其能够将区分同一分面内表达不同观点的语料。

进一步的，观点对抗文本生成过程包括：

(1)文本生成模型构造；文本生成模型包括一个生成器和三个判别器，其中生成器由长短期记忆网络编码器、分面记忆向量、观点记忆向量组成；编码器用于对句子向量表示进行编码；分面记忆向量用来记忆各分面潜在信息，观点记忆向量用来记忆每个分面的各观点潜在信息；三个判别器均采用卷积神经网络；

(2)文本生成模型训练；对于每一条源语料集子句，调用相应的分面记忆向量和观点记忆向量；用语料句子的分面判别器输出初始化与其相对应的分面记忆向量，用其对抗观点判别器的输出初始化对应的观点记忆向量；

生成器的第一层输入为随机噪声，之后的每一层将相应的观点记忆向量和分面记忆向量与上一层输出的隐层向量拼接，并输入到编码器的下一层；生成器生成和语料句子分面内容相同、观点对抗的文本，三个判别器区分出生成器生成的句子和源语料句子，如此反复对抗训练，直到三个判别器均无法判别出生成器生成的句子和源语料句子；

(3)文本生成模型推理；给定一条源语料集句子，调用相应的已经训练好的分面记忆向量和与其形成对抗的观点记忆向量；分面记忆向量、对抗观点记忆向量与初始随机向量拼接输入生成器，生成器则生成与给定语料集句子具有相同分面内容但观点相反且符合该舆情事件语言规律的文本。

进一步的，生成器最终的隐层输出和原语料句子的嵌入向量表示分别作为分面判别器、内容判别器和观点判别器的输入；判别器优化目标由三部分组成，第一部分是分面判别器对生成文本所属分面的判别与真实语料相差最大，第二部分是观点判别器对生成文本和原语料句子的判别结果相差最小，第三部分是内容判别器对生成文本和原语料句子的判别结果相差最大。

与现有技术相比，本发明有以下技术效果：

(1)利用特定的包含不同分面和观点的舆情事件语料，本发明将通用的文本生成技术迁移到舆情观点演化趋势引导场景中，实现了文本生成技术的场景应用，可以生成符合特定舆情事件语言规律的文本。

(2)在符合特定舆情事件语言规律的基础上，本发明通过将观点记忆向量和分面记忆向量集成到通用的对抗文本生成模型中，使生成的文本蕴含相应的分面内容和对抗观点，从而起到舆情引导的作用。

(3)本文实现了比通用主题文本生成更细粒度的文本分面、观点识别和对抗观点生成，在舆情观点演化趋势引导过程中更具贴合性和针对性。

附图说明

图1是本发明构造分面分类器和观点分类器过程图。

图2是本发明的生成模型图。

图3是本发明的生成器实现细节图。

图4是生成观点对抗型引导文本流程图。

具体实施方式

以下结合附图对本发明进一步说明：

请参阅图1至图4，一种不同分面观点演化趋势引导的文本生成方法，包括以下步骤：

构造分类器具体为：

收集社交网络中特定热点事件的全部博文作为源语料集，对源语料集进行去重、去除 URL、@和无关内容等清洗工作后，以标点符号为依据将博文分割为多个子句；

构造分类器过程包括：

观点对抗文本生成过程包括：

生成器最终的隐层输出和原语料句子的嵌入向量表示分别作为分面判别器、内容判别器和观点判别器的输入；判别器优化目标由三部分组成，第一部分是分面判别器对生成文本所属分面的判别与真实语料相差最大，第二部分是观点判别器对生成文本和原语料句子的判别结果相差最小，第三部分是内容判别器对生成文本和原语料句子的判别结果相差最大。

实施例：

以“公交车坠江事件”在微博上的语料为实施例说明面向多分面舆情观点演化趋势引导的文本生成过程。

如图1构造分面分类器和观点分类器过程图所示。

首先收集微博上“公交车坠江事件”的全部博文作为源语料集，对源语料集进行清洗后，以标点符号为依据将博文分割为多个子句。

根据专家知识或舆情事件管理需要，确定该舆情事件的三个重要分面—公交车司机、女司机和打人女乘客，对于每个分面，给出关键词或短语描述，即分面描述。

利用源语料集训练word2vec词向量模型，从而获得语料句子和分面描述的词嵌入向量表示，例如，语料句子表示为Y＝{y₁,y₂,y₃……y_n}，其中y_i,i＝1,2,3……表示每个词的词嵌入向量。同理，设定每个分面描述的句子为A＝{a₁,a₂,a₃……a_n}。

利用源语料集训练编码-解码模型，这里的编码器、解码器均为长短期记忆网络LSTM，具体编码过程为:

h_final＝LSTM1(h₀,Y)

LSTM1为编码器，h₀为初始隐层向量，h_final为最终输出隐层向量。

解码过程为：

Y′＝LSTM2(h_final)

LSTM2为解码器，Y′为解码器生成的句子。

优化目标为使Y和Y′的交叉熵L最小。

k为语料中子句的总数。

训练完成后将分面描述和源语料集中每个句子输入训练好的编码器：

h＝LSTM1(Y)

h′＝LSTM1(A)

利用得到的语料句子的隐含语义向量h和分面描述隐含语义向量h′计算句子和每个分面描述的语义距离，例如以h和h′的余弦相似度作为其语义距离：

并设定语义距离阈值ε，当r>ε则认为语料句子属于该分面，从而实现源语料集中不同分面的子句提取。

给不同分面的语料子句打上不同的标签，如001,010,100，用带有标签的语料子句训练分面分类器，使其可以区分子句所属分面。这里的分面分类器为卷积神经网络CNN，训练过程为：

logits＝conv1(Y)

其中conv1为卷积函数，logits为卷积网络输出。

output＝softmax(w*logits+b)

将卷积结果logits输入全连接层，其中w和b分别为可学习参数，全连接层的最后进行softmax操作，得到预测的分类结果output。

优化目标为使分类器对语料句子所属分面的判别与其真实所属分面相同，即计算结果与标签的交叉熵L最小。

其中label为每个子句真实所属分面的标签。

针对每个分面的语料，利用基于观点的文本聚类方法，将该分面中的表达不同观点的子句分在不同的簇，表达相同观点的子句分在相同的簇。例如在“公交车司机”这个分面，可以分为理解、抨击、中立三种观点，最后给不同簇中的子句打上不同的标签，同理给其赋标签为001,010,100……，表示其表达不同的观点。

利用得到的带有标签的语料集子句训练观点分类器，使其能够区分同一分面内表达不同观点的语料子句。其中观点分类器同样为卷积神经网络，训练过程与分面分类器同理。

如图2生成模型图所示，文本生成过程包括模型训练和模型推理阶段。

文本生成模型训练阶段，对于每一条源语料句子，利用训练好的分面判别器识别其所属分面，利用训练好的观点判别器识别其所属观点：

logits₁＝conv1(Y)

label₁＝softmax(w₁*logits₁+b₁)

其中conv1为分面判别器卷积函数，logits₁为分面判别器输出，label₁为语料句子所属分面类别。

logits₂＝conv2(Y)

label₂＝softmax(w₂*logits₂+b₂)

其中conv2为观点判别器卷积函数，logits₂为观点判别器输出，label₂为语料子句表达观点类别。

为了使生成器模型更容易训练，用语料句子的分面判别器输出logits₁初始化分面记忆向量，其对抗观点判别器输出logits₂初始化观点记忆向量，因为分面判别器的输出 logits₁本身包含了句子的隐含分面信息，其对抗观点判别器的输出ligits₂同理。

如图3生成器实现细节图所示，在编码器每一层，将相应的观点记忆向量和分面记忆向量与上一层输出的隐层向量拼接，并输入到编码器的下一层。即：

y′_t+1,h_t+1＝LSTM(y′_t,[h_t；m；v])

其中，y′_t为生成器t时刻的输出，h_t为t时刻的隐层向量，m为分面记忆向量，v为观点记忆向量。y′_t+1为生成器t+1时刻的输出，h_t+1为t+1时刻的隐层向量。

生成器的优化目标为使生成文本Y′＝{y′₁,y′₂,y′₃……y′_n}和原语料句子 Y＝{y₁,y₂,y₃……y_n}的交叉熵最小：

生成器最终的输出Y′＝{y′₁,y′₂,y′₃……y′_n}和原语料句子的嵌入向量表示Y＝{y₁,y₂,y₃……y_n}作为分面判别器、内容判别器和观点判别器的输入。

判别器优化目标由三部分组成，第一部分是分面判别器D₁对生成器输出向量Y′和原语料句子嵌入向量Y的判别结果交叉熵L₁最大：

第二部分为让观点判别器D₂对生成器输出向量Y′和原语料句子嵌入向量Y的判别结果交叉熵最小。

第三部分为让内容判别器D₃对生成器输出向量Y′和原语料句子嵌入向量Y的判别结果交叉熵最大。

判别器部分的总优化目标L_D为：

该优化目标保证了生成器生成的句子既在内容上符合该事件的自然语言规律又表达出要求的该分面的该观点。

最后，文本生成模型的总优化目标L为：

生成器生成和语料句子分面相同、观点对抗的文本，三个判别器区分生成器生成的句子和源语料句子，如此反复对抗训练，直到三个判别器均无法判别出生成器生成的句子和源语料句子。

文本生成模型推理过程为，对于每一条源语料句子，利用分面判别器识别其所属分面，利用观点判别器识别其所属观点。

调用相应的已经训练好的分面记忆向量m和与其形成对抗的观点记忆向量v。分面记忆向量m、观点记忆向量v与初始随机向量拼接输入生成器，生成器则生成与给定语料集子句具有相同分面但观点相反且符合该舆情事件语言规律的文本。

Claims

1.一种不同分面观点演化趋势引导的文本生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种不同分面观点演化趋势引导的文本生成方法，其特征在于，构造分类器具体为：

收集社交网络中特定热点事件的全部博文作为源语料集，对源语料集进行去重、去除URL、@和无关内容清洗工作后，以标点符号为依据将博文分割为多个子句；

3.根据权利要求1所述的一种不同分面观点演化趋势引导的文本生成方法，其特征在于，构造分类器过程包括：

4.根据权利要求3所述的一种不同分面观点演化趋势引导的文本生成方法，其特征在于，观点对抗文本生成过程包括：

5.根据权利要求4所述的一种不同分面观点演化趋势引导的文本生成方法，其特征在于，生成器最终的隐层输出和原语料句子的嵌入向量表示分别作为分面判别器、内容判别器和观点判别器的输入；判别器优化目标由三部分组成，第一部分是分面判别器对生成文本所属分面的判别与真实语料相差最大，第二部分是观点判别器对生成文本和原语料句子的判别结果相差最小，第三部分是内容判别器对生成文本和原语料句子的判别结果相差最大。