CN111221964A - 一种不同分面观点演化趋势引导的文本生成方法 - Google Patents

一种不同分面观点演化趋势引导的文本生成方法 Download PDF

Info

Publication number
CN111221964A
CN111221964A CN201911360607.XA CN201911360607A CN111221964A CN 111221964 A CN111221964 A CN 111221964A CN 201911360607 A CN201911360607 A CN 201911360607A CN 111221964 A CN111221964 A CN 111221964A
Authority
CN
China
Prior art keywords
facet
corpus
viewpoint
text
different
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911360607.XA
Other languages
English (en)
Other versions
CN111221964B (zh
Inventor
秦涛
王熙凤
郑庆华
罗敏楠
张玉哲
王伟帆
王浩年
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201911360607.XA priority Critical patent/CN111221964B/zh
Publication of CN111221964A publication Critical patent/CN111221964A/zh
Application granted granted Critical
Publication of CN111221964B publication Critical patent/CN111221964B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种不同分面观点演化趋势引导的文本生成方法,(1)构造分面分类器和观点分类器:收集社交网络中特定热点事件的全部博文作为源语料集,根据专家知识或舆情事件管理需要,确定舆情事件的重要分面并给出分面描述;根据语料子句与分面描述的语义距离实现源语料集中不同分面的子句提取,以此训练分面分类器;利用基于观点的文本聚类方法将每个分面中不同观点语料聚类,利用聚类后的语料训练观点分类器。(2)生成对抗观点文本:文本生成模型包括一个生成器和三个对抗训练的判别器,生成器生成和语料句子分面相同、观点对抗的文本,三个判别器区分生成器生成的句子和源语料句子,如此反复对抗训练,直到三个判别器均无法区分生成器生成的句子和源语料句子。

Description

一种不同分面观点演化趋势引导的文本生成方法
技术领域
本发明属于多分面舆情事件中观点演化趋势的对抗引导文本生成领域,特别涉及一种 不同分面观点演化趋势引导的文本生成方法。
背景技术
如今各种各样的自媒体平台快速发展,网络成为人们获取信息、参与公共事务、发表个人观点的主要场所。但是由于网络具有匿名性、传播快的特点,各种不实、负面的信 息和言论充斥网络,尤其对于关乎法律民生,公众道德的社会事件,恶意煽动网民情绪、 传播不实消息会严重危害社会稳定。网络舆情已经成为影响社会稳定的重要因素,在建立 正确舆论导向的基础上加强网络舆情监测、进行舆论的引导,对于有效疏导和控制负面舆 情,为主流意识形态网络话语的传播营造清朗的网络舆论环境有重要意义。
网络上的信息繁杂多样且传播迅速,给网络舆情引导带来很大挑战。面对网络热点 事件中的恶意、不实评论,需要有针对性地进行反驳、澄清和引导,以减轻其对网民的影响,因此本发明提出了一种面向多分面舆情事件的观点对抗型引导文本生成方法。该方法用于对网络热点事件中负面、过激甚至恶意评论的引导,能够自动地生成针对性的对抗观点且符合该热点事件的语境和语言规律,具有高效、准确的优点。针对文本生成方法,有 以下现有技术:
现有技术1提出的文本生成方法包括:获得文本生成模型和调用文本生成模型两个 阶段。第一阶段包括数据预处理;深度学习算法模型构建;训练深度学习模型;获得文本生成模型。第二阶段包括:接受用户输入的文本;提取用户输入文本的特征信息;调用文 本生成模型;生成与用户输入文本的特征信息相匹配的文本。第一阶段采用深度学习算法 模型,使得训练过程更加自动化,免去了过多的人工干预,训练过程采用一系列训练策略, 使得文本生成模型生成的文本可读性更强。第二阶段,对用户输入信息进行分类,识别用 户意图,跟据用户的意图生成出用户想要的文本。
现有技术2提出了一种文本生成方法,该方法包括:使用基于LSTM学习的NLG 技术,通过学习获得的每个字符之间的概率关系来对句子结构的视觉语义、字符的种类以 及每一个字符进行编码。对想要表达的评论信息进行了语义和句法方面的融合,并后期通 过特定词替换等方法,生成与社交网络几乎一致的生动、通顺、富于变化的高质量评论文 本。
现有技术3提出一种基于循环卷积注意力模型的文本生成方法及装置,该方法包含: 采集互联网文本数据作为样本数据库;将样本数据库作为循环卷积注意力模型的输入和输 出,训练循环卷积注意力模型,其中,循环卷积注意力模型包含长短期记忆网络模块、注 意力机制模块和循环卷积网络模块,长短期记忆网络模块包含若干个LSTM长短期记忆网络节点;将待处理文本主题输入到已训练好的循环卷积注意力模型中进行测试,将循环卷积注意力模型输出即为该待处理文本主题的生成文本。
现有技术1只实现了通用的文本生成方法,现有技术2立足社交网络,生成具有社交网络特点的文本,但是不能生成观点对抗的文本,现有技术3可以生成特定主题的文本,但也不是针对舆情事件中不同观点的引导,没有实现舆情事件分面提取、观点识别及生成对抗观点文本。
发明内容
本发明的目的在于提供一种不同分面观点演化趋势引导的文本生成方法,以解决上 述问题。
为实现上述目的,本发明采用以下技术方案:
一种不同分面观点演化趋势引导的文本生成方法,包括以下步骤:
步骤1,构造分类器:以社交网络中特定热点事件的全部博文作为源语料集,通过清 洗、分割、归类训练得到分类器,将此分类器作为判别器;
步骤2,观点对抗文本生成:文本生成模型包括一个生成器和三个对抗训练的判别器, 生成器生成和语料句子分面相同、观点对抗的文本,三个判别器区分生成器生成的句子和 源语料句子,如此反复对抗训练,直到三个判别器均无法区分生成器生成的句子和源语料 句子。
进一步的,构造分类器具体为:
收集社交网络中特定热点事件的全部博文作为源语料集,对源语料集进行去重、去除 URL、@和无关内容清洗工作后,以标点符号为依据将博文分割为多个子句;
根据语料集中子句与分面描述的语义距离将源语料集中的子句按照不同的分面进行 归类,以此训练能够区分不同分面语料的分面分类器,将此分类器作为文本生成模型的分 面判别器;
利用基于观点的文本聚类方法将每个分面中不同观点语料聚类,以此训练能够区分该 分面不同观点的观点分类器,将此分类器作为文本生成模型的观点判别器。
进一步的,构造分类器过程包括:
1)确定舆情事件的重要分面,对于每个分面,给出一定的关键词或短语描述,称为分面描述;
2)利用源语料集训练word2vec词向量模型,从而获得语料句子和分面描述的词嵌入 向量表示;
3)利用源语料集训练编码-解码模型,输入为一个句子的词嵌入向量,优化目标为使 解码得到的句子与输入句子相同,这里的编码器、解码器均为长短期记忆网络;
将分面描述和源语料集中每个子句输入训练好的编码器,利用得到的隐含语义向量计 算句子和每个分面描述的语义距离,实现源语料集中不同分面的子句提取;
4)给不同分面的语料打上不同的标签,以训练分面分类器,使其可以辨别句子所属 分面;
5)针对每个分面的语料,利用基于观点的文本聚类方法,将该分面中的表达不同观 点的语料分在不同的簇,表达相同观点的语料分在相同的簇;最后给不同的簇中的文本打 上不同的标签,表示其表达了不同的观点;利用得到的带有标签的语料集训练观点分类器, 使其能够将区分同一分面内表达不同观点的语料。
进一步的,观点对抗文本生成过程包括:
(1)文本生成模型构造;文本生成模型包括一个生成器和三个判别器,其中生成器由长短期记忆网络编码器、分面记忆向量、观点记忆向量组成;编码器用于对句子向量表示进行编码;分面记忆向量用来记忆各分面潜在信息,观点记忆向量用来记忆每个分面的各观点潜在信息;三个判别器均采用卷积神经网络;
(2)文本生成模型训练;对于每一条源语料集子句,调用相应的分面记忆向量和观点记忆向量;用语料句子的分面判别器输出初始化与其相对应的分面记忆向量,用其对抗观点判别器的输出初始化对应的观点记忆向量;
生成器的第一层输入为随机噪声,之后的每一层将相应的观点记忆向量和分面记忆向 量与上一层输出的隐层向量拼接,并输入到编码器的下一层;生成器生成和语料句子分面 内容相同、观点对抗的文本,三个判别器区分出生成器生成的句子和源语料句子,如此反 复对抗训练,直到三个判别器均无法判别出生成器生成的句子和源语料句子;
(3)文本生成模型推理;给定一条源语料集句子,调用相应的已经训练好的分面记忆向量和与其形成对抗的观点记忆向量;分面记忆向量、对抗观点记忆向量与初始随机向量拼接输入生成器,生成器则生成与给定语料集句子具有相同分面内容但观点相反且符合该舆情事件语言规律的文本。
进一步的,生成器最终的隐层输出和原语料句子的嵌入向量表示分别作为分面判别 器、内容判别器和观点判别器的输入;判别器优化目标由三部分组成,第一部分是分面判 别器对生成文本所属分面的判别与真实语料相差最大,第二部分是观点判别器对生成文本 和原语料句子的判别结果相差最小,第三部分是内容判别器对生成文本和原语料句子的判 别结果相差最大。
与现有技术相比,本发明有以下技术效果:
(1)利用特定的包含不同分面和观点的舆情事件语料,本发明将通用的文本生成技 术迁移到舆情观点演化趋势引导场景中,实现了文本生成技术的场景应用,可以生成符合 特定舆情事件语言规律的文本。
(2)在符合特定舆情事件语言规律的基础上,本发明通过将观点记忆向量和分面记 忆向量集成到通用的对抗文本生成模型中,使生成的文本蕴含相应的分面内容和对抗观点, 从而起到舆情引导的作用。
(3)本文实现了比通用主题文本生成更细粒度的文本分面、观点识别和对抗观点生 成,在舆情观点演化趋势引导过程中更具贴合性和针对性。
附图说明
图1是本发明构造分面分类器和观点分类器过程图。
图2是本发明的生成模型图。
图3是本发明的生成器实现细节图。
图4是生成观点对抗型引导文本流程图。
具体实施方式
以下结合附图对本发明进一步说明:
请参阅图1至图4,一种不同分面观点演化趋势引导的文本生成方法,包括以下步骤:
步骤1,构造分类器:以社交网络中特定热点事件的全部博文作为源语料集,通过清 洗、分割、归类训练得到分类器,将此分类器作为判别器;
步骤2,观点对抗文本生成:文本生成模型包括一个生成器和三个对抗训练的判别器, 生成器生成和语料句子分面相同、观点对抗的文本,三个判别器区分生成器生成的句子和 源语料句子,如此反复对抗训练,直到三个判别器均无法区分生成器生成的句子和源语料 句子。
构造分类器具体为:
收集社交网络中特定热点事件的全部博文作为源语料集,对源语料集进行去重、去除 URL、@和无关内容等清洗工作后,以标点符号为依据将博文分割为多个子句;
根据语料集中子句与分面描述的语义距离将源语料集中的子句按照不同的分面进行 归类,以此训练能够区分不同分面语料的分面分类器,将此分类器作为文本生成模型的分 面判别器;
利用基于观点的文本聚类方法将每个分面中不同观点语料聚类,以此训练能够区分该 分面不同观点的观点分类器,将此分类器作为文本生成模型的观点判别器。
构造分类器过程包括:
1)确定舆情事件的重要分面,对于每个分面,给出一定的关键词或短语描述,称为分面描述;
2)利用源语料集训练word2vec词向量模型,从而获得语料句子和分面描述的词嵌入 向量表示;
3)利用源语料集训练编码-解码模型,输入为一个句子的词嵌入向量,优化目标为使 解码得到的句子与输入句子相同,这里的编码器、解码器均为长短期记忆网络;
将分面描述和源语料集中每个子句输入训练好的编码器,利用得到的隐含语义向量计 算句子和每个分面描述的语义距离,实现源语料集中不同分面的子句提取;
4)给不同分面的语料打上不同的标签,以训练分面分类器,使其可以辨别句子所属 分面;
5)针对每个分面的语料,利用基于观点的文本聚类方法,将该分面中的表达不同观 点的语料分在不同的簇,表达相同观点的语料分在相同的簇;最后给不同的簇中的文本打 上不同的标签,表示其表达了不同的观点;利用得到的带有标签的语料集训练观点分类器, 使其能够将区分同一分面内表达不同观点的语料。
观点对抗文本生成过程包括:
(1)文本生成模型构造;文本生成模型包括一个生成器和三个判别器,其中生成器由长短期记忆网络编码器、分面记忆向量、观点记忆向量组成;编码器用于对句子向量表示进行编码;分面记忆向量用来记忆各分面潜在信息,观点记忆向量用来记忆每个分面的各观点潜在信息;三个判别器均采用卷积神经网络;
(2)文本生成模型训练;对于每一条源语料集子句,调用相应的分面记忆向量和观点记忆向量;用语料句子的分面判别器输出初始化与其相对应的分面记忆向量,用其对抗观点判别器的输出初始化对应的观点记忆向量;
生成器的第一层输入为随机噪声,之后的每一层将相应的观点记忆向量和分面记忆向 量与上一层输出的隐层向量拼接,并输入到编码器的下一层;生成器生成和语料句子分面 内容相同、观点对抗的文本,三个判别器区分出生成器生成的句子和源语料句子,如此反 复对抗训练,直到三个判别器均无法判别出生成器生成的句子和源语料句子;
(3)文本生成模型推理;给定一条源语料集句子,调用相应的已经训练好的分面记忆向量和与其形成对抗的观点记忆向量;分面记忆向量、对抗观点记忆向量与初始随机向量拼接输入生成器,生成器则生成与给定语料集句子具有相同分面内容但观点相反且符合该舆情事件语言规律的文本。
生成器最终的隐层输出和原语料句子的嵌入向量表示分别作为分面判别器、内容判 别器和观点判别器的输入;判别器优化目标由三部分组成,第一部分是分面判别器对生成 文本所属分面的判别与真实语料相差最大,第二部分是观点判别器对生成文本和原语料句 子的判别结果相差最小,第三部分是内容判别器对生成文本和原语料句子的判别结果相差 最大。
实施例:
以“公交车坠江事件”在微博上的语料为实施例说明面向多分面舆情观点演化趋势引 导的文本生成过程。
如图1构造分面分类器和观点分类器过程图所示。
首先收集微博上“公交车坠江事件”的全部博文作为源语料集,对源语料集进行清洗 后,以标点符号为依据将博文分割为多个子句。
根据专家知识或舆情事件管理需要,确定该舆情事件的三个重要分面—公交车司机、 女司机和打人女乘客,对于每个分面,给出关键词或短语描述,即分面描述。
利用源语料集训练word2vec词向量模型,从而获得语料句子和分面描述的词嵌入向 量表示,例如,语料句子表示为Y={y1,y2,y3……yn},其中yi,i=1,2,3……表示每个词的词嵌入向量。同理,设定每个分面描述的句子为A={a1,a2,a3……an}。
利用源语料集训练编码-解码模型,这里的编码器、解码器均为长短期记忆网络LSTM, 具体编码过程为:
hfinal=LSTM1(h0,Y)
LSTM1为编码器,h0为初始隐层向量,hfinal为最终输出隐层向量。
解码过程为:
Y′=LSTM2(hfinal)
LSTM2为解码器,Y′为解码器生成的句子。
优化目标为使Y和Y′的交叉熵L最小。
Figure BDA0002337072770000081
k为语料中子句的总数。
训练完成后将分面描述和源语料集中每个句子输入训练好的编码器:
h=LSTM1(Y)
h′=LSTM1(A)
利用得到的语料句子的隐含语义向量h和分面描述隐含语义向量h′计算句子和每个 分面描述的语义距离,例如以h和h′的余弦相似度作为其语义距离:
Figure BDA0002337072770000082
并设定语义距离阈值ε,当r>ε则认为语料句子属于该分面,从而实现源语料集中不 同分面的子句提取。
给不同分面的语料子句打上不同的标签,如001,010,100,用带有标签的语料子句训 练分面分类器,使其可以区分子句所属分面。这里的分面分类器为卷积神经网络CNN,训练过程为:
logits=conv1(Y)
其中conv1为卷积函数,logits为卷积网络输出。
output=softmax(w*logits+b)
将卷积结果logits输入全连接层,其中w和b分别为可学习参数,全连接层的最后进 行softmax操作,得到预测的分类结果output。
优化目标为使分类器对语料句子所属分面的判别与其真实所属分面相同,即计算结果 与标签的交叉熵L最小。
Figure BDA0002337072770000091
其中label为每个子句真实所属分面的标签。
针对每个分面的语料,利用基于观点的文本聚类方法,将该分面中的表达不同观点的 子句分在不同的簇,表达相同观点的子句分在相同的簇。例如在“公交车司机”这个分面, 可以分为理解、抨击、中立三种观点,最后给不同簇中的子句打上不同的标签,同理给其 赋标签为001,010,100……,表示其表达不同的观点。
利用得到的带有标签的语料集子句训练观点分类器,使其能够区分同一分面内表达不 同观点的语料子句。其中观点分类器同样为卷积神经网络,训练过程与分面分类器同理。
如图2生成模型图所示,文本生成过程包括模型训练和模型推理阶段。
文本生成模型训练阶段,对于每一条源语料句子,利用训练好的分面判别器识别其所 属分面,利用训练好的观点判别器识别其所属观点:
logits1=conv1(Y)
label1=softmax(w1*logits1+b1)
其中conv1为分面判别器卷积函数,logits1为分面判别器输出,label1为语料句子所 属分面类别。
logits2=conv2(Y)
label2=softmax(w2*logits2+b2)
其中conv2为观点判别器卷积函数,logits2为观点判别器输出,label2为语料子句表 达观点类别。
为了使生成器模型更容易训练,用语料句子的分面判别器输出logits1初始化分面记 忆向量,其对抗观点判别器输出logits2初始化观点记忆向量,因为分面判别器的输出 logits1本身包含了句子的隐含分面信息,其对抗观点判别器的输出ligits2同理。
如图3生成器实现细节图所示,在编码器每一层,将相应的观点记忆向量和分面记忆 向量与上一层输出的隐层向量拼接,并输入到编码器的下一层。即:
y′t+1,ht+1=LSTM(y′t,[ht;m;v])
其中,y′t为生成器t时刻的输出,ht为t时刻的隐层向量,m为分面记忆向量,v为观点记忆向量。y′t+1为生成器t+1时刻的输出,ht+1为t+1时刻的隐层向量。
生成器的优化目标为使生成文本Y′={y′1,y′2,y′3……y′n}和原语料句子 Y={y1,y2,y3……yn}的交叉熵最小:
Figure BDA0002337072770000101
生成器最终的输出Y′={y′1,y′2,y′3……y′n}和原语料句子的嵌入向量表示Y={y1,y2,y3……yn}作为分面判别器、内容判别器和观点判别器的输入。
判别器优化目标由三部分组成,第一部分是分面判别器D1对生成器输出向量Y′和原语 料句子嵌入向量Y的判别结果交叉熵L1最大:
Figure BDA0002337072770000102
第二部分为让观点判别器D2对生成器输出向量Y′和原语料句子嵌入向量Y的判别结 果交叉熵最小。
Figure BDA0002337072770000103
第三部分为让内容判别器D3对生成器输出向量Y′和原语料句子嵌入向量Y的判别结 果交叉熵最大。
Figure BDA0002337072770000111
判别器部分的总优化目标LD为:
Figure BDA0002337072770000112
该优化目标保证了生成器生成的句子既在内容上符合该事件的自然语言规律又表达 出要求的该分面的该观点。
最后,文本生成模型的总优化目标L为:
Figure BDA0002337072770000113
生成器生成和语料句子分面相同、观点对抗的文本,三个判别器区分生成器生成的句 子和源语料句子,如此反复对抗训练,直到三个判别器均无法判别出生成器生成的句子和 源语料句子。
文本生成模型推理过程为,对于每一条源语料句子,利用分面判别器识别其所属分面, 利用观点判别器识别其所属观点。
调用相应的已经训练好的分面记忆向量m和与其形成对抗的观点记忆向量v。分面记忆向量m、观点记忆向量v与初始随机向量拼接输入生成器,生成器则生成与给定语 料集子句具有相同分面但观点相反且符合该舆情事件语言规律的文本。

Claims (5)

1.一种不同分面观点演化趋势引导的文本生成方法,其特征在于,包括以下步骤:
步骤1,构造分类器:以社交网络中特定热点事件的全部博文作为源语料集,通过清洗、分割、归类训练得到分类器,将此分类器作为判别器;
步骤2,观点对抗文本生成:文本生成模型包括一个生成器和三个对抗训练的判别器,生成器生成和语料句子分面相同、观点对抗的文本,三个判别器区分生成器生成的句子和源语料句子,如此反复对抗训练,直到三个判别器均无法区分生成器生成的句子和源语料句子。
2.根据权利要求1所述的一种不同分面观点演化趋势引导的文本生成方法,其特征在于,构造分类器具体为:
收集社交网络中特定热点事件的全部博文作为源语料集,对源语料集进行去重、去除URL、@和无关内容清洗工作后,以标点符号为依据将博文分割为多个子句;
根据语料集中子句与分面描述的语义距离将源语料集中的子句按照不同的分面进行归类,以此训练能够区分不同分面语料的分面分类器,将此分类器作为文本生成模型的分面判别器;
利用基于观点的文本聚类方法将每个分面中不同观点语料聚类,以此训练能够区分该分面不同观点的观点分类器,将此分类器作为文本生成模型的观点判别器。
3.根据权利要求1所述的一种不同分面观点演化趋势引导的文本生成方法,其特征在于,构造分类器过程包括:
1)确定舆情事件的重要分面,对于每个分面,给出一定的关键词或短语描述,称为分面描述;
2)利用源语料集训练word2vec词向量模型,从而获得语料句子和分面描述的词嵌入向量表示;
3)利用源语料集训练编码-解码模型,输入为一个句子的词嵌入向量,优化目标为使解码得到的句子与输入句子相同,这里的编码器、解码器均为长短期记忆网络;
将分面描述和源语料集中每个子句输入训练好的编码器,利用得到的隐含语义向量计算句子和每个分面描述的语义距离,实现源语料集中不同分面的子句提取;
4)给不同分面的语料打上不同的标签,以训练分面分类器,使其可以辨别句子所属分面;
5)针对每个分面的语料,利用基于观点的文本聚类方法,将该分面中的表达不同观点的语料分在不同的簇,表达相同观点的语料分在相同的簇;最后给不同的簇中的文本打上不同的标签,表示其表达了不同的观点;利用得到的带有标签的语料集训练观点分类器,使其能够将区分同一分面内表达不同观点的语料。
4.根据权利要求3所述的一种不同分面观点演化趋势引导的文本生成方法,其特征在于,观点对抗文本生成过程包括:
(1)文本生成模型构造;文本生成模型包括一个生成器和三个判别器,其中生成器由长短期记忆网络编码器、分面记忆向量、观点记忆向量组成;编码器用于对句子向量表示进行编码;分面记忆向量用来记忆各分面潜在信息,观点记忆向量用来记忆每个分面的各观点潜在信息;三个判别器均采用卷积神经网络;
(2)文本生成模型训练;对于每一条源语料集子句,调用相应的分面记忆向量和观点记忆向量;用语料句子的分面判别器输出初始化与其相对应的分面记忆向量,用其对抗观点判别器的输出初始化对应的观点记忆向量;
生成器的第一层输入为随机噪声,之后的每一层将相应的观点记忆向量和分面记忆向量与上一层输出的隐层向量拼接,并输入到编码器的下一层;生成器生成和语料句子分面内容相同、观点对抗的文本,三个判别器区分出生成器生成的句子和源语料句子,如此反复对抗训练,直到三个判别器均无法判别出生成器生成的句子和源语料句子;
(3)文本生成模型推理;给定一条源语料集句子,调用相应的已经训练好的分面记忆向量和与其形成对抗的观点记忆向量;分面记忆向量、对抗观点记忆向量与初始随机向量拼接输入生成器,生成器则生成与给定语料集句子具有相同分面内容但观点相反且符合该舆情事件语言规律的文本。
5.根据权利要求4所述的一种不同分面观点演化趋势引导的文本生成方法,其特征在于,生成器最终的隐层输出和原语料句子的嵌入向量表示分别作为分面判别器、内容判别器和观点判别器的输入;判别器优化目标由三部分组成,第一部分是分面判别器对生成文本所属分面的判别与真实语料相差最大,第二部分是观点判别器对生成文本和原语料句子的判别结果相差最小,第三部分是内容判别器对生成文本和原语料句子的判别结果相差最大。
CN201911360607.XA 2019-12-25 2019-12-25 一种不同分面观点演化趋势引导的文本生成方法 Active CN111221964B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911360607.XA CN111221964B (zh) 2019-12-25 2019-12-25 一种不同分面观点演化趋势引导的文本生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911360607.XA CN111221964B (zh) 2019-12-25 2019-12-25 一种不同分面观点演化趋势引导的文本生成方法

Publications (2)

Publication Number Publication Date
CN111221964A true CN111221964A (zh) 2020-06-02
CN111221964B CN111221964B (zh) 2023-04-14

Family

ID=70827811

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911360607.XA Active CN111221964B (zh) 2019-12-25 2019-12-25 一种不同分面观点演化趋势引导的文本生成方法

Country Status (1)

Country Link
CN (1) CN111221964B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131452A (zh) * 2020-08-31 2020-12-25 湖北大学 一种基于gpt-2模型的网络舆情引导方法及装置
CN112183881A (zh) * 2020-10-19 2021-01-05 中国人民解放军国防科技大学 一种基于社交网络的舆情事件预测方法、设备及存储介质
CN116450779A (zh) * 2023-06-16 2023-07-18 北京搜狐新媒体信息技术有限公司 文本生成方法及相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140075004A1 (en) * 2012-08-29 2014-03-13 Dennis A. Van Dusen System And Method For Fuzzy Concept Mapping, Voting Ontology Crowd Sourcing, And Technology Prediction
US20180373979A1 (en) * 2017-06-22 2018-12-27 Adobe Systems Incorporated Image captioning utilizing semantic text modeling and adversarial learning
CN110162636A (zh) * 2019-05-30 2019-08-23 中森云链(成都)科技有限责任公司 基于d-lstm的文本情绪原因识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140075004A1 (en) * 2012-08-29 2014-03-13 Dennis A. Van Dusen System And Method For Fuzzy Concept Mapping, Voting Ontology Crowd Sourcing, And Technology Prediction
US20180373979A1 (en) * 2017-06-22 2018-12-27 Adobe Systems Incorporated Image captioning utilizing semantic text modeling and adversarial learning
CN110162636A (zh) * 2019-05-30 2019-08-23 中森云链(成都)科技有限责任公司 基于d-lstm的文本情绪原因识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘荣;郝晓燕;李颖;: "基于语义模式的半监督中文观点句识别研究" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131452A (zh) * 2020-08-31 2020-12-25 湖北大学 一种基于gpt-2模型的网络舆情引导方法及装置
CN112183881A (zh) * 2020-10-19 2021-01-05 中国人民解放军国防科技大学 一种基于社交网络的舆情事件预测方法、设备及存储介质
CN116450779A (zh) * 2023-06-16 2023-07-18 北京搜狐新媒体信息技术有限公司 文本生成方法及相关装置
CN116450779B (zh) * 2023-06-16 2023-09-12 北京搜狐新媒体信息技术有限公司 文本生成方法及相关装置

Also Published As

Publication number Publication date
CN111221964B (zh) 2023-04-14

Similar Documents

Publication Publication Date Title
CN110134771B (zh) 一种基于多注意力机制融合网络问答系统的实现方法
Chung et al. Speech2vec: A sequence-to-sequence framework for learning word embeddings from speech
CN107798140B (zh) 一种对话系统构建方法、语义受控应答方法及装置
CN111708882B (zh) 基于Transformer的中文文本信息缺失的补全方法
Illendula et al. Multimodal emotion classification
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN107315737A (zh) 一种语义逻辑处理方法及系统
CN108563638B (zh) 一种基于主题识别和集成学习的微博情感分析方法
CN111221964B (zh) 一种不同分面观点演化趋势引导的文本生成方法
CN111177376A (zh) 一种基于bert与cnn层级连接的中文文本分类方法
CN110807324A (zh) 一种基于IDCNN-crf与知识图谱的影视实体识别方法
CN110750648A (zh) 一种基于深度学习和特征融合的文本情感分类方法
CN112883171B (zh) 基于bert模型的文档关键词抽取方法及装置
CN112818698B (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN110297986A (zh) 一种微博热点话题的情感倾向分析方法
CN114444481B (zh) 一种新闻评论的情感分析与生成方法
CN113220964B (zh) 一种基于网信领域短文本的观点挖掘方法
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
Hasnat et al. Understanding sarcasm from reddit texts using supervised algorithms
Chowanda et al. Generative Indonesian conversation model using recurrent neural network with attention mechanism
CN114817533A (zh) 基于时间特征的弹幕情感分析方法
CN114265931A (zh) 基于大数据文本挖掘的消费者政策感知分析方法及系统
CN112287690A (zh) 基于条件句子生成和跨模态重排的手语翻译方法
CN112085985A (zh) 一种面向英语考试翻译题目的学生答案自动评分方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant