CN111221964B - 一种不同分面观点演化趋势引导的文本生成方法 - Google Patents
一种不同分面观点演化趋势引导的文本生成方法 Download PDFInfo
- Publication number
- CN111221964B CN111221964B CN201911360607.XA CN201911360607A CN111221964B CN 111221964 B CN111221964 B CN 111221964B CN 201911360607 A CN201911360607 A CN 201911360607A CN 111221964 B CN111221964 B CN 111221964B
- Authority
- CN
- China
- Prior art keywords
- facet
- corpus
- viewpoint
- text
- classifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000000463 material Substances 0.000 claims abstract description 33
- 239000013598 vector Substances 0.000 claims description 90
- 230000015654 memory Effects 0.000 claims description 53
- 230000008569 process Effects 0.000 claims description 18
- 230000003042 antagnostic effect Effects 0.000 claims description 12
- 238000004140 cleaning Methods 0.000 claims description 7
- 230000007787 long-term memory Effects 0.000 claims description 7
- 230000006403 short-term memory Effects 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 125000004122 cyclic group Chemical group 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种不同分面观点演化趋势引导的文本生成方法,(1)构造分面分类器和观点分类器:收集社交网络中特定热点事件的全部博文作为源语料集,根据专家知识或舆情事件管理需要,确定舆情事件的重要分面并给出分面描述;根据语料子句与分面描述的语义距离实现源语料集中不同分面的子句提取,以此训练分面分类器;利用基于观点的文本聚类方法将每个分面中不同观点语料聚类,利用聚类后的语料训练观点分类器。(2)生成对抗观点文本:文本生成模型包括一个生成器和三个对抗训练的判别器,生成器生成和语料句子分面相同、观点对抗的文本,三个判别器区分生成器生成的句子和源语料句子,如此反复对抗训练,直到三个判别器均无法区分生成器生成的句子和源语料句子。
Description
技术领域
本发明属于多分面舆情事件中观点演化趋势的对抗引导文本生成领域,特别涉及一种不同分面观点演化趋势引导的文本生成方法。
背景技术
如今各种各样的自媒体平台快速发展,网络成为人们获取信息、参与公共事务、发表个人观点的主要场所。但是由于网络具有匿名性、传播快的特点,各种不实、负面的信息和言论充斥网络,尤其对于关乎法律民生,公众道德的社会事件,恶意煽动网民情绪、传播不实消息会严重危害社会稳定。网络舆情已经成为影响社会稳定的重要因素,在建立正确舆论导向的基础上加强网络舆情监测、进行舆论的引导,对于有效疏导和控制负面舆情,为主流意识形态网络话语的传播营造清朗的网络舆论环境有重要意义。
网络上的信息繁杂多样且传播迅速,给网络舆情引导带来很大挑战。面对网络热点事件中的恶意、不实评论,需要有针对性地进行反驳、澄清和引导,以减轻其对网民的影响,因此本发明提出了一种面向多分面舆情事件的观点对抗型引导文本生成方法。该方法用于对网络热点事件中负面、过激甚至恶意评论的引导,能够自动地生成针对性的对抗观点且符合该热点事件的语境和语言规律,具有高效、准确的优点。针对文本生成方法,有以下现有技术:
现有技术1提出的文本生成方法包括:获得文本生成模型和调用文本生成模型两个阶段。第一阶段包括数据预处理;深度学习算法模型构建;训练深度学习模型;获得文本生成模型。第二阶段包括:接受用户输入的文本;提取用户输入文本的特征信息;调用文本生成模型;生成与用户输入文本的特征信息相匹配的文本。第一阶段采用深度学习算法模型,使得训练过程更加自动化,免去了过多的人工干预,训练过程采用一系列训练策略,使得文本生成模型生成的文本可读性更强。第二阶段,对用户输入信息进行分类,识别用户意图,跟据用户的意图生成出用户想要的文本。
现有技术2提出了一种文本生成方法,该方法包括:使用基于LSTM学习的NLG技术,通过学习获得的每个字符之间的概率关系来对句子结构的视觉语义、字符的种类以及每一个字符进行编码。对想要表达的评论信息进行了语义和句法方面的融合,并后期通过特定词替换等方法,生成与社交网络几乎一致的生动、通顺、富于变化的高质量评论文本。
现有技术3提出一种基于循环卷积注意力模型的文本生成方法及装置,该方法包含:采集互联网文本数据作为样本数据库;将样本数据库作为循环卷积注意力模型的输入和输出,训练循环卷积注意力模型,其中,循环卷积注意力模型包含长短期记忆网络模块、注意力机制模块和循环卷积网络模块,长短期记忆网络模块包含若干个LSTM长短期记忆网络节点;将待处理文本主题输入到已训练好的循环卷积注意力模型中进行测试,将循环卷积注意力模型输出即为该待处理文本主题的生成文本。
现有技术1只实现了通用的文本生成方法,现有技术2立足社交网络,生成具有社交网络特点的文本,但是不能生成观点对抗的文本,现有技术3可以生成特定主题的文本,但也不是针对舆情事件中不同观点的引导,没有实现舆情事件分面提取、观点识别及生成对抗观点文本。
发明内容
本发明的目的在于提供一种不同分面观点演化趋势引导的文本生成方法,以解决上述问题。
为实现上述目的,本发明采用以下技术方案:
一种不同分面观点演化趋势引导的文本生成方法,包括以下步骤:
步骤1,构造分类器:以社交网络中特定热点事件的全部博文作为源语料集,通过清洗、分割、归类训练得到分类器,将此分类器作为判别器;
步骤2,观点对抗文本生成:文本生成模型包括一个生成器和三个对抗训练的判别器,生成器生成和语料句子分面相同、观点对抗的文本,三个判别器区分生成器生成的句子和源语料句子,如此反复对抗训练,直到三个判别器均无法区分生成器生成的句子和源语料句子。
进一步的,构造分类器具体为:
收集社交网络中特定热点事件的全部博文作为源语料集,对源语料集进行去重、去除URL、@和无关内容清洗工作后,以标点符号为依据将博文分割为多个子句;
根据语料集中子句与分面描述的语义距离将源语料集中的子句按照不同的分面进行归类,以此训练能够区分不同分面语料的分面分类器,将此分类器作为文本生成模型的分面判别器;
利用基于观点的文本聚类方法将每个分面中不同观点语料聚类,以此训练能够区分该分面不同观点的观点分类器,将此分类器作为文本生成模型的观点判别器。
进一步的,构造分类器过程包括:
1)确定舆情事件的重要分面,对于每个分面,给出一定的关键词或短语描述,称为分面描述;
2)利用源语料集训练word2vec词向量模型,从而获得语料句子和分面描述的词嵌入向量表示;
3)利用源语料集训练编码-解码模型,输入为一个句子的词嵌入向量,优化目标为使解码得到的句子与输入句子相同,这里的编码器、解码器均为长短期记忆网络;
将分面描述和源语料集中每个子句输入训练好的编码器,利用得到的隐含语义向量计算句子和每个分面描述的语义距离,实现源语料集中不同分面的子句提取;
4)给不同分面的语料打上不同的标签,以训练分面分类器,使其可以辨别句子所属分面;
5)针对每个分面的语料,利用基于观点的文本聚类方法,将该分面中的表达不同观点的语料分在不同的簇,表达相同观点的语料分在相同的簇;最后给不同的簇中的文本打上不同的标签,表示其表达了不同的观点;利用得到的带有标签的语料集训练观点分类器,使其能够将区分同一分面内表达不同观点的语料。
进一步的,观点对抗文本生成过程包括:
(1)文本生成模型构造;文本生成模型包括一个生成器和三个判别器,其中生成器由长短期记忆网络编码器、分面记忆向量、观点记忆向量组成;编码器用于对句子向量表示进行编码;分面记忆向量用来记忆各分面潜在信息,观点记忆向量用来记忆每个分面的各观点潜在信息;三个判别器均采用卷积神经网络;
(2)文本生成模型训练;对于每一条源语料集子句,调用相应的分面记忆向量和观点记忆向量;用语料句子的分面判别器输出初始化与其相对应的分面记忆向量,用其对抗观点判别器的输出初始化对应的观点记忆向量;
生成器的第一层输入为随机噪声,之后的每一层将相应的观点记忆向量和分面记忆向量与上一层输出的隐层向量拼接,并输入到编码器的下一层;生成器生成和语料句子分面内容相同、观点对抗的文本,三个判别器区分出生成器生成的句子和源语料句子,如此反复对抗训练,直到三个判别器均无法判别出生成器生成的句子和源语料句子;
(3)文本生成模型推理;给定一条源语料集句子,调用相应的已经训练好的分面记忆向量和与其形成对抗的观点记忆向量;分面记忆向量、对抗观点记忆向量与初始随机向量拼接输入生成器,生成器则生成与给定语料集句子具有相同分面内容但观点相反且符合该舆情事件语言规律的文本。
进一步的,生成器最终的隐层输出和原语料句子的嵌入向量表示分别作为分面判别器、内容判别器和观点判别器的输入;判别器优化目标由三部分组成,第一部分是分面判别器对生成文本所属分面的判别与真实语料相差最大,第二部分是观点判别器对生成文本和原语料句子的判别结果相差最小,第三部分是内容判别器对生成文本和原语料句子的判别结果相差最大。
与现有技术相比,本发明有以下技术效果:
(1)利用特定的包含不同分面和观点的舆情事件语料,本发明将通用的文本生成技术迁移到舆情观点演化趋势引导场景中,实现了文本生成技术的场景应用,可以生成符合特定舆情事件语言规律的文本。
(2)在符合特定舆情事件语言规律的基础上,本发明通过将观点记忆向量和分面记忆向量集成到通用的对抗文本生成模型中,使生成的文本蕴含相应的分面内容和对抗观点,从而起到舆情引导的作用。
(3)本文实现了比通用主题文本生成更细粒度的文本分面、观点识别和对抗观点生成,在舆情观点演化趋势引导过程中更具贴合性和针对性。
附图说明
图1是本发明构造分面分类器和观点分类器过程图。
图2是本发明的生成模型图。
图3是本发明的生成器实现细节图。
图4是生成观点对抗型引导文本流程图。
具体实施方式
以下结合附图对本发明进一步说明:
请参阅图1至图4,一种不同分面观点演化趋势引导的文本生成方法,包括以下步骤:
步骤1,构造分类器:以社交网络中特定热点事件的全部博文作为源语料集,通过清洗、分割、归类训练得到分类器,将此分类器作为判别器;
步骤2,观点对抗文本生成:文本生成模型包括一个生成器和三个对抗训练的判别器,生成器生成和语料句子分面相同、观点对抗的文本,三个判别器区分生成器生成的句子和源语料句子,如此反复对抗训练,直到三个判别器均无法区分生成器生成的句子和源语料句子。
构造分类器具体为:
收集社交网络中特定热点事件的全部博文作为源语料集,对源语料集进行去重、去除URL、@和无关内容等清洗工作后,以标点符号为依据将博文分割为多个子句;
根据语料集中子句与分面描述的语义距离将源语料集中的子句按照不同的分面进行归类,以此训练能够区分不同分面语料的分面分类器,将此分类器作为文本生成模型的分面判别器;
利用基于观点的文本聚类方法将每个分面中不同观点语料聚类,以此训练能够区分该分面不同观点的观点分类器,将此分类器作为文本生成模型的观点判别器。
构造分类器过程包括:
1)确定舆情事件的重要分面,对于每个分面,给出一定的关键词或短语描述,称为分面描述;
2)利用源语料集训练word2vec词向量模型,从而获得语料句子和分面描述的词嵌入向量表示;
3)利用源语料集训练编码-解码模型,输入为一个句子的词嵌入向量,优化目标为使解码得到的句子与输入句子相同,这里的编码器、解码器均为长短期记忆网络;
将分面描述和源语料集中每个子句输入训练好的编码器,利用得到的隐含语义向量计算句子和每个分面描述的语义距离,实现源语料集中不同分面的子句提取;
4)给不同分面的语料打上不同的标签,以训练分面分类器,使其可以辨别句子所属分面;
5)针对每个分面的语料,利用基于观点的文本聚类方法,将该分面中的表达不同观点的语料分在不同的簇,表达相同观点的语料分在相同的簇;最后给不同的簇中的文本打上不同的标签,表示其表达了不同的观点;利用得到的带有标签的语料集训练观点分类器,使其能够将区分同一分面内表达不同观点的语料。
观点对抗文本生成过程包括:
(1)文本生成模型构造;文本生成模型包括一个生成器和三个判别器,其中生成器由长短期记忆网络编码器、分面记忆向量、观点记忆向量组成;编码器用于对句子向量表示进行编码;分面记忆向量用来记忆各分面潜在信息,观点记忆向量用来记忆每个分面的各观点潜在信息;三个判别器均采用卷积神经网络;
(2)文本生成模型训练;对于每一条源语料集子句,调用相应的分面记忆向量和观点记忆向量;用语料句子的分面判别器输出初始化与其相对应的分面记忆向量,用其对抗观点判别器的输出初始化对应的观点记忆向量;
生成器的第一层输入为随机噪声,之后的每一层将相应的观点记忆向量和分面记忆向量与上一层输出的隐层向量拼接,并输入到编码器的下一层;生成器生成和语料句子分面内容相同、观点对抗的文本,三个判别器区分出生成器生成的句子和源语料句子,如此反复对抗训练,直到三个判别器均无法判别出生成器生成的句子和源语料句子;
(3)文本生成模型推理;给定一条源语料集句子,调用相应的已经训练好的分面记忆向量和与其形成对抗的观点记忆向量;分面记忆向量、对抗观点记忆向量与初始随机向量拼接输入生成器,生成器则生成与给定语料集句子具有相同分面内容但观点相反且符合该舆情事件语言规律的文本。
生成器最终的隐层输出和原语料句子的嵌入向量表示分别作为分面判别器、内容判别器和观点判别器的输入;判别器优化目标由三部分组成,第一部分是分面判别器对生成文本所属分面的判别与真实语料相差最大,第二部分是观点判别器对生成文本和原语料句子的判别结果相差最小,第三部分是内容判别器对生成文本和原语料句子的判别结果相差最大。
实施例:
以“某事件”在微博上的语料为实施例说明面向多分面舆情观点演化趋势引导的文本生成过程。
如图1构造分面分类器和观点分类器过程图所示。
首先收集微博上“该事件”的全部博文作为源语料集,对源语料集进行清洗后,以标点符号为依据将博文分割为多个子句。
根据专家知识或舆情事件管理需要,确定该舆情事件的三个重要分面—A、B和C,对于每个分面,给出关键词或短语描述,即分面描述。
利用源语料集训练word2vec词向量模型,从而获得语料句子和分面描述的词嵌入向量表示,例如,语料句子表示为Y={y1,y2,y3......γn},其中yi,i=1,2,3......表示每个词的词嵌入向量。同理,设定每个分面描述的句子为A={a1,a2,a3......an}。
利用源语料集训练编码-解码模型,这里的编码器、解码器均为长短期记忆网络LSTM,具体编码过程为:
hfinal=LSTM1(h0,Y)
LSTM1为编码器,h0为初始隐层向量,hfinal为最终输出隐层向量。
解码过程为:
Y′=LSTM2(hfinal)
LSTM2为解码器,Y′为解码器生成的句子。
优化目标为使Y和Y′的交叉熵L最小。
k为语料中子句的总数。
训练完成后将分面描述和源语料集中每个句子输入训练好的编码器:
h=LSTM1(Y)
h′=LSTM1(A)
利用得到的语料句子的隐含语义向量h和分面描述隐含语义向量h′计算句子和每个分面描述的语义距离,例如以h和h′的余弦相似度作为其语义距离:
并设定语义距离阈值ε,当r>ε则认为语料句子属于该分面,从而实现源语料集中不同分面的子句提取。
给不同分面的语料子句打上不同的标签,如001,010,100,用带有标签的语料子句训练分面分类器,使其可以区分子句所属分面。这里的分面分类器为卷积神经网络CNN,训练过程为:
logits=conv1(Y)
其中conv1为卷积函数,logits为卷积网络输出。
output=softmax(w*logits+b)
将卷积结果logits输入全连接层,其中w和b分别为可学习参数,全连接层的最后进行softmax操作,得到预测的分类结果output。
优化目标为使分类器对语料句子所属分面的判别与其真实所属分面相同,即计算结果与标签的交叉熵L最小。
其中label为每个子句真实所属分面的标签。
针对每个分面的语料,利用基于观点的文本聚类方法,将该分面中的表达不同观点的子句分在不同的簇,表达相同观点的子句分在相同的簇。例如在“A”这个分面,可以分为理解、抨击、中立三种观点,最后给不同簇中的子句打上不同的标签,同理给其赋标签为001,010,100……,表示其表达不同的观点。
利用得到的带有标签的语料集子句训练观点分类器,使其能够区分同一分面内表达不同观点的语料子句。其中观点分类器同样为卷积神经网络,训练过程与分面分类器同理。
如图2生成模型图所示,文本生成过程包括模型训练和模型推理阶段。
文本生成模型训练阶段,对于每一条源语料句子,利用训练好的分面判别器识别其所属分面,利用训练好的观点判别器识别其所属观点:
logits1=conv1(Y)
label1=softmax(w1*logits1+b1)
其中conv1为分面判别器卷积函数,logits1为分面判别器输出,label1为语料句子所属分面类别。
logits2=conv2(Y)
label2=softmax(w2*logits2+b2)
其中conv2为观点判别器卷积函数,logits2为观点判别器输出,label2为语料子句表达观点类别。
为了使生成器模型更容易训练,用语料句子的分面判别器输出logits1初始化分面记忆向量,其对抗观点判别器输出logits2初始化观点记忆向量,因为分面判别器的输出logits1本身包含了句子的隐含分面信息,其对抗观点判别器的输出logits2同理。
如图3生成器实现细节图所示,在编码器每一层,将相应的观点记忆向量和分面记忆向量与上一层输出的隐层向量拼接,并输入到编码器的下一层。即:
y′t+1,ht+1=LSTM(y′t,[ht;m;v])
其中,y′t为生成器t时刻的输出,ht为t时刻的隐层向量,m为分面记忆向量,v为观点记忆向量。y′t+1为生成器t+1时刻的输出,ht+1为t+1时刻的隐层向量。
生成器的优化目标为使生成文本Y′={y′1,y′2,y′3......y′n}和原语料句子Y={y1,y2,y3......yn}的交叉熵最小:
生成器最终的输出Y′={y′1,y′2,y′3......y′n}和原语料句子的嵌入向量表示Y={y1,y2,y3......yn}作为分面判别器、内容判别器和观点判别器的输入。
判别器优化目标由三部分组成,第一部分是分面判别器D1对生成器输出向量Y′和原语料句子嵌入向量Y的判别结果交叉熵L1最大:
第二部分为让观点判别器D2对生成器输出向量Y′和原语料句子嵌入向量Y的判别结果交叉熵最小。
第三部分为让内容判别器D3对生成器输出向量Y′和原语料句子嵌入向量Y的判别结果交叉熵最大。
判别器部分的总优化目标LD为:
该优化目标保证了生成器生成的句子既在内容上符合该事件的自然语言规律又表达出要求的该分面的该观点。
最后,文本生成模型的总优化目标L为:
生成器生成和语料句子分面相同、观点对抗的文本,三个判别器区分生成器生成的句子和源语料句子,如此反复对抗训练,直到三个判别器均无法判别出生成器生成的句子和源语料句子。
文本生成模型推理过程为,对于每一条源语料句子,利用分面判别器识别其所属分面,利用观点判别器识别其所属观点。
调用相应的已经训练好的分面记忆向量m和与其形成对抗的观点记忆向量v。分面记忆向量m、观点记忆向量v与初始随机向量拼接输入生成器,生成器则生成与给定语料集子句具有相同分面但观点相反且符合该舆情事件语言规律的文本。
Claims (3)
1.一种不同分面观点演化趋势引导的文本生成方法,其特征在于,包括以下步骤:
步骤1,构造分类器:以社交网络中特定热点事件的全部博文作为源语料集,通过清洗、分割、归类训练得到分类器,将此分类器作为判别器;
步骤2,观点对抗文本生成:文本生成模型包括一个生成器和三个对抗训练的判别器,生成器生成和语料句子分面相同、观点对抗的文本,三个判别器区分生成器生成的句子和源语料句子,如此反复对抗训练,直到三个判别器均无法区分生成器生成的句子和源语料句子;
构造分类器过程包括:
1)确定舆情事件的重要分面,对于每个分面,给出一定的关键词或短语描述,称为分面描述;
2)利用源语料集训练word2vec词向量模型,从而获得语料句子和分面描述的词嵌入向量表示;
3)利用源语料集训练编码-解码模型,输入为一个句子的词嵌入向量,优化目标为使解码得到的句子与输入句子相同,这里的编码器、解码器均为长短期记忆网络;
将分面描述和源语料集中每个子句输入训练好的编码器,利用得到的隐含语义向量计算句子和每个分面描述的语义距离,实现源语料集中不同分面的子句提取;
4)给不同分面的语料打上不同的标签,以训练分面分类器,使其可以辨别句子所属分面;
5)针对每个分面的语料,利用基于观点的文本聚类方法,将该分面中的表达不同观点的语料分在不同的簇,表达相同观点的语料分在相同的簇;最后给不同的簇中的文本打上不同的标签,表示其表达了不同的观点;利用得到的带有标签的语料集训练观点分类器,使其能够将区分同一分面内表达不同观点的语料;
观点对抗文本生成过程包括:
(1)文本生成模型构造;文本生成模型包括一个生成器和三个判别器,其中生成器由长短期记忆网络编码器、分面记忆向量、观点记忆向量组成;编码器用于对句子向量表示进行编码;分面记忆向量用来记忆各分面潜在信息,观点记忆向量用来记忆每个分面的各观点潜在信息;三个判别器均采用卷积神经网络;
(2)文本生成模型训练;对于每一条源语料集子句,调用相应的分面记忆向量和观点记忆向量;用语料句子的分面判别器输出初始化与其相对应的分面记忆向量,用其对抗观点判别器的输出初始化对应的观点记忆向量;
生成器的第一层输入为随机噪声,之后的每一层将相应的观点记忆向量和分面记忆向量与上一层输出的隐层向量拼接,并输入到编码器的下一层;生成器生成和语料句子分面内容相同、观点对抗的文本,三个判别器区分出生成器生成的句子和源语料句子,如此反复对抗训练,直到三个判别器均无法判别出生成器生成的句子和源语料句子;
(3)文本生成模型推理;给定一条源语料集句子,调用相应的已经训练好的分面记忆向量和与其形成对抗的观点记忆向量;分面记忆向量、对抗观点记忆向量与初始随机向量拼接输入生成器,生成器则生成与给定语料集句子具有相同分面内容但观点相反且符合该舆情事件语言规律的文本。
2.根据权利要求1所述的一种不同分面观点演化趋势引导的文本生成方法,其特征在于,构造分类器具体为:
收集社交网络中特定热点事件的全部博文作为源语料集,对源语料集进行去重、去除URL、@和无关内容清洗工作后,以标点符号为依据将博文分割为多个子句;
根据语料集中子句与分面描述的语义距离将源语料集中的子句按照不同的分面进行归类,以此训练能够区分不同分面语料的分面分类器,将此分类器作为文本生成模型的分面判别器;
利用基于观点的文本聚类方法将每个分面中不同观点语料聚类,以此训练能够区分该分面不同观点的观点分类器,将此分类器作为文本生成模型的观点判别器。
3.根据权利要求1所述的一种不同分面观点演化趋势引导的文本生成方法,其特征在于,生成器最终的隐层输出和原语料句子的嵌入向量表示分别作为分面判别器、内容判别器和观点判别器的输入;判别器优化目标由三部分组成,第一部分是分面判别器对生成文本所属分面的判别与真实语料相差最大,第二部分是观点判别器对生成文本和原语料句子的判别结果相差最小,第三部分是内容判别器对生成文本和原语料句子的判别结果相差最大。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911360607.XA CN111221964B (zh) | 2019-12-25 | 2019-12-25 | 一种不同分面观点演化趋势引导的文本生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911360607.XA CN111221964B (zh) | 2019-12-25 | 2019-12-25 | 一种不同分面观点演化趋势引导的文本生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111221964A CN111221964A (zh) | 2020-06-02 |
CN111221964B true CN111221964B (zh) | 2023-04-14 |
Family
ID=70827811
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911360607.XA Active CN111221964B (zh) | 2019-12-25 | 2019-12-25 | 一种不同分面观点演化趋势引导的文本生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111221964B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112131452A (zh) * | 2020-08-31 | 2020-12-25 | 湖北大学 | 一种基于gpt-2模型的网络舆情引导方法及装置 |
CN112183881A (zh) * | 2020-10-19 | 2021-01-05 | 中国人民解放军国防科技大学 | 一种基于社交网络的舆情事件预测方法、设备及存储介质 |
CN116450779B (zh) * | 2023-06-16 | 2023-09-12 | 北京搜狐新媒体信息技术有限公司 | 文本生成方法及相关装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110162636A (zh) * | 2019-05-30 | 2019-08-23 | 中森云链(成都)科技有限责任公司 | 基于d-lstm的文本情绪原因识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9461876B2 (en) * | 2012-08-29 | 2016-10-04 | Loci | System and method for fuzzy concept mapping, voting ontology crowd sourcing, and technology prediction |
US11113599B2 (en) * | 2017-06-22 | 2021-09-07 | Adobe Inc. | Image captioning utilizing semantic text modeling and adversarial learning |
-
2019
- 2019-12-25 CN CN201911360607.XA patent/CN111221964B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110162636A (zh) * | 2019-05-30 | 2019-08-23 | 中森云链(成都)科技有限责任公司 | 基于d-lstm的文本情绪原因识别方法 |
Non-Patent Citations (1)
Title |
---|
刘荣 ; 郝晓燕 ; 李颖 ; .基于语义模式的半监督中文观点句识别研究.南京大学学报(自然科学).2018,(05),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111221964A (zh) | 2020-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chung et al. | Speech2vec: A sequence-to-sequence framework for learning word embeddings from speech | |
CN110134771B (zh) | 一种基于多注意力机制融合网络问答系统的实现方法 | |
CN109933664B (zh) | 一种基于情感词嵌入的细粒度情绪分析改进方法 | |
Gong et al. | Hashtag recommendation using attention-based convolutional neural network. | |
CN107798140B (zh) | 一种对话系统构建方法、语义受控应答方法及装置 | |
CN111221964B (zh) | 一种不同分面观点演化趋势引导的文本生成方法 | |
CN110717332B (zh) | 基于非对称孪生网络的新闻与案件相似度计算方法 | |
CN108563638B (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
CN110807324A (zh) | 一种基于IDCNN-crf与知识图谱的影视实体识别方法 | |
CN112883171B (zh) | 基于bert模型的文档关键词抽取方法及装置 | |
CN110750648A (zh) | 一种基于深度学习和特征融合的文本情感分类方法 | |
CN112163607A (zh) | 基于多维度和多层次联合建模的网络社会媒体情感分类方法 | |
CN110297986A (zh) | 一种微博热点话题的情感倾向分析方法 | |
Farag et al. | Bullying hurts: a survey on non-supervised techniques for cyber-bullying detection | |
CN114742071A (zh) | 基于图神经网络的汉越跨语言观点对象识别分析方法 | |
CN113220964B (zh) | 一种基于网信领域短文本的观点挖掘方法 | |
Hasnat et al. | Understanding sarcasm from reddit texts using supervised algorithms | |
CN114265931A (zh) | 基于大数据文本挖掘的消费者政策感知分析方法及系统 | |
CN114298021A (zh) | 基于情感值选择评论的谣言检测方法 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
Chowanda et al. | Generative Indonesian conversation model using recurrent neural network with attention mechanism | |
Rajput et al. | Hate me not: detecting hate inducing memes in code switched languages | |
CN114386412B (zh) | 一种基于不确定性感知的多模态命名实体识别方法 | |
CN114817533A (zh) | 基于时间特征的弹幕情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |