CN112541340B - 基于变分双主题表征的弱监督涉案微博评价对象识别方法 - Google Patents

基于变分双主题表征的弱监督涉案微博评价对象识别方法 Download PDF

Info

Publication number
CN112541340B
CN112541340B CN202011500553.5A CN202011500553A CN112541340B CN 112541340 B CN112541340 B CN 112541340B CN 202011500553 A CN202011500553 A CN 202011500553A CN 112541340 B CN112541340 B CN 112541340B
Authority
CN
China
Prior art keywords
evaluation object
topic
vector
reconstruction
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011500553.5A
Other languages
English (en)
Other versions
CN112541340A (zh
Inventor
相艳
余正涛
郭军军
线岩团
黄于欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202011500553.5A priority Critical patent/CN112541340B/zh
Publication of CN112541340A publication Critical patent/CN112541340A/zh
Application granted granted Critical
Publication of CN112541340B publication Critical patent/CN112541340B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及基于变分双主题表征的弱监督涉案微博评价对象识别方法。本发明首先利用神经主题表征网络对评论进行两次变分编码和重构,获得主题特征;然后,计算神经主题表征网络的重构损失,再利用标签样本计算评价对象分类损失;最后采用联合训练策略,对神经主题表征网络的重构损失与评价对象分类损失进行联合调优,实现对微博评价对象的自动识别。本发明先利用变分双主题表征网络对评论进行两次编码和重构,获得丰富的主题特征,其次利用少量标签评论,引导主题表征网络自动判别评价对象类别。实现了对评价对象的自动分类和评价对象词项的挖掘。并在涉案舆情的两个数据集上进行了理论与技术的验证,实验结果充分证明了该方法的有效性。

Description

基于变分双主题表征的弱监督涉案微博评价对象识别方法
技术领域
本发明涉及基于变分双主题表征的弱监督涉案微博评价对象识别方法,属于自然语言处理技术领域。
背景技术
案件相关的负面突发事件通常会引发网友在互联网微博热议,并在短时间内形成传播快、范围广的热点话题,进而产生涉案网络舆情。从大量评论语料中识别出涉案舆情所关心的评价对象,如法律机构、当事人、媒体等,是舆情分析和态势评估等任务的基础。涉案微博评价对象识别的具体任务为:从评论语料中识别对象词项,并将含义相近的评价对象词项聚集到相应的类别中,进而将评论句判别为某个评价对象类别。针对微博评价对象的识别,目前的方法主要是基于主题表征的方法。传统的主题模型是将每类评价对象建模为一个主题,而评论被建模为这些主题的混合,如潜在Dirichlet分布模型(LatentDirichlet Allocation,LDA)。但这类主题模型仅限于应用到正式的且句法良好的长文档中,如新闻报道和科技文本。当处理涉案微博评论时,由于文本较短和表达繁复导致的数据稀疏问题,会影响这类模型的评价对象识别性能。
近年来,基于深度学习框架的神经主题模型得到了较好的发展,其中He等人提出了基于注意力的自编码模型(Attention-based Aspect Extraction,ABAE),该模型利用数据集上预训练的词向量来获取词共现的分布,并基于自编码的框架来预测句子的评价对象概率分布,从而识别评价对象。与传统的基于多项式词分布的主题模型相比,基于连续空间构建的神经主题模型可以更好的处理低频词,从而在短文本评价对象识别任务中取得比LDA等传统主题模型更好的识别效果。但是,这类神经主题模型用于涉案微博评价对象识别仍然存在以下不足:(1)模型只对文本进行一次重构,这限制了模型对主题表征的学习。(2)模型可以获取若干组词项来表示不同评价对象类别,但某组词项究竟表示哪类评价对象则需要人工推断。如果某组词项难以推断,则会直接影响句子的分类结果。
针对以上两个问题,本发明提出一种基于变分双主题表征的弱监督评价对象识别方法。
发明内容
本发明提供了基于变分双主题表征的弱监督涉案微博评价对象识别方法,实现了对评价对象的自动分类和评价对象词项的挖掘,本发明的方法标注句子评价对象类别的方式更容易实现,分类性能更好;同时,所提出的两次变分编码和重构,能使模型学习到更合理的主题表征,从而提高分类性能。
本发明的技术方案是:基于变分双主题表征的弱监督涉案微博评价对象识别方法,首先利用神经主题表征网络对评论进行两次变分编码和重构,获得主题特征;然后,计算神经主题表征网络的重构损失,再利用标签样本计算评价对象分类损失;最后采用联合训练策略,对神经主题表征网络的重构损失与评价对象分类损失进行联合调优,实现对微博评价对象的自动识别。
作为本发明的进一步方案,所述识别方法的具体步骤包括:
步骤一、预训练数据集的词向量,将词向量进行拼接运算获得对应句子的原始句向量;
步骤二、通过注意力操作,原始句向量被表示为初始句向量;
步骤三、利用神经主题表征网络将评论的初始句向量进行两次变分编码和重构,在相同的向量空间中建立词向量、句向量和主题表征向量之间的关系;
步骤四、计算神经主题表征网络的重构损失和评价对象分类损失;
步骤五、联合训练神经主题表征网络的重构损失和评价对象分类损失,实现对微博评价对象的自动识别。
作为本发明的进一步方案,所述步骤一首先预训练数据集的词向量,得到每个词的词向量,用
Figure BDA0002843491440000021
表示输入句子x中第i个单词的词向量,则句子嵌入为
Figure BDA0002843491440000022
是拼接操作,
Figure BDA0002843491440000023
n是句子长度,D是词向量维度;所述步骤二中,利用注意力来计算句子的初始句向量r,具体计算过程如公式(1)、(2)、(3)、(4)所示;
A=(EM+buT)ET (1)
Figure BDA0002843491440000024
Figure BDA0002843491440000025
Figure BDA0002843491440000026
其中,
Figure BDA0002843491440000027
为待优化的参数,
Figure BDA0002843491440000028
是值全为1的向量。
作为本发明的进一步方案,所述步骤三中,利用神经主题表征网络将评论的初始句向量进行两次变分编码和重构,包括基于辅助主题表征的编码和重构、基于核心主题表征的编码和重构,进而得到句子的辅助主题表征和核心主题表征、重构的辅助句向量和重构的核心句向量。
作为本发明的进一步方案,所述获得主题特征或所述利用神经主题表征网络将评论的初始句向量进行两次变分编码和重构包括基于辅助主题表征的编码和重构、基于核心主题表征的编码和重构;
所述基于辅助主题表征的编码和重构包括:
将得到的初始句向量r用变分网络编码为隐向量
Figure BDA0002843491440000031
z为K维的辅助主题分布,其中的某个值zl表示输入句子x属于第l个评价对象的概率;假设z服从正态分布
Figure BDA0002843491440000032
则:
z=μ+σ⊙ε (5)
其中,μ=d1(r),logσ=d2(r),d1和d2为两个线性变换层,ε为服从正态分布的随机值;
若用
Figure BDA0002843491440000033
表示数据集中第l个评价对象的D维向量,则辅助主题表征为
Figure BDA0002843491440000034
辅助句向量由pz和T进行重构,如公式7所示,pz由公式6计算获得;
pz=softmax(z) (6)
r′=TTpz (7)
由此,可得重构的辅助句向量r′。
作为本发明的进一步方案,所述基于核心主题表征的编码和重构包括:
将得到的辅助句向量r′用变分网络编码为隐向量
Figure BDA0002843491440000035
z′代表K′维的核心主题分布,分布中的某个值zl′表示输入句子x属于第l个核心评价对象的概率;假设z′服从正态分布
Figure BDA0002843491440000036
则:
z′=μ′+σ′⊙ε (8)
其中,μ′=d1′(r′),logσ′=d2′(r′),d1′和d2′为两个线性变换层,ε为服从正态分布的随机值;
若用
Figure BDA0002843491440000037
表示数据集中第l个核心主题的D维向量,则核心主题表征为
Figure BDA0002843491440000038
句子的核心句向量由pz′和T′进行重构,如公式10所示,pz′由公式9计算而得;
pz′=softmax(z′) (9)
Figure BDA0002843491440000041
由此,可得第二次重构的核心句向量r″。
作为本发明的进一步方案,所述步骤四中,计算神经主题表征网络的重构损失包括:
将得到的初始句向量r,两次变分编码和重构得到的辅助句向量r′和核心句向量r″作为输入神经主题表征网络的句子的三个表征,对于输入句子,从数据集中随机采样num个句子作为负样本,将每个负样本向量用其平均词向量ni来表征;第j个句子的损失使用铰链损失Jj(θ),即最大化r′、r″和r之间的内积,同时最小化r′、r″和负样本之间的内积,如公式11所示:
Figure BDA0002843491440000042
其中,λ是一个超参数,用于控制辅助主题重构的权重,将数据集中所有句子的重构损失Jj(θ)加和,得到神经主题表征网络的重构损失J(θ)。
作为本发明的进一步方案,所述步骤四中,计算神经主题表征网络的评价对象分类损失包括:
步骤二中进行注意力操作的注意力层、步骤三中,评论的初始句向量两次重构所用到的辅助主题表征T和核心主题表征T′是与无标签数据共享参数的,而两次变分编码所用到的线性变换层d1c、d1c′、d2c、d2c′则与无标签数据不同;将标签数据的辅助主题分布zc和核心主题分布z′c进行拼接,
Figure BDA0002843491440000043
zc为标签数据的K维的辅助主题分布,z′c代表标签数据的K′维的核心主题分布,之后将拼接的特征用于分类,计算出标签数据属于评价对象类别的概率r1,如公式12所示。
r1=zc_allWc+bc (12)
用softmax对r1进行归一化,得到模型所预测的评价对象类别y,如公式13所示:
y=softmax(r1) (13)
最后评价对象分类损失采用交叉熵代价函数计算,如公式14所示。
Figure BDA0002843491440000044
其中,gi表示真实的评价对象类别标签,yi为预测的第i个评价对象类别。
作为本发明的进一步方案,所述步骤五中通过最小化神经主题表征网络的重构损失,优化神经主题表征网络参数,通过最小化神经主题表征网络的评价对象分类损失,优化模型的分类网络参数;考虑到两个优化目标互有影响,采用联合训练策略,同时优化重构损失和评价对象分类损失。
作为本发明的进一步方案,所述步骤五中,联合训练神经主题表征网络的重构损失和评价对象分类损失包括:
通过最小化步骤四中的神经主题表征网络的重构损失J(θ),能优化神经主题表征网络参数;通过最小化步骤四中的评价对象分类损失Jc(θ),则能优化模型的分类网络参数;考虑到两个优化目标互有影响,因此,采用联合训练策略,同时优化重构损失J(θ)和评价对象分类损失Jc(θ);此外,评价对象类型可能遭遇冗余问题,因此在损失函数中加入两个正则项,分别如公式15和公式16所示,以确保评价对象的多样性;
Figure BDA0002843491440000051
Figure BDA0002843491440000052
其中,I是单位矩阵,T′n是T的行归一化,T″n是T′的行归一化,T是辅助主题表征,T′是核心主题表征,当任意两个不同行向量的内积为零时,V′和V″达到它们的最小值;因此,正则化项鼓励主题表征的各行向量之间的正交性,并惩罚不同行向量之间的冗余,最终的目标函数L(θ)如公式17所示:
L(θ)=J(θ)+αJc(θ)+βV′(θ)+βV″(θ) (17)
其中,α是控制分类损失权重的超参数,β是控制评价对象多样性权重的超参数;
模型学习目标是通过优化参数来最小化目标函数L(θ),模型训练完成后,通过标签数据属于评价对象类别的概率将测试句子分类到对应的评价对象类别,并选择词向量最接近于主题表征中某个行向量的前n个词作为对应评价对象类别的词项。
本发明的有益效果是:
1、本发明先利用变分双主题表征网络对评论进行两次编码和重构,获得丰富的主题特征,其次利用少量标签评论,引导主题表征网络自动判别评价对象类别。实现了对评价对象的自动分类和评价对象词项的挖掘。并在涉案舆情的两个数据集上进行了理论与技术的验证,实验结果充分证明了该方法的有效性;
2、本发明结合了两个不同的主题表征来重构句子表示,同时基于少量标签样本的类别信息,能较好的将评论句自动分类为评价对象类别,挖掘评价对象词项。相比其他无监督主题模型,本发明的方法通过有效利用少量有标签样本的类别信息,使模型准确预测评价对象类别。相比需要挑选种子词的弱监督主题模型,本发明的方法标注句子评价对象类别的方式更容易实现,分类性能更好。同时,所提出的两次变分编码和重构,能使模型学习到更合理的主题表征,从而提高分类性能。
附图说明
图1为本发明提出的基于变分双主题表征的弱监督涉案微博评价对象识别方法实现的流程图;
图2为本发明提出的基于变分双主题表征的弱监督涉案微博评价对象识别方法的变分网络编码结构图;
图3为案件1数据集的一次重构模型与完整模型的分类结果比较;
图4为案件2数据集的一次重构模型与完整模型的分类结果比较。
具体实施方式
实施例1:如图1-图4所示,基于变分双主题表征的弱监督涉案微博评价对象识别方法,所述识别方法的具体步骤包括:
步骤一、预训练数据集的词向量,将词向量进行拼接运算获得对应句子的原始句向量;
本发明采用采集了2个案件的新浪微博评论数据集来进行模型训练和评估。数据集基本信息如表1所示。案件1为某车牌女车主维权案,数据集包含44907条无标签样本,有4种标注的评价对象类别,分别为法律机构、商家(当事人)、消费者(当事人)、其他,标签样本共1925条。案件2为某地公交车坠江案,数据集包含23705条无标签样本,有4种手动标注的评价对象类别,分别为政府机构、公交司机(当事人)、媒体、其他,标签样本共1660条。两个数据集均划分80%的标签样本作为最终分类性能评估的测试集。
表1为实验数据集
Figure BDA0002843491440000061
步骤二、用Skip-gram模型预训练步骤一中数据集的词向量,将该词向量拼接得到原始句向量,再将该句向量经过注意力操作,原始句向量被表示为初始句向量;通过注意力操作,输入句子被表示为初始句向量r,它更多地关注与评价对象相关的单词;
所述步骤一首先预训练数据集的词向量,得到每个词的词向量,用
Figure BDA0002843491440000071
表示输入句子x中第i个单词的词向量,则句子嵌入为
Figure BDA0002843491440000072
是拼接操作,
Figure BDA0002843491440000073
n是句子长度,D是词向量维度;所述步骤二中,利用注意力来计算句子的初始句向量r,具体计算过程如公式(1)、(2)、(3)、(4)所示;
A=(EM+buT)ET (1)
Figure BDA0002843491440000074
Figure BDA0002843491440000075
Figure BDA0002843491440000076
其中,
Figure BDA0002843491440000077
为待优化的参数,
Figure BDA0002843491440000078
是值全为1的向量。
步骤三、利用神经主题表征网络将评论的初始句向量进行两次变分编码和重构,在相同的向量空间中建立词向量、句向量和主题表征向量之间的关系;
利用神经主题表征网络将评论的初始句向量进行两次变分编码和重构,包括基于辅助主题表征的编码和重构、基于核心主题表征的编码和重构,进而得到句子的辅助主题表征和核心主题表征、重构的辅助句向量和重构的核心句向量。
所述基于辅助主题表征的编码和重构包括:
将得到的初始句向量r用变分网络编码为隐向量
Figure BDA0002843491440000079
z为K维的辅助主题分布,其中的某个值zl表示输入句子x属于第l个评价对象的概率;变分网络编码结构如图2所示;假设z服从正态分布
Figure BDA00028434914400000710
则:
Figure BDA00028434914400000711
其中,μ=d1(r),logσ=d2(r),d1和d2为两个线性变换层,ε为服从正态分布的随机值;
若用
Figure BDA00028434914400000712
表示数据集中第l个评价对象的D维向量,则辅助主题表征为
Figure BDA00028434914400000713
辅助句向量由pz和T进行重构,如公式7所示,pz由公式6计算获得;
pz=softmax(z) (6)
r′=TTpz (7)
由此,可得重构的辅助句向量r′。
所述基于核心主题表征的编码和重构包括:
将得到的辅助句向量r′用如图2所示的变分网络编码为隐向量
Figure BDA0002843491440000081
z′代表K′维的核心主题分布,分布中的某个值zl′表示输入句子x属于第l个核心评价对象的概率;假设z′服从正态分布
Figure BDA0002843491440000082
则:
z′=μ′+σ′⊙ε (8)
其中,μ′=d1′(r′),logσ′=d2′(r′),d1′和d2′为两个线性变换层,ε为服从正态分布的随机值;
若用
Figure BDA0002843491440000083
表示数据集中第l个核心主题的D维向量,则核心主题表征为
Figure BDA0002843491440000084
句子的核心句向量由pz′和T′进行重构,如公式10所示,pz′由公式9计算而得;
pz′=softmax(z′) (9)
Figure BDA0002843491440000085
由此,可得第二次重构的核心句向量r″。
步骤三中具体的,将步骤二得到的初始句向量作为本发明提出的句向量变分编码和重构网络的输入,如图1所示,则输出即为该网络识别出的评价对象词项。在此,本发明还比较了传统主题模型Biterm主题模型(Biterm Topic Model,BTM)、基于词嵌入的主题模型(Embedded Topic Model,ETM)和本发明提出的变分编码和重构模型挖掘到的案件1中表征主题的前10个(top10)评价对象词项,如表2所示。每个模型有10个主题,表2中列举了6个主题。由表2可知,相比其他模型,本发明提出的模型所挖掘到的同类评价对象代表词项更为相似,更容易推断出评价对象类别。这得益于本文模型利用了主题向量和词向量在向量空间中的关系,相近的词更容易聚集为一类主题。
表2案件1的评价对象词项
Figure BDA0002843491440000086
Figure BDA0002843491440000091
步骤四、计算神经主题表征网络的重构损失和评价对象分类损失;
所述步骤四中,计算神经主题表征网络的重构损失包括:
将得到的初始句向量r,两次变分编码和重构得到的辅助句向量r′和核心句向量r″作为输入神经主题表征网络的句子的三个表征,对于输入句子,从数据集中随机采样num个句子作为负样本,将每个负样本向量用其平均词向量ni来表征;第j个句子的损失使用铰链损失Jj(θ),即最大化r′、r″和r之间的内积,同时最小化r′、r″和负样本之间的内积,如公式11所示:
Figure BDA0002843491440000092
其中,λ是一个超参数,用于控制辅助主题重构的权重,将数据集中所有句子的重构损失Jj(θ)加和,得到神经主题表征网络的重构损失J(θ)。
作为本发明的进一步方案,所述步骤四中,计算神经主题表征网络的评价对象分类损失包括:
步骤二中进行注意力操作的注意力层、步骤三中,评论的初始句向量两次重构所用到的辅助主题表征T和核心主题表征T′是与无标签数据共享参数的,而两次变分编码所用到的线性变换层d1c、d1c′、d2c、d2c′则与无标签数据不同;将标签数据的辅助主题分布zc和核心主题分布z′c进行拼接,
Figure BDA0002843491440000093
zc为标签数据的K维的辅助主题分布,z′c代表标签数据的K′维的核心主题分布,之后将拼接的特征用于分类,计算出标签数据属于评价对象类别的概率r1,如公式12所示。
r1=zc_allWc+bc (12)
用softmax对r1进行归一化,得到模型所预测的评价对象类别y,如公式13所示:
y=softmax(r1) (13)
最后评价对象分类损失采用交叉熵代价函数计算,如公式14所示。
Figure BDA0002843491440000101
其中,gi表示真实的评价对象类别标签,yi为预测的第i个评价对象类别。
根据步骤三所得的句子主题分布可为挖掘出的评价对象分配对应的标签。在此步骤四中,本发明使用少量的标签数据来训练分类器,且在实验中将本发明提出的方法与其他几个同类模型作了对比。其中,同类模型包括LDA、BTM、ETM、基于注意力的自编码模型(Attention-based Aspect Extraction,ABAE)、多种子评价对象抽取模型(MultiSeedAspect Extractor,MATE)、ABAE_lablled(该模型与ABAE的区别在于以标签样本的主题分布为分类特征,而ABAE是以无标签样本的主题分布作为分类特征)。分类评估指标是精度(Precision,P)、召回率(Recall,R)和F1值,实验结果如表3和表4所示。LDA的分类结果在两个数据集上都最差,ETM稍好。Ours_unlabeled相比ABAE有0.02和0.03的F1值提升,说明本文模型通过两次变分编码和解码能得到更好的核心主题分布,有利于评价对象分类。相比MATE,本文模型的加权平均F1值在两个数据集上分别提升了0.13和0.176。ABAE_labelled在ABAE基础上加入标签样本训练分类器,相比原来的ABAE模型也有较大的提升,两个数据集的加权宏平均F1值相比ABAE分别提升了0.064和0.088,证明了本文提出的利用少量有标签样本进行评价对象类别指导的有效性。
表3不同模型对于案件1的评价对象分类结果
Figure BDA0002843491440000102
表4不同模型对于案件2的评价对象分类结果
Figure BDA0002843491440000111
步骤五、联合训练神经主题表征网络的重构损失和评价对象分类损失,实现对微博评价对象的自动识别。
作为本发明的进一步方案,所述步骤五中通过最小化神经主题表征网络的重构损失,优化神经主题表征网络参数,通过最小化神经主题表征网络的评价对象分类损失,优化模型的分类网络参数;考虑到两个优化目标互有影响,采用联合训练策略,同时优化重构损失和评价对象分类损失。
作为本发明的进一步方案,所述步骤五中,联合训练神经主题表征网络的重构损失和评价对象分类损失包括:
通过最小化步骤四中的神经主题表征网络的重构损失J(θ),能优化神经主题表征网络参数;通过最小化步骤四中的评价对象分类损失Jc(θ),则能优化模型的分类网络参数;考虑到两个优化目标互有影响,因此,采用联合训练策略,同时优化重构损失J(θ)和评价对象分类损失Jc(θ);此外,评价对象类型可能遭遇冗余问题,因此在损失函数中加入两个正则项,分别如公式15和公式16所示,以确保评价对象的多样性;
Figure BDA0002843491440000112
Figure BDA0002843491440000113
其中,I是单位矩阵,T′n是T的行归一化,T″n是T′的行归一化,T是辅助主题表征,T′是核心主题表征,当任意两个不同行向量的内积为零时,V′和V″达到它们的最小值;因此,正则化项鼓励主题表征的各行向量之间的正交性,并惩罚不同行向量之间的冗余,最终的目标函数L(θ)如公式17所示:
L(θ)=J(θ)+αJc(θ)+βV′(θ)+βV″(θ) (17)
其中,α是控制分类损失权重的超参数,β是控制评价对象多样性权重的超参数;
模型学习目标是通过优化参数来最小化目标函数L(θ),模型训练完成后,通过标签数据属于评价对象类别的概率将测试句子分类到对应的评价对象类别,并选择词向量最接近于主题表征中某个行向量的前n个词作为对应评价对象类别的词项。
为了证明本发明提出的双主题表征的有效性,对其进行了消融实验。将本发明中模型的辅助主题重构去除,即模型只对句向量进行一次重构,学习一个主题表征,标签样本也只使用一种主题分布作为分类特征。对于一次重构学习的主题表征,分别设置主题数k为10、20和30,本发明中完整模型的核心主题数为10,辅助主题数为20。辅助主题表征的主题数目设置为较核心主题表征更大的值,因此辅助主题向量代表向量空间中较小的主题聚类簇。核心主题表征则对应于较大的主题聚类簇,基于不同大小聚类簇的编码与重构能使句子学到更多的主题特征。案件1使用了12%的标签样本,比较结果如图3所示。案件2使用了15%的标签样本,比较结果如图4所示。如图3和图4所示,本发明的完整模型相比只进行一次重构的模型,在三个评价指标上都有明显提升,其中在案件1数据集上F1值提升了0.04左右,在案件2数据集上F1值提升了0.02左右。由此证明通过辅助主题重构学习到的主题分布对于评价对象分类有较好的作用。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (8)

1.基于变分双主题表征的弱监督涉案微博评价对象识别方法,其特征在于:首先利用神经主题表征网络对评论进行两次变分编码和重构,获得主题特征;然后,计算神经主题表征网络的重构损失,再利用标签样本计算评价对象分类损失;最后采用联合训练策略,对神经主题表征网络的重构损失与评价对象分类损失进行联合调优,实现对微博评价对象的自动识别;
所述获得主题特征包括基于辅助主题表征的编码和重构、基于核心主题表征的编码和重构;
所述基于辅助主题表征的编码和重构包括:
将得到的初始句向量r用变分网络编码为隐向量
Figure FDA0003297264930000011
z为K维的辅助主题分布,其中的某个值zl表示输入句子x属于第l个评价对象的概率;假设z服从正态分布
Figure FDA0003297264930000012
则:
z=μ+σ⊙ε (1)
其中,μ=d1(r),logσ=d2(r),d1和d2为两个线性变换层,ε为服从正态分布的随机值;
若用
Figure FDA0003297264930000013
表示数据集中第l个评价对象的D维向量,则辅助主题表征为
Figure FDA0003297264930000014
Figure FDA0003297264930000015
是拼接操作,辅助句向量由pz和T进行重构,如公式3所示,pz由公式2计算获得;
pz=softmax(z) (2)
r′=TTpz (3)
由此,可得重构的辅助句向量r′;
所述基于核心主题表征的编码和重构包括:
将得到的辅助句向量r′用变分网络编码为隐向量
Figure FDA0003297264930000016
z′代表K′维的核心主题分布,分布中的某个值zl′表示输入句子x属于第l个核心评价对象的概率;假设z′服从正态分布
Figure FDA0003297264930000017
则:
z′=μ′+σ′⊙ε (4)
其中,μ′=d1′(r′),logσ′=d2′(r′),d1′和d2′为两个线性变换层,ε为服从正态分布的随机值;
若用
Figure FDA0003297264930000018
表示数据集中第l个核心主题的D维向量,则核心主题表征为
Figure FDA0003297264930000021
句子的核心句向量由pz′和T′进行重构,如公式6所示,pz′由公式5计算而得;
pz′=softmax(z′) (5)
r″=T′Tpz′ (6)
由此,可得第二次重构的核心句向量r″。
2.根据权利要求1所述的基于变分双主题表征的弱监督涉案微博评价对象识别方法,其特征在于:所述识别方法的具体步骤包括:
步骤一、预训练数据集的词向量,将词向量进行拼接运算获得对应句子的原始句向量;
步骤二、通过注意力操作,原始句向量被表示为初始句向量;
步骤三、利用神经主题表征网络将评论的初始句向量进行两次变分编码和重构,在相同的向量空间中建立词向量、句向量和主题表征向量之间的关系;
步骤四、计算神经主题表征网络的重构损失和评价对象分类损失;
步骤五、联合训练神经主题表征网络的重构损失和评价对象分类损失,实现对微博评价对象的自动识别。
3.根据权利要求2所述的基于变分双主题表征的弱监督涉案微博评价对象识别方法,其特征在于:所述步骤一首先预训练数据集的词向量,得到每个词的词向量,用
Figure FDA0003297264930000022
表示输入句子x中第i个单词的词向量,则句子嵌入为
Figure FDA0003297264930000023
Figure FDA0003297264930000024
是拼接操作,
Figure FDA0003297264930000025
n是句子长度,D是词向量维度;所述步骤二中,利用注意力来计算句子的初始句向量r,具体计算过程如公式(7)、(8)、(9)、(10)所示;
A=(EM+buT)ET (7)
Figure FDA0003297264930000026
Figure FDA0003297264930000027
Figure FDA0003297264930000028
其中,
Figure FDA0003297264930000029
为待优化的参数,
Figure FDA00032972649300000210
是值全为1的向量。
4.根据权利要求2所述的基于变分双主题表征的弱监督涉案微博评价对象识别方法,其特征在于:所述步骤三中,利用神经主题表征网络将评论的初始句向量进行两次变分编码和重构,包括基于辅助主题表征的编码和重构、基于核心主题表征的编码和重构,进而得到句子的辅助主题表征和核心主题表征、重构的辅助句向量和重构的核心句向量。
5.根据权利要求2所述的基于变分双主题表征的弱监督涉案微博评价对象识别方法,其特征在于:所述步骤四中,计算神经主题表征网络的重构损失包括:
将得到的初始句向量r,两次变分编码和重构得到的辅助句向量r′和核心句向量r″作为输入神经主题表征网络的句子的三个表征,对于输入句子,从数据集中随机采样num个句子作为负样本,将每个负样本向量用其平均词向量ni来表征;第j个句子的损失使用铰链损失Jj(θ),即最大化r′、r″和r之间的内积,同时最小化r′、r″和负样本之间的内积,如公式11所示:
Figure FDA0003297264930000031
其中,λ是一个超参数,用于控制辅助主题重构的权重,将数据集中所有句子的重构损失Jj(θ)加和,得到神经主题表征网络的重构损失J(θ)。
6.根据权利要求2所述的基于变分双主题表征的弱监督涉案微博评价对象识别方法,其特征在于:所述步骤四中,计算神经主题表征网络的评价对象分类损失包括:
步骤二中进行注意力操作的注意力层、步骤三中,评论的初始句向量两次重构所用到的辅助主题表征T和核心主题表征T′是与无标签数据共享参数的,而两次变分编码所用到的线性变换层d1c、d1c′、d2c、d2c′则与无标签数据不同;将标签数据的辅助主题分布zc和核心主题分布z′c进行拼接,
Figure FDA0003297264930000032
zc为标签数据的K维的辅助主题分布,z′c代表标签数据的K′维的核心主题分布,之后将拼接的特征用于分类,计算出标签数据属于评价对象类别的概率r1,如公式12所示:
r1=zc_allWc+bc (12)
用softmax对r1进行归一化,得到模型所预测的评价对象类别y,如公式13所示:
y=softmax(r1) (13)
最后评价对象分类损失采用交叉熵代价函数计算,如公式14所示:
Figure FDA0003297264930000033
其中,gi表示真实的评价对象类别标签,yi为预测的第丁个评价对象类别。
7.根据权利要求2所述的基于变分双主题表征的弱监督涉案微博评价对象识别方法,其特征在于:所述步骤五中,通过最小化神经主题表征网络的重构损失,优化神经主题表征网络参数,通过最小化神经主题表征网络的评价对象分类损失,优化模型的分类网络参数;考虑到两个优化目标互有影响,采用联合训练策略,同时优化重构损失和评价对象分类损失。
8.根据权利要求2所述的基于变分双主题表征的弱监督涉案微博评价对象识别方法,其特征在于:所述步骤五中,联合训练神经主题表征网络的重构损失和评价对象分类损失包括:
通过最小化步骤四中的神经主题表征网络的重构损失J(θ),能优化神经主题表征网络参数;通过最小化步骤四中的评价对象分类损失Jc(θ),则能优化模型的分类网络参数;考虑到两个优化目标互有影响,因此,采用联合训练策略,同时优化重构损失J(θ)和评价对象分类损失Jc(θ);此外,评价对象类型可能遭遇冗余问题,因此在损失函数中加入两个正则项,分别如公式15和公式16所示,以确保评价对象的多样性;
V′(θ)=||T′n·T′n T-I|| (15)
V″(θ)=||T″n·T″n T-I|| (16)
其中,I是单位矩阵,T′n是T的行归一化,T″n是T′的行归一化,T是辅助主题表征,T′是核心主题表征,当任意两个不同行向量的内积为零时,V′和V″达到它们的最小值;因此,正则化项鼓励主题表征的各行向量之间的正交性,并惩罚不同行向量之间的冗余,最终的目标函数L(θ)如公式17所示:
L(θ)=J(θ)+αJc(θ)+βV′(θ)+βV″(θ) (17)
其中,α是控制分类损失权重的超参数,β是控制评价对象多样性权重的超参数;
模型学习目标是通过优化参数来最小化目标函数L(θ),模型训练完成后,通过标签数据属于评价对象类别的概率将测试句子分类到对应的评价对象类别,并选择词向量最接近于主题表征中某个行向量的前n个词作为对应评价对象类别的词项。
CN202011500553.5A 2020-12-18 2020-12-18 基于变分双主题表征的弱监督涉案微博评价对象识别方法 Active CN112541340B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011500553.5A CN112541340B (zh) 2020-12-18 2020-12-18 基于变分双主题表征的弱监督涉案微博评价对象识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011500553.5A CN112541340B (zh) 2020-12-18 2020-12-18 基于变分双主题表征的弱监督涉案微博评价对象识别方法

Publications (2)

Publication Number Publication Date
CN112541340A CN112541340A (zh) 2021-03-23
CN112541340B true CN112541340B (zh) 2021-11-23

Family

ID=75018912

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011500553.5A Active CN112541340B (zh) 2020-12-18 2020-12-18 基于变分双主题表征的弱监督涉案微博评价对象识别方法

Country Status (1)

Country Link
CN (1) CN112541340B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113158079B (zh) * 2021-04-22 2022-06-17 昆明理工大学 基于差异性案件要素的案件舆情时间线生成方法
CN114880478B (zh) * 2022-06-07 2024-04-23 昆明理工大学 基于主题信息增强的弱监督方面类别检测方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN205711654U (zh) * 2016-03-18 2016-11-23 交通运输部科学研究院 一种三维可视化的路面破损信息的检测装置
CN110275936A (zh) * 2019-05-09 2019-09-24 浙江工业大学 一种基于自编码神经网络的相似法律案例检索方法
CN110321417A (zh) * 2019-05-30 2019-10-11 山东大学 一种对话生成方法、系统、可读存储介质及计算机设备
CN110991190A (zh) * 2019-11-29 2020-04-10 华中科技大学 文档主题增强的自注意力网络、文本情绪预测系统和方法
CN111291181A (zh) * 2018-12-10 2020-06-16 百度(美国)有限责任公司 经由主题稀疏自编码器和实体嵌入的用于输入分类的表示学习
CN111581474A (zh) * 2020-04-02 2020-08-25 昆明理工大学 基于多头注意力机制的涉案微博评论的评价对象抽取方法
CN111581981A (zh) * 2020-05-06 2020-08-25 西安交通大学 基于评价对象强化和带约束标签嵌入的方面类别检测系统及方法
CN111598223A (zh) * 2020-05-15 2020-08-28 天津科技大学 一种基于属性和结构深度融合的网络嵌入方法及其模型
CN111859978A (zh) * 2020-06-11 2020-10-30 南京邮电大学 一种基于深度学习的情感文本生成方法
CN111881671A (zh) * 2020-09-27 2020-11-03 华南师范大学 一种属性词提取方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033069B (zh) * 2018-06-16 2022-05-17 天津大学 一种基于社会媒体用户动态行为的微博主题挖掘方法
CN111581962B (zh) * 2020-05-14 2023-02-21 福州大学 一种基于主题词向量与混合神经网络的文本表示方法
CN111897954B (zh) * 2020-07-10 2024-04-02 西北大学 一种用户评论方面挖掘系统、方法、及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN205711654U (zh) * 2016-03-18 2016-11-23 交通运输部科学研究院 一种三维可视化的路面破损信息的检测装置
CN111291181A (zh) * 2018-12-10 2020-06-16 百度(美国)有限责任公司 经由主题稀疏自编码器和实体嵌入的用于输入分类的表示学习
CN110275936A (zh) * 2019-05-09 2019-09-24 浙江工业大学 一种基于自编码神经网络的相似法律案例检索方法
CN110321417A (zh) * 2019-05-30 2019-10-11 山东大学 一种对话生成方法、系统、可读存储介质及计算机设备
CN110991190A (zh) * 2019-11-29 2020-04-10 华中科技大学 文档主题增强的自注意力网络、文本情绪预测系统和方法
CN111581474A (zh) * 2020-04-02 2020-08-25 昆明理工大学 基于多头注意力机制的涉案微博评论的评价对象抽取方法
CN111581981A (zh) * 2020-05-06 2020-08-25 西安交通大学 基于评价对象强化和带约束标签嵌入的方面类别检测系统及方法
CN111598223A (zh) * 2020-05-15 2020-08-28 天津科技大学 一种基于属性和结构深度融合的网络嵌入方法及其模型
CN111859978A (zh) * 2020-06-11 2020-10-30 南京邮电大学 一种基于深度学习的情感文本生成方法
CN111881671A (zh) * 2020-09-27 2020-11-03 华南师范大学 一种属性词提取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
An Unsupervised Neural Attention Model for Aspect Extraction;Ruidan He等;《Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics》;20170804;388–397 *
Constructing Dynamic Topic Models Based on Variational Autoencoder and Factor Graph;ZHINAN GOU等;《2018 IEEE》;20181213;第6卷;53102-53111 *
基于信息最大化变分自编码器的孪生神经主题模型;刘佳琦等;《计算机应用与软件》;20200910;第37卷(第9期);118-125 *

Also Published As

Publication number Publication date
CN112541340A (zh) 2021-03-23

Similar Documents

Publication Publication Date Title
CN107992597B (zh) 一种面向电网故障案例的文本结构化方法
CN110222188B (zh) 一种多任务学习的公司公告处理方法及服务端
CN110990564B (zh) 一种基于情感计算与多头注意力机制的负面新闻识别方法
CN107967257A (zh) 一种级联式作文生成方法
CN110347836B (zh) 融入观点句特征的汉越双语新闻情感分类方法
Terechshenko et al. A comparison of methods in political science text classification: Transfer learning language models for politics
Willis et al. Key phrase extraction for generating educational question-answer pairs
CN111563166A (zh) 一种针对数学问题分类的预训练模型方法
CN112988975A (zh) 一种基于albert和知识蒸馏的观点挖掘方法
Zhou et al. Sentiment analysis of text based on CNN and bi-directional LSTM model
Yang et al. Automatic academic paper rating based on modularized hierarchical convolutional neural network
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN113673254B (zh) 基于相似度保持的知识蒸馏的立场检测方法
CN112989033B (zh) 基于情绪类别描述的微博情绪分类方法
CN112541340B (zh) 基于变分双主题表征的弱监督涉案微博评价对象识别方法
CN110909529B (zh) 一种公司形象提升系统的用户情感分析和预判系统
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
Mishev et al. Forecasting corporate revenue by using deep-learning methodologies
CN114969260A (zh) 一种联合试题分类与评分学习的主观题自动评阅深度学习方法
CN114722835A (zh) 基于lda和bert融合改进模型的文本情感识别方法
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
Ash et al. Measuring judicial sentiment: Methods and application to us circuit courts
CN112950414B (zh) 一种基于解耦法律要素的法律文本表示方法
Yang et al. News text mining-based business sentiment analysis and its significance in economy
Bilbao-Jayo et al. Political discourse classification in social networks using context sensitive convolutional neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant