CN116049413A - 基于事件演化的用户观点和立场获取方法 - Google Patents

基于事件演化的用户观点和立场获取方法 Download PDF

Info

Publication number
CN116049413A
CN116049413A CN202310346366.3A CN202310346366A CN116049413A CN 116049413 A CN116049413 A CN 116049413A CN 202310346366 A CN202310346366 A CN 202310346366A CN 116049413 A CN116049413 A CN 116049413A
Authority
CN
China
Prior art keywords
event
model
events
executing
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310346366.3A
Other languages
English (en)
Other versions
CN116049413B (zh
Inventor
罗引
郭鸿飞
王俊艳
蔡昌艳
蒋永余
徐才
王宇琪
王璋盛
曹家
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinhua Fusion Media Technology Development Beijing Co ltd
Beijing Zhongke Wenge Technology Co ltd
Original Assignee
Xinhua Fusion Media Technology Development Beijing Co ltd
Beijing Zhongke Wenge Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinhua Fusion Media Technology Development Beijing Co ltd, Beijing Zhongke Wenge Technology Co ltd filed Critical Xinhua Fusion Media Technology Development Beijing Co ltd
Priority to CN202310346366.3A priority Critical patent/CN116049413B/zh
Publication of CN116049413A publication Critical patent/CN116049413A/zh
Application granted granted Critical
Publication of CN116049413B publication Critical patent/CN116049413B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/358Browsing; Visualisation therefor
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于事件演化的用户观点和立场获取方法,首先对输入的多个文本例如新闻进行文本聚类,然后对聚类结果进行清洗和合并以得到事件,然后针对事件的演化过程,抽取事件对应的评论者、观点和立场,最后按照事件的演化时间顺序,输出对应的评论者、观点和立场,能够根据事件的演变,推断评论者的观点、立场的变化情况。

Description

基于事件演化的用户观点和立场获取方法
技术领域
本发明涉及自然语言处理领域,特别是涉及一种基于事件演化的用户观点和立场获取方法。
背景技术
近年来,互联网生态经历了高速发展,数字信息呈爆炸式增长。与此同时,互联网上的海量内容中存在着大量的重复、无效内容和垃圾内容。繁杂、海量的信息给人们对知识的学习和使用带来了难整合、难查找、难理解等问题。在信息检索领域,面向事件的检索已经成为用户从网络中获取感兴趣事件的一种主要途径,而且人们越来越倾向于使用微博、论坛等社交媒体平台来表达自己的观点。使用观点、立场检测技术可以实现人们对特定事件的观点、立场检测。这能够帮助人们了解更多的信息,实时获取社会热点资讯。
目前的观点抽取方法主要是从新闻文章的各个语句中抽取评论者、评论对象,对评论对象的观点等,抽取出的人名默认为评论者,很少有对多个人名的情况下是否是评论者进行分析,也无法判断评论者、评论对象、观点三元组的正确性,导致出现多个评论对象时会抽取错误。此外,目前的立场检测方法主要是对评论者的观点进行分类,以判断其对应的立场,但是很少考虑评论者本身对立场的影响。也就是说,目前的观点、立场抽取方法,通常只针对单一的新闻或文本,只能根据该新闻推断目前某个评论者的观点或立场,无法根据事件的演变,推断该评论者的观点、立场的变化情况。
发明内容
针对上述技术问题,本发明采用的技术方案为:
本发明实施例提供一种基于事件演化的用户观点和立场获取方法,所述方法包括如下步骤:
S100,基于待聚类文本中的每个文本的标题或者第一段内容获取每个文本的特征向量;
S200,基于所有文本的特征向量,利用设定聚类方法对待聚类文本进行聚类,得到多个类别,每个类别对应一个事件,每个事件包括至少一个文本;
S300,基于文本的特征向量和事件的事件描述特征向量之间的相似度对得到的多个事件进行清洗处理,得到清洗后的H个事件;其中,事件的事件描述特征向量基于设定的事件描述特征向量生成模型得到;
S400,基于事件的事件描述特征向量之间的相似度对清洗后的H个事件进行合并处理,得到合并后的G个事件;
S500,获取合并后的G个事件中的每个事件的评论者以及评论者对应的观点和立场;
S600,获取针对G个事件中同一个事件或者在同一个事件下的每个评论者的按照发布时间排序的观点和立场并进行输出。
本发明至少具有以下有益效果:
本发明实施例提供的基于事件演化的用户观点和立场获取方法,首先对输入的多个文本例如新闻进行文本聚类,然后对聚类结果进行清洗和合并以得到事件,然后针对事件的演化过程,抽取事件对应的评论者、观点和立场,最后按照事件的演化时间顺序,输出对应的评论者、观点和立场,能够根据事件的演变,推断评论者的观点、立场的变化情况。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于事件演化的用户观点和立场获取方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种基于事件演化的用户观点和立场获取方法,如图1所示,所述方法可包括如下步骤:
S100,基于待聚类文本中的每个文本的标题或者第一段内容获取每个文本的特征向量;
在本发明实施例中,待聚类文本可为新闻文本,也可为其它类型的文本。文本可通过用户输入获取。
在本发明实施例中,可通过现有的特征提取方法获取每个文本的特性向量。在一个示意性实施例中,可通过CoSENT提取文本的特征向量。如果文本没有标题,可采用文本的第一段内容作为文本的表示,输入CoSENT模型,得到对应的特征向量。
S200,基于所有文本的特征向量,利用设定聚类方法对待聚类文本进行聚类,得到多个类别,每个类别对应一个事件即得到多个事件,每个事件包括至少一个文本。
在本发明实施例中,可以采用多种聚类算法进行聚类,本发明选择DBSCAN算法。DBSCAN算法不需要指定聚类个数,只需要指定邻域半径和邻域半径内最少的数据点数。
本领域技术人员知晓,基于所有文本的特征向量,利用DBSCAN算法进行聚类,得到对应的聚类结果可为现有技术。
S300,基于文本的特征向量和事件的事件描述特征向量之间的相似度对得到的多个事件进行清洗处理,得到清洗后的H个事件;其中,事件的事件描述特征向量基于设定的事件描述特征向量生成模型得到。
经过聚类之后的文本,每个类别可以认为是一个事件,但是聚类准确率不高,有的被错误聚类,所以有必要对聚类结果进行清洗与合并。本发明实施例采用基于事件描述与文本的文本相似度的方法对聚类结果进行清洗与合并。
在本发明实施例中,所述事件的事件描述特征向量基于如下步骤得到:
S301,基于设定的事件描述生成模型生成事件中的每个文本的事件描述。
在本发明实施例中,所述设定的事件描述生成模型为训练后的T5或者BART预训练生成模型,该模型可通过如下步骤获取得到:
(数据集构建)
对于输入的多篇新闻,随机选择若干新闻,进行标注。对于选择的每篇新闻,人工生成它的事件描述。将每篇新闻的标题作为生成模型的输入,人工生成的事件描述作为模型的真实值构建训练数据集。如果新闻没有标题,使用新闻的第一段作为模型的输入。
在本发明实施例中,事件描述是指文本对应的事件的描述信息。
(模型训练)
模型的输入为:Q=[CLS,t]。
CLS是特殊标识符, t是选择的新闻的标题或第一段,Q为模型输入。模型训练为:yQ=GEN(Q)。
其中,GEN为T5或BART等预训练生成模型, yQ为模型预测的结果,与人工标注的真实值计算loss来训练模型参数,得到训练好的事件描述生成模型。
在得到训练好的事件描述生成模型后,依次将待聚类的每个文本的标题或第一段输入训练好的事件描述生成模型中,得到每个文本的事件描述。
S302,将获取的事件描述中生成频次最大的事件描述作为对应事件的事件描述。
统计当前事件中所有新闻生成的事件描述,将生成频次最大的一个事件描述,作为当前事件的事件描述。如果3个文本生成了某个事件描述,则该事件描述的生成频次为3。
S303,将事件的事件描述输入所述设定的事件描述特征向量生成模型中,得到对应的事件描述特征向量。
在本发明实施例中,所述设定的事件描述特征向量生成模型可为CoSENT模型。将事件的事件描述输入到CoSENT模型中,提取特征,可得到对应的事件描述特征向量。
在本发明实施例中,为了缓解由于生成模型生成事件描述错误对聚类清洗及合并结果的影响,本发明实施例采用基于文本标题与当前事件的事件描述的文本相似度对事件进行多次清洗,对于事件中的每个文本,依据文本标题与事件描述的文本相似度对其做三种操作:留在原事件、合并到其他事件或放入一个新的事件。具体地,S300可包括:
S311,获取第p次清洗处理对应的当前待清洗事件中的任一事件中的任一文本的特征向量以及任一事件的事件描述和事件描述特征向量;p的取值为1到C0,C0为预设清洗次数。
在发明实施例中,C0可基于实际需要设置,优选,C0≤3,更优选,C0=2。对于当前待清洗事件的任一文本的特征向量和任一事件的事件描述特征向量可参照前述内容获取得到。
S312,对于当前待清洗事件中的事件i中的第j个文本Tij,获取S1p ij,如果S1p ij≥D1p,则将Tij保留在事件i中,执行S316;否则,执行S313;其中,S1p ij为第p次清洗处理时Tij的特征向量和事件i的事件描述特征向量之间的相似度,i的取值为1到k,k为当前待清洗事件中的的事件数量;j的取值为1到f(i),f(i)为事件i中的文本数量;D1p为第p次清洗处理对应的第一设定阈值。
在本发明实施例中,S1p ij可通过现有相似度算法获取,例如余弦相似度等。
在本发明实施例中,每次清洗处理对应的第一设定阈值可以相同,也可以不相同,可基于实际需要进行设置。在本发明实施例中,第一设定阈值可基于实际需要进行设置,例如可设置为0.88、0.75、0.65中的一个。另外,为了保证清洗结果的质量,如果当前文本或当前事件的事件描述中出现人名或地名等实体词,为了保证当前事件中描述的是相同或相似事件,相应的阈值应该比正常的阈值更大,比如可以设置第一设定阈值为0.96等。
S313,获取相似度集STij={ST1 ij,ST2 ij,…,STs ij,…,STk-1 ij},STs ij为Tij的特征向量和当前待清洗事件中除事件i之外的(k-1)个事件中的第s个事件对应的事件描述特征向量之间的相似度,s的取值为1到(k-1);执行S314。
S314,如果maxA≥D1p,则将Tij合并到maxA对应的事件中,并将Tij从事件i中删除,否则,执行S315;maxA=max{ ST1 ij,ST2 ij,…,STs ij,…,STk-1 ij}。
S315,为Tij创建一个新事件并从原事件中删除,并将Tij加入到对应的新事件中,设置k=k+1,执行S316。
S316,设置j=j+1,如果j≤f(i),执行S312,否则,设置i=i+1,如果i≤k,执行S312,如果i>k,执行S317。
S317,设置p=p+1,如果p≤C0,执行S311;否则,得到清洗处理后的H个事件,并执行S400。
此外,由于清洗后,每个事件中的文本会发生变化,因此,可获取H个事件中的每个事件的事件描述和事件描述向量。
S400,基于事件的事件描述特征向量之间的相似度对清洗后的H个事件进行合并处理,得到合并后的G个事件。
进一步地,S400可具体包括:
S410,基于H个事件获取按照文本数量递减的方式进行排序得到的事件列表S,并获取S中的任一事件u对应的事件描述以及事件描述特征向量,u的取值为1到H。
S420,基于事件的事件描述特征向量之间的相似度对S进行合并处理,得到合并处理后的多个事件。
其中,S420具体包括:
S421,获取S2uv,如果S2uv≥D2,则将事件u和事件v进行合并,执行S423;否则,执行S422;其中,事件v为当前的合并事件列表中的第v个事件, S2uv为事件u的事件描述特征向量和事件v的事件描述特征向量之间的相似度,v的取值为1到n,n为当前的合并事件列表中的事件数量;D2为第二设定阈值;当前的合并事件列表中的初始值为Null。
在本发明实施例中,S2uv可通过现有相似度算法获取,例如余弦相似度等。
本领域技术人员知晓,当u=1时,由于当前的合并事件列表中的事件数量为Null,所以,会将事件1加入到当前的合并事件列表中。
在本发明实施例中,第二设定阈值可以与第一设定阈值做相同的设置,或者选择更大的阈值。另外,为了保证合并结果的质量,如果两个事件的事件描述中任意一个出现人名或地名等实体词,为了保证合并后事件中描述的是相同或相似事件,相应的阈值应该比正常的阈值更大,比如可以设置第二设定阈值为0.96等。
S422,设置v=v+1,如果v≤n,执行S421,否则,将事件u作为新事件加入到当前的合并事件列表中并设置n=n+1;执行S423。
S423,设置u=u+1,如果u≤H,执行S421,否则,执行S424。
S424,获取当前事件列表中的任一个事件中的文本数量,如果该事件中的文本数量小于设定数量阈值例如小于3个,则将该事件从当前事件列表中删除;得到合并处理后的G个事件,并执行S500。
此外,对于合并后的每个事件,可参照前述内容重新计算事件的事件描述和事件描述特征向量。
S500,获取合并后的G个事件中的每个事件的评论者以及评论者对应的观点和立场。
在本发明实施例中,对合并后的事件,可基于训练后的观点句检测模型、观点抽取模型和立场检测模型抽取出事件的评论者及评论者对应的观点和立场,最后按照事件的演化时间顺序,输出对应的评论者、观点和立场,能够根据事件的演变,推断评论者的观点、立场的变化情况。
观点句检测模型的训练
1.1 数据集构建
对合并后的事件,选择若干事件进行数据标注。对事件中的文本,按句号划分为句子。选择文本前面N段(N为3~6中的一个)的句子,基于现有的实体识别工具识别出句子中是否含有人名,如果有人名,再判断是否有该人名对当前事件的观点,如果有,将该句子标注为1,为正样本,否则标注为0,为负样本。为了保证数据集的多样性,构建负样本时,要包含不含有人名的句子、句子中虽然有人名,但是不含观点的句子,以及虽然有人名和观点,但是不是针对该事件的观点的句子。为了模型训练效果,本发明限制正负样本的比例在一定范围内,例如,在1:5以内或者5:1以内。
1.2 模型训练
本发明实施例使用基于大规模语料预训练的语言模型BERT-wwm来训练观点句检测模型。模型的输入为事件的事件描述+句子,中间用SEP分隔符分开。模型的真实值为人工标注的结果。
模型的输入为:Q=[CLS,E,SEP,t,SEP]。
其中,CLS是特殊标识符,E是事件的事件描述,t是待判断的观点句,Q为模型输入。将Q输入到模型:hQ=BERT-wwm(Q)。
其中, hQ为经过BERT-wwm模型后得到的每个字符的特征。将hQ中CLS字符的向量输入一个分类层,并经过一个softmax激活函数得到模型预测结果:
yQ=softmx(WQhQCLS+bQ
其中,hQCLS为CLS字符的向量,WQ和bQ为模型参数, yQ为模型预测的结果,与人工标注的真实值计算loss来训练模型参数。如果t中包含事件E的观点,则真实值为1,否则为0。
观点抽取模型的训练
2.1 数据集构建
对1.1中标注为正样本的观点句,同时标注其评论者和评论者对该事件的观点。本发明实施例使用BIO等实体识别的标注方法对评论者和观点进行标注。其中B代表实体开头,I代表实体内部,O代表非实体。为了区分评论者和观点,本发明设置评论者的标注为:B-person、I-person、O,观点的标注为:B-view、I-view、O。对该事件中的所有正样本,使用上述方法标注出评论者和观点。
2.2 模型训练
本发明实施例使用基于大规模语料预训练的语言模型BERT-wwm加CRF层来训练观点抽取模型。其中CRF层显式地捕捉标签之间的依赖关系,对输出结果进行一定约束,使结果更加可控。模型的输入为事件的事件描述+句子,中间用SEP分隔符分开。模型的真实值为人工标注的结果,包括评论者和观点的标注结果。
模型的输入为:
Q=[CLS,E,SEP,t,SEP]
其中,CLS是特殊标识符,E是事件的事件描述,t是待抽取的观点句,Q为模型输入。将Q输入到模型:
 hQ=BERT-wwm(Q)其中, hQ为经过BERT-wwm模型后得到的每个字符的特征。将 hQ得到的特征向量输入CRF层,得到模型预测结果:
yQ =CRF(hQ)其中, yQ为模型预测的结果,与人工标注的真实值计算loss来训练模型参数。
立场检测模型的训练
对2.1中标注的评论者及观点,判断该评论者对某事件的立场。为了在事件演化中更准确地判断当前评论者的立场,本发明实施例在输入当前观点的同时,也输入当前评论者在该时间之前针对该事件的观点,这样在立场检测的同时考虑了事件的演化情况。
首先进行数据集标注,然后对模型进行训练。
3.1 数据集构建
对2.1中标注的观点句,将相同评论者针对同一个事件的评论的观点句,按照文本的发布时间进行排序,得到有序集合: T =[ T 1, T 2,... T N],其中T为相同评论者针对同一事件的评论的观点句集合。N为观点句的总个数。本发明将连续三个观点句拼接来构建数据集,其中前两个观点句作为用户评论历史,来预测第三个观点句的立场,即对T中的每个待预测的观点句,将该观点句之前的前两个观点句作为用户评论历史,与当前待预测的观点句进行拼接,然后再将事件描述与拼接后的观点句进行拼接,作为模型输入。如果待预测的观点句之前的用户评论历史不足两个,则将全部用户评论历史与待预测的观点句进行拼接。基于用户评论历史和待预测观点句,对立场进行人工标注,立场的标签有支持、反对和中立,分别标注为0、1和2。
3.2 模型训练
本发明实施例使用基于大规模语料预训练的语言模型BERT-wwm来训练立场检测模型。模型的输入为事件的事件描述+观点句,中间用SEP分隔符分开,其中观点句是由3.1中构造的观点句。模型的真实值为人工标注的结果。
模型的输入为:
Q=[CLS,E,SEP,T1,T2,T3,SEP]
其中,CLS是特殊标识符,E是事件的事件描述,T1,T2,T3是输入的观点句,T1和T2是用户评论历史,T3是待预测观点句。Q为模型输入。将Q输入到模型:
 hQ=BERT-wwm(Q)其中, hQ为经过BERT-wwm模型后得到的每个字符的特征。将 hQ中CLS字符的向量输入一个分类层,并经过一个softmax激活函数得到模型预测结果:
yQ=softmx(WQhQCLS+bQ)。
具体地,S500可具体包括:
S501,对于任一事件t中的任一文本x,将文本x中的前N段,按句号划分为句子,得到h(x)个句子;t的取值为1到G,x的取值为1到f(t),f(t)为G个事件中事件t中的文本数量。
S502,使用实体识别工具对h(x)个句子中的任一句子c中的人名进行识别,如果识别到人名,执行S503,否则,舍弃句子c,执行S505。C的取值为1到h(x)。
S503,将句子c作为观点句,并将事件t对应的事件描述与句子c进行拼接,得到第一拼接语句Tc,并将该拼接语句Tc输入到观点句检测模型中,得到对应的检测结果,如果对应的检测结果中包含观点,执行S504,否则,舍弃句子c,执行S505。
S504,将所述拼接语句Tc输入到观点抽取模型中,抽取句子c对应的评论者和观点;执行S505。
S505,设置c=c+1,如果c≤h(x),执行S502,否则,执行S506。
S506,设置x=x+1,如果x≤f(t),执行S501,否则,得到事件t中的所有文本中的观点句对应的评论者和观点,并执行S507。
S507,获取事件t中的任一评论者Rt d对应的观点句集Vt d={Vt d1,Vt d2,…,Vt de,…,Vt dg(d)},其中,Vt d中的观点句按照对应的文本的发布时间进行排序;Vt de为事件t中的第d个评论者Rt d对应的第e个观点句,d的取值为1到L(t),L(t)为事件t中的评论者的数量,e的取值为1到g(d),g(d)为Rt d对应的观点句数量。
S508,对于任一Vt de,如果e=1,则将事件t的事件描述和Vt de进行拼接,得到对应的第二拼接语句At de,并将At de输入到立场检测模型中,得到对应的立场Pt de;如果e≤3,则将事件t的事件描述和Vt d1至Vt de进行拼接,得到对应的拼接语句At de,并将At de输入到立场检测模型中,得到对应的立场Pt de;如果e>3,则将事件t的事件描述和Vt d(e-2)至Vt de进行拼接,得到对应的第二拼接语句At de,并将At de输入到立场检测模型中,得到对应的立场Pt de
基于S507和S508,可得到事件t对应的评论者以及评论者对应的观点和立场。
S509,设置t=t+1,如果t≤G,执行S501,否则,退出控制程序。
S600,获取针对G个事件中同一个事件或者在同一个事件下的每个评论者的按照发布时间排序的观点和立场并输出。
具体地,对合并后的每个事件,按照事件中文本的发布时间,对事件中的文本进行排序。对排序后的文本,将相同评论者的文本按照对应顺序进行排列,得到每个评论者针对同一事件按照文本发布时间由早到晚的顺序进行排序的观点和立场并输出。
本发明的实施例还提供了一种非瞬时性计算机可读存储介质,该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。
本发明的实施例还提供了一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。
本发明的实施例还提供一种计算机程序产品,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使该电子设备执行本说明书描述的根据本发明各种示例性实施方式的方法中的步骤。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明公开的范围由所附权利要求来限定。

Claims (10)

1.一种基于事件演化的用户观点和立场获取方法,其特征在于,所述方法包括如下步骤:
S100,基于待聚类文本中的每个文本的标题或者第一段内容获取每个文本的特征向量;
S200,基于所有文本的特征向量,利用设定聚类方法对待聚类文本进行聚类,得到多个类别,每个类别对应一个事件,每个事件包括至少一个文本;
S300,基于文本的特征向量和事件的事件描述特征向量之间的相似度对得到的多个事件进行清洗处理,得到清洗后的H个事件;其中,事件的事件描述特征向量基于设定的事件描述特征向量生成模型得到;
S400,基于事件的事件描述特征向量之间的相似度对清洗后的H个事件进行合并处理,得到合并后的G个事件;
S500,获取合并后的G个事件中的每个事件的评论者以及评论者对应的观点和立场;
S600,获取针对G个事件中同一个事件或者在同一个事件下的每个评论者的按照发布时间排序的观点和立场并进行输出。
2.根据权利要求1所述的基于事件演化的用户观点和立场获取方法,其特征在于,所述事件的事件描述特征向量基于如下步骤得到:
S301,基于设定的事件描述生成模型生成事件中的每个文本的事件描述;
S302,将获取的事件描述中生成频次最大的事件描述作为对应事件的事件描述;
S303,将事件的事件描述输入所述设定的事件描述特征向量生成模型中,得到对应的事件描述特征向量。
3.根据权利要求2所述的基于事件演化的用户观点和立场获取方法,其特征在于,所述设定的事件描述生成模型为训练后的T5或者BART预训练生成模型,所述设定的事件描述特征向量生成模型为CoSENT模型。
4.根据权利要求1所述的基于事件演化的用户观点和立场获取方法,其特征在于,S300具体包括:
S311,获取第p次清洗处理对应的当前待清洗事件中的任一事件中的任一文本的特征向量以及任一事件的事件描述和事件描述特征向量;p的取值为1到C0,C0为预设清洗次数;
S312,对于当前待清洗事件中的事件i中的第j个文本Tij,获取S1p ij,如果S1p ij≥D1p,则将Tij保留在事件i中,执行S316;否则,执行S313;其中,S1p ij为第p次清洗处理时Tij的特征向量和事件i的事件描述特征向量之间的相似度,i的取值为1到k,k为当前待清洗事件中的事件数量;j的取值为1到f(i),f(i)为事件i中的文本数量;D1p为第p次清洗处理对应的第一设定阈值;
S313,获取相似度集STij={ST1 ij,ST2 ij,…,STs ij,…,STk-1 ij},STs ij为Tij的特征向量和当前待清洗事件中除事件i之外的(k-1)个事件中的第s个事件对应的事件描述特征向量之间的相似度,s的取值为1到(k-1);执行S314;
S314,如果maxA≥D1p,则将Tij合并到maxA对应的事件中并从原事件中删除,否则,执行S315;maxA=max{ ST1 ij,ST2 ij,…,STs ij,…,STk-1 ij };
S315,为Tij创建一个新事件,并将Tij加入到对应的新事件中并从原事件中删除,设置k=k+1,执行S316;
S316,设置j=j+1,如果j≤f(i),执行S312,否则,设置i=i+1,如果i≤k,执行S312,如果i>k,执行S317;
S317,设置p=p+1,如果p≤C0,执行S311;否则,得到清洗处理后的H个事件,并执行S400。
5.根据权利要求1所述的基于事件演化的用户观点和立场获取方法,其特征在于,S400具体包括:
S410,基于H个事件获取按照文本数量递减的方式进行排序得到的事件列表S,并获取S中的任一事件u对应的事件描述和事件描述特征向量,u的取值为1到H;
S420,基于事件的事件描述特征向量之间的相似度对S进行合并处理,得到合并处理后的G个事件;
其中,S420具体包括:
S421,获取S2uv,如果S2uv≥D2,则将事件u和事件v进行合并,执行S423;否则,执行S422;其中,事件v为当前的合并事件列表中的第v个事件, S2uv为事件u的事件描述特征向量和事件v的事件描述特征向量之间的相似度,v的取值为1到n,n为当前的合并事件列表中的事件数量;D2为第二设定阈值;合并事件列表中的初始值为Null;
S422,设置v=v+1,如果v≤n,执行S421,否则,将事件u作为新事件加入到当前的合并事件列表中并设置n=n+1;执行S423;
S423,设置u=u+1,如果u≤H,执行S421,否则,执行S424;
S424,获取当前的合并事件列表中的任一个事件中的文本数量,如果该事件中的文本数量小于设定数量阈值,则将该事件从当前的合并事件列表中删除;得到合并处理后的G个事件,并执行S500。
6.根据权利要求1所述的基于事件演化的用户观点和立场获取方法,其特征在于,S500具体包括:
S501,对于任一事件t中的任一文本x,将文本x中的前N段,按句号划分为句子,得到h(x)个句子;t的取值为1到G,x的取值为1到f(t),f(t)为G个事件中事件t中的文本数量;
S502,对h(x)个句子中的任一句子c中的人名进行识别,如果识别到人名,执行S503,否则,舍弃句子c,执行S505;c的取值为1到h(x);
S503,将句子c作为观点句,并将事件t对应的事件描述与句子c进行拼接,得到第一拼接语句Tc,并将Tc输入到观点句检测模型中,得到对应的检测结果,如果对应的检测结果中包含观点,执行S504,否则,舍弃句子c,执行S505;
S504,将Tc输入到观点抽取模型中,抽取句子c对应的评论者和观点;执行S505;
S505,设置c=c+1,如果c≤h(x),执行S502,否则,执行S506;
S506,设置x=x+1,如果x≤f(t),执行S501,否则,得到事件t中的所有文本中的观点句对应的评论者和观点,并执行S507;
S507,获取事件t中的任一评论者Rt d对应的观点句集Vt d={Vt d1,Vt d2,…,Vt de,…,Vt dg(d)},其中,Vt d中的观点句按照对应的文本的发布时间进行排序;Vt de为事件t中的第d个评论者Rt d对应的第e个观点句,d的取值为1到L(t),L(t)为事件t中的评论者的数量,e的取值为1到g(d),g(d)为Rt d对应的观点句数量;
S508,对于任一Vt de,如果e=1,则将事件t的事件描述和Vt de进行拼接,得到对应的第二拼接语句At de,并将At de输入到立场检测模型中,得到对应的立场Pt de;如果e≤3,则将事件t的事件描述和Vt d1至Vt de进行拼接,得到对应的第二拼接语句At de,并将At de输入到立场检测模型中,得到对应的立场Pt de;如果e>3,则将事件t的事件描述和Vt d(e-2)至Vt de进行拼接,得到对应的第二拼接语句At de,并将At de输入到立场检测模型中,得到对应的立场Pt de
S509,设置t=t+1,如果t≤G,执行S501,否则,退出控制程序。
7.根据权利要求6所述的基于事件演化的用户观点和立场获取方法,其特征在于,所述观点句检测模型为基于BERT-wwm模型训练得到的模型。
8.根据权利要求6所述的基于事件演化的用户观点和立场获取方法,其特征在于,所述观点抽取模型为基于BERT-wwm模型和CRF层训练得到的模型。
9.根据权利要求6所述的基于事件演化的用户观点和立场获取方法,其特征在于,所述立场检测模型为基于BERT-wwm模型训练得到的模型。
10.根据权利要求1所述的基于事件演化的用户观点和立场获取方法,其特征在于,所述文本的特征向量和事件的事件描述特征向量基于CoSENT模型获取得到。
CN202310346366.3A 2023-04-03 2023-04-03 基于事件演化的用户观点和立场获取方法 Active CN116049413B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310346366.3A CN116049413B (zh) 2023-04-03 2023-04-03 基于事件演化的用户观点和立场获取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310346366.3A CN116049413B (zh) 2023-04-03 2023-04-03 基于事件演化的用户观点和立场获取方法

Publications (2)

Publication Number Publication Date
CN116049413A true CN116049413A (zh) 2023-05-02
CN116049413B CN116049413B (zh) 2023-06-13

Family

ID=86125915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310346366.3A Active CN116049413B (zh) 2023-04-03 2023-04-03 基于事件演化的用户观点和立场获取方法

Country Status (1)

Country Link
CN (1) CN116049413B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915446A (zh) * 2015-06-29 2015-09-16 华南理工大学 基于新闻的事件演化关系自动提取方法及其系统
CN106682123A (zh) * 2016-12-09 2017-05-17 北京锐安科技有限公司 一种获取热点事件的方法及装置
CN110232149A (zh) * 2019-05-09 2019-09-13 北京邮电大学 一种热点事件检测方法和系统
CN110399478A (zh) * 2018-04-19 2019-11-01 清华大学 事件发现方法和装置
JP2020112877A (ja) * 2019-01-08 2020-07-27 株式会社リコー 意見評価システム、情報処理システム、意見評価方法およびプログラム
CN112650852A (zh) * 2021-01-06 2021-04-13 广东泰迪智能科技股份有限公司 一种基于命名实体和ap聚类的事件归并方法
CN112861990A (zh) * 2021-03-05 2021-05-28 电子科技大学 一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质
CN113282754A (zh) * 2021-06-10 2021-08-20 北京中科闻歌科技股份有限公司 针对新闻事件的舆情检测方法、装置、设备和存储介质
CN114265932A (zh) * 2021-12-10 2022-04-01 国家计算机网络与信息安全管理中心广东分中心 一种融入深度语义关系分类的事件脉络生成方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915446A (zh) * 2015-06-29 2015-09-16 华南理工大学 基于新闻的事件演化关系自动提取方法及其系统
CN106682123A (zh) * 2016-12-09 2017-05-17 北京锐安科技有限公司 一种获取热点事件的方法及装置
CN110399478A (zh) * 2018-04-19 2019-11-01 清华大学 事件发现方法和装置
JP2020112877A (ja) * 2019-01-08 2020-07-27 株式会社リコー 意見評価システム、情報処理システム、意見評価方法およびプログラム
CN110232149A (zh) * 2019-05-09 2019-09-13 北京邮电大学 一种热点事件检测方法和系统
CN112650852A (zh) * 2021-01-06 2021-04-13 广东泰迪智能科技股份有限公司 一种基于命名实体和ap聚类的事件归并方法
CN112861990A (zh) * 2021-03-05 2021-05-28 电子科技大学 一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质
CN113282754A (zh) * 2021-06-10 2021-08-20 北京中科闻歌科技股份有限公司 针对新闻事件的舆情检测方法、装置、设备和存储介质
CN114265932A (zh) * 2021-12-10 2022-04-01 国家计算机网络与信息安全管理中心广东分中心 一种融入深度语义关系分类的事件脉络生成方法及系统

Also Published As

Publication number Publication date
CN116049413B (zh) 2023-06-13

Similar Documents

Publication Publication Date Title
CN110134757B (zh) 一种基于多头注意力机制的事件论元角色抽取方法
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN110737758B (zh) 用于生成模型的方法和装置
CN106815252B (zh) 一种搜索方法和设备
CN109933686B (zh) 歌曲标签预测方法、装置、服务器及存储介质
CN111639171A (zh) 一种知识图谱问答方法及装置
CN108875051A (zh) 面向海量非结构化文本的知识图谱自动构建方法及系统
CN108399158A (zh) 基于依存树和注意力机制的属性情感分类方法
CN109710744B (zh) 一种数据匹配方法、装置、设备及存储介质
CN108829822A (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN111221962B (zh) 一种基于新词扩展与复杂句式扩展的文本情感分析方法
CN111143569A (zh) 一种数据处理方法、装置及计算机可读存储介质
CN111898374B (zh) 文本识别方法、装置、存储介质和电子设备
CN107679110A (zh) 结合文本分类与图片属性提取完善知识图谱的方法及装置
CN112818698B (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN112131345B (zh) 文本质量的识别方法、装置、设备及存储介质
CN112905739A (zh) 虚假评论检测模型训练方法、检测方法及电子设备
CN112559734A (zh) 简报生成方法、装置、电子设备及计算机可读存储介质
CN111931516A (zh) 一种基于强化学习的文本情感分析方法及系统
CN116127060A (zh) 一种基于提示词的文本分类方法及系统
CN114444515A (zh) 一种基于实体语义融合的关系抽取方法
CN110569355A (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
Samih et al. Enhanced sentiment analysis based on improved word embeddings and XGboost.
Patil et al. Hate speech detection using deep learning and text analysis
CN114138969A (zh) 文本处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant