CN111797197B - 舆情分析的方法及装置 - Google Patents

舆情分析的方法及装置 Download PDF

Info

Publication number
CN111797197B
CN111797197B CN202010502777.3A CN202010502777A CN111797197B CN 111797197 B CN111797197 B CN 111797197B CN 202010502777 A CN202010502777 A CN 202010502777A CN 111797197 B CN111797197 B CN 111797197B
Authority
CN
China
Prior art keywords
user
vector
article
public opinion
splicing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010502777.3A
Other languages
English (en)
Other versions
CN111797197A (zh
Inventor
沈毅
杜向阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Qingdun Cloud Information Technology Co.,Ltd.
Original Assignee
Nanjing Aegis Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Aegis Information Technology Co ltd filed Critical Nanjing Aegis Information Technology Co ltd
Priority to CN202010502777.3A priority Critical patent/CN111797197B/zh
Publication of CN111797197A publication Critical patent/CN111797197A/zh
Application granted granted Critical
Publication of CN111797197B publication Critical patent/CN111797197B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种舆情分析的方法及装置,本申请的方法包括将文章对应的所有相关用户的交互行为信息、交互内容信息进行拼接得到文章向量;将文章的内容、用户与文章的交互行为信息、用户社交网络结构拼接得到用户向量;将所述文章向量和所述用户向量进行拼接;将拼接后的结果输入到预设的舆情分析模型中,得到舆情任务分析结果。本申请解决现有的舆情分析的方式分析准确性较低的问题。

Description

舆情分析的方法及装置
技术领域
本申请涉及自然语言处理技术领域,具体而言,涉及一种舆情分析的方法及装置。
背景技术
伴随着互联网及自媒体行业的蓬勃发展,舆情信息的传播方式和传播速度较之以往已经发生了本质上的变化,传统的人工舆情监测方式已经远远不能满足于现阶段的舆情处理需求。
现如今,市场上已经有大量专业的舆情监测软件,用于监测与政府或者企业单位相关的舆情信息。比如中移舆情通、智慧星光舆情等,它们都是依托于互联网大数据为基础,为政府及相关企业机构提供全方位的舆情服务以帮助他们对社会热点话题、突发事件做到快速发现、及时处置和正面引导。
但市面上现有的舆情分析技术大多采用的是基于舆情文本信息的分析方法,这些方法只采集了给出了文章的转发评论人,这种方法很大程度上忽视掉了现今舆情数据大多在社交网络中传播的,而社交平台上用户的社会网络关系和用户评论信息也会对舆情分析产生重要的辅助分析效果,因此现有的舆情分析的方式分析准确性较低。
发明内容
本申请的主要目的在于提供一种舆情分析的方法及装置,以解决现有的舆情分析的方式分析准确性较低的问题。
为了实现上述目的,根据本申请的第一方面,提供了一种舆情分析的方法。
根据本申请的舆情分析的方法包括:
将文章对应的所有相关用户的交互行为信息、交互内容信息、用户的个人信息进行拼接得到文章向量;
将文章的内容、用户与文章的交互行为信息、用户社交网络结构拼接得到用户向量;
将所述文章向量和所述用户向量进行拼接;
将拼接后的结果输入到预设的舆情分析模型中,得到舆情任务分析结果。
可选的,所述将文章对应的所有相关用户的交互行为信息、交互内容信息、用户的个人信息进行拼接得到文章向量包括:
将所述交互行为信息和所述交互内容信息分别转换为向量,所述交互行为信息包括用户之间的交互行为信息、用户与文章之间的交互行为信息;
将交互行为信息和交互内容信息对应的向量进行拼接;
基于注意力模型对拼接后的结果进行权重的调整后得到文章向量,一篇文章对应一个文章向量。
可选的,所述将文章的内容、用户与文章的交互行为信息、用户社交网络结构拼接得到用户向量包括:
将用户的个人信息、文章的主体内容、用户与文章的交互行为信息对应的向量进行拼接得到第一子用户向量;
获取用户社交网络结构中每个用户对应的向量表示,记作第二子用户向量;
将所述第一子用户向量和所述第二子用户向量进行拼接得到所述用户向量。
可选的,在将所述第一子用户向量和所述第二子用户向量进行拼接得到所述用户向量之前,所述方法还包括:
基于注意力模型对所述第一向量中的特征权重进行调整。
可选的,在获取用户社交网络结构中每个用户对应的向量表示之前,所述方法还包括:
基于图注意力神经网络建立所述用户社交网络结构。
可选的,所述将所述文章向量和所述用户向量进行拼接包括:
根据不同的舆情任务,对所述文章向量和所述用户向量进行筛选,并确定拼接策略;
根据拼接策略将筛选后的文章向量和用户向量进行拼接。
可选的,所述预设的舆情分析模型为分类模型,所述将拼接后的结果输入到预设的舆情分析模型中,得到舆情任务分析结果包括:
按照下述神经网络模型得到舆情任务分析结果
Figure BDA0002523773830000031
其中,
Figure BDA0002523773830000032
为对应类别的概率值,σ为激活函数,W1为第一层神经网络,W2为第二层神经网络,a为所述文章向量,b为所述用户向量。
为了实现上述目的,根据本申请的第二方面,提供了一种舆情分析的装置。
根据本申请的舆情分析的装置包括:
第一拼接单元,用于将文章对应的所有相关用户的交互行为信息、交互内容信息、用户的个人信息进行拼接得到文章向量;
第二拼接单元,用于将文章的内容、用户与文章的交互行为信息、用户社交网络结构拼接得到用户向量;
第三拼接单元,用于将所述文章向量和所述用户向量进行拼接;
确定单元,用于将拼接后的结果输入到预设的舆情分析模型中,得到舆情任务分析结果。
可选的,所述第一拼接单元包括:
转换模块,用于将所述交互行为信息和所述交互内容信息分别转换为向量,所述交互行为信息包括用户之间的交互行为信息、用户与文章之间的交互行为信息;
第一拼接模块,用于将交互行为信息和交互内容信息对应的向量进行拼接;
调整模块,用于基于注意力模型对拼接后的结果进行权重的调整后得到文章向量,一篇文章对应一个文章向量。
可选的,所述第二拼接单元包括:
第二拼接模块,用于将用户的个人信息、文章的主体内容、用户与文章的交互行为信息对应的向量进行拼接得到第一子用户向量;
获取模块,用于获取用户社交网络结构中每个用户对应的向量表示,记作第二子用户向量;
第三拼接模块,用于将所述第一子用户向量和所述第二子用户向量进行拼接得到所述用户向量。
可选的,所述装置还包括:
调整单元,用于在将所述第一子用户向量和所述第二子用户向量进行拼接得到所述用户向量之前,基于注意力模型对所述第一向量中的特征权重进行调整。
可选的,所述装置还包括:
建立单元,用于在获取用户社交网络结构中每个用户对应的向量表示之前,基于图注意力神经网络建立所述用户社交网络结构。
可选的,所述第三拼接单元包括:
筛选模块,用于根据不同的舆情任务,对所述文章向量和所述用户向量进行筛选,并确定拼接策略;
第四拼接模块,用于根据拼接策略将筛选后的文章向量和用户向量进行拼接。
可选的,所述预设的舆情分析模型为分类模型,所述确定单元用于:
按照下述神经网络模型得到舆情任务分析结果
Figure BDA0002523773830000051
其中,
Figure BDA0002523773830000052
为对应类别的概率值,σ为激活函数,W1为第一层神经网络,W2为第二层神经网络,a为所述文章向量,b为所述用户向量。
为了实现上述目的,根据本申请的第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行上述第一方面中任意一项所述的舆情分析的方法。
为了实现上述目的,根据本申请的第四方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器执行上述第一方面中任意一项所述的舆情分析的方法。
在本申请实施例中,舆情分析的方法及装置中,将文章对应的所有相关用户的交互行为信息、交互内容信息进行拼接得到文章向量;将文章的内容、用户与文章的交互行为信息、用户社交网络结构拼接得到用户向量;将所述文章向量和所述用户向量进行拼接;将拼接后的结果输入到预设的舆情分析模型中,得到舆情任务分析结果。可以看出,本申请中再进行舆情任务分析时,是根据文章向量和用户向量得到的分析结果,文章向量和用户向量的构建都参考了用户之间以及用户与文章之间的交互行为以及交互内容关系,即在任务分析时充分考虑了用户的社会网络关系和用户评论信息对结果的影响,因此得到的分析结果会更加的准确。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的一种舆情分析的方法流程图;
图2是根据本申请实施例提供的一种有偏随机游走的示意图;
图3是根据本申请实施例提供的一种用户表示模型的结构图;
图4是根据本申请实施例提供的一种可视化舆情传播图的示意图;
图5是根据本申请实施例提供的一种舆情分析的装置的组成框图;
图6是根据本申请实施例提供的另一种舆情分析的装置的组成框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
根据本申请实施例,提供了一种舆情分析的方法,如图1所示,该方法包括如下的步骤:
S101.将文章对应的所有相关用户的交互行为信息、交互内容信息、用户的个人信息进行拼接得到文章向量。
文章是指某一范围内的文章,范围根据实际的需求确定。比如可以是某一平台内的所有舆情文章,或者可以是某一类的舆情文章,或者某一时段的所有舆情文章等等。平台可以为比如微博、微信、头条新闻、网易新闻等平台。与文章对应的所有相关用户为对文章有观看、转发、评论、点赞、收藏等行为的用户,其中也包括文章的发布者。发布者或者称为发布源,可以是个人或者是机构。交互行为信息包括用户之间的交互行为信息、用户与文章之间的交互行为信息。交互行为信息包括观看、转发、评论、点赞、收藏等行为信息。
交互内容信息包括在交互过程中产生的数据,比如评论过程中产生的评论数据等。
本步骤中获取各种数据(用户交互行为信息、交互内容信息、用户的个人信息)的方式可以为从平台相关API中直接获取数据的方式,或者以网络爬虫的方式去爬取需要的数据。用户的个人信息包括用户的身份标识、基本属性等特征信息。
将交互行为信息和交互内容信息进行拼接具体为,如图2所示,其中用户文章模型就是将交互行为信息和交互内容信息得到文章向量的模型:
首先,将交互行为信息和交互内容信息分别转换为向量;
交互行为信息可以用独热编码或者标签编码来表示,只要能区分不同的交互行为即可。
交互内容信息可以使用诸如word2vec、Glove或者Bert等模型来对文本进行向量表示,这个表达方式不具体限定,只要能对文本进行表示即可。
其次,将交互行为信息和交互内容信息对应的向量进行拼接;
将前述得到的交互行为信息的向量表示和交互内容信息的向量表示进行拼接,具体的拼接方式:对于每一篇文章,分别将该文章对应的所有交互行为信息的向量和所有的交互内容信息进行向量拼接。另外还需要说明的是,在进行向量的拼接前还需要将用户的个人信息也转换为向量增加到对应的交互行为信息的向量以及交互内容信息对应的向量中。用户的个人信息的向量表示也可以使用诸如word2vec、Glove或者Bert等模型来对文本进行向量表示。
最后,基于注意力模型对拼接后的结果进行权重的调整后得到文章向量,一篇文章对应一个文章向量。
直接进行向量的拼接无法反应出不同的交互行为的权重,因为不同的文章有可能偏重的交互行为是不同的。基于注意力模型进行训练可以得到包含不同行为的权重系数的向量拼接结果。
S102.将用户的个人信息、文章的内容、用户与文章的交互行为信息、用户社交网络结构拼接得到用户向量。
具体包括:
第一,将用户的个人信息、文章的主体内容、用户与文章的交互行为信息对应的向量进行拼接得到第一子用户向量;
文章的内容即文章的主体内容,包括标题和正文,文章的内容的向量表示也可以使用诸如word2vec、Glove或者Bert等模型来对文本进行向量表示,这个表达方式不具体限定,只要能对文本进行表示即可。用户与文章的交互行为信息的向量表示是可以用独热编码或者标签编码来表示,只要能区分不同的交互行为即可。用户的个人信息包括用户的个人信息包括用户的身份标识、基本属性等特征信息,用户的个人信息的向量表示也可以使用诸如word2vec、Glove或者Bert等模型来对文本进行向量表示。
将用户的个人信息的向量表示、文章的主体内容的向量表示、用户与文章的交互行为信息的向量表示进行拼接得到第一子用户向量。需要说明的是,在拼接得到第一子用户向量的过程中也需要通过注意力模型进行交互行为信息的权重的调整,得到包含交互行为信息的权重系数的第一子用户向量。一篇文章对应一个第一子用户向量。
第二,获取用户社交网络结构中每个用户对应的向量表示,记作第二子用户向量;
本实施例中每个用户对应的向量表示是基于图注意力神经网络(GraphAttensionNetwork,GAT)得到的,建立了图神经网络结构图(即用户社交网络结构),图神经网络结构图中每个节点的向量表示就是不同的用户的向量表示。下面进行详细的说明:
首先,获取与文章有交互关系的所有用户的身份标识以及用户之间的交互关系;
其次,根据身份标识、交互关系、无权重图结构,基于预设的节点表示方法(可以为node2vec、word2vec、Bert等表示方法)得到图神经网络结构图,以及图神经网络结构图中每个节点的特征向量(第二子用户向量);本实施例以node2vec为例进行具体说明。
1)通过无权重图结构G=(V,E)来表示上述步骤中得到的每个用户以及交互关系的用户(包括直接有交互,或者通过同一篇文章有间接交互)。其中V是节点的集合,每个节点都表示一个用户,每个节点通过对应的用户的身份标识进行区别。E是边的集合,每条边都表示其所连接节点间的关系。然后,基于Node2Vec来初始化用户的向量化表示即得到每个节点的特征向量。node2vec是一种综合考虑DFS邻域和BFS邻域的graph embedding方法。简单来说,可以看作是deepwalk的一种扩展,可以看作是结合了DFS和BFS随机游走的deepwalk。
具体的基于Node2Vec来初始化用户的向量化表示,具体方法如下:将V集合中的每个节点v通过最大化已观测到的节点概率产生,下述公式为每个节点v通过最大化已观测到的节点概率:
Figure BDA0002523773830000091
其中,f(u)是大小为|V|*d的矩阵参数,u为源观测节点,f(u)是将节点u映射为embedding向量的映射函数,对于图结构中每个节点u,定义NS(u)为通过邻居节点采样策略S采样出的节点u的近邻节点集合,NS(u)被包括于V。观测到的节点集合S(u)是由从v节点开始的随机漫步所产生的。d为每个用户节点输入向量的维数(比如年龄、性别、等维度)。
另外,对节点集合S(u)的产生进行详细说明:具体为基于有偏随机游走的方法得到的。
如图2所示,假设我们从t节点开始了一个randomWalk,现在到达了v节点,为了计算下一步路线,Node2Vec设计了一个二阶转移概率算法:节点间转移概率为:
πvx=αpq(t,x)·ωvx
wvx为两个节点间边的权重(对应与前述的权重系数),αpq为节点在路径搜索中设置的偏移量,x为下一步节点
Figure BDA0002523773830000101
其中,当dtx=0时,v回到t节点,搜索偏置为1/p;当dtx=1时,x为t的直接邻居,相当于广度优先搜索,这时的搜索偏置为1;当dtx=2时,x是t的邻居的邻居,相当于深度优先搜索,这时的搜索偏置为1/q。可以使用beam search(集束搜索)的方式来寻找最优的p和q,也可以根据具体的舆情场景任务需要来手动选择p和q。
该方法整体上是一种有偏的二阶随机游走方法,p和q为控制节点随机游走的参数,参数p控制立即重新访问遍历中的节点的可能性。参数q用来控制节点继续向内部节点跳转还是向外部节点跳转。dtx指的是节点t到节点x的距离。Node2vec这种方法通过调整随机游走权重的方法使graph embedding的结果在网络的同质性和结构性中进行权衡。
2)基于注意力机制对每个节点的特征向量进行更新。
基于注意力机制是为了计算结构图中每个节点与邻近节点的相关性系数,然后根据相关性系数来对不同的邻近点分配不同的权重系数。注意力机制是对对邻近节点特征加权求和,在得到不同邻近点的权重系数后进行加权求和可以得到更新的特征向量。在社交网络中,用户之间交互的权重是不同的,因次通过注意力机制能够更好的表示不同的用户之间的交互权重。具体如下:
<1>基于单个注意力机制或者多头注意力机制计算每个节点与其邻节点的注意力系数。
本步骤中结合具体的示例进行说明:
先基于共享线性变换权重矩阵对每个节点的特征向量进行特征增强处理;然后,基于增强处理后的特征向量计算每个节点与其邻节点的注意力系数;最后,通过预设的回归函数对注意力系数进行归一化处理。
假设某一节点v的特征向量为hv,其邻节点u的特征向量为hu,则对应的计算每个节点与其邻节点的注意力系数的公式如下:
Figure BDA0002523773830000111
其中,evu为节点v与邻节点u的注意力系数,W为共享线性变换权重矩阵,a为attension系数。
需要说明的是为了更好的表达节点间的社会网络关系特征,在节点上运用共享线性变换权重矩阵W,再为每个节点加上self-attension。W是一个权重矩阵共享参数作用于所有网络节点,相当于对节点特征进行了增维,算是一种常见的特征增强方法。
另外,邻节点只考虑一度邻居,为了简化计算,使用softmax(即为预设的回归函数)对前述得到的注意力系数evu使进行归一化操作得到αvu,αvu是经过归一化处理后的注意力系数,也是本步骤中最终需要得到的注意力系数,注意力机制是一个单层前馈神经网络,使用LeakyRelu作为激活函数,Ni为V节点的邻近节点结合。则αvu的计算公式如下:
Figure BDA0002523773830000121
前述为基于单个注意力机制计算得到的注意力系数。下面对基于多头注意力机制multi-head attension计算注意力系数进行说明。
每一个注意力的头都有它自己的参数,基于多头注意力机制计算注意力系数即整合多个注意力机制的输出结果。一般整合的方式有两种:拼接或者加和求平均。即基于多个独立的注意力机制分别得到多个注意力系数,然后将多个注意力系数进行拼接或者加和求平均。每个注意力系数的计算可以参见上述基于单个注意力机制计算注意力系数的过程。
<2>根据注意力系数对每个节点的特征向量进行更新。
对应于上述计算得到的注意力系数αvu对每个节点的特征向量进行更新,更新的过程包括:首先,根据注意力系数为每个节点对应的邻节点分配权重系数:在为每个邻节点分配权重系数时,权重系数与注意力系数成正比,注意力系数越大对应的权重系数也越大。也可以直接将注意力系数作为权重系数。然后,根据权重系数对每个节点的邻节点的特征向量进行加权求和得到每个节点对应的更新特征向量。
另外,如有新增加的用户和/或新增加的交互关系新的文章或者用户加入,则对应的图神经网络结构图也会根据更新的数据进行动态的调整更新,具体的更新过程如下:首先,获取平台的更新数据,更新数据包括新增加的用户和/或新增加的交互关系;其次,根据更新数据更新图神经网络结构图以及图神经网络结构图中每个节点的特征向量;再次,基于注意力机制再次对更新后的图神经网络结构图中每个节点的特征向量进行更新。
比如,有发布者发布新的文章,多个用户对该文章进行转发、观看、评论等行为。相当于社交网络发生了变化,因此为了实时的记录更新社交网络的变化,需要对之前建立的图神经网络结构图进行更新以及每个用户的特征向量进行更新。具体的,获取更新数据对应的用户身份标识、交互关系,对于新的用户身份标识和/或交互关系,结构图中的节点和/或边会发生变化,对应的节点向量需要重新进行初始化以及更新的过程。向量初始化的过程可以参见前述“根据身份标识、交互关系、无权重图结构,基于预设的节点表示方法得到图神经网络结构图,以及图神经网络结构图中每个节点的特征向量”的实现方式,不同的是身份标识和交互关系中增加了更新数据的身份标识和交互关系。对于重新进行更新的过程可以参见前述“基于注意力机制对每个节点的特征向量进行更新”的实现过程。
第三,将所述第一子用户向量和所述第二子用户向量进行拼接得到所述用户向量。
将第一子用户向量和第二子用户向量进行向量的拼接,给出具体的示例进行说明:比如对于文章A,与其有交互行为的用户包括用户a,b,c,则在拼接时,可以将文章A对应的第一子用户向量以及用户a,b,c对应的三个第二子用户向量进行拼接。在拼接得到用户向量的过程中也需要通过注意力模型进行不同用户的权重的调整,得到包含不同用户的权重系数的用户向量。
对于本步骤的流程给出具体的结构图进行说明,如图3所示,其中用户表示模型即为得到用户向量的模型,其中用户与舆情文章的交互行为表示即为得到的第一子用户向量,用户的社交网络关系表示即为得到的第二子用户向量。
S103.将文章向量和用户向量进行拼接。
将前述步骤S101和S102得到的文章向量和用户向量进行向量的拼接,得到拼接结果。
需要说明的是,在具体拼接时需要根据不同的舆情任务,对所述文章向量和所述用户向量进行筛选,并确定拼接策略;然后根据拼接策略将筛选后的文章向量和用户向量进行拼接。给出具体的示例进行说明:比如舆情任务为正负舆情分析任务,就筛选出正面效应的文章和负面效应的文章,用户向量也是对正面效应的文章或负面效应的文章有交互行为的用户对应的向量表示。对应的拼接策略可以为将每个正面/负面效应的文章对应的文章向量与该文章对应的所有用户的用户向量进行拼接,拼接后一个文章对应一个拼接结果。再比如,若舆情任务为用户对某种类型的文章的偏好,这种情况下,筛选出每个用户对应参与交互的该种类型的所有文章,然后对于每个用户向量,将该用户对应的用户向量与参与交互的该种类型的所有文章对应的文章向量进行拼接,拼接后一个用户对应一个拼接结果。
S104.将拼接后的结果输入到预设的舆情分析模型中,得到舆情任务分析结果。
按照下述神经网络模型得到舆情任务分析结果
Figure BDA0002523773830000141
其中,
Figure BDA0002523773830000142
为对应类别的概率值,σ为激活函数,W1为第一层神经网络,W2为第二层神经网络,a为所述文章向量,b为所述用户向量。
将步骤S103中得到的每一个拼接结果作为一个神经网络模型的输入,得到分类结果,结果是被划分为某一类的概率。对于上述正负舆情分析任务,分类结果可以包括某一正面文章被转发的概率、被评论的概率、被评论为正面文章的概率等等。对于上述用户对某种类型的文章的偏好分类的任务,分类结果可以为偏好的程度(喜欢,一般,不喜欢等)。上述分类结果可以根据具体的任务进行确定。需要说明的是,不同的任务在使用神经网络模型分析之前,需要通过对应的训练样本(已知分类结果的样本)对神经网络模型进行训练得到。
从以上的描述中,可以看出,本申请实施例的舆情分析的方法中,将文章对应的所有相关用户的交互行为信息、交互内容信息进行拼接得到文章向量;将文章的内容、用户与文章的交互行为信息、用户社交网络结构拼接得到用户向量;将所述文章向量和所述用户向量进行拼接;将拼接后的结果输入到预设的舆情分析模型中,得到舆情任务分析结果。可以看出,本申请中再进行舆情任务分析时,是根据文章向量和用户向量得到的分析结果,文章向量和用户向量的构建都参考了用户之间以及用户与文章之间的交互行为以及交互内容关系,即在任务分析时充分考虑了用户的社会网络关系和用户评论信息对结果的影响,因此得到的分析结果会更加的准确。
本实施例在舆情传播分析任务中的应用说明:
根据用户间关联程度、用户的偏好分类并结合社交网络结构图输出可视化舆情传播图。
其中用户间的关联程度为根据社交网络结构图中用户节点之间的权重系数和用户节点之间的交互次数得到的。用户节点之间的权重系数可以由前述步骤S102中确定,交互次数可以通过统计的方式获得。将用户节点之间的权重系数与对应的交互次数做乘积运算,根据乘积结果确定关联程度,乘积结果越大,关联程度越高。
“根据用户间关联程度、用户的偏好分类并结合社交网络结构图输出可视化舆情传播图”具体为:将社交网络结构的每个用户作为可视化舆情传播图中的节点;将有交互关系的用户通过连接线进行关联,根据用户间关联程度来确定连接线的属性值;根据某用户与其他用户的交互次数确定该用户节点的图形大小;根据用户的偏好分类确定可视化舆情传播图中的节点的图形的颜色属性值,同一偏好分类对应的颜色属性值相同。
需要说明的是,连接线的属性值为连接线的粗细,关联程度越高,连接线越粗;交互次数越多,节点的图形越大;同一种偏好分类对应的节点的图形的颜色属性值相同。对于有多个偏好分类的用户节点,以其偏好分类的概率值最大的类型为偏好类型。或者可以在节点的图形中用不同的颜色值来表示不同的偏好类型。本实施例给出一种可视化舆情传播图的示意图,如图4所示。其中每个节点为用户对应的身份标识,节点对应的图形为圆形,圆形越大,表示该用户与其他用户的交互次数越多;不同节点之间通过直线连接线表示有关联;直线连接线越粗,表示两个用户之间的关系越密切,另外,对于连接线的颜色根据粗细的不同设置不同的颜色值,比如连接线越粗,颜色越深;同一偏好类型的用户对应的圆形的颜色是相同的。
实时监控舆情文章的实时交互信息。
实时监控旧的舆情文章的新动态变化,包括观看、评论、点赞、转发等交互信息;实时监控新的舆情文章的动态变化,包括发布源,观看、评论、点赞、转发等交互信息。交互信息中还包括对应的交互的用户的身份标标识,时间先后顺序等。
根据实时交互信息将舆情文章的实时传播路径在可视化舆情传播图中进行动态展示。
舆情文章的实时传播路径为在社交网络结构中用户间的流转路径,随着时间的推移,对于某一篇舆情文章可以看到在社交网络中的用户间的流动。动态展示的效果类似于海浪的传播或者地震的传播,由发布源向外传播,非常的直观。
另外,对于新的交互信息,会在动态显示传播路径的同时,进行对社交网络结构图进行更新,包括用户之间的权重系数,每个用户的向量表示、用户间的关联程度、用户的偏好分类等等所有可能受到影响的数据进行更新。
进一步的,本实施例还可以进行舆情文章传播路径的预测,使用户(政府机构等)可以提前进行准确的分析预测,提前进行事件的应对准备等。具体的预测原理为:获取新的舆情文章的源信息,源信息包括发布源、文章类别(跟用户的偏好类型分类是相同的);根据源信息以及可视化舆情传播图对舆情传播路径进行预测:首先,根据发布源在可视化舆情传播图中查找对应的源节点;根据源节点、与源节点有连接关系的其他节点及其偏好分类、源节点与其他节点连接线的属性值、文章的类别对舆情传播路径进行预测。
在预测的过程中,比如,对于某一类的舆情文章,优先选择同类偏好的用户以及关系密切的用户作为传播的预测路径中的流转点。
最后,对本申请的技术效果进行总结:
1、基于图注意力神经网络方法去动态地构建社会网络关系图(社交网络结构图)以更精确地去监控、分析、预测社交网络中的舆情分析问题;
2、能够借助于图网络的结构来刻画个人用户画像和个人用户的网络社交关系;
3、将图神经网络应用于舆情传播分析任务中,通过动态图模型来可视化表示舆情传播任务。
本申请与现有技术的实施方案对比:
首先,图神经网络模型在网络结构上较传统网络模型和其他方法更适合于表示舆情任务中用户间的社会网络关系结构,从而能够更精准的分析具体的舆情任务,实时监测各项舆情数据指标以及舆情事件在网络用户间的传播过程。
其次,以往的舆情分析方法往往去静态地计算某一时间点舆情事件或其他任务的重要性,再将多个时间点计算结果串联起来以达到“动态”监测的效果,而本发明中的方法通过动态计算图网络结构中的节点和节点间的关系来实现在不同时间点或舆情事件下的抽象表示。
最后,传统的舆情分析方法只是单独地分析舆情文章里的文本内容,忽视了当前舆情传播任务已从传统新闻平台网站转向了以用户为中心的社交网络平台上的现状,从而并没有重视用户在现代舆情事件传播分析任务上起到的重要作用。而本申请在设计模型的过程中将用户这一群体融入到舆情事件分析任务中来,不仅能够更准确的分析相应的舆情子任务,还能对社交网络下各用户群体进行较为精确的用户画像描写。
本发明的优点是构建了基于图注意力神经网络模型的舆情传播分析方法,在以往的舆情传播分析任务方法中还尚未出现过利用社交网络关系并且使用图神经网络的结构存储、训练、发现社交网络中用户的关联关系的技术方法。而在本发明中,图神经网络与注意力机制相结合的方法完美的适用于舆情分析业务中社交网络关系的结构。传统的舆情分析方法往往是基于关键词匹配、基于传统神经网络结构模型等方式单独去训练网络上的舆情文本数据,这样在舆情分析过程中就没有考虑到用户的信息(如用户间的社会网络关系、用户和舆情文本间的关系)。另外本发明的舆情分析方法在用户模型构建过程中采用了动态计算的方法,这样可以实现对于网络用户及网络舆情事件的实时监督,并可以实时可视化地利用本模型来观测舆情事件在传播时整个社交网络中各个用户节点的变化,舆情事件是如何通过各个用户节点传播开来的,以及哪些节点(即用户)是在本次舆情传播中起着关键的传播作用的。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本申请实施例,还提供了一种用于实施上述图1方法的舆情分析的装置,如图5所示,该装置包括:
第一拼接单元31,用于将文章对应的所有相关用户的交互行为信息、交互内容信息、用户的个人信息进行拼接得到文章向量;
第二拼接单元32,用于将文章的内容、用户与文章的交互行为信息、用户社交网络结构拼接得到用户向量;
第三拼接单元33,用于将所述文章向量和所述用户向量进行拼接;
确定单元34,用于将拼接后的结果输入到预设的舆情分析模型中,得到舆情任务分析结果。
从以上的描述中,可以看出,本申请实施例的舆情分析的装置中,将文章对应的所有相关用户的交互行为信息、交互内容信息进行拼接得到文章向量;将文章的内容、用户与文章的交互行为信息、用户社交网络结构拼接得到用户向量;将所述文章向量和所述用户向量进行拼接;将拼接后的结果输入到预设的舆情分析模型中,得到舆情任务分析结果。可以看出,本申请中再进行舆情任务分析时,是根据文章向量和用户向量得到的分析结果,文章向量和用户向量的构建都参考了用户之间以及用户与文章之间的交互行为以及交互内容关系,即在任务分析时充分考虑了用户的社会网络关系和用户评论信息对结果的影响,因此得到的分析结果会更加的准确。
进一步的,如图6所示,所述第一拼接单元31包括:
转换模块311,用于将所述交互行为信息和所述交互内容信息分别转换为向量,所述交互行为信息包括用户之间的交互行为信息、用户与文章之间的交互行为信息;
第一拼接模块312,用于将交互行为信息和交互内容信息对应的向量进行拼接;
调整模块313,用于基于注意力模型对拼接后的结果进行权重的调整后得到文章向量,一篇文章对应一个文章向量。
进一步的,如图6所示,所述第二拼接单元32包括:
第二拼接模块321,用于将用户的个人信息、文章的主体内容、用户与文章的交互行为信息对应的向量进行拼接得到第一子用户向量;
获取模块322,用于获取用户社交网络结构中每个用户对应的向量表示,记作第二子用户向量;
第三拼接模块323,用于将所述第一子用户向量和所述第二子用户向量进行拼接得到所述用户向量。
进一步的,如图6所示,所述装置还包括:
调整单元35,用于在将所述第一子用户向量和所述第二子用户向量进行拼接得到所述用户向量之前,基于注意力模型对所述第一向量中的特征权重进行调整。
进一步的,如图6所示,所述装置还包括:
建立单元36,用于在获取用户社交网络结构中每个用户对应的向量表示之前,基于图注意力神经网络建立所述用户社交网络结构。
进一步的,如图6所示,所述第三拼接单元33包括:
筛选模块331,用于根据不同的舆情任务,对所述文章向量和所述用户向量进行筛选,并确定拼接策略;
第四拼接模块332,用于根据拼接策略将筛选后的文章向量和用户向量进行拼接。
进一步的,所述预设的舆情分析模型为分类模型,所述确定单元34用于:
按照下述神经网络模型得到舆情任务分析结果
Figure BDA0002523773830000201
其中,
Figure BDA0002523773830000202
为对应类别的概率值,σ为激活函数,W1为第一层神经网络,W2为第二层神经网络,a为所述文章向量,b为所述用户向量。
具体的,本申请实施例的装置中各单元、模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
根据本申请实施例,还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行上述方法实施例中的舆情分析的方法。
根据本申请实施例,还提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器执行上述方法实施例中的舆情分析的方法。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (9)

1.一种舆情分析的方法,其特征在于,所述方法包括:
将文章对应的所有相关用户的交互行为信息、交互内容信息、用户的个人信息进行拼接得到文章向量;
将文章的内容、用户与文章的交互行为信息、用户社交网络结构拼接得到用户向量;
将所述文章向量和所述用户向量进行拼接;
将拼接后的结果输入到预设的舆情分析模型中,得到舆情任务分析结果;
所述将文章对应的所有相关用户的交互行为信息、交互内容信息、用户的个人信息进行拼接得到文章向量包括:
将所述交互行为信息和所述交互内容信息分别转换为向量,所述交互行为信息包括用户之间的交互行为信息、用户与文章之间的交互行为信息;
将交互行为信息和交互内容信息对应的向量进行拼接;
基于注意力模型对拼接后的结果进行权重的调整后得到文章向量,一篇文章对应一个文章向量。
2.根据权利要求1所述的舆情分析的方法,其特征在于,所述将文章的内容、用户与文章的交互行为信息、用户社交网络结构拼接得到用户向量包括:
将用户的个人信息、文章的主体内容、用户与文章的交互行为信息对应的向量进行拼接得到第一子用户向量;
获取用户社交网络结构中每个用户对应的向量表示,记作第二子用户向量;
将所述第一子用户向量和所述第二子用户向量进行拼接得到所述用户向量。
3.根据权利要求2所述的舆情分析的方法,其特征在于,在将所述第一子用户向量和所述第二子用户向量进行拼接得到所述用户向量之前,所述方法还包括:
基于注意力模型对所述第一子用户向量中的特征权重进行调整。
4.根据权利要求2所述的舆情分析的方法,其特征在于,在获取用户社交网络结构中每个用户对应的向量表示之前,所述方法还包括:
基于图注意力神经网络建立所述用户社交网络结构。
5.根据权利要求1所述的舆情分析的方法,其特征在于,所述将所述文章向量和所述用户向量进行拼接包括:
根据不同的舆情任务,对所述文章向量和所述用户向量进行筛选,并确定拼接策略;
根据拼接策略将筛选后的文章向量和用户向量进行拼接。
6.根据权利要求1所述的舆情分析的方法,其特征在于,所述预设的舆情分析模型为分类模型,所述将拼接后的结果输入到预设的舆情分析模型中,得到舆情任务分析结果包括:
按照下述神经网络模型得到舆情任务分析结果
Figure FDA0002930214230000021
其中,
Figure FDA0002930214230000022
为对应类别的概率值,σ为激活函数,W1为第一层神经网络,W2为第二层神经网络,a为所述文章向量,b为所述用户向量。
7.一种舆情分析的装置,其特征在于,所述装置包括:
第一拼接单元,用于将文章对应的所有相关用户的交互行为信息、交互内容信息、用户的个人信息进行拼接得到文章向量;
第二拼接单元,用于将文章的内容、用户与文章的交互行为信息、用户社交网络结构拼接得到用户向量;
第三拼接单元,用于将所述文章向量和所述用户向量进行拼接;
确定单元,用于将拼接后的结果输入到预设的舆情分析模型中,得到舆情任务分析结果;
所述将文章对应的所有相关用户的交互行为信息、交互内容信息、用户的个人信息进行拼接得到文章向量包括:
将所述交互行为信息和所述交互内容信息分别转换为向量,所述交互行为信息包括用户之间的交互行为信息、用户与文章之间的交互行为信息;
将交互行为信息和交互内容信息对应的向量进行拼接;
基于注意力模型对拼接后的结果进行权重的调整后得到文章向量,一篇文章对应一个文章向量。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-6任意一项所述的舆情分析的方法。
9.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-6任意一项所述的舆情分析的方法。
CN202010502777.3A 2020-06-04 2020-06-04 舆情分析的方法及装置 Active CN111797197B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010502777.3A CN111797197B (zh) 2020-06-04 2020-06-04 舆情分析的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010502777.3A CN111797197B (zh) 2020-06-04 2020-06-04 舆情分析的方法及装置

Publications (2)

Publication Number Publication Date
CN111797197A CN111797197A (zh) 2020-10-20
CN111797197B true CN111797197B (zh) 2021-03-26

Family

ID=72803201

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010502777.3A Active CN111797197B (zh) 2020-06-04 2020-06-04 舆情分析的方法及装置

Country Status (1)

Country Link
CN (1) CN111797197B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590558A (zh) * 2017-03-07 2018-01-16 北京理工大学 一种基于多层集成学习的微博转发预测方法
CN107741953A (zh) * 2017-09-14 2018-02-27 平安科技(深圳)有限公司 社交平台用户的现实关系匹配方法、装置及可读存储介质
CN108038205A (zh) * 2017-12-15 2018-05-15 福州大学 针对中文微博的观点分析原型系统
CN109919316A (zh) * 2019-03-04 2019-06-21 腾讯科技(深圳)有限公司 获取网络表示学习向量的方法、装置和设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8355972B2 (en) * 2007-04-17 2013-01-15 Intellectspace Corporation Systems and methods for displaying information about financial markets
CN110727758B (zh) * 2018-06-28 2023-07-18 郑州芯兰德网络科技有限公司 一种基于多长度文本向量拼接的舆情分析方法及其系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590558A (zh) * 2017-03-07 2018-01-16 北京理工大学 一种基于多层集成学习的微博转发预测方法
CN107741953A (zh) * 2017-09-14 2018-02-27 平安科技(深圳)有限公司 社交平台用户的现实关系匹配方法、装置及可读存储介质
CN108038205A (zh) * 2017-12-15 2018-05-15 福州大学 针对中文微博的观点分析原型系统
CN109919316A (zh) * 2019-03-04 2019-06-21 腾讯科技(深圳)有限公司 获取网络表示学习向量的方法、装置和设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"新浪微博网信息传播分析与预测";曹玖新 等;《计算机学报》;20140430;第37卷(第4期);第779-790页 *

Also Published As

Publication number Publication date
CN111797197A (zh) 2020-10-20

Similar Documents

Publication Publication Date Title
Gao et al. Consensus reaching with non-cooperative behavior management for personalized individual semantics-based social network group decision making
Liu et al. Consensus model for large-scale group decision making based on fuzzy preference relation with self-confidence: Detecting and managing overconfidence behaviors
US10817667B2 (en) Method and system for a chat box eco-system in a federated architecture
Carrasco et al. Evaluation of the hotels e-services quality under the user’s experience
Abdullah et al. A new DEMATEL method based on interval type-2 fuzzy sets for developing causal relationship of knowledge management criteria
US7340060B2 (en) System and method for behavioural modelling
CN111797333B (zh) 舆情传播任务展示的方法及装置
Liang et al. A large-scale group decision-making model with no consensus threshold based on social network analysis
CN111797327B (zh) 社交网络建模的方法及装置
Tang et al. A procedure for group decision making with interval-valued intuitionistic linguistic fuzzy preference relations
Alshmrany Adaptive learning style prediction in e-learning environment using levy flight distribution based CNN model
Wu et al. A neural network based reputation bootstrapping approach for service selection
Du et al. A dynamic intelligent recommendation method based on the analytical ER rule for evaluating product ideas in large-scale group decision-making
Rogova Information quality in fusion-driven human-machine environments
Liu et al. Managing multi-granular probabilistic linguistic information in large-scale group decision making: A personalized individual semantics-based consensus model
CN111797197B (zh) 舆情分析的方法及装置
Wu et al. Toward predicting active participants in tweet streams: A case study on two civil rights events
Kondratyeva et al. Evaluating web service quality using finite state models
Tan et al. A method towards Web service combination for cross-organisational business process using QoS and cluster
Tibermacine et al. Reputation evaluation with malicious feedback prevention using a HITS-based model
Hasan et al. An expert system for selecting optimal cloud-service provider
Chen A likelihood-based assignment method for multiple criteria decision analysis with interval type-2 fuzzy information
Lee et al. An agent-based cognitive mapping system for sales opportunity analysis
Abakouy et al. Machine Learning as an Efficient Tool to Support Marketing Decision-Making
Kong et al. Combinatorial design of the MAUT and PAMSSEM II methods for multiple attributes group decision making with probabilistic linguistic information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230816

Address after: Room 3001, 3rd Floor, Building 2, Jiangsu Science and Technology Finance Building, No. 21 Andemen Street, Yuhuatai District, Nanjing City, Jiangsu Province, 210012

Patentee after: Nanjing Qingdun Cloud Information Technology Co.,Ltd.

Address before: 210000 2nd floor, building 2, Jiangsu Science and technology finance building, 21 Andemen street, Yuhuatai District, Nanjing City, Jiangsu Province

Patentee before: NANJING AEGIS INFORMATION TECHNOLOGY CO.,LTD.