CN110968668A - 一种基于超网络的网络舆情主题相似度计算方法及装置 - Google Patents
一种基于超网络的网络舆情主题相似度计算方法及装置 Download PDFInfo
- Publication number
- CN110968668A CN110968668A CN201911202435.3A CN201911202435A CN110968668A CN 110968668 A CN110968668 A CN 110968668A CN 201911202435 A CN201911202435 A CN 201911202435A CN 110968668 A CN110968668 A CN 110968668A
- Authority
- CN
- China
- Prior art keywords
- similarity
- super
- calculating
- network
- weight value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于超网络的网络舆情主题相似度计算方法及装置,其中,方法包括基于构建的超网络模型,结合在该超网络模型中依据不同算法计算出任意两条超边的社交相似度、时序相似度、情感相似度和关键词相似度,然后根据计算出的社交特征数据、时序特征数据、情感特征数据和关键词特征数据分别对应的各特征权重值,最终计算出目标网络舆情的主题相似度,可以显著提高任意两超边基于目标网络微博舆情的主题相似度的准确度,同时,可以将多种关系特征数据进行有机融合计算,也增强了基于网络微博舆情的主题相似度的精确度。
Description
技术领域
本发明涉及数据挖掘技术领域,具体涉及一种基于超网络的网络舆情主题相似度计算方法及装置。
背景技术
网络舆情是以网络为载体,以事件为核心,广大网民情感、态度、意见、观点的表达、传播与互动,以及后续影响力的集合。例如:微博舆情属于网络舆情中的一种形式,现今,微博在人们的生活中占据了越来越重要的位置,人们可以通过微博平台参与时政、影视、甚至是明星生活的讨论,因此,微博逐渐丰富了人们生活的乐趣。在微博平台上微博用户数量巨大,微博用户的各种行为都对信息的传播起着影响作用,越来越多的微博用户通过微博平台可以作为市场营销、宣传以及发表心情、表达看法的工具,因此,微博舆情的主题分析或计算在这个社交网络迅猛发展的时代显得尤为重要。
目前现有技术中的微博舆情主题相似度计算方法,通过提取微博短文本特征,根据短文本特征中的语义信息、语法信息进行计算不同微博之间的微博舆情主题相似度,但是由于微博短文本的数据信息较少、导致最终数据处理结果的准确性较低,即利用该方式计算微博舆情主题相似度的精确度较低。慢慢现有技术中出现了利用非微博短文本特征的相似度算法在双层网络层面计算微博舆情相似度算法,但是,双层网络间的微博社交舆情信息较为单一,无法对微博舆情发生过程中的多种关系数据进行有机融合,最终导致微博舆情的分析结果精确度较低。
发明内容
有鉴于此,本发明实施例提供了一种基于超网络的网络舆情主题相似度计算方法,以解决现有技术中的微博舆情主题相似度计算方法,其精确度较低的问题。
根据第一方面,本发明实施例提供了一种基于超网络的网络舆情主题相似度计算方法,包括如下步骤:
构建基于网络舆情的超网络模型;
获取目标网络舆情的社交特征数据,并根据所述社交特征数据,计算所述超网络模型中任意两条超边的社交相似度;
获取所述两条超边基于所述目标网络舆情的时间特征数据,并根据所述时间特征数据,计算所述两条超边的时序相似度;
获取所述两条超边基于所述目标网络舆情的情感特征数据,并计算所述两条超边的情感相似度;
获取所述两条超边基于所述目标网络舆情的关键词特征数据,并计算所述两条超边的关键词相似度;
计算所述社交特征数据的第一特征权重值、所述时序特征数据的第二特征权重值、所述情感特征数据的第三特征权重值和所述关键词特征数据的第四特征权重值;
根据所述社交相似度、所述时序相似度、所述情感相似度、所述关键词相似度、所述第一特征权重值、所述第二特征权重值、所述第三特征权重和所述第四特征权重,计算所述两条超边基于所述目标网络舆情的主题相似度。
根据第一方面,在第一方面第一实施方式中,所述构建基于网络舆情的超网络模型的步骤包括:
确定网络节点和网络链路;
根据所述网络节点和所述网络链路,生成多层网络拓扑结构;
在所述多层网络拓扑结构中的至少一网络层中设置线性连接单元,所述线性连接单元的输入端连接于所述线性连接单元的归属层的上层,所述线性连接单元的输出端连接于所述线性连接单元的归属层的下层,所述线性连接单元的输出和输入构成线性关系,所述线性关系包括除输出等于输入之外的线性关系。
根据第一方面,在第一方面第二实施方式中,所述获取目标网络舆情的社交特征数据,并根据所述社交特征数据,计算所述超网络模型中任意两条超边的社交相似度的步骤包括:
在所述超网络模型的社交子网中,获取所述社交子网的任意两社交子网节点之间的社交用户基于所述目标网络舆情的用户转发特征数据;
根据所述两社交子网节点之间的社交用户基于所述目标网络舆情的用户转发特征数据,计算所述超网络模型中任意两条超边的社交相似度。
根据第一方面,在第一方面第三实施方式中,所述的基于超网络的网络舆情主题相似度计算方法,所述获取所述两条超边基于所述目标网络舆情的时间特征数据,并根据所述时间特征数据,计算所述两条超边的时序相似度的步骤包括:
确定多个不同的时间节点;
设置每个时间节点对应的不同参数值;
根据所述每个时间节点对应的不同参数值,通过时序相似度算法计算所述两条超边的时序相似度。
根据第一方面,在第一方面第四实施方式中,所述获取所述两条超边基于所述目标网络舆情的情感特征数据,并计算所述两条超边的情感相似度的步骤包括:
构建基于所述目标网络舆情的情感词典;
根据所述情感词典,识别所述超网络模型中每条超边的情感强度;
根据所述每条超边的情感强度,计算所述两条超边的情感强度差值;
根据所述情感强度差值,通过情感相似度算法计算所述两条超边的情感相似度。
根据第一方面,在第一方面第五实施方式中,所述获取所述两条超边基于所述目标网络舆情的关键词特征数据,并计算所述两条超边的关键词相似度的步骤包括:
在所述超网络模型的关键词子网中,获取基于所述目标网络舆情的主题文本关键词;
根据所述主题文本关键词,获取所述两条超边的主题文本关键词权重值;
根据所述两条超边的主题文本关键词权重值,通过关键词相似度算法计算所述两条超边的关键词相似度。
根据第一方面,在第一方面第六实施方式中,所述计算所述社交特征数据的第一特征权重值、所述时序特征数据的第二特征权重值、所述情感特征数据的第三特征权重值和所述关键词特征数据的第四特征权重值的步骤包括:
设置社交特征数据、所述时间特征数据、所述情感特征数据、所述关键词特征数据分别对应的各重要程度等级;
根据所述各重要程度等级,通过特征权重算法计算所述第一特征权重值、所述第二特征权重值、所述第三特征权重值和所述第四特征权重值;
对所述第一特征权重值、所述第二特征权重值、所述第三特征权重值和所述第四特征权重进行一致性检测;
在所述一致性检测后,确定所述第一特征权重值、所述第二特征权重值、所述第三特征权重值和所述第四特征权重值。
根据第一方面第六实施方式,在第一方面第七实施方式中,所述根据所述社交相似度、所述时序相似度、所述情感相似度、所述关键词相似度、所述第一特征权重值、所述第二特征权重值、所述第三特征权重和所述第四特征权重,计算所述两条超边基于所述目标网络舆情的主题相似度的步骤包括:
根据所述社交相似度、所述时序相似度、所述情感相似度、所述关键词相似度、所述第一特征权重值、所述第二特征权重值、所述第三特征权重和所述第四特征权重值,通过超边相似度算法计算所述目标网络舆情的主题相似度。
根据第一方面或第一方面任一实施方式中,所述网络舆情包括:微博舆情或百度贴吧舆情。
根据第二方面,本发明实施例提供一种基于超网络的网络舆情主题相似度计算装置,包括:
构建模块,用于构建基于网络舆情的超网络模型;
第一获取模块,用于获取目标网络舆情的社交特征数据,并根据所述社交特征数据,计算所述超网络模型中任意两条超边的社交相似度;
第二获取模块,用于获取所述两条超边基于所述目标网络舆情的时间特征数据,并根据所述时间特征数据,计算所述两条超边的时序相似度;
第三获取模块,用于获取所述两条超边基于所述目标网络舆情的情感特征数据,并计算所述两条超边的情感相似度;
第四获取模块,用于获取所述两条超边基于所述目标网络舆情的关键词特征数据,并计算所述两条超边的关键词相似度;
第一计算模块,用于计算所述社交特征数据的第一特征权重值、所述时序特征数据的第二特征权重值、所述情感特征数据的第三特征权重值和所述关键词特征数据的第四特征权重值;
第二计算模块,用于根据所述社交相似度、所述时序相似度、所述情感相似度、所述关键词相似度、所述第一特征权重值、所述第二特征权重值、所述第三特征权重和所述第四特征权重,计算所述两条超边基于所述目标网络舆情的主题相似度。
根据第三方面,本发明实施例提供一种存储介质,其上存储有计算机指令,该指令被处理器执行时实现第一方面或第一方面任一实施方式中所述的基于超网络的网络舆情主题相似度计算方法的步骤。
根据第四方面,本发明实施例提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面或第一方面任一实施方式中所述基于超网络的网络舆情主题相似度计算方法的步骤。
本发明提供一种基于超网络的网络舆情主题相似度计算方法及装置,其中,方法包括基于构建的超网络模型,结合在该超网络模型中依据不同算法计算出任意两条超边的社交相似度、时序相似度、情感相似度和关键词相似度,然后根据计算出的社交特征数据、时序特征数据、情感特征数据和关键词特征数据分别对应的各特征权重值,最终计算出目标网络舆情的主题相似度,可以显著提高任意两超边基于不同网络微博舆情的主题相似度的准确度,同时,可以将多种关系特征数据进行有机融合计算,也增强了基于网络微博舆情的主题相似度的精确度。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中基于超网络的网络舆情主题相似度计算方法的第一流程图;
图2为本发明实施例中构建超网络模型的结构示意图;
图3为本发明实施例中基于超网络的网络舆情主题相似度计算方法的第二流程图;
图4为本发明实施例中网络拓扑结构示意图;
图5为本发明实施例中基于超网络的网络舆情主题相似度计算方法的第三流程图;
图6为本发明实施例中基于超网络的网络舆情主题相似度计算方法的第四流程图;
图7为本发明实施例中基于超网络的网络舆情主题相似度计算方法的第五流程图;
图8为本发明实施例中基于超网络的网络舆情主题相似度计算方法的第六流程图;
图9为本发明实施例中基于超网络的网络舆情主题相似度计算方法的第七流程图;
图10为本发明实施例中基于超网络的网络舆情主题相似度计算装置的结构框图;
图11为本发明实施例中计算机设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明实施例提供一种基于超网络的网络舆情主题相似度计算方法,如图1所示,包括如下步骤:
步骤S1:构建基于网络舆情的超网络模型。如图2所示,为一种示例性的超网络(简称,supernet)结构,超网络中包含多个层,每个层中包含多个网络单元,从每个层中选择一个网络单元依次连接后构成一个子网络。
在实际应用中,网络舆情可以包括微博舆情或贴吧舆情,但并不限于此。
在一具体实施例中,上述步骤S1在执行的过程中,如图3所示,可具体包括如下步骤:
步骤S11:确定网络节点和网络链路。此处的网络节点相当于数学图形中的顶点,此处的网络链路相当于数学图形中边长,确定多个网络节点和多个网络链路以便于形成网络拓扑图。
步骤S12:根据网络节点和网络链路,生成多层网络拓扑结构。如图4所示,根据网络节点、网络链路可以形成网状的拓扑结构图。在图4中,网络节点分别为A、B、C,网络节点A、B之间的边长、网络节点A、C之间的边长均为网络链路。
步骤S13:在多层网络拓扑结构中的至少一网络层中设置线性连接单元,线性连接单元的输入端连接于线性连接单元的归属层的上层,线性连接单元的输出端连接于线性连接单元的归属层的下层,线性连接单元的输出和输入构成线性关系,线性关系包括除输出等于输入之外的线性关系。
具体地,多层网络拓扑结构可以包括N个子网络,每个子网络可以由M个网络节点和L条网络链路构成。
为了提高超网络的网络指标的稳定性,在超网络中使用线性连接单元,相比于直连单元,可以有效提高子网络的表征能力,维持超网络中包含线性连接单元的子网络的网络指标的稳定性,防止子网络在深度调整过程中网络超标迅速下降。
具体地,例如:超网络中所有线性连接单元的线性关系均为y(x)=3x+4,或,超网络中一部分线性连接单元的线性关系为y(x)=4(x+1)+2,其它的线性连接单元的线性关系为y(x)=2.5x等。
步骤S2:获取目标网络舆情的社交特征数据,并根据社交特征数据,计算超网络模型中任意两条超边的社交相似度。
在一具体实施例中,上述步骤S2在执行的过程中,如图5所示,可具体包括如下步骤:
步骤S21:在超网络模型的社交子网中,获取社交子网的任意两社交子网节点之间的社交用户基于目标网络舆情的用户转发特征数据。
步骤S22:根据两社交子网节点之间的社交用户基于目标网络舆情的用户转发特征数据,计算超网络模型中任意两条超边的社交相似度。
具体地,上述中的社交用户为用户注册的社交账户,当目标网络舆情为微博舆情中的一种目标主题信息时,可以确定两个不同社交账户对一条目标微博主题的转发关系。
利用社交子网中的用户的转发关系计算任意两条超边的社交相似度,设在超网络模型的社交子网基于微博舆情主题展开讨论的网络节点包含m个节点,pi∈P(1≤i≤m)是社交子网节点(社交账户)的集合,P中任意两个节点的相似度计算基于节点间的转发关系,社交子网中的转发关系可以用一个矩阵C表示,
利用rowi=(Ci,1,Ci,2,…,Ci,m)(i=1,2,…,m)表示超边SE1的转发关系,其中,Ci,1表示第i个注册账户与第1个注册账户对目标微博舆情的转发关系,用SE1表示第一条超边,用SE2表示另一条超边,SEi表示第i条超边,SEj表示第j条超边,则超边SEi和超边SEj的社交相似度计算公式为:
上述中的simα(Ei,Ej)表示任意两条超边的社交相似度。
步骤S3:获取两条超边基于目标网络舆情的时间特征数据,并根据时间特征数据,计算两条超边的时序相似度。
在一具体实施例中,上述步骤S3在执行的过程中,如图6所示,可具体包括如下步骤:
步骤S31:确定多个不同的时间节点。例如:对于微博舆情而言,微博由于其快速转发的特点,使得舆情事件会在短时间内引起人们大量的转发和讨论,内容相似的微博信息往往集中在相同时间段内集中发布,这意味着,在一个话题的发生期,人们会频繁地使用相似的关键词来进行话题讨论,而随着讨论地深入,话题会发生演化,人们讨论话题所使用的关键词也会随之更新,但是这些更新的关键词是与演化后的话题密切相关的,所以更新的关键词彼此也是相似的。因此,相同时间段产生的关键词最可能相似。而关键词所处的阶段越相近,其产生的关键词越可能相似。因此,可以将微博舆情设置为演化阶段(ti)划分为潜伏期(t1)、发生期(t2)、持续期(t3)和恢复期期(t4)4个阶段。此步骤S31中在上述分析的情景下,可确定四个不同的时间节点,其分别为t1、t2、t3、t4。
步骤S32:设置每个时间节点对应的不同参数值。为了区分不同时序阶段的相似度差异,可以对时序阶段ti进行赋值,例如:令t1=1、t2=3、t3=5、t4=7。
步骤S33:根据每个时间节点对应的不同参数值,通过时序相似度算法计算两条超边的时序相似度。此处的时序相似度算法如下式(3)所示:
上述中的simt(SE1,SE2)表示第一条超边SE1与第二条超边SE2的时序相似度。
步骤S4:获取两条超边基于目标网络舆情的情感特征数据,并计算两条超边的情感相似度。
在一具体实施例中,上述步骤S4在执行的过程中,如图7所示,可具体包括如下步骤:
步骤S41:构建基于目标网络舆情的情感词典。
具体地,对于微博舆情而言,在实际的微博话题分析汇总,简单的把情感分为正面和负面过于笼统,对于情感的分析会造成偏差。在本实施例中,采用中文情感词汇本体库作为研究的情感词典,该文本资源库从不同角度描述一个中文词汇或者短语,其包括词语性种类、情感类别、情感强度、极性、否定词、程度副词词典和表情符号等,进行情感极性判断和情感强度打分等信息,实现了将文本情感分为更细致的乐、好、怒、哀、惧、恶、惊7大类。
步骤S42:根据情感词典,识别超网络模型中每条超边的情感强度。
具体地,根据上述步骤S41中的构建的情感词典,识别每条超边中的情感特征词极性、强度,表情符号极性、强度、否定词的个数和程度副词的调整强度。每条超边的情感特征可以表示为一个特征情感元组,S={情感极性、强度;表情符号极性、强度;否定词个数;程度副词调整强度},所有情感元组元素均不是情感元组必备元素,即存在每条超边的情感元组为空的情况。对每条超边构建特征情感元组,每条超边的情感强度计算公式为如下式(4)所示:
其中,sent(i)为超边i的情感强度,情感元组为空时,即不存在情感词,此时超边情感强度记为0。s(wj)为参照构建的情感词典中包含的基础情感词典和符号词典计算的情感强度,这里只考虑贬义、褒义和中性3个极性,贬义词强度设为:-1、-3、-5、-7和-9,褒义词情感强度设为1、3、5、7和9,中性词词感强度为0;为超边i中全部情感词和情感符号词的情感强度之和,n为超边中情感词和情感符号的总个数;wei(adv)为情感词前后不超过3个词范围内的程度副词,weip(adv)为超边中i程度副词p的情感调整强度,表示超边i中全部m个程度副词情感调整强度的连乘积;为微博i中全部情感词+符号词的情感强度;k为超边i中否定词的个数。
步骤S43:根据每条超边的情感强度,计算两条超边的情感强度差值。
步骤S44:根据情感强度差值,通过情感相似度算法计算两条超边的情感相似度。此处的情感相似度算法如下式(5)所示:
具体地,由步骤S42可以获得超边的情感强度,sent(i)>0,说明超边蕴含着积极的情感;sent(i)<0,说明超边蕴含着消极的情感;sent(i)=0,说明超边蕴含的情感是中立的。判断完超边的情感极性和情感强度,可进行情感相似度计算。本实施例中用情感强度数量前面的符号:正、负或0表示3种情感极性,表示任意两条超边的情感强度,二者差值越小则两条超边的情感相似度越大,反之,若二者差值越大则两条超边的情感相似度越小。将超边SE1和超边SE2情感相似度,记为sims(SE1,SE2),则
上述中sims(SEi,SEj)表示超边SEi与超边SEj之间的情感相似度,sent(i)表示第i条超边的情感强度,sent(j)表示第j条超边的情感强度,|sent(i)-sent(j)|表示超边SEi与超边SEj之间的情感强度差值。
步骤S5:获取两条超边基于目标网络舆情的关键词特征数据,计算两条超边的关键词相似度。
在一具体实施例中,上述步骤S5在执行的过程中,如图8所示,可具体包括如下步骤:
步骤S51:在超网络模型的关键词子网中,获取基于目标网络舆情的主题文本关键词。
具体地,可以基于字符串匹配以及二阶马尔科夫链,对基于目标网络舆情的主题文本进行分词处理,利用Word2Vec算法将分词后的短文本内容转化为向量空间中的向量表示,向量空间上的相似度用来表示文本语义的相似性,进而提取出目标网络舆情的主题文本关键词。
步骤S52:根据主题文本关键词,获取两条超边的主题文本关键词权重值。
步骤S53:根据两条超边的主题文本关键词权重值,通过关键词相似度算法计算两条超边的关键词相似度。
具体地,将SE1和SE2映射到n维向量空间中,可表示为SE1=(w1,w2,…,wn)和SE2=(w’1,w’2,…,w’n),基于词频特征的超边关键词相似度算法如下式(6)所示:
上述式(6)中,wi=tfTi×idfTi,tfTi为关键词Ti在SE1中出现的次数(即TF值);idfTi=lg(N/n),N为所有超边数,n为关键词Ti在所有超边中出现的总次数,上述中simk(SEi,SEj)表示第i条超边与第j条超边的关键词相似度。
步骤S6:计算社交特征数据的第一特征权重值、时序特征数据的第二特征权重值、情感特征数据的第三特征权重值和关键词特征数据的第四特征权重值;
在一具体实施例中,上述步骤S6在执行的过程中,如图9所示,可具体包括如下步骤
步骤S61:设置社交特征数据、时间特征数据、情感特征数据、关键词特征数据分别对应的各重要程度等级。例如:对于微博舆情而言,分析微博舆情主题多特征要素,关键词特征是对微博文本内容的揭示,是微博舆情主题发现的主要分析对象,所以对其赋予较高权重;情感特征作为文本内容揭示的一部分,属于次重要特征;社交特征和时序特征对微博舆情主题发现的影响程度相近,且较前两者较弱,排在第三位。因此,可以赋予社交特征数据和时序特征数据分别对应的重要程度等级为1、情感特征数据对应的重要程度等级为2,关键词特征数据对应的重要程度等级为3。
步骤S62:根据各重要程度等级,通过特征权重算法计算第一特征权重值、第二特征权重值、第三特征权重值和第四特征权重值。
具体地,可以依据特征值与特征向量的计算公式:AW=λmaxW,计算上述步骤S62中的第一特征权重值、第二特征权重值、第三特征权重值和第四特征权重值,上式AW=λmaxW中,A为各特征权重值构成的权重值判断矩阵,λmax为判断矩阵A的最大特征根,W为对应于λmax的正规化特征向量。
步骤S63:对第一特征权重值、第二特征权重值、第三特征权重值和第四特征权重进行一致性检测。
利用一致性指标(CI)和随机一致性指标(RI)综合对上述步骤S62中的结果进行一致性检测。当CI取值大于等于0,且结果越小,说明第一特征权重值或第二特征权重值或第三特征权重值或第四特征权重值越具有一致性,当CI等于0,则说明第一特征权重值或第二特征权重值或第三特征权重值或第四特征权重具有完全一致性。本实施例研究CI=0,满足一致性标准;当CR<0.1时,认为第一特征权重值或第二特征权重值或第三特征权重值或第四特征权重值的不一致性值在允许范围内,此时,可以利用第一特征权重值或第二特征权重值或第三特征权重值或第四特征权重值作为权重值。反之,则需要重新设置社交特征数据、时间特征数据、情感特征数据、关键词特征数据分别对应的各重要程度等级,直至CR<0.1为止,本实施例根据CR计算公式计算的一致性比率CR=0。
步骤S64:在一致性检测后,确定第一特征权重值、第二特征权重值、第三特征权重值和第四特征权重值。具体地,例如:α,β,ξ,γ分别为社交特征数据、时序特征数据、情感特征数据和关键词特征数据对应的特征权重值,即第一特征权重值用α表示,第二特征权重值用β表示,第三特征权重值用ξ表示,第四特征权重值用γ表示,设定α,β,ξ,γ之间满足:α+β+ξ+γ=1。
步骤S7:根据社交相似度、时序相似度、情感相似度、关键词相似度、第一特征权重值、第二特征权重值、第三特征权重和第四特征权重,计算两条超边基于目标网络舆情的主题相似度。
在一具体实施例中,上述步骤S7在执行的过程中,可具体包括:
根据社交相似度、时序相似度、情感相似度、关键词相似度、第一特征权重值、第二特征权重值、第三特征权重和第四特征权重值,通过超边相似度算法计算目标网络舆情的主题相似度。此处的超边相似度算法如下式(7)所示,
其中,上述simα(SE1,SE2)为超边SE1和超边SE2的社交相似度,simt(SE1,SE2)为超边SE1和超边SE2的时序相似度,sims(SE1,SE2)为超边SE1和超边SE2的时序相似度,simk(SE1,SE2)为超边SE1和超边SE2的关键词相似度,其具体数值由超边属性计算获得,α,β,ξ,γ分别为社交特征数据、时序特征数据、情感特征数据和关键词特征数据对应的特征权重值,即第一特征权重值用α表示,第二特征权重值用β表示,第三特征权重值用ξ表示,第四特征权重值用γ表示,设定α,β,ξ,γ之间满足:α+β+ξ+γ=1。
本发明实施例中的基于超网络的网络舆情主题相似度计算方法,基于构建的超网络模型,结合在该超网络模型中依据不同算法计算的任意两条超边的社交相似度、时序相似度、情感相似度和关键词相似度,然后根据计算出的社交特征数据、时序特征数据、情感特征数据和关键词特征数据分别对应的各特征权重值,最终计算出目标网络舆情的主题相似度,可以显著提高任意两超边基于目标网络微博舆情的主题相似度的准确度,同时,可以将多种关系特征数据进行有机融合计算,也增强了基于网络微博舆情的主题相似度的精确度。
实施例2
本发明实施例提供了一种基于超网络的网络舆情主题相似度计算装置,如图10所示,包括:
构建模块11,用于构建基于网络舆情的超网络模型。
第一获取模块12,用于获取目标网络舆情的社交特征数据,并根据社交特征数据,计算超网络模型中任意两条超边的社交相似度。
第二获取模块13,用于获取两条超边基于目标网络舆情的时间特征数据,并根据时间特征数据,计算两条超边的时序相似度。
第三获取模块14,用于获取两条超边基于目标网络舆情的情感特征数据,并计算两条超边的情感相似度。
第四获取模块15,用于获取两条超边基于目标网络舆情的关键词特征数据,并计算两条超边的关键词相似度。
第一计算模块16,用于计算社交特征数据的第一特征权重值、时序特征数据的第二特征权重值、情感特征数据的第三特征权重值和关键词特征数据的第四特征权重值。
第二计算模块17,用于根据社交相似度、时序相似度、情感相似度、关键词相似度、第一特征权重值、第二特征权重值、第三特征权重和第四特征权重,计算两条超边基于目标网络舆情的主题相似度。
本发明实施例中的基于超网络的网络舆情主题相似度计算装置,在图10中构建模块11包括:
确定子模块111,用于确定网络节点和网络链路。
形成子模块112,用于根据网络节点和网络链路,生成多层网络拓扑结构。
设置子模块113,用于在多层网络拓扑结构中的至少一网络层中设置线性连接单元,线性连接单元的输入端连接于线性连接单元的归属层的上层,线性连接单元的输出端连接于线性连接单元的归属层的下层,线性连接单元的输出和输入构成线性关系,线性关系包括除输出等于输入之外的线性关系。
本发明实施例中的基于超网络的网络舆情主题相似度计算装置,在图10中,第一获取模块12包括:
获取子模块121,在超网络模型的社交子网中,获取社交子网的任意两社交子网节点之间的社交用户基于目标网络舆情的用户转发特征数据;
计算子模块122,用于根据两社交子网节点之间的社交用户基于目标网络舆情的用户转发特征数据,计算超网络模型中任意两条超边的社交相似度。
本发明实施例中的基于超网络的网络舆情主题相似度计算装置,在图10中,第二获取模块13包括:
确定子模块131,用于确定多个不同的时间节点。
设置子模块132,用于设置每个时间节点对应的不同参数值。
计算子模块133,用于根据所述每个时间节点对应的不同参数值,通过所述时序相似度算法计算所述两条超边的时序相似度。
本发明实施例中的基于超网络的网络舆情主题相似度计算装置,在图10中,第三获取模块14包括:
构建子模块141,用于构建基于目标网络舆情的情感词典;
识别子模块142,用于根据情感词典,识别超网络模型中每条超边的情感强度;
第一计算子模块143,用于根据每条超边的情感强度,计算两条超边的情感强度差值;
第二计算子模块144,用于根据情感强度差值和情感相似度算法,通过情感相似度算法计算两条超边的情感相似度。
本发明实施例中的基于超网络的网络舆情主题相似度计算装置,第四获取模块15包括:
第一获取子模块151,用于在超网络模型的关键词子网中,获取基于目标网络舆情的主题文本关键词;
第二获取子模块152,用于根据主题文本关键词,获取两条超边的主题文本关键词权重值;
计算子模块153,用于根据两条超边的主题文本关键词权重值,通过关键词相似度算法计算两条超边的关键词相似度。
本发明实施例中的基于超网络的网络舆情主题相似度计算装置,在图10中,第一计算模块16包括:
设置子模块161,用于设置社交特征数据、时间特征数据、情感特征数据、关键词特征数据分别对应的各重要程度等级;
计算子模块162,用于根据特征权重算法,通过特征权重算法计算第一特征权重值、第二特征权重值、第三特征权重值和第四特征权重值;
检测子模块163,用于对第一特征权重值、第二特征权重值、第三特征权重值和第四特征权重进行一致性检测;
确定子模块164,用于在一致性检测后,确定第一特征权重值、第二特征权重值、第三特征权重值和第四特征权重值。
本发明实施例中的基于超网络的网络舆情主题相似度计算装置,在图10中,第二计算模块17包括:
计算子模块171,用于根据社交相似度、时序相似度、情感相似度、关键词相似度、第一特征权重值、第二特征权重值、第三特征权重和第四特征权重值,通过超边相似度算法计算目标网络舆情的主题相似度。
本发明实施例中的基于超网络的网络舆情主题相似度计算装置,网络舆情包括:微博舆情或百度贴吧舆情。
本发明实施例中的基于超网络的网络舆情主题相似度计算装置,基于构建的超网络模型,结合在该超网络模型中依据不同算法计算出任意两条超边的社交相似度、时序相似度、情感相似度和关键词相似度,然后根据计算出的社交特征数据、时序特征数据、情感特征数据和关键词特征数据分别对应的各特征权重值,最终计算出目标网络舆情的主题相似度,可以显著提高任意两超边基于目标网络微博舆情的主题相似度的准确度,同时,可以将多种关系特征数据进行有机融合计算,也增强了基于网络微博舆情的主题相似度的精确度。
实施例3
本发明实施例提供一种存储介质,其上存储有计算机指令,该指令被处理器执行时实现实施例1中的方法的步骤。该存储介质上还存储有超网络模型、社交特征数据、两条超边的社交相似度、时间特征数据、两条超边的时序相似度、情感特征数据、两条超边的情感相似度、关键词特征数据、两条超边的关键词相似度、第一特征权重值、第二特征权重值、第三特征权重值、第四特征权重值、两条超边基于目标网络舆情的主题相似度等。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(FlashMemory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-StateDrive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。
实施例4
本发明实施例提供一种计算机设备,如图11所示,该计算机设备包括存储器1120、处理器1110及存储在存储器1120上并可在处理器1110上运行的计算机程序,处理器1110执行程序时实现实施例1中方法的步骤。
图11是本发明实施例提供的执行列表项操作的处理方法的一种计算机设备的硬件结构示意图,如图11所示,该计算机设备包括一个或多个处理器1110以及存储器1120,图11中以一个处理器1110为例。
执行列表项操作的处理方法的计算机设备还可以包括:输入装置1130和输出装置1140。
处理器1110、存储器1120、输入装置1130和输出装置1140可以通过总线或者其他方式连接,图11中以通过总线连接为例。
处理器1110可以为中央处理器(Central Processing Unit,CPU)。处理器1110还可以为其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (12)
1.一种基于超网络的网络舆情主题相似度计算方法,其特征在于,包括如下步骤:
构建基于网络舆情的超网络模型;
获取目标网络舆情的社交特征数据,并根据所述社交特征数据,计算所述超网络模型中任意两条超边的社交相似度;
获取所述两条超边基于所述目标网络舆情的时间特征数据,并根据所述时间特征数据,计算所述两条超边的时序相似度;
获取所述两条超边基于所述目标网络舆情的情感特征数据,并计算所述两条超边的情感相似度;
获取所述两条超边基于所述目标网络舆情的关键词特征数据,并计算所述两条超边的关键词相似度;
计算所述社交特征数据的第一特征权重值、所述时序特征数据的第二特征权重值、所述情感特征数据的第三特征权重值和所述关键词特征数据的第四特征权重值;
根据所述社交相似度、所述时序相似度、所述情感相似度、所述关键词相似度、所述第一特征权重值、所述第二特征权重值、所述第三特征权重和所述第四特征权重,计算所述两条超边基于所述目标网络舆情的主题相似度。
2.根据权利要求1所述的基于超网络的网络舆情主题相似度计算方法,其特征在于,所述构建基于网络舆情的超网络模型的步骤包括:
确定网络节点和网络链路;
根据所述网络节点和所述网络链路,生成多层网络拓扑结构;
在所述多层网络拓扑结构中的至少一网络层中设置线性连接单元,所述线性连接单元的输入端连接于所述线性连接单元的归属层的上层,所述线性连接单元的输出端连接于所述线性连接单元的归属层的下层,所述线性连接单元的输出和输入构成线性关系,所述线性关系包括除输出等于输入之外的线性关系。
3.根据权利要求1所述的基于超网络的网络舆情主题相似度计算方法,其特征在于,所述获取目标网络舆情的社交特征数据,并根据所述社交特征数据,计算所述超网络模型中任意两条超边的社交相似度的步骤包括:
在所述超网络模型的社交子网中,获取所述社交子网的任意两社交子网节点之间的社交用户基于所述目标网络舆情的用户转发特征数据;
根据所述两社交子网节点之间的社交用户基于所述目标网络舆情的用户转发特征数据,计算所述超网络模型中任意两条超边的社交相似度。
4.根据权利要求1所述的基于超网络的网络舆情主题相似度计算方法,其特征在于,所述获取所述两条超边基于所述目标网络舆情的时间特征数据,并根据所述时间特征数据,计算所述两条超边的时序相似度的步骤包括:
确定多个不同的时间节点;
设置每个时间节点对应的不同参数值;
根据所述每个时间节点对应的不同参数值,通过时序相似度算法计算所述两条超边的时序相似度。
5.根据权利要求1所述的基于超网络的网络舆情主题相似度计算方法,其特征在于,所述获取所述两条超边基于所述目标网络舆情的情感特征数据,并计算所述两条超边的情感相似度的步骤包括:
构建基于所述目标网络舆情的情感词典;
根据所述情感词典,识别所述超网络模型中每条超边的情感强度;
根据所述每条超边的情感强度,计算所述两条超边的情感强度差值;
根据所述情感强度差值,通过情感相似度算法计算所述两条超边的情感相似度。
6.根据权利要求1所述的基于超网络的网络舆情主题相似度计算方法,其特征在于,所述获取所述两条超边基于所述目标网络舆情的关键词特征数据,并计算所述两条超边的关键词相似度的步骤包括:
在所述超网络模型的关键词子网中,获取基于所述目标网络舆情的主题文本关键词;
根据所述主题文本关键词,获取所述两条超边的主题文本关键词权重值;
根据所述两条超边的主题文本关键词权重值,通过关键词相似度算法计算所述两条超边的关键词相似度。
7.根据权利要求1所述的基于超网络的网络舆情主题相似度计算方法,其特征在于,所述计算所述社交特征数据的第一特征权重值、所述时序特征数据的第二特征权重值、所述情感特征数据的第三特征权重值和所述关键词特征数据的第四特征权重值的步骤包括:
设置社交特征数据、所述时间特征数据、所述情感特征数据、所述关键词特征数据分别对应的各重要程度等级;
根据所述各重要程度等级,通过特征权重算法计算所述第一特征权重值、所述第二特征权重值、所述第三特征权重值和所述第四特征权重值;
对所述第一特征权重值、所述第二特征权重值、所述第三特征权重值和所述第四特征权重进行一致性检测;
在所述一致性检测后,确定所述第一特征权重值、所述第二特征权重值、所述第三特征权重值和所述第四特征权重值。
8.根据权利要求7所述的基于超网络的网络舆情主题相似度计算方法,其特征在于,所述根据所述社交相似度、所述时序相似度、所述情感相似度、所述关键词相似度、所述第一特征权重值、所述第二特征权重值、所述第三特征权重和所述第四特征权重,计算所述两条超边基于所述目标网络舆情的主题相似度的步骤包括:
根据所述社交相似度、所述时序相似度、所述情感相似度、所述关键词相似度、所述第一特征权重值、所述第二特征权重值、所述第三特征权重和所述第四特征权重值,通过超边相似度算法计算所述目标网络舆情的主题相似度。
9.根据权利要求1-8任一项所述的基于超网络的网络舆情主题相似度计算方法,其特征在于,所述网络舆情包括:微博舆情或百度贴吧舆情。
10.一种基于超网络的网络舆情主题相似度计算装置,其特征在于,包括:
构建模块,用于构建基于网络舆情的超网络模型;
第一获取模块,用于获取目标网络舆情的社交特征数据,并根据所述社交特征数据,计算所述超网络模型中任意两条超边的社交相似度;
第二获取模块,用于获取所述两条超边基于所述目标网络舆情的时间特征数据,并根据所述时间特征数据,计算所述两条超边的时序相似度;
第三获取模块,用于获取所述两条超边基于所述目标网络舆情的情感特征数据,并计算所述两条超边的情感相似度;
第四获取模块,用于获取所述两条超边基于所述目标网络舆情的关键词特征数据,并计算所述两条超边的关键词相似度;
第一计算模块,用于计算所述社交特征数据的第一特征权重值、所述时序特征数据的第二特征权重值、所述情感特征数据的第三特征权重值和所述关键词特征数据的第四特征权重值;
第二计算模块,用于根据所述社交相似度、所述时序相似度、所述情感相似度、所述关键词相似度、所述第一特征权重值、所述第二特征权重值、所述第三特征权重和所述第四特征权重,计算所述两条超边基于所述目标网络舆情的主题相似度。
11.一种存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-9任一项所述的基于超网络的网络舆情主题相似度计算方法的步骤。
12.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-9任一项所述基于超网络的网络舆情主题相似度计算方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911202435.3A CN110968668B (zh) | 2019-11-29 | 2019-11-29 | 一种基于超网络的网络舆情主题相似度计算方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911202435.3A CN110968668B (zh) | 2019-11-29 | 2019-11-29 | 一种基于超网络的网络舆情主题相似度计算方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110968668A true CN110968668A (zh) | 2020-04-07 |
CN110968668B CN110968668B (zh) | 2023-03-14 |
Family
ID=70032215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911202435.3A Active CN110968668B (zh) | 2019-11-29 | 2019-11-29 | 一种基于超网络的网络舆情主题相似度计算方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110968668B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113157993A (zh) * | 2021-02-08 | 2021-07-23 | 电子科技大学 | 一种基于时序图极化分析的网络水军行为预警模型 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544255A (zh) * | 2013-10-15 | 2014-01-29 | 常州大学 | 基于文本语义相关的网络舆情信息分析方法 |
CN104298765A (zh) * | 2014-10-24 | 2015-01-21 | 福州大学 | 一种互联网舆情话题的动态识别和追踪方法 |
CN106097111A (zh) * | 2016-06-20 | 2016-11-09 | 重庆房慧科技有限公司 | 一种基于智慧社区网络大数据的舆情预测方法 |
CN107943800A (zh) * | 2016-10-09 | 2018-04-20 | 郑州大学 | 一种微博话题舆情计算与分析的方法 |
US10003560B1 (en) * | 2012-08-31 | 2018-06-19 | Sprinklr, Inc. | Method and system for correlating social media conversations |
US20180341696A1 (en) * | 2017-05-27 | 2018-11-29 | Hefei University Of Technology | Method and system for detecting overlapping communities based on similarity between nodes in social network |
US20180349355A1 (en) * | 2017-05-31 | 2018-12-06 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Artificial Intelligence Based Method and Apparatus for Constructing Comment Graph |
-
2019
- 2019-11-29 CN CN201911202435.3A patent/CN110968668B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10003560B1 (en) * | 2012-08-31 | 2018-06-19 | Sprinklr, Inc. | Method and system for correlating social media conversations |
CN103544255A (zh) * | 2013-10-15 | 2014-01-29 | 常州大学 | 基于文本语义相关的网络舆情信息分析方法 |
CN104298765A (zh) * | 2014-10-24 | 2015-01-21 | 福州大学 | 一种互联网舆情话题的动态识别和追踪方法 |
CN106097111A (zh) * | 2016-06-20 | 2016-11-09 | 重庆房慧科技有限公司 | 一种基于智慧社区网络大数据的舆情预测方法 |
CN107943800A (zh) * | 2016-10-09 | 2018-04-20 | 郑州大学 | 一种微博话题舆情计算与分析的方法 |
US20180341696A1 (en) * | 2017-05-27 | 2018-11-29 | Hefei University Of Technology | Method and system for detecting overlapping communities based on similarity between nodes in social network |
US20180349355A1 (en) * | 2017-05-31 | 2018-12-06 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Artificial Intelligence Based Method and Apparatus for Constructing Comment Graph |
Non-Patent Citations (2)
Title |
---|
GUANGHUI WANG等: "superedge coupling algorithm and its application in coupling mechanism analysis of online public opinion supernetwork", 《EXPERT SYSTEMS WITH APPLICATIONS:AN INTERNATIONAL JOURNAL》 * |
刘晚军: "基于LDA的企业微博主题超网络建模及分析方法", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113157993A (zh) * | 2021-02-08 | 2021-07-23 | 电子科技大学 | 一种基于时序图极化分析的网络水军行为预警模型 |
Also Published As
Publication number | Publication date |
---|---|
CN110968668B (zh) | 2023-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11017178B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
JP5904559B2 (ja) | シナリオ生成装置、及びそのためのコンピュータプログラム | |
CN110704743B (zh) | 一种基于知识图谱的语义搜索方法及装置 | |
CN110569496B (zh) | 实体链接方法、装置及存储介质 | |
US20100241647A1 (en) | Context-Aware Query Recommendations | |
JP6403382B2 (ja) | フレーズペア収集装置、及びそのためのコンピュータプログラム | |
CN104484815A (zh) | 基于模糊本体面向产品方面的情感分析方法及系统 | |
CN113139134B (zh) | 一种社交网络中用户生成内容的流行度预测方法、装置 | |
JP5907393B2 (ja) | 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム | |
CN111783903B (zh) | 文本处理方法、文本模型的处理方法及装置、计算机设备 | |
JP6729095B2 (ja) | 情報処理装置及びプログラム | |
CN112559747A (zh) | 事件分类处理方法、装置、电子设备和存储介质 | |
CN113204953A (zh) | 基于语义识别的文本匹配方法、设备及设备可读存储介质 | |
CN112215629B (zh) | 基于构造对抗样本的多目标广告生成系统及其方法 | |
CN110968668B (zh) | 一种基于超网络的网络舆情主题相似度计算方法及装置 | |
Qingyun et al. | Keyword extraction method for complex nodes based on TextRank algorithm | |
CN115249012A (zh) | 一种基于关键短语的知识图谱可视化方法及系统 | |
CN113297854A (zh) | 文本到知识图谱实体的映射方法、装置、设备及存储介质 | |
Chau et al. | Deep learning and sub-tree mining for document level sentiment classification | |
Alorini et al. | Machine learning enabled sentiment index estimation using social media big data | |
CN109558586B (zh) | 一种资讯的言据自证评分方法、设备和存储介质 | |
Miralaei et al. | Category-based similarity algorithm for semantic similarity in multi-agent information sharing systems | |
CN116126893B (zh) | 一种数据关联检索方法、装置及相关设备 | |
CN112256970B (zh) | 一种新闻文本推送方法、装置、设备及存储介质 | |
US11093706B2 (en) | Protagonist narrative balance computer implemented analysis of narrative data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |