CN108038240A - 基于内容、用户多因素分析的社交网络谣言检测方法 - Google Patents
基于内容、用户多因素分析的社交网络谣言检测方法 Download PDFInfo
- Publication number
- CN108038240A CN108038240A CN201711453302.4A CN201711453302A CN108038240A CN 108038240 A CN108038240 A CN 108038240A CN 201711453302 A CN201711453302 A CN 201711453302A CN 108038240 A CN108038240 A CN 108038240A
- Authority
- CN
- China
- Prior art keywords
- model
- content
- user
- text
- rumour
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 28
- 230000008451 emotion Effects 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 19
- 238000013210 evaluation model Methods 0.000 claims abstract description 17
- 238000010276 construction Methods 0.000 claims abstract description 4
- 238000012545 processing Methods 0.000 claims description 19
- 230000011218 segmentation Effects 0.000 claims description 19
- 244000046052 Phaseolus vulgaris Species 0.000 claims description 9
- 235000010627 Phaseolus vulgaris Nutrition 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 3
- 210000003813 thumb Anatomy 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 description 11
- 238000000034 method Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 241000270322 Lepidosauria Species 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于内容、用户多因素分析的社交网络谣言检测方法,包括:步骤a,获取文本信息例,并获取文本信息例的文本信息和用户信息;步骤b,根据文本信息,建文本信息例的文本内容特征模型,文本内容特征模型包括关键词匹配模型、情感倾向模型、情感波动模型、主题聚类匹配模型和内容影响力评价模型;步骤c,根据用户信息,构建所述文本信息例的用户特征模型,用户特征模型包括内容一致性评判模型和用户影响力评价模型。步骤d,根据文本内容特征模型和用户特征模型,构建特征向量,训练分类器,将特征向量输入分类器并输出结果,以完成识别社交网络谣言。本发明不依靠单一特征进行检测,避免谣言的误查,提高检测精度。
Description
技术领域
本发明属于自然语言处理中的情感分析、文本挖掘以及深度学习领域,具体涉及一种社交网络文本谣言的检测方法。
背景技术
目前,网络谣言的检测判别主要是靠关键词匹配、人工审核、评论情感倾向以及分类器模型的方法。
关键词匹配方法,采用大规模关键词语料进行文本搜索比对,一旦发现相关内容执行屏蔽或者删除操作。这样的方法有许多缺点。例如,差错率很高,有很多影响力较小或者内容无关紧要的消息被直接系统删除,甚至有些是无意的偶然拼写也会被判断为谣言。
上述方法还有一个缺点就是,有时关键词的出现并不意味着对事情进行了扭曲或者误解,仅仅是表达个人观点,影响力较弱。但系统仍会强行执行删除操作。
人工审核方法,较于关键词匹配精确度更高。但是也意味着大量人力的投入和敏捷度的不足。特别是在社交信息爆炸的时代,很难做到全面而且精确的谣言判定,往往要等到谣言有一定的影响力之后才会注意到该消息。
评论情感倾向依靠对信息评论的情感分析来归纳用户对于该消息的负向情感倾向度,作为该消息的可信度的一个衡量。但是单一的情感指标很难区分真实与夸大虚假的信息。同时传统的情感分类模型基于情感词库,而非语义层面上的分类,很难区分反讽等高阶语法现象。
而现阶段的分类器,例如贝叶斯、支持向量机等传统的机器学习算法,在文本分类上都采用了简单的词语特征,很难捕捉深层次的用户特征以及情感特征;而基于深度神经网络的分类器需要大量标注数据作为训练集,而且对于训练集中没有出现过的数据的泛化能力有限,在通用领域很难展现其优势。
发明内容
本发明的主要目的是,提供一种结合文本内容以及用户特征的分析方法,综合进行谣言检测,以消除目前依靠单一特征进行检测误差大、效率低的问题。
为了实现上述目的,其技术解决方案为:
一种基于内容、用户多因素分析的社交网络谣言检测方法,包括:
步骤a,获取文本信息例,并获取文本信息例的文本信息和用户信息;
步骤b,根据所述文本信息,建立所述文本信息例的文本内容特征模型,所述文本内容特征模型包括关键词匹配模型、情感倾向模型、情感波动模型、主题聚类匹配模型和内容影响力评价模型;
步骤c,根据所述用户信息,构建所述文本信息例的用户特征模型,所述用户特征模型包括内容一致性评判模型和用户影响力评价模型。
步骤d,根据所述文本内容特征模型和所述用户特征模型,构建特征向量,训练分类器,将所述特征向量输入所述分类器并输出结果,以完成识别社交网络谣言。
在上述的基于内容、用户多因素分析的社交网络谣言检测方法,建立所述关键词匹配模型步骤包括:
步骤b11,收集特定领域内相关内容,同时进行分词处理,根据词频统计常见谣言用词作为特定领域谣言关键词库;
步骤b12,收集现有知识图谱内领域相关实体内容,通过自动查询以实体名称作为受害目标谣言关键词库;
步骤b13,对自媒体谣言数据进行数据格式化以及分词处理,根据词频统计常见谣言用词作为通用谣言关键词库;
步骤b14,新文本分词之后,匹配各个关键词词库,给出新文本对应的关键词占比,按照各关键词词库的权重加权求和得到该新文本最终的关键词匹配度。
在上述的基于内容、用户多因素分析的社交网络谣言检测方法,建立所述情感倾向模型步骤包括:
步骤b21,利用预训练Word2Vec模型建立文本嵌入输入层;
步骤b22,使用公开情感数据集进行分词处理;
步骤b23,训练LSTM分类模型;
步骤b24,使用LSTM分类模型进行预测时,对新文本进行分词处理,获得最终的类别概率分布,并取负向情感所在索引的概率值作为情感倾向模型输出结果;
在上述的基于内容、用户多因素分析的社交网络谣言检测方法,建立所述情感波动模型步骤包括:在所述情感倾向的模型上,细化输入文本粒度到句子,最后统计整段/篇文章的情感倾向方差,作为情感波动的最终结果。
在上述的基于内容、用户多因素分析的社交网络谣言检测方法,建立所述主题聚类匹配模型步骤包括:
步骤b31,提取数据库时间窗口内的所有信息,并进行分词处理;
步骤b32,使用TF-IDF模型进行向量化文本;
步骤b33,使用K-means++算法进行聚类迭代,直到满足步数要求停止;
步骤b34,新文本分词之后,进行TF-IDF转化,在与上一步产生的聚类中心进行相似度计算,选取最近的一个主题作为新文本的主题。
在上述的基于内容、用户多因素分析的社交网络谣言检测方法,所述内容影响力评价模型为消息的传播数目相对排名。
在上述的基于内容、用户多因素分析的社交网络谣言检测方法,所述消息的传播数目为消息的转发、评论和点赞数目的总和。
在上述的基于内容、用户多因素分析的社交网络谣言检测方法,建立所述内容一致性评判模型步骤包括:
步骤c1,提取当前消息之前的时间窗口内的所有信息,并同时做分词处理;
步骤c2,使用预训练的Doc2Vec模型对文本进行向量化;
步骤c3,计算历史消息向量与当前消息向量的余弦相似度的方差。
在上述的基于内容、用户多因素分析的社交网络谣言检测方法,所述用户影响力评价模型为用户的粉丝数目与粉丝数目加上用户关注数目的比值。
本发明主要依靠文本内容特征和用户特征进行快速谣言检测,同时综合评判按照标注训练集自动计算超参数,更为准确地给出一则消息是否为谣言的结论,不依靠单一特征进行检测,避免谣言的误查,提高整体精度,同时减小人工审核的工作量。
附图说明
图1为本发明的整体流程示意图。
图2为关键词匹配模型流程图。
图3为情感倾向和情感波动流程图。
图4为主题聚类匹配模型流程图。
图5内容一致性评判流程图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
一种基于内容、用户多因素分析的社交网络谣言检测方法及系统,按照文本内容特征以及用户特征向量化的数值表示任意一段文本,并切分向量化表示的谣言数据为训练样本和测试样本。通过训练样本获得最优参数,在测试样本上测试方法的可靠性。
一种基于内容、用户多因素分析的社交网络谣言检测系统包括三个模块:1)内容分析模块;2)用户分析模块;3)综合评判模块。内容分析模块针对文本内容进行信息挖掘,进而得到特征向量化表示的文本实例;用户分析模块则对用户信息、历史消息进行挖掘分析,以同样向量化形式表示;综合评判模块训练分类器,在拼接两特征向量的基础上进行分类判断。
内容分析模块包含以下功能子模型:关键词匹配模型、情感倾向模型、情感波动模型、主题聚类匹配模型和内容影响力评价模型。
关键词匹配模型在传统的关键词正则匹配技术基础上,采取分类关键词库表(词库),针对不同种类的关键词,可以更灵活地采取不同权重已针对不同领域的谣言。本发明采用三大类谣言关键词类别,包括特定领域关键词、受害目标关键词以及通用谣言关键词。
特定领域关键词针对相应领域具有一定的特殊描述性,在其他领域内不常见或者不常用的描述词汇。它可以由领域专家或者根据领域权威词典、领域语料构建。特定领域关键词由应用方向所在领域的语料进行关键词抽取实现,主要目的是使谣言检测更具有领域描述性质,从而消除宽泛但不精确的关键词匹配。
受害目标关键词则是针对相应领域的潜在受害者,可具体到某个事物、事件、人物以及相关名词。从现有的实体知识图谱获取受害者的相关实体进行不断扩充,例如在汽车行业,汽车的品牌就是潜在受害实体,通过现有的公开的知识图谱进行语义查询,对相关品牌等进行语料库扩展。
通用谣言关键词不再针对特定领域,而是对于主流谣言通用的描述性词汇,具有欺骗性、夸大事实或者歪曲事实的倾向性。来源于现有的公开的谣言语料库,主要目的是针对领域模糊的日常谣言。
三种类别的最终匹配结果按照如下公式计算:
st.w1+w2+w3=1
其中,i为关键词的种类,wi表示第i类关键词的权重,表示该段/篇文章的第i类关键词的数目,N表示该段/篇文章的总词数。
情感倾向模型主要是利用Word2Vec模型训练的词向量模型作为输入层,该词向量模型根据语料进行训练,嵌入维度300至500,基本输入输出结果为CBOW或者Skip-gram,文本粒度为整段/篇文本。同时倾向模型基于典型的LSTM网络构建,受训练语料的分类限制,网络模型的输出类别一般大于等于两类。最终输出结果为一篇/段文章的所有类别的所属概率,结果取负向情感的概率值。计算公式如下:
Pneg=Softmax(Output)[Ineg]
其中Pneg表示负向情感倾向概率,Softmax(Output)表示LSTM网络的最终输出向量,Ineg表示负向情感的类别索引。
情感波动模型在情感倾向的模型上,细化输入文本粒度,从段/篇到句子,从而进行句子级别的情感分类,最后统计整段/篇文章的情感倾向方差,作为波动的最终结果。计算方式如下:
其中i表示文本中的第i句,M表示文本中的总句数。表示该句子的负向情感倾向概率。
主题聚类匹配模型主要目的判断信息内容是否与当前热门话题相关,越是相关,潜在谣言就越有可能影响更多的人,因此与热门话题相关的消息成为该模型的关注对象。该模型由基于TF-IDF模型为输入的K-means++聚类模型实现,在评判阶段给出针对新文本判断文本属于的类别以及与该类别中心的相似度距离。距离度量采用余弦相似度。
内容影响力评价模型由本条消息的传播数目相对排名决定,包括转发、评论、点赞数目的总和,比较其在数据库近期传播影响力的排名的百分比作为最终结果,计算方式如下:
Influence=1-Rank(Σ(Nfw,Ncom,Nlike),T)
其中,Rank返回排名百分比,T为时间窗口,控制数据库中对比信息的时间段。Nfw,Ncom,Nlike分别对应转发数量、评论数量以及点赞数量。
用户分析模块包含以下功能模型:近期内容一致性评判模型和用户影响力。
近期内容一致性评判模型以当前信息为参照,采用Doc2Vec网络压缩文本内容,使得每段/篇文章成为固定长度的向量,采用余弦相似度度量两个文本向量的相似度。具体地,取当前时间节点之前一段时间窗口内的该用户的所有文本消息,分词处理之后,以TF-IDF形式向量化表示各文本,作为Doc2Vec模型的输入,最终统计如下方差作为内容一致性的判断:
sim=variance([cos(p0,p1),…,cos(p0·pN′)])
其中,cos(p0,p1)表示当前文本与第一段历史信息的相似度,N′表示该事件窗口的信息总数。
用户影响力评价模型则由用户的粉丝数目和粉丝数目加上用户关注数目的比值作为最终结果,计算方式如下:
其中,分母加1避免除零的出现。粉丝数目越多,且相互关注比较少意味着用户往往是社交网络中的关键意见领袖,越有可能在谣言传播过程中诱发爆发事件。
综合评判模块,按照上文两个分析模块的最终结果,得到一段文本的最终向量形式,在公开的谣言数据集上运用相同的向量化方法,得到一系列标注的向量集合。构建支持向量机分类器,以不超过80%的比例抽取训练集,10%的比例抽取验证集,剩下的样本作为测试集完成分类器的训练和调参。新文本通过前两个模块之后得到同样形式的向量表示,最后通过分类器得到预测的所属类别,默认0为非谣言,1为谣言。
基于上文的谣言检测系统,图1以示意方式表示整体谣言检测方法以及流程,具体步骤如下:
步骤a,获取文本信息例,并获取文本信息例的文本信息和用户信息;
步骤b,根据所述文本信息,建立所述文本信息例的文本内容特征模型,所述文本内容特征模型包括关键词匹配模型、情感倾向模型、情感波动模型、主题聚类匹配模型和内容影响力评价模型;
步骤c,根据所述用户信息,构建所述文本信息例的用户特征模型,所述用户特征模型包括内容一致性评判模型和用户影响力评价模型。
步骤d,根据所述文本内容特征模型和所述用户特征模型,构建特征向量,训练分类器,将所述特征向量输入所述分类器并输出结果,以完成识别社交网络谣言。
对于分类器,采用公开谣言数据库作为训练集,采用支持向量机分类方法进行训练。最终,在新数据经过同样的向量化操作后作为测试样本得到预测的所属类别,非谣言或者谣言两者之一。
图2以示意方式建立关键词匹配模型,各步骤说明如下:
步骤b11,利用爬虫收集特定领域内相关内容,例如新闻、百科、社交网络信息等公开数据,同时进行分词处理,根据词频统计常见谣言用词作为特定领域谣言关键词库;
步骤b12,利用爬虫收集现有知识图谱内领域相关实体内容,通过自动查询以实体名称作为受害目标谣言关键词库;
步骤b13,对自媒体谣言数据进行数据格式化以及分词处理,根据词频统计常见谣言用词作为通用谣言关键词库;
步骤b14,新文本分词之后,匹配各个关键词词库,给出新文本对应的关键词占比,按照各关键词词库的权重加权求和得到该新文本最终的关键词匹配度。
图3以示意方式建立情感倾向模型,各步骤说明如下:
步骤b21,利用预训练Word2Vec模型建立文本嵌入输入层;
步骤b22,使用公开情感数据集进行分词处理;
步骤b23,训练LSTM分类模型;
步骤b24,使用LSTM分类模型进行预测时,对新文本进行分词处理,获得最终的类别概率分布,并取负向情感所在索引的概率值作为情感倾向模型输出结果;
其中,建立情感波动模型步骤包括:在情感倾向的模型上,细化输入文本粒度到句子,最后统计整段/篇文章的情感倾向方差,计算方差并做[0,1]截断作为情感波动最终结果。
图4以示意方式建立主题聚类匹配模型,各步骤说明如下:
步骤b31,提取数据库时间窗口内的所有信息,并进行分词处理;
步骤b32,使用TF-IDF模型进行向量化文本;
步骤b33,使用K-means++算法进行聚类迭代,直到满足步数要求停止;
步骤b34,新文本分词之后,进行TF-IDF转化,在与上一步产生的聚类中心进行相似度计算,选取最近的一个主题作为新文本的主题,并给出[0,1]截断的相似度值作为最终结果。
其中,所述内容影响力评价模型为消息的传播数目相对排名。消息的传播数目为消息的转发、评论和点赞数目的总和。
图5以示意方式建立内容一致性评判模型,各步骤说明如下:
步骤c1,提取当前消息之前的时间窗口内的所有信息,并同时做分词处理;
步骤c2,使用预训练的Doc2Vec模型对文本进行向量化;
步骤c3,计算历史消息向量与当前消息向量的余弦相似度的方差,使用其[0,1]截断值作为最终结果。
其中,所述用户影响力评价模型为用户的粉丝数目与粉丝数目加上用户关注数目的比值。
Claims (9)
1.一种基于内容、用户多因素分析的社交网络谣言检测方法,其特征在于,包括:
步骤a,获取文本信息例,并获取文本信息例的文本信息和用户信息;
步骤b,根据所述文本信息,建立所述文本信息例的文本内容特征模型,所述文本内容特征模型包括关键词匹配模型、情感倾向模型、情感波动模型、主题聚类匹配模型和内容影响力评价模型;
步骤c,根据所述用户信息,构建所述文本信息例的用户特征模型,所述用户特征模型包括内容一致性评判模型和用户影响力评价模型;
步骤d,根据所述文本内容特征模型和所述用户特征模型,构建特征向量,训练分类器,将所述特征向量输入所述分类器并输出结果,以完成识别社交网络谣言。
2.根据权利要求1所述的基于内容、用户多因素分析的社交网络谣言检测方法,其特征在于,建立所述关键词匹配模型步骤包括:
步骤b11,收集特定领域内相关内容,同时进行分词处理,根据词频统计常见谣言用词作为特定领域谣言关键词库;
步骤b12,收集现有知识图谱内领域相关实体内容,通过自动查询以实体名称作为受害目标谣言关键词库;
步骤b13,对自媒体谣言数据进行数据格式化以及分词处理,根据词频统计常见谣言用词作为通用谣言关键词库;
步骤b14,新文本分词之后,匹配各个关键词词库,给出新文本对应的关键词占比,按照各关键词词库的权重加权求和得到该新文本最终的关键词匹配度。
3.根据权利要求1所述的基于内容、用户多因素分析的社交网络谣言检测方法,其特征在于,建立所述情感倾向模型步骤包括:
步骤b21,利用预训练Word2Vec模型建立文本嵌入输入层;
步骤b22,使用公开情感数据集进行分词处理;
步骤b23,训练LSTM分类模型;
步骤b24,使用LSTM分类模型进行预测时,对新文本进行分词处理,获得最终的类别概率分布,并取负向情感所在索引的概率值作为情感倾向模型输出结果。
4.根据权利要求3所述的基于内容、用户多因素分析的社交网络谣言检测方法,其特征在于,建立所述情感波动模型步骤包括:在所述情感倾向的模型上,细化输入文本粒度到句子,最后统计整段/篇文章的情感倾向方差,作为情感波动的最终结果。
5.根据权利要求1所述的基于内容、用户多因素分析的社交网络谣言检测方法,其特征在于,建立所述主题聚类匹配模型步骤包括:
步骤b31,提取数据库时间窗口内的所有信息,并进行分词处理;
步骤b32,使用TF-IDF模型进行向量化文本;
步骤b33,使用K-means++算法进行聚类迭代,直到满足步数要求停止;
步骤b34,新文本分词之后,进行TF-IDF转化,在与上一步产生的聚类中心进行相似度计算,选取最近的一个主题作为新文本的主题。
6.根据权利要求1所述的基于内容、用户多因素分析的社交网络谣言检测方法,其特征在于,所述内容影响力评价模型为消息的传播数目相对排名。
7.根据权利要求6所述的基于内容、用户多因素分析的社交网络谣言检测方法,其特征在于,所述消息的传播数目为消息的转发、评论和点赞数目的总和。
8.根据权利要求1所述的基于内容、用户多因素分析的社交网络谣言检测方法,其特征在于,建立所述内容一致性评判模型步骤包括:
步骤c1,提取当前消息之前的时间窗口内的所有信息,并同时做分词处理;
步骤c2,使用预训练的Doc2Vec模型对文本进行向量化;
步骤c3,计算历史消息向量与当前消息向量的余弦相似度的方差。
9.根据权利要求1所述的基于内容、用户多因素分析的社交网络谣言检测方法,其特征在于,所述用户影响力评价模型为用户的粉丝数目与粉丝数目加上用户关注数目的比值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711453302.4A CN108038240A (zh) | 2017-12-26 | 2017-12-26 | 基于内容、用户多因素分析的社交网络谣言检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711453302.4A CN108038240A (zh) | 2017-12-26 | 2017-12-26 | 基于内容、用户多因素分析的社交网络谣言检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108038240A true CN108038240A (zh) | 2018-05-15 |
Family
ID=62097730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711453302.4A Pending CN108038240A (zh) | 2017-12-26 | 2017-12-26 | 基于内容、用户多因素分析的社交网络谣言检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108038240A (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804608A (zh) * | 2018-05-30 | 2018-11-13 | 武汉烽火普天信息技术有限公司 | 一种基于层次attention的微博谣言立场检测方法 |
CN109471932A (zh) * | 2018-11-26 | 2019-03-15 | 国家计算机网络与信息安全管理中心 | 基于学习模型的谣言检测方法、系统及存储介质 |
CN110032733A (zh) * | 2019-03-12 | 2019-07-19 | 中国科学院计算技术研究所 | 一种针对新闻长文本的谣言检测方法及系统 |
CN110147911A (zh) * | 2019-05-28 | 2019-08-20 | 吉林大学 | 一种基于内容感知的社交影响力预测模型及预测方法 |
CN110188284A (zh) * | 2019-04-25 | 2019-08-30 | 中国科学院计算技术研究所 | 一种基于检索辅助的谣言检测方法及系统 |
CN110399484A (zh) * | 2019-06-25 | 2019-11-01 | 平安科技(深圳)有限公司 | 长文本的情感分析方法、装置、计算机设备和存储介质 |
CN110704710A (zh) * | 2019-09-05 | 2020-01-17 | 上海师范大学 | 一种基于深度学习的中文电商情感分类方法 |
CN110990716A (zh) * | 2019-11-19 | 2020-04-10 | 浙江工业大学 | 基于影响力最大化的抑制虚假消息传播方法 |
CN111008337A (zh) * | 2019-11-06 | 2020-04-14 | 武汉大学 | 一种基于三元特征的深度注意力谣言鉴别方法及装置 |
CN111221941A (zh) * | 2020-01-10 | 2020-06-02 | 复旦大学 | 基于文本内容和行文风格的社交媒体谣言鉴别算法 |
CN111414760A (zh) * | 2018-12-18 | 2020-07-14 | 广东美的白色家电技术创新中心有限公司 | 自然语言处理方法及相关设备、系统和存储装置 |
CN111708884A (zh) * | 2020-06-02 | 2020-09-25 | 上海硬通网络科技有限公司 | 文本分类方法、装置及电子设备 |
CN111966919A (zh) * | 2020-07-13 | 2020-11-20 | 江汉大学 | 一种事件消息的处理方法、装置及设备 |
CN112052995A (zh) * | 2020-08-31 | 2020-12-08 | 杭州电子科技大学 | 基于融合情感倾向主题的社交网络用户影响力预测方法 |
CN112711650A (zh) * | 2019-10-24 | 2021-04-27 | 富驰律法(北京)科技有限公司 | 一种公益诉讼线索挖掘方法及系统 |
CN113535944A (zh) * | 2020-04-21 | 2021-10-22 | 阿里巴巴集团控股有限公司 | 文本处理方法和装置、电子设备以及计算机可读存储介质 |
WO2022001517A1 (zh) * | 2020-07-01 | 2022-01-06 | 平安国际智慧城市科技股份有限公司 | 基于谣言预测模型的信息发送方法、装置和计算机设备 |
CN114896522A (zh) * | 2022-04-14 | 2022-08-12 | 北京航空航天大学 | 多平台信息疫情风险评估方法及装置 |
CN115544226A (zh) * | 2022-08-31 | 2022-12-30 | 华南师范大学 | 一种基于多模态情感分析的相似识别方法 |
CN115840844A (zh) * | 2022-12-17 | 2023-03-24 | 深圳市新联鑫网络科技有限公司 | 一种基于大数据的互联网络平台用户行为分析系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105045857A (zh) * | 2015-07-09 | 2015-11-11 | 中国科学院计算技术研究所 | 一种社交网络谣言识别方法及系统 |
CN107180077A (zh) * | 2017-04-18 | 2017-09-19 | 北京交通大学 | 一种基于深度学习的社交网络谣言检测方法 |
-
2017
- 2017-12-26 CN CN201711453302.4A patent/CN108038240A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105045857A (zh) * | 2015-07-09 | 2015-11-11 | 中国科学院计算技术研究所 | 一种社交网络谣言识别方法及系统 |
CN107180077A (zh) * | 2017-04-18 | 2017-09-19 | 北京交通大学 | 一种基于深度学习的社交网络谣言检测方法 |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804608B (zh) * | 2018-05-30 | 2021-08-27 | 武汉烽火普天信息技术有限公司 | 一种基于层次attention的微博谣言立场检测方法 |
CN108804608A (zh) * | 2018-05-30 | 2018-11-13 | 武汉烽火普天信息技术有限公司 | 一种基于层次attention的微博谣言立场检测方法 |
CN109471932A (zh) * | 2018-11-26 | 2019-03-15 | 国家计算机网络与信息安全管理中心 | 基于学习模型的谣言检测方法、系统及存储介质 |
CN111414760A (zh) * | 2018-12-18 | 2020-07-14 | 广东美的白色家电技术创新中心有限公司 | 自然语言处理方法及相关设备、系统和存储装置 |
CN110032733A (zh) * | 2019-03-12 | 2019-07-19 | 中国科学院计算技术研究所 | 一种针对新闻长文本的谣言检测方法及系统 |
CN110188284A (zh) * | 2019-04-25 | 2019-08-30 | 中国科学院计算技术研究所 | 一种基于检索辅助的谣言检测方法及系统 |
CN110188284B (zh) * | 2019-04-25 | 2022-01-28 | 中国科学院计算技术研究所 | 一种基于检索辅助的谣言检测方法及系统 |
CN110147911A (zh) * | 2019-05-28 | 2019-08-20 | 吉林大学 | 一种基于内容感知的社交影响力预测模型及预测方法 |
CN110147911B (zh) * | 2019-05-28 | 2022-09-09 | 吉林大学 | 一种基于内容感知的社交影响力预测模型及预测方法 |
CN110399484A (zh) * | 2019-06-25 | 2019-11-01 | 平安科技(深圳)有限公司 | 长文本的情感分析方法、装置、计算机设备和存储介质 |
CN110704710A (zh) * | 2019-09-05 | 2020-01-17 | 上海师范大学 | 一种基于深度学习的中文电商情感分类方法 |
CN112711650B (zh) * | 2019-10-24 | 2024-04-12 | 富驰律法(北京)科技有限公司 | 一种公益诉讼线索挖掘方法及系统 |
CN112711650A (zh) * | 2019-10-24 | 2021-04-27 | 富驰律法(北京)科技有限公司 | 一种公益诉讼线索挖掘方法及系统 |
CN111008337B (zh) * | 2019-11-06 | 2022-04-15 | 武汉大学 | 一种基于三元特征的深度注意力谣言鉴别方法及装置 |
CN111008337A (zh) * | 2019-11-06 | 2020-04-14 | 武汉大学 | 一种基于三元特征的深度注意力谣言鉴别方法及装置 |
CN110990716A (zh) * | 2019-11-19 | 2020-04-10 | 浙江工业大学 | 基于影响力最大化的抑制虚假消息传播方法 |
CN110990716B (zh) * | 2019-11-19 | 2022-06-28 | 浙江工业大学 | 基于影响力最大化的抑制虚假消息传播方法 |
CN111221941B (zh) * | 2020-01-10 | 2023-12-26 | 复旦大学 | 基于文本内容和行文风格的社交媒体谣言鉴别算法 |
CN111221941A (zh) * | 2020-01-10 | 2020-06-02 | 复旦大学 | 基于文本内容和行文风格的社交媒体谣言鉴别算法 |
CN113535944A (zh) * | 2020-04-21 | 2021-10-22 | 阿里巴巴集团控股有限公司 | 文本处理方法和装置、电子设备以及计算机可读存储介质 |
CN111708884A (zh) * | 2020-06-02 | 2020-09-25 | 上海硬通网络科技有限公司 | 文本分类方法、装置及电子设备 |
WO2022001517A1 (zh) * | 2020-07-01 | 2022-01-06 | 平安国际智慧城市科技股份有限公司 | 基于谣言预测模型的信息发送方法、装置和计算机设备 |
CN111966919A (zh) * | 2020-07-13 | 2020-11-20 | 江汉大学 | 一种事件消息的处理方法、装置及设备 |
CN112052995A (zh) * | 2020-08-31 | 2020-12-08 | 杭州电子科技大学 | 基于融合情感倾向主题的社交网络用户影响力预测方法 |
CN114896522A (zh) * | 2022-04-14 | 2022-08-12 | 北京航空航天大学 | 多平台信息疫情风险评估方法及装置 |
CN115544226A (zh) * | 2022-08-31 | 2022-12-30 | 华南师范大学 | 一种基于多模态情感分析的相似识别方法 |
CN115840844A (zh) * | 2022-12-17 | 2023-03-24 | 深圳市新联鑫网络科技有限公司 | 一种基于大数据的互联网络平台用户行为分析系统 |
CN115840844B (zh) * | 2022-12-17 | 2023-08-15 | 深圳市新联鑫网络科技有限公司 | 一种基于大数据的互联网络平台用户行为分析系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108038240A (zh) | 基于内容、用户多因素分析的社交网络谣言检测方法 | |
CN109299380B (zh) | 在线教育平台中基于多维特征的习题个性化推荐方法 | |
KR101536520B1 (ko) | 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버 | |
CN105740228B (zh) | 一种互联网舆情分析方法及系统 | |
CN103365867B (zh) | 一种对用户评价进行情感分析的方法和装置 | |
CN106202372A (zh) | 一种网络文本信息情感分类的方法 | |
CN107239439A (zh) | 基于word2vec的舆情倾向性分析方法 | |
CN106682172A (zh) | 一种基于关键词的文献研究热点推荐方法 | |
CN110134792B (zh) | 文本识别方法、装置、电子设备以及存储介质 | |
CN109726745B (zh) | 一种融入描述知识的基于目标的情感分类方法 | |
CN104350490A (zh) | 用于组织与产品相关的数据的方法、装置以及计算机可读介质 | |
US10387805B2 (en) | System and method for ranking news feeds | |
CN108228853A (zh) | 一种微博谣言识别方法及系统 | |
CN105843796A (zh) | 一种微博情感倾向分析方法及装置 | |
CN103473262A (zh) | 一种基于关联规则的Web评论观点自动分类系统及分类方法 | |
CN105809186A (zh) | 情感分类的方法及系统 | |
CN108363784A (zh) | 一种基于文本机器学习的舆情走向预测方法 | |
CN108073571A (zh) | 一种多语言文本质量评估方法及系统、智能文本处理系统 | |
Parthasarathy et al. | Sentiment analyzer: Analysis of journal citations from citation databases | |
CN109145301A (zh) | 信息分类方法及装置、计算机可读存储介质 | |
CN116501840B (zh) | 一种用于获客营销的nlp智能分析方法 | |
CN108536757B (zh) | 一种基于用户历史网络潜在有害主题引导方法 | |
Zubiaga et al. | Political homophily in independence movements: analyzing and classifying social media users by national identity | |
CN110688540B (zh) | 一种作弊账户筛选方法、装置、设备及介质 | |
CN115018255A (zh) | 一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180515 |
|
WD01 | Invention patent application deemed withdrawn after publication |