CN110019812B - 一种用户自生产内容检测方法和系统 - Google Patents
一种用户自生产内容检测方法和系统 Download PDFInfo
- Publication number
- CN110019812B CN110019812B CN201810164771.2A CN201810164771A CN110019812B CN 110019812 B CN110019812 B CN 110019812B CN 201810164771 A CN201810164771 A CN 201810164771A CN 110019812 B CN110019812 B CN 110019812B
- Authority
- CN
- China
- Prior art keywords
- social
- features
- content
- feature
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 39
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 28
- 239000013598 vector Substances 0.000 claims abstract description 116
- 230000004927 fusion Effects 0.000 claims abstract description 86
- 238000013528 artificial neural network Methods 0.000 claims abstract description 52
- 230000000306 recurrent effect Effects 0.000 claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 20
- 230000007246 mechanism Effects 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 9
- 238000012935 Averaging Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- Computational Linguistics (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Economics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种用户自生产内容检测方法和系统,包括:获取社交媒体中用户自生产内容的文本内容、图像内容和社交属性,并从文本内容中抽取词向量特征,从社交属性中抽取社交属性特征以及从图像内容中抽取图像特征;通过递归神经网络融合词向量特征和社交属性特征,得到文本、社交融合特征;根据递归神经网络得到注意力向量,并通过注意力机制将图像特征处理为注意力融合特征,将注意力融合特征与文本、社交融合特征相融合,生成多模态融合特征;利用多模态融合特征训练分类器,以检测社交媒体中指定的用户自生产内容。本发明通过深度神经网络,融合内容检测涉及的多种模态内容,能够全面地进行用户自生产内容检测,得到更加准确的检测结果。
Description
技术领域
本发明涉及信息挖掘技术领域,特别涉及一种用户自生产内容检测方法和系统。
背景技术
随着Web2.0时代的到来,各种社交媒体应运而生,社交媒体平台上的各种多媒体数据(图像、视频、音频)呈现爆炸式的增长,我们进入了社交多媒体大数据时代。社交媒体(微博、优酷等)允许用户自生产内容(User Generated Content,UGC),并通过社交网络进行发布、分享、交流和传播。而以多媒体为信息载体通常能够表达更丰富和生动的内容,因此越来越多的多媒体内容出现在社交媒体上。
然而,社交平台在加速信息公开的同时,也带来了虚假信息的泛滥。由于普通用户的媒介素养参差不齐,造成UGC新闻普遍存在着虚假、差错、欠准确等问题。由于缺乏有效的谣言检测技术,大量公众人物和主流媒体无意间推转相关虚假新闻,成为很多网络谣言和虚假报道的推波助澜者,严重损害了他们的媒体公信力。因此,在大量虚假新闻充斥网络媒体空间的当下,发展利用计算机技术自动检测虚假谣言的技术至关重要。
社交多媒体时代的新闻往往具有多种不同的内容表现形式。社交网络上的一则假新闻,通常会包含文本内容(包括文字描述、话题和外部链接等)、图片或视频内容和一些社交内容(转发、评论等)。综合利用这些多模态信息能够提高谣言检测的准备率。
现有的多模态特征,包括文本特征和视觉特征,大多都是手工构造的简单特征。在特征融合上,现有的方法也只是简单地在特征上前融合或是结果上后融合。一方面浅层特征不能有效地表述对象的深层语义概念,另一方面简单地融合算法无法有效地弥合不同模态特征在特征空间上的差异。
与传统的手工构造特征相比,深度神经网络已在很多应用中被证明能够更加准确地学习到图片和文本的特征表达。具体而言,卷积神经网络能够有效地学习图片的视觉语义特征,而递归神经网络被广泛地应用在句子特征表达上。深度神经网络能够有效地跨越不同模态数据间的语义鸿沟。
经过调研,目前对于融合多模态特征的社交多媒体谣言检测的研究相对缺乏,没有成熟的融合多模态特征的检测技术。
发明内容
为了解决上述技术问题,本发明从网络谣言检测问题切入,目的在于提供一种依据网络信息包含的文本、图片、视频、社交信息等多模态内容进行用户自生产内容检测的方法和系统。
具体来说,本发明提供了一种用户自生产内容检测方法,其中包括:
步骤1、获取社交媒体中用户自生产内容的文本内容、图像内容和社交属性,并从该文本内容中抽取词向量特征,从该社交属性中抽取社交属性特征以及从该图像内容中抽取图像特征;
步骤2、通过递归神经网络融合该词向量特征和该社交属性特征,得到文本、社交融合特征;
步骤3、根据该递归神经网络得到注意力向量,并通过注意力机制将该图像特征处理为注意力融合特征,将该注意力融合特征与该文本、社交融合特征相融合,生成多模态融合特征;
步骤4、利用该多模态融合特征训练分类器,以检测该社交媒体中的用户自生产内容。
该用户自生产内容检测方法,其中该步骤1包括:
步骤11、将该文本内容进行分词处理,得到多个单词,针对每个单词利用词向量嵌入模型得到对应的向量表示,并将该向量表示集合为该词向量特征;
步骤12、将组织为向量形式的该社交属性输入至全连接层,以生成与该词向量特征维度相等的该社交属性特征;
步骤13、将该图像内容输入至卷积神经网络,并对抽取出的特征进行降维处理,得到该图像特征。
该用户自生产内容检测方法,其中该步骤2包括:
步骤21、将词向量特征和其相对应的社交属性特征相联结,得到融合特征,将该融合特征输入至递归神经网络中各递归层,并将各递归层输出的向量经过聚合求平均后,得到该文本、社交融合特征。
该用户自生产内容检测方法,其中该步骤3包括:
步骤31、将该递归神经网络中各递归层输出的向量输入至全连接层,得到与该图像特征相同维度的向量,作为该注意力向量;
步骤32、以该注意力向量为权值,对该图像特征的每一维度进行加权求和处理,得到注意力值;
步骤33、联结该注意力值,得到该注意力融合特征。
该用户自生产内容检测方法,其中该步骤4还包括:使用该多模态特征和标注的指定用户自生产内容数据,训练得到该分类器,将待检测的用户自生产内容的多模态特征输入该分类器,以检测该社交媒体中的用户自生产内容。
本发明还提供了一种用户自生产内容检测系统,其中包括:
特征抽取模块,用于获取社交媒体中用户自生产内容的文本内容、图像内容和社交属性,并从该文本内容中抽取词向量特征,从该社交属性中抽取社交属性特征以及从该图像内容中抽取图像特征;
特征融合模块,用于通过递归神经网络融合该词向量特征和该社交属性特征,得到文本、社交融合特征,根据该递归神经网络得到注意力向量,并通过注意力机制将该图像特征处理为注意力融合特征,将该注意力融合特征与该文本、社交融合特征相融合,生成多模态融合特征;
训练模块,用于利用该多模态融合特征训练分类器,以检测该社交媒体中的用户自生产内容。
该用户自生产内容检测系统,其中该特征抽取模块包括:
将该文本内容进行分词处理,得到多个单词,针对每个单词利用词向量嵌入模型得到对应的向量表示,并将该向量表示集合为该词向量特征;
将组织为向量形式的该社交属性输入至全连接层,以生成与该词向量特征维度相等的该社交属性特征;
将该图像内容输入至卷积神经网络,并对抽取出的特征进行降维处理,得到该图像特征。
该用户自生产内容检测系统,其中该特征融合模块包括:
将词向量特征和其相对应的社交属性特征相联结,得到融合特征,将该融合特征输入至递归神经网络中各递归层,并将各递归层输出的向量经过聚合求平均后,得到该文本、社交融合特征。
该用户自生产内容检测系统,其中该特征融合模块包括:
将该递归神经网络中各递归层输出的向量输入至全连接层,得到与该图像特征相同维度的向量,作为该注意力向量;
步骤32、以该注意力向量为权值,对该图像特征的每一维度进行加权求和处理,得到注意力值;
步骤33、联结该注意力值,得到该注意力融合特征。
该用户自生产内容检测系统,其中该训练模块还包括:使用该多模态特征和标注的指定用户自生产内容数据,训练得到该分类器,将待检测的用户自生产内容的多模态特征输入该分类器,以检测该社交媒体中的用户自生产内容。
本发明的技术进步包括传统的谣言检测方法仅关注于文本内容,不能综合有效的利用多种模态的信息进行分析。而本发明通过深度神经网络,融合内容检测涉及的多种不同模态的内容,能够全面地进行用户自生产内容检测,得到更加准确的检测结果。
附图说明
图1为深度神经网络抽取、融合多模态特征的谣言检测方法框架图;
图2为本发明步骤框图。
具体实施方式
具体来说,本发明提供了一种用户自生产内容检测方法,其中包括:
步骤1、获取社交媒体中用户自生产内容的文本内容、图像内容和社交属性,并从该文本内容中抽取词向量特征,从该社交属性中抽取社交属性特征以及从该图像内容中抽取图像特征;
步骤2、通过递归神经网络融合该词向量特征和该社交属性特征,得到文本、社交融合特征;
步骤3、根据该递归神经网络得到注意力向量,并通过注意力机制将该图像特征处理为注意力融合特征,将该注意力融合特征与该文本、社交融合特征相融合,生成多模态融合特征;
步骤4、利用该多模态融合特征训练分类器,以检测该社交媒体中的用户自生产内容。
该用户自生产内容检测方法,其中该步骤1包括:
步骤11、将该文本内容进行分词处理,得到多个单词,针对每个单词利用词向量嵌入模型得到对应的向量表示,并将该向量表示集合为该词向量特征;
步骤12、将组织为向量形式的该社交属性输入至全连接层,以生成与该词向量特征维度相等的该社交属性特征;
步骤13、将该图像内容输入至卷积神经网络,并对抽取出的特征进行降维处理,得到该图像特征。
该用户自生产内容检测方法,其中该步骤2包括:
步骤21、将词向量特征和其相对应的社交属性特征相联结,得到融合特征,将该融合特征输入至递归神经网络中各递归层,并将各递归层输出的向量经过聚合求平均后,得到该文本、社交融合特征。
该用户自生产内容检测方法,其中该步骤3包括:
步骤31、将该递归神经网络中各递归层输出的向量输入至全连接层,得到与该图像特征相同维度的向量,作为该注意力向量;
步骤32、以该注意力向量为权值,对该图像特征的每一维度进行加权求和处理,得到注意力值;
步骤33、联结该注意力值,得到该注意力融合特征。
该用户自生产内容检测方法,其中该步骤4还包括:使用该多模态特征和标注的指定用户自生产内容数据,训练得到该分类器,将待检测的用户自生产内容的多模态特征输入该分类器,以检测该社交媒体中的用户自生产内容。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。需要注意的是,以下实施例主要以谣言作为被检测的用户自生产内容,本发明并不以此为限,任何指定的用户自生产内容,包括谣言、舆论走向、广告、招聘信息等用户自生产内容都可以作为本发明的被检测对象。
请参考图1和图2,利用深度神经网络抽取、融合多模态特征的谣言检测方法。
本发明提出利用深度神经网络来提取和融合来自文本、社交信息和图片的多模态内容,进行更加全面地新闻认证。模型的框图如图1所示,说明了本发明方法涉及的主要流程包括四个方面:
步骤1.基本特征的抽取。信息首先要经过编码才能被神经网络用作输入单元,针对不同类型的内容,本发明采取不同的方式抽取出对应特征,包括从文本内容抽取的词向量特征,从社交属性抽取的社交属性特征以及从图像内容抽取的图像特征。
步骤2.文本、社交属性特征的融合。利用一个递归神经网络融合词向量特征和社交属性特征,得到注意力融合特征。
步骤3.基于注意力机制的融合。利用注意力机制将文本、社交属性特征与图像特征融合,生成多模态特征。注意力向量由递归神经网络产生。
步骤4.利用融合的多模态特征进行谣言检测分类。将多种模态融合后的多模态特征应用于谣言检测任务。具体而言,以该多模态特征表示谣言的各方面信息后,通过逻辑回归等分类学习算法能够利用标注的谣言数据训练得到谣言的分类器。将未标注信息采用同样方式抽取其多模态特征,利用该训练好的分类器,能够检测其是否为谣言。整个网络的训练就是依赖于谣言分类任务的标签和模型预测结果之间的损失函数值来进行迭代训练。
基本特征的抽取。在将不同类型的内容应用于神经网络之前,需要针对性的抽取每种内容的基本特征。为了使模型能够更加充分和平衡地利用到每种类型数据的信息,基本特征抽取时既要保证抽取的特征能够有效的表示该内容,也要协调各类型特征的维度。具体而言,本发明针对三种模态内容的特征抽取方式如下:
步骤11.词向量特征。原始文本内容分词后得到一个个单词,针对每个单词利用预先训练好的词向量嵌入模型得到对应的一个向量表示。预训练的模型通常采用word2vector等成熟的模型,在相关的大型语料集上采用无监督的方式训练得到。
步骤12.社交属性特征。社交属性主要包括以下几类:社交平台特有的社交特征(@、#、url链接等)、语言表达方式上的特征(特殊的标点符号、表情符等)、语义情感类特征(情感倾向、命名实体等)。这些特征以组织成向量的形式再通过一个全连接层转换成与词向量特征维度等价的向量表达。
步骤13.图像特征。图像特征利用通用的预先训练好的图像卷积神经网络抽取,如利用大型的图片分类数据集训练得到的VGG-net.抽取出的图像特征往往维度较高(4096维),通过两个全连接层将其降低到较低维度(512维),以便于后续特征融合。
融合文本特征和社交属性特征。利用一个递归神经网络融合抽取出的词向量特征和社交属性特征。具体而言,将原始文本表示成一序列词向量后,每次对一个词向量,将其与该文本内容在社交网路上传播过程中产生的社交属性特征联结成一个向量,最后将该向量作为输入,输入到递归神经网络的每一步递归层。经过该网络后,同样地,每一步会产生一个输出向量,将这些向量聚合求平均后可以得到一个融合社交和文本特征的表示整个文档的特征。
利用注意力机制融合图像特征和文本、社交属性特征。本发明中的注意力机制是一种将不同模态融合的方法。包括以下三个步骤;
步骤31.抽取注意力向量。将递归神经网络的每一步输出,通过两个全连接层的处理转换到与图像特征相同维度的一个向量。该向量表示了文本、社交属性特征在当前步下的特征。
步骤32.计算注意力值。对经过卷积神经网络得到的图像特征的每一维度,采用加权求和的方式得到一个值。以上述注意力向量为每一维度对应的权值,这样得到的注意力值就代表了文本、社交属性特征与图像特征直接的匹配程度。
步骤33.构造注意力融合特征。递归神经网络在每一步都会产生一个注意力值,将这些值联结起来就形成了注意力融合特征。总结来看,1)递归神经网络以文本特征和社交属性特征为输入;2)在每一步的递归过程中产生一个当前词项与社交属性的融合特征;3)该融合特征再经过两层神经网络形成注意力向量;4)注意力向量与图像特征通过加权求和得到注意力值;5)将每一步的注意力值拼接形成最终的融合三个模态的多模态特征。
以下为与上述方法实施例对应的系统实施例,本实施系统可与上述实施方式互相配合实施。上述施方式中提到的相关技术细节在本实施系统中依然有效,为了减少重复,这里不再赘述。相应地,本实施系统中提到的相关技术细节也可应用在上述实施方式中。
本发明还提供了一种用户自生产内容检测系统,其中包括:
特征抽取模块,用于获取社交媒体中用户自生产内容的文本内容、图像内容和社交属性,并从该文本内容中抽取词向量特征,从该社交属性中抽取社交属性特征以及从该图像内容中抽取图像特征;
特征融合模块,用于通过递归神经网络融合该词向量特征和该社交属性特征,得到文本、社交融合特征,根据该递归神经网络得到注意力向量,并通过注意力机制将该图像特征处理为注意力融合特征,将该注意力融合特征与该文本、社交融合特征相融合,生成多模态融合特征;
训练模块,用于利用该多模态融合特征训练分类器,以检测该社交媒体中的用户自生产内容。
该用户自生产内容检测系统,其中该特征抽取模块包括:
将该文本内容进行分词处理,得到多个单词,针对每个单词利用词向量嵌入模型得到对应的向量表示,并将该向量表示集合为该词向量特征;
将组织为向量形式的该社交属性输入至全连接层,以生成与该词向量特征维度相等的该社交属性特征;
将该图像内容输入至卷积神经网络,并对抽取出的特征进行降维处理,得到该图像特征。
该用户自生产内容检测系统,其中该特征融合模块包括:
将词向量特征和其相对应的社交属性特征相联结,得到融合特征,将该融合特征输入至递归神经网络中各递归层,并将各递归层输出的向量经过聚合求平均后,得到该文本、社交融合特征。
该用户自生产内容检测系统,其中该特征融合模块包括:
将该递归神经网络中各递归层输出的向量输入至全连接层,得到与该图像特征相同维度的向量,作为该注意力向量;
步骤32、以该注意力向量为权值,对该图像特征的每一维度进行加权求和处理,得到注意力值;
步骤33、联结该注意力值,得到该注意力融合特征。
该用户自生产内容检测系统,其中该训练模块还包括:使用该多模态特征和标注的指定用户自生产内容数据,训练得到该分类器,将待检测的用户自生产内容的多模态特征输入该分类器,以检测该社交媒体中的用户自生产内容。
综上,本发明利用深度神经网络抽取、融合多模态特征的用户自生产内容检测方法的框架。给出用户自生产内容检测中常用的文本、图像、社交属性特征,然后提出一种基于递归神经网络的方法来抽取和融合各类特征。基本特征的抽取,基本特征指输入神经网络的文本、社交属性和图像特征。本发明提出了这些基本特征的抽取方法,并将这些特征应用到整体特征融合框架下。融合文本特征和社交属性特征。提出一种基于递归神经网络的方法来融合基本的文本特征和社交属性特征,并得到融合后的特征。利用注意力机制融合图像特征和文本、社交属性特征。提出一种基于注意力机制的方法,将图像特征与文本、社交属性特征融合,最终得到融合多个模态的特征。
虽然本发明以上述实施例公开,但具体实施例仅用以解释本发明,并不用于限定本发明,任何本技术领域技术人员,在不脱离本发明的构思和范围内,可作一些的变更和完善,故本发明的权利保护范围以权利要求书为准。
Claims (6)
1.一种用户自生产内容检测方法,其特征在于,包括:
步骤1、获取社交媒体中用户自生产内容的文本内容、图像内容和社交属性,并从该文本内容中抽取词向量特征,从该社交属性中抽取社交属性特征以及从该图像内容中抽取图像特征;
步骤2、通过递归神经网络融合该词向量特征和该社交属性特征,得到文本、社交融合特征;
步骤3、根据该递归神经网络得到注意力向量,并通过注意力机制将该图像特征处理为注意力融合特征,将该注意力融合特征与该文本、社交融合特征相融合,生成多模态融合特征;
步骤4、利用该多模态融合特征训练分类器,以检测该社交媒体中的用户自生产内容;
其中该步骤2包括:
步骤21、将词向量特征和其相对应的社交属性特征相联结,得到融合特征,将该融合特征输入至递归神经网络中各递归层,并将各递归层输出的向量经过聚合求平均后,得到该文本、社交融合特征;
该步骤3包括:
步骤31、将该递归神经网络中各递归层输出的向量输入至全连接层,得到与该图像特征相同维度的向量,作为该注意力向量;
步骤32、以该注意力向量为权值,对该图像特征的每一维度进行加权求和处理,得到注意力值;
步骤33、联结该注意力值,得到该注意力融合特征。
2.如权利要求1所述的用户自生产内容检测方法,其特征在于,该步骤1包括:
步骤11、将该文本内容进行分词处理,得到多个单词,针对每个单词利用词向量嵌入模型得到对应的向量表示,并将该向量表示集合为该词向量特征;
步骤12、将组织为向量形式的该社交属性输入至全连接层,以生成与该词向量特征维度相等的该社交属性特征;
步骤13、将该图像内容输入至卷积神经网络,并对抽取出的特征进行降维处理,得到该图像特征。
3.如权利要求1所述的用户自生产内容检测方法,其特征在于,该步骤4还包括:使用该多模态特征和标注的指定用户自生产内容数据,训练得到该分类器,将待检测的用户自生产内容的多模态特征输入该分类器,以检测该社交媒体中的用户自生产内容。
4.一种用户自生产内容检测系统,其特征在于,包括:
特征抽取模块,用于获取社交媒体中用户自生产内容的文本内容、图像内容和社交属性,并从该文本内容中抽取词向量特征,从该社交属性中抽取社交属性特征以及从该图像内容中抽取图像特征;
特征融合模块,用于通过递归神经网络融合该词向量特征和该社交属性特征,得到文本、社交融合特征,根据该递归神经网络得到注意力向量,并通过注意力机制将该图像特征处理为注意力融合特征,将该注意力融合特征与该文本、社交融合特征相融合,生成多模态融合特征;
训练模块,用于利用该多模态融合特征训练分类器,以检测该社交媒体中的用户自生产内容;
其中该特征融合模块包括:
将词向量特征和其相对应的社交属性特征相联结,得到融合特征,将该融合特征输入至递归神经网络中各递归层,并将各递归层输出的向量经过聚合求平均后,得到该文本、社交融合特征;
该特征融合模块包括:
将该递归神经网络中各递归层输出的向量输入至全连接层,得到与该图像特征相同维度的向量,作为该注意力向量;
以该注意力向量为权值,对该图像特征的每一维度进行加权求和处理,得到注意力值;
联结该注意力值,得到该注意力融合特征。
5.如权利要求4所述的用户自生产内容检测系统,其特征在于,该特征抽取模块包括:
将该文本内容进行分词处理,得到多个单词,针对每个单词利用词向量嵌入模型得到对应的向量表示,并将该向量表示集合为该词向量特征;
将组织为向量形式的该社交属性输入至全连接层,以生成与该词向量特征维度相等的该社交属性特征;
将该图像内容输入至卷积神经网络,并对抽取出的特征进行降维处理,得到该图像特征。
6.如权利要求4所述的用户自生产内容检测系统,其特征在于,该训练模块还包括:使用该多模态特征和标注的指定用户自生产内容数据,训练得到该分类器,将待检测的用户自生产内容的多模态特征输入该分类器,以检测该社交媒体中的用户自生产内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810164771.2A CN110019812B (zh) | 2018-02-27 | 2018-02-27 | 一种用户自生产内容检测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810164771.2A CN110019812B (zh) | 2018-02-27 | 2018-02-27 | 一种用户自生产内容检测方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110019812A CN110019812A (zh) | 2019-07-16 |
CN110019812B true CN110019812B (zh) | 2021-08-20 |
Family
ID=67188242
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810164771.2A Active CN110019812B (zh) | 2018-02-27 | 2018-02-27 | 一种用户自生产内容检测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110019812B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110889430A (zh) * | 2019-10-24 | 2020-03-17 | 中国科学院计算技术研究所 | 基于多域视觉特征的新闻图像检测方法及系统、装置 |
CN110837602B (zh) * | 2019-11-05 | 2022-10-04 | 重庆邮电大学 | 基于表示学习和多模态卷积神经网络的用户推荐方法 |
CN111079444B (zh) * | 2019-12-25 | 2020-09-29 | 北京中科研究院 | 一种基于多模态关系的网络谣言检测方法 |
CN111246256B (zh) * | 2020-02-21 | 2021-05-25 | 华南理工大学 | 基于多模态视频内容和多任务学习的视频推荐方法 |
CN111291900A (zh) * | 2020-03-05 | 2020-06-16 | 支付宝(杭州)信息技术有限公司 | 训练风险识别模型的方法及装置 |
CN111680120B (zh) * | 2020-04-30 | 2022-06-03 | 中国科学院信息工程研究所 | 新闻类别检测方法及系统 |
CN111797834B (zh) * | 2020-05-28 | 2021-06-15 | 华南理工大学 | 文本识别方法、装置、计算机设备和存储介质 |
CN111767732B (zh) * | 2020-06-09 | 2024-01-26 | 上海交通大学 | 基于图注意力模型的文档内容理解方法及系统 |
CN112148997B (zh) * | 2020-08-07 | 2023-11-28 | 江汉大学 | 一种用于灾害事件检测的多模态对抗模型的训练方法和装置 |
CN111985369B (zh) * | 2020-08-07 | 2021-09-17 | 西北工业大学 | 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法 |
CN112215285B (zh) * | 2020-10-13 | 2022-10-25 | 电子科技大学 | 一种基于跨媒体特征的眼底图像自动标注方法 |
CN112200197A (zh) * | 2020-11-10 | 2021-01-08 | 天津大学 | 一种基于深度学习和多模态的谣言检测方法 |
CN113792617B (zh) * | 2021-08-26 | 2023-04-18 | 电子科技大学 | 一种结合图像信息和文本信息的图像解译方法 |
CN113448477B (zh) * | 2021-08-31 | 2021-11-23 | 南昌航空大学 | 交互式图像编辑方法、装置、可读存储介质及电子设备 |
CN113743522A (zh) * | 2021-09-13 | 2021-12-03 | 五八同城信息技术有限公司 | 违规行为的检测方法及装置、电子设备 |
CN114511038A (zh) * | 2022-02-22 | 2022-05-17 | 平安科技(深圳)有限公司 | 虚假新闻检测方法、装置、电子设备及可读存储介质 |
CN114821622B (zh) * | 2022-03-10 | 2023-07-21 | 北京百度网讯科技有限公司 | 文本抽取方法、文本抽取模型训练方法、装置及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102004764A (zh) * | 2010-11-04 | 2011-04-06 | 中国科学院计算机网络信息中心 | 互联网不良信息检测方法以及系统 |
CN103455705A (zh) * | 2013-05-24 | 2013-12-18 | 中国科学院自动化研究所 | 网络社会事件的协同关联跟踪及全局态势分析与预测系统 |
CN107066583A (zh) * | 2017-04-14 | 2017-08-18 | 华侨大学 | 一种基于紧凑双线性融合的图文跨模态情感分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9959365B2 (en) * | 2015-01-16 | 2018-05-01 | The Trustees Of The Stevens Institute Of Technology | Method and apparatus to identify the source of information or misinformation in large-scale social media networks |
-
2018
- 2018-02-27 CN CN201810164771.2A patent/CN110019812B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102004764A (zh) * | 2010-11-04 | 2011-04-06 | 中国科学院计算机网络信息中心 | 互联网不良信息检测方法以及系统 |
CN103455705A (zh) * | 2013-05-24 | 2013-12-18 | 中国科学院自动化研究所 | 网络社会事件的协同关联跟踪及全局态势分析与预测系统 |
CN107066583A (zh) * | 2017-04-14 | 2017-08-18 | 华侨大学 | 一种基于紧凑双线性融合的图文跨模态情感分类方法 |
Non-Patent Citations (2)
Title |
---|
Detecting Rumors from Microblogs with Recurrent Neural Networks;Jing Ma等;《Proceedings of the 25th International Joint Conference on Artificial Intelligence》;20160731;第3818-3824页 * |
融合多模态特征的社会多媒体谣言检测技术研究;金志威等;《南京信息工程大学学报(自然科学版)》;20171128;第583-592页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110019812A (zh) | 2019-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110019812B (zh) | 一种用户自生产内容检测方法和系统 | |
Kumar et al. | Sentiment analysis of multimodal twitter data | |
Cambria et al. | Benchmarking multimodal sentiment analysis | |
Poria et al. | Context-dependent sentiment analysis in user-generated videos | |
CN110377740B (zh) | 情感极性分析方法、装置、电子设备及存储介质 | |
US20200134398A1 (en) | Determining intent from multimodal content embedded in a common geometric space | |
US11615241B2 (en) | Method and system for determining sentiment of natural language text content | |
CN111339260A (zh) | 一种基于bert和qa思想的细粒度情感分析方法 | |
CN111930915B (zh) | 会话信息处理方法、装置、计算机可读存储介质及设备 | |
US20230073602A1 (en) | System of and method for automatically detecting sarcasm of a batch of text | |
Dritsas et al. | An apache spark implementation for graph-based hashtag sentiment classification on twitter | |
Modi et al. | Sentiment analysis of Twitter feeds using flask environment: A superior application of data analysis | |
CN113268592B (zh) | 基于多层次交互注意力机制的短文本对象情感分类方法 | |
US10614100B2 (en) | Semantic merge of arguments | |
Wei et al. | Sentiment classification of tourism reviews based on visual and textual multifeature fusion | |
CN114443846A (zh) | 一种基于多层级文本异构图的分类方法、装置及电子设备 | |
CN113627550A (zh) | 一种基于多模态融合的图文情感分析方法 | |
Chauhan et al. | Impact of semiotics on multidimensional sentiment analysis on twitter: A survey | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN111555960A (zh) | 信息生成的方法 | |
Cai et al. | Deep learning approaches on multimodal sentiment analysis | |
Elabora et al. | Evaluating citizens’ sentiments in smart cities: A deep learning approach | |
Kumari et al. | Emotion aided multi-task framework for video embedded misinformation detection | |
CN113688938A (zh) | 确定对象情感的方法、训练情感分类模型的方法及装置 | |
Lalrempuii et al. | Sentiment classification of crisis related tweets using segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |