CN109241379A - 一种跨模态检测网络水军的方法 - Google Patents
一种跨模态检测网络水军的方法 Download PDFInfo
- Publication number
- CN109241379A CN109241379A CN201710559559.1A CN201710559559A CN109241379A CN 109241379 A CN109241379 A CN 109241379A CN 201710559559 A CN201710559559 A CN 201710559559A CN 109241379 A CN109241379 A CN 109241379A
- Authority
- CN
- China
- Prior art keywords
- data
- text
- image
- comment
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Image Analysis (AREA)
Abstract
本发明提供了一种跨模态检测网络水军的方法,该方法包括:先获取网页评论数据,将所述评论数据进行预处理,得到精简数据;然后,提取所述精简数据的文本特征和图像特征,并转化为文本、图像特征向量;最后将文本、图像特征向量数据集运用算法进行跨模态学习,得出网络水军信息。本发明利用跨模态方法将文字与图片进行结合和互相转化,通过训练和机器学习将图片赋予相应的分类文字标签,将图片评论的相似度转化为文本评论的相似度,通过算法快速、准确的检测出网络评论中的水军。
Description
技术领域
本发明涉及网络水军检测技术领域,尤其涉及一种跨模态检测网络水军的方法。
背景技术
互联网时代,大量存在于社交平台、电子商务、新闻网站等领域的评论起着相当重要的作用。然而这些评论中存在着大量网络水军发表的带有倾向性的虚假评论,它们会影响用户观点、引导舆论导向。近几年,网络购物已成为人们生活中的一部分,虽然消费者享受着网上购物带来的便捷性,但是由于网络的虚拟性,消费者仅仅通过商家提供的图片很难在眼花缭乱的商品中选中质量上乘的最佳商品。因此消费者往往参考商品中的评论来决定选择,但大多数商家为了提高信誉、销量、宝贝人气,推广的方法就是利用网络水军刷好评,而且对于提供网络交易平台的第三方很少对商品的质量进行审查,网络销售者和消费者之间存在明显的信息不对称,从而使得消费者在网络交易中明显处于劣势地位,水军评论极有可能误导购买者,使之无法正确客观地对商品进行判断,这些虚假评论信息严重的影响了评论信息的参考价值,极大的误导了潜在消费者的消费判断。因此为了营造良好的网购环境,维护消费者的权益,检测网购中的水军是很重要的。
目前,国内外网络水军识别研究取得了较前几年更大的进展,按照网络水军识别方法采用特征的不同,将网络水军识别方法分为基于内容特征、基于行为特征和基于综合特征的识别。基于内容特征的方法主要依据评论内容相似性及其语言特征来发现虚假评论者,抽取出内容相近的评论。通过分析评论文本的倾向性,从而发现由网络水军发布、偏离正常用户评论的虚假评论。基于行为特征是指网络水军与正常用户具有极为不同的行为分布,如网络水平多具有评论集中突发性、评论极端性、发布早期产品评论等特点。可通过贝叶斯识别模型构建。基于综合特征的识别是将网络水军行为特征与内容特征结合,利用评论因子图模型,并利用人工标记网络水军样本和可信度传播理论识别。
目前,一些购物网站如淘宝网站中的评论大多数评论是由文字和图片评论相结合的,大部分水军在评论时为方便直接选用商家给过的商品原图,文字评论中的部分用词也太过相似,用词重复率太高,评论的整体意思大概相同。但有时水军在选用或截取图片时可能会受到分辨率、格式等影响,因此仅仅通过图片识别,相似度不会很高难以检测出水军,由此将图片与文本结合才可以更清晰的表达出评论的整体意思,提高检测的评论相似度,即通过文本相似度来提高图片相似度。
因此,我们将发布该种评论的用户定义为第一类水军。此类水军需要用跨模态方法进行检测。另外一种情况,好多水军不购买商品,商家不发货,所以水军随便上传图片,使得评论的图片与商品不对应。文字评论很相似,但评论中图片与实际商品毫无关系,因此图片相似度会极低。此时可以利用图片相似度算法进行检测。我们将发布这种评论的用户定义为第二类水军。
发明内容
本发明的实施例提供了一种跨模态检测网络水军的方法,针对上述问题利用跨模态方法将文字与图片进行结合和互相转化,通过训练和机器学习将图片赋予相应的分类文字标签,将图片评论的相似度转化为文本评论的相似度。通过算法快速、准确的检测出网络评论中的水军。
为了实现上述目的,本发明采取了如下技术方案:
一种跨模态检测网络水军的方法,包括:
S1:获取网页评论数据,将所述评论数据进行预处理,得到精简数据;
S2:提取所述精简数据中的文本特征,将所述文本特征生成文本特征向量;
S3:提取所述精简数据中的图像特征;将所述图像特征生成图像特征向量;
S4:将所述文本特征向量和所述图像特征向量组成数据集,将所述数据集运用算法进行跨模态学习,得出网络水军信息。
进一步地,所述的S1包括:
选取热门平台下的评论数据进行爬取,去除所述评论数据中的系统默认评论,去除所述评论数据中的纯文本评论数据。
进一步地,所述的S2包括:
使用Textrank算法对所述精简数据中的文本数据进行特征提取,具体步骤如下:
(1)对所述的文本数据进行关键词提取,生成候选关键词;
(2)构建候选关键词图G=(V,E),其中V为节点集,由所述候选关键词组成,通过共现关系构造任两个节点之间的边,E表示边的集合,所述两个节点之间存在边对应的关键词在长度为K的窗口中共现,K为窗口大小,且最多共现K个单词;
(3)根据如下公式,迭代传播各节点的权重,直至收敛,
其中R(w):w的PageRank值、O(w):w的出度,e(wj,wi):wj→wi边上的权重,V:节点集合,λ:平滑因子;
(4)对所述的节点权重进行倒序排序,得到的单词作为候选关键词;
(5)根据(4)中所述的候选关键词,在(1)中所述文本数据上进行标记,若形成相邻词组,则组合成多词关键词。
进一步地,所述的S3包括:
使用HOG算法对所述精简数据中的图像进行特征提取,具体步骤如下:
(1)将所述图像进行灰度化,其转化公式为:
Gray=0.3*R+0.59*G+0.11*B
(2)采用Gamma校正法对所述图像进行颜色空间的标准化,将所述图像整体亮度提高或降低,降低所述图像局部的阴影和光照变化所造成的影响;Gamma压缩公式如下:
Y(x,y)=I(x,y)γ
其中γ设定为0.5,(x,y)为图像中的像素点。
分别在水平和垂直方向下计算所述图像的梯度及梯度方向,用图捕获轮廓和纹理信息,弱化光照的干扰,计算公式为:
Gx(x,y)=H(x+1,y)-H(x-1,y)
Gy(x,y)=H(x,y+1)-H(x,y-1)
其中Gx(x,y),Gy(x,y),H(x,y)分别表示所述图像中像素点(x,y)处水平方向和垂直方向的梯度和像素值,分别用[-1,0,1]和[1,0,-1]T梯度算子对原图像做卷积运算,得到水平x方向和竖直y方向,再计算所述像素点的梯度大小和方向,公式如下:
(3)将所述图像划分成若干个小单元,统计每个小单元的梯度直方图,将每几个所述小单元组成一个块,所述块内所有小单元的特征向量串联起来得到所述块的HOG特征向量;
(4)将所有所述块的HOG特征向量串联起来得到所述图像的HOG特征向量,所述图像的HOG特征向量为用于分类使用的多维度特征向量,得到的所述图像HOG特征向量格式为
进一步地,所述的S4包括:
通过CCA算法对所述数据集进行跨模态学习,算法如下:
设t∈Rp,i∈Rq是两个随机多变量向量,St={x1,x2,...,xm},Si={y1,y2,...,yn}分别代表文本和图像两组向量集,Ti和Ii分别代表每条评论数据中的文本评论和对应的图像评论;
设w∈Rp,v∈Rq是两个投影向量,w,v的特征向量空间分为表示为Swt=(<w,t1>,<w,t2>,...,<w,tn>),Svi=(<v,i1>,<v,i2>,...,<v,in>)。
进一步地,所述的CCA算法用于找到投影向量w,v,使得Swx和Svy相关性最大:其中corr(Swt,Svi)是Swt和Svi之间的相关性,ρ*是最大相关性。
进一步地,所述数据集分为训练集和测试集。
进一步地,将所述训练集中的疑似网络水军进行手动标注,然后通过CCA算法对所述训练集进行跨模态学习,得到分类模型,利用所述分类模型对待检测数据进行自动水军检测。
进一步地,利用所述分类模型对所述测试集进行数据处理,用于优化所述分类模型,在所述数据处理过程中,将所述测试集中的图像信息与平台实际图像信息进行相似度检测,相似度高的为第一类网络水军,相似度低的为第二类网络水军
由上述本发明提供的技术方案可以看出,本发明利用跨模态方法将文字与图片进行结合和互相转化,通过训练和机器学习将图片赋予相应的分类文字标签,将图片评论的相似度转化为文本评论的相似度,再通过算法快速、准确的检测出网络评论中的水军。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种跨模态检测网络水军的方法的整体算法流程架构图;
图2为本发明实施例提供的一种跨模态检测网络水军的方法的CCA算法示意图;
图3为本发明实施例提供的一种跨模态检测网络水军的方法的ROC曲线图;
图4为本发明实施例提供的一种跨模态检测网络水军的方法的P-R曲线图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
本发明提供一种跨模态检测网络水军的方法,其特征在于,该方法包括:
S1:获取网页评论数据,将所述评论数据进行预处理,得到精简数据;
S2:提取所述精简数据中的文本特征,将所述文本特征生成文本特征向量;
S3:提取所述精简数据中的图像特征;将所述图像特征生成图像特征向量;
S4:将所述文本特征向量和所述图像特征向量组成数据集,将所述数据集运用算法进行跨模态学习,得出网络水军信息。
所述的S1包括:
选取热门平台下的评论数据进行爬取,去除所述评论数据中的系统默认评论,去除所述评论数据中的纯文本评论数据。
所述的S2包括:
使用Textrank算法对所述精简数据中的文本数据进行特征提取,具体步骤如下:
(1)对所述的文本数据进行关键词提取,生成候选关键词;
(2)构建候选关键词图G=(V,E),其中V为节点集,由所述候选关键词组成,通过共现关系构造任两个节点之间的边,E表示边的集合,所述两个节点之间存在边对应的关键词在长度为K的窗口中共现,K为窗口大小,且最多共现K个单词;
(3)根据如下公式,迭代传播各节点的权重,直至收敛,
其中R(w):w的PageRank值、O(w):w的出度,e(wj,wi):wj→wi边上的权重,V:节点集合,λ:平滑因子;
(4)对所述的节点权重进行倒序排序,得到的单词作为候选关键词;
(5)根据(4)中所述的候选关键词,在(1)中所述文本数据上进行标记,若形成相邻词组,则组合成多词关键词。
所述的S3包括:
使用HOG算法对所述精简数据中的图像进行特征提取,具体步骤如下:
(1)将所述图像进行灰度化,其转化公式为:
Gray=0.3*R+0.59*G+0.11*B
(2)采用Gamma校正法对所述图像进行颜色空间的标准化,将所述图像整体亮度提高或降低,降低所述图像局部的阴影和光照变化所造成的影响;Gamma压缩公式如下:
Y(x,y)=I(x,y)γ
其中γ设定为0.5,(x,y)为图像中的像素点。
分别在水平和垂直方向下计算所述图像的梯度及梯度方向,用图捕获轮廓和纹理信息,弱化光照的干扰,计算公式为:
Gx(x,y)=H(x+1,y)-H(x-1,y)
Gy(x,y)=H(x,y+1)-H(x,y-1)
其中Gx(x,y),Gy(x,y),H(x,y)分别表示所述图像中像素点(x,y)处水平方向和垂直方向的梯度和像素值,分别用[-1,0,1]和[1,0,-1]T梯度算子对原图像做卷积运算,得到水平x方向和竖直y方向,再计算所述像素点的梯度大小和方向,公式如下:
(3)将所述图像划分成若干个小单元,统计每个小单元的梯度直方图,将每几个所述小单元组成一个块,所述块内所有小单元的特征向量串联起来得到所述块的HOG特征向量;
(4)将所有所述块的HOG特征向量串联起来得到所述图像的HOG特征向量,所述图像的HOG特征向量为用于分类使用的多维度特征向量,得到的所述图像HOG特征向量格式为
所述的S4包括:
通过CCA算法对所述数据集进行跨模态学习,算法如下:
设t∈Rp,i∈Rq是两个随机多变量向量,St={x1,x2,...,xm},Si={y1,y2,...,yn}分别代表文本和图像两组向量集,Ti和Ii分别代表每条评论数据中的文本评论和对应的图像评论;
设w∈Rp,v∈Rq是两个投影向量,w,v的特征向量空间分为表示为Swt=(<w,t1>,<w,t2>,...,<w,tn>),Svi=(<v,i1>,<v,i2>,...,<v,in>)。
所述的CCA算法用于找到投影向量w,v,使得Swx和Svy相关性最大:其中corr(Swt,Svi)是Swt和Svi之间的相关性,ρ*是最大相关性。
所述数据集分为训练集和测试集,将所述训练集中的疑似网络水军进行手动标注,然后通过CCA算法对所述训练集进行跨模态学习,得到分类模型,利用所述分类模型对待检测数据进行自动水军检测。
利用所述分类模型对待测试数据集进行数据处理,用于优化所述分类模型,在所述数据处理过程中,将所述测试集中的图像信息与平台实际图像信息进行相似度检测,相似度高的为第一类网络水军,相似度低的为第二类网络水军。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定:
实施例:
在本实施例中,选择我国使用最广泛的淘宝网的评论作为研究对象,通过问卷调查结合日常生活经验,可以发现日常逛淘宝的过程中会遇到许多虚假评论,在淘宝网站上也存在着大量有价值的用户评论数据。为了贴近真实评论,许多水军会发布文字评论的同时发布商品图片,并且购买者通常会直接选择带有图片的评论进行查看。因此通过分析水军行为和评论的特点,提出了一种跨模态检测网络水军的方法。图1为本发明实施例提供的一种跨模态检测网络水军的方法的整体算法流程架构图;如图1所示:
根据本文检测算法的数据要求,利用编程实现网页爬虫并获取淘宝网站上的评论数据,其中每条评论记录都包含(1)商品ID;(2)商品名称;(3)用户ID;(4)评论时间;(5)评论内容;(6)评论图片(7)商品样例图等必要的数据项。
1.数据预处理
对于从淘宝网站上获取的评论数据并不能直接作为实验数据使用,在此之前还需要对原始数据进行数据与处理,与处理过程主要包括以下三个步骤:
(1)选取销售量靠前的热门商品进行评论爬取
淘宝网作为最大的电商平台网站,交易流量通常很高,一个热门商品的评论量可能达到几万条。所以水军一般就存在于热门商品的大量评论中,评论少的商品不仅表示其购买用户少,而且在其评论中存在评论水军的可能性是非常低的。因此为了提高检测水军的精确度,我们选取了销量高的热门商品。
(2)去除系统默认好评的评论记录
系统默认好评对于算法后期的训练流程及检测流程都是无意义的,不能代表用户的观点,也不在本算法所检测的异常评论范围内,所以可以认为是冗杂数据并且在原始数据集中直接删除。
(3)去除只有文本评论的评论
由于本实施例针对带有图片的评论进行研究,因此将只有文字的评论从原始数据中删除。
经过预处理后,去除了原始数据集中的冗杂数据,得到了精简后的实验数据集。数据预处理过程不仅使得评论数据在数据量上有所减少,而且去除干扰数据也有利于跨模态训练过程中精确度的提高。
2.文本特征提取
由于评论是一段文本文字,因此需要将文本转化为一个多维度的特征向量。首先对评论中的文本进行关键词提取,将一段文本评论拆分成若干词语,用这些词语来代表一个文档。如一段文本评论“质量很好,很满意,真的物美价廉,很喜欢”通过文本特征提取算法提取出关键词“质量好”“满意”“喜欢”“物美价廉”等。通过使用Textrank算法来实现文本关键词提取。Textrank算法用于为文本生成关键字和摘要。
(1)对爬取的文本评论T按照完整句子进行分割
(2)对于每个句子进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,如名词、动词、形容词,保留候选关键词。
(3)构建候选关键词图G,G=(V,E),其中V为节点由(2)生成的候选关键词组成,然后采用共现关系构造任两点之间的边,边的集合由E表示。两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小,即最多共现K个单词。
(4)根据如下公式,迭代传播各节点的权重,直至收敛:
其中R(w):w的PageRank值,O(w):w的出度,e(wj,wi):wj→wi边上的权重,V:节点集合,λ:平滑因子。
(5)对节点权重进行倒序排序,从而得到最重要的T个单词,作为候选关键词。
(6)由(5)得到最重要的T个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词关键词。
3.图像特征提取
由于图片评论中的图片计算机无法直接识别,因此需要对图像进行特征提取,提取为多维特征向量用于跨模态算法中。在这里使用HOG特征提取算法。
该算法具体过程如下:
(1)将爬取的评论图片进行灰度化,即将彩色图片的RGB分量转化成灰度图像,其转化公式为:
Gray=0.3*R+0.59*G+0.11*B
(2)采用Gamma校正法对输入图像进行颜色空间的标准化(归一化)将图像整体亮度提高或降低,降低图像局部的阴影和光照变化所造成的影响。这里我们采用平方根的办法进行Gamma标准化,公式如下:
Y(x,y)=I(x,)γ
其中γ=0.5,(x,y)为图像中的像素点。
计算图像的梯度及梯度方向,分别在水平和垂直方向进行计算。主要是为了捕获轮廓和纹理信息,同时进一步弱化光照的干扰。
图像中像素点(x,y)的梯度为:
Gx(x,y)=H(x+1,y)-H(x-1,y)
Gy(x,y)=H(x,y+1)-H(x,y-1)
其中Gx(x,y),Gy(x,y),H(x,y)分别表示输入图像中像素点(x,y)处水平方向和垂直方向的梯度和像素值。分别用[-1,0,1]和[1,0,-1]T梯度算子对原图像做卷积运算,得到水平x方向和竖直y方向。然后再用以上公式计算该像素点的梯度大小和方向。
Gamma源于CRT(显示器/电视机)的响应曲线,即其亮度与输入电压的非线性关系。
(3)将图像划分成若干个小单元,统计每个小单元的梯度直方图,即不同梯度的个数,将每几个单元组成一个块,一个块内所有单元的特征向量串联起来便得到该块的HOG特征向量。
(4)将图像内所有块的HOG特征向量串联起来就可以得到该图像的HOG特征向量了。这个就是最终的可供分类使用的多维度特征向量。
最后得到的图像特征向量格式为
4.基于文本图像跨模态匹配的典型相关分析(CCA)算法
图2为本发明实施例提供的一种跨模态检测网络水军的方法的CCA算法示意图,如图2所示:
经过文本特征提取与图像特征提取后,将处理好的特征数据用于文本与图像的跨模态检索。要实现图像、文本这两种最常见的媒体内容之间的交叉检索,首先分别把图像和文本各自用某种特征向量表示,即把图像数据映射到图像特征空间I1,文本数据映射到文本特征空间T1。然而特征空间I1和T1之间并没有直接的联系,CCA算法则可以通过许多“图像—样本”样本对的训练把I1和T1分别映射到I2和T2,其中特征空间I2和T2是线性相关的,可以直接度量I2和T2中特征向量之间的相似性即映射到相同的子空间,然后使训练的文本和图像特征相关联起。
具体算法如下:
设t∈Rp,i∈Rq是两个随机多变量向量。St={x1,x2,...,xm},Si={y1,y2,...,yn}分别代表文本和图像两组向量集。Ti和Ii分别代表每条评论中的文本评论和对应的图片评论。设w∈Rp,v∈Rq是两个投影向量,w,v的特征向量空间分为表示为Swt=(<w,t1>,<w,t2>,...,<w,tn>),Svi=(<v,i1>,<v,i2>,...,<v,in>)。算法的目的是找到投影向量w,v使得Swx和Svy相关性最大:其中corr(Swt,Svi)是Swt和Svi之间的相关性,ρ*是最大相关性。即将爬取的每条评论中对应的图像和文本对一同映射到同一公共子空间中,通过训练找到它们之间的相关性。
本发明实施例中,基于跨模态方法的水军检测算法总结如下:
输入:测试评论数据库Dexperiment
输出:水军评论Ruser
1.数据预处理:Dcomments→Dexperiment
2.提取文本特征:
3.提取图像特征:
4.构建CCA训练模型:
5.利用分类模型检测水军,并通过如下代码判断水军类型:
在检测算法中输入Dexperiment是通过淘宝网站爬取到的评论数据,输出Ruser是最终检测到的疑似水军ID。该算法先对第二类水军进行检测后,再检测第一类水军。首先对爬取的数据集进行文本和图片特征提取,将数据集分为训练集和测试集两部分,下一步对训练集中的疑似第一类水军进行人工标注,将他们赋予标签“水军”。接下来利用CCA算法对每对文本和图片评论进行跨模态学习,得到一个分类模型。最后在测试部分先将测试数据集中的图片与商家提供的商品样本图片进行相似度比对,如果得分小于0.3则可能疑似为第二类水军,即该图片与任何评论图片相似度都极低,输出用户的ID。否则将该评论对应的文本评论和所有的图片评论利用空间投影函数投影到到公共特征子空间ο中,再利用K近邻算法在训练好的模型中寻找与之最相近的类别,并输出结果。
本实施例实验结果及分析如下所示:
实验环境:
实验平台硬件环境是Intel酷睿i5-3210M,2.50GHz,4G内存,软件环境采用Windows 7操作系统,Eclipse语言编程环境,集成gensim工具包,VLFeat视觉库,scikit-learn工具包进行集成环境的实现。
实验数据集:
首先获取原始评论数据,通过架设在云端的服务器上的爬虫程序对淘宝网页上的评论数据进行爬取。本次实验选取了五个不同类别中热销第一的商品进行了评论数据的爬取,五件商品分别来自不同类别。因为热销商品拥有巨大的评论量,所以检测到异常评论的可能性更高。最终一共爬取到56,688条评论数据,经过处理后剩下带有图片的评论一共为26303条。其中每一条评论记录都包含(1)商品ID;(2)商品名称;(3)用户ID;(4)评价时间;(5)评论文本;(6)评论图片六个数据项。爬取的详细评论情况见表1。
表1商品评论详情
实验过程:
首先对一种商品(商品ID:538868266734)进行实验。该商品一共19941条评论,其中带有图片的评论一共有5947条,因此选取其中的4500条数据作为训练集,其余1447条数据作为测试集。
对训练数据集进行人工标注,表2所示的类似疑似第一类水军标注为标签“水军”,其他数据标注为标签“正常用户”。利用gensim工具包对训练数据进行文本特征提取,得到特征向量文件,利用VLFeat视觉库对训练数据进行图像特征提取,得到特征向量文件,利用scikit-learn工具包通过CCA算法对训练数据进行学习。
根据本文所提出的算法规则对数据进行测试,最后输出测试集中疑似水军的用户ID。最终在1447条测试数据中发现32条异常评论疑似为水军。
序号 | 用户ID | 评论时问 | 水军类别 |
1 | 莜<sup>***</sup>g | 2016年10月7日 | 2 |
2 | 北<sup>**</sup>1(匿名) | 2016年11月5日 | 2 |
3 | Z<sup>**</sup>3 | 2016年11月18日 | 2 |
4 | I<sup>**</sup>7 | 2016年11月22日 | 1 |
5 | 高<sup>**</sup>u | 2016年11月27日 | 1 |
6 | r<sup>**</sup>d | 2016年11月6日 | 1 |
表2水军评论检测结果
实验结果:
1.精确度分析
图3为本发明实施例提供的一种跨模态检测网络水军的方法的ROC曲线图,如图3所示:ROC曲线和AUC值可以用来评价一个二元分类器的优劣。利用ROC曲线进行精确度的分析可知,检测算法的跨模态分类过程精确度达到了90.5%。所以从精确度角度分析检测算法,可以得知的本文设计的基于跨模态方法的水军检测算法在结果精确度上是有保障的,可以投入检测系统应用中。
图4为本发明实施例提供的一种跨模态检测网络水军的方法的P-R曲线图,如图4所示:其中P为精确曲线,R为召回曲线,直观地显示了检测模型在样本总体上的查全率、查准率。“查准率=查全率”时的取值约为0.8,所以从P-R角度分析本文设计的跨模态水军检测算法具有高的性能。
2.可行性分析
通过本实施例,得知本发明所述的检测水军方法中的检测算法在实际实验过程中是有检测结果输出的,在1447条评论数据中最终检测发现32条疑似水军的异常评论。说明本文所设计的检测算法是可行的,是可以应用于淘宝评论水军检测系统的。最终输出的检测结果也说明了在淘宝评论中的确存在着这种异常评论。
综上所述,本发明实施例通过可行性、精确度两个角度对基于跨模态方法的水军评论检测算法进行评估可以判定,该算法具备可行性强、精确度高,可以应用于淘宝评论水军的检测系统中。
本发明实施例利用跨模态方法将文字与图片进行结合和互相转化,通过训练和机器学习将图片赋予相应的分类文字标签,将图片评论的相似度转化为文本评论的相似度,再通过算法快速、准确的检测出网络评论中的水军。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (9)
1.一种跨模态检测网络水军的方法,其特征在于,包括:
S1:获取网页评论数据,将所述评论数据进行预处理,得到精简数据;
S2:提取所述精简数据中的文本特征,将所述文本特征生成文本特征向量;
S3:提取所述精简数据中的图像特征;将所述图像特征生成图像特征向量;
S4:将所述文本特征向量和所述图像特征向量组成数据集,将所述数据集运用算法进行跨模态学习,得出网络水军信息。
2.根据权利要求1所述的方法,其特征在于,所述的S1包括:
选取热门平台下的评论数据进行爬取,去除所述评论数据中的系统默认评论,去除所述评论数据中的纯文本评论数据。
3.根据权利要求1所述的方法,其特征在于,所述的S2包括:
使用Textrank算法对所述精简数据中的文本数据进行特征提取,具体步骤如下:
(1)对所述的文本数据进行关键词提取,生成候选关键词;
(2)构建候选关键词图G=(V,E),其中V为节点集,由所述候选关键词组成,通过共现关系构造任两个节点之间的边,E表示边的集合,所述两个节点之间存在边对应的关键词在长度为K的窗口中共现,K为窗口大小,且最多共现K个单词;
(3)根据如下公式,迭代传播各节点的权重,直至收敛,
其中R(w):w的PageRank值、O(w):w的出度,e(wj,wi):wj→wi边上的权重,V:节点集合,λ:平滑因子;
(4)对所述的节点权重进行倒序排序,得到的单词作为候选关键词;
(5)根据(4)中所述的候选关键词,在(1)中所述文本数据上进行标记,若形成相邻词组,则组合成多词关键词。
4.根据权利要求1所述的方法,其特征在于,所述的S3包括:
使用HOG算法对所述精简数据中的图像进行特征提取,具体步骤如下:
(1)将所述图像进行灰度化,其转化公式为:
Gray=0.3□R+0.59□G+0.11□B
(2)采用Gamma校正法对所述图像进行颜色空间的标准化,将所述图像整体亮度提高或降低,降低所述图像局部的阴影和光照变化所造成的影响;Gamma压缩公式如下:
Y(x,y)=I(x,y)γ
其中γ设定为0.5,(x,y)为图像中的像素点;
分别在水平和垂直方向下计算所述图像的梯度及梯度方向,用图捕获轮廓和纹理信息,弱化光照的干扰,计算公式为:
Gx(x,y)=H(x+1,y)-H(x-1,y)
Gy(x,y)=H(x,y+1)-H(x,y-1)
其中Gx(x,y),Gy(x,y),H(x,y)分别表示所述图像中像素点(x,y)处水平方向和垂直方向的梯度和像素值,分别用[-1,0,1]和[1,0,-1]T梯度算子对原图像做卷积运算,得到水平x方向和竖直y方向,再计算所述像素点的梯度大小和方向,公式如下:
(3)将所述图像划分成若干个小单元,统计每个小单元的梯度直方图,将每几个所述小单元组成一个块,所述块内所有小单元的特征向量串联起来得到所述块的HOG特征向量;
(4)将所有所述块的HOG特征向量串联起来得到所述图像的HOG特征向量,所述图像的HOG特征向量为用于分类使用的多维度特征向量,得到的所述图像HOG特征向量格式为
5.根据权利要求1所述的方法,其特征在于,所述的S4包括:
通过CCA算法对所述数据集进行跨模态学习,算法如下:
设t∈Rp,i∈Rq是两个随机多变量向量,St={x1,x2,...,xm},Si={y1,y2,...,yn}分别代表文本和图像两组向量集,Ti和Ii分别代表每条评论数据中的文本评论和对应的图像评论;
设w∈Rp,v∈Rq是两个投影向量,w,v的特征向量空间分为表示为Swt=(<w,t1>,<w,t2>,...,<w,tn>),Svi=(<v,i1>,<v,i2>,...,<v,in>)。
6.根据权利要求5所述的方法,其特征在于,
所述的CCA算法用于找到投影向量w,v,使得Swx和Svy相关性最大:其中corr(Swt,Svi)是Swt和Svi之间的相关性,ρ*是最大相关性。
7.根据权利要求1所述的方法,其特征在于,所述数据集分为训练集和测试集。
8.根据权利要求7所述的方法,其特征在于,将所述训练集中的疑似网络水军进行手动标注,然后通过CCA算法对所述训练集进行跨模态学习,得到分类模型,利用所述分类模型对待检测数据进行自动水军检测。
9.根据权利要求8所述的方法,其特征在于,利用所述分类模型对待测试数据集进行数据处理,用于优化所述分类模型,在所述数据处理过程中,将所述测试集中的图像信息与平台实际图像信息进行相似度检测,相似度高的为第一类网络水军,相似度低的为第二类网络水军。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710559559.1A CN109241379A (zh) | 2017-07-11 | 2017-07-11 | 一种跨模态检测网络水军的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710559559.1A CN109241379A (zh) | 2017-07-11 | 2017-07-11 | 一种跨模态检测网络水军的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109241379A true CN109241379A (zh) | 2019-01-18 |
Family
ID=65083761
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710559559.1A Pending CN109241379A (zh) | 2017-07-11 | 2017-07-11 | 一种跨模态检测网络水军的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109241379A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110162621A (zh) * | 2019-02-22 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 分类模型训练方法、异常评论检测方法、装置及设备 |
CN111079444A (zh) * | 2019-12-25 | 2020-04-28 | 北京中科研究院 | 一种基于多模态关系的网络谣言检测方法 |
CN111191139A (zh) * | 2020-01-02 | 2020-05-22 | 湖南映客互娱网络信息有限公司 | 一种基于特征模型的刷子检测方法与系统 |
WO2021036250A1 (zh) * | 2019-08-29 | 2021-03-04 | 北京京东尚科信息技术有限公司 | 产品评论信息的展示方法、装置、电子设备和存储介质 |
CN113449170A (zh) * | 2020-03-24 | 2021-09-28 | 北京沃东天骏信息技术有限公司 | 异常账号识别方法及装置、存储介质、电子设备 |
CN115905600A (zh) * | 2022-12-25 | 2023-04-04 | 合肥仟佰策科技有限公司 | 基于大数据平台的网络安全分析系统及方法 |
CN115909317A (zh) * | 2022-07-15 | 2023-04-04 | 广东工业大学 | 一种三维模型-文本联合表达的学习方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120179704A1 (en) * | 2009-09-16 | 2012-07-12 | Nanyang Technological University | Textual query based multimedia retrieval system |
CN103699523A (zh) * | 2013-12-16 | 2014-04-02 | 深圳先进技术研究院 | 产品分类方法和装置 |
CN103745002A (zh) * | 2014-01-24 | 2014-04-23 | 中国科学院信息工程研究所 | 一种基于行为特征与内容特征融合的水军识别方法及系统 |
CN104361059A (zh) * | 2014-11-03 | 2015-02-18 | 中国科学院自动化研究所 | 一种基于多示例学习的有害信息识别和网页分类方法 |
-
2017
- 2017-07-11 CN CN201710559559.1A patent/CN109241379A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120179704A1 (en) * | 2009-09-16 | 2012-07-12 | Nanyang Technological University | Textual query based multimedia retrieval system |
CN103699523A (zh) * | 2013-12-16 | 2014-04-02 | 深圳先进技术研究院 | 产品分类方法和装置 |
CN103745002A (zh) * | 2014-01-24 | 2014-04-23 | 中国科学院信息工程研究所 | 一种基于行为特征与内容特征融合的水军识别方法及系统 |
CN104361059A (zh) * | 2014-11-03 | 2015-02-18 | 中国科学院自动化研究所 | 一种基于多示例学习的有害信息识别和网页分类方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110162621A (zh) * | 2019-02-22 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 分类模型训练方法、异常评论检测方法、装置及设备 |
CN110162621B (zh) * | 2019-02-22 | 2023-05-23 | 腾讯科技(深圳)有限公司 | 分类模型训练方法、异常评论检测方法、装置及设备 |
WO2021036250A1 (zh) * | 2019-08-29 | 2021-03-04 | 北京京东尚科信息技术有限公司 | 产品评论信息的展示方法、装置、电子设备和存储介质 |
CN111079444A (zh) * | 2019-12-25 | 2020-04-28 | 北京中科研究院 | 一种基于多模态关系的网络谣言检测方法 |
CN111191139A (zh) * | 2020-01-02 | 2020-05-22 | 湖南映客互娱网络信息有限公司 | 一种基于特征模型的刷子检测方法与系统 |
CN113449170A (zh) * | 2020-03-24 | 2021-09-28 | 北京沃东天骏信息技术有限公司 | 异常账号识别方法及装置、存储介质、电子设备 |
CN115909317A (zh) * | 2022-07-15 | 2023-04-04 | 广东工业大学 | 一种三维模型-文本联合表达的学习方法及系统 |
CN115905600A (zh) * | 2022-12-25 | 2023-04-04 | 合肥仟佰策科技有限公司 | 基于大数据平台的网络安全分析系统及方法 |
CN115905600B (zh) * | 2022-12-25 | 2023-12-12 | 广东朝阳企讯通科技有限公司 | 基于大数据平台的网络安全分析系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109241379A (zh) | 一种跨模态检测网络水军的方法 | |
CN109241424B (zh) | 一种推荐方法 | |
US20210271975A1 (en) | User tag generation method and apparatus, storage medium, and computer device | |
CN108197532B (zh) | 人脸识别的方法、装置及计算机装置 | |
US20230024382A1 (en) | Video clip positioning method and apparatus, computer device, and storage medium | |
Bronstein et al. | Generalized multidimensional scaling: a framework for isometry-invariant partial surface matching | |
TWI772673B (zh) | 行業識別模型確定方法和裝置 | |
US20190379624A1 (en) | Social media influence of geographic locations | |
US20180357258A1 (en) | Personalized search device and method based on product image features | |
CN112163165A (zh) | 信息推荐方法、装置、设备及计算机可读存储介质 | |
CN106156693A (zh) | 用于面部识别的基于多模型表示的鲁棒错误纠正方法 | |
CN110008397B (zh) | 一种推荐模型训练方法及装置 | |
CN114676704B (zh) | 句子情感分析方法、装置、设备以及存储介质 | |
CN111488524B (zh) | 一种面向注意力的语义敏感的标签推荐方法 | |
CN114332680A (zh) | 图像处理、视频搜索方法、装置、计算机设备和存储介质 | |
CN109992676B (zh) | 一种跨媒体资源检索方法及检索系统 | |
US11615263B2 (en) | Content prediction based on pixel-based vectors | |
CN113656660B (zh) | 跨模态数据的匹配方法、装置、设备及介质 | |
US20210011945A1 (en) | Method and system | |
CN110889718B (zh) | 方案筛选方法、方案筛选装置、介质以及电子设备 | |
Panisson et al. | Mining concurrent topical activity in microblog streams | |
Dina et al. | Measuring User Satisfaction of Educational Service Applications Using Text Mining and Multicriteria Decision-Making Approach. | |
CN113409157A (zh) | 一种跨社交网络用户对齐方法以及装置 | |
CN117372119A (zh) | 电子商务信息推荐系统及其方法 | |
CN110321565B (zh) | 基于深度学习的实时文本情感分析方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190118 |
|
RJ01 | Rejection of invention patent application after publication |