CN110019677A - 基于聚类分析的微博广告发布者识别方法及装置 - Google Patents
基于聚类分析的微博广告发布者识别方法及装置 Download PDFInfo
- Publication number
- CN110019677A CN110019677A CN201711263641.6A CN201711263641A CN110019677A CN 110019677 A CN110019677 A CN 110019677A CN 201711263641 A CN201711263641 A CN 201711263641A CN 110019677 A CN110019677 A CN 110019677A
- Authority
- CN
- China
- Prior art keywords
- microblogging
- user
- keyword
- advertisement
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 238000002474 experimental method Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 230000003542 behavioural effect Effects 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 238000007621 cluster analysis Methods 0.000 claims 2
- 238000011156 evaluation Methods 0.000 claims 1
- 238000007689 inspection Methods 0.000 claims 1
- 238000012360 testing method Methods 0.000 claims 1
- 230000010415 tropism Effects 0.000 claims 1
- 238000004140 cleaning Methods 0.000 abstract 1
- 238000007865 diluting Methods 0.000 abstract 1
- 244000097202 Rathbunia alamosensis Species 0.000 description 3
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000010790 dilution Methods 0.000 description 1
- 239000012895 dilution Substances 0.000 description 1
- 239000000686 essence Substances 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于聚类分析的微博广告发布者识别方法及装置,该微博广告识别方法对于用户维度,针对微博广告发布者通过发布大量普通微博来稀释其广告内容的现象,提出核心微博的概念,通过提取核心微博主题及其对应的微博序列,以此计算用户特征和对应微博的文本特征,并使用聚类算法对特征进行聚类,从而识别其中的微博广告发布者。实验结果显示该方法具有很高的准确率,证明该方法在广告内容被人为稀释的情况下能准确地识别微博广告发布者,可以为微博垃圾信息识别、清理等工作提供实用方法。
Description
技术领域
本发明涉及一种计算机技术,主要利用数据挖掘与自然语言处理方法来解决微博数据中的垃圾信息发布者筛选问题,属于计算机技术、数据挖掘及舆情分析交叉技术应用领域。
背景技术
伴随着微博的迅猛发展,越来越多的垃圾信息随之出现,这些信息不仅影响着用户体验,也对微博相关的研究工作造成了极大的负面影响。目前,针对垃圾信息的研究主要集中在单条垃圾微博的分类和筛选,而单条微博粒度下的计算势必需要对整个微博信息流进行处理,超大数据量使得运算效率低下,且现有研究大都使用分类算法进行计算,分类过程中无法对大数据量训练集进行人工标注,数据量的限制导致其计算结果无法保证足够精确。
中国专利申请CN201310410578.X,一种微博广告用户检测方法,涉及社交网络安全领域,特别是涉及一种微博广告用户检测的方法,为解决新浪自带的检测工具对广告用户十分不灵敏的缺陷而发明。本发明的方法包括:收集用户信息,为每个用户添加分类标识;对获得的用户信息进行特征抽取,基于数据挖掘方法得到广告用户和普通用户的内容和行为的特征属性集;根据具有分类标识的特征属性集进行模型训练,得到广告用户判别模型。该发明主要应用于对新浪微博数据进行广告用户自动检测。
但是使用该方法和装置判定的广告用户准确性和数据处理效率还存在一定的偏差。
发明内容
本发明的目的是克服了现有技术的不足而提供了一种效率高、数据量大、可实施性高的聚类分析微博广告发布者识别方法。
为了解决上述存在的技术问题,本发明采用下列技术方案:
通过对微博用户数据和发帖数据依次进行数据清洗、数据标注、核心微博提取、特征提取、参数选取、聚类分析和结果检测,从而识别出其中的微博广告发布者。其中具体步骤为:
数据清洗:针对用户,将发帖数小于10的用户不纳入计算范围;针对单条微博,将微博中带有转发含义的字段及@符号后的内容进行删除。
数据标注:对用户进行手动标注以便于评判实验的准确度,标注分为广告微博发布者和普通微博发布者两类。广告微博发布者的行为特征为:发布内容带有强烈的商业色彩或转发大量低质信息等。
核心微博提取:
广告微博发布者会在广告微博中夹杂大量的普通微博。普通微博的存在会严重影响各个文本特征计算的准确性。另一方面,几乎每个广告微博发布者都会围绕一个或几个类别的实体进行宣传。因此,在这里引入基于关键词的核心微博提取方法。
使用NLPIR中文分词系统提取关键词,每个用户的每条微博都会获得一个关键词列表。
Useri={W1,W2,W3,…,Wn}
Wi={keyword1,keyword2,…,keywordn},
keywordi≤keywordi-1,i>0
其中Useri是表示用户i的微博序列,Wi表示其中第i条微博的关键词列表的倒序排列,keyword为具体某个关键词。然后统计每个用户关键词的词频,取最大词频的10个关键词,组成用户关键词列表,并使用该列表查询包含这10 个关键词的所有微博,最终得到该用户的核心微博序列C.
C={W′1,W′2,…,W′n}
特征提取:
1)文本相似度
由于广告微博发布者具有较为单一的主题(购物,旅游,活动等),发帖人也具有比较固定的语言习惯,使得广告微博相较于普通微博具有较强的模板化特征,所以其文本相似度显著高于普通微博。
计算每个用户的核心微博之间的余弦相似度并求平均值以作为该用户的文本相似度。
2)时序相似度
通过对各个用户发帖时间序列的比对,发现广告用户的核心微博相比于普通用户具有明显的时序规律性。分析原因有如下几点:1.广告微博发布者为了广告能够获得更好的收益,即获得更高的关注度,通常会研究广告发布的时间曲线,寻找最佳时间点将广告投放出去;2.为了避免给用户造成刷屏的感觉,广告发布者通常会以一定的间隔进行广告投放;3.部分广告实际为机器自动发布,由人工设定内容和时间间隔,因此机器投放的广告微博会呈现极强的时序规律性。
针对上述问题,对时间序列进行分析,引入信号学中的白噪声检验方法。白噪声序列是没有消息可提取的平稳序列。白噪声检验结果——统计量 whiteNoise值越大表明时间序列随机性越强,即为广告发布者的可能性越低。
3)广告微博关键词倾向性
比对广告微博和正常微博,广告微博在词语使用和语言组织上相比于正常微博具有一定的规律性。这是因为以下几点:1.广告微博发布者为了广告能够获得更好的收益,即获得更高的关注度,通常需要使用具有煽动效果的词语,如爆款、打折等。2.由于广告自身内容决定某些词语的出现频率会明显高于普通微博,如店铺、购买等。
使用已标注的广告发布者数据,统计其关键词词频,并将关键词序列按照词频倒排,从而得到广告微博关键词序列A。但广告微博中也存在许多微博常用语,这些常用语在普通微博中同样高频率存在。为此,我们使用同样的方法针对普通微博统计出普通微博关键词序列P。针对某一词语的广告微博关键词倾向性,定义如下:
其中分别为词语在序列A,P中的位置,Ii为该词语的广告微博关键词倾向性。
而针对某一用户的广告关键词倾向性,我们使用上文提到的用户关键词序列 W,并将W中每一个关键词的广告微博关键词倾向性相加,得到用户的广告倾向值。
4)广告元素数量
由于自身宣传需要,许多微博广告发布者需要多平台多渠道宣传,为了能够促进多平台互通,许多广告发布者会在个人介绍中加入多种联系方式,包含网址 URL、邮箱、手机号、QQ、微信等。而随着个人隐私意识的不断加强和垃圾信息对人们生活影响的不断加深,普通用户对于私密性较强的微信号,QQ等信息的保护意识也在加强,所以,普通用户一般不会在个人信息中透露其他联系方式。因此,会呈现出广告发布者的个人介绍广告元素远多于普通用户的现象。
图4是普通用户与广告发布者个人介绍含广告元素个数对比,图中可以看出,广告发布者账号对应的个人介绍中,含有链接(URL)、QQ号、微信号、手机号的比例远高于普通用户。基于此特点,统计每个用户个人介绍中推广元素的数量,并以此作为聚类中的一项特征值。
DBSCAN聚类:
如上文所述,广告发布者在多个特征维度上与普通用户相比具有较为明显的差异;而考虑广告发布者的内部差异,不同的广告发布者,其发帖习惯也有较大区别,这会导致其行为模型的多种多样。在这种情况下为筛选出样本中的微博广告发布者,将其独立为一个或多个簇显然是不合适的,于我们着眼于聚类问题中的离异点查找,即将聚类方法中的离异点标注为广告发布者。基于这样的要求,选取DBSCAN作为本实验所使用的聚类方法。DBSCAN算法为基于密度的聚类算法,与传统的基于层次的聚类算法不同,该算法可以发现任意形状的聚类簇,且可以在需要时输入过滤噪声的参数。
参数选择:由于DBSCAN中当Eps过大或MinPts过小时,聚类结果将趋近于一个簇。所以我们定义Eps的范围是1~1.5,MinPts的范围是3~50。
附图说明
图1是计算流程图。
图2是核心微博Java示例(使用NLPIR Java版)。
图3是文本相似度计算Java示例。
图4是普通用户与广告发布者个人介绍含广告元素个数对比。
具体实施方式
为了加深对本发明的理解,下面结合附图和实施例对本发明进一步说明,该实施例仅用于解释本发明,并不对本发明的保护范围构成限定。
微博数据集:
数据集来源于新浪微博,此数据集内包含用户数据和微博数据,都为结构化数据,以CSV格式存储。其中,weibo_users.csv文件描述用户信息; lvX_weibo.csv文件描述微博发帖信息。
表1用户信息数据结构
表2 微博信息数据结构
核心微博序列提取:
文本相似度计算
时间相似度计算
广告元素匹配
针对个人介绍中可能出现的包含网址URL、邮箱、手机号、QQ等广告元素进行筛选。主要使用正则表达式进行匹配。具体对应正则如下:
聚类分析
选取DBSCAN作为所使用的聚类方法,主要涉及聚类参数有:DBSCAN算法中的半径(Eps)和以点P为中心的邻域内最少点的数量(MinPts)。此外,由于不同的特征值对结果的影响程度不同,需要对各个特征值赋予权重。对不同的特征值权重与聚类参数的不同组合进行分析,使用同一组数据,计算在不同的特征值权重与聚类参数的组合下的准确率、召回率和F值。
综上所述,本发明的方法和装置,克服了现有方法存在的无法应对广告内容稀释、大量人工标注的问题,提出一种基于聚类分析的微博广告发布者识别方法,该方法只需少量人工标注,且一经训练成模型,之后可直接使用。准确度如下表所示,结果分别为使用核心微博序列和使用完整微博序列的结果对比。
使用核心序列和原序列准确率对比
本发明的实施例公布的是较佳的实施例,但并不局限于此,本领域的普通技术人员,极易根据上述实施例,领会本发明的精神,并做出不同的引申和变化,但只要不脱离本发明的精神,都在本发明的保护范围内。
Claims (9)
1.基于基于聚类分析的微博广告发布者识别方法,包括通过对微博用户数据和发帖数据依次进行数据清洗、数据标注、核心微博提取、特征提取、参数选取、聚类分析和结果检测,从而识别出其中的微博广告发布者的步骤;其中:
数据清洗:针对用户,将发帖数小于10的用户不纳入计算范围;针对单条微博,将微博中带有转发含义的字段及@符号后的内容进行删除;
数据标注:将数据清洗得到的判决结果进行人工标注,分别为“普通用户”和“广告发布者”;
核心微博提取:使用中文分词系统提取关键词,每个用户的每条微博都会获得一个关键词列表。
Useri={W1,W2,W3,…,Wn}
Wi={keyword1,keyword2,…,keywordn},
其中Useri是表示用户i的微博序列,Wi表示其中第i条微博的关键词列表的倒序排列,keyword为具体某个关键词。然后统计每个用户关键词的词频,取最大词频的10个关键词,组成用户关键词列表,并使用该列表查询包含这10个关键词的所有微博,最终得到该用户的核心微博序列C.
C={W′1,W′2,…,W′n}
特征提取:使用核心微博序列提取微博数据的文本特征和用户特征,其中文本特征分为文本相似度和时序相似度,用户特征分为广告微博关键词倾向性和广告元素数量;
参数选取:调整DBSCAN算法中的半径(Eps)和以点P为中心的邻域内最少点的数量(MinPts),使得检测结果的F值最高;
聚类分析和结果检测:我们选取DBSCAN作为本实验所使用的聚类方法。DBSCAN算法为基于密度的聚类算法,与传统的基于层次的聚类算法不同,该算法可以发现任意形状的聚类簇,且可以在需要时输入过滤噪声的参数。
2.根据权利要求1所述的聚类分析的微博广告发布者识别方法,其特征在于:数据标注步骤中,设定如下判定规则:对用户进行手动标注以便于评判实验的准确度,标注分为广告微博发布者和普通微博发布者两类。广告微博发布者的行为特征为:发布内容存在某一时间段带有强烈的商业色彩或转发大量低质信息等。
3.根据权利要求1或3所述的基于聚类分析的微博广告发布者识别方法,其特征在于:数据标注由至少三个人进行标注。
4.基于聚类分析的微博广告发布者识别方法,其特征在于:包括微博数据的数据清洗装置、数据标注装置、核心微博计算模块、特征提取模块、聚类分析模块、聚类结果生成标签模块;其中:
数据清洗装置,针对用户,将发帖数小于10的用户不纳入计算范围;针对单条微博,将微博中带有转发含义的字段及@符号后的内容进行删除;
数据标注装置,将数据清洗得到的判决结果进行人工标注,分别为“普通用户”和“广告发布者”;
核心微博计算模块,取关键词词频序列中的前十位作为高频关键词,以保证能够筛选 出其中的广告主题,保留包含这十个关键词或其近义词的微博组成核心微博序列。
特征提取模块,使用核心微博序列提取微博数据的文本特征和用户特征,其中文本特征分为文本相似度和时序相似度,用户特征分为广告微博关键词倾向性和广告元素数量;
聚类分析模块,使用DBSCAN算法,调整算法中的半径(Eps)和以点P为中心的邻域内最少点的数量(MinPts)使计算结果准确率最高。
聚类结果生成标签模块,通过显示装置显示出来。
5.根据权利要求4所述的基于聚类分析的微博广告发布者识别方法,其特征在于:核心微博序列使用中文分词系统提取关键词,每个用户的每条微博都会获得一个关键词列表。
Useri={W1,W2,W3,…,Wn}
Wi={keyword1,keyword2,…,keywordn},
其中Useri是表示用户i的微博序列,Wi表示其中第i条微博的关键词列表的倒序排列,keyword为具体某个关键词。然后统计每个用户关键词的词频,取最大词频的10个关键词,组成用户关键词列表,并使用该列表查询包含这10个关键词的所有微博,最终得到该用户的核心微博序列C.
C={W′1,W′2,…,W′n}
6.根据权利要求4所述的基于聚类分析的微博广告发布者识别方法,其特征在于:特征提取模块中的文本特征(文本相似度和时序相似度)计算使用核心微博序列。其中,文本相似度计算每个用户的核心微博之间的余弦相似度并求平均值以作为该用户的文本相似度。时序相似度计算使用白噪声(whitenoise)检验方法。白噪声检验结果——统计量whiteNoise值越大表明时间序列随机性越强,即为广告发布者的可能性越低。其计算公式如下:
whiteNoisei=acorr_ljungbox(timei,lags=K)
其中,whiteNoisei为第i个用户的白噪声显著性水平,timei表示其发帖时间序列,K为差分阶数。
7.根据权利要求4所述的基于聚类分析的微博广告发布者识别方法,其特征在于:特征提取装置中,用户特征分为广告微博关键词倾向性和广告元素数量。其中,广告微博关键词计算方法如下:使用已标注的广告发布者数据,统计其关键词词频,并将关键词序列按照词频倒排,从而得到广告微博关键词序列A。但广告微博中也存在许多微博常用语,这些常用语在普通微博中同样高频率存在。为此,我们使用同样的方法针对普通微博统计出普通微博关键词序列P。针对某一词语的广告微博关键词倾向性,本文定义如下:
其中分别为词语在序列A,P中的位置,Ii为该词语的广告微博关键词倾向性。
8.根据权利要求4所述的基于聚类分析的微博广告发布者识别方法,其特征在于:特征提取装置中,用户特征分为广告微博关键词倾向性和广告元素数量。其中,广告元素数量统计网址URL、邮箱、手机号、QQ、微信等五种要素。
9.根据权利要求4所述的基于聚类分析的微博广告发布者识别方法,其特征在于:聚类分析结果采用准确率(precision)、召回率(Recall)、F值(F-measure)来评价算法性能。计算公式分别如下,其中A为正确识别广告发布者的数量、CA为实验结果中被标记为广告发布者的总量、TA为数据集中实际广告发布者的总量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711263641.6A CN110019677A (zh) | 2017-11-30 | 2017-11-30 | 基于聚类分析的微博广告发布者识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711263641.6A CN110019677A (zh) | 2017-11-30 | 2017-11-30 | 基于聚类分析的微博广告发布者识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110019677A true CN110019677A (zh) | 2019-07-16 |
Family
ID=67186009
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711263641.6A Pending CN110019677A (zh) | 2017-11-30 | 2017-11-30 | 基于聚类分析的微博广告发布者识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110019677A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114897041A (zh) * | 2022-03-17 | 2022-08-12 | 高德软件有限公司 | 停车场出入口确定方法、电子设备及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102053978A (zh) * | 2009-10-27 | 2011-05-11 | 腾讯科技(深圳)有限公司 | 单句的主题词提取方法和装置 |
CN102262681A (zh) * | 2011-08-19 | 2011-11-30 | 南京大学 | 一种博客信息传播中识别关键博客集的方法 |
US20120158518A1 (en) * | 2010-10-19 | 2012-06-21 | Citizennet Inc. | Systems and methods for automatically generating campaigns using advertising targeting information based upon affinity information obtained from an online social network |
CN103458042A (zh) * | 2013-09-10 | 2013-12-18 | 上海交通大学 | 一种微博广告用户检测方法 |
CN103514183A (zh) * | 2012-06-19 | 2014-01-15 | 北京大学 | 基于交互式文档聚类的信息检索方法及系统 |
CN104142950A (zh) * | 2013-05-10 | 2014-11-12 | 中国人民大学 | 基于关键词提取和基尼系数的微博用户分类方法 |
US20150356444A1 (en) * | 2013-01-09 | 2015-12-10 | Peking University Founder Group Co., Ltd. | Method and system of discovering and analyzing structures of user groups in microblog |
CN105163326A (zh) * | 2015-09-30 | 2015-12-16 | 南京华苏科技股份有限公司 | 一种基于无线网络话务特征的小区聚类方法和系统 |
US20160019465A1 (en) * | 2014-07-18 | 2016-01-21 | PlaceIQ, Inc. | Analyzing Mobile-Device Location Histories To Characterize Consumer Behavior |
CN105719191A (zh) * | 2016-01-20 | 2016-06-29 | 东北大学 | 多尺度空间下不确定行为语义的社交群体发现系统及方法 |
CN106296422A (zh) * | 2016-07-29 | 2017-01-04 | 重庆邮电大学 | 一种融合多算法的社交网络垃圾用户检测方法 |
US20170061322A1 (en) * | 2015-08-31 | 2017-03-02 | International Business Machines Corporation | Automatic generation of training data for anomaly detection using other user's data samples |
-
2017
- 2017-11-30 CN CN201711263641.6A patent/CN110019677A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102053978A (zh) * | 2009-10-27 | 2011-05-11 | 腾讯科技(深圳)有限公司 | 单句的主题词提取方法和装置 |
US20120158518A1 (en) * | 2010-10-19 | 2012-06-21 | Citizennet Inc. | Systems and methods for automatically generating campaigns using advertising targeting information based upon affinity information obtained from an online social network |
CN102262681A (zh) * | 2011-08-19 | 2011-11-30 | 南京大学 | 一种博客信息传播中识别关键博客集的方法 |
CN103514183A (zh) * | 2012-06-19 | 2014-01-15 | 北京大学 | 基于交互式文档聚类的信息检索方法及系统 |
US20150356444A1 (en) * | 2013-01-09 | 2015-12-10 | Peking University Founder Group Co., Ltd. | Method and system of discovering and analyzing structures of user groups in microblog |
CN104142950A (zh) * | 2013-05-10 | 2014-11-12 | 中国人民大学 | 基于关键词提取和基尼系数的微博用户分类方法 |
CN103458042A (zh) * | 2013-09-10 | 2013-12-18 | 上海交通大学 | 一种微博广告用户检测方法 |
US20160019465A1 (en) * | 2014-07-18 | 2016-01-21 | PlaceIQ, Inc. | Analyzing Mobile-Device Location Histories To Characterize Consumer Behavior |
US20170061322A1 (en) * | 2015-08-31 | 2017-03-02 | International Business Machines Corporation | Automatic generation of training data for anomaly detection using other user's data samples |
CN105163326A (zh) * | 2015-09-30 | 2015-12-16 | 南京华苏科技股份有限公司 | 一种基于无线网络话务特征的小区聚类方法和系统 |
CN105719191A (zh) * | 2016-01-20 | 2016-06-29 | 东北大学 | 多尺度空间下不确定行为语义的社交群体发现系统及方法 |
CN106296422A (zh) * | 2016-07-29 | 2017-01-04 | 重庆邮电大学 | 一种融合多算法的社交网络垃圾用户检测方法 |
Non-Patent Citations (4)
Title |
---|
M.A. FERNANDES等: "Automated Detection of Human Users in Twitter", 《PROCEDIA COMPUTER SCIENCE》, vol. 53, pages 224 - 231 * |
张旭: "社交网用户行为关系概率推演模型的研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 7, pages 139 - 138 * |
赵星宇: "基于相似性计算与半监督聚类方法的微博广告发布者识别研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 8, pages 138 - 900 * |
赵星宇等: "基于聚类分析的微博广告发布者识别", 《计算机应用》, vol. 38, no. 5, pages 1267 - 1271 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114897041A (zh) * | 2022-03-17 | 2022-08-12 | 高德软件有限公司 | 停车场出入口确定方法、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhu et al. | Hot topic detection based on a refined TF-IDF algorithm | |
Morstatter et al. | A new approach to bot detection: striking the balance between precision and recall | |
KR101536520B1 (ko) | 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버 | |
CN103793484B (zh) | 分类信息网站中的基于机器学习的欺诈行为识别系统 | |
CN103176983B (zh) | 一种基于互联网信息的事件预警方法 | |
CN103729474B (zh) | 用于识别论坛用户马甲账号的方法和系统 | |
CN108776671A (zh) | 一种网络舆情监控系统及方法 | |
CN109325117B (zh) | 一种多特征融合的微博中社会安全事件检测方法 | |
CN107330050A (zh) | 一种个性化推荐方法及系统 | |
CN106202211A (zh) | 一种基于微博类型的集成微博谣言识别方法 | |
CN103226578A (zh) | 面向医学领域的网站识别和网页细分类的方法 | |
TW201214169A (en) | Recognition of target words using designated characteristic values | |
CN107609103A (zh) | 一种基于推特的事件检测方法 | |
CN105488092A (zh) | 一种时间敏感和自适应的子话题在线检测方法及系统 | |
Kim et al. | Event diffusion patterns in social media | |
Deng et al. | Sentiment analysis based online restaurants fake reviews hype detection | |
Chauhan et al. | Research on product review analysis and spam review detection | |
CN107341199A (zh) | 一种基于文献信息共性模式的推荐方法 | |
CN108763496A (zh) | 一种基于网格和密度的动静态数据融合客户分类算法 | |
JP2006350656A (ja) | 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体 | |
CN102567319B (zh) | 网页图片过滤方法及系统 | |
CN109918556A (zh) | 一种综合微博用户社交关系和微博文本特征抑郁情绪识别方法 | |
CN104268289B (zh) | 链接url的失效检测方法和装置 | |
CN104199838B (zh) | 一种基于标签消歧的用户模型建构方法 | |
CN103218368B (zh) | 一种挖掘热词的方法与装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190716 |