CN109978020A - 一种基于多维特征的社交网络账号马甲身份辨识方法 - Google Patents
一种基于多维特征的社交网络账号马甲身份辨识方法 Download PDFInfo
- Publication number
- CN109978020A CN109978020A CN201910171331.4A CN201910171331A CN109978020A CN 109978020 A CN109978020 A CN 109978020A CN 201910171331 A CN201910171331 A CN 201910171331A CN 109978020 A CN109978020 A CN 109978020A
- Authority
- CN
- China
- Prior art keywords
- account
- vector
- speech
- vest
- social networks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000012706 support-vector machine Methods 0.000 claims abstract description 10
- 230000003993 interaction Effects 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 11
- 238000012512 characterization method Methods 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 abstract 1
- 230000002776 aggregation Effects 0.000 abstract 1
- 230000002123 temporal effect Effects 0.000 abstract 1
- 238000011160 research Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012850 discrimination method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 210000004247 hand Anatomy 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于多维特征的社交网络账号马甲身份辨识方法,首先将社交网络中各个账号所有发言内容汇总成一个文本,采用TF‑IDF模型生成词向量;选取账号发言的时间信息,将一天划分为多个时间段,生成发言时间频率分布向量;以发言的被点赞数、被转载数和被评论数的均值,生成发言互动向量。然后分別以词向量,时间分布向量和互动向量作为输入,采用支持向量机初次训练模型,分别得到三个单特征在验证集上的预测精度,再根据此精确度确定权值,连接词向量、时间分布向量和互动向量,作为最终的输入,再次训练支持向量机模型。最后输入多个未知标签账号的数据,经过预处理,用训练好的支持向量机模型预测账号之间是否存在马甲关系。
Description
技术领域
本发明属于社交媒体数据处理技术领域,涉及一种社交网络账号身份辨识方法,具体一种涉及基于多维特征的社交网络账号马甲身份辨识方法。
背景技术
目前社交网络已广泛普及,全球最大的社交网站facebook月活跃用户数已突破16.5亿,新浪微博、QQ月活跃用户分别突破了3.9亿、8.5亿,社交网络的迅速发展为人们的生活提供了巨大的便捷。社交网络每天有大规模数据产生,如推文内容、网评信息、签到信息、照片等。随着“云计算”和“大数据”技术的不断深入,众多研究机构、高校、互联网公司开始广泛搜集这些碎片化信息,通过对这些大规模数据的建模分析,了解用户多维度的画像,如购物习惯、兴趣爱好等,以此进行广告精准投放或者好友推荐等,带来巨大的商业价值。
社交网络中,同一人拥有多个账号的情况十分常见。某人在同一网站注册多个账号时,常用的账号为主账号,而其余账号称为马甲账号,简称马甲。马甲功能中有很大一部分是负面的,比如,利用不同账号为自己所开的讨论刻意提升人气;在主账号已有固定的朋友圈或形成固定形态时,使用马甲反对甚至诋毁他人或发表另类见解;注册成千上万个账号来发布不良信息、散布谣言、炒作或者通过买卖等级较高的马甲账号进行商业获益等等。这样的行为既浪费网络资源,又影响网络的安全性和公平性。当用户在社交网络中发表不和谐言论,如造谣、诽谤他人、宣传不良思想等危害民众甚至国家安全的状况发生时,将社交网络中属于同一人的马甲账号进行同一性认定,有利于协助相关部门打击犯罪行为。
目前基于语言风格进行文本挖掘识别作者身份的研究工作受到广泛关注,但缺少针对网络账号的马甲关系识别方面的研究。由于网络中的账号相关信息少、噪音大,真实用户信息难以获取,使得对社交网络中账号马甲关系的标注十分困难,现有研究中缺少能够有效验证其所提出辨识方法准确性的权威数据与方法。少量研究者提出了以用户名和社交关系相似性的账号马甲关系辨识的方法,但由于具有马甲账号的用户,其用户命名会刻意规避与主账号名的相似性,另外朋友圈也会刻意保持不一致性,因此使得运用这两种属性的算法识别率不高。也有研究者提出了基于网络语言风格和账号关系的方法,但社交网络平台账号之间的回复信息难以获取。比较而言,社交空间中用户发言的时间、点赞数、评论数、转载数等信息较易获取,而且它们具有很重要的标识价值。
发明内容
为了对社交网络马甲账号进行辨识,本发明开拓性地提供了一种基于多维特征的社交网络账号马甲身份辨识方法,该方法对社交网路账号产生的数据进行分类,考虑账号发言的文本内容,发言时间分布情况,互动信息,提取特征向量,采用支持向量机算法,对具有马甲关系和不具马甲关系的账号进行分类,在保证计算效率的同时,获得了较高的识别率。
本发明所采用的技术方案是:一种基于多维特征的社交网络账号马甲身份辨识方法,其特征在于,包括以下步骤:
步骤1:选取原始社交网络平台账号生成的数据,清除掉发言内容少于预设值的账号,并将数据集拆分为训练集和测试集;
步骤2:分别提取每个账号的发言内容,分别连接成文档,用TF-IDF模型生成用户文档词向量;
步骤3:提取每个账号每次的发言时间,将一天划分为M个时段,统计每个账号发言内容在每个时段的分布频率,生成发言时间分布频率向量;
步骤4:提取每个账号每条发言的被评论数、被点赞数和被转载数,分别求均值,生成发言互动特征向量;
步骤5:分别以用户文档词向量、发言时间分布频率向量,发言互动特征向量作为输入初次训练支持向量机模型;
步骤6:根据步骤5训练的支持向量机模型在测试集上的测试精确度确定权值,连接步骤2-步骤4得到的用户文档词向量、发言时间分布频率向量,发言互动特征向量,得到账号完整的特征向量;
步骤7:两两连接账号完整的特征向量,具有马甲关系的记标签为1,不具有马甲关系的记标签为-1,得到训练特征向量集合;
步骤8:以完整的训练特征向量作为输入,再次训练支持向量机模型,获得训练好的支持向量机模型;
步骤9:输入多个账号的原始数据,转到步骤2-步骤4,生成用户文档词向量、发言时间分布频率向量,发言互动特征向量,再转到步骤6,然后执行步骤7中两两连接待识别用户的完整特征向量;
步骤10:通过步骤8训练好的支持向量机模型预测账号之间是否具有马甲关系,最后输出识别结果和相应的概率值。
本发明具有以下优点和积极效果:
1)本发明根据用户在社交平台发言的语法、时间和互动习惯,综合三方面的特征属性,保证了识别的精确度。
2)本发明方法能有效地识别出具有马甲关系的账号,对于打击利用网络马甲虚拟身份的犯罪活动具有重要应用价值。
附图说明
图1本发明实施例的流程图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本发明提出了基于多维特征的社交网络账号马甲身份辨识方法,包括特征提取和模型训练两个过程。在特征提取过程中,将社交网络中各个账号所有发言内容汇成一个文本,采用TF-IDF模型生成词向量;选取发言时间,将一天划分为多个时间段,生成发言时间分布向量;以发言的被点赞数、被转载数和被评论数的均值生成发言互动向量。在模型训练过程中,分別以词向量,时间分布向量和互动向量作为输入,采用支持向量机初训练模型,分别得到单特征在验证集上的预测精确度,再根据初训练的预测精度确定权值,连接词向量、时间分布向量和互动向量,作为最终模型的输入。
请见图1,本发明提供的一种基于多维特征的社交网络账号马甲身份辨识方法,包括以下步骤:
步骤1:选取原始社交网络平台账号生成的数据,清除掉发言内容少于预设值的账号,并将数据集拆分为训练集和测试集;
步骤2:分别提取每个账号的发言内容,分别连接成文档,用TF-IDF模型生成用户文档词向量;
本实施例采用TF-IDF模型生成用户文档词向量dv,其公式表示为:
dv=(dv1,dv2,...,dvn);
其中,v表示一个文本的特征向量,vi为文本中第i个特征项的权重;dv(w,d)为词w在文本d中的权重,tf(w,d)为词w在文本d中的词频,N为训练文档总数,ni为训练集中出现词w的文本数。
例如在微博平台,提取每个账号的所有博文内容,逐条连接成一个文档。用中科院的分词工具,采取精确模式对文档进行分词,然后分别统计每个文档的词频,过滤掉低频词汇。计算完所有文档的词频后,再计算每个词的IDF值,最后分别生成每个文档的词序列值,对每个序列进行降序排序,取前K生成词向量。
步骤3:提取每个账号每次的发言时间,将一天划分为M个时段,统计每个账号发言内容在每个时段的分布频率,生成发言时间分布频率向量;
发言时间分布频率向量,首先将一天分为M个时段,统计账号在每个时段发言的频率,即各个时段的发言数量与该账号发言总数量的比值,用如下式子表示:
vt=(vt1,vt2,...,vtM);
其中,vt表示一个账号发言时间的频率分布向量,vti为账号在第i个时间段发言的频率值。
本实施例中,先获取每个账号每条发言内容的时间点,只保留时间,不考虑日期,再将一天划分为M个时段,比如划分为4个时段,0-6,6-12,12-18,18-24,接着统计其发言内容在每个时段的分布频率。
步骤4:提取每个账号每条发言的被评论数、被点赞数和被转载数,分别求均值,生成发言互动特征向量;
本实施例采用如下公式计算账号发言互动特征向量:
其中,vi表示一个账号的互动特征向量,为账号发言被转载的平均值,为账号发言被评论的平均值,为账号发言被点赞的平均值。
步骤5:分别以用户文档词向量、发言时间分布频率向量,发言互动特征向量作为输入初次训练支持向量机模型;
这里之所以分别初次训练模型,是为了确定后续连接特征值的权重。
步骤6:根据步骤5训练的支持向量机模型在测试集上的测试精确度确定权值,连接步骤2-步骤4得到的用户文档词向量、发言时间分布频率向量,发言互动特征向量,得到账号完整的特征向量;
本实施例中,账号完整的特征向量v为:
v=α·vd+β·vt+λ·vi;
其中,vd表示账号用户文档词向量,vt为账号发言时间分布频率向量,vi为账号发言互动特征向量,α、β、λ分别为相应的权值,α+β+λ=1。
具体的操作如下,用三种特征值训练好的模型,分别在测试集上验证精确度,累加精确度,以各自的精确度与累加值的比值作为权值连接特征值。
步骤7:两两连接账号完整的特征向量,具有马甲关系的记标签为1,不具有马甲关系的记标签为-1,得到训练特征向量集合;
步骤8:以完整的训练特征向量作为输入,再次训练支持向量机模型,获得训练好的支持向量机模型;
步骤9:输入多个账号的原始数据,转到步骤2-步骤4,生成用户文档词向量、发言时间分布频率向量,发言互动特征向量,再转到步骤6,然后执行步骤7中两两连接待识别用户的完整特征向量;
步骤10:通过步骤8训练好的支持向量机模型预测账号之间是否具有马甲关系,最后输出识别结果和相应的概率值。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (6)
1.一种基于多维特征的社交网络账号马甲身份辨识方法,其特征在于,包括以下步骤:
步骤1:选取原始社交网络平台账号生成的数据,清除掉发言内容少于预设值的账号,并将数据集拆分为训练集和测试集;
步骤2:分别提取每个账号的发言内容,分别连接成文档,用TF-IDF模型生成用户文档词向量;
步骤3:提取每个账号每次的发言时间,将一天划分为M个时段,统计每个账号发言内容在每个时段的分布频率,生成发言时间分布频率向量;
步骤4:提取每个账号每条发言的被评论数、被点赞数和被转载数,分别求均值,生成发言互动特征向量;
步骤5:分别以用户文档词向量、发言时间分布频率向量,发言互动特征向量作为输入初次训练支持向量机模型;
步骤6:根据步骤5训练的支持向量机模型在测试集上的测试精确度确定权值,连接步骤2-步骤4得到的用户文档词向量、发言时间分布频率向量,发言互动特征向量,得到账号完整的特征向量;
步骤7:两两连接账号完整的特征向量,具有马甲关系的记标签为1,不具有马甲关系的记标签为-1,得到训练特征向量集合;
步骤8:以完整的训练特征向量作为输入,再次训练支持向量机模型,获得训练好的支持向量机模型;
步骤9:输入多个账号的原始数据,转到步骤2-步骤4,生成用户文档词向量、发言时间分布频率向量,发言互动特征向量,再转到步骤6,然后执行步骤7中两两连接待识别用户的完整特征向量;
步骤10:通过步骤8训练好的支持向量机模型预测账号之间是否具有马甲关系,最后输出识别结果和相应的概率值。
2.根据权利要求1所述的基于多维特征的社交网络账号马甲身份辨识方法,其特征在于,步骤2中采用TF-IDF模型生成用户文档词向量dv,其公式表示为:
dv=(dv1,dv2,...,dvn);
其中,v表示一个文本的特征向量,vi为文本中第i个特征项的权重;dv(w,d)为词w在文本d中的权重,tf(w,d)为词w在文本d中的词频,N为训练文档总数,ni为训练集中出现词w的文本数。
3.根据权利要求1所述的基于多维特征的社交网络账号马甲身份辨识方法,其特征在于,步骤3中所述发言时间分布频率向量,首先将一天分为M个时段,统计账号在每个时段发言的频率,即各个时段的发言数量与该账号发言总数量的比值,用如下式子表示:
vt=(vt1,vt2,...,vtM);
其中,vt表示一个账号发言时间的频率分布向量,vti为账号在第i个时间段发言的频率值。
4.根据权利要求1所述的基于多维特征的社交网络账号马甲身份辨识方法,其特征在于,步骤4中采用如下公式计算账号发言互动特征向量:
其中,vi表示一个账号的互动特征向量,为账号发言被转载的平均值,为账号发言被评论的平均值,为账号发言被点赞的平均值。
5.根据权利要求1所述的基于多维特征的社交网络账号马甲身份辨识方法,其特征在于,步骤6中账号完整的特征向量v为:
v=α·vd+β·vt+λ·vi;
其中,vd表示账号用户文档词向量,vt为账号发言时间分布频率向量,vi为账号发言互动特征向量,α、β、λ分别为相应的权值,α+β+λ=1。
6.根据权利要求1-5任意一项所述的基于多维特征的社交网络账号马甲身份辨识方法,其特征在于,步骤6的具体实现过程是:用三种特征值训练好的模型,分别在测试集上验证精确度,累加精确度,以各自的精确度与累加值的比值作为权值连接特征值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910171331.4A CN109978020B (zh) | 2019-03-07 | 2019-03-07 | 一种基于多维特征的社交网络账号马甲身份辨识方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910171331.4A CN109978020B (zh) | 2019-03-07 | 2019-03-07 | 一种基于多维特征的社交网络账号马甲身份辨识方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109978020A true CN109978020A (zh) | 2019-07-05 |
CN109978020B CN109978020B (zh) | 2022-04-01 |
Family
ID=67078099
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910171331.4A Active CN109978020B (zh) | 2019-03-07 | 2019-03-07 | 一种基于多维特征的社交网络账号马甲身份辨识方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109978020B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110545528A (zh) * | 2019-09-19 | 2019-12-06 | 白浩 | 融合多身份的社交方法、装置以及存储介质 |
CN111259962A (zh) * | 2020-01-17 | 2020-06-09 | 中南大学 | 一种针对时序社交数据的Sybil账号检测方法 |
CN111382366A (zh) * | 2020-03-03 | 2020-07-07 | 重庆邮电大学 | 基于语言和非语言特征的社交网络用户识别方法及装置 |
CN114663245A (zh) * | 2022-03-16 | 2022-06-24 | 南京信息工程大学 | 一种跨社交网络身份匹配方法 |
CN114676243A (zh) * | 2022-05-25 | 2022-06-28 | 成都无糖信息技术有限公司 | 一种针对社交文本的用户画像分析方法及系统 |
CN116805255A (zh) * | 2023-06-05 | 2023-09-26 | 深圳市瀚力科技有限公司 | 基于用户画像分析的广告自动优化投放系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150188941A1 (en) * | 2013-12-26 | 2015-07-02 | Telefonica Digital Espana, S.L.U. | Method and system for predicting victim users and detecting fake user accounts in online social networks |
CN106296422A (zh) * | 2016-07-29 | 2017-01-04 | 重庆邮电大学 | 一种融合多算法的社交网络垃圾用户检测方法 |
CN106682118A (zh) * | 2016-12-08 | 2017-05-17 | 华中科技大学 | 基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法 |
-
2019
- 2019-03-07 CN CN201910171331.4A patent/CN109978020B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150188941A1 (en) * | 2013-12-26 | 2015-07-02 | Telefonica Digital Espana, S.L.U. | Method and system for predicting victim users and detecting fake user accounts in online social networks |
CN106296422A (zh) * | 2016-07-29 | 2017-01-04 | 重庆邮电大学 | 一种融合多算法的社交网络垃圾用户检测方法 |
CN106682118A (zh) * | 2016-12-08 | 2017-05-17 | 华中科技大学 | 基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法 |
Non-Patent Citations (2)
Title |
---|
SOLORIO T: "A case study of sockpuppet", 《THE WORKSHOP ON LANGUAGE ANALYSIS IN SOCIAL MEDIA》 * |
张进: "基于特征分析的微博炒作账户识别方法", 《计算机工程》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110545528A (zh) * | 2019-09-19 | 2019-12-06 | 白浩 | 融合多身份的社交方法、装置以及存储介质 |
CN110545528B (zh) * | 2019-09-19 | 2021-12-10 | 白浩 | 融合多身份的社交方法、装置以及存储介质 |
CN111259962A (zh) * | 2020-01-17 | 2020-06-09 | 中南大学 | 一种针对时序社交数据的Sybil账号检测方法 |
CN111382366A (zh) * | 2020-03-03 | 2020-07-07 | 重庆邮电大学 | 基于语言和非语言特征的社交网络用户识别方法及装置 |
CN114663245A (zh) * | 2022-03-16 | 2022-06-24 | 南京信息工程大学 | 一种跨社交网络身份匹配方法 |
CN114676243A (zh) * | 2022-05-25 | 2022-06-28 | 成都无糖信息技术有限公司 | 一种针对社交文本的用户画像分析方法及系统 |
CN114676243B (zh) * | 2022-05-25 | 2022-08-19 | 成都无糖信息技术有限公司 | 一种针对社交文本的用户画像分析方法及系统 |
CN116805255A (zh) * | 2023-06-05 | 2023-09-26 | 深圳市瀚力科技有限公司 | 基于用户画像分析的广告自动优化投放系统 |
CN116805255B (zh) * | 2023-06-05 | 2024-04-23 | 深圳市瀚力科技有限公司 | 基于用户画像分析的广告自动优化投放系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109978020B (zh) | 2022-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109978020A (zh) | 一种基于多维特征的社交网络账号马甲身份辨识方法 | |
CN103678564B (zh) | 一种基于数据挖掘的互联网产品调研系统 | |
Wang et al. | TM-LDA: efficient online modeling of latent topic transitions in social media | |
CN103729474B (zh) | 用于识别论坛用户马甲账号的方法和系统 | |
CN106940732A (zh) | 一种面向微博的疑似水军发现方法 | |
CN106105096A (zh) | 用于连续社交通信的系统和方法 | |
CN110263248A (zh) | 一种信息推送方法、装置、存储介质和服务器 | |
CN105894253A (zh) | 一种实现求职需求自动推送的方法及装置 | |
CN106682686A (zh) | 一种基于手机上网行为的用户性别预测方法 | |
US10002187B2 (en) | Method and system for performing topic creation for social data | |
CN105335496A (zh) | 基于余弦相似度文本挖掘算法的客服重复来电处理方法 | |
CN104915443B (zh) | 一种中文微博评价对象的抽取方法 | |
CN114238573A (zh) | 基于文本对抗样例的信息推送方法及装置 | |
CN103544188A (zh) | 移动互联网内容的用户偏好推送方法与装置 | |
CN102033919A (zh) | 文本关键词提取方法及系统 | |
CN105389341A (zh) | 一种客服电话重复来电工单的文本聚类与分析方法 | |
CN102789449B (zh) | 对评论文本进行评价的方法和装置 | |
CN107305545A (zh) | 一种基于文本倾向性分析的网络意见领袖的识别方法 | |
US9785705B1 (en) | Generating and applying data extraction templates | |
CN105183717A (zh) | 一种基于随机森林和用户关系的osn用户情感分析方法 | |
CN103177129A (zh) | 互联网实时信息推荐预测系统 | |
Orlov et al. | Using behavior and text analysis to detect propagandists and misinformers on twitter | |
CN110096681A (zh) | 合同条款分析方法、装置、设备及可读存储介质 | |
CN109522460A (zh) | 一种基于社交网络社团划分的舆情监测方法及系统 | |
Buntoro et al. | The Implementation of the machine learning algorithm for the sentiment analysis of Indonesia’s 2019 Presidential election |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |