CN111382366A - 基于语言和非语言特征的社交网络用户识别方法及装置 - Google Patents

基于语言和非语言特征的社交网络用户识别方法及装置 Download PDF

Info

Publication number
CN111382366A
CN111382366A CN202010139426.0A CN202010139426A CN111382366A CN 111382366 A CN111382366 A CN 111382366A CN 202010139426 A CN202010139426 A CN 202010139426A CN 111382366 A CN111382366 A CN 111382366A
Authority
CN
China
Prior art keywords
language
features
user
feature
combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010139426.0A
Other languages
English (en)
Other versions
CN111382366B (zh
Inventor
胡峰
禹航
刘立
李子杨
林智敏
李相鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010139426.0A priority Critical patent/CN111382366B/zh
Publication of CN111382366A publication Critical patent/CN111382366A/zh
Application granted granted Critical
Publication of CN111382366B publication Critical patent/CN111382366B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及自然语言处理、网络安全、社交网络、信息提取领域,尤其涉及一种基于语言和非语言特征的社交网络用户识别方法及装置,方法包括收集社交网络用户账号的评论文本,将不同的用户账号两两组合,得到社交网络马甲识别训练集;基于社交网络马甲识别训练集,从中提取语言和非语言的特征,将语言和非语言特征进行横向拼接;使用SVM模型对数据集进行训练,得到马甲识别模型,利用特征选择技术贪心算法选择最优的特征组合;将提取实时的两个用户的最优的特征组合,并将该特征组合输入SVM模型,即可识别出这两个用户账户是否为同一个用户操纵;本发明适用于任何的社交网络平台,模型简单、高效,对于识别马甲账号也有较高的准确率。

Description

基于语言和非语言特征的社交网络用户识别方法及装置
技术领域
本发明涉及自然语言处理、网络安全、社交网络、信息提取领域,尤其涉及一种基于语言和非语言特征的社交网络用户识别方法及装置。
背景技术
目前,在线社交平台已经成为我们日常生活的重要组成部分,社交网络的快速发展,也暴露了许多的安全问题。其中,有一部分的用户通过社交平台发送垃圾邮件,传播虚假信息,控制社会舆论,欺诈等。导致他们平台被封号。而他们为了继续在社交平台活动,就会创建一个或多个马甲账号,以便继续发布垃圾邮件信息。而在社交平台注册一个新的账号是非常容易的。因此,快速、准确地识别马甲账号是非常有价值地。而对于现在很多社交平台识别马甲账号主要是依靠IP地址,或者依靠人为的分析来进行识别。这样效率大大的降低。而对于侵入用户的私人信息也是不允许的。所以对社交网络用户进行马甲识别能够保证网络安全,提升识别效率和准确度,这也是一个非常迫切的任务。
发明内容
为了提高马甲识别的准确率,保证社交网络安全,本发明提出一种基于语言和非语言特征的社交网络用户识别方法及装置,所述方法包括:
S1、收集社交网络用户账号的评论文本,进行数据清洗,之后将不同的用户账号两两组合,得到社交网络马甲识别训练集;
S2、基于社交网络马甲识别训练集,从中提取语言和非语言的特征,将语言特征和非语言特征进行横向拼接将基于语言的特征和基于非语言的特征进行自适应特征选择结合;
S3、引入SVM模型,使用该模型对数据集进行训练,得到最终的基于语言和非语言特征马甲识别模型,利用特征选择技术贪心算法选择最优的特征组合;
S4、将提取实时的两个用户的最优的特征组合,并将该特征组合输入SVM模型,即可识别出这两个用户账户是否为同一个用户操纵。
进一步的,用户的语言特征获取过程包括:
获取每个用户的每个评论文本进行训练,并将每个词转换为word2vec表示;
之后将每个账户中提取出的关键词word2vec进行纵向拼接,计算出每个账号拼接后关键词的word2vec的相似度;
将计算得到的关键词的word2vec的相似度以及文本的长度、情感词个数作为用户的语言特征。
进一步的,用户的非语言特征包括用户的活跃时间、用户的评论数目、用户的互动次数以及用户的上线次数。
进一步的,将语言特征和非语言特征进行横向拼接包括采用逻辑回归算法的线性加权,训练语言特征和非语言特征的权重矩阵,自适应地选择语言特征和非语言特征的权重,表示为:
Y=W1×N+W2×M;
其中,Y表示语言特征和非语言相结合的特征矩阵;W1为语言特征的权重矩阵;N为语言特征矩阵;W2为非语言特征矩阵;M为非语言特征矩阵。
进一步的,利用特征选择技术贪心算法选择最优的特征组合包括:
S401、从所有特征中选取准确率最高的特征,并将该特征存放在最优的特征组合中;
S402、从剩下的特征中选取特征与最优的特征组合进行组合;
S403、挑选出进行组合后准确率最高的特征,若该组合的准确率大于组合之前的准确率,则将该特征选入最优的特征组合并返回步骤S402;若该组合的准确率小于组合之前的准确率则结束,输出最优的特征组合。
本发明还提供一种基于语言和非语言特征的社交网络用户识别装置,包括数据获取模块、语言特征获取模块、非语言特征获取模块、特征拼接模块、特征选择模块以及实时预测模块,其中:
数据获取模块,用于获取用户数据,包括语言特征数据和非语言特征数据;
语言特征获取模块,用于根据用户的语言特征数据提取语言特征,其中语言特征数据包括用户评论的文本数据;
非语言特征获取模块,用于根据用户的非语言特征数据提取用户的非语言特征,其中非语言特征数据包括用户的活跃时间、用户的评论数目、用户的互动次数以及用户的上线次数;
特征拼接模块,用于将用户的语言特征和非语言特征凭借在一起;
特征选择模块,用于从用户的所有特征中挑选出最佳的特征;
实时预测模块,用于根据两个用户的最优的特征组合判断该两个用户账号是否为同一个用户操纵。
本发明适用于任何的社交网络平台,模型简单、高效,对于识别马甲账号也有较高的准确率。
附图说明
图1是本发明实施例提供的一种基于语言和非语言特征的社交网络用户马甲账号识别方法流程示意图;
图2是本发明实施例提供的一种基于语言和非语言特征的社交网络用户马甲账号识别方法特征选择技术示意图;
图3为本发明实施例中模型训练部分流程示意图;
图4为本发明实施例中实时数据预测部分流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出一种基于语言和非语言特征的社交网络用户识别方法,如图1,包括以下步骤:
S1、收集社交网络用户账号的评论文本,进行数据清洗,之后将不同的用户账号两两组合,得到社交网络马甲识别训练集;
S2、基于社交网络马甲识别训练集,从中提取语言和非语言的特征,将语言特征和非语言特征进行横向拼接将基于语言的特征和基于非语言的特征进行自适应特征选择结合;
S3、引入SVM模型,使用该模型对数据集进行训练,得到最终的基于语言和非语言特征马甲识别模型,利用特征选择技术贪心算法选择最优的特征组合;
S4、将提取实时的两个用户的最优的特征组合,并将该特征组合输入SVM模型,即识别出这两个用户账户是否为同一个用户操纵。
在本实施例中主要分为两个部分,模型训练部分和实时数据预测部分:
(一)模型训练部分
如图3,模型训练部分主要包括社交账号数据集收集、数据预处理、提取语言特征和非语言特征、训练权重系数进行向量横向拼接、利用机器学习算法训练模型、获得最优组合特征以及获得马甲识别模型。
在本实施例中,收集来自英文维基百科社交网络的公开数据集,在一般情况下,马甲用户都会刻意地伪造自己的个人介绍页面,所以为防止马甲用户刻意的伪造信息,收集包括600余组用户账号在评论区发言的文本。得到社交网络评论文本后,进行数据清洗,去除标点符号和其他无用的语言符号,为后续提取特征,减少噪声干扰,提高实验的精确度有很大的作用。
在得到清洗后的社交网络评论文本数据,包括去除无用字符和干扰信息,包括‘:’,‘:’,‘\n’,‘’等操作,然后将不同用户账号进行两两拼接,构建为马甲识别训练数据集。
在得到训练数据集后,对数据集进行语言特征提取,语言特征包括每个用户的每个评论文本中的长度,情感词个数,关键词相似度等,使用Rake算法将一篇文档分成若干分句,然后对于每一个分句,使用停用词作为分隔符将分句分为若干短语,最后将短语作为最终提取出的关键词的候选词;将所有文本数据进行训练,每个候选词转化为word2vec表示;之后将每个账户中提取出的关键词word2vec进行纵向拼接,使用余弦相似度计算出每个账号拼接后关键词的word2vec的相似度值、文本长度、情感词个数,其中关键词的word2vec的相似度值为两个词之间的余弦相似度,得到基于语言的特征。
在得到训练数据集后,对数据集进行非语言特征提取,得到非语言特征。由于普通用户在登录账号时,每一天都有固定的作息时间,可能某一个用户账号经常在晚上使用,而对于马甲账号则规律较少,所以需提取登陆时间作为非语言特征;为了保持活跃度,马甲用户经常每天都会在很多讨论区留言,相比较普通用户他们更喜欢浏览的方式,所以需提取每天平均的评论条数作为非语言特征;马甲用户相比较普通用户,更加喜欢输入短的文本,如一个单词和几个单词组成一句话,所以需提取文本的长度和平均每一条文本长度作为非语言特征。
对于马甲账号来说,为了避免被社交网络识别出。它们通常会伪装自己的语言特征,尽量避免多个账号之间写作风格相类似。相比较语言特征容易伪装的特点,非语言特征更多的是账号的网络行为,对于马甲用户来说则不容易伪装。所以我们在对语言特征和非语言特征进行横向拼接的时候,考虑到语言特征容易伪装的特点,需要对模型进行自适应性特征选择。采用逻辑回归算法的线性加权思路,假设语言特征向量n={n1,n2,n3},n1、n2、n3分别表示某一个语言特征;非语言特征向量M={m1,m2,m3,m4},m1、m2、m3、m4分别表示某一个非语言特征;初始化权重矩阵W1={w1,1,w1,2,w1,3},w1,1、w1,2、w1,3分别为语言特征n1、n2、n3对应的权重;W2={w2,1,w2,2,w2,3,w2,4},w2,1、w2,2、w2,3、w2,4分别为非语言特征m1、m2、m3、m4对应的权重;根据逻辑回归公式Y=W1×N+W2×M,训练模型,通过迭代更新权重,更加充分全面的马甲识别数据集特征。
最后引入支持向量机模型,进行模型训练,然后使用贪心算法的思想选择最优特征组合,如图2,假设有五个特征f1、f2、f3、f4、f5,{f2}和其余四个特征组相比较,准确率最高为0.83,将f2加入到最优特征组合里面,得到目前的最优特征组合为{f2},然后将剩下的四个特征分别与f2组合,其中{f2,f3}的组合得到的准确率最高为0.85,将f3加入最优特征组合,得到目前的最优特征组合为{f2,f3},重复上一步类似的计算,其中其中{f2,f3,f4}的组合准确率最高为0.84,但是低于上一步组合{f2,f3}的准确率,算法终止,最终得到的最优特征组合为{f2,f3}。后使用基于语言和非语言特征马甲识别模型对社交网络进行实时马甲识别。
(二)实时数据预测部分
在通过(一)获得马甲识别模型之后,开始对实时数据进行预测,如图4,包括获取实时的社交网络账号数据、进行实时数据预处理(与训练部分一直)、根据训练部分得到的最优组合特征提取实时数据的语言特征和非语言特征、使用训练好的权重系数将特征向量进行横向拼接,此时加载训练好的马甲识别模型,将拼接好的向量输入马甲识别模型,即可进行马甲识别。
通过实验发现,准确度达到了85%的精度,达到了令人满意精度,对于识别马甲账号非常有帮助。
本发明还提出一种基于语言和非语言特征的社交网络用户识别装置,包括数据获取模块、语言特征获取模块、非语言特征获取模块、特征拼接模块、特征选择模块以及实时预测模块,其中:
数据获取模块,用于获取用户数据,包括语言特征数据和非语言特征数据;
语言特征获取模块,用于根据用户的语言特征数据提取语言特征,其中语言特征数据包括用户评论的文本数据;
非语言特征获取模块,用于根据用户的非语言特征数据提取用户的非语言特征,其中非语言特征数据包括用户的活跃时间、用户的评论数目、用户的互动次数以及用户的上线次数;
特征拼接模块,用于将用户的语言特征和非语言特征凭借在一起;
特征选择模块,用于从用户的所有特征中挑选出最佳的特征;
实时预测模块,用于根据两个用户的最优的特征组合判断该两个用户账号是否为同一个用户操纵。
进一步的,语言特征获取模块包括关键词相似度计算单元、文本长度检测单元以及情感词数量检测单元,关键词相似度计算单元包括文本数据训练子单元、关键词提取子单元、拼接单元以及相似度计算单元,其中:
文本数据训练子单元,用于将用户评论的文本数据的每个词转换为word2vec表示;
关键词提取子单元,用于从word2vec表示的文本数据中提取关键词;
拼接单元,用于将提取的关键词进行纵向拼接;
相似度计算单元,用于计算每个关键词word2vec表示的相似性;
文本长度检测单元,用于检测用户每次评论的文本数据的长度;
情感词数量检测单元,用于检测用户每次评论的文本数据中情感词出现的次数。
进一步的,特征拼接模块将语言特征和非语言特征进行拼接的过程表示为:
Y=W1×N+W2×M;
其中,Y表示语言特征和非语言相结合的特征矩阵;W1为语言特征的权重矩阵;N为语言特征矩阵;W2为非语言特征矩阵;M为非语言特征矩阵。
进一步的,特征选择模块挑选特征的过程包括:
S401、从所有特征中选取准确率最高的特征,并将该特征存放在最优的特征组合中;
S402、从剩下的特征中选取特征与最优的特征组合进行组合;
S403、挑选出进行组合后准确率最高的特征,若该组合的准确率大于组合之前的准确率,则将该特征选入最优的特征组合并返回步骤S402;若该组合的准确率小于组合之前的准确率则结束,输出最优的特征组合。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (9)

1.基于语言和非语言特征的社交网络用户识别方法,其特征在于,包括以下步骤:
S1、收集社交网络用户账号的评论文本,进行数据清洗,之后将不同的用户账号两两组合,得到社交网络马甲识别训练集;
S2、基于社交网络马甲识别训练集,从中提取语言和非语言的特征,将语言特征和非语言特征进行横向拼接;
S3、引入SVM模型,使用该模型对数据集进行训练,得到最终的基于语言和非语言特征马甲识别模型,利用特征选择技术贪心算法选择最优的特征组合;
S4、将提取实时的两个用户的最优的特征组合,并将该特征组合输入SVM模型,即可识别出这两个用户账户是否为同一个用户操纵。
2.根据权利要求1所述的基于语言和非语言特征的社交网络用户识别方法,其特征在于,用户的语言特征获取过程包括:
获取每个用户的每个评论文本进行训练,并将每个词转换为word2vec表示;
之后将每个账户中提取出的关键词word2vec进行纵向拼接,使用余弦相似度计算方法计算出每个账号拼接后关键词的word2vec的相似度;
将计算得到的关键词的word2vec的相似度以及文本的长度、情感词个数作为用户的语言特征。
3.根据权利要求1所述的基于语言和非语言特征的社交网络用户识别方法,其特征在于,用户的非语言特征包括用户的活跃时间、用户的评论数目、用户的互动次数以及用户的上线次数。
4.根据权利要求1所述的基于语言和非语言特征的社交网络用户识别方法,其特征在于,将语言特征和非语言特征进行横向拼接包括采用逻辑回归算法的线性加权,训练语言特征和非语言特征的权重矩阵,自适应地选择语言特征和非语言特征的权重,表示为:
Y=W1×N+W2×M;
其中,Y表示语言和非语言相结合的特征矩阵;W1为语言特征的权重矩阵;N为语言特征矩阵;W2为非语言特征矩阵;M为非语言特征矩阵。
5.根据权利要求1所述的基于语言和非语言特征的社交网络用户识别方法,其特征在于,利用特征选择技术贪心算法选择最优的特征组合包括:
S401、从所有特征中选取能够使SVM模型取得最高准确率的特征,并将该特征存放在最优的特征组合中;
S402、从剩下的特征中选取特征与最优的特征组合进行组合;
S403、挑选出进行组合后准确率最高的特征,若该组合的准确率大于组合之前的准确率,则将该特征选入最优的特征组合并返回步骤S402;若该组合的准确率小于组合之前的准确率则结束,输出最优的特征组合。
6.基于语言和非语言特征的社交网络用户识别装置,其特征在于,包括数据获取模块、语言特征获取模块、非语言特征获取模块、特征拼接模块、特征选择模块以及实时预测模块,其中:
数据获取模块,用于获取用户数据,包括语言特征数据和非语言特征数据;
语言特征获取模块,用于根据用户的语言特征数据提取语言特征,其中语言特征数据包括用户评论的文本数据、文本的长度、情感词个数;
非语言特征获取模块,用于根据用户的非语言特征数据提取用户的非语言特征,其中非语言特征数据包括用户的活跃时间、用户的评论数目、用户的互动次数以及用户的上线次数;
特征拼接模块,用于将用户的语言特征和非语言特征凭借在一起;
特征选择模块,用于从用户的所有特征中挑选出最佳的特征;
实时预测模块,用于根据两个用户的最优的特征组合判断该两个用户账号是否为同一个用户操纵。
7.根据权利要求1所述的基于语言和非语言特征的社交网络用户识别方法,其特征在于,语言特征获取模块包括关键词相似度计算单元、文本长度检测单元以及情感词数量检测单元,关键词相似度计算单元包括文本数据训练子单元、关键词提取子单元、拼接单元以及相似度计算单元,其中:
文本数据训练子单元,用于将用户评论的文本数据的每个词转换为word2vec表示;
关键词提取子单元,用于从word2vec表示的文本数据中提取关键词;
拼接单元,用于将提取的关键词进行纵向拼接;
相似度计算单元,用于计算每个关键词word2vec表示的相似性;
文本长度检测单元,用于检测用户每次评论的文本数据的长度;
情感词数量检测单元,用于检测用户每次评论的文本数据中情感词出现的次数。
8.根据权利要求1所述的基于语言和非语言特征的社交网络用户识别方法,其特征在于,特征拼接模块将语言特征和非语言特征进行拼接的过程表示为:
Y=W1×N+W2×M;
其中,Y表示语言特征和非语言相结合的特征矩阵;W1为语言特征的权重矩阵;N为语言特征矩阵;W2为非语言特征矩阵;M为非语言特征矩阵。
9.根据权利要求1所述的基于语言和非语言特征的社交网络用户识别方法,其特征在于,特征选择模块挑选特征的过程包括:
S401、从所有特征中选取能够使SVM模型取得最高准确率的特征,并将该特征存放在最优的特征组合中;
S402、从剩下的特征中选取特征与最优的特征组合进行组合;
S403、挑选出进行组合后准确率最高的特征,若该组合的准确率大于组合之前的准确率,则将该特征选入最优的特征组合并返回步骤S402;若该组合的准确率小于组合之前的准确率则结束,输出最优的特征组合。
CN202010139426.0A 2020-03-03 2020-03-03 基于语言和非语言特征的社交网络用户识别方法及装置 Active CN111382366B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010139426.0A CN111382366B (zh) 2020-03-03 2020-03-03 基于语言和非语言特征的社交网络用户识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010139426.0A CN111382366B (zh) 2020-03-03 2020-03-03 基于语言和非语言特征的社交网络用户识别方法及装置

Publications (2)

Publication Number Publication Date
CN111382366A true CN111382366A (zh) 2020-07-07
CN111382366B CN111382366B (zh) 2022-11-25

Family

ID=71215295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010139426.0A Active CN111382366B (zh) 2020-03-03 2020-03-03 基于语言和非语言特征的社交网络用户识别方法及装置

Country Status (1)

Country Link
CN (1) CN111382366B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113342927A (zh) * 2021-04-28 2021-09-03 平安科技(深圳)有限公司 敏感词识别方法、装置、设备及存储介质
CN113743103A (zh) * 2021-08-20 2021-12-03 南京星云数字技术有限公司 评论用户身份识别方法、装置、计算机设备和存储介质
CN117272113A (zh) * 2023-10-10 2023-12-22 深圳福恋智能信息科技有限公司 基于虚拟社交网络的违规行为检测方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080233576A1 (en) * 1998-05-01 2008-09-25 Jason Weston Method for feature selection in a support vector machine using feature ranking
CN103729474A (zh) * 2014-01-23 2014-04-16 中国科学院计算技术研究所 用于识别论坛用户马甲账号的方法和系统
CN104866558A (zh) * 2015-05-18 2015-08-26 中国科学院计算技术研究所 一种社交网络账号映射模型训练方法及映射方法和系统
CN109165284A (zh) * 2018-08-22 2019-01-08 重庆邮电大学 一种基于大数据的金融领域人机对话意图识别方法
CN109190660A (zh) * 2018-07-24 2019-01-11 西安理工大学 基于条件互信息的特征选择与评价方法
CN109446330A (zh) * 2018-11-13 2019-03-08 广州虎牙科技有限公司 网络服务平台情感倾向识别方法、装置、设备和存储介质
CN109545372A (zh) * 2018-11-06 2019-03-29 湖北工业大学 一种基于距离贪心策略的病人生理数据特征选择方法
CN109800790A (zh) * 2018-12-24 2019-05-24 厦门大学 一种面向高维数据的特征选择方法
CN109978020A (zh) * 2019-03-07 2019-07-05 武汉大学 一种基于多维特征的社交网络账号马甲身份辨识方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080233576A1 (en) * 1998-05-01 2008-09-25 Jason Weston Method for feature selection in a support vector machine using feature ranking
CN103729474A (zh) * 2014-01-23 2014-04-16 中国科学院计算技术研究所 用于识别论坛用户马甲账号的方法和系统
CN104866558A (zh) * 2015-05-18 2015-08-26 中国科学院计算技术研究所 一种社交网络账号映射模型训练方法及映射方法和系统
CN109190660A (zh) * 2018-07-24 2019-01-11 西安理工大学 基于条件互信息的特征选择与评价方法
CN109165284A (zh) * 2018-08-22 2019-01-08 重庆邮电大学 一种基于大数据的金融领域人机对话意图识别方法
CN109545372A (zh) * 2018-11-06 2019-03-29 湖北工业大学 一种基于距离贪心策略的病人生理数据特征选择方法
CN109446330A (zh) * 2018-11-13 2019-03-08 广州虎牙科技有限公司 网络服务平台情感倾向识别方法、装置、设备和存储介质
CN109800790A (zh) * 2018-12-24 2019-05-24 厦门大学 一种面向高维数据的特征选择方法
CN109978020A (zh) * 2019-03-07 2019-07-05 武汉大学 一种基于多维特征的社交网络账号马甲身份辨识方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XUELING ZHENG 等: "Sockpuppet Detection in Online Discussion Forums", 《2011 SEVENTH INTERNATIONAL CONFERENCE ON INTELLIGENT INFORMATION HIDING AND MULTIMEDIA SIGNAL PROCESSING》 *
张树森 等: "社会网络角色识别方法综述", 《计算机学报》 *
曾子明等: "基于LDA和AdaBoost多特征组合的微博情感分析", 《数据分析与知识发现》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113342927A (zh) * 2021-04-28 2021-09-03 平安科技(深圳)有限公司 敏感词识别方法、装置、设备及存储介质
CN113342927B (zh) * 2021-04-28 2023-08-18 平安科技(深圳)有限公司 敏感词识别方法、装置、设备及存储介质
CN113743103A (zh) * 2021-08-20 2021-12-03 南京星云数字技术有限公司 评论用户身份识别方法、装置、计算机设备和存储介质
CN117272113A (zh) * 2023-10-10 2023-12-22 深圳福恋智能信息科技有限公司 基于虚拟社交网络的违规行为检测方法及系统

Also Published As

Publication number Publication date
CN111382366B (zh) 2022-11-25

Similar Documents

Publication Publication Date Title
CN111382366B (zh) 基于语言和非语言特征的社交网络用户识别方法及装置
Ruwandika et al. Identification of hate speech in social media
CN109033073B (zh) 基于词汇依存三元组的文本蕴含识别方法及装置
CN111462752A (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN110610003B (zh) 用于辅助文本标注的方法和系统
CN116340511B (zh) 结合深度学习与语言逻辑推理的舆情分析方法
CN109299470B (zh) 文本公告中触发词的抽取方法及系统
Hoque et al. Analyzing performance of different machine learning approaches with doc2vec for classifying sentiment of bengali natural language
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN114756675A (zh) 文本分类方法、相关设备及可读存储介质
CN112287240A (zh) 基于双嵌入多层卷积神经网络的案件微博评价对象抽取方法及装置
CN115759071A (zh) 基于大数据的政务敏感信息识别系统和方法
Prasad et al. A multimodal classification of noisy hate speech using character level embedding and attention
Rehman et al. User-aware multilingual abusive content detection in social media
Manikandan et al. A System For Detecting Abusive Contents Against LGBT Community Using Deep Learning Based Transformer Models.
CN114298021A (zh) 基于情感值选择评论的谣言检测方法
Al Taawab et al. Transliterated bengali comment classification from social media
Suman et al. Gender Age and Dialect Recognition using Tweets in a Deep Learning Framework-Notebook for FIRE 2019.
Cuadrado et al. team UTB-NLP at finances 2023: financial targeted sentiment analysis using a phonestheme semantic approach
Oudah et al. Person name recognition using the hybrid approach
Faruque et al. A Semi-Supervised Approach for Identifying Cyberbullying Text in Bangla Language
CN111753540B (zh) 一种对于文本数据进行收集以进行自然语言处理nlp的方法及系统
Oshadi et al. AppGuider: Feature Comparison System using Neural Network with FastText and Aspect-based Sentiment Analysis on Play Store User Reviews
ABDOU et al. HACD: A Hybrid Abusive Content Detector based on Convolutional Neural Network and Long Short-Term Memory
Sathya et al. Sinhala and Gujarati Hate Speech Detection.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant