CN103795612A - 即时通讯中的垃圾和违法信息检测方法 - Google Patents

即时通讯中的垃圾和违法信息检测方法 Download PDF

Info

Publication number
CN103795612A
CN103795612A CN201410020880.9A CN201410020880A CN103795612A CN 103795612 A CN103795612 A CN 103795612A CN 201410020880 A CN201410020880 A CN 201410020880A CN 103795612 A CN103795612 A CN 103795612A
Authority
CN
China
Prior art keywords
user
sample
behavioural characteristic
threshold value
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410020880.9A
Other languages
English (en)
Other versions
CN103795612B (zh
Inventor
张朝阳
张爱华
张月
张鹏
曹亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing 58 Information Technology Co Ltd
Original Assignee
Beijing 58 Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing 58 Information Technology Co Ltd filed Critical Beijing 58 Information Technology Co Ltd
Priority to CN201410020880.9A priority Critical patent/CN103795612B/zh
Publication of CN103795612A publication Critical patent/CN103795612A/zh
Application granted granted Critical
Publication of CN103795612B publication Critical patent/CN103795612B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种即时通讯中的垃圾和违法信息检测方法。根据本发明的方法包括如下步骤:a)建立包含正、负样本的样本库,所述正、负样本是基于用户行为样本以及用户聊天内容样本生成的;b)基于所述样本库生成判别异常行为的决策树;c)利用决策树实时检测有异常行为的用户IP;d)对步骤c中检测得到的异常行为的用户IP进行处理。利用本发明的即时通讯中的垃圾和违法信息检测方法,能够准确并高效地遏制即时通讯中的垃圾和违法信息的传播,净化用户的上网环境,保障用户体验。

Description

即时通讯中的垃圾和违法信息检测方法
技术领域
本发明涉及即时通讯信息过滤技术,特别是一种即时通讯中的垃圾和违法信息检测方法。
背景技术
即时通讯所拥有的实时性、跨平台性、成本低、效率高等诸多优势,使之成为网民们最喜爱的网络沟通方式之一。从即时通讯工具的出现到目前为止,即时通讯经过不到十年的发展,取得了巨大的成功,它即将超越电子邮件服务而成为互联网上最普及的交流方式。
目前,很多电子商务网站(例如二手商品交易平台等网站)为了增强网站用户的活跃度、网站的互动性,都会在网站中添加即时通讯的功能。而且,为了增强网站的活跃度,有些网站将即时通讯的权限设置为:网站账户的注册门槛很低;任何用户无需登录即可向任意卖家发送消息;卖家可以向访问过他帖子的用户发送消息;即时通讯中用户不能主动选择接收即时消息。由于以上特点,使得用户不可避免的会接收到没有任何价值的即时消息,甚至是黄色、钓鱼、造假等违法信息。而随着即时通讯用户群数目的不断扩大,这种无价值的即时消息不可避免的也越来越多,这也给即时通讯的用户带来了很大的困扰。
现有的一种即时通讯中垃圾信息的检测方法是采用贝叶斯这种概率算法对非法短信内容进行识别,然而这种方法中存在较高的误判率。
因此,需要一种即时通讯中的垃圾和违法信息检测方法,来准确并高效地遏制即时通讯中的垃圾和违法信息的传播,净化用户的上网环境,保障用户体验。
发明内容
本发明的目的是提供一种即时通讯中的垃圾和违法信息检测方法。
根据本发明的一种用于即时通讯中的垃圾和违法信息检测方法,所述方法包括如下步骤:a)建立包含正、负样本的样本库,所述正、负样本是基于用户行为样本以及用户聊天内容样本生成的;b)基于所述样本库生成判别异常行为的决策树;c)利用决策树实时检测有异常行为的用户IP;d)对步骤c中检测得到的异常行为的用户IP进行处理。
优选地,所述步骤a中对用户行为样本分析包括如下子步骤:a1)抽取信息日志中的用户行为特征数据,统计行为特征来生成行为特征向量;a2)设置行为特征向量每个维度上的行为特征阈值,将超过行为特征阈值的数据划分为负样本,将低于行为特征阈值的数据划分为正样本。
优选地,所述步骤a中对用户聊天内容样本分析包括如下子步骤:a3)对用户聊天消息内容进行聚类;a4)在通过聚类得到的大簇中抽取代表样本;a5)对代表样本进行审查,将审查后的垃圾信息或违法信息归为聊天内容样本库的负样本,将审查后的正常信息归为聊天内容样本库的正样本。
优选地,所述步骤a1中以用户IP地址为单位从多个维度统计行为特征。
优选地,所述步骤a2中的设置行为特征阈值的方法包括按照初始比例分位点设置初始的行为特征阈值;以及通过计算阈值以上的行为特征对总体行为特征的方差的影响,调整行为特征阈值。
优选地,所述步骤a3中的聚类的算法采用DBSCAN算法。
优选地,所述步骤b中采用C4.5算法生成判别异常行为的决策树。
优选地,所述步骤c还包括对用户聊天内容进行检测。
优选地,在所述聊天内容中检测垃圾消息及违法消息使用的敏感词是利用CHI特征项选择方法产生。
优选地,所述步骤d的处理包括暂缓该IP的用户的即时消息的发送、增加对用户的限制规则,调低该用户在即时通讯时的敏感词阈值。
利用本发明的即时通讯中的垃圾和违法信息检测方法,能够准确并高效地遏制即时通讯中的垃圾和违法信息的传播,净化用户的上网环境,保障用户体验。
附图说明
参考随附的附图,本发明更多的目的、功能和优点将通过本发明实施方式的如下描述得以阐明,其中:
图1示意性示出了本发明的即时通讯中的垃圾和违法信息检测方法的流程图。
具体实施方式
通过参考示范性实施例,本发明的目的和功能以及用于实现这些目的和功能的方法将得以阐明。然而,本发明并不受限于以下所公开的示范性实施例;可以通过不同形式来对其加以实现。说明书的实质仅仅是帮助相关领域技术人员综合理解本发明的具体细节。
在下文中,将参考附图描述本发明的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。
本发明的一种即时通讯中的垃圾和违法信息检测方法,通过训练及更新判别模型,来对即时通讯中的垃圾和违法信息进行检测。
图1示意性示出了本发明的即时通讯中的垃圾和违法信息检测方法的流程图。如图1所示:
步骤110,建立包含正、负样本的样本库。样本库中的正、负样本的生成是基于用户行为样本以及用户之间聊天内容样本。下面对获取和分析两种样本的方法进行详细说明。
对用户行为样本进行分析
首先,抽取信息日志中的用户行为特征数据,统计行为特征来生成行为特征向量。首先以用户IP地址为单位从多个维度统计行为特征,并形成由多个行为特征组成的行为特征向量。
用户行为例如包括登录、发消息等。用户行为特征例如包括同一IP地址在一天内以多少个账号登录、发送消息量、消息回复比率、夜间发送消息量向单人发送消息的最高值,在多少个城市发送消息,在多少个频道发送消息等。例如,假设1个IP地址一天产生了100个用户行为,系统假设只统计3个维度的用户行为特征,例如以多少个账号登录、发送消息量、消息回复比率。那么一个行为特征向量是(5,200,0.05),这表示这个IP一天当中以5个账号登录,发出去了200条消息,收到回复的消息量除以发出去的消息量是0.05。
然后,设置行为特征向量每个维度上的行为特征阈值,该行为特征阈值用于区分正常用户行为和异常用户行为,并且只要行为特征向量中有一个维度的行为特征在行为特征阈值以上就将该行为特征向量标记为异常。以“日消息发送量”这个维度为例,假如这个维度上的阈值定为90,那所有日消息发送量在90以上的IP都认为是异常行为。
设置行为特征阈值的方法包括如下2个子步骤:
(1)首先按照初始比例分位点设置初始的行为特征阈值,即将特征向量统计结果的一个初始比例分位点的特征向量值设为行为特征阈值。该初始比例分位点优选为五分之四分位点。对于现有的所有行为特征向量,每个行为特征向量中含有多个行为特征,现以“日消息发送量”行为特征为例,对按照初始比例分位点设置初始的行为特征阈值进行解释。例如,现有1000个行为特征向量,即存在组成1000个行为特征向量的1000个“日消息发送量”行为特征,对1000个“日消息发送量”行为特征从小到大排序,将位于总特征的五分之四分位点的行为特征值初步设为“日消息发送量”行为特征的阈值,该行为特征阈值例如是80。即,对1000个“日消息发送量”从小到大排序,前800个都小于80,后200个大于80,即将位于五分之四分位点的行为特征值80初步为“日消息发送量”的行为特征阈值。
(2)通过计算阈值以上的行为特征对总体行为特征的方差的影响,调整行为特征阈值。其中,方差表示样本的离散程度,方差越大说明样本越分散,方差越小说明样本越集中。这里仍以上述“日消息发送量”行为特征为例,“日消息发送量”的行为特征阈值被初步设为80,计算前800个样本的方差X,并计算包括阈值以上的200个样本的1000个样本的方差Y,如果Y-X较小(即最高的五分之一对总体的方差影响较小),,例如(Y-X)/X<0.1,这说明后200个样本中包含正常样本,需要进一步调高行为特征阈值。
此时需要适当把阈值调高,例如,将其从80调到90。此时日消息发送量大于90的IP只有50个,如果X代表前950个的方差,Y代表全部(1000个)的方差,若此时Y-X的结果比较大,则表示这50个和前950个分隔得比较远,即日消息发送量大于90的样本对总体样本的方差影响比较大。说明把阈值定在90是合理的。
用于统计行为特征的数据是日志信息中的数据。在利用以上算法确定出行为特征阈值之后,将日志信息中超过行为特征阈值的数据划分为负样本,将低于行为特征阈值的数据划分为正样本,从而形成了样本库。
对用户聊天内容进行样本分析
首先,对聊天消息内容进行聚类。以用户IP为单位对其所有消息进行聚类。
优选地,当某用户IP的一天内的消息量超过所设定的阈值(例如20)时,对聊天消息内容进行聚类。
优选地,进行聚类的算法优选采用DBSCAN算法。DBSCAN算法是一种基于密度的聚类算法。该算法的目的在于过滤低密度区域,发现稠密度样本点,跟传统的基于层次聚类和划分聚类的凸形聚类簇不同,该算法可以发现任意形状的聚类簇,与传统的算法相比它有如下优点:不需要输入打算划分的聚类个数;聚类簇的形状没有bias;可以在需要时输入过滤噪声的参数。
优选地,聚类时的距离计算方法优选采用Jacard相似度。
然后,在通过聚类得到的大簇中抽取代表样本。
最后,对代表样本进行审查,将审查后的垃圾信息或违法信息放入聊天内容样本库的负样本中,将审查后的正常信息放入聊天内容样本库的正样本中。
优选地,将发送垃圾信息或违法信息的用户IP的行为特征向量放入行为样本库的负样本中;
步骤120,基于所生成的包含正负样本的样本库生成判别异常行为的决策树。优选地,本发明采用C4.5算法生成判别异常行为的决策树。其中,C4.5算法一种决策树算法,具有分类精度高、成的模式简单、以及对噪声数据有很好的健壮性的优点,是目前应用最为广泛的归纳推理算法之一。
步骤130,利用决策树实时检测有异常行为的用户IP。即,决策树利用决策树对同一IP地址下的各项行为特征进行检测。
优选地,在步骤130中,还对用户聊天内容进行检测。具体地,检测垃圾消息及违法消息。检测包括敏感词的聊天消息,若发现聊天消息包括敏感词则禁止该聊天消息的发送。
优选地,检测包括特殊敏感词的组合的聊天消息。通过对敏感词的各种组合进行实验,找出是垃圾消息或违法消息的可能性较大的组合,并对包括该组合的聊天消息进行检测,以提高判定聊天消息为垃圾消息或违法消息的置信度。
更优选地,在检测聊天内容中的垃圾消息及违法消息时使用的敏感词是利用CHI特征项选择方法产生的。即,在检测垃圾消息及违法消息时使用的敏感词是利用CHI特征项选择方法在聊天内容样本库中选取的。并且,优选地,在选取敏感词时,采用关联规则挖掘的方法,找出那些与已知敏感词同时出现的词,将其作为敏感词并加入敏感词库。
步骤140,对异常行为的IP进行处理。若通过步骤130检测出某IP的行为是异常行为(行为特征向量为异常,或聊天内容含有敏感词),则对该IP的用户进行限制,并对以后一段时期他以送的消息实施更严格的监控。其中,限制优选包括:暂缓该IP的用户的即时消息的发送。更严格的监控包括增加对用户的限制规则,调低该用户在即时通讯时的敏感词阈值。例如,若正常情况下将日消息发送量大于90的行为判定为异常,在对于某些用户进行“更严格的监控”时,则将日消息发送量大于80的行为判定为异常。又例如,在正常情况下允许即时通讯文本中包含“58”的词汇,在对于某些用户进行“更严格的监控”时,则将包含“58”的消息判定为异常,不允许该消息发送。
利用本发明的即时通讯中的垃圾和违法信息检测方法,能够准确并高效地遏制即时通讯中的垃圾和违法信息的传播,净化用户的上网环境,保障用户体验。
结合这里披露的本发明的说明和实践,本发明的其他实施例对于本领域技术人员都是易于想到和理解的。说明和实施例仅被认为是示例性的,本发明的真正范围和主旨均由权利要求所限定。

Claims (10)

1.一种用于即时通讯中的垃圾和违法信息检测方法,所述方法包括如下步骤:
a)建立包含正、负样本的样本库,所述正、负样本是基于用户行为样本以及用户聊天内容样本生成的;
b)基于所述样本库生成判别异常行为的决策树;
c)利用决策树实时检测有异常行为的用户IP;
d)对步骤c中检测得到的异常行为的用户IP进行处理。
2.如权利要求1所述的方法,其中所述步骤a中对用户行为样本分析包括如下子步骤:
a1)抽取信息日志中的用户行为特征数据,统计行为特征来生成行为特征向量;
a2)设置行为特征向量每个维度上的行为特征阈值,将超过行为特征阈值的数据划分为负样本,将低于行为特征阈值的数据划分为正样本。
3.如权利要求1所述的方法,其中所述步骤a中对用户聊天内容样本分析包括如下子步骤:
a3)对用户聊天消息内容进行聚类;
a4)在通过聚类得到的大簇中抽取代表样本;
a5)对代表样本进行审查,将审查后的垃圾信息或违法信息归为聊天内容样本库的负样本,将审查后的正常信息归为聊天内容样本库的正样本。
4.如权利要求2所述的方法,其中所述步骤a1中以用户IP地址为单位从多个维度统计行为特征。
5.如权利要求2所述的方法,其中所述步骤a2中的设置行为特征阈值的方法包括按照初始比例分位点设置初始的行为特征阈值;以及通过计算阈值以上的行为特征对总体行为特征的方差的影响,调整行为特征阈值。
6.如权利要求3所述的方法,其中所述步骤a3中的聚类的算法采用DBSCAN算法。
7.如权利要求1所述的方法,其中所述步骤b中采用C4.5算法生成判别异常行为的决策树。
8.如权利要求1所述的方法,其中所述步骤c还包括对用户聊天内容进行检测。
9.如权利要求8所述的方法,其中在所述聊天内容中检测垃圾消息及违法消息使用的敏感词是利用CHI特征项选择方法产生。
10.如权利要求1所述的方法,其中所述步骤d的处理包括暂缓该IP的用户的即时消息的发送、增加对用户的限制规则,调低该用户在即时通讯时的敏感词阈值。
CN201410020880.9A 2014-01-15 2014-01-15 即时通讯中的垃圾和违法信息检测方法 Active CN103795612B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410020880.9A CN103795612B (zh) 2014-01-15 2014-01-15 即时通讯中的垃圾和违法信息检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410020880.9A CN103795612B (zh) 2014-01-15 2014-01-15 即时通讯中的垃圾和违法信息检测方法

Publications (2)

Publication Number Publication Date
CN103795612A true CN103795612A (zh) 2014-05-14
CN103795612B CN103795612B (zh) 2017-09-12

Family

ID=50670931

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410020880.9A Active CN103795612B (zh) 2014-01-15 2014-01-15 即时通讯中的垃圾和违法信息检测方法

Country Status (1)

Country Link
CN (1) CN103795612B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615653A (zh) * 2014-12-30 2015-05-13 小米科技有限责任公司 消息分类方法和装置
CN104731937A (zh) * 2015-03-30 2015-06-24 百度在线网络技术(北京)有限公司 用户行为数据的处理方法及装置
CN105101092A (zh) * 2015-09-01 2015-11-25 上海美慧软件有限公司 一种基于c4.5决策树的手机用户出行方式识别方法
CN105323144A (zh) * 2014-07-16 2016-02-10 腾讯科技(深圳)有限公司 即时通讯中消息异常提示方法和系统
WO2016173449A1 (zh) * 2015-04-28 2016-11-03 阿里巴巴集团控股有限公司 群组消息处理方法及装置
CN106844430A (zh) * 2016-12-12 2017-06-13 天格科技(杭州)有限公司 一种改进的实时社交平台广告及敏感信息快速识别的方法
CN107046550A (zh) * 2017-06-14 2017-08-15 微梦创科网络科技(中国)有限公司 一种异常登录行为的检测方法及装置
CN107465652A (zh) * 2016-06-06 2017-12-12 腾讯科技(深圳)有限公司 一种操作行为检测方法、服务器及系统
WO2017215370A1 (zh) * 2016-06-14 2017-12-21 平安科技(深圳)有限公司 构建决策模型的方法、装置、计算机设备及存储设备
CN107846343A (zh) * 2016-09-18 2018-03-27 郭荆玮 一种灵活的聊天室实时净化方法及聊天系统
CN107871088A (zh) * 2017-11-14 2018-04-03 百度在线网络技术(北京)有限公司 一种信息处理方法、装置、终端和计算机可读存储介质
CN108718271A (zh) * 2018-04-20 2018-10-30 Oppo广东移动通信有限公司 好友请求的处理方法、装置、存储介质及终端
CN108737258A (zh) * 2018-07-02 2018-11-02 清远网博信息技术有限公司 旅行社交在线互动系统及方法
CN108768943A (zh) * 2018-04-26 2018-11-06 腾讯科技(深圳)有限公司 一种检测异常账号的方法、装置及服务器
CN109040103A (zh) * 2018-08-27 2018-12-18 深信服科技股份有限公司 一种邮件账号失陷检测方法、装置、设备及可读存储介质
CN109145109A (zh) * 2017-06-19 2019-01-04 国家计算机网络与信息安全管理中心 基于社交网络的用户群体消息传播异常分析方法及装置
CN109617781A (zh) * 2018-10-19 2019-04-12 中国平安人寿保险股份有限公司 即时通讯消息监控方法、装置、计算机设备和存储介质
WO2019153586A1 (zh) * 2018-02-07 2019-08-15 平安科技(深圳)有限公司 聊天数据处理方法、装置、计算机设备及存储介质
CN110309297A (zh) * 2018-03-16 2019-10-08 腾讯科技(深圳)有限公司 垃圾文本检测方法、可读存储介质和计算机设备
CN111861379A (zh) * 2020-06-23 2020-10-30 五八有限公司 一种聊天数据的检测方法和装置
CN112508630A (zh) * 2021-01-29 2021-03-16 腾讯科技(深圳)有限公司 异常会话群的检测方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101005462A (zh) * 2006-01-16 2007-07-25 腾讯科技(深圳)有限公司 一种反垃圾邮件的处理装置和方法
CN101068154A (zh) * 2006-07-27 2007-11-07 腾讯科技(深圳)有限公司 一种垃圾信息过滤方法及装置
CN101136874A (zh) * 2007-07-25 2008-03-05 华南理工大学 基于综合决策的防垃圾邮件误过滤方法及系统
CN101212419A (zh) * 2006-12-25 2008-07-02 阿里巴巴公司 一种在即时通信系统中处理垃圾消息的方法
CN101477544A (zh) * 2009-01-12 2009-07-08 腾讯科技(深圳)有限公司 一种识别垃圾文本的方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101005462A (zh) * 2006-01-16 2007-07-25 腾讯科技(深圳)有限公司 一种反垃圾邮件的处理装置和方法
CN101068154A (zh) * 2006-07-27 2007-11-07 腾讯科技(深圳)有限公司 一种垃圾信息过滤方法及装置
CN101212419A (zh) * 2006-12-25 2008-07-02 阿里巴巴公司 一种在即时通信系统中处理垃圾消息的方法
CN101136874A (zh) * 2007-07-25 2008-03-05 华南理工大学 基于综合决策的防垃圾邮件误过滤方法及系统
CN101477544A (zh) * 2009-01-12 2009-07-08 腾讯科技(深圳)有限公司 一种识别垃圾文本的方法和系统

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105323144A (zh) * 2014-07-16 2016-02-10 腾讯科技(深圳)有限公司 即时通讯中消息异常提示方法和系统
CN105323144B (zh) * 2014-07-16 2020-05-29 腾讯科技(深圳)有限公司 即时通讯中消息异常提示方法和系统
CN104615653B (zh) * 2014-12-30 2017-12-12 小米科技有限责任公司 消息分类方法和装置
CN104615653A (zh) * 2014-12-30 2015-05-13 小米科技有限责任公司 消息分类方法和装置
CN104731937A (zh) * 2015-03-30 2015-06-24 百度在线网络技术(北京)有限公司 用户行为数据的处理方法及装置
CN104731937B (zh) * 2015-03-30 2018-05-01 百度在线网络技术(北京)有限公司 用户行为数据的处理方法及装置
WO2016173449A1 (zh) * 2015-04-28 2016-11-03 阿里巴巴集团控股有限公司 群组消息处理方法及装置
CN105101092A (zh) * 2015-09-01 2015-11-25 上海美慧软件有限公司 一种基于c4.5决策树的手机用户出行方式识别方法
CN107465652B (zh) * 2016-06-06 2020-09-11 腾讯科技(深圳)有限公司 一种操作行为检测方法、服务器及系统
CN107465652A (zh) * 2016-06-06 2017-12-12 腾讯科技(深圳)有限公司 一种操作行为检测方法、服务器及系统
WO2017215370A1 (zh) * 2016-06-14 2017-12-21 平安科技(深圳)有限公司 构建决策模型的方法、装置、计算机设备及存储设备
CN107846343A (zh) * 2016-09-18 2018-03-27 郭荆玮 一种灵活的聊天室实时净化方法及聊天系统
CN106844430A (zh) * 2016-12-12 2017-06-13 天格科技(杭州)有限公司 一种改进的实时社交平台广告及敏感信息快速识别的方法
CN107046550B (zh) * 2017-06-14 2020-07-07 微梦创科网络科技(中国)有限公司 一种异常登录行为的检测方法及装置
CN107046550A (zh) * 2017-06-14 2017-08-15 微梦创科网络科技(中国)有限公司 一种异常登录行为的检测方法及装置
CN109145109A (zh) * 2017-06-19 2019-01-04 国家计算机网络与信息安全管理中心 基于社交网络的用户群体消息传播异常分析方法及装置
CN109145109B (zh) * 2017-06-19 2022-06-03 国家计算机网络与信息安全管理中心 基于社交网络的用户群体消息传播异常分析方法及装置
CN107871088B (zh) * 2017-11-14 2020-07-03 百度在线网络技术(北京)有限公司 一种信息处理方法、装置、终端和计算机可读存储介质
CN107871088A (zh) * 2017-11-14 2018-04-03 百度在线网络技术(北京)有限公司 一种信息处理方法、装置、终端和计算机可读存储介质
WO2019153586A1 (zh) * 2018-02-07 2019-08-15 平安科技(深圳)有限公司 聊天数据处理方法、装置、计算机设备及存储介质
CN110309297A (zh) * 2018-03-16 2019-10-08 腾讯科技(深圳)有限公司 垃圾文本检测方法、可读存储介质和计算机设备
CN110309297B (zh) * 2018-03-16 2024-01-02 腾讯科技(深圳)有限公司 垃圾文本检测方法、可读存储介质和计算机设备
CN108718271A (zh) * 2018-04-20 2018-10-30 Oppo广东移动通信有限公司 好友请求的处理方法、装置、存储介质及终端
CN108768943B (zh) * 2018-04-26 2020-06-26 腾讯科技(深圳)有限公司 一种检测异常账号的方法、装置及服务器
CN108768943A (zh) * 2018-04-26 2018-11-06 腾讯科技(深圳)有限公司 一种检测异常账号的方法、装置及服务器
CN108737258A (zh) * 2018-07-02 2018-11-02 清远网博信息技术有限公司 旅行社交在线互动系统及方法
CN109040103B (zh) * 2018-08-27 2021-09-17 深信服科技股份有限公司 一种邮件账号失陷检测方法、装置、设备及可读存储介质
CN109040103A (zh) * 2018-08-27 2018-12-18 深信服科技股份有限公司 一种邮件账号失陷检测方法、装置、设备及可读存储介质
CN109617781A (zh) * 2018-10-19 2019-04-12 中国平安人寿保险股份有限公司 即时通讯消息监控方法、装置、计算机设备和存储介质
CN109617781B (zh) * 2018-10-19 2022-08-02 中国平安人寿保险股份有限公司 即时通讯消息监控方法、装置、计算机设备和存储介质
CN111861379A (zh) * 2020-06-23 2020-10-30 五八有限公司 一种聊天数据的检测方法和装置
CN112508630A (zh) * 2021-01-29 2021-03-16 腾讯科技(深圳)有限公司 异常会话群的检测方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN103795612B (zh) 2017-09-12

Similar Documents

Publication Publication Date Title
CN103795612A (zh) 即时通讯中的垃圾和违法信息检测方法
CN103793484B (zh) 分类信息网站中的基于机器学习的欺诈行为识别系统
CN107992596A (zh) 一种文本聚类方法、装置、服务器和存储介质
CN108809745A (zh) 一种用户异常行为检测方法、装置及系统
CN104239539A (zh) 一种基于多种信息融合的微博信息过滤方法
CN101295381B (zh) 一种垃圾邮件检测方法
CN111371767B (zh) 恶意账号识别方法、恶意账号识别装置、介质及电子设备
CN105488092A (zh) 一种时间敏感和自适应的子话题在线检测方法及系统
CN103150374A (zh) 一种识别微博异常用户的方法和系统
CN108491720B (zh) 一种应用识别方法、系统以及相关设备
US20160080476A1 (en) Meme discovery system
Sonowal Phishing email detection based on binary search feature selection
Alzahrani et al. Comparative study of machine learning algorithms for SMS spam detection
CN104067567A (zh) 用于使用字符直方图进行垃圾邮件检测的系统和方法
CN104317784A (zh) 一种跨平台用户识别方法和系统
CN104040963A (zh) 用于使用字符串的频谱进行垃圾邮件检测的系统和方法
Ramalingaiah et al. Twitter bot detection using supervised machine learning
CN105224604A (zh) 一种基于堆优化的微博突发事件检测方法及其检测装置
Kim et al. SMS spam filterinig using keyword frequency ratio
Liu et al. SDHM: A hybrid model for spammer detection in Weibo
CN102945246A (zh) 网络信息数据的处理方法及装置
CN111191096B (zh) 全网爱国舆情事件识别及流行度跟踪方法
CN109783805A (zh) 一种网络社区用户识别方法及装置
CN108197112A (zh) 一种从新闻中提取事件的方法
CN105117466A (zh) 一种互联网信息筛选系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant