CN106844430A - 一种改进的实时社交平台广告及敏感信息快速识别的方法 - Google Patents
一种改进的实时社交平台广告及敏感信息快速识别的方法 Download PDFInfo
- Publication number
- CN106844430A CN106844430A CN201611140430.9A CN201611140430A CN106844430A CN 106844430 A CN106844430 A CN 106844430A CN 201611140430 A CN201611140430 A CN 201611140430A CN 106844430 A CN106844430 A CN 106844430A
- Authority
- CN
- China
- Prior art keywords
- chat
- advertisement
- user
- content
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000004458 analytical method Methods 0.000 claims description 10
- 230000003252 repetitive effect Effects 0.000 claims description 4
- 241001269238 Data Species 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 4
- 206010070834 Sensitisation Diseases 0.000 abstract description 2
- 238000012790 confirmation Methods 0.000 abstract description 2
- 230000008313 sensitization Effects 0.000 abstract description 2
- 230000006399 behavior Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 235000017166 Bambusa arundinacea Nutrition 0.000 description 1
- 235000017491 Bambusa tulda Nutrition 0.000 description 1
- 241001330002 Bambuseae Species 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 235000014676 Phragmites communis Nutrition 0.000 description 1
- 235000015334 Phyllostachys viridis Nutrition 0.000 description 1
- 239000011425 bamboo Substances 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0277—Online advertisement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Accounting & Taxation (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Tourism & Hospitality (AREA)
- Primary Health Care (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种改进的实时社交平台广告及敏感信息快速识别的方法。计算实时聊天数据是广告或敏感信息的概率p的大小,p的范围为0‑1之间,数值越大表示越接近广告。p初始化为0,0表示非广告,1表示确认是广告。对于广告概率是1的,则直接进行过滤。本发明通过大数据分析计算广告和敏感信息的概率值,返回给社交平台,极大的提高了预警的效率及准确性,本发明实时返回的接口供社交平台调用,社交平时可根据概率值自定义后续处理流程。本发明效果良好,预警速度迅速,能有效拦截广告及相关敏感信息。
Description
技术领域
本发明提出一种改进的实时社交平台广告及敏感信息快速识别的方法。
背景技术
随着互联网及移动互联网技术的不断发展,社交平台的发展越来越迅速。而社交平台上不良信息越来越呈现泛滥趋势。不良信息主要包括:广告、政治敏感信息,而广告信息又基本上可以分为QQ类广告、手机号码类广告、微信类广告、网址类广告。
本发明方法通过大数据分析,计算广告及敏感信息的概率值,实现快速识别并过滤封杀相关信息,起到有效净化当前网络环境的目的。
发明内容
本发明针对现在技术的不足,通过大数据分析计算广告及敏感信息疑似概率的方法,提供了一种改进的实时社交平台广告及敏感信息快速识别的方法。
本发明用来计算实时聊天数据是广告或敏感信息的概率p的大小,p的范围为0-1之间,数值越大表示越接近广告。p初始化为0,0表示非广告,1表示确认是广告。对于广告概率是1的,则直接进行过滤。
本发明方法提出的技术方案为:
改进的实时社交平台广告及敏感信息快速识别的方法,包括如下步骤:
1)读取经过确认的历史正常聊天语句库;读取经过确认的历史广告库,包括历史广告内容、用户ID、IP数据库;读取关键词库;
2)社交平台通过socket和http两种模式实时上报聊天数据,获取新来的聊天数据,所述的聊天数据包括用户ID、聊天对象、聊天内容、聊天类型、用户IP、平台名称、用户设备码、时间、昵称,对每一条聊天数据,根据用户ID和平台名称,生成用户唯一索引号,在用户的HASH表中查找用户唯一索引号是否已存在,如果不存在,则在用户的HASH表中加入一个新的项,再将新的用户聊天数据保存到用户聊天信息类中;如果已经存在,则直接将新的用户聊天数据保存到用户聊天信息类中。
3)判断聊天内容是否是已知的广告,如果聊天内容在经过确认的广告历史数据库中,直接进入步骤8)并返回概率P=1;否则进入步骤4);
4)判断聊天内容是否在经过确认的历史正常聊天语句库,如果是直接进入步骤8)并返回概率P=0;否则进入步骤5);
5)对聊天数据进行内容分析判断,依次对以下6项内容进行判断,
5.1)判断聊天内容字符串的长度,如果小于5,则广告概率P为0,并进入步骤8);否则执行5.2);
5.2)如果聊天内容纯表情符号,则P=0,并进入步骤8);否则执行5.3);
5.3)计算聊天内容的非法字符数量,如果非法字符数量小于3,则p=0,并进入步骤8);否则执行5.4);
5.4)如果用户的ID在广告ID库中,则P=1,并进入步骤8);否则执行5.5);
5.5)对关键词进行遍历,如果用户聊天内容中包含了关键词库中的关键词,则P=1,并进入步骤8);否则执行5.6);
5.6)如果用户的IP在广告IP库中,则P=1,并进入步骤8);否则执行步骤6);
6)对聊天行为依次进行以下4项内容的分析判断:
6.1)计算该用户最近两小时的聊天总句数,如果大于设定的阈值,则认为是疑似广告号,设定P=P+0.2;
6.2)计算此用户聊天内容重复率,即最近两小时聊天内容总句数与去重后的聊天内容数之间的比率,如果值大于10,P=P+0.2;
6.3)计算此用户聊天内容字数差,最近两小时聊天内容总句数与聊天内容字数不同的句数之间的比率,如果值大于6,则P=P+0.5;
6.4)计算是否存在秒发行为,即此用户上一句话与当前句话之间的时间差,如果在同一秒内,那么就存在秒发行为,则P=P+0.5;
7)计算用户累计的P,如果P>1,则P=1;
8)返回最终的P,若P=1,则判断为广告或敏感信息,进行过滤;P=0时判断为非广告和非敏感信息。对于P小于1大于0时;社交平时可根据概率值自定义后续处理流程。
优选的,所述步骤5.3)中计算聊天内容的非法字符数量的方法为:设定敏感字符集;将聊天内容分解成字符数组,对每个字符进行判断,如果在敏感字符集中的,则每出现一个,长度+1;如果字符是英文字符,或其它非简体中文字符,则长度加1;若为其它符号,则长度保持不变。
本发明方法的主要思想:基于历史聊天数据进行分类确认,生成广告内容库和非广告正常聊天内容库以及关键词内容库。如果在广告内容库中,则广告概率为1,如果在正常聊天内容库中的内容,则广告概率为0。而不在内容库中的聊天内容,则通过聊天内容分析以及行为分析的算法计算广告概率值。
附图说明
图1表示本发明的流程图。
具体实施方式
下面将结合附图对本发明加以详细说明,应指出的是,所描述的实施例仅便于对本发明的理解,而对其不起任何限定作用。
如图1所示,一种改进的实时社交平台广告及敏感信息快速识别的方法,包括如下步骤:
1)读取经过确认的历史正常聊天语句库;读取经过确认的历史广告库,包括历史广告内容、用户ID、IP数据库;读取关键词库;
2)社交平台通过socket和http两种模式实时上报聊天数据,获取新来的聊天数据,所述的聊天数据包括用户ID、聊天对象、聊天内容、聊天类型、用户IP、平台名称、用户设备码、时间、昵称,对每一条聊天数据,根据用户ID和平台名称,生成用户唯一索引号,在用户的HASH表中查找用户唯一索引号是否已存在,如果不存在,则在用户的HASH表中加入一个新的项,再将新的用户聊天数据保存到用户聊天信息类中;如果已经存在,则直接将新的用户聊天数据保存到用户聊天信息类中。
3)判断聊天内容是否是已知的广告,如果聊天内容在经过确认的广告历史数据库中,直接进入步骤8)并返回概率P=1;否则进入步骤4);
4)判断聊天内容是否在经过确认的历史正常聊天语句库,如果是直接进入步骤8)并返回概率P=0;否则进入步骤5);
5)对聊天数据进行内容分析判断,依次对以下6项内容进行判断,
5.1)判断聊天内容字符串的长度,如果小于5,则广告概率P为0,并进入步骤8);否则执行5.2);
5.2)如果聊天内容纯表情符号,则P=0,并进入步骤8);否则执行5.3);
5.3)计算聊天内容的非法字符数量,如果非法字符数量小于3,则p=0,并进入步骤8);否则执行5.4);非法字符的具体计算方法如下:设定敏感字符集,如:"一壹二贰三叁四肆五伍六陆七柒八捌九玖十拾百佰千仟度搜微骚加视频美妹釦筘扣Qq艳号裸螺聊萝箩:女ρ:嫂咣逼摸乳黄抠寂叩q Qˇˉp←脫妞演男性晶喵鈕"对聊天内容进行分解成字符数组,对每个字符进行判断,,如果在敏感字符集中的,则每出现一个,长度+1。如果字符是英文字符,或其它非简体中文字符,长度加1。其它符号长度保持不变。
5.4)如果用户的ID在广告ID库中,则P=1,并进入步骤8);否则执行5.5);
5.5)对关键词进行遍历,如果用户聊天内容中包含了关键词库中的关键词,则P=1,并进入步骤8);否则执行5.6);
5.6)如果用户的IP在广告IP库中,则P=1,并进入步骤8);否则执行步骤6);
6)对聊天行为依次进行以下4项内容的分析判断:
6.1)计算该用户最近两小时的聊天总句数,如果大于设定的阈值,则认为是疑似广告号,设定P=P+0.2;
6.2)计算此用户聊天内容重复率,即最近两小时聊天内容总句数与去重后的聊天内容数之间的比率,如果值大于10,P=P+0.2;聊天内容总句数与去重后的聊天内容数计算举例如下:
你好
你好
在哪
聊天内容总句数为3,去重后的聊天内容数为2,聊天内容重复率为3/2=1.5。6.3)计算此用户聊天内容字数差,最近两小时聊天内容总句数与聊天内容字数不同的句数之间的比率,如果值大于6,则P=P+0.5;计算举例如下:
你好
你好
在哪
聊天内容总句数为3,由于3句话聊天字数都为2,因此聊天内容字数不同的句数为1,聊天内容字数差比率为3/1=3。
6.4)计算是否存在秒发行为,即此用户上一句话与当前句话之间的时间差,如果在同一秒内,那么就存在秒发行为,则P=P+0.5;
7)计算用户累计的P,如果P>1,则P=1;
8)返回最终的P,若P=1,则判断为广告或敏感信息;P=0时判断为非广告和非敏感信息。
本方法通过以上步骤的分析,通过大数据分析计算广告和敏感信息的概率值,返回给社交平台,极大的提高了预警的效率及准确性,在以下几个方面解决了原来无法解决的困难:
A根据大数据来分析历史数据,对用户正常聊天内容和广告及敏感信息进行分类。
B对内容和用户行为分别进行广告及敏感信息疑似概率计算。
C提供了一个实时返回的接口供社交平台调用,社交平时可根据概率值自定义后续处理流程。
以上方法,在实际社交平台环境下使用后,效果十分良好,预警速度十分迅速,能有效拦截广告及相关敏感信息。
Claims (2)
1.一种改进的实时社交平台广告及敏感信息快速识别的方法,其特征在于包括如下步骤:
1)读取经过确认的历史正常聊天语句库;读取经过确认的历史广告库,包括历史广告内容、用户ID、IP数据库;读取关键词库;
2)社交平台通过socket和http两种模式实时上报聊天数据,获取新来的聊天数据,所述的聊天数据包括用户ID、聊天对象、聊天内容、聊天类型、用户IP、平台名称、用户设备码、时间、昵称,对每一条聊天数据,根据用户ID和平台名称,生成用户唯一索引号,在用户的HASH表中查找用户唯一索引号是否已存在,如果不存在,则在用户的HASH表中加入一个新的项,再将新的用户聊天数据保存到用户聊天信息类中;如果已经存在,则直接将新的用户聊天数据保存到用户聊天信息类中。
3)判断聊天内容是否是已知的广告,如果聊天内容在经过确认的广告历史数据库中,直接进入步骤8)并返回概率P=1;否则进入步骤4);
4)判断聊天内容是否在经过确认的历史正常聊天语句库,如果是直接进入步骤8)并返回概率P=0;否则进入步骤5);
5)对聊天数据进行内容分析判断,依次对以下6项内容进行判断,
5.1)判断聊天内容字符串的长度,如果小于5,则广告概率P为0,并进入步骤8);否则执行5.2);
5.2)如果聊天内容纯表情符号,则P=0,并进入步骤8);否则执行5.3);
5.3)计算聊天内容的非法字符数量,如果非法字符数量小于3,则p=0,并进入步骤8);否则执行5.4);
5.4)如果用户的ID在广告ID库中,则P=1,并进入步骤8);否则执行5.5);
5.5)对关键词进行遍历,如果用户聊天内容中包含了关键词库中的关键词,则P=1,并进入步骤8);否则执行5.6);
5.6)如果用户的IP在广告IP库中,则P=1,并进入步骤8);否则执行步骤6);
6)对聊天行为依次进行以下4项内容的分析判断:
6.1)计算该用户最近两小时的聊天总句数,如果大于设定的阈值,则认为是疑似广告号,设定P=P+0.2;
6.2)计算此用户聊天内容重复率,即最近两小时聊天内容总句数与去重后的聊天内容数之间的比率,如果值大于10,P=P+0.2;
6.3)计算此用户聊天内容字数差,最近两小时聊天内容总句数与聊天内容字数不同的句数之间的比率,如果值大于6,则P=P+0.5;
6.4)计算是否存在秒发行为,即此用户上一句话与当前句话之间的时间差,如果在同一秒内,那么就存在秒发行为,则P=P+0.5;
7)计算用户累计的P,如果P>1,则P=1;
8)返回最终的P,若P=1,则判断为广告或敏感信息。
2.根据权利要求1所述的一种改进的实时社交平台广告及敏感信息快速识别的方法,其特征在于所述步骤5.3)中计算聊天内容的非法字符数量的方法为:设定敏感字符集;将聊天内容分解成字符数组,对每个字符进行判断,如果在敏感字符集中的,则每出现一个,长度+1;如果字符是英文字符,或其它非简体中文字符,则长度加1;若为其它符号,则长度保持不变。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611140430.9A CN106844430A (zh) | 2016-12-12 | 2016-12-12 | 一种改进的实时社交平台广告及敏感信息快速识别的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611140430.9A CN106844430A (zh) | 2016-12-12 | 2016-12-12 | 一种改进的实时社交平台广告及敏感信息快速识别的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106844430A true CN106844430A (zh) | 2017-06-13 |
Family
ID=59140009
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611140430.9A Pending CN106844430A (zh) | 2016-12-12 | 2016-12-12 | 一种改进的实时社交平台广告及敏感信息快速识别的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106844430A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729489A (zh) * | 2017-10-17 | 2018-02-23 | 北京京东尚科信息技术有限公司 | 广告文本识别方法和装置 |
CN110971501A (zh) * | 2018-09-30 | 2020-04-07 | 北京京东尚科信息技术有限公司 | 广告消息的确定方法、系统、设备和存储介质 |
CN111092803A (zh) * | 2018-10-23 | 2020-05-01 | 阿里巴巴集团控股有限公司 | 一种消息处理方法、设备、系统及存储介质 |
CN111090787A (zh) * | 2018-10-23 | 2020-05-01 | 阿里巴巴集团控股有限公司 | 一种消息处理方法、设备、系统及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101075980A (zh) * | 2006-07-26 | 2007-11-21 | 腾讯科技(深圳)有限公司 | 对通讯系统中的通讯信息进行过滤的方法和过滤系统 |
CN101114286A (zh) * | 2006-07-26 | 2008-01-30 | 腾讯科技(深圳)有限公司 | 一种过滤聊天室广告的方法及系统 |
CN103795612A (zh) * | 2014-01-15 | 2014-05-14 | 五八同城信息技术有限公司 | 即时通讯中的垃圾和违法信息检测方法 |
CN104156447A (zh) * | 2014-08-14 | 2014-11-19 | 天格科技(杭州)有限公司 | 一种智能社交平台广告预警及处理方法 |
-
2016
- 2016-12-12 CN CN201611140430.9A patent/CN106844430A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101075980A (zh) * | 2006-07-26 | 2007-11-21 | 腾讯科技(深圳)有限公司 | 对通讯系统中的通讯信息进行过滤的方法和过滤系统 |
CN101114286A (zh) * | 2006-07-26 | 2008-01-30 | 腾讯科技(深圳)有限公司 | 一种过滤聊天室广告的方法及系统 |
CN103795612A (zh) * | 2014-01-15 | 2014-05-14 | 五八同城信息技术有限公司 | 即时通讯中的垃圾和违法信息检测方法 |
CN104156447A (zh) * | 2014-08-14 | 2014-11-19 | 天格科技(杭州)有限公司 | 一种智能社交平台广告预警及处理方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729489A (zh) * | 2017-10-17 | 2018-02-23 | 北京京东尚科信息技术有限公司 | 广告文本识别方法和装置 |
CN110971501A (zh) * | 2018-09-30 | 2020-04-07 | 北京京东尚科信息技术有限公司 | 广告消息的确定方法、系统、设备和存储介质 |
CN110971501B (zh) * | 2018-09-30 | 2022-11-08 | 北京京东尚科信息技术有限公司 | 广告消息的确定方法、系统、设备和存储介质 |
CN111092803A (zh) * | 2018-10-23 | 2020-05-01 | 阿里巴巴集团控股有限公司 | 一种消息处理方法、设备、系统及存储介质 |
CN111090787A (zh) * | 2018-10-23 | 2020-05-01 | 阿里巴巴集团控股有限公司 | 一种消息处理方法、设备、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Aker et al. | Simple open stance classification for rumour analysis | |
US9183287B2 (en) | Social media analysis system | |
JP6007088B2 (ja) | 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法 | |
JP5711674B2 (ja) | 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法 | |
TWI465950B (zh) | 發掘可疑帳號之分身群組的方法與系統 | |
CN102722709B (zh) | 一种垃圾图片识别方法和装置 | |
CN106844430A (zh) | 一种改进的实时社交平台广告及敏感信息快速识别的方法 | |
CN108733791B (zh) | 网络事件检测方法 | |
CN107239512B (zh) | 一种结合评论关系网络图的微博垃圾评论识别方法 | |
CN107861949B (zh) | 文本关键词的提取方法、装置及电子设备 | |
CN104951435A (zh) | 聊天过程中智能显示关键词的方法及装置 | |
Oramas et al. | ELMD: An automatically generated entity linking gold standard dataset in the music domain | |
CN109446393B (zh) | 一种网络社区话题分类方法及装置 | |
CN111368063A (zh) | 一种基于机器学习的信息推送方法以及相关装置 | |
CN108509545B (zh) | 一种文章的评论处理方法及系统 | |
CN108446333B (zh) | 一种大数据文本挖掘处理系统及其方法 | |
CN109933648B (zh) | 一种真实用户评论的区分方法和区分装置 | |
Zubiaga et al. | Early detection of social media hoaxes at scale | |
Samory et al. | Quotes reveal community structure and interaction dynamics | |
JP2009157450A (ja) | メール分類システム、メール検索システム、メール宛先分類システム | |
CN104076945B (zh) | 用于在终端中显示输入键盘的装置和方法 | |
JP6152711B2 (ja) | 情報検索装置および情報検索方法 | |
Phuvipadawat et al. | Detecting a multi-level content similarity from microblogs based on community structures and named entities | |
CN114491232B (zh) | 信息查询方法、装置、电子设备和存储介质 | |
Prilepok et al. | Spam detection using data compression and signatures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170613 |