CN106844430A

CN106844430A - 一种改进的实时社交平台广告及敏感信息快速识别的方法

Info

Publication number: CN106844430A
Application number: CN201611140430.9A
Authority: CN
Inventors: 黄金海; 周建政
Original assignee: Tiange Technology (hangzhou) Co Ltd
Current assignee: Tiange Technology (hangzhou) Co Ltd
Priority date: 2016-12-12
Filing date: 2016-12-12
Publication date: 2017-06-13

Abstract

本发明公开了一种改进的实时社交平台广告及敏感信息快速识别的方法。计算实时聊天数据是广告或敏感信息的概率p的大小,p的范围为0‑1之间，数值越大表示越接近广告。p初始化为0，0表示非广告，1表示确认是广告。对于广告概率是1的，则直接进行过滤。本发明通过大数据分析计算广告和敏感信息的概率值，返回给社交平台，极大的提高了预警的效率及准确性，本发明实时返回的接口供社交平台调用，社交平时可根据概率值自定义后续处理流程。本发明效果良好，预警速度迅速，能有效拦截广告及相关敏感信息。

Description

一种改进的实时社交平台广告及敏感信息快速识别的方法

技术领域

本发明提出一种改进的实时社交平台广告及敏感信息快速识别的方法。

背景技术

随着互联网及移动互联网技术的不断发展，社交平台的发展越来越迅速。而社交平台上不良信息越来越呈现泛滥趋势。不良信息主要包括：广告、政治敏感信息，而广告信息又基本上可以分为QQ类广告、手机号码类广告、微信类广告、网址类广告。

本发明方法通过大数据分析，计算广告及敏感信息的概率值，实现快速识别并过滤封杀相关信息，起到有效净化当前网络环境的目的。

发明内容

本发明针对现在技术的不足，通过大数据分析计算广告及敏感信息疑似概率的方法，提供了一种改进的实时社交平台广告及敏感信息快速识别的方法。

本发明用来计算实时聊天数据是广告或敏感信息的概率p的大小,p的范围为0-1之间，数值越大表示越接近广告。p初始化为0，0表示非广告，1表示确认是广告。对于广告概率是1的，则直接进行过滤。

本发明方法提出的技术方案为：

改进的实时社交平台广告及敏感信息快速识别的方法,包括如下步骤：

1)读取经过确认的历史正常聊天语句库；读取经过确认的历史广告库，包括历史广告内容、用户ID、IP数据库；读取关键词库；

2)社交平台通过socket和http两种模式实时上报聊天数据，获取新来的聊天数据，所述的聊天数据包括用户ID、聊天对象、聊天内容、聊天类型、用户IP、平台名称、用户设备码、时间、昵称,对每一条聊天数据，根据用户ID和平台名称，生成用户唯一索引号，在用户的HASH表中查找用户唯一索引号是否已存在，如果不存在，则在用户的HASH表中加入一个新的项，再将新的用户聊天数据保存到用户聊天信息类中；如果已经存在，则直接将新的用户聊天数据保存到用户聊天信息类中。

3)判断聊天内容是否是已知的广告，如果聊天内容在经过确认的广告历史数据库中，直接进入步骤8)并返回概率P＝1；否则进入步骤4)；

4)判断聊天内容是否在经过确认的历史正常聊天语句库，如果是直接进入步骤8)并返回概率P＝0；否则进入步骤5)；

5)对聊天数据进行内容分析判断，依次对以下6项内容进行判断，

5.1)判断聊天内容字符串的长度，如果小于5，则广告概率P为0，并进入步骤8)；否则执行5.2)；

5.2)如果聊天内容纯表情符号，则P＝0，并进入步骤8)；否则执行5.3)；

5.3)计算聊天内容的非法字符数量，如果非法字符数量小于3，则p＝0,并进入步骤8)；否则执行5.4)；

5.4)如果用户的ID在广告ID库中，则P＝1，并进入步骤8)；否则执行5.5)；

5.5)对关键词进行遍历，如果用户聊天内容中包含了关键词库中的关键词，则P＝1，并进入步骤8)；否则执行5.6)；

5.6)如果用户的IP在广告IP库中，则P＝1，并进入步骤8)；否则执行步骤6)；

6)对聊天行为依次进行以下4项内容的分析判断：

6.1)计算该用户最近两小时的聊天总句数，如果大于设定的阈值，则认为是疑似广告号，设定P＝P+0.2；

6.2)计算此用户聊天内容重复率，即最近两小时聊天内容总句数与去重后的聊天内容数之间的比率，如果值大于10，P＝P+0.2；

6.3)计算此用户聊天内容字数差，最近两小时聊天内容总句数与聊天内容字数不同的句数之间的比率，如果值大于6，则P＝P+0.5；

6.4)计算是否存在秒发行为，即此用户上一句话与当前句话之间的时间差，如果在同一秒内，那么就存在秒发行为，则P＝P+0.5；

7)计算用户累计的P,如果P>1，则P＝1；

8)返回最终的P，若P＝1，则判断为广告或敏感信息，进行过滤；P＝0时判断为非广告和非敏感信息。对于P小于1大于0时；社交平时可根据概率值自定义后续处理流程。

优选的，所述步骤5.3)中计算聊天内容的非法字符数量的方法为：设定敏感字符集；将聊天内容分解成字符数组，对每个字符进行判断，如果在敏感字符集中的，则每出现一个，长度+1；如果字符是英文字符，或其它非简体中文字符，则长度加1；若为其它符号，则长度保持不变。

本发明方法的主要思想：基于历史聊天数据进行分类确认，生成广告内容库和非广告正常聊天内容库以及关键词内容库。如果在广告内容库中，则广告概率为1，如果在正常聊天内容库中的内容，则广告概率为0。而不在内容库中的聊天内容，则通过聊天内容分析以及行为分析的算法计算广告概率值。

附图说明

图1表示本发明的流程图。

具体实施方式

下面将结合附图对本发明加以详细说明，应指出的是，所描述的实施例仅便于对本发明的理解，而对其不起任何限定作用。

如图1所示，一种改进的实时社交平台广告及敏感信息快速识别的方法,包括如下步骤：

5.3)计算聊天内容的非法字符数量，如果非法字符数量小于3，则p＝0,并进入步骤8)；否则执行5.4)；非法字符的具体计算方法如下：设定敏感字符集，如："一壹二贰三叁四肆五伍六陆七柒八捌九玖十拾百佰千仟度搜微骚加视频美妹釦筘扣Qq艳号裸螺聊萝箩:女ρ：嫂咣逼摸乳黄抠寂叩q Qˇˉp←脫妞演男性晶喵鈕"对聊天内容进行分解成字符数组，对每个字符进行判断，，如果在敏感字符集中的，则每出现一个，长度+1。如果字符是英文字符，或其它非简体中文字符，长度加1。其它符号长度保持不变。

6)对聊天行为依次进行以下4项内容的分析判断：

6.2)计算此用户聊天内容重复率，即最近两小时聊天内容总句数与去重后的聊天内容数之间的比率，如果值大于10，P＝P+0.2；聊天内容总句数与去重后的聊天内容数计算举例如下：

你好

在哪

聊天内容总句数为3，去重后的聊天内容数为2，聊天内容重复率为3/2＝1.5。6.3)计算此用户聊天内容字数差，最近两小时聊天内容总句数与聊天内容字数不同的句数之间的比率，如果值大于6，则P＝P+0.5；计算举例如下：

你好

在哪

聊天内容总句数为3，由于3句话聊天字数都为2，因此聊天内容字数不同的句数为1，聊天内容字数差比率为3/1＝3。

7)计算用户累计的P,如果P>1，则P＝1；

8)返回最终的P，若P＝1，则判断为广告或敏感信息；P＝0时判断为非广告和非敏感信息。

本方法通过以上步骤的分析，通过大数据分析计算广告和敏感信息的概率值，返回给社交平台，极大的提高了预警的效率及准确性，在以下几个方面解决了原来无法解决的困难：

A根据大数据来分析历史数据，对用户正常聊天内容和广告及敏感信息进行分类。

B对内容和用户行为分别进行广告及敏感信息疑似概率计算。

C提供了一个实时返回的接口供社交平台调用，社交平时可根据概率值自定义后续处理流程。

以上方法，在实际社交平台环境下使用后，效果十分良好，预警速度十分迅速，能有效拦截广告及相关敏感信息。

Claims

1.一种改进的实时社交平台广告及敏感信息快速识别的方法,其特征在于包括如下步骤：

6)对聊天行为依次进行以下4项内容的分析判断：

7)计算用户累计的P,如果P>1，则P＝1；

8)返回最终的P，若P＝1，则判断为广告或敏感信息。

2.根据权利要求1所述的一种改进的实时社交平台广告及敏感信息快速识别的方法,其特征在于所述步骤5.3)中计算聊天内容的非法字符数量的方法为：设定敏感字符集；将聊天内容分解成字符数组，对每个字符进行判断，如果在敏感字符集中的，则每出现一个，长度+1；如果字符是英文字符，或其它非简体中文字符，则长度加1；若为其它符号，则长度保持不变。