CN104050195B

CN104050195B - 一种广告贴处理方法和系统

Info

Publication number: CN104050195B
Application number: CN201310083905.5A
Authority: CN
Inventors: 毕先春; 崔天龙; 高起; 朱晨光
Original assignee: Storm Group Ltd By Share Ltd
Current assignee: Storm Group Ltd By Share Ltd
Priority date: 2013-03-15
Filing date: 2013-03-15
Publication date: 2017-11-03
Anticipated expiration: 2033-03-15
Also published as: CN104050195A

Abstract

本发明公开了一种广告贴处理方法，包括如下步骤：S1：建立广告贴数据库并存储；S2：将用户所发的评论贴依次与广告贴数据库中的各个广告贴进行比较计算，得出若干个第一相似度值；S3：判断上述各个第一相似度值中是否存在至少一个第一相似度值小于预定的第一阈值，如果是，则转向下述步骤S4；如果否，则转向下述步骤S5；S4：则该用户所发的评论贴为广告贴，不予发布，进入广告贴处理流程；S5：则该用户所发的评论贴为正常贴，予以发布，进入正常贴处理流程。针对用户发出的内容相同或相似的广告贴，该种处理方法能够快速准确地地识别出广告贴，并且运算复杂度降低，能够显著降低处理成本。此外，本发明还公开了一种广告贴处理系统。

Description

一种广告贴处理方法和系统

技术领域

本发明涉及互联网技术领域，特别涉及一种广告贴处理方法，本发明还特别涉及一种广告贴处理系统。

背景技术

网站一般都会提供与用户进行交互的功能，评论贴（亦即短评）就属于其中的一种，例如暴风影音播放器的暴风盒子页面展现了提供给用户观看的影片，在影片页面中同时还提供了短评功能，用户可以对该影片的内容、下载速度以及演员等等与影片相关的内容进行发帖评论，这些评论贴同时也会影响其他人的观看行为，比如大部分的人都评价说该片的情节很感人，画面很精美，那么就会吸引更多的人前来观看。

评论贴会对网站的访问量和知名度产生重要影响。因此个别商家和个人为了自己的商业目的会利用评论贴发布一些和影片完全无关的内容，比如销售商品的广告贴。为了提供给用户最优质的服务，需要对评论贴中发布的广告贴进行识别和过滤。

广告贴一般由程序自动发出，发贴的频率比较高（一般系统都会限制最短的发贴间隔，比如30s，程序会自动30s就发一个广告出来），广告贴的内容都是一样的，或者是相似的，以方便达到广告的效果。如一条广告贴内容是这样的：

大家好，我是一名大学生，我是开淘宝店的，想开网店的加我，保证一个月2500元以上，qq：5545299160；

下一条可能是内容完全一样的，或者是只是变动部分字符，如：

大家好我是一名大学生，我是开淘宝店的，想开网店的加我，保证一个月3500元以上，qq：5545299160。

在现有技术中，广告贴的过滤存在有如下两种方法：

第一，基于ip、用户帐户、邮件地址等能唯一确定用户身份的特征值进行过滤，对已经发布过广告贴的ip、帐户、邮件地址进行记录存入黑名单，对黑名单中的用户将直接禁止发帖。

第二，基于关键字匹配的过滤。关键字匹配是将广告贴中可能含有的一些关键字放到文件夹中，当来了一份新贴时，匹配此新帖中是否含有那些关键字，如果有就认为是广告贴。

然而，上述两种方法存在有如下缺陷：

第一种方法，此方法过滤简单，速度快，但是过滤效果差，对第一次出现的广告贴不起作用，并且用户的正常发帖也会被限制。

第二种方法，这种方法误判率很高，因为在广告贴中出现的关键字在正常贴中也可能出现，这种方法越来越少使用了。

有鉴于此，提供一种处理效率快、识别准确率高的广告贴处理方法，是本领域技术人员急需解决的问题。

发明内容

本发明要解决的技术问题是提供一种广告贴处理方法，针对用户发出的内容相同或相似的广告贴，该种处理方法能够快速准确地地识别出广告贴，并且运算复杂度降低，能够显著降低处理成本。此外，本发明还提供一种广告贴处理系统。

为解决上述技术问题，本发明提供一种广告贴处理方法，用于在用户所发的评论贴中识别出广告贴并处理，包括如下步骤：

S1：建立广告贴数据库并存储；

S2：将用户所发的评论贴依次与广告贴数据库中的各个广告贴进行比较计算，得出若干个第一相似度值；

S3：判断上述各个第一相似度值中是否存在至少一个第一相似度值小于预定的第一阈值，如果是，则转向下述步骤S4；如果否，则转向下述步骤S5；

S4：则该用户所发的评论贴为广告贴，不予发布，进入广告贴处理流程；

S5：则该用户所发的评论贴为正常贴，予以发布，进入正常贴处理流程。

优选地，当各个第一相似度值均不小于预定的第一阈值时，则步骤S3与步骤S5之间存在有如下步骤：

Sa：将该用户所发的评论贴与其先前所发的评论贴进行比较，得到至少一个第二相似度值；

Sb：判断上述各个第二相似度值中是否存在至少一个第二相似度值小于预定的第二阈值；如果是，则转向上述步骤S4；如果否，则转向上述步骤S5。

优选地，步骤S4进一步包括如下步骤：

S41：将该广告贴与广告贴数据库中的各个广告贴进行比较，得出若干个第三相似度值；

S42：判断上述各个第三相似度值中是否存在至少一个第三相似度值小于预定的第三阈值，如果是，则转向下述步骤S43；如果否，则转向下述步骤S44；

S43：将该广告贴删除；或提示管理员广告贴数据库已经存在有相似的广告贴，管理员选择删除或将该广告贴加入广告贴数据库；

S44：将该广告贴加入广告贴数据库。

优选地，在步骤S2中，通过以下算法获得第一相似度值：

计算用户发的评论贴所在的字符串转换成广告贴数据库中广告贴所在的字符串所需要的最少编辑操作次数，该编辑操作次数与相对应的广告贴所在的字符串的字符个数的比值即为第一相似度值；

编辑操作至少包括以下三种操作中的一种：

将一个字符替换为另一个字符；

插入一个字符；

删除一个字符；

其中，每进行上述一次操作，便计为一次编辑操作次数。

优选地，在步骤S2中，只有当用户所发的评论贴所在的字符串的字符个数达到了预定数量，才进行第一相似度值计算；小于预定个数的评论贴不予识别，予以通过发布。

优选地，在步骤S2中，针对用户所发的评论贴所在的字符串，只对其前预定个数的字符串进行第一相似度值计算。

此外，为解决上述技术问题，本发明还提供一种广告贴处理系统，用于在用户所发的评论贴中识别出广告贴并处理，包括：

存储单元，用于存储广告贴数据库；

第一计算单元，用于将用户所发的评论贴依次与广告贴数据库中的各个广告贴进行比较计算，得出若干个第一相似度值；

第一判断单元，判断上述各个第一相似度值中是否存在至少一个第一相似度值小于预定的第一阈值；如果是，则该用户所发的评论贴为广告贴，不予发布，进入广告贴处理流程；如果否，则该用户所发的评论贴为正常贴，予以发布，进入正常贴处理流程。

优选地，所述广告贴处理系统还包括：

第二计算单元，用于当各个第一相似度值均不小于预定的第一阈值时，将该用户所发的评论贴与其先前所发的评论贴进行比较计算，得到至少一个第二相似度值；

第二判断单元，判断上述各个第二相似度值中是否存在至少一个第二相似度值小于预定的第二阈值；如果是，则该用户所发的评论贴为广告贴，不予发布，进入广告贴处理流程；如果否，则该用户所发的评论贴为正常贴，予以发布，进入正常贴处理流程。

优选地，所述广告贴处理系统还包括：

第三计算单元，用于当用户所发的评论贴为广告贴时，将该广告贴与广告贴数据库中的各个广告贴进行比较，得出若干个第三相似度值；

第三判断单元，判断上述各个第三相似度值中是否存在至少一个第三相似度值小于预定的第三阈值，如果是，则将该广告贴删除，或提示管理员广告贴数据库已经存在有相似的广告贴，管理员选择删除或将该广告贴加入广告贴数据库；如果否，则将该广告贴加入广告贴数据库。

优选地，第一计算单元通过以下算法获得第一相似度值：

编辑操作至少包括以下三种操作中的一种：

将一个字符替换为另一个字符；

插入一个字符；

删除一个字符；

其中，每进行上述一次操作，便计为一次编辑操作次数。

以下论述本发明的技术效果：

本发明所提供的广告贴处理方法，用于在用户所发的评论贴中识别出广告贴并处理，包括如下步骤：

S1：建立广告贴数据库并存储；

针对用户自动发送的相容相同或相似的广告贴，比如：

显然，通过上述方法，这种广告贴能够快速准确地识别出来，并且运算复杂度降低，能够显著降低处理成本。

附图说明

图1为本发明一种实施例中广告贴处理方法的逻辑原理图；

图2为本发明另一种实施例中广告贴处理方法的逻辑原理图。

具体实施方式

本发明的核心是提供一种广告贴处理方法，针对用户发出的内容相同或相似的广告贴，该种处理方法能够快速准确地地识别出广告贴，并且运算复杂度降低，能够显著降低处理成本。此外，本发明另一个核心为提供一种广告贴处理系统。

为了使本领域的技术人员更好地理解本发明的技术方案，下面结合附图和具体实施例对本发明作进一步的详细说明。

请参考图1和图2，图1为本发明一种实施例中广告贴处理方法的逻辑原理图；图2为本发明另一种实施例中广告贴处理方法的逻辑原理图。

在一种实施例中，如图1所示，本发明所提供的广告贴处理方法，用于在用户所发的评论贴中识别出广告贴并处理，包括如下步骤：

S1：建立广告贴数据库并存储；

S3：判断上述各个第一相似度值中是否存在至少一个第一相似度值小于预定的第一阈值，如果是，则转向下述步骤S4；如果否，则转向下述步骤S5；如图1所示，第一阈值可以用α代表；β

针对用户自动发送的相容相同或相似的广告贴，比如：

在上述实施例中，还可以做出进一步改进，从而进一步提高广告贴识别的准确率。比如：

当各个第一相似度值均不小于预定的第一阈值时，则步骤S3与步骤S5之间存在有如下步骤：

Sb：判断上述各个第二相似度值中是否存在至少一个第二相似度值小于预定的第二阈值；如果是，则转向上述步骤S4；如果否，则转向上述步骤S5。如图1所示，第二阈值可以用β代表；

广告贴的一个明显特点是会在多个页面发布相同内容，因此对同一用户的最近N条数据进行识别至少可以保证一条广告内容最多也只能发布一次，再加上广告贴数据库的识别基本可以避免广告贴的出现，实际应用中效果非常好，效率也很高。

在该种实施例中，当广告贴数据库中不存在相应的广告贴时，通过与该用户以前发的评论贴进行比较，如果相似度值符合要求，则认为是广告贴，从而进一步提高了广告贴的拦截成功率。

在上述技术方案中，还可以做出进一步改进，从而得到本发明的另一种实施例。

比如，请参考图2，步骤S4进一步包括如下步骤：

S42：判断上述各个第三相似度值中是否存在至少一个第三相似度值小于预定的第三阈值，如果是，则转向下述步骤S43；如果否，则转向下述步骤S44；如图3所示，第三阈值可以用γ代表；

S44：将该广告贴加入广告贴数据库。

通过上述方法，可以决定广告贴是否加入广告贴数据库；如果广告贴数据库中已经存在有类似的广告贴，则可以选择不加入，从而减少存储空间。

具体地，在上述各种实施例中，可以对第一相似度值的算法做出具体设计。

比如，计算用户发的评论贴所在的字符串转换成广告贴数据库中广告贴所在的字符串所需要的最少编辑操作次数，该编辑操作次数与相对应的广告贴所在的字符串的字符个数的比值即为第一相似度值；

编辑操作至少包括以下三种操作中的一种：

将一个字符替换为另一个字符；

插入一个字符；

删除一个字符；

其中，每进行上述一次操作，便计为一次编辑操作次数。

比如，例如将kitten一字转成sitting：

sitten（k→s）

sittin（e→i）

sitting（→g）

我们将每一步的替换、插入、删除计数为1，这样从kitten转换成sitting就需要1+1+1=3步。用3除以kitten字符串的长度3得到相似度，3/6=0.5。

同样，以下两个字符串：

大家好，我是一名大学生，我是开淘宝店的，想开网店的加我，保证一个月3500元以上，qq：5545299160；

其共有55个字符串，由上一个编辑成下一个，则只需要由2替换为3即可（2500由3500替换），因而其相似度值为1与55的比值，大约0.01，此时设定第一阈值为0.2，则0.01小于0.2，则构成广告贴，进入广告贴处理流程。

需要说明的是，在本发明中，第二相似度值和第三相似度值的计算，与上述方法均相同，本文在此不再赘述。

此外，在上述方法中，还可以做出具体设计。

比如，在步骤S2中，只有当用户所发的评论贴所在的字符串的字符个数达到了预定数量，才进行第一相似度值计算；小于预定个数的评论贴不予识别，予以通过发布。

亦即，当用户发帖的字符数达到了预定数量才进行识别，否则不进行识别，比如，设定的临界值为15个字符；当评论贴的字符数小于15时，此时由于字符数较少，一般都是正常贴，而不是广告贴，因而不用识别。

进一步地，在步骤S2中，针对用户所发的评论贴所在的字符串，只对其前预定个数的字符串进行第一相似度值计算。比如，该预定个数可以设为250，因而无论该评论贴包括多少个字符，只对其前250个字符进行相似度值计算。对于超长的广告贴，该种设计可以降低运算的复杂度，降低处理成本。

此外，本发明还提供一种广告贴处理系统，用于在用户所发的评论贴中识别出广告贴并处理，包括：

存储单元，用于存储广告贴数据库；

进一步地，所述广告贴处理系统还包括：

此外，在上述实施例中，可以对第一相似度值的算法做出具体设计。

比如，第一计算单元通过以下算法获得第一相似度值：

编辑操作至少包括以下三种操作中的一种：

将一个字符替换为另一个字符；

插入一个字符；

删除一个字符；

其中，每进行上述一次操作，便计为一次编辑操作次数。

其中，具体的算法应用请参见上文，在此不再赘述。

此外，还需要说明的是，对于广告贴数据库的建立，刚开始可以采用手工方式建立。以我公司暴风影音播放器的暴风盒子为例，暴风盒子运营多年，用户量巨大。基于此暴风盒子汇集了非常全的广告贴。这些广告贴的收集整理就成为了广告贴数据库，同时新产生的广告贴也会由工作人员及时处理加入广告贴数据库。

广告贴的维护工作会利用到第二部分的功能。工作人员将发现广告贴后，首先用识别系统进行识别，如果已经识别出说明此贴已经存在于广告贴数据库中，那么工作人员可以停止维护此广告贴，也可以仍然将此贴加入广告贴数据库。

以上对本发明所提供的一种广告贴处理方法和系统进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种广告贴处理方法，用于在用户所发的评论贴中识别出广告贴并处理，包括如下步骤：

S1：建立广告贴数据库并存储；

S5：则该用户所发的评论贴为正常贴，予以发布，进入正常贴处理流程；

Sb：判断上述各个第二相似度值中是否存在至少一个第二相似度值小于预定的第二阈值；如果是，则转向上述步骤S4；如果否，则转向上述步骤S5；

在步骤S2中，只有当用户所发的评论贴所在的字符串的字符个数达到了预定数量，才进行第一相似度值计算；小于预定个数的评论贴不予识别，予以通过发布；

在步骤S2中，针对用户所发的评论贴所在的字符串，只对其前预定个数的字符串进行第一相似度值计算。

2.如权利要求1所述的一种广告贴处理方法，其特征在于，步骤S4进一步包括如下步骤：

S44：将该广告贴加入广告贴数据库。

3.如权利要求1-2任一项所述的一种广告贴处理方法，其特征在于，在步骤S2中，通过以下算法获得第一相似度值：

编辑操作至少包括以下三种操作中的一种：

将一个字符替换为另一个字符；

插入一个字符；

删除一个字符；

其中，每进行一次上述操作，便计为一次编辑操作次数。

4.一种广告贴处理系统，用于在用户所发的评论贴中识别出广告贴并处理，包括：

存储单元，用于存储广告贴数据库；

当用户所发的评论贴所在的字符串的字符个数达到了预定数量，进行第一相似度值计算；小于预定个数的评论贴不予识别，予以通过发布；

针对用户所发的评论贴所在的字符串，只对其前预定个数的字符串进行第一相似度值计算；

第一判断单元，判断上述各个第一相似度值中是否存在至少一个第一相似度值小于预定的第一阈值；如果是，则该用户所发的评论贴为广告贴，不予发布，进入广告贴处理流程；如果否，则该用户所发的评论贴为正常贴，予以发布，进入正常贴处理流程；

所述广告贴处理系统还包括：

5.如权利要求4所述的广告贴处理系统，其特征在于，所述广告贴处理系统还包括：

6.如权利要求4所述的广告贴处理系统，其特征在于，第一计算单元通过以下算法获得第一相似度值：

编辑操作至少包括以下三种操作中的一种：

将一个字符替换为另一个字符；

插入一个字符；

删除一个字符；

其中，每进行一次上述操作，便计为一次编辑操作次数。