CN102890688B - 一种自动提交内容的检测方法以及装置 - Google Patents

一种自动提交内容的检测方法以及装置 Download PDF

Info

Publication number
CN102890688B
CN102890688B CN201110206620.7A CN201110206620A CN102890688B CN 102890688 B CN102890688 B CN 102890688B CN 201110206620 A CN201110206620 A CN 201110206620A CN 102890688 B CN102890688 B CN 102890688B
Authority
CN
China
Prior art keywords
data
content
submitted
automatic
time interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110206620.7A
Other languages
English (en)
Other versions
CN102890688A (zh
Inventor
贺海军
李润超
勇凤伟
李晶
高自光
郭奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Shiji Guangsu Information Technology Co Ltd filed Critical Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority to CN201110206620.7A priority Critical patent/CN102890688B/zh
Publication of CN102890688A publication Critical patent/CN102890688A/zh
Application granted granted Critical
Publication of CN102890688B publication Critical patent/CN102890688B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明适用于信息安全领域,提供了自动提交内容的检测方法以及装置,所述方法包括下述步骤:获取用户在预设时间内提交的内容数据的属性,所述内容数据的属性包括所述内容数据的长度以及提交所述内容数据的时间;根据所述内容数据的属性提取自动提交的关键特征,并将所述自动提交的关键特征与预设的阈值进行比较,检测用户提交的内容数据是否为自动提交内容。本发明实施例由于在提取自动提交关键特征以及判断用户提交的内容数据是否为自动提交时都只针对单个用户提交的内容数据,无需抽取关键词、解析检索结果页面以及文本相似度计算等,因此计算处理简单且效率较高。

Description

一种自动提交内容的检测方法以及装置
技术领域
本发明属于信息安全领域,尤其涉及一种自动提交内容的检测方法以及装置。
背景技术
随着网络技术的发展,人们能够通过网络实现在线支付、在线问答等功能,但由于网络功能仍不够完善,因此当人们在享受网络带来的便利的同时仍需承担相应的风险,比如被程序自动提交的内容数据窃取了在线支付的密码,从程序自动提交的内容数据中获取了广告信息等。
以问答社区中的作弊用户为例,这些作弊用户通常针对指定分类下的问题,采用自动程序自动从本问答社区或其他问答社区搜索相关问题并提取答案,然后自动将这些答案内容数据提交为当前问题的回答,以提高自己在社区中的等级、经验等属性值,或者在自动提交的内容数据中夹杂广告信息以达到推广产品的目的。使用自动程序提交内容不仅严重破坏了问答社区的公平性,而且影响了问答社区的内容质量。
现有的自动提交内容检测方法主要是通过关键词检测的。该方法首先从当前提交内容数据中抽取若干个关键词(一般为1~3个),然后依次在百度知道和搜搜问问的搜索入口执行自动搜索,并解析出百度知道和搜搜问问的首页结果中的Top10结果,如果某个结果页面中的最佳回答或满意答案和当前提交内容的相似度大于或者等于给定阈值,则认为当前提交内容为机器自动提交的内容数据。如果当前提交的内容数据在所有问答社区的搜索结果中都没有找到足够相似的答案,则认为当前提交的内容数据不是程序自动提交的内容数据。该自动提交内容数据检测方法由于涉及关键词抽取、检索结果页面解析以及文本相似度计算,因此技术处理复杂且检测效率较低。
发明内容
本发明实施例提供了一种自动提交内容的检测方法,旨在解决现有的自动提交内容检测方法在检测提交的内容数据是否为采用程序自动提交时所导致的技术处理复杂且检测效率较低的问题。
本发明实施例是这样实现的,一种自动提交内容的检测方法,所述方法包括下述步骤:
获取用户在预设时间内提交的内容数据的属性,所述内容数据的属性包括所述内容数据的长度以及提交所述内容数据的时间;
根据所述内容数据的属性提取自动提交的关键特征,并将所述自动提交的关键特征与预设的阈值进行比较,检测用户提交的内容数据是否为自动提交内容。
本发明实施例的另一目的在于提供一种自动提交内容的检测装置,所述装置包括:
内容数据属性获取单元,用于获取用户在预设时间内提交的内容数据的属性,所述内容数据的属性包括所述内容数据的长度以及提交所述内容数据的时间;
自动提交检测单元,用于根据所述内容数据的属性提取自动提交的关键特征,并将所述自动提交的关键特征与预设的阈值进行比较,检测用户提交的内容数据是否为自动提交内容。
本发明实施例通过对单个用户在预设时间内所提交的内容数据进行分析,提取出内容数据自动提交的关键特征,根据该内容数据自动提交的特征检测提交的内容数据是否为程序自动提交,并输出检测结果。由于该检测方法在提取自动提交关键特征以及判断用户提交的内容数据是否为自动提交时都只针对单个用户提交的内容数据,无需抽取关键词、解析检索结果页面以及文本相似度计算等,因此计算处理简单且效率较高,此外,该检测方法的检测范围较广,能够检测出的内容数据可以为用户自定义且无法在问答社区的搜索入口中找到的内容数据。
附图说明
图1是本发明第一实施例提供的自动提交内容的检测方法的流程图;
图2是本发明第二实施例提供的自动提交内容的检测装置的结构示意图;
图3是本发明提供的检测装置的自动提交检测单元的第一实施例的结构图;
图4是本发明提供的检测装置的自动提交检测单元的第二实施例的结构图;
图5是本发明提供的检测装置的自动提交检测单元的第三实施例的结构图;
图6是本发明提供的检测装置的自动提交检测单元的第四实施例的结构图;
图7是本发明提供的检测装置的自动提交检测单元的第五实施例的结构图;
图8是本发明提供的检测装置的自动提交检测单元的第六实施例的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例以用户为分析对象,通过分析用户提交的内容数据来提取自动提交内容的关键特征,并根据该关键特征检测用户提交的内容数据是否为自动提交内容。
本发明实施例提供了一种:自动提交内容的检测方法以及装置。
所述方法包括:获取用户在预设时间内提交的内容数据的属性,所述内容数据的属性包括所述内容数据的长度以及提交所述内容数据的时间;
根据所述内容数据的属性提取自动提交的关键特征,并将所述自动提交的关键特征与预设的阈值进行比较,检测用户提交的内容数据是否为自动提交内容。
所述装置包括:内容数据属性获取单元,用于获取用户在预设时间内提交的内容数据的属性,所述内容数据的属性包括所述内容数据的长度以及提交所述内容数据的时间;
自动提交检测单元,用于根据所述内容数据的属性提取自动提交的关键特征,并将所述自动提交的关键特征与预设的阈值进行比较,检测用户提交的内容数据是否为自动提交内容。
本发明实施例通过对单个用户在预设时间内所提交的内容数据进行分析,提取出内容数据自动提交的关键特征,根据该内容数据自动提交的特征检测提交的内容数据是否为程序自动提交,并输出检测结果。由于该检测方法在提取自动提交关键特征以及判断用户提交的内容数据是否为自动提交时都只针对单个用户提交的内容数据,无需抽取关键词、解析检索结果页面以及文本相似度计算等,因此计算处理简单且效率较高,此外,该检测方法的检测范围较广,能够检测出的内容数据可以为用户自定义且无法在问答社区的搜索入口中找到的内容数据。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一:
图1示出了本发明第一实施例提供的自动提交内容的检测方法的流程,在本实施例以用户为分析对象,通过分析用户提交的内容数据来检测采用程序自动提交的内容数据,从而使检测的处理更加简单,检测的范围更全面。
在步骤S11中,获取用户在预设时间内提交的内容数据的属性,该内容数据的属性包括该内容数据的长度以及提交该内容数据的时间。
在本实施例中,预设一个时间,比如预设一个小时或者预设一天,在该预设的时间内,从用户提交内容的数据库中获取当前用户所有已提交的内容数据以及该内容数据的属性等。
作为本发明的另一个实施例,将获取的内容数据根据该内容数据的先后提交时间进行排序。
该内容数据的属性包括内容数据的长度以及提交该内容数据的时间等,根据前后两个提交的内容数据的时间可以计算出提交这两个内容数据的时间间隔。
在步骤S12中,根据该内容数据的属性提取自动提交的关键特征,并将该自动提交的关键特征与预设的阈值进行比较,检测用户提交的内容数据是否为自动提交内容。
其中,自动提交的关键特征包括长数据的数量、长数据个数比例、内容数据长度均方差、提交时间间隔的最大重复次数、时间间隔最集中分布的时间区间、前两个时间间隔最集中分布的时间区间以及内容数据连续提交的时间中的至少一个。
比如,将长数据的数量作为内容数据自动提交的关键特征。由于在有限的时间间隔内,手工提交的内容数据的长度是有限的,如果用户有很多条较长的内容数据都是在很有限的时间间隔内提交的,则用户所提交的内容数据很可能是采用程序自动提交的。
将长数据的数量作为内容数据自动提交的关键特征时,首先对长数据进行预定义:预设第一长度阈值和第一最小时间间隔阈值,判断当前获取的内容数据的长度是否超过了第一长度阈值,在当前获取的内容数据的长度超过了第一长度阈值之后再判断该当前获取的内容数据与上一次获取的内容数据的时间间隔是否小于或者等于第一最小时间间隔阈值,若小于或者等于,则判定该当前获取的内容数据是一条长数据。
再根据长数据的定义在用户提交的所有内容数据中提取长数据的数量。假设第一长度阈值设为400字节,第一最小时间间隔阈值设为50~70秒,根据这两个参数提取长度超过400字节且与前一个或后一个提交的内容数据间隔小于50~70秒的长数据,并统计用户提交的所有长数据的数量。
预设一个长数据个数阈值,判断该当前用户提交的长数据的数量是否大于或者等于长数据个数阈值,若大于等于该长数据个数阈值,则判定该用户提交的内容数据为采用程序自动提交的内容数据。
比如,将长数据个数比例作为内容数据自动提交的关键特征。若用户在一段时间内提交的长数据个数占了其所提交的内容数据的很大比例,则用户所提交的内容数据很可能是采用程序自动提交的。
将长数据个数比例作为内容数据自动提交的关键特征时,同样需要判断内容数据是否为长数据:预设第二长度阈值和第二最小时间间隔阈值,判断当前获取的内容数据的长度是否超过了第二长度阈值,在当前获取的内容数据的长度超过了第二长度阈值之后再判断该当前获取的内容数据与上一次获取的内容数据的时间间隔是否小于或者等于第二最小时间间隔阈值,若小于或者等于,则判定该当前获取的内容数据是一条长数据。统计用户提交的长数据个数以及当前用户提交的所有内容数据的个数,计算用户提交的长数据个数占该用户提交的所有内容数据的比例。
将长数据个数占当前用户提交的所有内容数据的比例与预设的长数据个数比例阈值比较,若用户提交的长数据占该用户提交的所有内容数据的比例大于或者等于长数据个数比例阈值,则判定该用户提交的内容数据为采用程序自动提交的内容数据,否则判定用户提交的内容数据为正常提交的。
比如,将内容数据长度均方差作为内容数据自动提交的关键特征。由于采用程序自动提交的内容数据,其长度分布往往比较接近,因此通过统计内容数据的长度差异能够发现一些程序自动提交的内容数据。
将内容数据长度均方差作为内容数据自动提交的关键特征时,根据用户提交的所有内容数据的长度计算该所有内容数据的长度的平均值,根据该平均值以及各个内容数据的长度、个数计算所有内容数据的长度均方差,如,根据下面的公式计算内容数据的长度的均方差:
其中,si为第i条内容数据的长度,为所有内容数据的平均长度,n为所有内容数据的个数。
预设一个均方差阈值,若计算获得的长度均方差小于等于预设的均方差阈值,则判定该用户提交的内容数据为采用程序自动提交的内容数据。比如,将相等的时间间隔作为内容数据自动提交的关键特征。如果提交内容数据的时间间隔是在某个区间内并且连续多次的提交时间间隔都相等,则这些内容数据极大部分是采用程序自动提交的,因为人工很难做到连续多次都在同一个时间间隔内提交内容数据。
将提交时间间隔的最大重复次数作为内容数据自动提交的关键特征时,首先计算用户所有前后提交的两个内容数据的时间间隔,并预设第一区间阈值,将预设时间划分为多个以该第一区间阈值作为区间长度的区间,判断所有提交的内容数据的时间间隔落在上述划分区间的哪个区间,统计每一个区间内包含的时间间隔个数,获取落入区间内提交时间间隔的最大重复数。预设一个重复阈值,判断落入区间内提交时间间隔的最大重复数是否大于或者等于该重复阈值,若大于或者等于该重复阈值,则判定用户在预设时间内提交的内容数据为自动提交的内容数据。例如,假设判断用户在100秒内提交的内容数据是否为程序自动提交的内容数据,则预设的第一区间阈值为10s,则将100秒划分为10个区间:0~10s,10s~20s,20s~30s,30s~40s,40s~50s,50s~60s,60s~70s,70s~80s,80s~90s,90s~100s,假设用户在100s内提交内容数据的时间间隔依次为:31s,31s,71s,11s,51s,61s,61s,61s,91s,11s,71s,71s,71s,71s,71s,51s,91s,上述数据表示,该用户提交数据的时间间隔依次在第4个区间(30~40s)、第4个区间(30~40s)、第8个区间(70~80s)、第二个区间(10~20s)、......、第10个区间(90~100s)。上述数据中,该用户有2个连续提交时间间隔都是在第4个区间内,有3个连续提交时间间隔在第7个区间内,有5个连续提交时间间隔都是在第8个区间内,因此,该用户在100秒时间内提交时间间隔的最大重复数为5,假设预设的重复阈值为4,由于5大于4,因此判断该用户在该100秒时间内提交的内容数据为自动提交。
将时间间隔最集中分布的区间作为内容数据自动提交的关键特征时,计算用户提交的所有内容数据的总条数以及所有前后提交的两个内容数据的时间间隔,预设一个第二区间阈值,以该第二区间阈值为一个时间区间,统计每一个时间区间内时间间隔的个数,根据每一个时间区间内时间间隔的个数查找时间间隔分布最集中的一个时间区间。
计算时间间隔分布最集中的一个时间区间内共提交的内容数据条数,以及计算该时间区间内的内容数据的总条数在用户提交的所有内容数据的总条数的比例。预设一个第一比例阈值,判断时间间隔分布最集中的一个时间区间内提交的内容数据条数占用户提交的所有内容数据的总条数的比例是否大于或者等于该第一比例阈值,若大于或者等于该第一比例阈值,则判定用户提交的内容数据为自动提交内容。
假设,预设的第二区间阈值为10秒,预设的第一比例阈值为40%,用户在一个小时内提交的所有内容数据的总条数为60条,在某个10秒内提交的内容数据的时间间隔分布最集中,在该10秒内用户共提交的内容数据的条数为30条,则用户在该10秒内提交的内容数据条数占该用户在一个小时内提交的内容数据的总条数的30/60=50%,由于50%大于40%,因此判定在该10秒内提交的内容数据为采用程序自动提交。
将前两个时间间隔最集中分布的区间作为内容数据自动提交的特征时,计算用户提交的所有内容数据的总条数以及所有提交的前后两个内容数据的时间间隔,预设一个第三区间阈值,以该第三区间阈值为一个时间区间,统计每一个时间区间内时间间隔的个数,根据每一个时间区间内时间间隔的个数查找时间间隔分布最集中的前两个时间区间。
计算时间间隔分布最集中的前两个时间区间内共提交的内容数据条数,以及计算该两个时间区间内的内容数据的总条数在用户提交的所有内容数据的总条数的比例。
预设一个第二比例阈值,判断计算的两个时间区间内的内容数据的总条数在用户提交的所有内容数据的总条数的比例是否大于或者等于该第二比例阈值,若大于或者等于该第二比例阈值,则判定用户提交的内容数据为自动提交内容。
比如,将内容数据连续提交的时间作为内容数据自动提交的关键特征。自动提交程序可以长时间连续提交内容数据,但正常人是做不到的,若一个用户在一个非常长的时间内持续提交内容数据,则这些内容数据很可能是程序自动提交的。例如,典型的自动提交程序一般可以设定从某个时间开始自动提交内容数据,然后无需人工干预。如果一个用户在凌晨时间一直持续提交内容数据,则这些内容数据就很可能是程序自动提交的。
将内容数据连续提交的时间作为内容数据自动提交的关键特征时,首先应判断一个内容数据是否为连续提交的。预设一个连续时间判定阈值,若用户前后提交的两个内容数据的时间间隔小于或者等于该连续时间判定阈值,则判定这两个内容数据为用户连续提交的内容数据,统计用户连续提交内容数据的最长连续时间,比如用户连续在10~15小时内提交的内容数据的时间间隔都小于或者等于连续时间判定阈值,在15~16小时内,用户提交的内容数据的时间间隔大于连续时间判定阈值,在16~18小时内,用户提交的内容数据的时间间隔都小于或者等于连续时间判定阈值,则该用户在10~15小时内以及在16~18小时内提交的内容数据为连续提交的内容数据,在15~16小时内提交的内容数据为不连续提交的内容数据,用户连续提交内容数据的最长时间为5小时。
若用户连续提交内容数据的最长连续时间大于或者等于最长连续时间判定阈值,则判定该用户在预设时间内提交的内容数据为采用程序自动提交。
进一步的,也可以只统计用户在凌晨(如0点~8点)期间用户提交内容数据的最长连续时间,根据该最长连续时间判定用户提交的内容数据是否为程序自动提交。
作为本发明的另一个实施例,在根据该内容数据自动提交的特征检测提交的内容数据是否为程序自动提交的步骤之后进一步包括下述步骤:
输出检测结果,该检测结果包括:在存在自动提交内容数据时,输出该自动提交内容数据的提交者昵称或者ID号等;在不存在自动提交内容数据时,输出“未发现自动提交行为”等字样。
在本发明第一实施例中,通过对单个用户在预设时间内所提交的内容数据进行分析,提取出内容数据自动提交的关键特征,根据该内容数据自动提交的特征检测提交的内容数据是否为程序自动提交,并输出检测结果。由于该检测方法在提取自动提交关键特征以及判断用户提交的内容数据是否为自动提交时都只针对单个用户提交的内容数据,无需抽取关键词、解析检索结果页面以及文本相似度计算等,因此计算处理简单且效率较高,此外,该检测方法的检测范围较广,能够检测出的内容数据可以为用户自定义且无法在问答社区的搜索入口中找到的内容数据。
实施例二:
图2示出了本发明第二实施例提供的自动提交内容的检测装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分。
该自动提交内容的检测装置可以用于通过有线或者无线网络连接服务器的各种信息处理终端,例如移动电话、口袋计算机(Pocket Personal Computer,PPC)、掌上电脑、计算机、笔记本电脑、个人数字助理(Personal Digital Assistant,PDA)等,可以是运行于这些终端内的软件单元、硬件单元或者软硬件相结合的单元,也可以作为独立的挂件集成到这些终端中或者运行于这些终端的应用系统中,其中:
内容数据属性获取单元21,用于获取用户在预设时间内提交的内容数据的属性,该内容数据的属性包括该内容数据的长度以及提交该内容数据的时间。
在本实施例中,内容数据属性获取单元21获取预设时间内,比如获取单个用户在一个小时或者一天之内所提交的内容数据的属性,该内容数据的属性包括该内容数据的长度,提交时间等。
自动提交检测单元22,用于根据该内容数据的属性提取自动提交的关键特征,并将该自动提交的关键特征与预设的阈值进行比较,检测用户提交的内容数据是否为自动提交内容。
在本实施例中,内容数据自动提交的特征可以为长数据的数量、长数据个数比例、内容数据长度均方差、提交时间间隔的最大重复次数、时间间隔最集中分布的区间、前两个时间间隔最集中分布的区间以及内容数据连续提交的时间的至少一个。
作为本发明的另一个实施例,该自动提交检测单元22包括:第一参数设置模块31、长数据判断模块32以及第一自动提交检测模块33,具体如图3所示。
第一参数设置模块31,用于在提取的自动提交的关键特征为长数据的数量时,预设第一长度阈值、第一最小时间间隔阈值以及长数据个数阈值。
长数据判断模块32,用于判断当前获取的内容数据的长度是否超过了第一长度阈值,若已超过,继续判断该当前获取的内容数据与上一次获取的内容数据的时间间隔是否小于或者等于第一最小时间间隔阈值,若小于或者等于,则判定该当前获取的内容数据是一条长数据。
第一自动提交检测模块33,用于统计当前用户提交的所有长数据的数量,并判断该当前用户提交的长数据的数量是否大于长数据个数阈值,若大于或者等于该长数据个数阈值,则判定该用户提交的内容数据为自动提交内容。
作为本发明的另一个实施例,该自动提交检测单元22包括:第二参数设置模块41、最大重复数统计模块42以及第二自动提交检测模块43,具体如图4所示。
第二参数设置模块41,用于在提取的自动提交的关键特征为提交时间间隔的最大重复数时,预设第一区间阈值和一个重复阈值。
最大重复数统计模块42,用于计算所有前后提交的两个内容数据的时间间隔,将预设时间划分为多个以所述第一区间阈值作为区间长度的区间,判断所述所有前后提交的两个内容数据的时间间隔分别落入的划分区间,并统计划分的区间内提交时间间隔的最大重复数。
第二自动提交检测模块43,用于在统计的提交时间间隔的最大重复数大于或者等于预设的重复阈值时,判定在所述预设时间内用户提交的内容数据为自动提交内容。
作为本发明的另一个实施例,该自动提交检测单元22包括:第三参数设置模块51、连续提交内容数据判断模块52、最长连续时间统计模块53以及第三自动提交检测模块54,具体如图5所示。
第三参数设置模块51,用于在自动提交的关键特征为内容数据连续提交的时间时,预设连续时间判定阈值以及最长连续时间判定阈值。
连续提交内容数据判断模块52,用于判断用户前后提交的两个内容数据的时间间隔是否小于或者等于该连续时间判定阈值,若是,则判定该两个内容数据为用户连续提交的内容数据。
最长连续时间统计模块53,用于统计用户在该预设时间内连续提交内容数据的最长连续时间。
第三自动提交检测模块54,用于用户连续提交内容数据的最长连续时间大于或者等于该最长连续时间判定阈值时,判定该用户在预设时间内提交的内容数据为自动提交内容。
当然,也可以只统计用户在凌晨(如0点~8点)期间用户提交内容数据的最长连续时间,根据该最长连续时间判定用户提交的内容数据是否为程序自动提交。
此外,作为本发明的另一个实施例,该自动提交检测单元22还可以包括:第四参数设置模块61、较长数据判断模块62、较长数据比例确定模块63以及第四自动提交检测模块64,具体如图6所示。
第四参数设置模块61,用于在内容数据自动提交的特征为长数据个数比例时,预设第二长度阈值、第二最小时间间隔阈值以及一个长数据个数比例阈值。
较长数据判断模块62,用于判断当前获取的内容数据的长度是否超过了第二长度阈值,若已超过,继续判断该当前获取的内容数据与上一次获取的内容数据的时间间隔是否小于或者等于第二最小时间间隔阈值,若小于或者等于第二最小时间间隔阈值,则判定该当前获取的内容数据是一条长数据。
较长数据比例确定模块63,用于统计当前用户提交的所有长数据的个数以及当前用户提交的所有内容数据的个数,计算用户提交的长数据占该用户提交的所有内容数据的比例。
第四自动提交检测模块64,用于在用户提交的长数据占该用户提交的所有内容数据的比例大于或者等于长数据个数比例阈值时,则判定该用户提交的内容数据为采用程序自动提交的内容数据。
作为本发明的另一个实施例,该自动提交检测单元22还可以包括:第五参数设置模块71、长度均方差确定模块72以及第五自动提交检测模块73,具体如图7所示。
第五参数设置模块71,用于在内容数据自动提交的特征为内容数据长度均方差时,预设一个均方差阈值;
长度均方差确定模块72,用于根据用户提交的所有内容数据的长度计算该所有内容数据的长度的平均值,并根据该平均值以及各个内容数据的长度、个数计算所有内容数据的长度均方差。
第五自动提交检测模块73,用于在计算获得的长度均方差小于或者等于预设的均方差阈值时,判定该用户提交的内容数据为采用程序自动提交的内容数据。
作为本发明的另一个实施例,该自动提交检测单元22还可以包括:第六参数设置模块81、最集中区间的内容数据比例确定模块82以及第六自动提交检测模块83。
第六参数设置模块81,用于在内容数据自动提交的特征为时间间隔最集中分布的区间时,预设一个第二区间阈值和第一比例阈值。
最集中区间的内容数据比例确定模块82,用于以第二区间阈值为一个时间区间,计算在步骤S11预设时间内前后提交的两个内容数据的时间间隔,并统计每一个以第二区间阈值为时间区间内相等的时间间隔的个数,以及所有内容数据的总条数,根据获取的各个内容数据的时间间隔查找时间间隔分布最集中的一个区间,并计算该区间内的内容数据的总条数,以及计算该区间内的内容数据的总条数在所有内容数据的总条数的比例。
第六自动提交检测模块83,用于在该比例大于或者等于预设的第一比例阈值时,该第二区间阈值内的内容数据为采用程序自动提交的内容数据。
当然,也可以统计前2个时间间隔最集中分布的区间内所包含的内容数据条数占所有内容数据的总条数的比例,并根据该比例值判定该内容数据是否为程序自动提交。
在本发明第二实施例中,自动提交检测单元22包括图3~图8里至少一个图的所有模块。在本实施例中,自动提交检测单元22根据内容数据属性获取单元21获取的内容数据属性提取出内容数据的自动提交关键特征,再根据该自动提交关键特征检测用户提交的内容数据是否为程序自动提交。由于该检测方法只针对单个用户提交的内容数据,无需抽取关键词、解析检索结果页面以及文本相似度计算等,因此计算处理简单且效率较高,此外,该检测方法的检测范围较广,能够检测出用户自定义且无法在问答社区的搜索入口中找到的内容数据是否为程序自动提交。
本发明实施例根据程序自动提交内容数据的特点,通过对单个用户在预设时间内所提交的内容数据进行分析,提取出内容数据自动提交的关键特征,并根据该内容数据自动提交的特征检测提交的内容数据是否为程序自动提交,在检测结束后输出检测结果。由于该检测方法在提取自动提交关键特征以及判断用户提交的内容数据是否为自动提交时都只针对单个用户提交的内容数据,无需抽取关键词、解析检索结果页面以及文本相似度计算等,因此计算处理简单且效率较高,此外,该检测方法的检测范围较广,能够检测出的内容数据可以为用户自定义且无法在问答社区的搜索入口中找到的内容数据。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种自动提交内容的检测方法,其特征在于,所述方法包括下述步骤:
获取用户在预设时间内提交的内容数据的属性,所述内容数据的属性包括所述内容数据的长度以及提交所述内容数据的时间;
根据所述内容数据的属性提取自动提交的关键特征,并将所述自动提交的关键特征与预设的阈值进行比较,检测用户提交的内容数据是否为自动提交内容;
其中,所述自动提交的关键特征包括长数据的数量、长数据个数比例、内容数据长度均方差、提交时间间隔的最大重复次数、时间间隔最集中分布的时间区间、前两个时间间隔最集中分布的时间区间以及内容数据连续提交的时间中的至少一个;
其中,在提取的自动提交的关键特征为内容数据长度均方差时,预设一个均方差阈值;根据用户提交的所有内容数据的长度计算所述所有内容数据的长度的平均值;根据所述平均值以及各个内容数据的长度、个数计算所有内容数据的长度均方差,若计算获得的长度均方差小于或者等于预设的均方差阈值,则判定所述用户提交的内容数据为自动提交内容。
2.如权利要求1所述的方法,其特征在于,所述根据所述内容数据的属性提取自动提交的关键特征,并将所述自动提交的关键特征与预设的阈值进行比较,检测用户提交的内容数据是否为自动提交内容的步骤具体为:
在提取的自动提交的关键特征为长数据的数量时,预设第一长度阈值、第一最小时间间隔阈值以及长数据个数阈值;
判断当前获取的内容数据的长度是否超过了第一长度阈值,若已超过,继续判断所述当前获取的内容数据与上一次获取的内容数据的时间间隔是否小于或者等于第一最小时间间隔阈值,若小于或者等于,则判定所述当前获取的内容数据是一条长数据;
统计当前用户提交的所有长数据的数量,并判断所述当前用户提交的长数据的数量是否大于长数据个数阈值,若大于或者等于所述长数据个数阈值,则判定所述用户提交的内容数据为自动提交内容。
3.如权利要求1所述的方法,其特征在于,所述根据所述内容数据的属性提取自动提交的关键特征,并将所述自动提交的关键特征与预设的阈值进行比较,检测用户提交的内容数据是否为自动提交内容的步骤具体为:
在提取的自动提交的关键特征为长数据个数比例时,预设第二长度阈值、第二最小时间间隔阈值以及一个长数据个数比例阈值;
判断当前获取的内容数据的长度是否超过了第二长度阈值,若已超过,继续判断所述当前获取的内容数据与上一次获取的内容数据的时间间隔是否小于或者等于第二最小时间间隔阈值,若小于或者等于,则判定所述当前获取的内容数据是一条长数据;
统计当前用户提交的所有长数据的个数以及当前用户提交的所有内容数据的个数,计算用户提交的长数据占所述用户提交的所有内容数据的比例;
若用户提交的长数据占所述用户提交的所有内容数据的比例大于或者等于长数据个数比例阈值,则判定所述用户提交的内容数据为自动提交内容。
4.如权利要求1所述的方法,其特征在于,所述根据所述内容数据的属性提取自动提交的关键特征,并将所述自动提交的关键特征与预设的阈值进行比较,检测用户提交的内容数据是否为自动提交内容的步骤具体为:
在提取的自动提交的关键特征为提交时间间隔的最大重复数时,预设第一区间阈值和一个重复阈值;
计算所有前后提交的两个内容数据的时间间隔,将预设时间划分为多个以所述第一区间阈值作为区间长度的区间,判断所述所有前后提交的两个内容数据的时间间隔分别落入的划分区间,并统计划分的区间内提交时间间隔的最大重复数;
若统计的提交时间间隔的最大重复数大于或者等于预设的重复阈值,则判定在所述预设时间内用户提交的内容数据为自动提交内容。
5.如权利要求1所述的方法,其特征在于,所述根据所述内容数据的属性提取自动提交的关键特征,并将所述自动提交的关键特征与预设的阈值进行比较,检测用户提交的内容数据是否为自动提交内容的步骤具体为:
在其他的自动提交的关键特征为时间间隔最集中分布的区间时,预设一个第二区间阈值和第一比例阈值;
计算用户提交的所有内容数据的总条数以及所有前后提交的两个内容数据的时间间隔,并以所述第二区间阈值为一个时间区间,统计每一个时间区间内时间间隔的个数;
查找时间间隔分布最集中的一个时间区间,并计算所述时间区间内的内容数据的总条数以及计算所述时间区间内的内容数据的总条数在用户提交的所有内容数据的总条数的比例;
若所述比例大于或者等于预设的第一比例阈值,则判定所述用户提交的内容数据为自动提交内容。
6.如权利要求1所述的方法,其特征在于,所述根据所述内容数据的属性提取自动提交的关键特征,并将所述自动提交的关键特征与预设的阈值进行比较,检测用户提交的内容数据是否为自动提交内容的步骤具体为:
在自动提交的关键特征为内容数据连续提交的时间时,预设连续时间判定阈值以及最长连续时间判定阈值;
判断用户前后提交的两个内容数据的时间间隔是否小于或者等于所述连续时间判定阈值,若是,则判定所述两个内容数据为用户连续提交的内容数据;
统计用户在所述预设时间内连续提交内容数据的最长连续时间;
若用户连续提交内容数据的最长连续时间大于或者等于所述最长连续时间判定阈值,则判定所述用户在预设时间内提交的内容数据为自动提交内容。
7.一种自动提交内容的检测装置,其特征在于,所述装置包括:
内容数据属性获取单元,用于获取用户在预设时间内提交的内容数据的属性,所述内容数据的属性包括所述内容数据的长度以及提交所述内容数据的时间;
自动提交检测单元,用于根据所述内容数据的属性提取自动提交的关键特征,并将所述自动提交的关键特征与预设的阈值进行比较,检测用户提交的内容数据是否为自动提交内容;其中,所述自动提交的关键特征包括长数据的数量、长数据个数比例、内容数据长度均方差、提交时间间隔的最大重复次数、时间间隔最集中分布的时间区间、前两个时间间隔最集中分布的时间区间以及内容数据连续提交的时间中的至少一个;
在提取的自动提交的关键特征为内容数据长度均方差时,预设一个均方差阈值;所述自动提交检测单元用于根据用户提交的所有内容数据的长度计算所述所有内容数据的长度的平均值;根据所述平均值以及各个内容数据的长度、个数计算所有内容数据的长度均方差,若计算获得的长度均方差小于或者等于预设的均方差阈值,则判定所述用户提交的内容数据为自动提交内容。
8.如权利要求7所述的装置,其特征在于,所述自动提交检测单元包括:
第一参数设置模块,用于在提取的自动提交的关键特征为长数据的数量时,预设第一长度阈值、第一最小时间间隔阈值以及长数据个数阈值;
长数据判断模块,用于判断当前获取的内容数据的长度是否超过了第一长度阈值,若已超过,继续判断所述当前获取的内容数据与上一次获取的内容数据的时间间隔是否小于或者等于第一最小时间间隔阈值,若小于或者等于,则判定所述当前获取的内容数据是一条长数据;
第一自动提交检测模块,用于统计当前用户提交的所有长数据的数量,并判断所述当前用户提交的长数据的数量是否大于长数据个数阈值,若大于或者等于所述长数据个数阈值,则判定所述用户提交的内容数据为自动提交内容。
9.如权利要求7所述的装置,其特征在于,所述自动提交检测单元包括:
第二参数设置模块,用于在提取的自动提交的关键特征为提交时间间隔的最大重复数时,预设第一区间阈值和一个重复阈值;
最大重复数统计模块,用于计算所有前后提交的两个内容数据的时间间隔,将预设时间划分为多个以所述第一区间阈值作为区间长度的区间,判断所述所有前后提交的两个内容数据的时间间隔分别落入的划分区间,并统计划分的区间内提交时间间隔的最大重复数;
第二自动提交检测模块,用于在统计的提交时间间隔的最大重复数大于或者等于预设的重复阈值时,判定在所述预设时间内用户提交的内容数据为自动提交内容。
10.如权利要求7所述的装置,其特征在于,所述自动提交检测单元包括:
第三参数设置模块,用于在自动提交的关键特征为内容数据连续提交的时间时,预设连续时间判定阈值以及最长连续时间判定阈值;
连续提交内容数据判断模块,用于判断用户前后提交的两个内容数据的时间间隔是否小于或者等于所述连续时间判定阈值,若是,则判定所述两个内容数据为用户连续提交的内容数据;
最长连续时间统计模块,用于统计用户在所述预设时间内连续提交内容数据的最长连续时间;
第三自动提交检测模块,用于在用户连续提交内容数据的最长连续时间大于或者等于所述最长连续时间判定阈值时,判定所述用户在预设时间内提交的内容数据为自动提交内容。
CN201110206620.7A 2011-07-22 2011-07-22 一种自动提交内容的检测方法以及装置 Active CN102890688B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110206620.7A CN102890688B (zh) 2011-07-22 2011-07-22 一种自动提交内容的检测方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110206620.7A CN102890688B (zh) 2011-07-22 2011-07-22 一种自动提交内容的检测方法以及装置

Publications (2)

Publication Number Publication Date
CN102890688A CN102890688A (zh) 2013-01-23
CN102890688B true CN102890688B (zh) 2018-01-02

Family

ID=47534194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110206620.7A Active CN102890688B (zh) 2011-07-22 2011-07-22 一种自动提交内容的检测方法以及装置

Country Status (1)

Country Link
CN (1) CN102890688B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628875B (zh) * 2017-03-17 2022-08-30 腾讯科技(北京)有限公司 一种文本标签的提取方法、装置及服务器
CN107657018A (zh) * 2017-09-26 2018-02-02 北京思特奇信息技术股份有限公司 一种防止数据重复提交的方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101155182A (zh) * 2006-09-30 2008-04-02 阿里巴巴公司 一种基于网络的垃圾信息过滤方法和装置
CN101197793A (zh) * 2007-12-28 2008-06-11 腾讯科技(深圳)有限公司 一种垃圾信息检测方法和装置
CN101393555A (zh) * 2008-09-09 2009-03-25 浙江大学 一种垃圾博客检测方法
CN101600178A (zh) * 2009-06-26 2009-12-09 成都市华为赛门铁克科技有限公司 垃圾信息确认方法和装置、终端
CN101771966A (zh) * 2010-03-11 2010-07-07 上海粱江通信系统股份有限公司 一种基于关键字和频次识别垃圾短信源的方法
CN101860822A (zh) * 2010-06-11 2010-10-13 中兴通讯股份有限公司 垃圾短信监控方法和系统
CN101909261A (zh) * 2010-08-10 2010-12-08 中兴通讯股份有限公司 一种垃圾短信监控的方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8589694B2 (en) * 2009-07-31 2013-11-19 International Business Machines Corporation System, method, and apparatus for graduated difficulty of human response tests

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101155182A (zh) * 2006-09-30 2008-04-02 阿里巴巴公司 一种基于网络的垃圾信息过滤方法和装置
CN101197793A (zh) * 2007-12-28 2008-06-11 腾讯科技(深圳)有限公司 一种垃圾信息检测方法和装置
CN101393555A (zh) * 2008-09-09 2009-03-25 浙江大学 一种垃圾博客检测方法
CN101600178A (zh) * 2009-06-26 2009-12-09 成都市华为赛门铁克科技有限公司 垃圾信息确认方法和装置、终端
CN101771966A (zh) * 2010-03-11 2010-07-07 上海粱江通信系统股份有限公司 一种基于关键字和频次识别垃圾短信源的方法
CN101860822A (zh) * 2010-06-11 2010-10-13 中兴通讯股份有限公司 垃圾短信监控方法和系统
CN101909261A (zh) * 2010-08-10 2010-12-08 中兴通讯股份有限公司 一种垃圾短信监控的方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Blog Advertising Comments Detecting Approach Based on Behavior Analysis;Minglong Yi.etc;《Proceedings of 2010 Second Asia-Pacific Conference on Information Processing (APCIP 2010) 》;20100917;参见第135页第一栏第7段、第二栏第2-5段,第136页第1段 *
Behaviour-Based Web Spambot Detection by Utilising Action Time and Action Frequency;Pedram Hayati.etc;《Computational Science & Its Applications-iccsa》;20101231;全文 *
Splog detection using self-similarity analysis on blog temporal dynamics;YR Lin.etc;《International Workshop on Airweb》;20071231;全文 *

Also Published As

Publication number Publication date
CN102890688A (zh) 2013-01-23

Similar Documents

Publication Publication Date Title
WO2022141861A1 (zh) 情感分类方法、装置、电子设备及存储介质
US20090281851A1 (en) Method and system for determining on-line influence in social media
CN106354845A (zh) 基于传播结构的微博谣言识别方法和系统
CN103064987B (zh) 一种虚假交易信息识别方法
CN109325165A (zh) 网络舆情分析方法、装置及存储介质
CN103927309B (zh) 一种对业务对象标注信息标签的方法及装置
US9245035B2 (en) Information processing system, information processing method, program, and non-transitory information storage medium
CN103838754B (zh) 信息搜索装置及方法
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN106503025A (zh) 一种应用推荐方法和系统
CN106886579B (zh) 实时流式文本分级监控方法和装置
CN108363717B (zh) 一种数据安全级别的识别检测方法及装置
CN111563176B (zh) 一种基于惯性大数据的漫画管理系统
CN112511855A (zh) 一种基于云计算的电子商务平台视频直播智能管理系统
CN113327140A (zh) 基于大数据分析的视频广告投放效果智能分析管理系统
CN109636337A (zh) 一种基于大数据的人才库构建方法及电子设备
CN111026965A (zh) 基于知识图谱的热点话题追溯方法及装置
CN102890688B (zh) 一种自动提交内容的检测方法以及装置
CN114692593A (zh) 一种网络信息安全监测预警方法
CN103810170A (zh) 交流平台文本分类方法及装置
CN107679883A (zh) 广告生成的方法及系统
CN104462279B (zh) 分析对象特征信息的获取方法和装置
CN106709824B (zh) 一种基于网络文本语义分析的建筑评价方法
CN106294346A (zh) 一种论坛帖子识别方法及装置
Spitz et al. Breaking the news: Extracting the sparse citation network backbone of online news articles

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131029

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 518044 SHENZHEN, GUANGDONG PROVINCE TO: 518057 SHENZHEN, GUANGDONG PROVINCE

TA01 Transfer of patent application right

Effective date of registration: 20131029

Address after: A Tencent Building in Shenzhen Nanshan District City, Guangdong streets in Guangdong province science and technology 518057 16

Applicant after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Applicant before: Tencent Technology (Shenzhen) Co., Ltd.

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant