CN105373598A - 作弊站点识别方法及装置 - Google Patents

作弊站点识别方法及装置 Download PDF

Info

Publication number
CN105373598A
CN105373598A CN201510711915.8A CN201510711915A CN105373598A CN 105373598 A CN105373598 A CN 105373598A CN 201510711915 A CN201510711915 A CN 201510711915A CN 105373598 A CN105373598 A CN 105373598A
Authority
CN
China
Prior art keywords
randomness
element units
main body
title main
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510711915.8A
Other languages
English (en)
Other versions
CN105373598B (zh
Inventor
徐健
曾洪雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Guangzhou Shenma Mobile Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shenma Mobile Information Technology Co Ltd filed Critical Guangzhou Shenma Mobile Information Technology Co Ltd
Priority to CN201510711915.8A priority Critical patent/CN105373598B/zh
Publication of CN105373598A publication Critical patent/CN105373598A/zh
Application granted granted Critical
Publication of CN105373598B publication Critical patent/CN105373598B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出的作弊站点识别方法及装置,可以通过一种可量化的方法对作弊站点进行识别,属于计算机通信技术领域。其中,方法包括:获取站点的名称主体,所述名称主体由多个元素组成;根据预定规则,将所述名称主体划分为多个元素单元,每个所述元素单元至少包括所述名称主体中的一个元素;根据所述多个元素单元对应的级别以及预设的各级别的元素单元之间的混乱度,计算所述名称主体的总混乱度;当所计算出的总混乱度超过预定阈值时,判定所述站点为作弊站点。

Description

作弊站点识别方法及装置
技术领域
本发明涉及计算机移动通信技术领域,具体而言,涉及一种作弊站点识别方法及装置。
背景技术
搜索引擎可以通过网络爬虫去抓取资源。网络爬虫是一个自动提取网页的程序,它利用URL(UniformResourceLocator,统一资源定位符)为搜索引擎从互联网上下载网页。在有限的资源下如何能够抓取到优秀的网页是一个复杂的策略问题。
通常,搜索引擎认为网页资源是以一个个站点(host)组织在一起的。站点名称的一般格式如host.domain.domaintail:port。名称的主体部分,也就是domain部分,可以选择英文字母、数字以及“-”等字符组成。名称的后缀部分,也就是domaintail部分有诸如com、net、info等信息。Port表示端口信息。多个站点可以属于同一个domain,但是不同站点的内容一般有不同的倾向性,比如map.baidu.com,tieba.baidu.com同属于baidu.com,但是分别是百度的地图和贴吧资源等等,并且从站点的组织结果,我们就能直观的了解到,map对应的是百度地图,tieba对应的是百度贴吧。
在现有技术中,如果当搜索引擎新发现的站点,由于无法提前知道该站点的数据质量,一般会先进行收录,如果收录后,该站点的数据是用户需要的,那么就得到一个正向的反馈,下一次会进一步收录该站点的数据,反之则减少。因此,一些有作弊倾向的站长会通过批量的生成新站点来加大自身在搜索引擎的收录量,因此,这些站点称之为作弊站点。
因此,如何识别作弊站点成为现在亟待解决的技术问题。
发明内容
本发明的目的在于提供一种作弊站点识别方法及装置,可以通过一种可量化的方法对作弊站点进行识别,提高作弊站点识别的准确性和时效性。
为了实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供了一种作弊站点识别方法,所述方法包括:获取站点的名称主体,所述名称主体由多个元素组成;根据预定规则,将所述名称主体划分为多个元素单元,每个所述元素单元至少包括所述名称主体中的一个元素;根据所述多个元素单元对应的级别以及预设的各级别的元素单元之间的混乱度,计算所述名称主体的总混乱度;当所计算出的总混乱度超过预定阈值时,判定所述站点为作弊站点。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述元素包括英文字母、数字、特殊符号中的一种或几种,所述特殊符号包括数字符号、标点符号、或各国文字的特定字符。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述根据预定规则,将所述名称主体划分为多个元素单元,包括:如果所述名称主体中包括英文单词或汉字拼音,则将所述英文单词或汉字拼音对应的多个英文字母划入同一个元素单元;如果所述名称主体中包括数字,则将每个单独的数字作为一个单独的元素单元;如果所述名称主体中包括特殊符号,则将每个单独的特殊符号作为一个单独的元素单元。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,预设的各级别的元素单元之间的混乱度包括:各第一级元素单元之间以及各第二级元素单元之间的混乱度均为第一混乱度;第一级元素单元与第二级元素单元之间的混乱度为第二混乱度;第一级元素与第三级元素之间以及第二级元素单元与第三级元素单元之间的混乱度均为第三混乱度;各第三级元素单元之间的混乱度为第四混乱度;其中,所述第一混乱度、第二混乱度、第三混乱度以及第四混乱度之间满足:第一混乱度<第二混乱度<第三混乱度<第四混乱度。
结合第一方面的第三种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述第一混乱度为1,所述第二混论度为2,所述第三混乱度为3,所述第四混乱度为6。
结合第一方面的第三种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,仅包含一个英文单词、仅包含一个汉字拼音、或仅包含一个字母的元素单元为第一级元素单元,仅包含一个数字的元素单元为第二级元素单元,仅包含一个特殊符号的元素单元为第三级元素单元。
结合第一方面,本发明实施例提供了第一方面的第六种可能的实施方式,其中,所述根据所述多个元素单元对应的级别以及预设的各级别的元素单元之间的混乱度,计算所述名称主体的总混乱度,包括:根据各元素单元中的内容确定各元素单元对应的级别;根据各元素单元的级别以及预设的各级别的元素单元之间的混乱度,分别计算相邻两个元素单元之间的混乱度;将计算出的相邻两个元素单元之间的混乱度进行加总,得到所述名称主体的总混乱度。
结合第一方面,本发明实施例提供了第一方面的第七种可能的实施方式,其中,判断所述名称主体是站点级名称主体还是域名级名称主体;如果是站点级名称主体,则当计算出的总混乱度超过所述预定阈值时,判定所述站点为作弊站点;否则当所述名称主体下的所有站点的名称主体的平均总混乱度超过所述预定阈值时,或者当所述名称主体下的所有站点的名称主体的平均总混乱度超过所述预定阈值并且所述名称主体下的所有站点的数量大于预定个数时,判定所述站点为作弊站点。
第二方面,本发明实施例还提供了一种作弊站点识别装置,运行于服务器,所述装置包括:获取模块,用于获取站点的名称主体,所述名称主体由多个元素组成;处理模块,用于根据预定规则,将所述名称主体划分为多个元素单元,每个所述元素单元至少包括所述名称主体中的一个元素;计算模块,用于根据所述多个元素单元对应的级别以及预设的各级别的元素单元之间的混乱度,计算所述名称主体的总混乱度;判定模块,用于所述计算模块所计算出的总混乱度超过预定阈值时,判定所述站点为作弊站点。
本发明实施例提供的作弊站点识别方法及装置通过分析站点的名称主体,计算该名称主体对应的总混乱度,根据计算出的总混乱度与预定阈值比较判别出该站点是否为作弊站点,根据名称主体的总混乱度就可以识别站点是否为作弊站点,当总混乱度越大,说明站点不容易被用户分辨、记忆和输入,也就是说站点质量也越差,当总混乱度越小,说明站点的质量也越高。通过一种可量化的方法对作弊站点进行识别,提高了作弊站点识别的准确性和时效性。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例提供的作弊站点识别方法及装置的应用环境示意图;
图2示出了本发明第一实施例提供的一种作弊站点识别方法的流程示意图;
图3示出了本发明第二实施例提供的一种作弊站点识别方法的流程示意图;
图4示出了本发明第二实施例提供的一种作弊站点识别方法的部分步骤的流程示意图;
图5示出了本发明第三实施例提供的一种作弊站点识别装置的结构框图;
图6示出了本发明第四实施例提供的一种作弊站点识别装置的结构框图。
具体实施方式
本发明实施例所提供的作弊站点识别方法及装置可应用于如图1所示的计算机设备中,该计算机设备可以是个人电脑、服务器等等中的一种或者一种以上组合而成的系统。该计算机设备还可以是智能手机、平板电脑、膝上型便携计算机、车载电脑、穿戴式移动终端等等中的一种或者一种以上组合而成的系统。
如图1所示,计算机设备100可以包括存储器102、存储控制器104,一个或多个(图中仅示出一个)处理器106、外设接口108等。这些组件通过一条或多条通讯总线/信号线116相互通讯。
存储器102可用于存储软件程序以及模块,如本发明实施例中的作弊站点识别方法及装置对应的程序指令/模块,处理器106通过运行存储在存储器102内的软件程序以及模块,从而执行各种功能应用以及数据处理,如本发明实施例提供的作弊站点识别方法。
存储器102可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。处理器106以及其他可能的组件对存储器102的访问可在存储控制器104的控制下进行。
外设接口108将各种输入/输入装置耦合至处理器106以及存储器102。在一些实施例中,外设接口108,处理器106以及存储控制器104可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。
可以理解,图1所示的结构仅为示意,计算机设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置,例如可以包括射频模块、音频模块、触控屏幕等。图1中所示的各组件可以采用硬件、软件或其组合实现。
正如背景技术中提到的,有作弊倾向的站长会通过批量的生成新站点来加大自身在搜索引擎的收录量,由于用户的反馈需要时间,因此这些作弊站点可以在一定时间内获得在搜索引擎的曝光机会,但是这些作弊站点一旦被识别就会被封禁,因此就要不断更换域名再次作弊,这些作弊站点通常是通过一定技术手段生成(例如机器随机生成)用来欺骗搜索引擎的,而不是针对用户访问的,因此站点的名称与正常站点的名称在一定程度上有着明显的区别。
本发明实施例提出的作弊站点识别方法和装置就是针对作弊站点的名称与正常站点的名称的区别点,对站点的名称主体进行分析,根据预定规则计算站点的名称主体的总混乱度,通过总混乱度来判别该名称主体对应的站点是否为作弊站点的。
需要说明的是,本发明实施例中,站点的名称可以包括站点级的名称,例如map.baidu.com,也可以包括域名级的名称,例如baidu.com。
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
第一实施例
图2示出了本发明第一实施例提供的一种作弊站点识别方法的流程图,请参阅图2,所述方法包括:
步骤S110,获取站点的名称主体,所述名称主体由多个元素组成;
可以由搜索引擎的站点库或域名库获取站点的名称主体,例如由Shenma(神马搜索引擎)站点库或域名库获取。
所述元素包括英文字母、数字、特殊符号中的一种或几种,所述特殊符号包括数字符号(例如“-”)、标点符号(例如“.”)、或各国文字的特定字符(例如汉字)。
步骤S120,根据预定规则,将所述名称主体划分为多个元素单元,每个所述元素单元至少包括所述名称主体中的一个元素;
所述根据预定规则,将所述名称主体划分为多个元素单元,可以包括:
如果所述名称主体中包括英文单词或汉字拼音,则将所述英文单词或汉字拼音对应的多个英文字母划入同一个元素单元;
如果所述名称主体中包括数字,则将每个单独的数字作为一个单独的元素单元;
如果所述名称主体中包括特殊符号,则将每个单独的特殊符号作为一个单独的元素单元。
步骤S130,根据所述多个元素单元对应的级别以及预设的各级别的元素单元之间的混乱度,计算所述名称主体的总混乱度;
发明人通过大量的研究发现,一般情况下,英文单词、汉字拼音或字母对于用户来说比较容易记忆、更容易分辨,因此也就更容易输入。而一些毫无意义、杂乱无章的东西对于用户来说就比较不容易记忆。例如,机器随机生成的域名会在域名内同时出现0和o,或者1和l等不容易被用户分辨的字母和字母,或者出现0、1单独夹杂在字母间,以及o、l单独夹杂在数字间的情况,比如,lunch.8sdkxco78.com。如果出现此类特征,除非是特殊用途,很大可能由机器生成的,有作弊的意图,无法起到方便用户识别、分辨、记忆的作用。此外,如果站点名字中包括“-”等特殊符号,但是“-”并不是起到分隔作用,就很难让用户记住,如果出现多次此类特殊符号,用户也很难记住其位置。比如dsfs0837dfx-d.col128-c.8sdkxc78.com,如果这是一个站点名,用户是很难记忆的。
基于上述分析,于本实施例中,具体的,可以设定仅包含一个英文单词、仅包含一个汉字拼音、或仅包含一个字母的元素单元为第一级元素单元;仅包含一个数字的元素单元为第二级元素单元;仅包含一个特殊符号的元素单元为第三级元素单元。级别越高,其可分辨性、可记忆性和易输入性就更好。当然,也可以根据实际情况调整对级别进行调整,本发明的具体实施方式并不以此为限,例如,可以设定仅包含一个字母的元素单元为第二级元素单元。总体的思想是,包含更容易被用户分辨、记忆和输入的元素的元素单元级别越高。于本发明实施例中,第一级元素单元的级别高于第二级元素单元的级别,以此类推。
各级别的元素单元之间的混乱度可以根据元素单元对应的级别进行设定,越高级别的元素单元之间的混乱度越低,越低级别的元素单元之间的混乱度越高,混乱度越低表明更容易被用户分辨、记忆和输入,混乱度越高则相反。
需要说明的是,如果所述名称主体只能被划分为一个元素单元,说明该名称的可分辨性、记忆性和易输入性本来就很高,可以设定这种情况下的总混乱度为低,例如低于或等于最高级别的元素单元之间的混乱度。
步骤S140,当所计算出的总混乱度超过预定阈值时,判定所述站点为作弊站点。
可以理解的是,预定阈值可以根据具体需求进行设定,本发明的具体实施方式并不以预定阈值的具体大小为限。
可以理解的是,也可以根据实际需求设定几个预定阈值,例如设定第一阈值和第二阈值,第一阈值小于第二阈值,当计算出的总混乱度超过第二阈值时,判定该站点为作弊站点,当计算出的总混乱度小于第二阈值但是大于第一阈值时,可以判定该站点为低质站点。
本实施例提供的作弊站点识别方法通过分析站点的名称主体,计算该名称主体对应的总混乱度,根据计算出的总混乱度与预定阈值比较判别出该站点是否为作弊站点,根据名称主体的总混乱度就可以识别站点是否为作弊站点,当总混乱度越大,说明站点不容易被用户分辨、记忆和输入,也就是说站点质量也越差,当总混乱度越小,说明站点的质量也越高。通过一种可量化的方法对作弊站点进行识别,提高了作弊站点识别的准确性和时效性。
第二实施例
图3示出了本发明第二实施例提供的一种作弊站点识别方法的流程图。请参阅图3,本实施例描述的是计算机的处理流程,所述方法包括:
步骤S210,获取站点的名称主体,所述名称主体由多个元素组成;
步骤S220,根据预定规则,将所述名称主体划分为多个元素单元,每个所述元素单元至少包括所述名称主体中的一个元素;
步骤S230,根据各元素单元中的内容确定各元素单元对应的级别;
步骤S240,根据各元素单元的级别以及预设的各级别的元素单元之间的混乱度,分别计算相邻两个元素单元之间的混乱度;
具体的,预设的各级别的元素单元之间的混乱度可以包括:
各第一级元素单元之间以及各第二级元素单元之间的混乱度均为第一混乱度;
第一级元素单元与第二级元素单元之间的混乱度为第二混乱度;
第一级元素与第三级元素之间以及第二级元素单元与第三级元素单元之间的混乱度均为第三混乱度;
各第三级元素单元之间的混乱度为第四混乱度;
其中,所述第一混乱度、第二混乱度、第三混乱度以及第四混乱度之间满足:第一混乱度<第二混乱度<第三混乱度<第四混乱度。
例如,所述第一混乱度可以为1,所述第二混论度可以为2,所述第三混乱度可以为3,所述第四混乱度可以为6。需要说明的是,如果第一级元素单元包含英文单词或者汉字拼音,可以设定第一级元素单元中各字母之间的混乱度为0。
以仅包含一个英文单词、仅包含一个汉字拼音、或仅包含一个字母的元素单元为第一级元素单元,仅包含一个数字的元素单元为第二级元素单元,仅包含一个特殊符号的元素单元为第三级元素单元为例。定义各第一级元素单元之间以及各第二级元素单元之间的混乱度为1,如果域名特别长,哪怕都是由字母组成也会有比较高的混乱度。一般来讲,数字或字母间的间杂超过两次就难以记忆,较多的是先字母后数字,或者先数字后字母,字母和数字区隔更加明显,因此第一级元素单元与第二级元素单元之间的混乱度定义为2。特殊符号的元素由于输入一般较为麻烦,与数字或字母间的区隔更加明显,因此第一级元素与第三级元素之间以及第二级元素单元与第三级元素单元之间的混乱度定义为3。其他特殊符号之间的距离就更加遥远,比如a---.com,一是连续两个-在一些字体下会变成一个一个长直线,二是连续两个特殊符号,输入特别繁琐,因此各第三级元素单元之间的混乱度设定为6。
具体的,在一种具体实施方式中,可以先判断站点的名称主体是否包括字母,如果包括字母,继续判断是否包含英文单词,如果命中英文单词,所述单词内部的字母之间的混乱度为0。以站点名称为Happytravel.com为例,名称主体Happytravel可以被分为happy、travel这两个元素单元,这两个元素单元之间的混乱度为1。如果包括汉字拼音,可以通过声母表和韵母表去判断,声母与韵母之间的混乱度为1,以站点名称为fayin.com,名称主体fayin可以被划分为fa和yin两个元素单元,按照预定规则,其混乱度也为1。
步骤S250,将计算出的相邻两个元素单元之间的混乱度进行加总,得到所述名称主体的总混乱度。
以站点名称为df1f.com为例,名称主体df1f可以被划分为d、f、1、f四个元素单元,按照预定规则,d和f之间的混乱度为1,f和1之间的混乱度为2,1和f之间的混乱度为2,因此,名称主体df1f的总混乱度chaos=1+2+2=5。再以站点名称为df1f-1-2.com为例,名称主体df1f-1-2可以被划分为d、f、1、f、-、1、-、2八个元素单元,按照预定规则,d和f之间的混乱度为1,f和1之间的混乱度为2,1和f之间的混乱度为2,f和-之间的混乱度为3,-和1之间的混乱度为3,1和-之间的混乱度为3,-和2之间的混乱度为3,因此,名称主体df1f-1-2的总混乱度chaos=1+2+2+3+3+3+3=17。
步骤S260,当所计算出的总混乱度超过预定阈值时,判定所述站点为作弊站点。
请参照图4,进一步的,步骤S260可以包括:
步骤S261:判断所述名称主体是站点级名称主体还是域名级名称主体;
如果是站点级名称主体,则执行步骤S262,否则,执行步骤S263。
步骤S262:当计算出的总混乱度超过预定阈值时,判定所述站点为作弊站点。
具体的,可以设定预定阈值包括第一阈值和第二阈值,第一阈值例如为15,第二阈值例如为20。当计算出的总混乱度超过20时,判定该站点为作弊站点,当计算出的总混乱度小于20但是大于15时,可以判定该站点为低质站点。当然,第一阈值与第二阈值的具体数值并不构成对本发明具体实施方式的限定。
步骤S263:当所述名称主体下的所有站点的名称主体的平均总混乱度超过预定阈值,或者当所述名称主体下的所有站点的名称主体的平均总混乱度超过预定阈值并且所述名称主体下的所有站点的数量大于预定个数时,判定所述站点为作弊站点。
具体的,可以设定预定阈值包括第三阈值和第四阈值,所述第三阈值大于所述第四阈值。第三阈值例如为10,第四阈值例如为5,预定个数例如为30。当该域名级名称主体下所有站点的平均混乱度大于10,或者该域名级名称主体下所有站点的平均混乱度大于5并且站点数量大于30个时,判定该站点为作弊站点。当然第三阈值、第四阈值以及预定个数的具体数值并不构成对本发明具体实施方式的限定。
本实施例中,步骤S210,S220,S230可以参考第一实施例中的对应部分,这里不再赘述。
发明人通过将该方法用在Shenma(神马搜索引擎)站点库发现,原先有20亿以上站点的站点库,通过该方法,可以将站点库中的站点降到6亿左右。通过将该方法用在Shenma(神马搜索引擎)域名库发现,域名库中识别的作弊域名翻倍增加,增加了100万。因此,可以看出,该方法可以有效的识别作弊站点。
第三实施例
图5示出了本发明第三实施例提供的一种作弊站点识别装置的结构框图,请参阅图5,本实施例中的装置30包括:
获取模块31,用于获取站点的名称主体,所述名称主体由多个元素组成;
处理模块32,用于根据预定规则,将所述名称主体划分为多个元素单元,每个所述元素单元至少包括所述名称主体中的一个元素;
计算模块33,用于根据所述多个元素单元对应的级别以及预设的各级别的元素单元之间的混乱度,计算所述名称主体的总混乱度;
判定模块34,用于所述计算模块所计算出的总混乱度超过预定阈值时,判定所述站点为作弊站点。
所述元素包括英文字母、数字、特殊符号中的一种或几种,所述特殊符号包括数字符号、标点符号、或各国文字的特定字符。
进一步的,所述处理模块32具体用于:
如果所述名称主体中包括英文单词或汉字拼音,则将所述英文单词或汉字拼音对应的多个英文字母划入同一个元素单元;
如果所述名称主体中包括数字,则将每个单独的数字作为一个单独的元素单元;
如果所述名称主体中包括特殊符号,则将每个单独的特殊符号作为一个单独的元素单元。
进一步的,可以设定仅包含一个英文单词、仅包含一个汉字拼音、或仅包含一个字母的元素单元为第一级元素单元,仅包含一个数字的元素单元为第二级元素单元,仅包含一个特殊符号的元素单元为第三级元素单元。
进一步的,预设的各级别的元素单元之间的混乱度包括:
各第一级元素单元之间以及各第二级元素单元之间的混乱度均为第一混乱度;
第一级元素单元与第二级元素单元之间的混乱度为第二混乱度;
第一级元素与第三级元素之间以及第二级元素单元与第三级元素单元之间的混乱度均为第三混乱度;
各第三级元素单元之间的混乱度为第四混乱度;
其中,所述第一混乱度、第二混乱度、第三混乱度以及第四混乱度之间满足:第一混乱度<第二混乱度<第三混乱度<第四混乱度。
进一步的,所述第一混乱度可以为1,所述第二混论度可以为2,所述第三混乱度可以为3,所述第四混乱度可以为6。
本实施例中的各单元可以是由软件代码实现,此时,上述的各单元可存储于计算机设备100的存储器102内。以上各单元同样可以由硬件例如集成电路芯片实现。
第四实施例
图6示出了本发明第四实施例提供的作弊站点识别装置的结构框图,请参照图6,本实施例中的装置可运行于计算机,本实施例中的装置40包括:
获取模块41,用于获取站点的名称主体,所述名称主体由多个元素组成;
处理模块42,用于根据预定规则,将所述名称主体划分为多个元素单元,每个所述元素单元至少包括所述名称主体中的一个元素;
计算模块43,用于根据所述多个元素单元对应的级别以及预设的各级别的元素单元之间的混乱度,计算所述名称主体的总混乱度;
判定模块44,用于所述计算模块所计算出的总混乱度超过预定阈值时,判定所述站点为作弊站点。
所述计算模块43包括:
级别确定单元431,用于根据各元素单元中的内容确定各元素单元对应的级别;
第一计算单元432,用于根据各元素单元的级别以及预设的各级别的元素单元之间的混乱度,分别计算相邻两个元素单元之间的混乱度;
第二计算单元433,用于将计算出的相邻两个元素单元之间的混乱度进行加总,得到所述名称主体的总混乱度。
本实施例中的各单元可以是由软件代码实现,此时,上述的各单元可存储于计算机设备100的存储器102内。以上各单元同样可以由硬件例如集成电路芯片实现。
综上所述,本发明实施例提供的作弊站点识别方法及装置本发明实施例提供的作弊站点识别方法及装置通过分析站点的名称主体,计算该名称主体对应的总混乱度,根据计算出的总混乱度与预定阈值比较判别出该站点是否为作弊站点,根据名称主体的总混乱度就可以识别站点是否为作弊站点,当总混乱度越大,说明站点不容易被用户分辨、记忆和输入,也就是说站点质量也越差,当总混乱度越小,说明站点的质量也越高。通过一种可量化的方法对作弊站点进行识别,提高了作弊站点识别的准确性和时效性。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本发明实施例所提供的作弊站点识别装置及系统,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
另外,附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本发明实施例所提供的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

Claims (16)

1.一种作弊站点识别方法,其特征在于,所述方法包括:
获取站点的名称主体,所述名称主体由多个元素组成;
根据预定规则,将所述名称主体划分为多个元素单元,每个所述元素单元至少包括所述名称主体中的一个元素;
根据所述多个元素单元对应的级别以及预设的各级别的元素单元之间的混乱度,计算所述名称主体的总混乱度;
当所计算出的总混乱度超过预定阈值时,判定所述站点为作弊站点。
2.如权利要求1所述的方法,其特征在于,所述元素包括英文字母、数字、特殊符号中的一种或几种,所述特殊符号包括数字符号、标点符号、或各国文字的特定字符。
3.如权利要求2所述的方法,其特征在于,所述根据预定规则,将所述名称主体划分为多个元素单元,包括:
如果所述名称主体中包括英文单词或汉字拼音,则将所述英文单词或汉字拼音对应的多个英文字母划入同一个元素单元;
如果所述名称主体中包括数字,则将每个单独的数字作为一个单独的元素单元;
如果所述名称主体中包括特殊符号,则将每个单独的特殊符号作为一个单独的元素单元。
4.如权利要求2所述的方法,其特征在于,预设的各级别的元素单元之间的混乱度包括:
各第一级元素单元之间以及各第二级元素单元之间的混乱度均为第一混乱度;
第一级元素单元与第二级元素单元之间的混乱度为第二混乱度;
第一级元素与第三级元素之间以及第二级元素单元与第三级元素单元之间的混乱度均为第三混乱度;
各第三级元素单元之间的混乱度为第四混乱度;
其中,所述第一混乱度、第二混乱度、第三混乱度以及第四混乱度之间满足:第一混乱度<第二混乱度<第三混乱度<第四混乱度。
5.如权利要求4所述的方法,其特征在于,所述第一混乱度为1,所述第二混论度为2,所述第三混乱度为3,所述第四混乱度为6。
6.如权利要求4所述的方法,其特征在于,仅包含一个英文单词、仅包含一个汉字拼音、或仅包含一个字母的元素单元为第一级元素单元,仅包含一个数字的元素单元为第二级元素单元,仅包含一个特殊符号的元素单元为第三级元素单元。
7.如权利要求1所述的方法,其特征在于,所述根据所述多个元素单元对应的级别以及预设的各级别的元素单元之间的混乱度,计算所述名称主体的总混乱度,包括:
根据各元素单元中的内容确定各元素单元对应的级别;
根据各元素单元的级别以及预设的各级别的元素单元之间的混乱度,分别计算相邻两个元素单元之间的混乱度;
将计算出的相邻两个元素单元之间的混乱度进行加总,得到所述名称主体的总混乱度。
8.如权利要求1所述的方法,其特征在于,所述当所计算出的总混乱度超过预定阈值时,判定所述站点为作弊站点,包括:
判断所述名称主体是站点级名称主体还是域名级名称主体;
如果是站点级名称主体,则当计算出的总混乱度超过所述预定阈值时,判定所述站点为作弊站点;否则当所述名称主体下的所有站点的名称主体的平均总混乱度超过所述预定阈值时,或者当所述名称主体下的所有站点的名称主体的平均总混乱度超过所述预定阈值并且所述名称主体下的所有站点的数量大于预定个数时,判定所述站点为作弊站点。
9.一种作弊站点识别装置,其特征在于,所述装置包括:
获取模块,用于获取站点的名称主体,所述名称主体由多个元素组成;
处理模块,用于根据预定规则,将所述名称主体划分为多个元素单元,每个所述元素单元至少包括所述名称主体中的一个元素;
计算模块,用于根据所述多个元素单元对应的级别以及预设的各级别的元素单元之间的混乱度,计算所述名称主体的总混乱度;
判定模块,用于当所述计算模块所计算出的总混乱度超过预定阈值时,判定所述站点为作弊站点。
10.如权利要求9所述的装置,其特征在于,所述元素包括英文字母、数字、特殊符号中的一种或几种,所述特殊符号包括数字符号、标点符号、或各国文字的特定字符。
11.如权利要求10所述的装置,其特征在于,所述处理模块具体用于:
如果所述名称主体中包括英文单词或汉字拼音,则将所述英文单词或汉字拼音对应的多个英文字母划入同一个元素单元;
如果所述名称主体中包括数字,则将每个单独的数字作为一个单独的元素单元;
如果所述名称主体中包括特殊符号,则将每个单独的特殊符号作为一个单独的元素单元。
12.如权利要求10所述的装置,其特征在于,预设的各级别的元素单元之间的混乱度包括:
各第一级元素单元之间以及各第二级元素单元之间的混乱度均为第一混乱度;
第一级元素单元与第二级元素单元之间的混乱度为第二混乱度;
第一级元素与第三级元素之间以及第二级元素单元与第三级元素单元之间的混乱度均为第三混乱度;
各第三级元素单元之间的混乱度为第四混乱度;
其中,所述第一混乱度、第二混乱度、第三混乱度以及第四混乱度之间满足:第一混乱度<第二混乱度<第三混乱度<第四混乱度。
13.如权利要求12所述的装置,其特征在于,所述第一混乱度为1,所述第二混论度为2,所述第三混乱度为3,所述第四混乱度为6。
14.如权利要求10所述的装置,其特征在于,仅包含一个英文单词、仅包含一个汉字拼音、或仅包含一个字母的元素单元为第一级元素单元,仅包含一个数字的元素单元为第二级元素单元,仅包含一个特殊符号的元素单元为第三级元素单元。
15.如权利要求9所述的装置,其特征在于,所述计算模块包括:
级别确定单元,用于根据各元素单元中的内容确定各元素单元对应的级别;
第一计算单元,用于根据各元素单元的级别以及预设的各级别的元素单元之间的混乱度,分别计算相邻两个元素单元之间的混乱度;
第二计算单元,用于将计算出的相邻两个元素单元之间的混乱度进行加总,得到所述名称主体的总混乱度。
16.如权利要求10所述的装置,其特征在于,所述判定模块具体还用于:
判断所述名称主体是站点级名称主体还是域名级名称主体;
如果是站点级名称主体,则当计算出的总混乱度超过所述预定阈值时,判定所述站点为作弊站点;否则当所述名称主体下的所有站点的名称主体的平均总混乱度超过所述预定阈值时,或者当所述名称主体下的所有站点的名称主体的平均总混乱度超过所述预定阈值并且所述名称主体下的所有站点的数量大于预定个数时,判定所述站点为作弊站点。
CN201510711915.8A 2015-10-27 2015-10-27 作弊站点识别方法及装置 Active CN105373598B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510711915.8A CN105373598B (zh) 2015-10-27 2015-10-27 作弊站点识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510711915.8A CN105373598B (zh) 2015-10-27 2015-10-27 作弊站点识别方法及装置

Publications (2)

Publication Number Publication Date
CN105373598A true CN105373598A (zh) 2016-03-02
CN105373598B CN105373598B (zh) 2017-03-15

Family

ID=55375797

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510711915.8A Active CN105373598B (zh) 2015-10-27 2015-10-27 作弊站点识别方法及装置

Country Status (1)

Country Link
CN (1) CN105373598B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109246074A (zh) * 2018-07-23 2019-01-18 北京奇虎科技有限公司 识别可疑域名的方法、装置、服务器及可读存储介质
CN114707847A (zh) * 2022-03-30 2022-07-05 南昌菱形信息技术有限公司 基于5g技术的智慧工厂人员流动检测方法与系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101180624A (zh) * 2004-10-28 2008-05-14 雅虎公司 基于链接的垃圾检测
US20080222451A1 (en) * 2007-03-07 2008-09-11 Microsoft Corporation Active spam testing system
CN101493819A (zh) * 2008-01-24 2009-07-29 中国科学院自动化研究所 一种搜索引擎作弊检测的优化方法
CN103984753A (zh) * 2014-05-28 2014-08-13 北京京东尚科信息技术有限公司 一种网络爬虫去重特征值的提取方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101180624A (zh) * 2004-10-28 2008-05-14 雅虎公司 基于链接的垃圾检测
US20080222451A1 (en) * 2007-03-07 2008-09-11 Microsoft Corporation Active spam testing system
CN101493819A (zh) * 2008-01-24 2009-07-29 中国科学院自动化研究所 一种搜索引擎作弊检测的优化方法
CN103984753A (zh) * 2014-05-28 2014-08-13 北京京东尚科信息技术有限公司 一种网络爬虫去重特征值的提取方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李智超 等: "网页作弊与反作弊技术综述", 《山东大学学报(理学版)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109246074A (zh) * 2018-07-23 2019-01-18 北京奇虎科技有限公司 识别可疑域名的方法、装置、服务器及可读存储介质
CN114707847A (zh) * 2022-03-30 2022-07-05 南昌菱形信息技术有限公司 基于5g技术的智慧工厂人员流动检测方法与系统
CN114707847B (zh) * 2022-03-30 2023-05-26 南昌菱形信息技术有限公司 基于5g技术的智慧工厂人员流动检测方法与系统

Also Published As

Publication number Publication date
CN105373598B (zh) 2017-03-15

Similar Documents

Publication Publication Date Title
CN107193805B (zh) 基于人工智能的文章价值评估方法、装置及存储介质
CN103885608A (zh) 一种输入方法及系统
JP6122800B2 (ja) 電子機器、文字列表示方法、および文字列表示プログラム
CN111858905B (zh) 模型训练方法、信息识别方法、装置、电子设备及存储介质
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN107341143A (zh) 一种句子连贯性判断方法及装置和电子设备
CN103177204A (zh) 密码信息提示方法及装置
CN103870553A (zh) 一种输入资源推送方法及系统
CN112364625A (zh) 文本筛选方法、装置、设备及存储介质
CN108717469B (zh) 一种帖子排序方法、装置、设备及计算机可读存储介质
CN108932533A (zh) 识别模型构建方法及装置、字符识别方法及装置
CN112528013A (zh) 文本摘要提取方法、装置、电子设备及存储介质
CN103970913A (zh) Utf-8与ansi编码识别方法以及装置
CN106598409A (zh) 文本复制方法、装置和智能终端
CN115438650A (zh) 融合多源特征的合同文本纠错方法、系统、设备及介质
CN113312899B (zh) 文本分类方法、装置和电子设备
CN109033224B (zh) 一种风险文本识别方法和装置
CN106649210A (zh) 一种数据转换方法及装置
CN105373598A (zh) 作弊站点识别方法及装置
CN105260092A (zh) 一种动态改变输入键盘的方法和装置
CN103294223A (zh) 一种中文拼音的输入方法及终端设备
CN112527967A (zh) 文本匹配方法、装置、终端和存储介质
CN112699780A (zh) 对象识别方法、装置、设备及存储介质
CN104850385A (zh) 字符显示的控制方法、装置及超薄卡式设备和卡体
CN112579781A (zh) 文本归类方法、装置、电子设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200612

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 510627 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping square B radio tower 12 layer self unit 01

Patentee before: GUANGZHOU SHENMA MOBILE INFORMATION TECHNOLOGY Co.,Ltd.