CN105069107B - 监控网站的方法和装置 - Google Patents

监控网站的方法和装置 Download PDF

Info

Publication number
CN105069107B
CN105069107B CN201510484880.9A CN201510484880A CN105069107B CN 105069107 B CN105069107 B CN 105069107B CN 201510484880 A CN201510484880 A CN 201510484880A CN 105069107 B CN105069107 B CN 105069107B
Authority
CN
China
Prior art keywords
navigation
node
information
violation
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510484880.9A
Other languages
English (en)
Other versions
CN105069107A (zh
Inventor
王新远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510484880.9A priority Critical patent/CN105069107B/zh
Publication of CN105069107A publication Critical patent/CN105069107A/zh
Application granted granted Critical
Publication of CN105069107B publication Critical patent/CN105069107B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了监控网站的方法和装置。监控网站的方法包括获取第一导航栏信息,第一导航栏信息为待审核网站的导航栏信息;获取第一内部导航链接信息,第一内部导航链接信息为第一导航栏信息中的内部导航链接信息;提取第一内部导航链接信息中的特征词;比对提取的特征词与已确认的违规特征词表中的违规特征词,得到命中违规特征词的命中数量;根据命中的数量,提示对网站的监控信息。按照本申请实施方式的技术方案,有效提取了网站中的关键词,因此不需要依赖太多的外部样本数据,同时提高了识别结果的精确度。

Description

监控网站的方法和装置
技术领域
本申请涉及计算机网络技术领域,具体涉及网站监控技术领域,尤其涉及监控网站的方法和装置。
背景技术
随着互联网技术的飞速发展,各种各样的网站为用户从网上获取资讯或在网上休闲娱乐提供了极大的便利,在网络畅通的情况下,用户可以随时地访问资讯类网站或娱乐类网站等。
然而,在大量的网站中,存在着一部分不符合公共道德或国家法律法规的网站,例如赌博类网站、色情类网站、反动类网站等。这些网站的内容给用户造成了很大困扰,并给用户的生活带来恶劣的影响。
现有技术中,通常采用以下两种方案对违规网站进行监控:方案一、采用机器学习的方案进行违规网站的识别,提取网页上的各种通用特征,线下通过大量违规样本对模型进行训练,线上通过模型对网站进行审核,根据审核的结果对网站进行监控。方案二、提取网站的全文信息,线下通过人工积累不同违规类型的网站的违规词表。线上对全文信息进行匹配违规词表,命中词表则匹配成功,根据匹配的结果对网站进行监控。
然而,现有技术中对违规网站进行监控的方法,存在如下缺陷:方案一对样本有非常明显的依赖,如果样本较少,无法训练出准确的模型以识别违规网站,从而对网站的监控的准确度较低。方案二网站全文的信息量大,包含与网站主体不相关的信息,提取的网站全文的关键词误差较大,再通过提取的关键词去匹配违规词表,会造成大量的误判,从而使得对网站的监控误差较大。
发明内容
鉴于现有技术中的上述缺陷或不足,期望能够提供一种准确度高、误差较小的方案。为了实现上述一个或多个目的,本申请提供了监控网站的方法和装置。
第一方面,本申请提供了一种监控网站的方法,所述方法包括:获取第一导航栏信息,所述第一导航栏信息为待审核网站的导航栏信息;获取第一内部导航链接信息,所述第一内部导航链接信息为所述第一导航栏信息中的内部导航链接信息;提取所述第一内部导航链接信息中的特征词;比对提取的特征词与已确认的违规特征词表中的违规特征词,得到命中所述违规特征词的命中数量;根据命中的数量,提示对所述网站的监控信息。
第二方面,本申请提供了一种监控网站的装置,所述装置包括:第一获取单元,用于获取第一导航栏信息,所述第一导航栏信息为待审核网站的导航栏信息;第二获取单元,用于获取第一内部导航链接信息,所述第一内部导航链接信息为所述第一导航栏信息中的内部导航链接信息;提取单元,用于提取所述第一内部导航链接信息中的特征词;比对单元,用于比对提取的特征词与已确认的违规特征词表中的违规特征词,得到命中所述违规特征词的命中数量;提示单元,用于根据命中的数量,提示对所述网站的监控信息。
本申请提供的监控网站的方法和装置,能够获取待审核网站的网页的导航栏信息,接着获取导航栏信息中的内部导航链接信息,然后提取内部导航链接信息中的特征词,之后比对提取的特征词与已确认的违规特征词表中的违规特征词,得到命中违规特征词的命中数量;之后根据命中数量,提示对网站的监控信息。本申请实施方式的监控网站的方法有效提取了网站中的关键词,因此不需要依赖太多的外部样本数据,同时提高了识别包括违规特征词的网站的精确度,进而提示对网站的监控信息,提高了管理违规网站的效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出了根据本申请实施例的监控网站的方法的一种示例性流程图;
图2示出了根据本申请实施例的获取第一导航栏信息的方法的一种示例性流程图;
图3示出了根据本申请实施例的判断叶节点是否为内部导航链接节点的方法的示例性流程图;
图4示出了根据本申请实施例的网页源码的部分代码的示意图;
图5示出了根据本申请实施例的生成已确认的违规特征词表的方法的一种示例性流程图;
图6示出了根据本申请实施例的监控网站的装置的一种示意性结构图;
图7示出了根据本申请实施例的第一获取单元的一种示意性结构图;
图8示出了根据本申请实施例的生成已确认的违规特征词表的单元的一种示意性结构图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
首先,请参考图1,图1示出了根据本申请实施例的监控网站的方法的一种示例性流程图100。
如图1所示,监控网站的方法100包括:
在步骤101中,获取第一导航栏信息,第一导航栏信息为待审核网站的导航栏信息。
在本实施例中,可以先获取待审核网站的网页信息,之后从网页信息中获取文档对象模型树,再获取文档模型树中的导航栏节点,最后获取导航栏节点的信息作为导航栏信息。其中导航栏信息是指网页中用于指示导航内容的信息,从而使访问者能够更快速准确的找到所搜索的资源。
通常,网页导航栏节点会包括一些可供识别的标识,可以通过识别这些标识中的一种或多种标识来识别网页导航栏节点。例如导航栏节点位于包括主体<body>标签的网页源代码中,网页导航栏节点的子节点中至少有3-4个以上的导航链接节点,导航栏节点的子节点中不会有导航栏节点,导航栏节点的子节点中不会出现不是导航栏链接节点的链接节点等。
在步骤102中,获取第一内部导航链接信息,第一内部导航链接信息为第一导航栏信息中的内部导航链接信息。
在本实施例中,在获取上述的内部导航栏信息之后,可以获取其中包括的内部导航链接节点,再获取内部导航链接节点的信息作为内部导航链接信息。
在本实施例的一些可选实现方式中,获取网页导航栏信息中的内部导航链接信息可以包括:获取网页导航栏信息中的内部导航链接节点的内文本信息。
通常,内部导航链接节点也会包括一些可供识别的标识,可以通过识别这些标识中的一种或多种标识来识别内部导航链接节点。例如导航链接节点的标签为a,导航链接的文本信息的长度一般为2-8,即内文本innerText的length∈[2,8],导航链接节点的链接一般指向的是本站地址,即超文本引用href地址和本页面地址所在的顶级域是一样的等。
在步骤103中,提取第一内部导航链接信息中的特征词。
在本实施例中,特征词是指包含有可以使一个词异于其他词的特点的词语。在上述的步骤102中获取第一内部导航链接信息后,可以提取第一内部导航链接信息中的特征词,也即提取由内部导航链接信息中包括的汉字序列切分得到的带有明显特征的词。
将汉字序列切分成词的方法有多种,例如基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法及上述分词方法的组合等现有技术中的分词方法,或未来发展的技术中的分词方法等,在此不再赘述。
在步骤104中,比对提取的特征词与已确认的违规特征词表中的违规特征词,得到命中违规特征词的命中数量。
在本实施例中,在比对提取的特征词与已确认的违规特征词时,可以将一个提取的特征词与已确认的所有违规特征词进行比对从而获得较高的准确率,也可以将一个提取的特征词的一部分与已确认的所有违规特征词进行比对从而提高比对效率。
上述的已确认的违规特征词表可以为根据输入的违规特征词逐渐积累的违规特征词的集合和/或导入的违规特征词的集合。
在步骤105中,根据命中的数量,提示对网站的监控信息。
在本实施例中,若命中的数量符合预设数量,则可以判定网站为违规网站,继而发出预设的监控信息。其中,预设数量可以为根据统计数据获得的违规网站所包括的违规特征词的数量,备选地或附加地,预设数量还可以为人工根据经验输入的违规网站所包括的违规特征词的数量。
在命中的数量符合预设数量时,提示的对网站的监控信息可以为对网站的监视报警信息和/或对网站的控制信息。
在本实施例的一些可选实现方式中,根据命中的数量,提示对网站的监控信息包括以下一项或多项:若命中数量符合预设数量,提示对网站的报警信息,例如根据命中的数量设置不同的报警等级进行报警等;若命中数量符合预设数量,提示对网站进行封禁(对违反规定的网络地址进行有限或者无限期限制的一种方式,从而对于违规者作出处罚),例如根据命中的数量对网站设置不同程度的封禁等。
本申请上述实施例提供的监控网站的方法,有效的提取了网站中的关键词,因此不需要依赖太多的外部样本数据,同时提高了识别包括违规特征词的网站的精确度,进而提示对网站的监控信息,提高了管理违规网站的效率。
进一步参考图2,其示出了根据本申请实施例的获取第一导航栏信息的方法的一种示例性流程图。
如图2所示,获取待审核网站的网页导航栏信息的方法200可以包括:
在步骤201中,获取待审核网站的网页的文档对象模型树。
在本实施例中,首先获取待审核网站的网页源代码,之后从网页源代码中获取文档对象模型DOM树。文档对象模型(Document Object Model,简称DOM),是W3C组织推荐的处理可扩展置标语言的标准编程接口,是一种基于树的API文档,它要求在处理过程中整个文档都表示在存储器中。DOM分为HTML DOM和XML DOM两种。它们分别定义了访问和操作HTML/XML文档的标准方法,并将对应的文档呈现为带有元素、属性和文本的树结构(节点树)。
DOM树具有以下特点:DOM树定义了HTML/XML文档的逻辑结构,给出了一种应用程序访问和处理XML文档的方法;在DOM树中,有一个根节点,所有其他的节点都是根节点的后代;在应用过程中,基于DOM的HTML/XML分析器将一个HTML/XML文档转换成一棵DOM树,应用程序通过对DOM树的操作,来实现对HTML/XML文档数据的操作。
在步骤202中,获取文档对象模型树中包括主体标签的节点。
在本实施例中,在获取上述的文档对象模型树之后,可以获取对象模型树中包括主体<body>标签的节点。
在步骤203中,获取包括主体标签的节点及其子节点中的导航栏节点。其中,导航栏节点仅包括叶节点,所述叶节点为导航链接节点,所述导航链接节点中内部导航链接节点的数量符合预设数量且大于外部导航链接节点的数量。在这里,叶节点是指含有的子树的个数为0的节点。
在本实施例中,在获取包括主体标签的节点之后,可以获取该节点的子节点,并在该节点及其子节点中,搜索导航栏节点。
在搜索导航拦节点时,可以按照以下特征进行搜索:以该节点为根的树中,至少包含预设数量的内部导航链接(例如包含3个以上的内部导航链接);以该节点为根的树中,内部导航链接节点的数量大于外部导航链接节点的数量;以该节点为根的树中,不能包含非导航链接节点;以该节点为根的树中,如果根为导航栏节点,则所有的子孙节点不再可能为导航栏节点。
在步骤204中,获取导航栏节点的内文本信息。
在本实施例中,获取导航栏节点之后,可以获取导航栏节点的源代码,从导航栏节点的源代码中获取导航栏节点的内文本innertext信息。
在步骤205中,将导航栏节点的内文本信息作为第一导航栏信息。
在本实施例中,在获取了导航栏节点的内文本信息之后,可以将获取的内文本信息作为第一导航栏信息。
本申请上述实施例提供的获取第一导航栏信息的方法,有效的获取了导航栏节点的内文本信息作为第一导航栏信息,准确的获取了导航栏节点的内文本信息,从而提高了获取提取的特征词的精确度,提高了识别违规网站的精确度,从而提高了管理违规网站的效率。
进一步参考图3,其示出了根据本申请实施例的判断叶节点是否为内部导航链接节点的方法300的一种示例性流程图。
在步骤301中,判断叶节点是否包括链接节点的标签,若是,则执行步骤302,若否,则执行步骤303;
在步骤302中,识别叶节点为链接节点,执行步骤304;
在步骤303中,识别叶节点为非链接节点。
在步骤304中,判断叶节点的内文本的长度是否符合预设长度,若符合,则执行步骤305,若不符合,则执行步骤306;
在步骤305中,识别叶节点为导航链接节点,执行步骤307;
在步骤306中,识别叶节点为非导航链接节点。
在步骤307中,判断叶节点的超文本引用的顶级域名和二级域名是否分别与叶节点所在的网页的顶级域名和二级域名相同,若相同,执行步骤308,若不相同,则执行步骤309;
在步骤308中,识别叶节点为内部导航链接节点。
在步骤309中,识别叶节点为外部导航链接节点。
在这里,顶级域名是指由两个或两个以上的词构成的域名中由点号分隔开的最右边的那个词。顶级域名又分为两类:一是国家和地区的顶级域名(country code top-leveldomains,简称nTLDs),目前200多个国家都按照ISO3166国家代码分配了顶级域名,例如中国是cn,日本是jp等;二是国际顶级域名(generic top-level domains,简称gTLDs),例如表示工商企业的.com,表示网络提供商的.net,表示非盈利组织的.org等。二级域名是指Second-level domain,缩写为SLD,是互联网DNS等级之中,处于顶级域名之下的域。二级域名是域名的倒数第二个部分,例如在example.com这个域名中,二级域名是example。
上面描述了本申请实施例的判断叶节点是否为内部导航链接节点的方法的一种示例性流程图,本领域技术人员应当可以理解,该流程图中的一些步骤是可选的而非必要的步骤,例如在步骤303中识别叶节点为非链接节点以及在步骤306中识别叶节点为非导航链接节点等。因此,该流程图并非对于本申请的限定,以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。
本申请上述实施例提供的判断叶节点是否为内部导航链接节点的方法,能够有效的判断叶节点是否为内部导航链接节点,从而准确的判断导航栏节点,进而获取导航栏节点的内文本信息,提高了获取提取的特征词的精确度。
根据本申请上述实施例,在监控网站的方法的一个具体的应用场景中,可以先获取网站的网页源码,其中网页源码的部分代码如图4所示,之后对获取的网页源码,获取其中所有的主体<body>标签所在的节点,判断<body>标签所在的节点及其子节点是否仅包括3个以上的叶节点,并且叶节点包括网页<a>标签,叶节点的内文本的长度满足长度2-8,且叶节点的超文本引用href指向本站地址,提取图4中的内文本innerText,即:图片区、偷拍自拍、亚洲图片、欧美图片等;接着从网页的文档对象模型树DOM的根节点递归遍历,获得所有满足条件的导航栏节点,图4中符合条件的只有id等于nav1的<ul>节点,得到该节点的innerText:图片区\n偷拍自拍\n亚洲图片\n欧美图片;然后将该节点的innerText与线下积累的色情类型导航栏词表,如:偷拍自拍、强奸乱伦、经典三级、性爱技巧、清纯唯美、美腿丝袜、欧美色图、制服丝袜、亚洲情色、亚洲色图、亚洲图片、欧美性爱、校园春色等进行比对,比对结果命中了“偷拍自拍”和“亚洲图片”这两个词,该网站被识别为色情网站,从而提示对该网站的报警信息。
进一步参考图5,图5示出了根据本申请实施例的生成已确认的违规特征词表的方法的一种示例性流程图。
如图5所示,生成已确认的违规特征此表的方法500包括:
在步骤501中,获取第二导航栏信息,第二导航栏信息为违规网站中已确认的违规导航栏信息。
在本实施例中,对于每一个违规类型,准备数十个违规网站的样本,获取违规网站的样本中的违规导航栏信息作为第二导航栏信息。
在步骤502中,获取第二内部导航链接信息,第二内部导航链接信息为第二导航栏信息中的内部导航链接信息。
在步骤503中,对第二内部导航链接信息进行分词,得到分词数组。
在本实施例中,分词是指将第二内部导航链接信息中包含的汉字序列切分成一个一个带有明显特征的词。在分词时,可以采用现有技术中的分词方法或未来发展的分词方法来完成分词,例如采用基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法及上述分词方法的组合等分词方法完成分词。
在步骤504中,对分词数组去重并计算词的出现频率。
在本实施例中,在对第二内部导航链接信息进行分词,得到分词数组之后,可以对分词数组去除重复文本,并将去除的重复文本计入词的出现频率中。
在步骤505中,根据去重后的分词数组及词的出现频率,生成违规特征词表。
在本实施例中,可以将去重后的分词数组及词的出现频率随机排列生成违规特征词表,也可以将去重后的分词数组及词的出现频率按照一定的规则排序后生成违规特征词表。例如,可以按照违规特征词的出现频率由高至低排序后生成违规特征词表,以提高比对提取的特征词与分词数组中的违规特征词的效率;或按照词的拼音索引顺序排序后生成违规特征词表,在比对时仅比对分词数组中与提取的特征词的拼音索引相同的违规特征词及词的出现频率即可,进一步提高比对效率。
在本实施例的一些可选实现方式中,为了进一步增强违规特征词表的准确性,根据去重后的分词数组及其出现频率,生成违规特征词表还可以包括:呈现确认去重后的分词数组是否违规的提示;根据接收的确认去重后的分词数组违规的操作,确定违规特征词;根据违规特征词及其出现频率,生成违规特征词表。在这里增加了对去重后的违规特征词的确认步骤,从而提高了违规特征词表的准确性,进而提高网站的监控方法的准确性。
请参考图6,图6示出了根据本申请实施例的监控网站的装置的一种示意性结构图。
如图6所示,监控网站的装置600可以包括但不限于:第一获取单元610,第二获取单元620,提取单元630,比对单元640和提示单元650。
其中,第一获取单元610,配置用于获取第一导航栏信息,第一导航栏信息为待审核网站的导航栏信息。第二获取单元620,配置用于获取第一内部导航链接信息,第一内部导航链接信息为第一导航栏信息中的内部导航链接信息。在一些可选地实现方式中,第二获取单元获取的第一内部导航链接信息可以包括:第一导航栏信息中的内部导航链接节点的内文本信息。提取单元630,配置用于提取第一内部导航链接信息中的特征词;比对单元640,配置用于比对提取的特征词与已确认的违规特征词表中的违规特征词,得到命中违规特征词的命中数量;提示单元650,配置用于根据命中的数量,提示对网站的监控信息。
在本实施例中,通常网页导航栏节点会包括一些可供识别的标识,可以通过识别这些标识中的一种或多种标识来识别网页导航栏节点。例如导航栏节点位于包括主体<body>标签的网页源代码中,网页导航栏节点的子节点中至少有3-4个以上的导航链接节点,导航栏节点的子节点中不会有导航栏节点,导航栏节点的子节点中不会出现不是导航栏链接节点的链接节点等。
内部导航链接节点也会包括一些可供识别的标识,可以通过识别这些标识中的一种或多种标识来识别内部导航链接节点。例如导航链接节点的标签为a,导航链接的文本信息的长度一般为2-8,即内文本innerText的length∈[2,8],导航链接节点的链接一般指向的是本站地址,即超文本引用href地址和本页面地址所在的顶级域是一样的等。
在提取第一内部导航链接信息中的特征词时,可以通过现有技术中的分词方法,或未来发展的技术中的分词方法将内部导航链接信息中包括的汉字序列切分,得到带有明显特征的词,在此不再赘述。
在一些可选地实现方式中,提示单元650包括以下一项或多项:报警提示单元,用于若命中的数量符合预设数量,提示对网站的报警信息;封禁提示单元,用于若命中的数量符合预设数量,提示对网站进行封禁(对违反规定的网络地址进行有限或者无限期限制的一种方式,从而对于违规者作出处罚)。
请参考图7,图7示出了根据本申请实施例的第一获取单元的一种示意性结构图。
如图7所示,上述的第一获取单元610可以包括但不限于:第一获取子单元611,第二获取子单元612,第三获取子单元613,第四获取子单元614和作为子单元615。
其中,第一获取子单元611,配置用于获取待审核网站的网页的文档对象模型树;第二获取子单元612,配置用于获取文档对象模型树中包括主体标签的节点;第三获取子单元613,配置用于获取包括主体标签的节点及其子节点中的导航栏节点,导航栏节点仅包括叶节点,所述叶节点为导航链接节点,所述导航链接节点中内部导航链接节点的数量符合预设数量且大于外部导航链接节点的数量;第四获取子单元614,配置用于获取导航栏节点的内文本信息;作为子单元615,配置用于将导航栏节点的内文本信息作为第一导航栏信息。
在本实施例中,在获取包括主体标签的节点之后,可以获取该节点的子节点,并在该节点及其子节点中,搜索导航栏节点。
在搜索导航拦节点时,可以按照以下特征进行搜索:以该节点为根的树中,至少包含预设数量的内部导航链接(例如包含3个以上的内部导航链接);以该节点为根的树中,内部导航链接的数量大于外部导航链接的数量;以该节点为根的树中,不能包含非导航链接节点;以该节点为根的树中,如果根为导航栏节点,则所有的子孙节点不再可能为导航栏节点。
在一些可选地实现方式中,第三获取子单元613用于通过以下步骤判断叶节点为内部导航链接节点:判断叶节点是否包括链接节点的标签;若是,判断叶节点的内文本的长度是否符合预设长度;若是,判断叶节点的超文本引用的顶级域名和二级域名是否分别与叶节点所在的网页的顶级域名和二级域名相同;若是,则识别叶节点为内部导航链接节点。
请参考图8,图8示出了根据本申请实施例的生成已确认的违规特征词表的单元的一种示意性结构图。
如图8所示,生成已确认的违规特征词表的单元800可以包括但不限于:第五获取子单元810,第六获取子单元820,分词子单元830,去重计算子单元840和生成子单元850。
其中,第五获取子单元810,配置用于获取第二导航栏信息,第二导航栏信息为违规网站中已确认的违规导航栏信息;第六获取子单元820,配置用于获取第二内部导航链接信息,第二内部导航链接信息为第二导航栏信息中的内部导航链接信息;分词子单元830,配置用于对第二内部导航链接信息进行分词,得到分词数组;去重计算子单元840,配置用于对分词数组去重并计算词的出现频率;生成子单元850,配置用于根据去重后的分词数组及词的出现频率,生成违规特征词表。
在一些可选地实现方式中,生成子单元850进一步配置用于:呈现确认去重后的分词数组是否违规的提示;根据接收的确认去重后的分词数组违规的操作,确定违规特征词;根据违规特征词及其出现频率,生成违规特征词表。
应当理解,装置600中记载的诸单元与参考图1描述的方法中的各个步骤相对应。单元610中记载的诸子单元与参考图2描述的方法中的各个步骤相对应。单元800中记载的诸子单元与参考图5描述的方法中的各个步骤相对应。由此,上文针对监控网站的方法描述的操作和特征同样适用于装置600及其中包含的单元,上文针对获取待审核网站的网页导航栏信息的方法描述的操作和特征同样适用于单元610及其中包含的子单元,上文针对生成已确认的违规特征词表的方法描述的操作和特征同样适用于单元800及其中包含的子单元,在此不再赘述。装置600中的相应单元、单元610中的相应子单元和单元800中的相应子单元可以与终端设备和/或服务器中的单元相互配合以实现本申请实施例的方案。
本申请上述实施例提供的监控网站的装置,有效的提取了网站中的关键词,因此不需要依赖太多的外部样本数据,同时提高了识别包括违规特征词的网站的精确度,进而提示对网站的监控信息,提高了管理违规网站的效率。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括第一获取单元,第二获取单元,提取单元,比对单元和提示单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“用于获取第一导航栏信息,第一导航栏信息为待审核网站的导航栏信息的单元”。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,程序被一个或者一个以上的处理器用来执行描述于本申请的监控网站的方法。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (14)

1.一种监控网站的方法,其特征在于,所述方法包括:
获取第一导航栏信息,所述第一导航栏信息为待审核网站的导航栏信息;
获取第一内部导航链接信息,所述第一内部导航链接信息为所述第一导航栏信息中的内部导航链接信息;
提取所述第一内部导航链接信息中的特征词;
比对提取的特征词与已确认的违规特征词表中的违规特征词,得到命中所述违规特征词的命中数量;
根据命中的数量,提示对所述网站的监控信息。
2.根据权利要求1所述的方法,其特征在于,所述获取第一导航栏信息包括:
获取待审核网站的网页的文档对象模型树;
获取所述文档对象模型树中包括主体标签的节点;
获取包括主体标签的节点及其子节点中的导航栏节点,所述导航栏节点仅包括叶节点,所述叶节点为导航链接节点,所述导航链接节点中内部导航链接节点的数量符合预设数量且大于外部导航链接节点的数量;
获取所述导航栏节点的内文本信息;
将所述导航栏节点的内文本信息作为第一导航栏信息。
3.根据权利要求2所述的方法,其特征在于,所述叶节点为内部导航链接节点通过以下步骤识别:
判断所述叶节点是否包括链接节点的标签;
若是,判断所述叶节点的内文本的长度是否符合预设长度;
若是,判断所述叶节点的超文本引用的顶级域名和二级域名是否分别与所述叶节点所在的网页的顶级域名和二级域名相同;
若是,则识别所述叶节点为内部导航链接节点。
4.根据权利要求2所述的方法,其特征在于,所述第一内部导航链接信息包括:
所述第一导航栏信息中的内部导航链接节点的内文本信息。
5.根据权利要求2所述的方法,其特征在于,所述已确认的违规特征词表通过以下步骤生成:
获取第二导航栏信息,所述第二导航栏信息为违规网站中已确认的违规导航栏信息;
获取第二内部导航链接信息,所述第二内部导航链接信息为所述第二导航栏信息中的内部导航链接信息;
对所述第二内部导航链接信息进行分词,得到分词数组;
对所述分词数组去重并计算词的出现频率;
根据去重后的分词数组及所述词的出现频率,生成违规特征词表。
6.根据权利要求5所述的方法,其特征在于,所述根据去重后的分词数组及其出现频率,生成违规特征词表包括:
呈现确认所述去重后的分词数组是否违规的提示;
根据接收的确认所述去重后的分词数组违规的操作,确定违规特征词;
根据所述违规特征词及其出现频率,生成违规特征词表。
7.根据权利要求1-6之一所述的方法,其特征在于,所述根据命中的数量,提示对所述网站的监控信息包括以下一项或多项:
若命中的数量符合预设数量,提示对所述网站的报警信息;
若命中的数量符合预设数量,提示对所述网站进行封禁。
8.一种监控网站的装置,其特征在于,所述装置包括:
第一获取单元,用于获取第一导航栏信息,所述第一导航栏信息为待审核网站的导航栏信息;
第二获取单元,用于获取第一内部导航链接信息,所述第一内部导航链接信息为所述第一导航栏信息中的内部导航链接信息;
提取单元,用于提取所述第一内部导航链接信息中的特征词;
比对单元,用于比对提取的特征词与已确认的违规特征词表中的违规特征词,得到命中所述违规特征词的命中数量;
提示单元,用于根据命中的数量,提示对所述网站的监控信息。
9.根据权利要求8所述的装置,其特征在于,所述第一获取单元包括:
第一获取子单元,用于获取待审核网站的网页的文档对象模型树;
第二获取子单元,用于获取所述文档对象模型树中包括主体标签的节点;
第三获取子单元,用于获取包括主体标签的节点及其子节点中的导航栏节点,所述导航栏节点仅包括叶节点,所述叶节点为导航链接节点,所述导航链接节点中内部导航链接节点的数量符合预设数量且大于外部导航链接节点的数量;
第四获取子单元,用于获取所述导航栏节点的内文本信息;
作为子单元,用于将所述导航栏节点的内文本信息作为第一导航栏信息。
10.根据权利要求9所述的装置,其特征在于,所述第三获取子单元用于通过以下步骤判断叶节点为内部导航链接节点:
判断所述叶节点是否包括链接节点的标签;
若是,判断所述叶节点的内文本的长度是否符合预设长度;
若是,判断所述叶节点的超文本引用的顶级域名和二级域名是否分别与所述叶节点所在的网页的顶级域名和二级域名相同;
若是,则识别所述叶节点为内部导航链接节点。
11.根据权利要求9所述的装置,其特征在于,所述第二获取单元获取的第一内部导航链接信息包括:
所述第一导航栏信息中的内部导航链接节点的内文本信息。
12.根据权利要求9所述的装置,其特征在于,所述比对单元中已确认的违规特征词表通过以下单元生成:
第五获取子单元,用于获取第二导航栏信息,所述第二导航栏信息为违规网站中已确认的违规导航栏信息;
第六获取子单元,用于获取第二内部导航链接信息,所述第二内部导航链接信息为所述第二导航栏信息中的内部导航链接信息;
分词子单元,用于对所述第二内部导航链接信息进行分词,得到分词数组;
去重计算子单元,用于对所述分词数组去重并计算词的出现频率;
生成子单元,用于根据去重后的分词数组及所述词的出现频率,生成违规特征词表。
13.根据权利要求12所述的装置,其特征在于,所述生成子单元进一步用于:
呈现确认所述去重后的分词数组是否违规的提示;
根据接收的确认所述去重后的分词数组违规的操作,确定违规特征词;
根据所述违规特征词及其出现频率,生成违规特征词表。
14.根据权利要求8-13之一所述的装置,其特征在于,所述提示单元包括以下一项或多项:
报警提示单元,用于若命中的数量符合预设数量,提示对所述网站的报警信息;
封禁提示单元,用于若命中的数量符合预设数量,提示对所述网站进行封禁。
CN201510484880.9A 2015-08-07 2015-08-07 监控网站的方法和装置 Active CN105069107B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510484880.9A CN105069107B (zh) 2015-08-07 2015-08-07 监控网站的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510484880.9A CN105069107B (zh) 2015-08-07 2015-08-07 监控网站的方法和装置

Publications (2)

Publication Number Publication Date
CN105069107A CN105069107A (zh) 2015-11-18
CN105069107B true CN105069107B (zh) 2019-03-05

Family

ID=54498477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510484880.9A Active CN105069107B (zh) 2015-08-07 2015-08-07 监控网站的方法和装置

Country Status (1)

Country Link
CN (1) CN105069107B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108234392B (zh) * 2016-12-14 2021-06-08 北京国双科技有限公司 一种网站的监控方法及装置
CN108694325B (zh) * 2017-04-10 2020-12-29 北大方正集团有限公司 指定类型网站的辨别方法和指定类型网站的辨别装置
CN107609173A (zh) * 2017-09-28 2018-01-19 云天弈(北京)信息技术有限公司 一种用于资讯内容违规量化分析的方法
CN111339457B (zh) 2018-12-18 2023-09-08 富士通株式会社 用于从网页抽取信息的方法和设备及存储介质
CN110917626A (zh) * 2019-11-29 2020-03-27 武汉极意网络科技有限公司 基于机器学习的游戏盗量监督方法和装置
CN111625748B (zh) * 2020-06-01 2024-01-09 深圳市小满科技有限公司 网站的导航栏信息提取方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101296128A (zh) * 2007-04-24 2008-10-29 北京大学 一种对互联网信息进行异常状态监测的方法
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法
CN102663025A (zh) * 2012-03-22 2012-09-12 浙江盘石信息技术有限公司 一种违规在线商品检测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100042953A1 (en) * 2008-08-18 2010-02-18 Douglas Albert Stewart Method, computer, and computer program for displaying a hierarchical navigation scheme
CN102663018B (zh) * 2012-03-21 2013-08-07 北京华清泰和科技有限公司 网站监控预警方法
CN104348650B (zh) * 2013-08-05 2019-07-16 腾讯科技(深圳)有限公司 网站的监控方法、业务装置及系统
CN103685575B (zh) * 2014-01-06 2018-09-07 洪高颖 一种基于云架构的网站安全监控方法
CN104182478A (zh) * 2014-08-01 2014-12-03 北京华清泰和科技有限公司 一种网站监控预警方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101296128A (zh) * 2007-04-24 2008-10-29 北京大学 一种对互联网信息进行异常状态监测的方法
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法
CN102663025A (zh) * 2012-03-22 2012-09-12 浙江盘石信息技术有限公司 一种违规在线商品检测方法

Also Published As

Publication number Publication date
CN105069107A (zh) 2015-11-18

Similar Documents

Publication Publication Date Title
CN105069107B (zh) 监控网站的方法和装置
Andow et al. {PolicyLint}: Investigating internal privacy policy contradictions on google play
CN108376160B (zh) 一种中文知识图谱构建方法和系统
US9323839B2 (en) Classification rule generation device, classification rule generation method, classification rule generation program, and recording medium
CN102279875B (zh) 钓鱼网站的识别方法和装置
US20150295942A1 (en) Method and server for performing cloud detection for malicious information
CN103888490B (zh) 一种全自动的web客户端人机识别的方法
US20160140109A1 (en) Generation of a semantic model from textual listings
CN110390038B (zh) 基于dom树的页面分块方法、装置、设备及存储介质
US10621255B2 (en) Identifying equivalent links on a page
CN108038173B (zh) 一种网页分类方法、系统及一种网页分类设备
US9110852B1 (en) Methods and systems for extracting information from text
CN110110156A (zh) 行业舆情监控方法、装置、计算机设备及存储介质
CN107862039B (zh) 网页数据获取方法、系统和数据匹配推送方法
CN108881138A (zh) 一种网页请求识别方法及装置
CN104765882B (zh) 一种基于网页特征字符串的互联网网站统计方法
CN109582954A (zh) 用于输出信息的方法和装置
CN111726336A (zh) 一种联网智能设备识别信息提取方法及系统
CN106446123A (zh) 一种网页中验证码元素识别方法
CN110134844A (zh) 细分领域舆情监控方法、装置、计算机设备及存储介质
CN115314236A (zh) 在域名系统(dns)记录集中检测网络钓鱼域的系统和方法
CN112232075A (zh) 基于时间格式和网页元素特征的文章发布时间识别方法
US11074306B2 (en) Web content extraction method, device, storage medium
CN109889471B (zh) 结构化查询语句sql注入检测方法和系统
CN106897287A (zh) 网页发布时间抽取方法和用于网页发布时间抽取的装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant