CN106557517A - 网站的分类管理方法及装置 - Google Patents

网站的分类管理方法及装置 Download PDF

Info

Publication number
CN106557517A
CN106557517A CN201510634683.0A CN201510634683A CN106557517A CN 106557517 A CN106557517 A CN 106557517A CN 201510634683 A CN201510634683 A CN 201510634683A CN 106557517 A CN106557517 A CN 106557517A
Authority
CN
China
Prior art keywords
website
predetermined
information
predetermined website
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510634683.0A
Other languages
English (en)
Inventor
徐元峰
牛朋涛
李曙聪
董长阳
蒋智超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510634683.0A priority Critical patent/CN106557517A/zh
Publication of CN106557517A publication Critical patent/CN106557517A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种网站的分类管理方法及装置,其中的方法包括:根据预定网站识别模型识别出预定数据库中的预定网站集合;将所述预定网站集合中的每个预定网站进行信息聚合;将每个网站的信息聚合结果发送给信息管理系统,以使信息管理系统对网站进行管理。该方法通过不同的识别模型识别出对应的网站集合,并将网站集合中每个网站进行信息聚合以实现对网站的管理,可以针对不同类型的网站实现不同方式的监管,保证了网站管理的准确性。

Description

网站的分类管理方法及装置
技术领域
本发明涉及计算机领域,尤其涉及一种网站的分类管理方法及装置。
背景技术
随着互联网的迅速发展,网站的数量也在不断增加,网站的风格和形式也设计的千变万化,用户在浏览网站时并不能及时准确的获知该网站发布的信息或相关的服务是否安全,由于缺乏对网站的管理,会使有些网民在有风险的网站进行操作后造成精神或经济上的损失。
发明内容
本发明的目的是提供一种新型的网站的分类管理方法和装置。
根据本发明的一个方面,提供了一种网站的分类管理方法,包括:
根据预定网站识别模型识别出预定数据库中的预定网站集合;
将所述预定网站集合中的每个预定网站进行信息聚合;
将每个网站的信息聚合结果发送给信息管理系统,以使信息管理系统对网站进行管理。
根据本发明的另一个方面,提供了一种网站的分类管理装置,包括:
用于根据预定网站识别模型识别出预定数据库中的预定网站集合的装置;
用于将所述预定网站集合中的每个预定网站进行信息聚合的装置;
用于将每个网站的信息聚合结果发送给信息管理系统,以使信息管理系统对网站进行管理的装置。
由于本实施例的网站的分类管理方法及装置,通过不同的识别模型识别出对应的网站集合,并将网站集合中每个网站进行信息聚合以实现对网站的管理,可以针对不同类型的网站实现不同方式的监管,保证了网站管理的准确性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出了根据本发明实施例一网站的分类管理方法的流程图。
图2示出了根据本发明实施例一网站的分类管理方法中步骤S110的具体流程图。
图3示出了根据本发明实施例一网站的分类管理方法中步骤S110的另一具体流程图。
图4示出了根据本发明实施例一网站类型的识别方法的另一流程图。
图5示出了根据本发明实施例一针对金融类网站的分类管理方法的流程图。
图6示出了根据本发明实施例另一针对金融类网站的分类管理方法的流程图。
图7示出了根据本发明实施例一网站的分类管理装置的结构框图。
图8示出了根据本发明实施例另一网站的分类管理装置的结构框图。
具体实施方式
本领域普通技术人员将了解,虽然下面的详细说明将参考图示实施例、附图进行,但本发明并不仅限于这些实施例。而是,本发明的范围是广泛的,且意在仅通过后附的权利要求限定本发明的范围
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
在上下文中所称“计算机终端”,也称为“电脑”,是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子终端,其可以包括处理器与存储器,由处理器执行在存储器中预存的存续指令来执行预定处理过程,或是由ASIC、FPGA、DSP等硬件执行预定处理过程,或是由上述二者组合来实现。计算机终端包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。
所述计算机终端包括用户终端与网络终端。其中,所述用户终端包括但不限于电脑、智能手机、PDA等;所述网络终端包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,所述计算机终端可单独运行来实现本发明,也可接入网络并通过与网络中的其他计算机终端的交互操作来实现本发明。其中,所述计算机终端所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
需要说明的是,所述用户终端、网络终端和网络等仅为举例,其他现有的或今后可能出现的计算机终端或网络如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时,用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。
这里所公开的具体结构和功能细节仅仅是代表性的,并且是用于描述本发明的示例性实施例的目的。但是本发明可以通过许多替换形式来具体实现,并且不应当被解释成仅仅受限于这里所阐述的实施例。
应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一单元可以被称为第二单元,并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。
应当理解的是,当一个单元被称为“连接”或“耦合”到另一单元时,其可以直接连接或耦合到所述另一单元,或者可以存在中间单元。与此相对,当一个单元被称为“直接连接”或“直接耦合”到另一单元时,则不存在中间单元。应当按照类似的方式来解释被用于描述单元之间的关系的其他词语(例如“处于...之间”相比于“直接处于...之间”,“与...邻近”相比于“与...直接邻近”等等)。
这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指,否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是,这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在,而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。
还应当提到的是,在一些替换实现方式中,所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说,取决于所涉及的功能/动作,相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。
下面结合附图对本发明作进一步详细描述。
图1是根据本发明一个实施例的网站的分类管理方法的流程图。
结合图1中所示,本实施例所述的网站的分类管理方法,包括如下步骤:
S110、根据预定网站识别模型识别出预定数据库中的预定网站集合;
S120、将预定网站集合中的每个预定网站进行信息聚合;
S130、将每个网站的信息聚合结果发送给信息管理系统,以使信息管理系统对网站进行管理。
下面对各步骤做进一步详细介绍。
结合图2所示,步骤S110中预定网站识别模型的建立步骤可以包括:
S1101、抓取预定数据库中的网页。
具体地,本发明实施例对网页的抓取方式不做具体限定,只要能够实现从预定数据库中抓取出对应的网页的现有技术均可。例如可以通过全文检索搜索引擎,即通过爬行程序(Spider程序)到各个完整收集并存储信息以完成网页的抓取。例如:可以在预定数据库中通过Spider程序抓取金融类相关的网页,或支付类相关网页等。
S1102、根据抓取的网页的特征信息按照预定规则建立预定网站识别模型。
具体地,获取网页的特征信息的步骤可以包括:
A)根据抓取的网页建立文档对象模型(Document Object Model,DOM)树。
具体地,将每个网页中的对象或属性作为节点,根据层级结构组成节点树,该节点树即为DOM树。建立DOM树是为了提高网页信息的覆盖率、时效性、更新率和有效性。
B)根据建立的DOM树中的节点进行分析后提取特征信息。
具体地,由于DOM树中每个节点均为该网页的对象和属性,且该网页的所有对象和属性均以作为节点,故DOM树中的节点包括了网页的所有信息,通过DOM树中的节点进行分析可以保证信息的全面性,并且DOM树中的节点在网页发生变化时会及时的对节点进行更新以保证准确性。节点可以包括但不限于:标题、正文、链接、索引和/或浮窗等。提取的特征信息可以包括但不限于:网站内容数量、交互数据流量、网页开发语言、交易信息、支付平台、联系方式、业务信息展示、行业资讯和/或历史操作记录等。
本发明实施例通过建立DOM树方式提取网页的特征信息是为了提高网页信息的覆盖率、时效性、更新率和有效性。也可以不建立DOM树,而直接根据网页的内容(例如标题、正文、链接或页脚等)进行分析提取对应的特征信息。
进一步,根据提取的网页的特征信息结合对应的行业标签规则和网站地域标准信息建立预定网站识别模型。其中,可根据以特征信息分析为基础的方式建立预定网站识别模型,根据特征信息、对应的行业标签规则和网站地域标准信息按照层次分析法、数据拟合法、回归分析法或目标规划法建立预定网站识别模型。
结合图3所示,步骤S110中预定网站识别模型的建立步骤还可以包括:
S1103、抓取预定数据库中的网页。
具体地,本发明实施例对网页的抓取方式不做具体限定,只要能够实现从预定数据库中抓取出对应的网页的现有技术均可。例如可以通过全文检索搜索引擎,即通过爬行程序(Spider程序)到各个完整收集并存储信息以完成网页的抓取。
S1104、根据抓取的网页的特征信息按照预定规则建立初级网站识别模型。
具体地,获取网页的特征信息的步骤可以包括:
A)根据抓取的网页建立文档对象模型(Document Object Model,DOM)树。
具体地,将每个网页中的对象或属性作为节点,根据层级结构组成节点树,该节点树即为DOM树。建立DOM树是为了提高网页信息的覆盖率、时效性、更新率和有效性。
B)根据建立的DOM树中的节点进行分析后提取特征信息。
具体地,由于DOM树中每个节点均为该网页的对象和属性,且该网页的所有对象和属性均以作为节点,故DOM树中的节点包括了网页的所有信息,通过DOM树中的节点进行分析可以保证信息的全面性,并且DOM树中的节点在网页发生变化时会及时的对节点进行更新以保证准确性。节点可以包括但不限于:标题、正文、链接、索引和/或浮窗等。提取的特征信息可以包括但不限于:网站内容数量、交互数据流量、网页开发语言、交易信息、支付平台、联系方式、业务信息展示、行业资讯和/或历史操作记录等。
本发明实施例通过建立DOM树方式提取网页的特征信息是为了提高网页信息的覆盖率、时效性、更新率和有效性。也可以不建立DOM树,而直接根据网页的内容(例如标题、正文、链接或页脚等)进行分析提取对应的特征信息。
进一步,根据提取的网页的特征信息结合对应的行业标签规则和网站地域标准信息建立初级网站识别模型。其中,可根据以特征信息分析为基础的方式建立预定网站识别模型,根据特征信息、对应的行业标签规则和网站地域标准信息按照层次分析法、数据拟合法、回归分析法或目标规划法建立预定网站识别模型。
S1105、直到对初级网站识别模型进行迭代训练后的识别率超过阈值时形成预定网站识别模型。
具体地,根据初级网站识别模型中识别准确率大于等于第一预定值的第一网站集合重复步骤S1104,即根据第一网站集合中每个网站的网页的特征信息按照预定规则进行迭代和训练,直到模型识别准确率大于等于第一预定值的网站数量的占比满足预期目标,则形成预定网站识别模型。第一预定值和预期目标可以根据用户或系统的要求随时进行调节,一般情况下,预期目标应大于等于80%。
根据步骤S1102或S1105中的预定网站识别模型识别出预定数据库中的预定网站集合。预定网站识别模型可以针对不同的网站类型建立的模型,例如:金融类网站识别模型、支付类网站识别模型或银行类网站识别模型等。例如:通过金融类网站识别模型可以识别出预定数据库中与金融相关的网站集合;通过银行类网站识别模型可以识别出预定数据库中与银行相关的网站集合。即通过预定网站识别模型实现对预定数据库中网站的分类。
步骤S120中,根据预定信息类型查找预定网站集合中每个预定网站的内容,确定每个网站中预定信息类型对应的信息,预定信息类型包括网站经营主体、网站行业数据、网站风险提示和网站信用证明中的至少之一。
具体地,对识别出的预定网站集合中的每个网站根据网站经营主体、网站行业数据、网站风险提示和/或网站信用证明进行信息查找,以确定该网站的经营范围和安全性。
步骤S120可以包括以下至少一个步骤:
S1201、查找每个预定网站的内容,确定包括网站名称、联系方式和/或经营地址的经营主体。
具体地,可以根据网站、联系电话、传真、网址、地址、经营范围、服务范围或业务领域等关键词对预定网站的网页内容进行分析,以确定每个预定网站的经营主体。
S1202、根据行业分类规则对每个预定网站中网页内容进行识别和分析,确定网站行业数据。
具体地,可以通过网站的历史操作记录提取每个预定网站的网页特征字段,根据行业分类规则对提取出的每个预定网站的网页特征字段进行识别和分析,确定网站行业数据。行业数据可以是网站的具体行业分类或行业周期等。
S1203、根据网站经营主体的信用记录、违规历史、行业风险等级确定网站风险提示。
具体地,网站风险提示可以是该网站有1次违规记录,风险等级1级;或者,该网站的行业风险等级较高,经营主体的信用记录未查到,风险等级5级。
S1204、根据网站的备案数据、信用公示信息、标准组织认证数据和/或执照数据确定网站信用证明。
具体地,网站的备案数据一般为因特网内容提供商(Internet ContentProvider,ICP)的备案数据。网络信用证明一般均为官方认证的证明文件。
步骤S130中,信息管理系统接收到每个网站的信息聚合结果后,可以通过线下监管确定每个网站的安全性和合法性,以实现信息管理部门对网站的管理。
结合图4所示,本发明实施例还可以包括以下步骤:
S140、接收信息管理系统反馈的对预定网站集合中的每个预定网站的测评结果,根据测评结果对预定网站集合进行整理。
具体地,信息管理系统可以通过线下监管反馈每个预定网站的测评结果,也可以通过信息管理系统的检索引擎对系统中保存的官方数据对每个预定网站反馈测评结果。进一步,可以将测评结果不合格的网站在预定网站集合中删除。
S150、接收信息管理系统反馈的对预定网站集合中的每个预定网站的测评结果,根据测评结果对预定网站识别模型进行优化和训练。
具体地,信息管理系统可以通过线下监管反馈每个预定网站的测评结果,也可以通过信息管理系统的检索引擎对系统中保存的官方数据对每个预定网站反馈测评结果。进一步,可以根据测评结果对预定网站识别模型进行优化和训练,从而形成了网站的分类管理数据和服务的闭环,以实现预定网站识别模型的准确。
结合图5中所示,本发明实施例所述的另一网站的分类管理方法,具体针对金融类网站的分类管理,包括:
S510、网站的分类管理装置抓取预定数据库中的网页。
S520、网站的分类管理装置根据抓取的网页的特征信息按照预定规则建立预定网站识别模型。
例如:根据网页的交易信息、支付平台、联系方式、业务信息展示、行业资讯和/或历史操作记录等特征信息集合金融行业标签规则和中国地域标准信息建立金融类网站识别模型。
S530、网站的分类管理装置根据预定网站识别模型识别出预定数据库中的预定网站集合。
例如:根据金融类网站识别模型识别出预定数据库中与金融相关的网站集合。
S540、网站的分类管理装置根据预定信息类型查找预定网站集合中每个预定网站的内容,确定每个网站中预定信息类型对应的信息,预定信息类型包括网站经营主体、网站行业数据、网站风险提示和/或网站信用证明。具体包括以下至少一个步骤:
S5401、查找每个预定网站的内容,确定包括网站名称、联系方式和/或经营地址的经营主体。
S5402、根据行业分类规则对每个预定网站中网页内容进行识别和分析,确定网站行业数据。
S5403、根据网站经营主体的信用记录、违规历史、行业风险等级确定网站风险提示。
S5404、根据网站的备案数据、信用公示信息、标准组织认证数据和/或执照数据确定网站信用证明。
S550、网站的分类管理装置将每个网站的信息聚合结果发送给信息管理系统。
S560、信息管理系统接收到每个网站的信息聚合结果后,通过线下监管确定每个网站的安全性和合法性,以实现信息管理部门对网站的管理。
结合图6中所示,本发明实施例所述的又一网站的分类管理方法,具体针对金融类网站的分类管理,包括:
S610、网站的分类管理装置抓取预定数据库中的网页。
S620、网站的分类管理装置根据抓取的网页的特征信息按照预定规则建立初级网站识别模型。
例如:根据网页的交易信息、支付平台、联系方式、业务信息展示、行业资讯和/或历史操作记录等特征信息集合金融行业标签规则和中国地域标准信息建立金融类初级网站识别模型。
S630、网站的分类管理装置直到对初级网站识别模型进行迭代训练后的识别率超过阈值时形成预定网站识别模型。
例如:通过金融类初级网站识别模型中识别率大于等于90%的网站重复步骤S620对金融类初级网站识别模型进行迭代训练后,形成识别准确率大于等于90%的网站数量的占比大于等于90%的金融类网站识别模型。
S640、网站的分类管理装置根据预定网站识别模型识别出预定数据库中的预定网站集合。
例如:网站的分类管理装置根据金融类网站识别模型识别出预定数据库中与金融相关的网站集合。
S650、网站的分类管理装置根据预定信息类型查找预定网站集合中每个预定网站的内容,确定每个网站中预定信息类型对应的信息,预定信息类型包括网站经营主体、网站行业数据、网站风险提示和/或网站信用证明。具体包括以下至少一个步骤:
S6501、查找每个预定网站的内容,确定包括网站名称、联系方式和/或经营地址的经营主体。
S6502、根据行业分类规则对每个预定网站中网页内容进行识别和分析,确定网站行业数据。
S6503、根据网站经营主体的信用记录、违规历史、行业风险等级确定网站风险提示。
S6504、根据网站的备案数据、信用公示信息、标准组织认证数据和/或执照数据确定网站信用证明。
S660、网站的分类管理装置将每个网站的信息聚合结果发送给信息管理系统。
S670、信息管理系统接收到每个网站的信息聚合结果后,反馈对预定网站集合中的每个预定网站的测评结果。
S680、网站的分类管理装置根据测评结果对预定网站集合进行整理。
S690、网站的分类管理装置根据接收到的测评结果对预定网站识别模型进行优化和训练。
结合图7中所示,本实施例所述的网站的分类管理装置,包括如下装置:
用于根据预定网站识别模型识别出预定数据库中的预定网站集合的装置(以下简称“网站识别单元”)110;
用于将预定网站集合中的每个预定网站进行信息聚合的装置(以下简称“信息聚合单元”)120;
用于将每个网站的信息聚合结果发送给信息管理系统,以使信息管理系统对网站进行管理的装置(以下简称“发送单元”)130。
下面对各装置做进一步详细介绍。
结合图8所示网站识别单元110中包括:
用于建立预定网站识别模型的装置(以下简称“第一模型建立子单元”)1101,第一模型建立子单元1101可以包括:
用于抓取预定数据库中的网页的装置(以下简称“第一网页抓取子单元”)11011。
具体地,本发明实施例对网页的抓取方式不做具体限定,只要能够实现从预定数据库中抓取出对应的网页的现有技术均可。例如可以通过全文检索搜索引擎,即通过爬行程序(Spider程序)到各个完整收集并存储信息以完成网页的抓取。例如:可以在预定数据库中通过Spider程序抓取金融类相关的网页,或支付类相关网页等。
用于根据抓取的网页的特征信息按照预定规则建立预定网站识别模型的装置(以下简称“第一预定网站识别模型建立子单元”)11012。
具体地,第一预定网站识别模型建立子单元11012还包括:
用于获取网页的特征信息的装置(以下简称“特征获取子单元”)810,特征获取子单元810包括:
用于根据抓取的网页建立DOM树的装置(以下简称“DOM数建立子单元”)8101。
具体地,将每个网页中的对象或属性作为节点,根据层级结构组成节点树,该节点树即为DOM树。建立DOM树是为了提高网页信息的覆盖率、时效性、更新率和有效性。
用于根据建立的DOM树中的节点进行分析后提取特征信息的装置(以下简称“特征提取子单元”)8102。
具体地,由于DOM树中每个节点均为该网页的对象和属性,且该网页的所有对象和属性均以作为节点,故DOM树中的节点包括了网页的所有信息,通过DOM树中的节点进行分析可以保证信息的全面性,并且DOM树中的节点在网页发生变化时会及时的对节点进行更新以保证准确性。节点可以包括但不限于:标题、正文、链接、索引和/或浮窗等。提取的特征信息可以包括但不限于:网站内容数量、交互数据流量、网页开发语言、交易信息、支付平台、联系方式、业务信息展示、行业资讯和/或历史操作记录等。
本发明实施例通过建立DOM树方式提取网页的特征信息是为了提高网页信息的覆盖率、时效性、更新率和有效性。也可以不建立DOM树,而直接根据网页的内容(例如标题、正文、链接或页脚等)进行分析提取对应的特征信息。
进一步,根据提取的网页的特征信息结合对应的行业标签规则和网站地域标准信息建立预定网站识别模型。其中,可根据以特征信息分析为基础的方式建立预定网站识别模型,根据特征信息、对应的行业标签规则和网站地域标准信息按照层次分析法、数据拟合法、回归分析法或目标规划法建立预定网站识别模型。
结合图8所示,网站识别单元110中包括:
用于建立预定网站识别模型的装置(以下简称“第二模型建立子单元”)1102,第二模型建立子单元1102可以包括:
用于抓取预定数据库中的网页的装置(以下简称“第二网页抓取子单元”)11021。
具体地,本发明实施例对网页的抓取方式不做具体限定,只要能够实现从预定数据库中抓取出对应的网页的现有技术均可。例如可以通过全文检索搜索引擎,即通过爬行程序(Spider程序)到各个完整收集并存储信息以完成网页的抓取。
用于根据抓取的网页的特征信息按照预定规则建立初级网站识别模型的装置(以下简称“初级网站识别模型建立子单元”)11022。
具体地,初级网站识别模型建立子单元11022还包括:
用于获取网页的特征信息的装置(以下简称“特征获取子单元”)810,特征获取子单元810包括:
用于根据抓取的网页建立DOM树的装置(以下简称“DOM树建立子单元”)8101。
具体地,将每个网页中的对象或属性作为节点,根据层级结构组成节点树,该节点树即为DOM树。建立DOM树是为了提高网页信息的覆盖率、时效性、更新率和有效性。
用于根据建立的DOM树中的节点进行分析后提取特征信息的装置(以下简称“特征提取子单元”)8102。
具体地,由于DOM树中每个节点均为该网页的对象和属性,且该网页的所有对象和属性均以作为节点,故DOM树中的节点包括了网页的所有信息,通过DOM树中的节点进行分析可以保证信息的全面性,并且DOM树中的节点在网页发生变化时会及时的对节点进行更新以保证准确性。节点可以包括但不限于:标题、正文、链接、索引和/或浮窗等。提取的特征信息可以包括但不限于:网站内容数量、交互数据流量、网页开发语言、交易信息、支付平台、联系方式、业务信息展示、行业资讯和/或历史操作记录等。
本发明实施例通过建立DOM树方式提取网页的特征信息是为了提高网页信息的覆盖率、时效性、更新率和有效性。也可以不建立DOM树,而直接根据网页的内容(例如标题、正文、链接或页脚等)进行分析提取对应的特征信息。
进一步,根据提取的网页的特征信息结合对应的行业标签规则和网站地域标准信息建立初级网站识别模型。其中,可根据以特征信息分析为基础的方式建立预定网站识别模型,根据特征信息、对应的行业标签规则和网站地域标准信息按照层次分析法、数据拟合法、回归分析法或目标规划法建立预定网站识别模型。
用于直到对初级网站识别模型进行迭代训练后的识别率超过阈值时形成预定网站识别模型的装置(以下简称“第二预定网站识别模型建立子单元”)11023。
具体地,根据初级网站识别模型中识别准确率大于等于第一预定值的第一网站集合重复执行初级网站识别模型建立子单元11022,即根据第一网站集合中每个网站的网页的特征信息按照预定规则进行迭代和训练,直到模型识别准确率大于等于第一预定值的网站数量的占比满足预期目标,则形成预定网站识别模型。第一预定值和预期目标可以根据用户或系统的要求随时进行调节,一般情况下,预期目标应大于等于80%。
根据第一预定网站识别模型建立子单元11012或第二预定网站识别模型建立子单元11023中的预定网站识别模型识别出预定数据库中的预定网站集合。预定网站识别模型可以针对不同的网站类型建立的模型,例如:金融类网站识别模型、支付类网站识别模型或银行类网站识别模型等。例如:通过金融类网站识别模型可以识别出预定数据库中与金融相关的网站集合;通过银行类网站识别模型可以识别出预定数据库中与银行相关的网站集合。即通过预定网站识别模型实现对预定数据库中网站的分类。
信息聚合单元120中,包括:
用于根据包括网站经营主体、网站行业数据、网站风险提示和/或网站信用证明的预定信息类型查找预定网站集合中每个预定网站的内容,确定每个网站中预定信息类型对应的信息的装置(以下简称“信息确定子单元”)1201。
具体地,对识别出的预定网站集合中的每个网站根据网站经营主体、网站行业数据、网站风险提示和/或网站信用证明进行信息查找,以确定该网站的经营范围和安全性。
结合图8所示,信息确定子单元1201可以包括以下至少一个装置:
用于查找每个预定网站的内容,确定包括网站名称、联系方式和/或经营地址的经营主体的装置(以下简称“经营主体确定子单元”)12011。
具体地,可以根据网站、联系电话、传真、网址、地址、经营范围、服务范围或业务领域等关键词对预定网站的网页内容进行分析,以确定每个预定网站的经营主体。
用于根据行业分类规则对每个预定网站中网页内容进行识别和分析,确定网站行业数据的装置(以下简称“网站行业数据确定子单元”)12012。
具体地,可以通过网站的历史操作记录提取每个预定网站的网页特征字段,根据行业分类规则对提取出的每个预定网站的网页特征字段进行识别和分析,确定网站行业数据。行业数据可以是网站的具体行业分类或行业周期等。
用于根据网站经营主体的信用记录、违规历史、行业风险等级确定网站风险提示的装置(以下简称“网站风险提示确定子单元”)12013。
具体地,网站风险提示可以是该网站有1次违规记录,风险等级1级;或者,该网站的行业风险等级较高,经营主体的信用记录未查到,风险等级5级。
用于根据网站的备案数据、信用公示信息、标准组织认证数据和/或执照数据确定网站信用证明的装置(以下简称“网站信用证明确定子单元”)12014。
具体地,网站的备案数据一般为ICP的备案数据。网络信用证明一般均为官方认证的证明文件。
发送单元130中,信息管理系统接收到每个网站的信息聚合结果后,可以通过线下监管确定每个网站的安全性和合法性,以实现信息管理部门对网站的管理。
结合图8所示,本发明实施例还可以包括以下装置:
用于接收信息管理系统反馈的对预定网站集合中的每个预定网站的测评结果,根据测评结果对预定网站集合进行整理的装置(以下简称“网站集合整理单元”)140。
具体地,信息管理系统可以通过线下监管反馈每个预定网站的测评结果,也可以通过信息管理系统的检索引擎对系统中保存的官方数据对每个预定网站反馈测评结果。进一步,可以将测评结果不合格的网站在预定网站集合中删除。
用于接收信息管理系统反馈的对预定网站集合中的每个预定网站的测评结果,根据测评结果对预定网站识别模型进行优化和训练的装置(以下简称“模型优化单元”)150。
具体地,信息管理系统可以通过线下监管反馈每个预定网站的测评结果,也可以通过信息管理系统的检索引擎对系统中保存的官方数据对每个预定网站反馈测评结果。进一步,可以根据测评结果对预定网站识别模型进行优化和训练,从而形成了网站的分类管理数据和服务的闭环,以实现预定网站识别模型的准确。
本发明实施例所述的网站的分类管理方法及装置,通过不同的识别模型识别出对应的网站集合,并将网站集合中每个网站进行信息聚合以实现对网站的管理,可以针对不同类型的网站实现不同方式的监管,保证了网站管理的准确性。另外,根据信息管理系统反馈的测评结果对预定网站识别模型进行优化或预定网站集合进行整理,能够使得预定网站集合分类更明确,管理更具体化,从而大大提高了网站管理的准确性和效率。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,本发明的各个装置可采用专用集成电路(ASIC)或任何其他类似硬件终端来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似终端。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
虽然前面特别示出并且描述了示例性实施例,但是本领域技术人员将会理解的是,在不背离权利要求书的精神和范围的情况下,在其形式和细节方面可以有所变化。这里所寻求的保护在所附权利要求书中做了阐述。

Claims (16)

1.一种网站的分类管理方法,包括:
根据预定网站识别模型识别出预定数据库中的预定网站集合;
将所述预定网站集合中的每个预定网站进行信息聚合;
将每个网站的信息聚合结果发送给信息管理系统,以使信息管理系统对网站进行管理。
2.根据权利要求1所述的分类管理方法,还包括:
接收信息管理系统反馈的对预定网站集合中的每个预定网站的测评结果,根据测评结果对预定网站集合进行整理。
3.根据权利要求1所述的分类管理方法,所述预定网站识别模型的建立步骤包括:
抓取预定数据库中的网页;
根据所述抓取的网页的特征信息按照预定规则建立预定网站识别模型。
4.根据权利要求1所述的分类管理方法,所述预定网站识别模型的建立步骤包括:
抓取预定数据库中的网页;
根据所述抓取的网页的特征信息按照预定规则建立初级识别模型;
直到对所述初级网站识别模型进行迭代训练后的识别率超过阈值时形成预定网站识别模型。
5.根据权利要求3或4所述的分类管理方法,所述网页的特征信息的获取步骤包括:
根据抓取的网页建立文档对象模型DOM树;
根据建立的DOM树中的节点进行分析后提取特征信息。
6.根据权利要求1所述的分类管理方法,所述将所述预定网站集合中的每个预定网站进行信息聚合的步骤包括:
根据预定信息类型查找每个预定网站的内容,确定每个网站中预定信息类型对应的信息,所述预定信息类型包括网站经营主体、网站行业数据、网站风险提示和网站信用证明中的至少之一。
7.根据权利要求6所述的分类管理方法,所述根据预定信息类型查找每个预定网站的内容,确定每个网站中预定信息类型对应的信息的步骤包括以下至少之一:
查找每个预定网站的内容,确定包括网站名称、联系方式和/或经营地址的经营主体;
根据行业分类规则对每个预定网站中网页内容进行识别和分析,确定网站行业数据;
根据网站经营主体的信用记录、违规历史、行业风险等级确定网站风险提示;
根据网站的备案数据、信用公示信息、标准组织认证数据和/或执照数据确定网站信用证明。
8.根据权利要求1所述的分类管理方法,还包括:
接收信息管理系统反馈的对预定网站集合中的每个预定网站的测评结果,根据测评结果对预定网站识别模型进行优化和训练。
9.一种网站的分类管理装置,包括:
用于根据预定网站识别模型识别出预定数据库中的预定网站集合的装置;
用于将所述预定网站集合中的每个预定网站进行信息聚合的装置;
用于将每个网站的信息聚合结果发送给信息管理系统,以使信息管理系统对网站进行管理的装置。
10.根据权利要求9所述的分类管理装置,还包括:
用于接收信息管理系统反馈的对预定网站集合中的每个预定网站的测评结果,根据测评结果对预定网站集合进行整理的装置。
11.根据权利要求9所述的分类管理装置,所述用于根据预定网站识别模型识别出预定数据库中的预定网站集合的装置包括:
用于建立所述预定网站识别模型的装置,所述用于建立所述预定网站识别模型的装置包括:
用于抓取预定数据库中的网页的装置;
用于根据所述抓取的网页的特征信息按照预定规则建立预定网站识别模型的装置。
12.根据权利要求9所述的分类管理装置,所述用于根据预定网站识别模型识别出预定数据库中的预定网站集合的装置包括:
用于建立所述预定网站识别模型的装置,所述用于建立所述预定网站识别模型的装置包括:
用于抓取预定数据库中的网页的装置;
用于根据所述抓取的网页的特征信息按照预定规则建立初级网站识别模型的装置;
用于直到对所述初级网站识别模型进行迭代训练后的识别率超过阈值时形成预定网站识别模型的装置。
13.根据权利要求11或12所述的分类管理方法,还包括:
用于获取网页的特征信息的装置,所述用于获取网页的特征信息的装置包括:
用于根据抓取的网页建立文档对象模型DOM树的装置;
用于根据建立的DOM树中的节点进行分析后提取特征信息的装置。
14.根据权利要求9所述的分类管理装置,所述用于将所述预定网站集合中的每个预定网站进行信息聚合的装置包括:
用于根据包括网站经营主体、网站行业数据、网站风险提示和网站信用证明中至少之一的预定信息类型查找预定网站集合中每个预定网站的内容,确定每个网站中预定信息类型对应的信息的装置。
15.根据权利要求14所述的分类管理装置,所述用于根据包括网站经营主体、网站行业数据、网站风险提示和网站信用证明中至少之一的预定信息类型查找预定网站集合中每个预定网站的内容,确定每个网站中预定信息类型对应的信息的装置包括以下至少之一:
用于查找每个预定网站的内容,确定包括网站名称、联系方式和/或经营地址的经营主体的装置;
用于根据行业分类规则对每个预定网站中网页内容进行识别和分析,确定网站行业数据的装置;
用于根据网站经营主体的信用记录、违规历史、行业风险等级确定网站风险提示的装置;
用于根据网站的备案数据、信用公示信息、标准组织认证数据和/或执照数据确定网站信用证明的装置。
16.根据权利要求9所述的分类管理装置,还包括:
用于接收信息管理系统反馈的对预定网站集合中的每个预定网站的测评结果,根据测评结果对预定网站识别模型进行优化和训练的装置。
CN201510634683.0A 2015-09-29 2015-09-29 网站的分类管理方法及装置 Pending CN106557517A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510634683.0A CN106557517A (zh) 2015-09-29 2015-09-29 网站的分类管理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510634683.0A CN106557517A (zh) 2015-09-29 2015-09-29 网站的分类管理方法及装置

Publications (1)

Publication Number Publication Date
CN106557517A true CN106557517A (zh) 2017-04-05

Family

ID=58414922

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510634683.0A Pending CN106557517A (zh) 2015-09-29 2015-09-29 网站的分类管理方法及装置

Country Status (1)

Country Link
CN (1) CN106557517A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704518A (zh) * 2017-09-01 2018-02-16 洛阳市恒凯网络技术服务有限公司 一种管理网站系统
CN109460659A (zh) * 2018-09-07 2019-03-12 安徽恒科信息技术有限公司 一种政务公开网站测评管理系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101777053A (zh) * 2009-01-08 2010-07-14 北京搜狗科技发展有限公司 一种识别作弊网页的方法及系统
CN102136973A (zh) * 2010-09-08 2011-07-27 乔永清 用于网站真实数据监控的系统及方法
CN103309862A (zh) * 2012-03-07 2013-09-18 腾讯科技(深圳)有限公司 一种网页类型识别方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101777053A (zh) * 2009-01-08 2010-07-14 北京搜狗科技发展有限公司 一种识别作弊网页的方法及系统
CN102136973A (zh) * 2010-09-08 2011-07-27 乔永清 用于网站真实数据监控的系统及方法
CN103309862A (zh) * 2012-03-07 2013-09-18 腾讯科技(深圳)有限公司 一种网页类型识别方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704518A (zh) * 2017-09-01 2018-02-16 洛阳市恒凯网络技术服务有限公司 一种管理网站系统
CN109460659A (zh) * 2018-09-07 2019-03-12 安徽恒科信息技术有限公司 一种政务公开网站测评管理系统

Similar Documents

Publication Publication Date Title
CN107798571B (zh) 恶意地址/恶意订单的识别系统、方法及装置
CN101894134B (zh) 一种基于空间布局的钓鱼网页检测及其实现方法
CN108566399B (zh) 钓鱼网站识别方法及系统
CN101216825B (zh) 标引关键词提取/预测方法
CN104102639B (zh) 基于文本分类的推广触发方法和装置
JP5917719B2 (ja) 画像データベースにおける画像管理のための方法、装置、および、コンピュータで読取り可能な記録媒体
CN107341183B (zh) 一种基于暗网网站综合特征的网站分类方法
CN102170446A (zh) 一种基于空间布局与视觉特征的钓鱼网页检测方法
CN103778151A (zh) 一种识别特征群体的方法及装置和搜索方法及装置
CN103778125B (zh) 网页投放内容的分析方法和装置及自动投放方法和装置
CN101820366A (zh) 一种基于预取的钓鱼网页检测方法
CN102207936B (zh) 用于提示电子文档内容变更的方法和系统
JP2014502753A (ja) ウェブページ情報の検出方法及びシステム
CN101819573A (zh) 一种自适应的网络舆情识别方法
CN102722709A (zh) 一种垃圾图片识别方法和装置
CN103023714A (zh) 基于网络话题的活跃度与集群结构分析系统及方法
CN103164521A (zh) 一种基于用户浏览和搜索行为的关键词计算方法及装置
Mohd Selamat et al. Big data analytics—A review of data‐mining models for small and medium enterprises in the transportation sector
CN103324745A (zh) 基于贝叶斯模型的文本垃圾识别方法和系统
CN105337987A (zh) 一种网络用户身份认证方法及系统
CN105718533A (zh) 信息推送方法和装置
CN110069693A (zh) 用于确定目标页面的方法和装置
CN103544150B (zh) 为移动终端浏览器提供推荐信息的方法及系统
JP5497523B2 (ja) 代表者の信頼度を用いた検索結果順位化装置および方法
CN103745380A (zh) 一种广告投放方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170405