CN106776652B - 数据处理方法及装置 - Google Patents

数据处理方法及装置 Download PDF

Info

Publication number
CN106776652B
CN106776652B CN201510828945.7A CN201510828945A CN106776652B CN 106776652 B CN106776652 B CN 106776652B CN 201510828945 A CN201510828945 A CN 201510828945A CN 106776652 B CN106776652 B CN 106776652B
Authority
CN
China
Prior art keywords
column
preset
hierarchy
level
labels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510828945.7A
Other languages
English (en)
Other versions
CN106776652A (zh
Inventor
刘嘉
钦滨杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510828945.7A priority Critical patent/CN106776652B/zh
Publication of CN106776652A publication Critical patent/CN106776652A/zh
Application granted granted Critical
Publication of CN106776652B publication Critical patent/CN106776652B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据处理方法及装置,涉及数据处理技术领域,解决了数据聚类的准确率低的问题。本发明的主要技术方案为:获取目标网站的栏目框架,所述栏目框架中至少包括一个栏目层级;获取所述栏目框架中各个栏目层级的标题名称;根据所述栏目层级的标题名称,确定所述栏目层级在预置栏目体系中对应的栏目标签;其中,所述预置栏目体系中保存有多个所述栏目标签,和所述栏目标签分别对应的栏目内容;将同一栏目层级下的栏目内容,聚类到所述预置栏目体系对应的栏目标签中。本发明主要用于聚类数据。

Description

数据处理方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据处理方法及装置。
背景技术
随着网络技术的迅速发展,互联网中每日产生大量的资讯类数据,为使这些数据能够结构化的进行存储,因此需要对这些数据进行聚类,数据聚类是将数据或属性分类到不同的群组,也就是根据数据的内容或属性信息将数据分组到聚类,使得每个聚类中的数据共享共同的特性。通过数据聚类可以有效地执行搜索,这是因为对聚类进行搜索时,搜索到的是这一聚类的数据结果,而不是单独的数据结果,从而通过数据聚类可以减少搜索操作的数目。
目前,通过网络爬虫直接抓取网站上的数据,然后对抓取的数据进行聚类,但是将直接抓取网站数据进行聚类,会破坏资讯在原始网站的结构化结构,从而导致数据聚类的准确度低,因此现有数据聚类的准确度低。
发明内容
鉴于上述问题,提出了本发明,以便提供一种克服上述问题或者至少部分地解决上述问题的数据处理方法及装置。
为达到上述目的,本发明主要提供如下技术方案:
一方面,本发明实施例提供了一种数据处理方法,该方法包括:
获取目标网站的栏目框架,所述栏目框架中至少包括一个栏目层级;
获取所述栏目框架中各个栏目层级的标题名称;
根据所述栏目层级的标题名称,确定所述栏目层级在预置栏目体系中对应的栏目标签;其中,所述预置栏目体系中保存有多个所述栏目标签,和所述栏目标签分别对应的栏目内容;
将同一栏目层级下的栏目内容,聚类到所述预置栏目体系对应的栏目标签中。
另一方面,本发明实施例还提供一种数据处理装置,该装置包括:
获取单元,用于获取目标网站的栏目框架,所述栏目框架中至少包括一个栏目层级;
所述获取单元,还用于获取所述栏目框架中各个栏目层级的标题名称;
确定单元,根据所述栏目层级的标题名称,确定所述栏目层级在预置栏目体系中对应的栏目标签;其中,所述预置栏目体系中保存有多个所述栏目标签,和所述栏目标签分别对应的栏目内容;
聚类单元,用于将同一栏目层级下的栏目内容,聚类到所述预置栏目体系对应的栏目标签中。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明实施例提供的一种数据处理方法及装置,首先获取目标网站的栏目框架,所述栏目框架中至少包括一个栏目层级,然后获取所述栏目框架中各个栏目层级的标题名称,再根据所述栏目层级的标题名称,确定所述栏目层级在预置栏目体系中对应的栏目标签;其中,所述预置栏目体系中保存有多个所述栏目标签,和所述栏目标签分别对应的栏目内容,最后将同一栏目层级下的栏目内容,聚类到所述预置栏目体系对应的栏目标签中。与目前通过直接抓取网站数据进行数据聚类相比,本发明实施例首先获取目标网站的栏目框架,然后获取所述栏目框架中各个栏目层级的标题名称,再根据所述栏目层级的标题名称,确定所述栏目层级在预置栏目体系中对应的栏目标签,最后将同一栏目层级下的栏目内容,聚类到所述预置栏目体系对应的栏目标签中。从而可对抓取的目标网站的栏目信息进行有效整合,且最大程度保留了目标网站的原始结构信息内容,进而提高了数据聚类的准确度。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例提供的一种数据处理方法流程图;
图2为本发明实施例提供的另一种数据处理方法流程图;
图3为本发明实施例提供的一种数据处理装置的组成框图;
图4为本发明实施例提供的另一种数据处理装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为使本发明技术方案的优点更加清楚,下面结合附图和实施例对本发明作详细说明。
本发明实施例提供了一种数据处理方法,如图1所示,所述方法包括:
S101、获取目标网站的栏目框架。
其中,所述栏目框架中至少包括一个栏目层级,所述目标网站为待聚类的网站,目标网站的栏目框架是从目标网站的服务器中获取的,目标网站的服务器中将属于同一类栏目的资讯做结构化整合,并根据整合后的多类栏目组成所述目标网站的栏目框架。
在本发明实施例中,可以通过网络爬虫爬取目标网站的栏目框架,所述栏目框架包括栏目列表、栏目标签、栏目层级等内容,本发明实施例不做具体限定。需要说明的是,栏目框架可以只有一个栏目层级,也可有多个栏目层级,如2个栏目层级、5个栏目层级、6个栏目层级等,且栏目框架中的栏目层级之间具有从属关系,如二级栏目是一级栏目的子层级、三级栏目是二级栏目的子层级。
S102、获取所述栏目框架中各个栏目层级的标题名称。
其中,栏目层级的标题名称用于表示栏目层级对应的内容概要。
例如,获取到目标网站的栏目框架:一级栏目的标题名称为新闻;二级栏目为一级栏目的子层级,二级栏目的标题名称分别为政治新闻、军事新闻、金融新闻;三级栏目为二级栏目军事新闻的子层级,三级栏目的标题名称分别为国内军事新闻、国外军事新闻。
S103、根据所述栏目层级的标题名称,确定所述栏目层级在预置栏目体系中对应的栏目标签。
其中,所述预置栏目体系中保存有多个所述栏目标签,和所述栏目标签分别对应的栏目内容。对于本发明实施例,所述预置栏目体系可以根据实际数据聚类的需求进行设置,也可以根据网站数据的内容进行设置,还可以根据网站数据的来源进行设置,本发明实施例不做具体限定。所述栏目标签用于表示预置栏目体系中的各个栏目对应的名称,即对数据聚合成不同的类别后,对栏目体系中每一的栏目类别给出精确的类别主题词。例如,根据网站数据的内容设置所述预置栏目体系,所述栏目体系中具体可以包含:财经新闻、民生新闻、军事新闻、政治新闻等栏目标签。其中,财经新闻栏目标签中聚合了一些有关于财经方面的新闻信息;民生新闻栏目标签中聚合了一些有关于民生方面的新闻信息;军事新闻栏目标签中聚合了一些有关于军事方面的新闻信息;政治新闻栏目标签中聚合了一些有关于政治方面的新闻信息。
在本发明实施例中,可以通过栏目层级的标题名称和预置栏目体系中的栏目标签的相似度,确定所述栏目层级在预置栏目体系中对应的栏目标签。例如,目标网站中的某一个栏目层级的标题名称为政治新闻,预置栏目体系中存在栏目标签:军事新闻、民生新闻、政治新闻,则通过计算标题名称和栏目标签的相似度得出,标题名称为政治新闻的栏目层级在预置栏目体系中对应的栏目标签为政治新闻。
S104、将同一栏目层级下的栏目内容,聚类到所述预置栏目体系对应的栏目标签中。
在本发明实施例中,首先获取目标网站的栏目框架,然后获取所述栏目框架中各个栏目层级的标题名称,再根据所述栏目层级的标题名称,确定所述栏目层级在预置栏目体系中对应的栏目标签,最后将同一栏目层级下的栏目内容,聚类到所述预置栏目体系对应的栏目标签中。从而实现了对目标网站的特定栏目进行定制化爬取,保留了目标网站的原始数据结构,对目标网站同一栏目层级下的栏目内容进行有效的整合聚类,进而提高了数据聚类的准确度。
本发明实施例提供的一种数据处理方法,首先获取目标网站的栏目框架,所述栏目框架中至少包括一个栏目层级,然后获取所述栏目框架中各个栏目层级的标题名称,再根据所述栏目层级的标题名称,确定所述栏目层级在预置栏目体系中对应的栏目标签;其中,所述预置栏目体系中保存有多个所述栏目标签,和所述栏目标签分别对应的栏目内容,最后将同一栏目层级下的栏目内容,聚类到所述预置栏目体系对应的栏目标签中。与目前通过直接抓取网站数据进行数据聚类相比,本发明实施例首先获取目标网站的栏目框架,然后获取所述栏目框架中各个栏目层级的标题名称,再根据所述栏目层级的标题名称,确定所述栏目层级在预置栏目体系中对应的栏目标签,最后将同一栏目层级下的栏目内容,聚类到所述预置栏目体系对应的栏目标签中。从而可对抓取的目标网站的栏目信息进行有效整合,且最大程度保留了目标网站的原始结构信息内容,进而提高了数据聚类的准确度。
本发明实施例提供了另一种数据处理方法,如图2所示,所述方法包括:
S201、按照预置过滤规则过滤目标网站。
其中,所述预置过滤规则可以根据用户实际需求进行设置的,如所述预置过滤规则具体可以按照行业进行筛选目标网站,也可按照媒体进行筛选目标网站,还可以按照新闻类型筛选目标网站,本发明实施例不做具体限定。在本发明实施例中,按照预置过滤规则过滤目标网站,可以提高数据聚类的效率以及精确度。
S202、获取过滤后的目标网站的栏目框架。
其中,所述栏目框架中至少包括一个栏目层级,所述目标网站为待聚类的网站,目标网站的栏目框架是从目标网站的服务器中获取的,目标网站的服务器中将属于同一类栏目的资讯做结构化整合,并根据整合后的多类栏目组成所述目标网站的栏目框架。在本发明实施例中,可以通过网络爬虫爬取目标网站的栏目框架,所述栏目框架包括栏目列表、栏目标签、栏目层级等内容,本发明实施例不做具体限定。需要说明的是,栏目框架可以只有一个栏目层级,也可有多个栏目层级,如2个栏目层级、5个栏目层级、6个栏目层级等,且栏目框架中的栏目层级之间具有从属关系,如二级栏目是一级栏目的子层级、三级栏目是二级栏目的子层级。
S203、获取所述栏目框架中各个栏目层级的标题名称。
其中,栏目层级的标题名称用于表示栏目层级对应的内容概要。对于本发明实施例,所述获取所述栏目框架中各个栏目层级的标题名称包括:获取所述同一栏目层级下各个栏目内容的栏目名称。其中,栏目内容的栏目名称用于表示栏目内容的标题,在本发明实施例中,通过同一栏目层级下的各个栏目内容的栏目名称,可以准确的确定所述栏目层级在预置栏目体系中对应的栏目标签,从而提高了数据聚类的精确度。
S204、根据所述栏目层级的标题名称,确定所述栏目层级在预置栏目体系中对应的栏目标签。
其中,所述预置栏目体系中保存有多个所述栏目标签,和所述栏目标签分别对应的栏目内容。对于本发明实施例,所述预置栏目体系可以根据实际数据聚类的需求进行设置,也可以根据网站数据的内容进行设置,还可以根据网站数据的来源进行设置,本发明实施例不做具体限定。所述栏目标签用于表示预置栏目体系中的各个栏目对应的名称,即对数据聚合成不同的类别后,对栏目体系中每一的类别给出精确的类别主题词。例如,根据网站数据的内容设置所述预置栏目体系,所述栏目体系中具体可以包含:财经新闻、民生新闻、军事新闻、政治新闻等栏目标签。
在本发明实施例中,步骤S204包括:从预置栏目体系的栏目标签中,提取与所述栏目层级的标题名称相似度值大于等于预置阈值的栏目标签;将所述相似度值大于等于预置阈值的栏目标签,确定为所述栏目层级对应的栏目标签。
需要说明的是,所述预置阈值的大小可以根据实际情况进行设置,也可以由系统默认配置,例如,所述预置阈值具体可以为30%、50%、60%等,本发明实施例不做具体限定。需要说明的是,预置阈值设置的越大,从预置栏目体系的栏目标签中,提取到的与所述栏目层级的标题名称相似度值大于等于预置阈值的栏目标签越少;预置阈值设置的越小,从预置栏目体系的栏目标签中,提取到的与所述栏目层级的标题名称相似度值大于等于预置阈值的栏目标签越多。在本发明实施例中,通过从预置栏目体系的栏目标签中,提取与所述栏目层级的标题名称相似度值大于等于预置阈值的栏目标签,可以确定所述栏目层级在预置栏目体系中对应的栏目标签,从而可在后续步骤中将同一栏目层级中的栏目内容聚类到预置栏目体系中对应的栏目标签中,从而可对目标网站同一栏目层级下的栏目内容进行有效的整合聚类,进而提高了数据聚类的准确度。
对于本发明实施例,所述将所述相似度值大于等于预置阈值的栏目标签,确定为所述栏目层级对应的栏目标签包括:从所述相似度值大于等于预置阈值的栏目标签中,获取相似度值最高的栏目标签;将所述相似度值最高的栏目标签,确定为所述栏目层级对应的栏目标签。
对于本发明实施例,所述根据所述栏目层级的标题名称,确定所述栏目层级在预置栏目体系中对应的栏目标签包括:根据所述同一栏目层级下各个栏目内容的栏目名称,确定所述栏目层级在预置栏目体系中对应的栏目标签。在本发明实施例中,通过同一栏目层级下的各个栏目内容的栏目名称,可以准确的确定所述栏目层级在预置栏目体系中对应的栏目标签,从而提高了数据聚类的精确度。
S205、将同一栏目层级下的栏目内容,聚类到所述预置栏目体系对应的栏目标签中。
其中,所述栏目内容为网页当中的具体内容,在本发明实施例中,首先获取目标网站的栏目框架,然后获取所述栏目框架中各个栏目层级的标题名称,再根据所述栏目层级的标题名称,确定所述栏目层级在预置栏目体系中对应的栏目标签,最后将同一栏目层级下的栏目内容,聚类到所述预置栏目体系对应的栏目标签中。从而实现了对目标网站的特定栏目进行定制化爬取,保留了目标网站的原始数据结构,对目标网站同一栏目层级下的栏目内容进行有效的整合聚类,进而提高了数据聚类的准确度。对目标网站同一栏目层级下的栏目内容进行有效的整合聚类,进而提高了数据聚类的准确度。
对于本发明实施例,当不能从预置栏目体系的栏目标签中提取到与所述栏目层级的标题名称相似度值大于等于预置阈值的栏目标签时,则向客户端发送数据聚类失败指令,所述指令中携带有所述栏目层级的标题名称,以使得客户端根据所述栏目层级的标题名称更新预置栏目体系中的栏目标签。
本发明实施例提供的另一种数据处理方法,首先获取目标网站的栏目框架,所述栏目框架中至少包括一个栏目层级,然后获取所述栏目框架中各个栏目层级的标题名称,再根据所述栏目层级的标题名称,确定所述栏目层级在预置栏目体系中对应的栏目标签;其中,所述预置栏目体系中保存有多个所述栏目标签,和所述栏目标签分别对应的栏目内容,最后将同一栏目层级下的栏目内容,聚类到所述预置栏目体系对应的栏目标签中。与目前通过直接抓取网站数据进行数据聚类相比,本发明实施例首先获取目标网站的栏目框架,然后获取所述栏目框架中各个栏目层级的标题名称,再根据所述栏目层级的标题名称,确定所述栏目层级在预置栏目体系中对应的栏目标签,最后将同一栏目层级下的栏目内容,聚类到所述预置栏目体系对应的栏目标签中。从而可对抓取的目标网站的栏目信息进行有效整合,且最大程度保留了目标网站的原始结构信息内容,进而提高了数据聚类的准确度。
进一步地,本发明实施例提供一种数据处理装置,如图3所示,所述装置包括:获取单元31、确定单元32、聚类单元33。
获取单元31,用于获取目标网站的栏目框架,所述栏目框架中至少包括一个栏目层级。
所述获取单元31,还用于获取所述栏目框架中各个栏目层级的标题名称。
确定单元32,根据所述栏目层级的标题名称,确定所述栏目层级在预置栏目体系中对应的栏目标签;其中,所述预置栏目体系中保存有多个所述栏目标签,和所述栏目标签分别对应的栏目内容。
聚类单元33,用于将同一栏目层级下的栏目内容,聚类到所述预置栏目体系对应的栏目标签中。
需要说明的是,本发明实施例提供的一种数据处理装置所涉及各功能单元的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。
本发明实施例提供的一种数据处理装置,首先获取目标网站的栏目框架,所述栏目框架中至少包括一个栏目层级,然后获取所述栏目框架中各个栏目层级的标题名称,再根据所述栏目层级的标题名称,确定所述栏目层级在预置栏目体系中对应的栏目标签;其中,所述预置栏目体系中保存有多个所述栏目标签,和所述栏目标签分别对应的栏目内容,最后将同一栏目层级下的栏目内容,聚类到所述预置栏目体系对应的栏目标签中。与目前通过直接抓取网站数据进行数据聚类相比,本发明实施例首先获取目标网站的栏目框架,然后获取所述栏目框架中各个栏目层级的标题名称,再根据所述栏目层级的标题名称,确定所述栏目层级在预置栏目体系中对应的栏目标签,最后将同一栏目层级下的栏目内容,聚类到所述预置栏目体系对应的栏目标签中。从而可对抓取的目标网站的栏目信息进行有效整合,且最大程度保留了目标网站的原始结构信息内容,进而提高了数据聚类的准确度。
进一步地,本发明实施例提供另一种数据处理装置,如图4所示,所述装置包括:获取单元41、确定单元42、聚类单元43。
获取单元41,用于获取目标网站的栏目框架,所述栏目框架中至少包括一个栏目层级。
所述获取单元41,还用于获取所述栏目框架中各个栏目层级的标题名称。
确定单元42,根据所述栏目层级的标题名称,确定所述栏目层级在预置栏目体系中对应的栏目标签;其中,所述预置栏目体系中保存有多个所述栏目标签,和所述栏目标签分别对应的栏目内容。
聚类单元43,用于将同一栏目层级下的栏目内容,聚类到所述预置栏目体系对应的栏目标签中。
进一步地,所述装置还包括:过滤单元44。
所述过滤单元44,用于按照预置过滤规则过滤所述目标网站。
所述获取单元41,具体用于获取过滤后的目标网站的栏目框架。
所述获取单元41,具体用于获取所述同一栏目层级下各个栏目内容的栏目名称。
所述确定单元42,具体用于根据所述同一栏目层级下各个栏目内容的栏目名称,确定所述栏目层级在预置栏目体系中对应的栏目标签。
进一步地,所述确定单元42包括:
提取模块421,用于从预置栏目体系的栏目标签中,提取与所述栏目层级的标题名称相似度值大于等于预置阈值的栏目标签。
确定模块422,用于将所述相似度值大于等于预置阈值的栏目标签,确定为所述栏目层级对应的栏目标签。
所述提取模块421,具体用于从所述相似度值大于等于预置阈值的栏目标签中,提取相似度值最高的栏目标签。
所述确定模块422,具体用于将所述相似度值最高的栏目标签,确定为所述栏目层级对应的栏目标签。
进一步地,所述装置还包括:发送单元45。
所述发送单元45,用于当不能从预置栏目体系的栏目标签中提取到与所述栏目层级的标题名称相似度值大于等于预置阈值的栏目标签时,则向客户端发送数据聚类失败指令,所述指令中携带有所述栏目层级的标题名称,以使得客户端根据所述栏目层级的标题名称更新预置栏目体系中的栏目标签。
需要说明的是,本发明实施例提供的一种数据处理装置所涉及各功能单元的其他相应描述,可以参考图2所示方法的对应描述,在此不再赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。
本发明实施例提供的另一种数据处理装置,首先获取目标网站的栏目框架,所述栏目框架中至少包括一个栏目层级,然后获取所述栏目框架中各个栏目层级的标题名称,再根据所述栏目层级的标题名称,确定所述栏目层级在预置栏目体系中对应的栏目标签;其中,所述预置栏目体系中保存有多个所述栏目标签,和所述栏目标签分别对应的栏目内容,最后将同一栏目层级下的栏目内容,聚类到所述预置栏目体系对应的栏目标签中。与目前通过直接抓取网站数据进行数据聚类相比,本发明实施例首先获取目标网站的栏目框架,然后获取所述栏目框架中各个栏目层级的标题名称,再根据所述栏目层级的标题名称,确定所述栏目层级在预置栏目体系中对应的栏目标签,最后将同一栏目层级下的栏目内容,聚类到所述预置栏目体系对应的栏目标签中。从而可对抓取的目标网站的栏目信息进行有效整合,且最大程度保留了目标网站的原始结构信息内容,进而提高了数据聚类的准确度。
所述数据处理装置包括处理器和存储器,上述获取单元、确定单元、聚类单元、过滤单元和发送单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高数据聚类的准确度。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取目标网站的栏目框架,所述栏目框架中至少包括一个栏目层级;获取所述栏目框架中各个栏目层级的标题名称;根据所述栏目层级的标题名称,确定所述栏目层级在预置栏目体系中对应的栏目标签;其中,所述预置栏目体系中保存有多个所述栏目标签,和所述栏目标签分别对应的栏目内容;将同一栏目层级下的栏目内容,聚类到所述预置栏目体系对应的栏目标签中。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (8)

1.一种数据处理方法,其特征在于,包括:
获取目标网站的栏目框架,所述栏目框架中至少包括一个栏目层级;
获取所述栏目框架中各个栏目层级的标题名称;其中,栏目层级的标题名称用于标识栏目层级对应的内容概要;
根据所述栏目层级的标题名称,确定所述栏目层级在预置栏目体系中对应的栏目标签;其中,所述预置栏目体系中保存有多个所述栏目标签,和所述栏目标签分别对应的栏目内容;
将同一栏目层级下的栏目内容,聚类到所述预置栏目体系对应的栏目标签中;
其中,所述根据所述栏目层级的标题名称,确定所述栏目层级在预置栏目体系中对应的栏目标签包括:
从预置栏目体系的栏目标签中,提取与所述栏目层级的标题名称相似度值大于等于预置阈值的栏目标签;
将所述相似度值大于等于预置阈值的栏目标签,确定为所述栏目层级对应的栏目标签。
2.根据权利要求1所述的数据处理方法,其特征在于,所述获取目标网站的栏目框架之前,所述方法还包括:
按照预置过滤规则过滤所述目标网站;
所述获取目标网站的栏目框架包括:
获取过滤后的目标网站的栏目框架。
3.根据权利要求1所述的数据处理方法,其特征在于,所述将所述相似度值大于等于预置阈值的栏目标签,确定为所述栏目层级对应的栏目标签包括:
从所述相似度值大于等于预置阈值的栏目标签中,提取相似度值最高的栏目标签;
将所述相似度值最高的栏目标签,确定为所述栏目层级对应的栏目标签。
4.根据权利要求1所述的数据处理方法,其特征在于,
当不能从预置栏目体系的栏目标签中提取到与所述栏目层级的标题名称相似度值大于等于预置阈值的栏目标签时,则向客户端发送数据聚类失败指令,所述指令中携带有所述栏目层级的标题名称,以使得客户端根据所述栏目层级的标题名称更新预置栏目体系中的栏目标签。
5.一种数据处理装置,其特征在于,包括:
获取单元,用于获取目标网站的栏目框架,所述栏目框架中至少包括一个栏目层级;
所述获取单元,还用于获取所述栏目框架中各个栏目层级的标题名称;其中,栏目层级的标题名称用于标识栏目层级对应的内容概要;
确定单元,根据所述栏目层级的标题名称,确定所述栏目层级在预置栏目体系中对应的栏目标签;其中,所述预置栏目体系中保存有多个所述栏目标签,和所述栏目标签分别对应的栏目内容;
聚类单元,用于将同一栏目层级下的栏目内容,聚类到所述预置栏目体系对应的栏目标签中;
其中,所述确定单元包括:
提取模块,用于从预置栏目体系的栏目标签中,提取与所述栏目层级的标题名称相似度值大于等于预置阈值的栏目标签;
确定模块,用于将所述相似度值大于等于预置阈值的栏目标签,确定为所述栏目层级对应的栏目标签。
6.根据权利要求5所述的数据处理装置,其特征在于,所述装置还包括:过滤单元;
所述过滤单元,用于按照预置过滤规则过滤所述目标网站;
所述获取单元,具体用于获取过滤后的目标网站的栏目框架。
7.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至权利要求4中任意一项所述的数据处理方法。
8.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至权利要求4中任意一项所述的数据处理方法。
CN201510828945.7A 2015-11-24 2015-11-24 数据处理方法及装置 Active CN106776652B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510828945.7A CN106776652B (zh) 2015-11-24 2015-11-24 数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510828945.7A CN106776652B (zh) 2015-11-24 2015-11-24 数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN106776652A CN106776652A (zh) 2017-05-31
CN106776652B true CN106776652B (zh) 2020-09-25

Family

ID=58963477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510828945.7A Active CN106776652B (zh) 2015-11-24 2015-11-24 数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN106776652B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110363401B (zh) * 2019-06-26 2022-05-03 北京百度网讯科技有限公司 整合粘性评估方法、装置、计算机设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887426A (zh) * 2009-05-13 2010-11-17 北京博越世纪科技有限公司 一种将web网站中的标题转换为wap网站标题的技术
CN103870567A (zh) * 2014-03-11 2014-06-18 浪潮集团有限公司 一种云计算中垂直搜索引擎网页采集模板自动识别方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101146092A (zh) * 2006-09-15 2008-03-19 长春市恒创科技有限公司 互联网互动信息交换协议和用户交换协议
CN101984435B (zh) * 2010-11-17 2012-10-10 百度在线网络技术(北京)有限公司 一种对文本进行分发的方法和装置
CN102096705A (zh) * 2010-12-31 2011-06-15 南威软件股份有限公司 一种文章采集的方法
US9020212B2 (en) * 2012-07-31 2015-04-28 Hewlett-Packard Development Company, L.P. Automatically determining a name of a person appearing in an image
CN102831246B (zh) * 2012-09-17 2014-09-24 中央民族大学 藏文网页分类方法和装置
CN104252487B (zh) * 2013-06-28 2019-05-03 百度在线网络技术(北京)有限公司 一种用于生成词条信息的方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887426A (zh) * 2009-05-13 2010-11-17 北京博越世纪科技有限公司 一种将web网站中的标题转换为wap网站标题的技术
CN103870567A (zh) * 2014-03-11 2014-06-18 浪潮集团有限公司 一种云计算中垂直搜索引擎网页采集模板自动识别方法

Also Published As

Publication number Publication date
CN106776652A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
CN109561326B (zh) 一种数据查询方法及装置
CN108270629B (zh) 网站访客行为监测方法及装置
CN106649316B (zh) 一种视频推送方法及装置
CN106202235B (zh) 一种数据处理方法及装置
CN108932257B (zh) 多维度数据的查询方法及装置
CN109669776B (zh) 检测任务的处理方法、装置和系统
CN109002443B (zh) 一种文本信息的分类方法及装置
CN108256888B (zh) 落地页的获取方法、网站服务器以及网络广告监测系统
CN110019298B (zh) 数据处理方法和装置
CN107391532B (zh) 数据过滤的方法和装置
CN109582548B (zh) 一种基于无埋点的页面元素圈选方法及装置
CN106648839B (zh) 数据处理的方法和装置
CN106682044B (zh) 数据处理的方法及装置
CN108121712B (zh) 一种关键词存储方法及装置
CN111784468A (zh) 一种账户关联方法、装置及电子设备
CN107562703B (zh) 字典树重构方法及系统
CN110532773B (zh) 恶意访问行为识别方法、数据处理方法、装置和设备
CN109947713B (zh) 一种日志的监控方法及装置
CN106776652B (zh) 数据处理方法及装置
CN108984572B (zh) 网站信息推送方法及装置
CN106776654B (zh) 一种数据搜索方法及装置
CN115659045A (zh) 用户操作的识别方法、装置、存储介质以及电子设备
CN111125087A (zh) 数据的存储方法及装置
US20160350318A1 (en) Method, system for classifying comment record and webpage management device
CN110019357B (zh) 数据库查询脚本生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant