CN106776645A - 数据处理方法及装置 - Google Patents

数据处理方法及装置 Download PDF

Info

Publication number
CN106776645A
CN106776645A CN201510825536.1A CN201510825536A CN106776645A CN 106776645 A CN106776645 A CN 106776645A CN 201510825536 A CN201510825536 A CN 201510825536A CN 106776645 A CN106776645 A CN 106776645A
Authority
CN
China
Prior art keywords
column
label
preset
equal
threshold value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510825536.1A
Other languages
English (en)
Other versions
CN106776645B (zh
Inventor
刘嘉
钦滨杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510825536.1A priority Critical patent/CN106776645B/zh
Publication of CN106776645A publication Critical patent/CN106776645A/zh
Application granted granted Critical
Publication of CN106776645B publication Critical patent/CN106776645B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据处理方法及装置,涉及数据处理技术领域,解决了现有数据聚类效率低的问题。本发明的主要技术方案为:首先获取待聚类网站数据对应的栏目内容标签,然后从预置栏目体系的栏目标签中,提取与所述栏目内容标签相似度值大于等于预置阈值的栏目标签;其中,所述预置栏目体系中保存有多个所述栏目标签,和所述栏目标签分别对应的网站数据,最后将所述待聚类网站数据聚类到所述大于等于预置阈值的栏目标签中。本发明主要用于对数据进行聚类。

Description

数据处理方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据处理方法及装置。
背景技术
随着网络技术的迅速发展,网络中涌现出大量的数据,为使这些数据能够结构化的进行存储,因此需要对这些数据进行聚类,数据聚类是将数据或属性分类到不同的群组,也就是根据数据的内容或属性信息将数据分组到聚类,使得每个聚类中的数据共享共同的特性。通过数据聚类可以有效地执行搜索,这是因为对聚类进行搜索时,搜索到的是这一聚类的数据结果,而不是单独的数据结果,从而通过数据聚类可以减少搜索操作的数目。
目前,通过网站数据中的文本内容的相似度,将网站数据聚合成不同的类别,然后根据网站数据的栏目内容标签对每一个聚得的类别给出对应的栏目标签。但是,由于网站数据中的包含大量的文本内容,因此计算文本内容的相似度需要消耗很长的系统时间;且网站数据的栏目内容标签为不可控的,因此通过网站数据的栏目内容标签很难准确的预知栏目标签的具体内容,从而现有的数据聚类的效率低。
发明内容
鉴于上述问题,提出了本发明,以便提供一种克服上述问题或者至少部分地解决上述问题的数据处理方法及装置。
为达到上述目的,本发明主要提供如下技术方案:
一方面,本发明实施例提供了一种数据处理方法,该方法包括:
获取待聚类网站数据对应的栏目内容标签;
从预置栏目体系的栏目标签中,提取与所述栏目内容标签相似度值大于等于预置阈值的栏目标签;其中,所述预置栏目体系中保存有多个所述栏目标签,和所述栏目标签分别对应的网站数据;
将所述待聚类网站数据聚类到所述大于等于预置阈值的栏目标签中。
另一方面,本发明实施例还提供一种数据处理装置,该装置包括:
获取单元,用于获取待聚类网站数据对应的栏目内容标签;
提取单元,用于从预置栏目体系的栏目标签中,提取与所述栏目内容标签相似度值大于等于预置阈值的栏目标签;其中,所述预置栏目体系中保存有多个所述栏目标签,和所述栏目标签分别对应的网站数据;
聚类单元,用于将所述待聚类网站数据聚类到所述大于等于预置阈值的栏目标签中。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明实施例提供的一种数据处理方法及装置,首先获取待聚类网站数据对应的栏目内容标签,然后从预置栏目体系的栏目标签中,提取与所述栏目内容标签相似度值大于等于预置阈值的栏目标签;其中,所述预置栏目体系中保存有多个所述栏目标签,和所述栏目标签分别对应的网站数据,最后将所述待聚类网站数据聚类到所述大于等于预置阈值的栏目标签中。与目前通过网站数据的文本内容对网站进行聚类相比,本发明实施例首先获取网站数据对应的栏目内容标签,然后分别计算栏目内容标签和预置栏目体系中各个栏目标签的相似度值,最后将网站数据聚类到相似度值大于等于预置阈值的栏目标签中,从而实现了数据的聚类,由于本发明实施例是通过计算栏目内容标签和预置栏目体系中的栏目标签的相似度值实现聚类的,且栏目内容标签的数据量远远少于网站数据,因此通过本发明可以提高数据聚类的效率。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例提供的一种数据处理方法流程图;
图2为本发明实施例提供的另一种数据处理方法流程图;
图3为本发明实施例提供的一种数据处理装置的组成框图;
图4为本发明实施例提供的另一种数据处理装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为使本发明技术方案的优点更加清楚,下面结合附图和实施例对本发明作详细说明。
本发明实施例提供了一种数据处理方法,如图1所示,所述方法包括:
S101、获取待聚类网站数据对应的栏目内容标签。
其中,所述栏目内容标签用于表示所述待聚类网站数据的栏目内容,在本发明实施例中,可以通过网络爬虫爬取所述待聚类网站数据的栏目路径,然后从爬取的栏目路径中获取所述栏目内容标签。需要说明的是,所述栏目内容标签是由网站后台管理人员设定的,用于表示待聚类网站数据的概括信息及数据架构信息,因此通过栏目内容标签可以获知待聚类网站数据的主体内容。
S102、从预置栏目体系的栏目标签中,提取与所述栏目内容标签相似度值大于等于预置阈值的栏目标签。
其中,所述预置栏目体系中保存有多个所述栏目标签,和所述栏目标签分别对应的网站数据。对于本发明实施例,所述预置栏目体系可以根据实际数据聚类的需求进行设置,也可以根据网站数据的内容进行设置,还可以根据网站数据的来源进行设置,本发明实施例不做具体限定。所述栏目标签用于表示预置栏目体系中的各个栏目对应的名称,即对数据聚合成不同的类别后,对栏目体系中每一的类别给出精确的类别主题词。例如,根据网站数据的内容设置所述预置栏目体系,所述栏目体系中具体可以包含:财经新闻、民生新闻、军事新闻、政治新闻等栏目标签。
对于本发明实施例,所述预置阈值的大小可以根据实际情况进行设置,也可以由系统默认配置,例如,所述预置阈值具体可以为30%、50%、60%等,本发明实施例不做具体限定。需要说明的是,预置阈值设置的越大,从预置栏目体系的栏目标签中,提取到的与所述栏目内容标签相似度值大于等于预置阈值的栏目标签越少;预置阈值设置的越小,从预置栏目体系的栏目标签中,提取到的与所述栏目内容标签相似度值大于等于预置阈值的栏目标签越多。在本发明实施例中,通过从预置栏目体系的栏目标签中,提取与所述栏目内容标签相似度值大于等于预置阈值的栏目标签,可以确定所述待聚类网站数据在预置栏目体系中对应的栏目标签,从而可在后续步骤中将待聚类网站数据聚类到提取的栏目标签中,进而实现了待聚类网站数据的数据聚类。
S103、将所述待聚类网站数据聚类到所述大于等于预置阈值的栏目标签中。
在本发明实施例中,若能够从预置栏目体系的栏目标签中,提取到与所述栏目内容标签相似度值大于等于预置阈值的栏目标签,则将所述待聚类网站数据聚类到所述大于等于预置阈值的栏目标签中,从而可实现待聚类网站数据的数据聚类。在本发明实施例中,首先获取网站数据对应的栏目内容标签,然后分别计算栏目内容标签和预置栏目体系中各个栏目标签的相似度值,最后将网站数据聚类到相似度值大于等于预置阈值的栏目标签中,从而实现了网站数据的聚类,由于本发明实施例是通过计算栏目内容标签和预置栏目体系中的栏目标签的相似度值实现聚类的,且栏目内容标签的数据量远远少于网站数据,因此通过本发明可以提高数据聚类的效率。另外,由于本发明实施例是根据栏目内容标签和栏目标签的相似度值确定待聚类网站数据在预置栏目体系中的栏目,预置栏目体系当中的栏目标签是由后台人员设置的,因此栏目标签可以准确的表示出各个栏目类别分别对应的关键词名称,从而提高了获取待聚类网站数据对应的栏目标签的准确率。
需要说明的是,在预置栏目体系的栏目标签中,能够提取到与所述栏目内容标签相似度值大于等于预置阈值的一个或多个栏目标签,当从预置栏目体系中获取到多个栏目标签时,说明待聚类网站数据和预置栏目体系中的多个栏目标签相关联,因此需要将待聚类网站数据分别聚类到这些获取的栏目标签中。例如,获取到待聚类网站数据的栏目内容标签为“经济民生新闻”,而预置栏目体系中的栏目标签有“经济新闻”和“民生新闻”,经过计算“经济民生新闻”和“经济新闻”的相似度值满足预置阈值,“经济民生新闻”和“民生新闻”的相似度值同样也满足预置阈值,因此需要将待聚类网站数据分别聚类到“经济新闻”和“民生新闻”中。
本发明实施例提供的一种数据聚类方法,首先获取待聚类网站数据对应的栏目内容标签,然后从预置栏目体系的栏目标签中,提取与所述栏目内容标签相似度值大于等于预置阈值的栏目标签;其中,所述预置栏目体系中保存有多个所述栏目标签,和所述栏目标签分别对应的网站数据,最后将所述待聚类网站数据聚类到所述大于等于预置阈值的栏目标签中。与目前通过网站数据的文本内容对网站进行聚类相比,本发明实施例首先获取网站数据对应的栏目内容标签,然后分别计算栏目内容标签和预置栏目体系中各个栏目标签的相似度值,最后将网站数据聚类到相似度值大于等于预置阈值的栏目标签中,从而实现了数据的聚类,由于本发明实施例是通过计算栏目内容标签和预置栏目体系中的栏目标签的相似度值实现聚类的,且栏目内容标签的数据量远远少于网站数据,因此通过本发明可以提高数据聚类的效率。
本发明实施例提供了另一种数据处理方法,如图2所示,所述方法包括:
S201、获取待聚类网站数据对应的栏目内容标签。
其中,所述栏目内容标签用于表示所述待聚类网站数据的栏目内容,在本发明实施例中,可以通过网络爬虫爬取所述待聚类网站数据的栏目路径,然后从爬取的栏目路径中获取所述栏目内容标签。需要说明的是,所述栏目内容标签是由网站后台管理人员设定的,用于表示待聚类网站数据的概括信息及数据架构信息,因此通过栏目内容标签可以获知待聚类网站数据的主体内容。
S202、判断是否能够从预置栏目体系的栏目标签中,提取到与所述栏目内容标签相似度值大于等于预置阈值的栏目标签。
其中,所述预置栏目体系中保存有多个所述栏目标签,和所述栏目标签分别对应的网站数据。对于本发明实施例,所述预置栏目体系可以根据实际数据聚类的需求进行设置,也可以根据网站数据的内容进行设置,还可以根据网站数据的来源进行设置,本发明实施例不做具体限定。所述栏目标签用于表示预置栏目体系中的各个栏目对应的名称,即对数据聚合成不同的类别后,对栏目体系中每一的类别给出精确的类别主题词。
对于本发明实施例,所述预置阈值的大小可以根据实际情况进行设置,也可以由系统默认配置,例如,所述预置阈值具体可以为30%、50%、60%等,本发明实施例不做具体限定。需要说明的是,预置阈值设置的越大,从预置栏目体系的栏目标签中,提取到的与所述栏目内容标签相似度值大于等于预置阈值的栏目标签越少;预置阈值设置的越小,从预置栏目体系的栏目标签中,提取到的与所述栏目内容标签相似度值大于等于预置阈值的栏目标签越多。在本发明实施例中,通过从预置栏目体系的栏目标签中,提取与所述栏目内容标签相似度值大于等于预置阈值的栏目标签,可以确定所述待聚类网站数据在预置栏目体系中对应的栏目标签,从而可在后续步骤中将待聚类网站数据聚类到提取的栏目标签中,进而实现了待聚类网站数据的数据聚类。
在本发明实施例中,在步骤S202之后还,所述方法还包括:若能够从预置栏目体系的栏目标签中,提取到与所述栏目内容标签相似度值大于等于预置阈值的栏目标签,则从所述大于等于预置阈值的栏目标签中,获取与所述待聚类网站数据相似度值最高的栏目标签。对于本发明实施例,从所述大于等于预置阈值的栏目标签中,获取与所述待聚类网站数据相似度值最高的栏目标签,可以唯一确定待聚类网站数据在预置栏目体系中对应的栏目标签,从而提高了待聚类网站数据在预置栏目体系中聚类的准确性。
对于本发明实施例,所述预置栏目体系中包含多个层级的栏目标签,所述提取与所述栏目内容标签相似度值大于等于预置阈值的栏目标签包括:判断是否能够从第一预置层级的栏目标签中,获取到与所述栏目内容标签相似度值大于等于第一预置阈值的栏目标签;若是,则判断所述大于等于预置阈值的第一预置层级的栏目标签,是否存在对应的第二预置层级的栏目标签;若存在,则判断是否能够从所述第二预置层级的栏目标签中,获取到与所述栏目内容标签相似度值大于等于第二预置阈值的栏目标签。其中,预置栏目体系中的层级具有从属关系,如第二层级的栏目标签从属于第一层级的栏目标签,第三层级的栏目标签从属于第二层级的栏目标签。预置栏目体系中的层级可以根据实际数据聚类的需求进行划分,也可以根据用户聚类数据的需求进行划分,本发明实施例不做具体限定。
例如,预置栏目体系中包括两个层级的栏目标签,第一层级中的栏目标签分别为娱乐新闻和体育新闻,第二层级中的栏目标签包括:明星新闻、电影资讯、赛事时报、体育人物。其中,第二层级中的明星新闻和电影资讯从属于第一层级中的娱乐新闻,第二层级中的赛事时报和体育人物从属于第一层级中的体育新闻。若待聚类网页数据对应的栏目内容标签为足球新闻,则首先计算足球新闻和第一层级中的娱乐新闻和体育新闻分别对应的相似度值,然后获取相似度值大于等于第一预置阈值的栏目标签,在本例中获取到的第一层级栏目标签为体育新闻,然后继续分别计算足球新闻和第二层级中的赛事时报和体育人物的相似度值,最后将与足球新闻相似度最高的赛事时报确定为待聚类数据所要聚类的栏目标签。
S203a、若是,则将所述待聚类网站数据聚类到所述大于等于预置阈值的栏目标签中。
在本发明实施例中,从预置栏目体系的栏目标签中,提取与所述栏目内容标签相似度值大于等于预置阈值的栏目标签之后,将所述待聚类网站数据聚类到所述大于等于预置阈值的栏目标签中,从而可实现待聚类网站数据的聚类。在本发明实施例中,首先获取网站数据对应的栏目内容标签,然后分别计算栏目内容标签和预置栏目体系中各个栏目标签的相似度值,最后将网站数据聚类到相似度值大于等于预置阈值的栏目标签中,从而实现了网站数据的聚类,由于本发明实施例是通过计算栏目内容标签和预置栏目体系中的栏目标签的相似度值实现聚类的,且栏目内容标签的数据量远远少于网站数据,因此通过本发明可以提高数据聚类的效率。另外,由于本发明实施例是根据栏目内容标签和栏目标签的相似度值确定待聚类网站数据在预置栏目体系中的栏目,预置栏目体系当中的栏目标签是由后台人员设置的,因此栏目标签可以准确的表示出各个栏目类别分别对应的关键词名称,从而提高了获取待聚类网站数据对应的栏目标签的准确率。
对于本发明实施例,若在步骤S202中能够从预置栏目体系的栏目标签中,提取到与所述栏目内容标签相似度值大于等于预置阈值的栏目标签,则从所述大于等于预置阈值的栏目标签中,获取到与所述待聚类网站数据相似度值最高的栏目标签。则步骤S203a包括:将所述待聚类网站数据聚类到所述获取的栏目标签中。对于本发明实施例,从所述大于等于预置阈值的栏目标签中,获取与所述待聚类网站数据相似度值最高的栏目标签,可以唯一确定所述待聚类网站数据在预置栏目体系中对应的栏目标签,从而提高了待聚类网站数据在预置栏目体系中聚类的准确性。
对于本发明实施例,若所述预置栏目体系中包含多个层级的栏目标签,则步骤S203a包括:若从所述第二预置层级的栏目标签中,获取到与所述栏目内容标签相似度值大于等于第二预置阈值的栏目标签,则将所述待聚类网站数据聚类到所述相似度值大于等于第二预置阈值的栏目标签中。
S203b、若否,则向客户端发送数据聚类失败指令。
其中,步骤S203b为步骤S203a的并列步骤,所述指令中携带有所述栏目内容标签,进一步地,以使得客户端根据所述栏目内容标签更新预置栏目体系中的栏目标签。在本发明实施例中,若不能够从预置栏目体系的栏目标签中,获取到与所述栏目内容标签相似度值大于等于预置阈值的栏目标签,则向客户端发送数据聚类失败指令,所述指令中携带有所述栏目内容标签,以使得客户端根据所述栏目内容标签更新预置栏目体系中的栏目标签。
本发明实施例提供的另一种数据处理方法,首先获取待聚类网站数据对应的栏目内容标签,然后从预置栏目体系的栏目标签中,提取与所述栏目内容标签相似度值大于等于预置阈值的栏目标签;其中,所述预置栏目体系中保存有多个所述栏目标签,和所述栏目标签分别对应的网站数据,最后将所述待聚类网站数据聚类到所述大于等于预置阈值的栏目标签中。与目前通过网站数据的文本内容对网站进行聚类相比,本发明实施例首先获取网站数据对应的栏目内容标签,然后分别计算栏目内容标签和预置栏目体系中各个栏目标签的相似度值,最后将网站数据聚类到相似度值大于等于预置阈值的栏目标签中,从而实现了数据的聚类,由于本发明实施例是通过计算栏目内容标签和预置栏目体系中的栏目标签的相似度值实现聚类的,且栏目内容标签的数据量远远少于网站数据,因此通过本发明可以提高数据聚类的效率。
进一步地,本发明实施例提供一种数据处理装置,如图3所示,所述装置包括:获取单元31、判断单元32、聚类单元33。
获取单元31,用于获取待聚类网站数据对应的栏目内容标签。
提取单元32,用于从预置栏目体系的栏目标签中,提取与所述栏目内容标签相似度值大于等于预置阈值的栏目标签;其中,所述预置栏目体系中保存有多个所述栏目标签,和所述栏目标签分别对应的网站数据。
聚类单元33,用于将所述待聚类网站数据聚类到所述大于等于预置阈值的栏目标签中。
需要说明的是,本发明实施例提供的一种数据处理装置所涉及各功能单元的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。
本发明实施例提供的一种数据处理装置,首先获取待聚类网站数据对应的栏目内容标签,然后从预置栏目体系的栏目标签中,提取与所述栏目内容标签相似度值大于等于预置阈值的栏目标签;其中,所述预置栏目体系中保存有多个所述栏目标签,和所述栏目标签分别对应的网站数据,最后将所述待聚类网站数据聚类到所述大于等于预置阈值的栏目标签中。与目前通过网站数据的文本内容对网站进行聚类相比,本发明实施例首先获取网站数据对应的栏目内容标签,然后分别计算栏目内容标签和预置栏目体系中各个栏目标签的相似度值,最后将网站数据聚类到相似度值大于等于预置阈值的栏目标签中,从而实现了数据的聚类,由于本发明实施例是通过计算栏目内容标签和预置栏目体系中的栏目标签的相似度值实现聚类的,且栏目内容标签的数据量远远少于网站数据,因此通过本发明可以提高数据聚类的效率。
进一步地,本发明实施例提供另一种数据处理装置,如图4所示,所述装置包括:获取单元41、提取单元42、聚类单元43。
获取单元41,用于获取待聚类网站数据对应的栏目内容标签。
提取单元42,用于从预置栏目体系的栏目标签中,提取与所述栏目内容标签相似度值大于等于预置阈值的栏目标签;其中,所述预置栏目体系中保存有多个所述栏目标签,和所述栏目标签分别对应的网站数据。
聚类单元43,用于将所述待聚类网站数据聚类到所述大于等于预置阈值的栏目标签中。
所述获取单元41,还用于从所述栏目内容标签相似度值大于等于预置阈值的栏目标签中,获取与所述待聚类网站数据相似度值最高的栏目标签。
所述聚类单元43,具体用于将所述待聚类网站数据聚类到所述获取单元41获取的栏目标签中。
对于本发明实施例,所述预置栏目体系中包含多个层级的栏目标签,所述提取单元42包括:
第一判断模块421,用于判断是否能够从第一预置层级的栏目标签中,获取到与所述栏目内容标签相似度值大于等于第一预置阈值的栏目标签。
第二判断模块422,用于若能够从第一预置层级的栏目标签中,获取到与所述栏目内容标签相似度值大于等于第一预置阈值的栏目标签,则判断所述大于等于预置阈值的第一预置层级的栏目标签,是否存在对应的第二预置层级的栏目标签。
第三判断模块423,用于若存在对应的第二预置层级的栏目标签,则判断是否能够从所述第二预置层级的栏目标签中,获取到与所述栏目内容标签相似度值大于等于第二预置阈值的栏目标签。
所述聚类单元43,具体用于将所述待聚类网站数据聚类到所述相似度值大于等于第二预置阈值的栏目标签中。
进一步地,所述装置还包括:
发送单元44,用于当不能从所述预置栏目体系的栏目标签中,提取到与所述栏目内容标签相似度值大于等于预置阈值的栏目标签时,则向客户端发送数据聚类失败指令,所述指令中携带有所述栏目内容标签,以使得客户端根据所述栏目内容标签更新预置栏目体系中的栏目标签。
需要说明的是,本发明实施例提供的另一种数据处理装置所涉及各功能单元的其他相应描述,可以参考图2所示方法的对应描述,在此不再赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。
本发明实施例提供的另一种数据处理装置,首先获取待聚类网站数据对应的栏目内容标签,然后从预置栏目体系的栏目标签中,提取与所述栏目内容标签相似度值大于等于预置阈值的栏目标签;其中,所述预置栏目体系中保存有多个所述栏目标签,和所述栏目标签分别对应的网站数据,最后将所述待聚类网站数据聚类到所述大于等于预置阈值的栏目标签中。与目前通过网站数据的文本内容对网站进行聚类相比,本发明实施例首先获取网站数据对应的栏目内容标签,然后分别计算栏目内容标签和预置栏目体系中各个栏目标签的相似度值,最后将网站数据聚类到相似度值大于等于预置阈值的栏目标签中,从而实现了数据的聚类,由于本发明实施例是通过计算栏目内容标签和预置栏目体系中的栏目标签的相似度值实现聚类的,且栏目内容标签的数据量远远少于网站数据,因此通过本发明可以提高数据聚类的效率。
所述数据处理装置包括处理器和存储器,上述获取单元、提取单元、聚类单元和发送单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高数据聚类的效率。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取待聚类网站数据对应的栏目内容标签;从预置栏目体系的栏目标签中,提取与所述栏目内容标签相似度值大于等于预置阈值的栏目标签;其中,所述预置栏目体系中保存有多个所述栏目标签,和所述栏目标签分别对应的网站数据;将所述待聚类网站数据聚类到所述大于等于预置阈值的栏目标签中。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取待聚类网站数据对应的栏目内容标签;
从预置栏目体系的栏目标签中,提取与所述栏目内容标签相似度值大于等于预置阈值的栏目标签;其中,所述预置栏目体系中保存有多个所述栏目标签,和所述栏目标签分别对应的网站数据;
将所述待聚类网站数据聚类到所述大于等于预置阈值的栏目标签中。
2.根据权利要求1所述的数据处理方法,其特征在于,所述从预置栏目体系的栏目标签中,提取与所述栏目内容标签相似度值大于等于预置阈值的栏目标签之后,所述方法包括:
从所述栏目内容标签相似度值大于等于预置阈值的栏目标签中,获取与所述待聚类网站数据相似度值最高的栏目标签。
3.根据权利要求2所述的数据处理方法,其特征在于,所述将所述待聚类网站数据聚类到所述大于等于预置阈值的栏目标签中包括:
将所述待聚类网站数据聚类到所述获取的栏目标签中。
4.根据权利要求3所述的数据处理方法,其特征在于,所述预置栏目体系中包含多个层级的栏目标签,所述提取与所述栏目内容标签相似度值大于等于预置阈值的栏目标签包括:
判断是否能够从第一预置层级的栏目标签中,获取到与所述栏目内容标签相似度值大于等于第一预置阈值的栏目标签;
若是,则判断所述大于等于预置阈值的第一预置层级的栏目标签,是否存在对应的第二预置层级的栏目标签;
若存在,则判断是否能够从所述第二预置层级的栏目标签中,获取到与所述栏目内容标签相似度值大于等于第二预置阈值的栏目标签。
5.根据权利要求4所述的数据处理方法,其特征在于,所述将所述待聚类网站数据聚类到所述大于等于预置阈值的栏目标签中包括:
将所述待聚类网站数据聚类到所述相似度值大于等于第二预置阈值的栏目标签中。
6.根据权利要求1所述的数据处理方法,其特征在于,所述方法还包括:
当不能从所述预置栏目体系的栏目标签中,提取到与所述栏目内容标签相似度值大于等于预置阈值的栏目标签时,则向客户端发送数据聚类失败指令,所述指令中携带有所述栏目内容标签,以使得客户端根据所述栏目内容标签更新预置栏目体系中的栏目标签。
7.一种数据处理装置,其特征在于,包括:
获取单元,用于获取待聚类网站数据对应的栏目内容标签;
提取单元,用于从预置栏目体系的栏目标签中,提取与所述栏目内容标签相似度值大于等于预置阈值的栏目标签;其中,所述预置栏目体系中保存有多个所述栏目标签,和所述栏目标签分别对应的网站数据;
聚类单元,用于将所述待聚类网站数据聚类到所述大于等于预置阈值的栏目标签中。
8.根据权利要求7所述的数据处理装置,其特征在于,所述装置还包括:
所述获取单元,还用于从所述栏目内容标签相似度值大于等于预置阈值的栏目标签中,获取与所述待聚类网站数据相似度值最高的栏目标签。
9.根据权利要求8所述的数据处理装置,其特征在于,
所述聚类单元,具体用于将所述待聚类网站数据聚类到所述获取单元获取的栏目标签中。
10.根据权利要求9所述的数据处理装置,其特征在于,所述预置栏目体系中包含多个层级的栏目标签,所述提取单元包括:
第一判断模块,用于判断是否能够从第一预置层级的栏目标签中,获取到与所述栏目内容标签相似度值大于等于第一预置阈值的栏目标签;
第二判断模块,用于若能够从第一预置层级的栏目标签中,获取到与所述栏目内容标签相似度值大于等于第一预置阈值的栏目标签,则判断所述大于等于预置阈值的第一预置层级的栏目标签,是否存在对应的第二预置层级的栏目标签;
第三判断模块,用于若存在对应的第二预置层级的栏目标签,则判断是否能够从所述第二预置层级的栏目标签中,获取到与所述栏目内容标签相似度值大于等于第二预置阈值的栏目标签。
CN201510825536.1A 2015-11-24 2015-11-24 数据处理方法及装置 Active CN106776645B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510825536.1A CN106776645B (zh) 2015-11-24 2015-11-24 数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510825536.1A CN106776645B (zh) 2015-11-24 2015-11-24 数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN106776645A true CN106776645A (zh) 2017-05-31
CN106776645B CN106776645B (zh) 2020-08-21

Family

ID=58964579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510825536.1A Active CN106776645B (zh) 2015-11-24 2015-11-24 数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN106776645B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101883170A (zh) * 2009-05-08 2010-11-10 北京闻言科技有限公司 一种在手机客户端多维内容体系中订阅频道的方法
CN103218390A (zh) * 2012-12-31 2013-07-24 百度在线网络技术(北京)有限公司 一种站点资源管理方法及装置
CN103226578A (zh) * 2013-04-02 2013-07-31 浙江大学 面向医学领域的网站识别和网页细分类的方法
CN103744981A (zh) * 2014-01-14 2014-04-23 南京汇吉递特网络科技有限公司 一种基于网站内容用于网站自动分类分析的系统
CN103838823A (zh) * 2014-01-22 2014-06-04 浙江大学 一种基于网页模板的网站内容无障碍检测方法
CN103870495A (zh) * 2012-12-14 2014-06-18 阿里巴巴集团控股有限公司 用于从网站中提取信息的方法和装置
CN103970841A (zh) * 2014-04-24 2014-08-06 小米科技有限责任公司 标签管理方法和装置
CN104077402A (zh) * 2014-07-04 2014-10-01 用友软件股份有限公司 数据处理方法和数据处理系统
US20150092704A1 (en) * 2013-10-02 2015-04-02 Cellos Software Ltd Method and communication apparatus for resource allocation in wireless communication network

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101883170A (zh) * 2009-05-08 2010-11-10 北京闻言科技有限公司 一种在手机客户端多维内容体系中订阅频道的方法
CN103870495A (zh) * 2012-12-14 2014-06-18 阿里巴巴集团控股有限公司 用于从网站中提取信息的方法和装置
CN103218390A (zh) * 2012-12-31 2013-07-24 百度在线网络技术(北京)有限公司 一种站点资源管理方法及装置
CN103226578A (zh) * 2013-04-02 2013-07-31 浙江大学 面向医学领域的网站识别和网页细分类的方法
US20150092704A1 (en) * 2013-10-02 2015-04-02 Cellos Software Ltd Method and communication apparatus for resource allocation in wireless communication network
CN103744981A (zh) * 2014-01-14 2014-04-23 南京汇吉递特网络科技有限公司 一种基于网站内容用于网站自动分类分析的系统
CN103838823A (zh) * 2014-01-22 2014-06-04 浙江大学 一种基于网页模板的网站内容无障碍检测方法
CN103970841A (zh) * 2014-04-24 2014-08-06 小米科技有限责任公司 标签管理方法和装置
CN104077402A (zh) * 2014-07-04 2014-10-01 用友软件股份有限公司 数据处理方法和数据处理系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈国青 等: "《中国信息系统研究:新兴技术背景下的机遇与挑战 上》", 31 October 2009, 武汉:武汉大学出版社 *

Also Published As

Publication number Publication date
CN106776645B (zh) 2020-08-21

Similar Documents

Publication Publication Date Title
CN103678431B (zh) 一种基于标准标签和项目评分的推荐方法
CN105210064B (zh) 使用深度网络将资源分类
US10691942B2 (en) Unsupervised land use and land cover detection
CN107767259A (zh) 贷款风险控制方法、电子装置及可读存储介质
CN107895277A (zh) 在应用程序中推送贷款广告的方法、电子装置及介质
CN104090886A (zh) 构建用户实时画像的方法及装置
CN110929046B (zh) 一种基于异质网络嵌入的知识实体推荐方法及系统
JP2018537790A5 (zh)
CN104102696A (zh) 一种内容推荐方法及装置
CN104199836B (zh) 一种基于子兴趣划分的标注用户模型建构方法
CN107729219A (zh) 基于超融合存储系统的资源监控方法、装置及终端
CA2598923A1 (en) Method and system for data classification using a self-organizing map
CN107003834A (zh) 行人检测设备和方法
CN111626311B (zh) 一种异构图数据处理方法和装置
CN106909567A (zh) 数据处理方法及装置
CN112883192B (zh) 一种异构领域用户与资源关联挖掘方法及系统
KR101780534B1 (ko) 이미지 기반 검색을 위한 맵리듀스 기반의 이미지 특징 추출 방법 및 시스템
CN103823881B (zh) 分布式数据库的性能优化的方法及装置
CN106776600A (zh) 文本聚类的方法及装置
CN106776645A (zh) 数据处理方法及装置
CN106156118A (zh) 基于计算机系统的图片相似度计算方法及其系统
CN110334994A (zh) 一种播种位预分配方法、装置、计算机设备及存储介质
CN106713440B (zh) 一种数据传输方法及设备
CN106202121B (zh) 数据存储及导出的方法和设备
CN106776652A (zh) 数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant