CN107016005A - 爬虫数据源的处理方法及装置 - Google Patents

爬虫数据源的处理方法及装置 Download PDF

Info

Publication number
CN107016005A
CN107016005A CN201610061326.4A CN201610061326A CN107016005A CN 107016005 A CN107016005 A CN 107016005A CN 201610061326 A CN201610061326 A CN 201610061326A CN 107016005 A CN107016005 A CN 107016005A
Authority
CN
China
Prior art keywords
data source
characteristic information
industry
reptile
reptile data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610061326.4A
Other languages
English (en)
Inventor
杨杰
袁园
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201610061326.4A priority Critical patent/CN107016005A/zh
Publication of CN107016005A publication Critical patent/CN107016005A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种爬虫数据源的处理方法及装置,涉及互联网技术领域,解决了现有技术中无法对爬虫数据源准确标注标签的问题。本发明的方法包括:从行业信息中获取特征信息集合,所述特征信息集合通过自然语言处理技术对行业信息进行统计处理后得到;利用所述特征信息集合表示每个爬虫数据源;统计每个爬虫数据源的特征信息集合中的各个特征信息;根据统计结果确定每个爬虫数据源的标签。本发明主要使用自然语言处理技术对数据源标注标签,使数据源能够进行更准确的分类。

Description

爬虫数据源的处理方法及装置
技术领域
本发明涉及互联网技术领域,特别是涉及一种爬虫数据源的处理方法及装置。
背景技术
网络爬虫是一种按照一定的规则,自动的抓取网络信息的程序或者脚本,给数据源打TAG标签是爬虫爬取数据源时的重要步骤之一。TAG标签是一种自定义的,比分类更准确更具体,可以概括文章主要内容的关键词。例如,在网页的HTML编码中有标题标签(Title Tag)、描述标签(Description Tag)、关键词标签(Keywords Tag)等,爬虫运用TAG标签,可以更容易的搜索到需要获取的内容。
在实际应用中,爬虫在面对大量的需要爬取的数据时,如何准确的对数据源标注TAG标签会存在一定的难度。针对给爬虫数据源标注TAG标签的问题,现有技术中提出了在数据源种子上人工的标注TAG标签的方法,这种方法就是在爬虫数据源的入口种子表中,添加一个带有标记的字段,来存储想要给每个网站标注的具体的TAG标签,虽然这种方法在一定程度上解决了给爬虫数据源标注TAG标签的问题,但是在真实的爬虫环境中会使爬虫数据源的类型变得比较局限。此外,现有技术中还提出了在爬虫内部通过机器自动标注TAG标签的方法,虽然这种方法比人工标注TAG标签更加方便,但是与人工标注TAG标签的方法一样都没能准确的按照数据源的真实内容来标注TAG标签。
发明内容
有鉴于此,本发明提出了一种爬虫数据源的处理方法及装置,主要目的在于解决现有技术中无法对爬虫数据源准确标注标签的问题。
依据本发明的第一个方面,本发明提出了一种爬虫数据源的处理方法,包括:
从行业信息中获取特征信息集合,所述特征信息集合通过自然语言处理技术对行业信息进行统计处理后得到;
利用所述特征信息集合表示每个爬虫数据源;
统计每个爬虫数据源的特征信息集合中的各个特征信息;
根据统计结果确定每个爬虫数据源的标签。
依据本发明的第二个方面,本发明提出了一种爬虫数据源的处理装置,包括:
获取单元,用于从行业信息中获取特征信息集合,所述特征信息集合通过自然语言处理技术对行业信息进行统计处理后得到;
处理单元,用于利用所述特征信息集合表示每个爬虫数据源;
统计单元,用于统计每个爬虫数据源的特征信息集合中的各个特征信息;
确定单元,用于根据统计结果确定每个爬虫数据源的标签。
借由上述技术方案,本发明实施例提供的爬虫数据源的处理方法及装置,能够从行业信息中获取特征信息集合,所述特征信息集合通过自然语言处理技术对行业信息进行统计处理后得到,利用所述特征信息集合表示每个爬虫数据源,统计每个爬虫数据源的特征信息集合中的各个特征信息,根据统计结果确定每个爬虫数据源的标签。由于特征信息集合中的特征信息是通过自然语言处理技术选出的具有行业代表性和特征性的行业类别,而不是由人工选择或机器自动选择的,因此在用由自然语言处理技术得到的特征信息表示爬虫数据源的基础上,可以根据每个数据源的特征信息从中选出用于准确分类数据源的标签。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种爬虫数据源的处理方法的流程图;
图2示出了本发明实施例提供的一种爬虫数据源的处理装置的组成框图;
图3示出了本发明实施例提供的另一种爬虫数据源的处理装置的组成框图。
具体实施方式
下面将参照附图更加详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
给数据源标注标签是爬虫爬取数据源时的重要步骤之一,针对给数据源标注标签的问题,现有技术中提出了采用在数据源种子上人工的标注标签的方法来解决这个问题,但是人工标注标签的方法在真实的爬虫环境中使得数据源类型变得比较局限;此外,现有技术中还提出了使用爬虫内部自动标注标签的方法,这种机器自动标注标签的方法虽然比人工标注标签更加方便,但是无法使数据源内容与所标注的标签准确符合。
因此为了解决给爬虫数据源标注标签时具有的上述问题,本发明实施例提供了一种爬虫数据源的处理方法,如图1所示,该方法包括:
101、从行业信息中获取特征信息集合,所述特征信息集合通过自然语言处理技术对行业信息进行统计处理后得到。
由于标签是一种自定义的,比分类更准确更具体,可以概括数据源的关键词,而目前为止整个行业信息都可以作为标签选择的基础,因此在给爬虫数据源标注标签时,为了使标注的标签更加准确,本发明实施例需要从大量的行业信息中获取具有代表性和特征性的行业信息,并且各个行业信息下还附属有其他更加细化的行业信息,例如化工行业,其附属的更加细化的行业信息为塑料、涂料、农药等;金融行业,其附属的更加细化的行业信息为银行、保险、证券等。这些细化的行业信息就组成了本发明实施例中具有代表性和特征性的特征信息集合,这些特征信息集合可以作为本发明实施例中标签选择的基础。由于通过人工选择和机器选择通常都无法准确的获取这些具有代表性和特征性的行业信息,因此本发明实施例从行业信息中获取特征信息集合是通过自然语言处理技术对行业信息进行统计处理后得到。
102、利用所述特征信息集合表示每个爬虫数据源。
当在步骤101中获取到作为标签选择基础的特征信息集合之后,就可以执行步骤102利用所述特征信息集合表示每个爬虫数据源,具体的就是分别用该特征信息集合中的每一个特征去表示每个爬虫数据源。例如,当特征a出现在某个爬虫数据源时,就在该爬虫数据源的特征a的位置上进行标记,记录特征a的出现情况。通过记录所述特征信息集合中每一个特征在爬虫数据源中的出现情况,就可以实现本发明实施例中步骤102利用所述特征信息集合表示每个爬虫数据源的目的。
103、统计每个爬虫数据源的特征信息集合中的各个特征信息。
当在步骤102中利用所述特征信息集合表示每个爬虫数据源之后,本发明实施例就可以执行步骤103统计每个爬虫数据源的特征信息集合中的各个特征信息。具体的,就是根据步骤102中记录的特征信息集合中每一个特征在爬虫数据源中的出现情况,统计每个爬虫数据源中各个特征信息的出现情况。由于实际情况下,一个爬虫数据源中各个特征信息的出现情况不同,某个特征信息出现频率较高,而其他特征信息出现频率较低,因此爬虫数据源中各个特征信息的出现情况可以反映各个特征信息与爬虫数据源的相关程度。
104、根据统计结果确定每个爬虫数据源的标签。
当在步骤103中统计每个爬虫数据源的特征信息集合中的各个特征信息之后,就可以执行步骤104根据统计结果确定每个爬虫数据源的标签。具体的,就是根据统计的每个爬虫数据源中各个特征信息的出现情况,确定每个爬虫数据源的标签。例如,对于在爬虫数据源中出现的各个特征信息而言,高频率出现的特征信息的类型与爬虫数据源的相关性较高,可以作为标注该爬虫数据源的标签。
本发明实施例提供的爬虫数据源的处理方法,能够从行业信息中获取特征信息集合,所述特征信息集合通过自然语言处理技术对行业信息进行统计处理后得到,利用所述特征信息集合表示每个爬虫数据源,统计每个爬虫数据源的特征信息集合中的各个特征信息,根据统计结果确定每个爬虫数据源的标签。由于特征信息集合中的特征信息是通过自然语言处理技术选出的具有行业代表性和特征性的行业类别,而不是由人工选择或机器自动选择的,因此在用由自然语言处理技术得到的特征信息表示爬虫数据源的基础上,可以根据每个数据源的特征信息从中选出用于准确分类数据源的标签。
为了更好的对上述图1所示的方法进行理解,作为对上述实施方式的细化和扩展,本发明实施例将针对图1中的各步骤进行详细说明。
在实际情况下,根据数据源的真实内容可以将数据源进行分类,参考分类结果可以对数据源标注标签,以便根据数据源的标签准确快速的获取需要的数据源。由于数据源的分类结果可以覆盖各个行业,因此目前为止整个行业信息都可以作为标签选择的基础。由于整个行业信息非常庞杂,而现有技术中人工标注标签以及机器标注标签都无法准确从大量的行业信息中选择数据源的特定标签,因此本发明实施例在给爬虫数据源标注标签时,为了使标注的标签更加准确,本发明实施例将自然语言处理技术应用到对爬虫数据源标注标签上,也就是通过自然语言处理技术从大量的行业信息中获取具有代表性和特征性的行业信息,这些具有代表性和特征性的行业信息还包括各个行业信息下附属的更加细化的子行业信息。例如:X行业为化工行业,其子行业X-1为塑料,X-2为涂料,X-3为农药等;Y行业为金融行业,其子行业Y-1为银行业,Y-2为保险业,Y-3为证券业等,这些细化的子行业信息在本发明实施例中称为行业信息的特征信息集合,并且所述特征信息集合中包含对数据源进行标注的标签。
具体的,本发明实施例在获取特征信息集合时,首先可以获取行业信息的结构范围,包括:行业以及每个行业下的子行业信息。行业信息结构主要是通过收集目前为止存在的行业以及每个行业下的子行业,作为标签的基准集合。由于每个行业下存在大量的子行业,因此需要从所述基准集合中选择具有代表性和特征性的子行业组成特征信息集合。这些特征信息的选择一部分可以通过人工获得,但是为了使特征信息的选择更加准确,本发明实施例可以通过自然语言处理技术对行业信息进行统计处理,主要是基于卡方检验获得特征信息。卡方检验是数理统计中一种常用的检验两个变量独立性的方法,可以利用独立性检验来考察一个词t(一个随机变量)与一个类别c(另一个随机变量)之间是否有关系,并且能够精确的给出这种判断的可靠程度。例如,若词t与类别c独立,就可以说明词t对类别c完全没有表征作用,也就是无法根据某一数据源中词t的出现判断该数据源是否属于类别c。正是因为无法界定词t是否属于类别c的理论值是多少,因此本发明实施例可以采用“词t与类别c不相关”作为假设,选择过程也变成了为每个词(子行业)计算它与类别c(行业)的卡方值,并从大到小进行排序,此时卡方值越大两者越相关,因此可以取排序前K个最相关的词(子行业)作为特征信息集合中的特征信息。本发明实施例通过卡方检验的主要目的在于选出与某个类别(行业)最相关的特征信息(代表性和特征性的子行业)。
为了更好的对上述方法进行理解,本发明实施例以考察一个词“银行”与类别“金融”之间的相关性为例,对上述方法进行详细说明。例如,现在有N篇文档,其中有M篇是关于金融的,则此时需要考察四个观察值:1)包含“银行”且属于“金融”类别的文档数,命名为A;2)包含“银行”但不属于“金融”类别的文档数,命名为B;3)不包含“银行”但属于“金融”类别的文档数,命名为C;4)既不包含“银行”也不属于“金融”类别的文档数,命名为D。具体的,可以用下述表格进行表示:
特征选择 属于“金融” 不属于“金融” 总计
包含“银行” A B A+B
不包含“银行” C D C+D
总计 A+C B+D N
在上述表格中A、B、C、D是表格中最基本的数据,因此上述表格资料又被称为四格表资料。而卡方检验的统计量是卡方值,它是每个格子实际频数与理论频数差值平方与理论频数之比的累计和。以其中一个格子中的A为例,其实际频数为A,理论频数E=(A+C)[(A+B)/N],则该格子实际频数为与理论频数差值平方与理论频数之比为(A-E)2/E,通过此公式将其余格子中的B、C、D分别带入公式中并简化,可以得到卡方值K2(银行,金融)=N(AD-BC)2/(A+C)(A+B)(B+D)(C+D);进一步的,词t(子行业)与类别c(行业)的卡方值形式可写成:K2(t,c)=N(AD-BC)2/(A+C)(A+B)(B+D)(C+D)。而如果给定了一个文档集合和一个类别(例如文档集合N中已经训练好的M个文档),对同一类别文档中的所有词来说N、M以及N-M都是一样的,即上述公式中的(A+C)与(B+D)对同一类别文档中的所有词来说都一样,而本发明实施例只关注一堆词与某个类别的卡方值的大小,并不关心具体的卡方值是多少,因此上述公式中的(A+C)与(B+D)可以简化掉,实际计算卡方值时只需要使用公式K2(t,c)=(AD-BC)2/(A+B)(C+D)。本发明实施例通过简化的公式可以对行业信息的结构范围中的子行业进行卡方检测的计算,并根据计算结果的大小选择符合条件的子行业信息组成特征信息集合,例如可以按照计算结果由大到小的顺序选择排序前K个子行业组成特征信息集合,用所述特征信息集合表示数据源。
通过上述方法选取的特征信息集合包括了具有代表性和特征性的行业信息,这些行业信息通常为更加准确具体的子行业信息,可以用于对爬虫数据源标注标签。因此当特征信息集合选取完成之后,就需要针对不同的爬虫数据源从所述特征信息集合中选择不同的特征作为标签对不同的爬虫数据源进行标注。具体的,就是使用所述特征信息集合中的每一个特征去表示需要标注标签的爬虫数据源,即表示每一个特征在每个爬虫数据源中出现的频数并记录下来。例如,以一篇文档Doc作为一个数据源、以塑料、银行、证券作为特征信息集合中的特征为例,如果某一个特征在该文档中出现n次,那么就在该文档对应的该特征的位置处记录n;如果某一个特征不在该文档中出现,那么就在该文档对应的该特征的位置处记录O;具体的用特征信息集合表示每个爬虫数据源的形式可以如下表所示:
数据源\特征 塑料 银行 证券
Doc1 10 1 1
Doc2 0 9 9
Doc3 2 3 5
当通过上述方式用特征信息集合表示了每个爬虫数据源之后,就可以清楚的得到各个特征信息在爬虫数据源中的出现情况。随后,在从特征信息集合中为每个爬虫数据源选取相应的标签时,就可以根据每个爬虫数据源中特征信息的具体情况从中选择与数据源类型最相关的特征作为标注的标签。因此,本发明实施例在利用所述特征信息集合表示每个爬虫数据源之后,还需要统计每个爬虫数据源的特征信息集合中的各个特征信息的出现情况,按照出现次数的高低对每个爬虫数据源包含的各个特征信息进行排序,数据源中出现次数越多的特征信息与该数据源类型的相关性越高。这里需要说明的是,所述特征信息也就是从大量的行业信息中选择的具有代表性和特征性的细化的子行业信息。进一步的,为了更直观的根据爬虫数据源中特征信息的出现情况确定用于标注数据源的标签,本发明实施例还可以对每个特征信息做基于爬虫数据源中特征信息出现情况的布尔类型分类,这种分类也称为二元分类。本发明实施例对每个特征信息进行布尔类型的分类在本质上来说,是对于一个特征有可能属于多个爬虫数据源的情况,那么就根据其他出现频数较多的特征去权衡数据源到底属于什么类型。由于布尔类型对象可以被赋予文字值true或者false,其中true和false所对应的关系就是真与假的概念,因此在上述特征信息集合表示的每个爬虫数据源的表格中所展示的数据的基础上,在同一数据源中将出现频次高的特征信息对应的关系判断为真,相应的布尔值为true;将出现频次低的特征信息对应的关系判断为假,相应的布尔值为false,则根据上述用特征信息集合表示每个爬虫数据源的表格可以得到下述布尔分类的表格:
数据源\特征 塑料 银行 证券 金融行业
Doc1 True False False False
Doc2 False True True True
Doc3 False True True True
当通过上述方式对爬虫数据源中的特征信息统计完成之后,就可以根据统计结果确定每个爬虫数据源的标签,主要做的就是汇总上述布尔分类信息,将布尔分类为真的特征信息作为数据源的标签,将确定的数据源的标签进行整理后可以如下表所示:
数据源 标签
Doc1 {塑料}
Doc2 {金融行业;银行;证券}
Doc3 {金融行业;银行;证券}
随后根据整理的数据源标签的表格对每个数据源进行标签标注。
本发明实施例在基于自然语言处理技术选择出用于标注标签的特征信息集合之后,用特征信息集合中的特征信息表示每个数据源,并将数据源中特征信息的出现情况进行布尔类型的分类,从而能够方便的展示每个数据源是否属于某个行业。
进一步的,作为对上述图1所示方法的应用,本发明实施例还提供了一种爬虫数据源的处理装置,如图2所示,该装置包括:获取单元21、处理单元22、统计单元23以及确定单元24,其中,
获取单元21,用于从行业信息中获取特征信息集合,所述特征信息集合通过自然语言处理技术对行业信息进行统计处理后得到;
处理单元22,用于利用所述特征信息集合表示每个爬虫数据源;
统计单元23,用于统计每个爬虫数据源的特征信息集合中的各个特征信息;
确定单元24,用于根据统计结果确定每个爬虫数据源的标签。
进一步的,如图3所示,获取单元21包括:
获取模块211,用于获取行业信息的结构范围,所述行业信息的结构范围包括:行业以及每个行业下的子行业信息;
选择模块212,用于从所述行业信息的结构范围中选择子行业信息组成特征信息集合。
进一步的,获取单元21用于对所述行业信息的结构范围中的子行业进行卡方检测;还用于根据检测结果选择符合条件的子行业信息组成特征信息集合。
进一步的,如图3所示,处理单元22包括:
记录模块221,用于记录所述特征信息集合中的子行业在每个爬虫数据源中的出现次数;
表示模块222,用于利用所述子行业在每个爬虫数据源中的出现次数对每个爬虫数据源进行表示。
进一步的,如图3所示,统计单元23包括:
统计模块231,用于对每个爬虫数据源包含的各个子行业的出现次数的情况进行统计;
排序模块232,用于按照出现次数的高低对每个爬虫数据源包含的各个子行业进行排序;
分类模块233,用于根据排序结果对每个爬虫数据源包含的各个子行业进行布尔类型的分类。
进一步的,确定单元24用于根据每个爬虫数据源包含的各个子行业的布尔类型的分类结果确定每个爬虫数据源的标签,并用所述标签给爬虫数据源进行标注。
本发明实施例提供的爬虫数据源的处理装置,能够从行业信息中获取特征信息集合,所述特征信息集合通过自然语言处理技术对行业信息进行统计处理后得到,利用所述特征信息集合表示每个爬虫数据源,统计每个爬虫数据源的特征信息集合中的各个特征信息,根据统计结果确定每个爬虫数据源的标签。由于特征信息集合中的特征信息是通过自然语言处理技术选出的具有行业代表性和特征性的行业类别,而不是由人工选择或机器自动选择的,因此在用由自然语言处理技术得到的特征信息表示爬虫数据源的基础上,可以根据每个数据源的特征信息从中选出用于准确分类数据源的标签。
此外,本发明实施例中爬虫数据源的处理装置在基于自然语言处理技术选择出用于标注标签的特征信息集合之后,用特征信息集合中的特征信息表示每个数据源,并将数据源中特征信息的出现情况进行布尔类型的分类,从而能够方便的展示每个数据源是否属于某个行业。
所述爬虫数据源的处理装置包括处理器和存储器,上述获取单元21、处理单元22、统计单元23以及确定单元24,均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决现有技术中无法对爬虫数据源准确标注标签的问题。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:从行业信息中获取特征信息集合,所述特征信息集合通过自然语言处理技术对行业信息进行统计处理后得到;利用所述特征信息集合表示每个爬虫数据源;统计每个爬虫数据源的特征信息集合中的各个特征信息;根据统计结果确定每个爬虫数据源的标签。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种爬虫数据源的处理方法,其特征在于,所述方法包括:
从行业信息中获取特征信息集合,所述特征信息集合通过自然语言处理技术对行业信息进行统计处理后得到;
利用所述特征信息集合表示每个爬虫数据源;
统计每个爬虫数据源的特征信息集合中的各个特征信息;
根据统计结果确定每个爬虫数据源的标签。
2.根据权利要求1所述的方法,其特征在于,所述从行业信息中获取特征信息集合包括:
获取行业信息的结构范围,所述行业信息的结构范围包括:行业以及每个行业下的子行业信息;
从所述行业信息的结构范围中选择子行业信息组成特征信息集合。
3.根据权利要求2所述的方法,其特征在于,从所述行业信息的结构范围中选择子行业信息组成特征信息集合包括:
对所述行业信息的结构范围中的子行业进行卡方检测;
根据检测结果选择符合条件的子行业信息组成特征信息集合。
4.根据权利要求2所述的方法,其特征在于,利用所述特征信息集合表示每个爬虫数据源包括:
记录所述特征信息集合中的子行业在每个爬虫数据源中的出现次数;
用所述子行业在每个爬虫数据源中的出现次数对每个爬虫数据源进行表示。
5.根据权利要求4所述的方法,其特征在于,所述统计每个爬虫数据源的特征信息集合中的各个特征信息包括:
对每个爬虫数据源包含的各个子行业的出现次数的情况进行统计;
按照出现次数的高低对每个爬虫数据源包含的各个子行业进行排序;
根据排序结果对每个爬虫数据源包含的各个子行业进行布尔类型的分类。
6.根据权利要求5所述的方法,其特征在于,根据统计结果确定每个爬虫数据源的标签包括:
根据每个爬虫数据源包含的各个子行业的布尔类型的分类结果确定每个爬虫数据源的标签,并用所述标签给爬虫数据源进行标注。
7.一种爬虫数据源的处理装置,其特征在于,所述装置包括:
获取单元,用于从行业信息中获取特征信息集合,所述特征信息集合通过自然语言处理技术对行业信息进行统计处理后得到;
处理单元,用于利用所述特征信息集合表示每个爬虫数据源;
统计单元,用于统计每个爬虫数据源的特征信息集合中的各个特征信息;
确定单元,用于根据统计结果确定每个爬虫数据源的标签。
8.根据权利要求7所述的装置,其特征在于,所述获取单元包括:
获取模块,用于获取行业信息的结构范围,所述行业信息的结构范围包括:行业以及每个行业下的子行业信息;
选择模块,用于从所述行业信息的结构范围中选择子行业信息组成特征信息集合。
9.根据权利要求8所述的装置,其特征在于,所述处理单元包括:
记录模块,用于记录所述特征信息集合中的子行业在每个爬虫数据源中的出现次数;
表示模块,用于利用所述子行业在每个爬虫数据源中的出现次数对每个爬虫数据源进行表示。
10.根据权利要求9所述的装置,其特征在于,所述统计单元包括:
统计模块,用于对每个爬虫数据源包含的各个子行业的出现次数的情况进行统计;
排序模块,用于按照出现次数的高低对每个爬虫数据源包含的各个子行业进行排序;
分类模块,用于根据排序结果对每个爬虫数据源包含的各个子行业进行布尔类型的分类。
CN201610061326.4A 2016-01-28 2016-01-28 爬虫数据源的处理方法及装置 Pending CN107016005A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610061326.4A CN107016005A (zh) 2016-01-28 2016-01-28 爬虫数据源的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610061326.4A CN107016005A (zh) 2016-01-28 2016-01-28 爬虫数据源的处理方法及装置

Publications (1)

Publication Number Publication Date
CN107016005A true CN107016005A (zh) 2017-08-04

Family

ID=59439266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610061326.4A Pending CN107016005A (zh) 2016-01-28 2016-01-28 爬虫数据源的处理方法及装置

Country Status (1)

Country Link
CN (1) CN107016005A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109598528A (zh) * 2017-09-30 2019-04-09 北京国双科技有限公司 广告信息处理方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324628A (zh) * 2012-03-21 2013-09-25 腾讯科技(深圳)有限公司 一种针对发布文本的行业分类方法和系统
CN104268283A (zh) * 2014-10-21 2015-01-07 浪潮集团有限公司 一种自动解析互联网网页的方法
CN105243389A (zh) * 2015-09-28 2016-01-13 北京橙鑫数据科技有限公司 公司名称的行业分类标签的确定方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324628A (zh) * 2012-03-21 2013-09-25 腾讯科技(深圳)有限公司 一种针对发布文本的行业分类方法和系统
CN104268283A (zh) * 2014-10-21 2015-01-07 浪潮集团有限公司 一种自动解析互联网网页的方法
CN105243389A (zh) * 2015-09-28 2016-01-13 北京橙鑫数据科技有限公司 公司名称的行业分类标签的确定方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109598528A (zh) * 2017-09-30 2019-04-09 北京国双科技有限公司 广告信息处理方法和装置
CN109598528B (zh) * 2017-09-30 2023-05-23 北京国双科技有限公司 广告信息处理方法和装置

Similar Documents

Publication Publication Date Title
US9411892B2 (en) System for enhancing expert-based computerized analysis of a set of digital documents and methods useful in conjunction therewith
CN107957957A (zh) 测试用例的获取方法和装置
US8832102B2 (en) Methods and apparatuses for clustering electronic documents based on structural features and static content features
US8706742B1 (en) System for enhancing expert-based computerized analysis of a set of digital documents and methods useful in conjunction therewith
US8533194B1 (en) System for enhancing expert-based computerized analysis of a set of digital documents and methods useful in conjunction therewith
CN107203774A (zh) 对数据的归属类别进行预测的方法及装置
CN107515886A (zh) 一种数据表的识别方法、装置和系统
CN102194013A (zh) 一种基于领域知识的短文本分类方法及文本分类系统
CN107783734A (zh) 一种基于超融合存储系统的资源分配方法、装置及终端
US20150186776A1 (en) Contextual data analysis using domain information
CN105528447B (zh) 一种对特定数据逐层边剔除边汇总的方法
US11232114B1 (en) System and method for automated classification of structured property description extracted from data source using numeric representation and keyword search
CN110019785B (zh) 一种文本分类方法及装置
US20220229854A1 (en) Constructing ground truth when classifying data
CN110134844A (zh) 细分领域舆情监控方法、装置、计算机设备及存储介质
CN107729330A (zh) 获取数据集的方法和装置
Harita et al. A fundamental study on suicides and rainfall datasets using basic machine learning algorithms
CN106991090A (zh) 舆情事件实体的分析方法及装置
Juddoo et al. A qualitative assessment of machine learning support for detecting data completeness and accuracy issues to improve data analytics in big data for the healthcare industry
US11790680B1 (en) System and method for automated selection of best description from descriptions extracted from a plurality of data sources using numeric comparison and textual centrality measure
Zăinescu et al. Concerns about data linking delta land gain to human action
CN105335886A (zh) 处理金融数据的方法和设备
CN109903140A (zh) 一种信用服务推荐方法、装置及设备
CN107016005A (zh) 爬虫数据源的处理方法及装置
CN107016028A (zh) 数据处理方法及其设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170804