CN101788988B

CN101788988B - 信息抓取方法

Info

Publication number: CN101788988B
Application number: CN2009100775574A
Authority: CN
Inventors: 蔡亮华; 庞然; 胡新宇
Original assignee: Individual
Current assignee: Individual
Priority date: 2009-01-22
Filing date: 2009-01-22
Publication date: 2012-06-27
Anticipated expiration: 2029-01-22
Also published as: CN101788988A

Abstract

本发明涉及一种信息抓取方法。该方法包括：爬虫程序获取与搜索主题相关的网页信息，并对网页信息进行分词处理，获得包含若干词和/或词组的分词处理结果信息；分别基于语义库中同一语义属性参数对词和/或词组进行加权运算，得到网页信息的语义属性参数；若网页信息的语义属性参数在预设的语义属性参数范围内，则将网页信息保存至抓取结果队列。本发明实施例使抓取所得的结果与搜索主题相关度高，使爬虫工作效率提高，占用存储空间小。

Description

信息抓取方法

技术领域

本发明涉及信息搜索技术，尤其涉及一种信息抓取方法。

背景技术

随着互联网的普及，人们在日常的工作和生活中越来越多地使用信息搜索引擎，从互联网获取所需的各种信息。因此，信息搜索技术在互联网行业中占有着重要的地位。近年来，人们对搜索结果的要求越来越高。

目前，各搜索引擎主要采用网络爬虫来获取与用户搜索主题相关的网页信息。网络爬虫是一个自动提取网页的程序，它根据用户提供的搜索主题，从互联网上下载和获取网页，这些网页信息包括：网络新闻、论坛、博客等网页。网络爬虫可以从一个或若干初始网页的地址开始，获得初始网页上的地址，在下载和获取网页的过程中，不断从当前页面上抽取新的地址放入队列，直到满足系统设定的停止条件时停止搜索。

现有采用网络爬虫的信息抓取方法，主要是在互联网上对网页进行海量的信息抓取，然后通过人为制定的一些规则数据过滤掉与搜索主题无关的信息。而这种规则数据通常是提前制定和输入的，并且不是基于信息的语义含义进行抓取，在瞬息万变的互联网环境下，词或词组的语义常发生较大变化，这将会导致大量对搜索主题有价值的信息被遗漏，或者检索的结果与搜索主题无关，也会致使网络爬虫的工作效率较低，浪费存储空间。

发明内容

本发明的主要目的是提供一种信息抓取方法，用以解决前述现有技术中对搜索主题有价值的信息被遗漏或爬虫抓取的信息与搜索主题无关，以及爬虫工作效率低，浪费存储空间的问题。

为此，本发明一些方法的实施例包括：

爬虫程序获取与搜索主题相关的网页信息，并对所述网页信息进行分词处理，获得包含若干词和/或词组的分词处理结果信息；

根据预设时间内所述词和/或词组在所述网页信息中出现的频率，对所述词和/或词组进行聚类操作，并获取第一分类数据表；

根据语义库数据对所述第一分类数据表进行语义属性归类，获取第二分类数据表；

在所述第二分类数据表中获取所述词和/或词组的语义属性参数；

根据所述语义库数据在所述第二分类数据表中查询具有新语义属性参数的所述词和/或词组；

将所述词和/或词组与所述第二分类数据表中语义属性参数相同的其他词和/或词组进行相关性分析，获取所述词和/或词组的语义数据，并将所述语义数据添加至所述语义库；

分别基于所述语义库中同一所述语义属性参数对所述词和/或词组进行加权运算，得到所述网页信息的语义属性参数；

若所述网页信息的语义属性参数在预设的语义属性参数范围内，则将所述网页信息保存至抓取结果队列。

因此，本发明实施例提供的信息抓取方法预先设置抓取结果的语义属性参数范围，爬虫程序将经过筛选与搜索主题相关的结果信息保存至抓取结果队列，使抓取所得的结果与搜索主题相关度高，爬虫程序工作效率提高，占用存储空间小。

附图说明

图1为本发明信息抓取方法第一实施例流程图；

图2为本发明信息抓取方法第二实施例流程图；

图3为本发明信息抓取方法第三实施例流程图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

图1为本发明信息抓取方法第一实施例流程图，如图1所示，包括：

步骤100、爬虫程序获取与搜索主题相关的网页信息，并对网页信息进行分词处理，获得包含若干词的分词处理结果信息；

其中，分词处理结果信息中的若干词为泛指，还可以为由词构成的词组。分词处理的结果举例来说，比如：“北京举办奥运会”这个句子，通过分词处理以后得到“北京”“举办”“奥运”。分词的方法有字符串匹配法、基于理解的分词方法和基于统计的分词方法等等；采用字符串匹配的分词方法又叫机械分词方法，它是按照一定的策略将待分析的汉字串与一个机器词典中的词条进行匹配，若在机器词典中找到某个字符串，则匹配成功，识别出一个词。分词处理是基于语义库数据进行，语义库数据还包括动词库数据、名词库数据、虚词库数据和助词库数据等等，通过分词处理能够将网页信息中的虚词、助词等与网页主题相关度较小的词去掉，滤除与网页主题无关的信息。

步骤101、分别基于语义库中同一语义属性参数对词进行加权运算，得到网页信息的语义属性参数；

其中，词的语义属性参数描述了该词对应的语义在各应用领域中的归属，这些应用领域可以为专业领域，例如“音乐领域”、“体育领域”和“科技领域”等，此时对应的语义属性即为“音乐属性”、“体育属性”和“科技属性”等；这些应用领域还可以为社会人文等领域，例如“公益领域”、“娱乐领域”和“广告领域”等，此时对应的语义属性即为“公益属性”、“娱乐属性”和“广告属性”等。由于每个词可能具有若干语义，因此，每个词可能对应具有若干语义属性参数。即经过分词处理后的各个词分别具有若干语义属性参数，依次找出各个词具有的相同语义属性参数，并分别基于同一语义属性参数对各个词进行加权运算，可以得出该网页信息的语义属性参数，与词的语义属性参数相类似，网页信息的语义属性参数表示了该网页信息所归属的领域，即网页信息可以具有“公益属性”、“娱乐属性”或“广告属性”等。

步骤102、若该网页信息的语义属性参数在预设的语义库数据中的语义属性参数范围内，则将网页信息保存至抓取结果队列。

在进行查找与主题相关的网页信息之前，在语义库数据中预设查找对象的语义属性参数，比如：搜索的主题是与音乐有关的内容，则爬虫所“期望” 的抓取结果范围是“音乐领域”，则在抓取程序中预先设置语义属性参数为“音乐属性”，若查找到的网页信息的语义属性参数为“音乐属性”，则将该网页信息保存至抓取结果队列中。需要说明的是：对于计算机信息处理技术而言，前面所说的各种予以参数往往采用一些标识信息来表示。例如：“音乐领域”用“01010”这样的数字串来表示。

本实施例提供的信息抓取方法，预先设置搜索结果的语义属性参数范围，爬虫将经过筛选与搜索主题相关的结果信息进行保存，使搜索所得的结果与搜索主题相关度高，爬虫工作效率提高，占用存储空间小。

图2为本发明信息搜索方法第二实施例流程图，如图2所示，该方法可以具体包括：

步骤200、爬虫程序根据网址中包含的网页标题的地址获取包含网页标题信息或者标题及正文的网页信息；

爬虫程序根据用户提供的搜索主题进行相关网页的查找，查找的操作根据网页的统一资源定位符(Uniform Resource Locator；以下简称：URL)，即网页的网址进行，当抓取到某个网页的网址时，该网址中包含指向网页标题的地址，爬虫程序通过该地址可以获得网页的标题或者标题及正文的信息。

步骤201、将获取到的网页信息进行格式转换，生成标准化数据；

其中，获取到的网页的标题信息和正文信息为超文本标记语言(HyperText Mark-up Language；以下简称；HTML)文本，需要将该文本信息转化为标准化数据格式，以便进行后续的分词、聚类等数据处理，该过程的结果为网页标题信息和正文信息建立一个标准化数据库，该标准化数据采用二维数据表的格式进行存储，该数据表记录了获取该网页信息的时间、网址等信息。

步骤202、对标准化数据进行相关信息提取，获取与搜索主题相关的数据信息；

在获取网页的标题或者标题及正文信息后，要对该标题或者标题及正文的内容进行筛选，滤除与搜索主题相关性较小的内容，筛选的过程可以为提取与搜索主题相同或相近的字符串，例如：需要提取“公益事业”相关的信息，通过语义库找出“公益事业”语义属性参数较高的字符串，如“慈善”、“捐款”、“赈灾”等，根据这些字符串对标准化数据库中的标题信息或正文信息进行模糊匹配，完成了相关信息的提取，获取了与搜索主题相关的网页信息。

步骤203、根据语义库数据对与搜索主题相关的数据信息进行分词处理，获得包含若干词的分词处理结果信息；

获取网页信息的语义属性参数需要获知分词处理结果信息中各个词的语义属性参数，才能基于语义库中同一语义属性参数对分词处理结果信息中各个词进行加权运算得到网页信息的语义属性参数。而该分词处理结果信息中的各个词可能具有新的语义属性参数，还有可能存在一些未知语义的词，进而无法了解这些词的语义属性参数，这时，需要对各个词进行聚类操作，根据语义库数据获取各个词的语义属性参数，在以下步骤中进行详细说明。

步骤204、根据预设时间内各个词在网页信息中出现的频率，对各个词进行聚类操作，并获取第一分类数据表；

举例说明聚类操作的过程，比如：网页信息经过分词处理后得到“粉丝”“歌星”“凉菜”“演唱会”等许多词，若预设的时间为一天，则在一天之内“粉丝”“歌星”同时出现的频率为n1，“粉丝”和“演唱会”同时出现的频率为n2，“粉丝”和“凉菜”同时出现的频率为n3，则将“粉丝”“歌星”归为类1，“粉丝”“演唱会”归为类2，“粉丝”和“凉菜”归为类3，并将获得的类1、类2和类3存储于第一分类数据表，即第一分类数据表是基于词频进行的归类存储。这里仅以少量词汇为例进行说明，但聚类操作的过程并不限于此。

步骤205、根据语义库数据对第一分类数据表进行语义属性归类，获取第二分类数据表，并在第二分类数据表中获取词的语义属性参数；

第二分类数据表是在第一分类数据表的基础上，针对基于词频的第一分类数据表进一步进行语义属性的分类，以下的描述以前一步骤中描述的为例，根据语义库数据可以得出类1的语义属性参数为“娱乐属性”，类2的语义属性参数也为“娱乐属性”，类3的语义属性参数则为“食物属性”，按照语义属性进行分类后，又把类1和类2共同划分为“娱乐属性”，即第二分类数据表将聚类操作获得的第一分类数据表按照语义属性进行分类存储。

步骤206、根据语义库参数在第二分类数据表中查询具有新语义属性参数的词；

如“粉丝”这个词，原本在语义库的语义属性参数为“食物属性”，但在聚类操作结果信息中查询到“粉丝”这个词具有了“娱乐属性”。

步骤207、将具有新语义属性参数的词和与第二分类数据表中中语义属性参数相同的其他词做相关性分析，获取该词的语义数据，并将语义数据添加至语义库；

与“粉丝”这个词同属“娱乐属性”参数的还有“歌星”“演唱会”，可能还会有“影迷”“歌迷”等等具有相同语义属性参数的词，将“粉丝”这个词与这些具有相同语义属性参数的词做相关性分析，相关度越高的，含义越近，通过相关性分析得到，“粉丝”与“影迷”的相关度最高，则“粉丝”这个词具有的新语义“影迷”，将“歌迷”这个语义数据添加至语义库中“粉丝”对应的语义数据中，即只要在搜索过程中发现具有新语义数据的词，便自动识别出新的语义数据，对语义库进行更新。

步骤208、分别基于语义库中同一语义属性参数对各个词进行加权运算，获取网页信息的语义属性参数；

将各个词共同的语义属性参数分别进行统计，这些词可能具有若干相同的语义属性参数，依次基于每一语义属性参数对这些词进行加权运算，得到该网页信息的语义属性参数。

步骤209、若该网页信息的语义属性参数在预设的语义库数据中的语义属性参数范围内，则将网页信息保存至抓取结果队列。

本实施例提供的信息抓取方法预先设置抓取结果的语义属性参数范围，爬虫程序将经过筛选与搜索主题相关的结果信息保存至抓取结果队列，使抓取所得的结果与搜索主题相关度高，使爬虫程序工作效率提高，占用存储空间小；并且爬虫能够在信息抓取过程中自动识别网页信息中包含的词或词组的新语义，并自动对语义库数据进行更新，实现了语义库的自学习。

图3为本发明信息抓取方法第三实施例流程图，如图3所示，在上一实施例的基础上，步骤204～步骤208还可以为：

步骤304、根据语义库数据在经分词处理后的各个词中获取未知语义数据的词以及已知语义数据的词；

其中，所谓未知语义数据的词为在语义库中不存在与之对应的语义数据。

步骤305、根据预设时间内未知语义数据的词和已知语义数据的词在网页信息中出现的频率，对未知语义数据的词和已知语义数据的词进行聚类操作，并获取第一分类数据表；

步骤306、根据语义库数据对第一分类数据表进行语义属性归类，获取第二分类数据表，并在第二分类数据表中获取未知语义数据词的语义属性参数；

聚类操作的过程具体参加上一实施例，在此不再赘述。

步骤307、在第二分类数据表中获取未知语义数据的词和/或词组的语义属性参数以及已知语义数据的词和/或词组的语义属性参数；

某个未知语义数据的词，在经过与其他已知语义数据词进行聚类操作之后，通过语义库可以解析出该未知语义数据的词可能具有若干语义属性参数，这些语义属性参数分别占有不同的比重。

步骤308、将未知语义数据的词与第二分类数据表中语义属性参数相同的词进行相关性分析，获取未知语义数据词的语义数据，并将该语义数据添加至语义库。

该过程举例来说，比如：若“画皮”这个词的语义数据是未知的，通过聚类操作及基于语义库解析得出这个词具有“娱乐属性”等语义属性参数，这些语义属性参数可能各自占有不同的比重，分别将它与第二分类数据表中属于同一语义属性参数的其他词做相关性分析，例如，在“娱乐属性”中，“画皮”与“电影”这个词相关度最高，则“画皮”这个词具有较高的“电影”语义；而在其他语义属性参数中，“画皮”可能与另外一些词具有较高的相关度，则“画皮”这个词同时还具有与这些词对应的语义，因此，将这些语义数据添加至语义库。在信息抓取过程中发现未知语义数据的词，便自动识别未知词的各种语义数据，将这些语义数据添加至语义库，从而完成了对语义库的更新。

本实施例提供的信息抓取方法预先设置抓取结果的语义属性范围，爬虫将经过筛选与搜索主题相关的结果信息保存至抓取结果队列，使抓取结果与搜索主题相关度高，使爬虫程序工作效率提高，占用存储空间小；并且爬虫能够在信息抓取过程中自动识别网页信息中包含的未知语义的词或词组，并自动对语义库进行更新，实现了语义库的自学习。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种信息抓取方法，其特征在于，包括：

分别基于所述语义库中同一语义属性参数对所述词和/或词组进行加权运算，得到所述网页信息的语义属性参数；

2.根据权利要求1所述的信息抓取方法，其特征在于，所述根据预设时间内所述词和/或词组在所述网页信息中出现的频率，对所述词和/或词组进行聚类操作，并获取第一分类数据表之前还包括：

根据所述语义库数据在所述词和/或词组中获取未知语义数据的词和/或词组以及已知语义数据的词和/或词组。

3.根据权利要求2所述的信息抓取方法，其特征在于，所述根据预设时间内所述词和/或词组在所述网页信息中出现的频率，对所述词和/或词组进行聚类操作，并获取第一分类数据表包括：

根据预设时间内所述未知语义数据的词和/或词组和所述已知语义数据的词和/或词组在所述网页信息中出现的频率，对所述未知语义数据的词和/或词组与所述已知语义数据的词和/或词组进行聚类操作，并获取所述第一分类数据表。

4.根据权利要求3所述的信息抓取方法，其特征在于，所述在所述第二分类数据表中获取所述词和/或词组的语义属性参数包括：

在所述第二分类数据表中获取所述未知语义数据的词和/或词组的语义属性参数以及所述已知语义数据的词和/或词组的语义属性参数。

5.根据权利要求4所述的信息抓取方法，其特征在于，所述在所述第二分类数据表中获取所述未知语义数据的词和/或词组的语义属性参数以及所述已知语义数据的词和/或词组的语义属性参数之后还包括：

将所述未知语义数据的词和/或词组与所述第二分类数据表中语义属性参数相同的词和/或词组进行相关性分析，获取所述未知语义词和/或词组的语义数据，并将所述语义数据添加至所述语义库。

6.根据权利要求1所述的信息抓取方法，其特征在于，所述爬虫程序获取与搜索主题相关的网页信息，并对所述网页信息进行分词处理，获得包含若干词和/或词组的分词处理结果信息之前还包括：

爬虫程序根据网址中包含的网页标题的地址获取包含网页标题和/或正文的网页信息；

将获取到的所述网页信息进行格式转换，生成标准化数据。

7.根据权利要求6所述的信息抓取方法，其特征在于，所述爬虫程序获取与搜索主题相关的网页信息，并对所述网页信息进行分词处理，获得包含若干词和/或词组的分词处理结果信息包括：

对所述标准化数据进行相关信息提取，获取与搜索主题相关的数据信息；

根据所述语义库数据对所述与搜索主题相关的数据信息进行分词处理，获得包含若干词和/或词组的分词处理结果信息。