CN106033428B

CN106033428B - 统一资源定位符的选择方法和统一资源定位符的选择装置

Info

Publication number: CN106033428B
Application number: CN201510107097.0A
Authority: CN
Inventors: 曹六一; 于晓明; 颜勇; 杨建武
Original assignee: Peking University; Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Current assignee: New Founder Holdings Development Co ltd; Peking University; Beijing Founder Electronics Co Ltd
Priority date: 2015-03-11
Filing date: 2015-03-11
Publication date: 2019-08-30
Anticipated expiration: 2035-03-11
Also published as: CN106033428A

Abstract

本发明提出了一种统一资源定位符的选择方法和一种统一资源定位符的选择装置，其中，方法包括：根据输入的关键词获取与关键词相关的至少一个统一资源定位符；根据至少一个统一资源定位符中的每个统一资源定位符的参数信息和/或至少一个统一资源定位符所使用的域名的权重比，统计每个统一资源定位符与关键词的相关度；根据每个统一资源定位符与关键词的相关度，从至少一个统一资源定位符中选择目标统一资源定位符，以将目标统一资源定位符作为与关键词相关的统一资源定位符的搜索结果。通过本发明的技术方案，可以有效地保证了获取统一资源定位符的覆盖率和准确率，从而可以根据统一资源定位符获取质量较高的网页内容以供满足舆情分析的需求。

Description

统一资源定位符的选择方法和统一资源定位符的选择装置

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种统一资源定位符的选择方法和一种统一资源定位符的选择装置。

背景技术

目前，伴随着互联网的飞速发展，互联网中的数据量日益庞大，现有的网页数量已经在数千亿的级别。数据量的飞速增长对舆情分析的数据获取能力也提出了更高的要求。在相关技术中，通常采用网络爬虫技术获取统一资源定位符(URL，Uniform ResourceLocator)从而根据统一资源定位符获取网页内容，其中，网络爬虫技术基本可以分为两大类：定向爬虫技术与非定向爬虫技术。定向爬虫技术，即只对某些特定的统一资源定位符进行爬取，这样就导致了定向爬虫技术只是获取到一定范围的统一资源定位符，从而导致根据统一资源定位符获取到的网页内容的覆盖率不高。非定向爬虫技术最典型的是搜索引擎的网络爬虫，其基本都是按照深度或者广度搜索的方式遍历整个互联网，这其中必然会存在者各种垃圾、色情数据以及对特定场景下无用的统一资源定位符，最重要的是根据非定向爬虫技术获取的统一资源定位符来获取到的网页内容的准确率不高，很多网页内容并不是所需要的。

因此，如何同时保证获取到的统一资源定位符的准确率和覆盖率，以保证根据统一资源定位符而获取的网页内容的准确率和覆盖率，成为亟待解决的问题。

发明内容

本发明正是基于上述问题，提出了一种新的技术方案，可以保证获取统一资源定位符时有较高的覆盖率，还可以准确地获取质量较高的统一资源定位符，从而可以根据统一资源定位符准确地获取质量较高以及覆盖率较大的网页内容以供满足舆情分析的需求。

有鉴于此，本发明的一方面提出了一种统一资源定位符的选择方法，包括：根据输入的关键词获取与所述关键词相关的至少一个统一资源定位符；根据所述至少一个统一资源定位符中的每个统一资源定位符的参数信息和/或所述至少一个统一资源定位符所使用的域名的权重比，统计所述每个统一资源定位符与所述关键词的相关度；根据所述每个统一资源定位符与所述关键词的相关度，从所述至少一个统一资源定位符中选择目标统一资源定位符，以将所述目标统一资源定位符作为与所述关键词相关的统一资源定位符的搜索结果。

在该技术方案中，根据用户输入的关键词从互联网(例如，百度、谷歌和搜狗等搜索引擎)中获取至少一个统一资源定位符(URL，Uniform Resource Locator)，其中，该至少一个统一资源定位符相应的网页内容中包含有关键字，然后根据至少一个统一资源定位符中的每个统一资源定位符的参数信息和/或至少一个统一资源定位符所使用的域名(Host)的权重比，统计每个统一资源定位符与关键词的相关度，且在至少一个统一资源定位符中选择与关键词的相关度较高的统一资源定位符作为目标统一资源定位符，这样由关键词获取到的目标统一资源定位符就更加准确，使目标统一资源定位符相应的网页内容的质量就较高，从而可以通过质量较高的网页内容来满足舆情分析的需求，另外，在保证目标统一资源定位符的质量的同时，还保证了获取目标统一资源定位符的覆盖率。

在上述技术方案中，优选地，还包括：根据接收到的存储指令，将所述目标统一资源定位符中的每个目标统一资源定位符和与所述每个目标统一资源定位符相应的域名解析地址对应存储在分布式存储系统数据库中；根据接收到的获取指令，获取与所述每个目标统一资源定位符相对应的域名解析地址，以使用与所述每个目标统一资源定位符相对应的域名解析地址下载所述每个目标统一资源定位符对应的网页内容，并将所述每个目标统一资源定位符对应的网页内容存储在分布式文件系统数据库中。

在该技术方案中，将目标统一资源定位符中的每个目标统一资源定位符和与每个目标统一资源定位符相应的域名解析地址对应存储在分布式存储系统数据库(Hbase，Hadoop Database)中，以便更好地支持对每个目标统一资源定位符和与每个目标统一资源定位符相应的域名解析地址进行随机访问和管理，另外，将每个目标统一资源定位符对应的网页内容存储在分布式文件系统数据库(HDFS，Hadoop Distributed File System)中，从而可以提高从目标统一资源定位符对应的网页内容中获取正文标题、正文内容和发布时间等的效率。

在上述技术方案中，优选地，还包括：确定所述每个目标统一资源定位符对应的网页内容中的参照标题标签，以根据所述参照标题标签确定所述网页内容中的候选标题标签集；统计所述候选标题标签集中的每个候选标题标签的第一字符串长度与所述参照标题标签的第二字符串长度的实时长度比，和/或所述每个候选标题标签的第一标签内容与所述参照标题标签的第二标签内容的编辑距离；根据与所述每个候选标题标签对应的实时长度比，和/或与所述每个候选标题标签对应的编辑距离，确定所述网页内容的目标标题标签，以将所述目标标题标签的标题内容作为所述网页内容的正文标题。

在该技术方案中，根据与每个候选标题标签对应的实时长度比，和/或与每个候选标题标签对应的编辑距离，确定网页内容的目标标题标签，从而可以将目标标题标签的标题内容作为网页内容的正文标题，由此，可以有效地提高了获取网页内容的正文标题的准确率，使网页内容的正文标题可以满足舆情分析的需求，另外，在不需要网页内容的时候对网页内容的正文标题进行存储，而不是对网页内容进行存储，从而减少了存储空间。

在上述技术方案中，优选地，还包括：确定所述网页内容中的至少一个网页标签中的每个网页标签的第三字符串长度；判断所述至少一个网页标签中是否存在第三字符串长度大于或等于预设字符串长度的指定网页标签，在存在多个指定网页标签时，依次统计所述多个指定网页标签中的每个网页标签的链接文本内容与所述每个网页标签的总文本内容的第一比例，和/或所述每个网页标签的非链接文本内容与所述每个网页标签的总文本内容的第二比例，根据所述第一比例和/或所述第二比例，从所述多个指定网页标签中选择所述网页内容的目标正文标签，并将所述目标正文标签的正文内容作为所述网页内容的正文内容；以及判断所述网页内容的正文标题中是否包括第一发布时间，在判断结果为是时，将所述第一发布时间作为所述网页内容的目标发布时间；在判断结果为否时，若所述网页内容的正文内容中包括第二发布时间，则将所述第二发布时间作为所述网页内容的目标发布时间。

在该技术方案中，通过统计第一比例和/或第二比例，从多个指定网页标签中选择网页内容的目标正文标签并将目标正文标签的正文内容作为网页内容的正文内容，并通过网页内容的正文标题的发布时间和正文内容的发布时间，确定网页内容的目标发布时间，从而提高了获取网页内容的正文内容和的发布时间准确率，使网页内容的正文内容和发布时间可以满足舆情分析的需求，另外，在不需要网页内容的时候对网页内容的正文内容和发布时间进行存储，而不是对网页内容进行存储，从而减少了存储空间。

在上述技术方案中，优选地，所述参数信息包括：所述每个统一资源定位符的类别、所述每个统一资源定位符对应的网页内容、所述每个统一资源定位符对应的网页内容在预定时间内的被下载次数，其中，所述类别包括：内容页统一资源定位符和列表页统一资源定位符；以及根据所述域名中包括的内容页统一资源定位符数目、列表页统一资源定位符的数目、每个类别的统一资源定位符对应的网页内容的被下载次数、与所述域名相对应的垃圾统一资源定位符的数目中的至少一项信息，确定所述至少一个统一资源定位符所使用的域名的权重比。

在该技术方案中，参数信息包括但不限于：每个统一资源定位符的类别、每个统一资源定位符对应的网页内容、每个统一资源定位符对应的网页内容在预定时间内的被下载次数，其中，类别包括但不限于：内容页统一资源定位符和列表页统一资源定位符，且内容页统一资源定位符对应的网页内容中没有锚文本，而列表页统一资源定位符对应的网页内容中包含有锚文本，可以通过该锚文本链接得到其他的网页内容，其中，锚文本是把关键词作为一个链接，该链接指向除锚文本所在的网页之外的其他网页，这种形式的链接即为锚文本。

本发明的另一方面提出了一种统一资源定位符的选择装置，包括：获取单元，根据输入的关键词获取与所述关键词相关的至少一个统一资源定位符；统计单元，根据所述至少一个统一资源定位符中的每个统一资源定位符的参数信息和/或所述至少一个统一资源定位符所使用的域名的权重比，统计所述每个统一资源定位符与所述关键词的相关度；选择单元，根据所述每个统一资源定位符与所述关键词的相关度，从所述至少一个统一资源定位符中选择目标统一资源定位符，以将所述目标统一资源定位符作为与所述关键词相关的统一资源定位符的搜索结果。

在上述技术方案中，优选地，还包括：存储单元，根据接收到的存储指令，将所述目标统一资源定位符中的每个目标统一资源定位符和与所述每个目标统一资源定位符相应的域名解析地址对应存储在分布式存储系统数据库中；所述获取单元还用于，根据接收到的获取指令，获取与所述每个目标统一资源定位符相对应的域名解析地址，以使用与所述每个目标统一资源定位符相对应的域名解析地址下载所述每个目标统一资源定位符对应的网页内容，并将所述每个目标统一资源定位符对应的网页内容存储在分布式文件系统数据库中。

在上述技术方案中，优选地，还包括：确定单元，确定所述每个目标统一资源定位符对应的网页内容中的参照标题标签，以根据所述参照标题标签确定所述网页内容中的候选标题标签集；所述统计单元还用于，统计所述候选标题标签集中的每个候选标题标签的第一字符串长度与所述参照标题标签的第二字符串长度的实时长度比，和/或所述每个候选标题标签的第一标签内容与所述参照标题标签的第二标签内容的编辑距离；所述确定单元还用于，根据与所述每个候选标题标签对应的实时长度比，和/或与所述每个候选标题标签对应的编辑距离，确定所述网页内容的目标标题标签，以将所述目标标题标签的标题内容作为所述网页内容的正文标题。

在该技术方案中，通过统计第一比例和/或第二比例，从多个指定网页标签中选择网页内容的目标正文标签，并将目标正文标签的正文内容作为网页内容的正文内容，并通过网页内容的正文标题的发布时间和正文内容的发布时间，确定网页内容的目标发布时间，从而提高了获取网页内容的正文内容和的发布时间准确率，使网页内容的正文内容和发布时间可以满足舆情分析的需求，另外，在不需要网页内容的时候对网页内容的正文内容和发布时间进行存储，而不是对网页内容进行存储，从而减少了存储空间。

在上述技术方案中，优选地，所述参数信息包括：所述每个统一资源定位符的类别、所述每个统一资源定位符对应的网页内容、所述每个统一资源定位符对应的网页内容在预定时间内的被下载次数，其中，所述类别包括：内容页统一资源定位符和列表页统一资源定位符；以及所述确定单元还用于，根据所述域名中包括的内容页统一资源定位符数目、列表页统一资源定位符的数目、每个类别的统一资源定位符对应的网页内容的被下载次数、与所述域名相对应的垃圾统一资源定位符的数目中的至少一项信息，确定所述至少一个统一资源定位符所使用的域名的权重比。

在该技术方案中，参数信息包括但不限于：每个统一资源定位符的类别、每个统一资源定位符对应的网页内容、每个统一资源定位符对应的网页内容在预定时间内的被下载次数，其中，类别包括但不限于：内容页统一资源定位符和列表页统一资源定位符，且内容页统一资源定位符对应的网页内容中没有锚文本，而列表页统一资源定位符对应的网页内容中包含有锚文本，其中，锚文本是把关键词作为一个链接，该链接指向除锚文本所在的网页之外的其他网页，这种形式的链接即为锚文本。

通过本发明的技术方案，可以保证获取统一资源定位符时有较高的覆盖率，还可以准确地获取质量较高的统一资源定位符，从而可以根据统一资源定位符准确地获取质量较高以及覆盖率较大的网页内容以供满足舆情分析的需求。

附图说明

图1示出了根据本发明的一个实施例的统一资源定位符的选择方法的流程示意图；

图2示出了根据本发明的一个实施例的统一资源定位符的选择装置的结构示意图；

图3示出了根据本发明的一个实施例的统一资源定位符的选择装置的原理示意图。

具体实施方式

为了可以更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了根据本发明的一个实施例的统一资源定位符的选择方法的流程示意图。

如图1所示，根据本发明的一个实施例的统一资源定位符的选择方法，包括：

步骤102，根据输入的关键词获取与所述关键词相关的至少一个统一资源定位符；

步骤104，根据所述至少一个统一资源定位符中的每个统一资源定位符的参数信息和/或所述至少一个统一资源定位符所使用的域名的权重比，统计所述每个统一资源定位符与所述关键词的相关度；

步骤106，根据所述每个统一资源定位符与所述关键词的相关度，从所述至少一个统一资源定位符中选择目标统一资源定位符，以将所述目标统一资源定位符作为与所述关键词相关的统一资源定位符的搜索结果。

在该技术方案中，由于在从至少一个统一资源定位符中选择目标统一资源定位符后，需要对目标统一资源定位符中的每个目标统一资源定位符和与每个目标统一资源定位符相应的域名解析地址进行随机读写和管理，因此，将目标统一资源定位符中的每个目标统一资源定位符和与每个目标统一资源定位符相应的域名解析地址对应存储在分布式存储系统数据库(Hbase，Hadoop Database)中，以便更好地支持对每个目标统一资源定位符和与每个目标统一资源定位符相应的域名解析地址进行随机访问和管理，另外，在下载目标统一资源定位符的每个目标统一资源定位符对应的网页内容后，由于目标统一资源定位符对应的网页内容所占用的存储空间比较大，如果将目标统一资源定位符对应的网页内容直接存储至分布式存储系统数据库中，这样会增大分布式存储系统数据库的并发读写，给分布式存储系统数据库带来负担，同时还会对从目标统一资源定位符对应的网页内容中获取正文标题、正文内容和发布时间等造成影响，因此，将每个目标统一资源定位符对应的网页内容存储在分布式文件系统数据库(HDFS，Hadoop Distributed File System)中，从而可以提高从目标统一资源定位符对应的网页内容中获取正文标题、正文内容和发布时间等的效率。

在该技术方案中，根据与每个候选标题标签对应的实时长度比，和/或与每个候选标题标签对应的编辑距离，确定网页内容的目标标题标签，从而可以将目标标题标签的标题内容作为网页内容的正文标题，由此，可以有效地提高了获取网页内容的正文标题的准确率，使网页内容的正文标题可以满足舆情分析的需求，另外，在不需要网页内容的时候对网页内容的正文标题进行存储，而不是对网页内容进行存储，从而减少了存储空间，例如，在每个目标统一资源定位符对应的网页内容中获取正文标题时，首先在每个目标统一资源定位符对应的网页内容中获取参照标题标签(网页内容中的<title>标签)，同时为了提高获取的正文标题的正确率，将参照标题标签中的标签内容所包含的网站字段信息(例如，<title>标签的字符串中的“-新华网”)去掉，并在网页内容中确定候选标题标签集，且候选标题标签集中的每个候选标题标签的第一标签内容和参照标题标签的第二标签内容有一定的相关性，在确定候选标题标签集之后，计算每个候选标题标签的第一字符串长度和参照标题标签的第二字符串长度的实时长度比，并判断候选标题标签集中的任一候选标题标签的第一字符串长度和参照标题标签的第二字符串长度的实时长度比是否大于或等于第一预设值，在判断结果为是时，说明任一候选标题标签的第一字符串长度较长，即任一候选标题标签不是目标标题标签，则将任一候选标题标签从候选标题标签集中丢弃，并对候选标题标签集进行更新，否则，确定任一候选标题标签可能是目标标题标签，并计算任一候选标题标签的第一标签内容和参照标题标签的第二标签内容的编辑距离(第一标签内容和第二标签内容的相似度)，如果参照标题标签的第二标签内容包含任一候选标题标签的第一标签内容，则编辑距离更新为第一编辑距离阈值，否则，编辑距离更新为第二编辑距离阈值，在确定任一候选标题标签的编辑距离之后，判断编辑距离是否小于或等于第二预设值，在判断结果为是时，将任一候选标题标签从候选标题标签集中丢弃，最后，在确定候选标题标签集中每个候选标题标签的编辑距离时，将候选标题标签集中的每个候选标题标签的编辑距离进行比较，比较得出最大的编辑距离的值，并确定将具有最大的编辑距离的候选标题标签作为目标标题标签，从而将目标标题标签的标题内容作为网页内容的正文标题。在上述技术方案中，优选地，还包括：确定所述网页内容中的至少一个网页标签中的每个网页标签的第三字符串长度；判断所述至少一个网页标签中是否存在第三字符串长度大于或等于预设字符串长度的指定网页标签，在存在多个指定网页标签时，依次统计所述多个指定网页标签中的每个网页标签的链接文本内容与所述每个网页标签的总文本内容的第一比例，和/或所述每个网页标签的非链接文本内容与所述每个网页标签的总文本内容的第二比例，根据所述第一比例和/或所述第二比例，从所述多个指定网页标签中选择所述网页内容的目标正文标签，并将所述目标正文标签的正文内容作为所述网页内容的正文内容；以及判断所述网页内容的正文标题中是否包括第一发布时间，在判断结果为是时，将所述第一发布时间作为所述网页内容的目标发布时间；在判断结果为否时，若所述网页内容的正文内容中包括第二发布时间，则将所述第二发布时间作为所述网页内容的目标发布时间。

在该技术方案中，通过统计第一比例和/或第二比例，从多个指定网页标签中选择网页内容的目标正文标签，并将目标正文标签的正文内容作为网页内容的正文内容，并通过网页内容的正文标题的发布时间和正文内容的发布时间，确定网页内容的目标发布时间，从而提高了获取网页内容的正文内容和的发布时间准确率，使网页内容的正文内容和发布时间可以满足舆情分析的需求，另外，在不需要网页内容的时候对网页内容的正文内容和发布时间进行存储，而不是对网页内容进行存储，从而减少了存储空间，具体地包括：在每个目标统一资源定位符对应的网页内容中获取正文内容时，判断至少一个网页标签中的每个网页标签的第三字符串长度，如果至少一个网页标签中的第三字符串长度小于预设字符串长度，则小于预设字符串长度的网页标签的第三字符串长度较小以至于不适合作为目标正文内容的网页标签，且在至少一个网页标签中的第三字符串长度大于或等于预设字符串长度的指定网页标签中选择网页内容的目标正文标签，由此，提高了选择网页内容的目标正文标签的效率和准确率，并在对指定网页标签进行筛选后，如果存在多个指定网页标签时，依次统计多个指定网页标签中的每个网页标签的链接文本内容与每个网页标签的总文本内容的第一比例，和/或每个网页标签的非链接文本内容与每个网页标签的总文本内容的第二比例，从而可以根据统计出的第一比例和/或第二比例，并根据比例最大原则从多个指定网页标签中选择网页内容的目标正文标签，从而将目标正文标签的正文内容作为网页内容的正文内容，优选地，在对指定网页标签进行筛选后，如果不存在多个指定网页标签时，则可以降低预设字符串长度的值，并再次进行判断至少一个网页标签中是否存在第三字符串长度大于或等于改变后的预设字符串长度的指定网页标签，从而可以在此次判断结果中的多个指定网页标签中确定目标正文标签，进而提高了获取网页内容的正文内容的范围，提高了获取网页内容的正文内容的准确率。在上述技术方案中，优选地，所述参数信息包括：所述每个统一资源定位符的类别、所述每个统一资源定位符对应的网页内容、所述每个统一资源定位符对应的网页内容在预定时间内的被下载次数，其中，所述类别包括：内容页统一资源定位符和列表页统一资源定位符；以及根据所述域名中包括的内容页统一资源定位符数目、列表页统一资源定位符的数目、每个类别的统一资源定位符对应的网页内容的被下载次数、与所述域名相对应的垃圾统一资源定位符的数目中的至少一项信息，确定所述至少一个统一资源定位符所使用的域名的权重比。

图2示出了根据本发明的一个实施例的统一资源定位符的选择装置的结构示意图。

如图2所示，根据本发明的一个实施例的统一资源定位符的选择装置200，包括：获取单元202，根据输入的关键词获取与所述关键词相关的至少一个统一资源定位符；统计单元204，根据所述至少一个统一资源定位符中的每个统一资源定位符的参数信息和/或所述至少一个统一资源定位符所使用的域名的权重比，统计所述每个统一资源定位符与所述关键词的相关度；选择单元206，根据所述每个统一资源定位符与所述关键词的相关度，从所述至少一个统一资源定位符中选择目标统一资源定位符，以将所述目标统一资源定位符作为与所述关键词相关的统一资源定位符的搜索结果。

在上述技术方案中，优选地，还包括：存储单元208，根据接收到的存储指令，将所述目标统一资源定位符中的每个目标统一资源定位符和与所述每个目标统一资源定位符相应的域名解析地址对应存储在分布式存储系统数据库中；所述获取单元202还用于，根据接收到的获取指令，获取与所述每个目标统一资源定位符相对应的域名解析地址，以使用与所述每个目标统一资源定位符相对应的域名解析地址下载所述每个目标统一资源定位符对应的网页内容，并将所述每个目标统一资源定位符对应的网页内容存储在分布式文件系统数据库中。

在上述技术方案中，优选地，还包括：确定单元210，确定所述每个目标统一资源定位符对应的网页内容中的参照标题标签，以根据所述参照标题标签确定所述网页内容中的候选标题标签集；所述统计单元204还用于，统计所述候选标题标签集中的每个候选标题标签的第一字符串长度与所述参照标题标签的第二字符串长度的实时长度比，和/或所述每个候选标题标签的第一标签内容与所述参照标题标签的第二标签内容的编辑距离；所述确定单元210还用于，根据与所述每个候选标题标签对应的实时长度比，和/或与所述每个候选标题标签对应的编辑距离，确定所述网页内容的目标标题标签，以将所述目标标题标签的标题内容作为所述网页内容的正文标题。

在该技术方案中，根据与每个候选标题标签对应的实时长度比，和/或与每个候选标题标签对应的编辑距离，确定网页内容的目标标题标签，从而可以将目标标题标签的标题内容作为网页内容的正文标题，由此，可以有效地提高了获取网页内容的正文标题的准确率，使网页内容的正文标题可以满足舆情分析的需求，另外，在不需要网页内容的时候对网页内容的正文标题进行存储，而不是对网页内容进行存储，从而减少了存储空间，例如，在每个目标统一资源定位符对应的网页内容中获取正文标题时，首先在每个目标统一资源定位符对应的网页内容中获取参照标题标签(网页内容中的<title>标签)，同时为了提高获取的正文标题的正确率，将参照标题标签中的标签内容所包含的网站字段信息(例如，<title>标签的字符串中的“-新华网”)去掉，并在网页内容中确定候选标题标签集，且候选标题标签集中的每个候选标题标签的第一标签内容和参照标题标签的第二标签内容有一定的相关性，在确定候选标题标签集之后，计算每个候选标题标签的第一字符串长度和参照标题标签的第二字符串长度的实时长度比，并判断候选标题标签集中的任一候选标题标签的第一字符串长度和参照标题标签的第二字符串长度的实时长度比是否大于或等于第一预设值，在判断结果为是时，说明任一候选标题标签的第一字符串长度较长，即任一候选标题标签不是目标标题标签，则将任一候选标题标签从候选标题标签集中丢弃，并对候选标题标签集进行更新，否则，确定任一候选标题标签可能是目标标题标签，并计算任一候选标题标签的第一标签内容和参照标题标签的第二标签内容的编辑距离(第一标签内容和第二标签内容的相似度)，如果参照标题标签的第二标签内容包含任一候选标题标签的第一标签内容，则编辑距离更新为第一编辑距离阈值，否则，编辑距离更新为第二编辑距离阈值，在确定任一候选标题标签的编辑距离之后，判断编辑距离是否小于或等于第二预设值，在判断结果为是时，将任一候选标题标签从候选标题标签集中丢弃，最后，在确定候选标题标签集中每个候选标题标签的编辑距离时，将候选标题标签集中的每个候选标题标签的编辑距离进行比较，比较得出最大的编辑距离的值，并确定将具有最大的编辑距离的候选标题标签作为目标标题标签，从而将目标标题标签的标题内容作为网页内容的正文标题。

在上述技术方案中，优选地，还包括：所述确定单元210还用于，确定所述网页内容中的至少一个网页标签中的每个网页标签的第三字符串长度；判断单元212，判断所述至少一个网页标签中是否存在第三字符串长度大于或等于预设字符串长度的指定网页标签，所述统计单元204还用于，在存在多个指定网页标签时，依次统计所述多个指定网页标签中的每个网页标签的链接文本内容与所述每个网页标签的总文本内容的第一比例，和/或所述每个网页标签的非链接文本内容与所述每个网页标签的总文本内容的第二比例，所述选择单元206还用于，根据所述第一比例和/或所述第二比例，从所述多个指定网页标签中选择所述网页内容的目标正文标签，并将所述目标正文标签的正文内容作为所述网页内容的正文内容；以及所述判断单元212还用于，判断所述网页内容的正文标题中是否包括第一发布时间，在判断结果为是时，将所述第一发布时间作为所述网页内容的目标发布时间；在判断结果为否时，若所述网页内容的正文内容中包括第二发布时间，则将所述第二发布时间作为所述网页内容的目标发布时间。

在该技术方案中，通过统计第一比例和/或第二比例，从多个指定网页标签中选择网页内容的目标正文标签，并将目标正文标签的正文内容作为网页内容的正文内容，并通过网页内容的正文标题的发布时间和正文内容的发布时间，确定网页内容的目标发布时间，从而提高了获取网页内容的正文内容和的发布时间准确率，使网页内容的正文内容和发布时间可以满足舆情分析的需求，另外，在不需要网页内容的时候对网页内容的正文内容和发布时间进行存储，而不是对网页内容进行存储，从而减少了存储空间，具体地包括：在每个目标统一资源定位符对应的网页内容中获取正文内容时，判断至少一个网页标签中的每个网页标签的第三字符串长度，如果至少一个网页标签中的第三字符串长度小于预设字符串长度，则小于预设字符串长度的网页标签的第三字符串长度较小以至于不适合作为目标正文内容的网页标签，且在至少一个网页标签中的第三字符串长度大于或等于预设字符串长度的指定网页标签中选择网页内容的目标正文标签，由此，提高了选择网页内容的目标正文标签的效率和准确率，并在对指定网页标签进行筛选后，如果存在多个指定网页标签时，依次统计多个指定网页标签中的每个网页标签的链接文本内容与每个网页标签的总文本内容的第一比例，和/或每个网页标签的非链接文本内容与每个网页标签的总文本内容的第二比例，从而可以根据统计出的第一比例和/或第二比例，并根据比例最大原则从多个指定网页标签中选择网页内容的目标正文标签，从而将目标正文标签的正文内容作为网页内容的正文内容，优选地，在对指定网页标签进行筛选后，如果不存在多个指定网页标签时，则可以降低预设字符串长度的值，并再次进行判断至少一个网页标签中是否存在第三字符串长度大于或等于改变后的预设字符串长度的指定网页标签，从而可以在此次判断结果中的多个指定网页标签中确定目标正文标签，进而提高了获取网页内容的正文内容的范围，提高了获取网页内容的正文内容的准确率。

在上述技术方案中，优选地，所述参数信息包括：所述每个统一资源定位符的类别、所述每个统一资源定位符对应的网页内容、所述每个统一资源定位符对应的网页内容在预定时间内的被下载次数，其中，所述类别包括：内容页统一资源定位符和列表页统一资源定位符；以及所述确定单元210还用于，根据所述域名中包括的内容页统一资源定位符数目、列表页统一资源定位符的数目、每个类别的统一资源定位符对应的网页内容的被下载次数、与所述域名相对应的垃圾统一资源定位符的数目中的至少一项信息，确定所述至少一个统一资源定位符所使用的域名的权重比。

如图3所示，根据本发明的一个实施例的统一资源定位符的选择装置300(相当于图2示出的实施例中的统一资源定位符的选择装置200)，该装置包括：URL数据库302、种子发现模块304、调度模块306、下载模块308、解析模块310、监控管理模块312和消息队列314。其中，种子发现模块304、调度模块306、下载模块308、解析模块310、监控管理模块312之间通过消息队列314来完成消息的通信，使各个模块之间降低相互之间的耦合度，从而更容易地进行分布式下载与解析。

本系统中URL数据库302用来存储根据输入的关键词获取的大量的URL(至少一个统一资源定位符)及由大量的URL所组成的拓扑结构，另外，调度(从至少一个统一资源定位符中选择目标统一资源定位符)时所有需要的调度信息、监控、管理等数据也存放在URL数据库302中，且该URL数据库302需要支持大量的随机读写，因此使用Hbase作为URL数据库302。另外，为了使RegionServer负载尽量均衡，使用URl的md5作为存储的Key。为了提高Hbase性能，对Hbase与HDFS进行了配置优化，关闭了自动Split，增大了HDFS块大小，同时在客户端尽量减少了AutoFlush的使用。

种子发现模块304，用于根据用户输入的关键词，从百度、搜狗和谷歌等搜索引擎中提取出相关搜索的结果，并使用Xpath解析出需要的URL(至少一个统一资源定位符)，作为爬虫的种子URL(至少一个统一资源定位符)。另外，种子发现模块304还定期将所获得的URL插入到URL数据库302中。

调度模块306，用于将尚未抓取或者需要刷新的URL(目标统一资源定位符)从URL数据库302中调度出来，并发送给下载模块308。调度算法的优劣将直接影响整个统一资源定位符的选择装置的运行效率。调度算法要保证尽量将质量好的内容页URL(内容页统一资源定位符)调出，同时还有保证整个系统的抓取的扩散能力。在该技术方案中包括了一种基于链接锚文本相关性的调度算法，该算法根据每个URL的锚文本、URL的类别以及其Host(域名)的权重比、Host历史信息等计算每个URL的调度权重(每个统一资源定位符的类别、所述每个统一资源定位符对应的网页内容、所述每个统一资源定位符对应的网页内容在预定时间内的被下载次数和域名的权重比)，从中选出Top N作为最终的调度结果。调度的最终结果里包含了URL的锚文本、Host DNS(Domain Name System，域名解析系统)信息(域名解析地址)等。调度模块306还负责将解析模块310中提取出的URL(目标统一资源定位符)去重后写入到URL数据库302中。

除此之外，使用MapReduce完成每一轮的调度任务。这里将URl分为两类内容页(内容页统一资源定位符)与列表页(列表页统一资源定位符)。内容页即类似与某一具体新闻的网页，列表页类似于导航页。在爬取发现URl我们存储了每个URl被发现时链向它的锚文本，如果锚文本包含系统配置的抓取关键词，则此URl是相关网页。其中，调度模块306从至少一个统一资源定位符中选择目标统一资源定位符包括：

假设需要调出的URl(目标统一资源定位符)的数量为amount，其中内容页(内容页统一资源定位符)所占调出的URl的比例为a。

1.获取相关性调度URl的候选集J0。

1.1对URL数据库302中所有URl进行如下步骤：

1.1.1如果URl被抓取成功，则加入J0，且权重比W0。

1.1.2如果URl未被抓去过且是相关的内容页(内容页统一资源定位符)，则加入J0，且该内容页权重比为W1。

1.1.3如果URl抓取成功过且为列表页(列表页统一资源定位符)，且已经到达刷新间隔t，则加入到J0中，且该列表页的权重比为W2，其中，该URl的上次刷出的新URl越多则权重比越大。

1.2计算候选集J0中所有候选URl的权重比Wi(i＝1,2,…n)＝Wi+W(Host)，其中，W(Host)为Host的权重比。

2.对候选集中所有URl，选取阈值最大的前amount x a的URl。

3.获取探索性调度URl候选集J1。

3.1对数据库中所有URl：

3.1.1如果URl为内容页，抛弃。

3.1.2如果该URl已经成功抓取，抛弃。

3.1.2如果该URl尚未抓取或者未抓取成功，则加入J1，权重比W3，URl在网络拓扑深度越低则W越大；如果URl是尚未抓取，则W3＝W3+Wa，Wa为尚未抓取URl权重比。

3.2对J1中URl随机选取amount x(1-a)个。

4.根据每个Host的抓取记录，计算Host的抓取数量。

5.对1&3中结果，根据4的结果限制其数量，获得候选集J2。

6.获得J2中所有URl对应的DNS信息。

7.将J2中URl及其DNS信息发送到下载消息队列314中。

8.对解析模块310写入到HDFS中的URl，与URL数据库302中已有URl去重后写入URl数据库。

下载模块308，用于从调度结果中获取URL下载网页内容并通过消息队列314发送到解析模块310。其中，使用HttpClient并在其基础上进一步封装了DNS。在下载模块308中，Host的DNS信息是从调度结果里获取的，从而减少了获取DNS的时间，且对得到的DNS我们将做超时判断，超时的DNS将重新获取并写入到Hbase中存储。在下载模块308中我们对每个Host的下载速度进行监控与控制，对经常下载失败的URL或者下载较慢的Host将在一段时间中禁止其URL下载，从而减小了网络的等待时间，提高下载效率。

解析模块310，用于将目标统一资源定位符对应的网页内容解析成Dom树，并从其中抽取新的URL链接、正文标题、发布时间(目标发布时间)以及正文内容。为了减小对Hbase的并发写以及提高解析模块310的效率，我们将URL写入HDFS中，而不是直接写入到Hbase中。在调度模块306中新发现的URL将在去重后加入到URL数据库302中。将正文标题等信息已特定格式写入到本地文件系统中作为舆情分析的原始数据。在解析模块310实现了网页内容中的正文标题提取、发布时间提取、正文内容提取以及网页分类。在解析模块310中可以进行垃圾过滤，通过Host黑名单以及垃圾字典等方式过滤垃圾网页。其中，解析模块310具体地实现步骤如下：

1.获取网页<title>标签(参照标题标签)中的文本T(第二标签内容)，剔除其中包含的网站字段信息，T的长度为Len0(第二字符串长度)。

2.集合J3(候选标题标签集)保存所有候选标题标签，对深度遍历网页中每个标签L1(候选标题标签)：

2.1如果L1中字符串T1(第一标签内容)长度Len1(第一字符串长度)大于Len0的k倍(实时长度比)，则返回到步骤2，继续下一个标签。

2.2计算T与T1的编辑距离Score。

2.3对标签L1如果其标签名为H1-H4，则Score＝Score+α(编辑距离更新为第二编辑距离阈值)。

2.4如果T完全包含T1，则Score＝Score+β(编辑距离更新为第一编辑距离阈值)。

2.5如果Score大于阈值x1(第二预设值)，则将标签(候选标题标签)加入到J3中，否则舍弃。

求集合J1中Score最大的标签，即为正文标题所在的标题标签，该标题标签的标题内容即为正文标题(根据与每个候选标题标签对应的实时长度比，和/或与每个候选标题标签对应的编辑距离，确定网页内容的目标标题标签，以将目标标题标签的标题内容作为网页内容的正文标题)。

在网页内容中获取正文标题时，首先获取了<title>标签中的第二标签内容，并将<title>标签作为参照标题标签，为提高准确率将类似“-新华网”的字段去掉。并计算候选标题标签集中的每个候选标题标签与参照标题标签的编辑距离作为相似度的度量方式。

解析模块310在获取每个目标统一资源定位符对应的网页内容中的正文内容时，对Dom树进行了深度遍历，通过标签中的文字链接比(非链接文本和链接文本的比值)确定网页内容中候选正文标签集J2。其中，解析模块310在获取每个目标统一资源定位符对应的网页内容中的正文内容时包括：

1.候选正文标签集J4保存所有候选正文标签，该候选正文标签中包括至少一个网页标签，深度遍历每个网页标签L2(至少一个网页标签中的每个网页标签)：

1.1如果L2中所含正文内容长度(第三字符串长度)小于阈值y1(预设字符串长度)，则舍弃。

1.2计算L2中非链接文本内容与总文本内容的比例值V(统计每个网页标签的非链接文本内容与每个网页标签的总文本内容的第二比例)。

1.3如果V大于阈值y2，加入到J4中，否则舍弃。

2.如果J4为空，则进行以下步骤：

2.1如果L2中所含正文内容长度小于阈值y3，且y3<y1，则舍弃。

2.2计算L2中链接文本内容与总文本内容的比例V(统计多个指定网页标签中的每个网页标签的链接文本内容与每个网页标签的总文本内容的第一比例)。

2.3如果V大于阈值y3，加入到J4中，否则舍弃。

2.4如果J4不为空，则将J4中具有相同父亲的标签聚为一个标签，并计算其文字链接比V。

2.5计算取J4中V最大的标签作为正文标签。

3.如果J4不为空，计算得出V值最大的标签作为正文标签。

在上述技术方案中，每个目标统一资源定位符对应的网页内容中获取正文内容，具体包括：如果网页内容中的至少一个网页标签中的任一网页标签的第三字符串长度小于预设字符串长度时，则将小于预设字符串长度的网页标签舍弃，将至少一个网页标签中的大于或等于预设字符串长度的网页标签作为指定网页标签，并统计指定网页标签中的每个网页标签的非链接文本内容与每个网页标签的总文本内容的第二比例，如果指定网页标签中的任一网页标签的非链接文本内容的第二比例小于或等于预设第二比例时，则将任一网页标签从指定网页标签中舍弃，此时，判断在指定标签中是否存在网页标签，如果在指定标签中存在网页标签，则比较指定标签中的每个网页标签的非链接文本内容的第二比例，并将最大的第二比例的网页标签作为目标正文标签，并将目标正文标签的正文内容作为网页内容的正文内容。另一方方面，如果在指定标签中不存在网页标签，则降低预设字符串长度的值，并再次判断至少一个网页标签中是否存在第三字符串长度大于或等于预设字符串长度的指定网页标签，此时，如果在指定标签中存在多个网页标签，统计多个指定网页标签中的每个网页标签的链接文本内容与每个网页标签的总文本内容的第一比例，如果指定网页标签中的任一网页标签的链接文本内容的第一比例小于或等于预设第一比例时，则将任一网页标签从指定网页标签中舍弃，此时，如果指定网页标签中存在网页标签时，将指定网页标签中具有相同父亲的网页标签聚合成一个网页标签，并根据具有相同父亲的网页标签的链接文本内容和/或非链接文本内容，计算聚合后的网页标签的第三比例，并比较指定标签中的每个网页标签的第一比例和/或每个网页标签的第三比例，并将最大的第一比例或第三比例网页标签作为目标正文标签，然后将目标正文标签的正文内容作为网页内容的正文内容，这样，有效地提高了获取网页内容的正文内容的准确率，使网页内容的正文内容可以满足舆情分析的需求，其中，链接文本内容是指可以通过该链接文本到达指定的网页，非链接文本是指不能通过该非链接文本到达指定的网页。

解析模块310在每个目标统一资源定位符对应的网页内容中获取发布时间时，从确定的正文标题开始，深度遍历，直到遇到正文标签时截止。将在正文标题标签与正文标签中发现的第一个时间作为正文发布时间。

监控管理模块312，用于对整个统一资源定位符的选择装置的运行状态的监控，以及其他信息，包括种子、Host黑名单、Host白名单、垃圾过滤词典等。其中，监控管理模块312提供了查看消息队列314大小、每台机器的下载以及解析速度、设置系统关键词、Host白名单等功能。该模块采用BS模式，部署在Tomcat服务中。监控信息的获取各个模块将自身的信息定时发送到特定的消息队列314中，然后监控模块从消息队列314获取消息，并加以处理。

消息队列314，包括：开源的Hornetq消息队列。该消息队列314是一个高性能的Java消息队列，提供了对JMS(Java Message Service，Java消息服务)的完整支持，并且具有良好的内存控制机制，在长时间运行情况下，基本不会出现内存泄露的问题，其提供了良好的故障恢复能力。由于下载发送到解析消息队列的数据比一般数据要大的多，为了提高Hornetq的性能，因此为每一个解析模块310配置了一个消息队列314，从而提高了下载发送到解析队列的速度。

在上述技术方案中，统一资源定位符的选择装置对舆情分析数据采集的有益性表现在：

1.根据舆情分析所需的关键词的相关行抓取所需网页，提高了抓取数据的有效性。

2.通过在网络上的单向扩散保证了爬取数据的覆盖率。

3.可以获取网页内容的正文标题、发布时间以及正文内容等供舆情分析使用，从而在不需要使用网页内容的时候不保持原始网页内容，进而减少了存储网页内容所需的存储空间，另外，一定的垃圾过滤策略，可以减少垃圾网页信息。

4.使用Hbase作为URL数据库302，从而可以更好的支持对爬取数据的随机读写访问，以及对URL的管理。

以上结合附图详细说明了本发明的技术方案，可以保证获取统一资源定位符时有较高的覆盖率，还可以准确地获取质量较高的统一资源定位符，从而可以根据统一资源定位符准确地获取质量较高以及覆盖率较大的网页内容以供满足舆情分析的需求。

在本发明中，术语“第一”、“第二”仅用于描述的目的，而不能理解为指示或暗示相对重要性；术语“多个”表示两个或两个以上。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种统一资源定位符的选择方法，其特征在于，包括：

根据输入的关键词获取与所述关键词相关的至少一个统一资源定位符；

根据所述至少一个统一资源定位符中的每个统一资源定位符的参数信息和所述至少一个统一资源定位符所使用的域名的权重比，或根据所述至少一个统一资源定位符所使用的域名的权重比，统计所述每个统一资源定位符与所述关键词的相关度；

根据所述每个统一资源定位符与所述关键词的相关度，从所述至少一个统一资源定位符中选择目标统一资源定位符，以将所述目标统一资源定位符作为与所述关键词相关的统一资源定位符的搜索结果；

所述参数信息包括：所述每个统一资源定位符的类别、所述每个统一资源定位符对应的网页内容、所述每个统一资源定位符对应的网页内容在预定时间内的被下载次数，其中，所述类别包括：内容页统一资源定位符和列表页统一资源定位符；以及

根据所述域名中包括的内容页统一资源定位符数目、列表页统一资源定位符的数目、每个类别的统一资源定位符对应的网页内容的被下载次数、与所述域名相对应的垃圾统一资源定位符的数目中的至少一项信息，确定所述至少一个统一资源定位符所使用的域名的权重比。

2.根据权利要求1所述的统一资源定位符的选择方法，其特征在于，还包括：

根据接收到的存储指令，将所述目标统一资源定位符中的每个目标统一资源定位符和与所述每个目标统一资源定位符相应的域名解析地址对应存储在分布式存储系统数据库中；

根据接收到的获取指令，获取与所述每个目标统一资源定位符相对应的域名解析地址，以使用与所述每个目标统一资源定位符相对应的域名解析地址下载所述每个目标统一资源定位符对应的网页内容，并将所述每个目标统一资源定位符对应的网页内容存储在分布式文件系统数据库中。

3.根据权利要求2所述的统一资源定位符的选择方法，其特征在于，还包括：

确定所述每个目标统一资源定位符对应的网页内容中的参照标题标签，以根据所述参照标题标签确定所述网页内容中的候选标题标签集；

统计所述候选标题标签集中的每个候选标题标签的第一字符串长度与所述参照标题标签的第二字符串长度的实时长度比，和/或所述每个候选标题标签的第一标签内容与所述参照标题标签的第二标签内容的编辑距离；

根据与所述每个候选标题标签对应的实时长度比，和/或与所述每个候选标题标签对应的编辑距离，确定所述网页内容的目标标题标签，以将所述目标标题标签的标题内容作为所述网页内容的正文标题。

4.根据权利要求3所述的统一资源定位符的选择方法，其特征在于，还包括：

确定所述网页内容中的至少一个网页标签中的每个网页标签的第三字符串长度；

判断所述至少一个网页标签中是否存在第三字符串长度大于或等于预设字符串长度的指定网页标签，

在存在多个指定网页标签时，依次统计所述多个指定网页标签中的每个网页标签的链接文本内容与所述每个网页标签的总文本内容的第一比例，和/或所述每个网页标签的非链接文本内容与所述每个网页标签的总文本内容的第二比例，

根据所述第一比例和/或所述第二比例，从所述多个指定网页标签中选择所述网页内容的目标正文标签，并将所述目标正文标签的正文内容作为所述网页内容的正文内容；以及

判断所述网页内容的正文标题中是否包括第一发布时间，在判断结果为是时，将所述第一发布时间作为所述网页内容的目标发布时间；在判断结果为否时，若所述网页内容的正文内容中包括第二发布时间，则将所述第二发布时间作为所述网页内容的目标发布时间。

5.一种统一资源定位符的选择装置，其特征在于，包括：

获取单元，根据输入的关键词获取与所述关键词相关的至少一个统一资源定位符；

统计单元，根据所述至少一个统一资源定位符中的每个统一资源定位符的参数信息和所述至少一个统一资源定位符所使用的域名的权重比，或根据所述至少一个统一资源定位符所使用的域名的权重比，统计所述每个统一资源定位符与所述关键词的相关度；

选择单元，根据所述每个统一资源定位符与所述关键词的相关度，从所述至少一个统一资源定位符中选择目标统一资源定位符，以将所述目标统一资源定位符作为与所述关键词相关的统一资源定位符的搜索结果；

确定单元，根据所述域名中包括的内容页统一资源定位符数目、列表页统一资源定位符的数目、每个类别的统一资源定位符对应的网页内容的被下载次数、与所述域名相对应的垃圾统一资源定位符的数目中的至少一项信息，确定所述至少一个统一资源定位符所使用的域名的权重比。

6.根据权利要求5所述的统一资源定位符的选择装置，其特征在于，还包括：

存储单元，根据接收到的存储指令，将所述目标统一资源定位符中的每个目标统一资源定位符和与所述每个目标统一资源定位符相应的域名解析地址对应存储在分布式存储系统数据库中；

所述获取单元还用于，

7.根据权利要求6所述的统一资源定位符的选择装置，其特征在于，

所述确定单元还用于，

所述统计单元还用于，

所述确定单元还用于，

8.根据权利要求7所述的统一资源定位符的选择装置，其特征在于，还包括：

所述确定单元还用于，

判断单元，判断所述至少一个网页标签中是否存在第三字符串长度大于或等于预设字符串长度的指定网页标签，

所述统计单元还用于，

所述选择单元还用于，

所述判断单元还用于，