CN103577557A

CN103577557A - 一种确定网络资源点的抓取频率的装置和方法

Info

Publication number: CN103577557A
Application number: CN201310495856.6A
Authority: CN
Inventors: 孙林; 陈培军; 秦吉胜
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2013-10-21
Filing date: 2013-10-21
Publication date: 2014-02-12
Anticipated expiration: 2033-10-21
Also published as: CN103577557B

Abstract

本发明公开了一种确定网络资源点的抓取频率的装置和方法，用于确定网络资源点的抓取频率以提高搜索质量，该方法包括如下步骤：由网络资源点抓取多个待分析问答对；根据包括多条问答知识记录的问答知识库，获取每个待分析问答对的相关联程度；根据所述待分析问答对的相关联程度确定所述网络资源点的抓取频率。使用本发明的装置和方法，可以通过评价网络资源点的问答对的质量而评价网络资源点的质量，进而根据网络资源点的质量确定抓取频率，可以提高搜索的质量。

Description

一种确定网络资源点的抓取频率的装置和方法

技术领域

本发明涉及网络数据分析领域，具体涉及一种确定网络资源点的抓取频率的装置和方法。

背景技术

问答社区是一种用户产生内容的网络应用，基本形式是由用户根据自己的需求提出问题，并由其他的用户来给出回答。这种形式为用户在网络上获取信息提供了新的渠道。然而由于任何用户都可以随意地创建内容，导致了问答社区中的信息质量差异非常大，以至于问答社区中出现了大量的低质量问答对。这不但降低了问答社区的质量，更给用户查找信息带来了诸多不便，例如，使用现有的搜索技术进行问答搜索时，难以判断问答社区作为网络资源点的质量而现有技术（例如，爬虫蜘蛛）的对网络资源点设置抓取频率方法，更多地依赖于问答对网站的链接的分析，这样的方法用于问答搜索，不能从语义上分析问答对也不能根据网络资源点的质量调整抓取频率（或，爬取细度、爬取频率），会影响搜索的精确性和通用性。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种确定网络资源点的搜索排名的装置和相应的确定网络资源点的搜索排名的方法。

依据本发明的一个方面，提供了一种确定网络资源点的抓取频率的装置，该装置包括：

问答知识库，适于存储多条问答知识记录；

资源分析单元，适于由网络资源点抓取多个待分析问答对；

相关联程度计算单元，适于根据问答知识库获取每个待分析问答对的相关联程度；

抓取频率确定单元，根据所述待分析问答对的相关联程度确定所述网络资源点的抓取频率。

可选地，所述相关联程度计算单元包括：词语提取子单元，适于对待分析的问答对的问题内容和答案内容进行词语提取操作，得到至少一个待分析问题词语和至少一个待分析答案词语；计算子单元，适于根据待分析问题词语和待分析答案词语，从问答知识库选择至少一条问答知识记录，根据所选择的问答知识记录计算待分析的问答对的相关联程度。

可选地，所述抓取频率确定单元，适于以所述待分析问答对的相关联程度的平均值作为所述网络资源点的抓取频率；或，使用蜘蛛爬虫获取所述网络资源点的初始抓取频率，计算所述待分析问答对的相关联程度的平均值，使用该平均值调整所述初始抓取频率而确定所述网络资源点的抓取频率。

可选地，该装置还包括问答知识库构建单元，所述问答知识库构建单元，适于预先从含有问答对的网页提取出多个问答对，根据提取的问答对构建包括多条问答知识记录的问答知识库；所述问答知识库构建单元，进一步适于在从含有问答对的网页提取出多个问答对时，抓取与所述问答对对应的类别；所述问答知识库构建单元，进一步适于在根据提取的问答对构建问答知识库时，根据问答对和与所述问答对对应的类别构建问答知识记录；每个问答知识记录对应于一个类别，分别包括一个问题词语、一个答案词语，以及所述问题词语和所述答案词语之间的语义相关度。可选地，所述计算子单元，适于选取其包括的问题词语与待分析问题词语匹配且包括的答案词语与待分析答案词语匹配的问答知识记录；根据所述选取的问答知识记录中对应于相同类别的问答知识记录，得到该待分析的问答对针对各个类别的相关联程度；选取上述该待分析的问答对针对各个类别的相关联程度的最大值，以该最大值作为待分析的问答对的相关联程度。

可选地，所述计算子单元，适于将选取的问答知识记录中对应于相同类别的问答知识记录的语义相关度加权相加，得到该待分析的问答对分别针对各个类别的相关联程度。

可选地，所述词语提取子单元，适于对待分析的问答对的问题内容和答案内容进行分词、去除停用词、词合并，和提取实体词的操作。

可选地，所述问答知识库构建单元，适于对每个问答对执行以下操作：对该问答对的问题内容和答案内容进行词语提取操作，得到问题词语集合和答案词语集合；令问题词语集合中的每个问题词语与答案词语集合中的每个答案词语分别在与该问答对对应的每个类别上形成一条信息记录；所述问答知识库构建单元，适于对每一条信息记录，执行以下操作：计算该答案词语属于该类别的概率，计算在该类别上该答案词语对该问题词语的解释的专一程度，计算在该类别上该问题词语用该答案词语进行解释的强度；将上述概率、专一程度和强度相乘，所得到的乘积是该答案词语和该问题词语的语义相关度；令该问题词语、该答案词语和其语义相关度形成一条对应于该类别的问答知识记录。

可选地，所述问答知识库构建单元，适于按照如下的方法计算该答案词语属于该类别的概率：

P (Ck | AWj) = P (AWj | Ck) * \frac{P (Ck)}{P (AWj)};

所述问答知识库构建单元，适于按照如下的方法计算在该类别上各个答案词语对该问题词语的解释的专一程度：

specific (QWi, AWj | C = Ck) = P (QWi | AWj, C = Ck) = \frac{# (QWi, AWj)}{# (AWj)} | C = Ck;

所述问答知识库构建单元，适于按照如下的方法计算在该类别上该问题词语用各个答案词语进行解释的强度：

interpret (QWi, AWj | C = Ck) = P (AWj | QWi, C = Ck) = \frac{# (QWi, AWj)}{Σ_{j = 1}^{x} # (QWi, AWj)} | C = Ck;

所述问答知识库构建单元，适于按照如下的方法将上述概率、专一程度和强度相乘：

weight（QWi,AWj|C＝Ck）＝P（Ck|AWj）*specific（QWi,AWj|C＝Ck）*interpret（QWi,AWj|C＝Ck）；

其中，P（Ck）表示类别Ck出现的概率；P（AWj）表示答案为AWj的概率；P（AWj│Ck）表示Ck类别属于AWj的概率；

#（QWi，AWj）表示问题词语为QWi且答案词语为AWj的次数；

#（AWj）表示答案词语为AWj的次数。

根据本发明的另一方面，提供了一种确定网络资源点的抓取频率的方法，该方法包括如下步骤：

由网络资源点抓取多个待分析问答对；

根据包括多条问答知识记录的问答知识库，获取每个待分析问答对的相关联程度；

根据所述待分析问答对的相关联程度确定所述网络资源点的抓取频率。

可选地，所述根据问答知识库获取每个待分析问答对的相关联程度，包括对每个待分析问答对执行以下操作：对该待分析的问答对的问题内容和答案内容进行词语提取操作，得到至少一个待分析问题词语和至少一个待分析答案词语；根据待分析问题词语和待分析答案词语，从问答知识库选择至少一条问答知识记录，根据所选择的问答知识记录计算该待分析的问答对的相关联程度。

可选地，所述根据所述待分析问答对的相关联程度确定所述网络资源点的抓取频率，具体包括：以所述待分析问答对的相关联程度的平均值作为所述网络资源点的抓取频率；或，使用蜘蛛爬虫获取所述网络资源点的初始抓取频率，计算所述待分析问答对的相关联程度的平均值，使用该平均值调整所述初始抓取频率而确定所述网络资源点的抓取频率。

可选地，该方法进一步包括：预先从含有问答对的网页提取出多个问答对，根据提取的问答对构建包括多条问答知识记录的问答知识库；在从含有问答对的网页提取出多个问答对时，抓取与所述问答对对应的类别；在根据提取的问答对构建问答知识库时，根据问答对和与所述问答对对应的类别构建问答知识记录；每个问答知识记录对应于一个类别，分别包括一个问题词语、一个答案词语，以及所述问题词语和所述答案词语之间的语义相关度。

可选地，所述根据待分析问题词语和待分析答案词语，从问答知识库选择至少一条问答知识记录，根据所选择的问答知识记录计算待分析的问答对的相关联程度，具体包括：选取其包括的问题词语与待分析问题词语匹配且包括的答案词语与待分析答案词语匹配的问答知识记录；根据所述选取的问答知识记录中对应于相同类别的问答知识记录，得到该待分析的问答对针对各个类别的相关联程度；选取上述该待分析的问答对针对各个类别的相关联程度的最大值，以该最大值作为待分析的问答对的相关联程度。

可选地，根据所述选取的问答知识记录中对应于相同类别的问答知识记录，得到该待分析的问答对分别针对各个类别的相关联程度，具体包括：将选取的问答知识记录中对应于相同类别的问答知识记录的语义相关度加权相加，得到该待分析的问答对分别针对各个类别的相关联程度。

可选地，所述对所述待分析的问答对的问题内容和答案内容进行词语提取操作，具体包括：对待分析的问答对的问题内容和答案内容进行分词、去除停用词、词合并，和提取实体词的操作。

可选地，所述根据问答对和与所述问答对对应的类别构建问答知识库，具体包括：对每个问答对，对该问答对的问题内容和答案内容进行词语提取操作，得到问题词语集合和答案词语集合；令问题词语集合中的每个问题词语与答案词语集合中的每个答案词语分别在与该问答对对应的每个类别上形成一条信息记录；对每一条信息记录，执行以下操作：计算该答案词语属于该类别的概率，计算在该类别上该答案词语对该问题词语的解释的专一程度，计算在该类别上该问题词语用该答案词语进行解释的强度；将上述概率、专一程度和强度相乘，所得到的乘积是该答案词语和该问题词语的语义相关度；令该问题词语、该答案词语和其语义相关度形成一条对应于该类别的问答知识记录。

可选地，所述计算该答案词语属于该类别的概率，具体包括：

P (Ck | AWj) = P (AWj | Ck) * \frac{P (Ck)}{P (AWj)};

所述计算在该类别上各个答案词语对该问题词语的解释的专一程度，具体包括：

specific (QWi, AWj | C = Ck) = P (QWi | AWj, C = Ck) = \frac{# (QWi, AWj)}{# (AWj)} | C = Ck;

所述计算在该类别上该问题词语用各个答案词语进行解释的强度，具体包括：

interpret (QWi, AWj | C = Ck) = P (AWj | QWi, C = Ck) = \frac{# (QWi, AWj)}{Σ_{j = 1}^{x} # (QWi, AWj)} | C = Ck;

将上述概率、专一程度和强度相乘，具体包括：

weight(QWi，AWj|C＝Ck)＝P(Ck|AWj)*specific(QWi，AWj|C＝Ck)*interpret(QWi，AWj|C＝Ck)；

#（QWi，AWj）表示问题词语为QWi且答案词语为AWj的次数；

#（AWj）表示答案词语为AWj的次数。

根据本发明的技术方案，从含有问答对的网页提取出多个问答对并根据提取的问答对构建包括多条问答知识记录的问答知识库，由网络资源点抓取多个待分析问答对，根据问答知识库获取每个待分析问答对的相关联程度并根据待分析问答对的相关联程度确定所述网络资源点的抓取频率，可以通过评价网络资源点的质量确定抓取频率，解决了现有技术不能根据网络资源点的质量调整抓取频率而导致的搜索效果不佳的问题，而且容易实现、通用性强。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的确定网络资源点的抓取频率的方法的流程图；

图2示出了构建问答知识库的详细的流程图；

图3示出了使用如图2所示的步骤而得到的问答知识库的一个解释模型示意图；

图4示出了图1中步骤S200的详细的流程图；

图5示出了图4中步骤S220的详细的流程图；以及

图6示出了根据本发明一个实施例的确定网络资源点的抓取频率的装置的框图；

图7示出了图6中相关联程度计算单元300的详细的框图；

图8示出了根据本发明另一个实施例的确定网络资源点的抓取频率的装置的框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的确定网络资源点的抓取频率的方法的流程图。该方法包括如下步骤S100、步骤S200和步骤S300：

S100、由网络资源点抓取多个待分析问答对。

在本发明的一个实施例中，可以是对于特定的需要确定抓取频率的网络资源点，例如需要确定抓取频率的问答社区，使用楼层识别技术，根据楼主提问题，1楼2楼等为答案的方式，来提取待分析问答对。

S200、根据包括多条问答知识记录的问答知识库，获取每个待分析问答对的相关联程度。

本实施例的步骤S200，可以通过利用问答知识库从语义方面对待分析问答对的问题内容和答案内容进行分析以获得待分析问答对的相关联程度，评价效果更好而且容易实现。

进一步地，所述包括多条问答知识记录的问答知识库，是通过预先从含有问答对的网页提取出多个问答对，根据提取的问答对构建而得到的。在本发明的一个实施例中，在从含有问答对的网页提取出多个问答对时，抓取与所述问答对对应的类别。则在根据提取的问答对构建问答知识库时，根据问答对和与所述问答对对应的类别构建问答知识记录。得到的问答知识库之中的每个问答知识记录对应于一个类别，分别包括一个问题词语（QW）、一个答案词语（AW），以及所述问题词语和所述答案词语之间的语义相关度。通过利用由网页提取的海量的、高质量的问答对构建包括多条问答知识记录的问答知识库，可以基于对海量信息的学习而获取多条问答知识记录的问题词语和答案词语之间的语义相关度；通过利用从网页提取得到的信息构建问答知识库，适用的范围更广，方法的通用性更强。

S300、根据所述待分析问答对的相关联程度确定所述网络资源点的抓取频率。

由于待分析问答对的相关联程度反映了质量，所以可以利用多个待分析问答对的相关联程度确定网络资源点的质量，进而确定网络资源点的抓取频率。

具体的方法，可以是以所述待分析问答对的相关联程度的平均值作为所述网络资源点的抓取频率，即相关联程度的平均值大（即质量好）的网络资源点的抓取频率越高（例如，蜘蛛爬虫爬取该网络资源点的频率高）；也可以是使用蜘蛛爬虫获取所述网络资源点的初始抓取频率，计算所述待分析问答对的相关联程度的平均值，使用该平均值调整所述初始抓取频率而确定所述网络资源点的抓取频率，例如，可以使用蜘蛛爬虫获取所述网络资源点的初始抓取频率，使用所述相关联程度的平均值对上述初始抓取频率进行加权（包括相乘、归一化等）而确定所述网络资源点的抓取频率，使得质量高的网络资源点的抓取频率得到提高，从而可以优化搜索质量。

进一步地，现有的获取问答对的相关联程度的方法，是使用文本特征和非文本特征来描述问答对的问题和答案。文本特征主要包括文本视觉特征（例如标点符号密度，平均词长，文本熵等）和文本内容特征（例如文本内容词比例，疑问词密度，相关词覆盖等），并提取中文自动差错广泛采用的特征（例如单字密度特征等）；非文本特征包含用户的权威度指标，答案问题状态，答案回答时间，用户关系交互特征等。在对问题和答案分别提取出特征后，在训练集上分别学习出一个问题质量预测模型和答案质量预测模型，并使用两个模型的输出结果来评价问答对质量。然而，使用现有的获取问答对的相关联程度的方法对于答案质量进行评价时，仅仅使用了相关词覆盖特征来描述问题和答案间的语义匹配度，这不但仅仅是停留在词法层面上的，而且没有考虑问题和答案间的语义匹配度。然而问题和答案间的语义匹配度恰恰是问答对质量的核心，比如问题为“中国的首都是哪里？”，答案1为“北京”，答案2为“中国的首都是上海”。那么问题经过分词及丢弃停用词处理后，为“中国首都哪里”，答案1分词结果为“北京”，答案2分词结果为“中国首都上海”。现有技术中，语义匹配度可以定义为：问题和答案中共同出现的词语个数除以问题和答案中所有词语的个数。则问题和答案1的语义匹配度为：0/4=0。问题和答案2的语义匹配度为：2/4=0.5。使用现有技术，就会认为答案2和问题较为匹配且相关度高。而我们知道这显然是不当的。本发明的步骤S100和S300，可以克服现有技术的这一缺陷。

图2示出了构建问答知识库的详细的流程图。具体包括以下步骤S410、步骤S420和步骤S430：

S410、预先从含有问答对的网页提取出多个问答对，抓取与所述问答对对应的类别。

本实施例中，可以通过使用网络爬虫，从互联网上含有高质量问答对的网页抓取数据并提取出问答对，以保证所提取的问答对的质量；所述含有高质量问答对的网页包括cQA社区、各大专业论坛等，则可以使用楼层识别技术，根据楼主提问题，1楼2楼等为答案的方式，来提取问答对。由于所述含有高质量问答对的网页中包括对应于每个问答对的类别信息，所以可以在抓取问答对的同时一并抓取与所述问答对对应的类别。

S420、对每个问答对，对该问答对的问题内容和答案内容进行词语提取操作，得到问题词语集合和答案词语集合；令问题词语集合中的每个问题词语与答案词语集合中的每个答案词语分别在与该问答对对应的每个类别上形成一条信息记录。

在本发明的一个实施例中，对步骤S410中提取得到的所述问答对中的每一个问答对的问题内容和答案内容进行词语提取操作，具体包括，对问答对的问题内容和答案内容进行分词、去除停用词、词合并，和提取实体词的操作。

则由每一个问答对的问题内容得到至少一个问题词语，由每一个问答对的答案内容得到至少一个答案词语，则可以得到针对该问答对的类别集合<C₁，…，C_k，…，C_p>、问题词语集合<QW₁，…，QW_i，…，QW_m>和答案词语集合<AW₁，…，AW_j，…，AW_n>。

通过令问题词语集合中的每个问题词语（QW_i）与答案词语集合中的每个答案词语（AW_j）分别在与该问答对对应的每个类别（C_k）上形成一条信息记录，例如<QW_i，AW_j，C_k>，则可以形成m*n*p条信息记录。

S430、对每一条信息记录，执行以下操作：计算该答案词语属于该类别的概率，计算在该类别上该答案词语对该问题词语的解释的专一程度，计算在该类别上该问题词语用该答案词语进行解释的强度；将上述概率、专一程度和强度相乘，所得到的乘积是该答案词语和该问题词语的语义相关度；令该问题词语、该答案词语和其语义相关度形成一条对应于该类别的问答知识记录<QW_i，AW_j，weight（QW_i，AW_j）>或<QW_i，AW_j，C_k，weight（QW_i，AW_j）>。本实施例中的步骤S430，可以是在对从网页抓取的海量的问答对进行了如步骤S420所述的词语提取操作而得到海量的信息记录之后基于所述海量的信息记录进行的，则基于海量的信息记录而获取的语义相关度更准确。

较佳地，所述计算该答案词语属于该类别的概率，具体包括：

P (Ck | AWj) = P (AWj | Ck) * \frac{P (Ck)}{P (AWj)};

specific (QWi, AWj | C = Ck) = P (QWi | AWj, C = Ck) = \frac{# (QWi, AWj)}{# (AWj)} | C = Ck;

interpret (QWi, AWj | C = Ck) = P (AWj | QWi, C = Ck) = \frac{# (QWi, AWj)}{Σ_{j = 1}^{x} # (QWi, AWj)} | C = Ck;

将上述概率、专一程度和强度相乘，具体包括：

#（QWi，AWj）表示问题词语为QWi且答案词语为AWj的次数；

#（AWj）表示答案词语为AWj的次数。

由步骤S410、步骤S420和步骤S430，可以得到问答知识记录而构建问答知识库。图3示出了使用如图2所示的步骤而得到的问答知识库的一个解释模型示意图。可知，对于每一问题词语QW_i，可以针对类别集合<C₁，…，C_k，…，C_p>中的每一类别，获得n条问答知识记录。当然，本领域技术人员可以了解的是，若计算得到的语义相关度为0，则可以删除相应的问答知识记录；再者，如果问答知识库中问答知识记录的数量过大而使得存储问答知识记录和计算待分析问答对的相关联程度的开销过大，可以预设一个阈值，将语义相关度小于阈值的问答知识记录删除以减小开销。

图4示出了图1中步骤S200的详细的流程图。步骤S200具体包括以下步骤S210和步骤S220。

S210、对待分析的问答对的问题内容和答案内容进行词语提取操作，得到至少一个待分析问题词语和至少一个待分析答案词语。

在本发明的一个实施例中，对待分析的问答对的问题内容和答案内容进行词语提取操作具体包括：对待分析的问答对的问题内容和答案内容进行分词、去除停用词、词合并（word join），和提取实体词（例如名词、动词等）的操作。则由待分析的问答对的问题内容得到至少一个待分析问题词语，由待分析的问答对的答案内容得到至少一个待分析答案词语。

S220、根据待分析问题词语和待分析答案词语，从问答知识库选择至少一条问答知识记录，根据所选择的问答知识记录计算待分析的问答对的相关联程度。

图5示出了图4中步骤S220的详细的流程图。在通过步骤S210得到至少一个待分析问题词语和至少一个待分析答案词语后，步骤S220具体包括以下步骤S221、步骤S222和步骤S223：

S221、选取其包括的问题词语与待分析问题词语匹配且包括的答案词语与待分析答案词语匹配的问答知识记录。本实施例中，问题词语与待分析问题词语匹配是指待分析问题词语与问题词语相同或待分析问题词语是问题词语的子串；答案词语与待分析答案词语匹配是指待分析答案词语与答案词语相同或待分析答案词语是答案词语的子串，本实施例通过步骤S210，使用字段匹配或字段搜索的方法，从问答知识库中选出部分与待分析的问答对相关的问答知识记录。

S222、根据所述选取的问答知识记录中对应于相同类别的问答知识记录，得到该待分析的问答对分别针对各个类别的相关联程度，具体包括：将选取的问答知识记录中对应于相同类别的问答知识记录的语义相关度加权相加，得到该待分析的问答对分别针对各个类别的相关联程度。

本实施例，将通过步骤S221选出的问答知识记录根据其所对应的类别进行分组，对应于相同类别的问答知识记录为一组；将每一组的问答知识记录的语义相关度加权（例如，权值为1或100）相加，得到该待分析的问答对针对该类别的相关联程度；由此得到至少一个（本实施例中的相关联程度的数目即待分析问答对对应的类别的数目）相关联程度。

S223、选取上述该待分析的问答对针对各个类别的相关联程度的最大值，以该最大值作为待分析的问答对的相关联程度。

图6示出了根据本发明一个实施例的确定网络资源点的抓取频率的装置的框图。该装置包括问答知识库100、资源分析单元200、相关联程度计算单元300和抓取频率获取单元400。

问答知识库100，适于存储多条问答知识记录。本实施例的问答知识库100能够通过抓取网页中的海量问答对构建得到。

资源分析单元200，适于由网络资源点抓取多个待分析问答对。

在本发明的一个实施例中，资源分析单元200可以对于特定的需要确定抓取频率的网络资源点，例如需要确定抓取频率的问答社区，使用楼层识别技术，根据楼主提问题，1楼2楼等为答案的方式，来提取待分析问答对。

相关联程度计算单元300，适于根据问答知识库获取每个待分析问答对的相关联程度。

本发明的相关联程度计算单元300可以通过利用问答知识库从语义方面对待分析问答对的问题内容和答案内容进行分析以获得待分析问答对的相关联程度，评价效果更好而且容易实现。问答知识库100利用由网页提取的海量的、高质量的问答对构建并且包括多条问答知识记录，可以基于对海量信息的学习而获取多条问答知识记录的问题词语和答案词语之间的语义相关度。

抓取频率确定单元400，适于根据所述待分析问答对的相关联程度确定所述网络资源点的抓取频率。

由于待分析问答对的相关联程度反映了质量，所以可以利用多个待分析问答对的相关联程度确定网络资源点的质量，进而确定网络资源点的抓取频率。具体的方法，可以是以所述待分析问答对的相关联程度的平均值作为所述网络资源点的抓取频率，即相关联程度的平均值大（即质量好）的网络资源点的抓取频率越高（例如，蜘蛛爬虫爬取该网络资源点的频率高）；也可以是使用蜘蛛爬虫获取所述网络资源点的初始抓取频率，计算所述待分析问答对的相关联程度的平均值，使用该平均值调整所述初始抓取频率而确定所述网络资源点的抓取频率，例如，可以使用蜘蛛爬虫获取所述网络资源点的初始抓取频率，使用所述相关联程度的平均值对上述初始抓取频率进行加权（包括相乘、归一化等）而确定所述网络资源点的抓取频率，使得质量高的网络资源点的抓取频率得到提高，从而可以优化搜索质量。

图7示出了图6中相关联程度计算单元300的详细的框图。相关联程度计算单元300包括词语提取子单元310和计算子单元320。

词语提取子单元310，适于对待分析的问答对的问题内容和答案内容进行词语提取操作，得到至少一个待分析问题词语和至少一个待分析答案词语。

在本发明的一个实施例中，词语提取子单元310，适于对待分析的问答对的问题内容和答案内容进行分词、去除停用词、词合并（word join），和提取实体词（例如名词、动词等）的操作，以得到至少一个待分析问题词语和至少一个待分析答案词语。

计算子单元320，适于根据待分析问题词语和待分析答案词语，从问答知识库选择至少一条问答知识记录，根据所选择的问答知识记录计算待分析的问答对的相关联程度。

在本发明的一个实施例中，计算子单元320，适于选取其包括的问题词语与待分析问题词语匹配且包括的答案词语与待分析答案词语匹配的问答知识记录。本实施例中，问题词语与待分析问题词语匹配是指待分析问题词语与问题词语相同或待分析问题词语是问题词语的子串；答案词语与待分析答案词语匹配是指待分析答案词语与答案词语相同或待分析答案词语是答案词语的子串；根据所述选取的问答知识记录中对应于相同类别的问答知识记录，得到该待分析的问答对针对各个类别的相关联程度，更具体地，是将选取的问答知识记录中对应于相同类别的问答知识记录的语义相关度加权（例如，权值为1或100）相加而得到该待分析的问答对分别针对各个类别的相关联程度，由此得到至少一个（本实施例中的相关联程度的数目即待分析问答对对应的类别的数目）相关联程度；选取上述该待分析的问答对针对各个类别的相关联程度的最大值，以该最大值作为待分析的问答对的相关联程度。

图8示出了根据本发明另一个实施例的确定网络资源点的抓取频率的装置的框图。在本实施例中，该装置还包括问答知识库构建单元500，问答知识库构建单元500适于预先从含有问答对的网页提取出多个问答对，根据提取的问答对构建包括多条问答知识记录的问答知识库。在图6所示的装置中，问答知识库是已有的，由于实际网络的信息量不断增加，信息内容的变化速度快，问答知识库的内容往往需要更新，本实施例通过增设问答知识库构建单元500构建（或者说更新）问答知识库，可以保证问答知识库的内容的即时性和可靠性。

较佳地，在从含有问答对的网页提取出多个问答对时，问答知识库构建单元500抓取与所述问答对对应的类别。本实施例中，可以通过使用网络爬虫，从互联网上含有高质量问答对的网页抓取数据并提取出问答对，以保证所提取的问答对的质量；所述含有高质量问答对的网页包括cQA社区、各大专业论坛等。由于所述含有高质量问答对的网页中包括对应于每个问答对的类别信息，所以问答知识库构建单元500可以在抓取问答对的同时一并抓取与所述问答对对应的类别。

在本实施例中，问答知识库构建单元500，适于对每个问答对执行以下操作：对该问答对的问题内容和答案内容进行词语提取操作，得到问题词语集合和答案词语集合，具体地，问答知识库构建单元500对提取得到的所述问答对中的每一个问答对的问题内容和答案内容进行分词、去除停用词、词合并，和提取实体词的操作而得到问题词语和答案词语；令问题词语集合中的每个问题词语与答案词语集合中的每个答案词语分别在与该问答对对应的每个类别上形成一条信息记录。问答知识库构建单元500，适于对每一条信息记录，执行以下操作：计算该答案词语属于该类别的概率，计算在该类别上该答案词语对该问题词语的解释的专一程度，计算在该类别上该问题词语用该答案词语进行解释的强度；将上述概率、专一程度和强度相乘，所得到的乘积是该答案词语和该问题词语的语义相关度；令该问题词语、该答案词语和其语义相关度形成一条对应于该类别的问答知识记录。

更具体地，问答知识库构建单元500，适于按照如下的方法计算该答案词语属于该类别的概率：

P (Ck | AWj) = P (AWj | Ck) * \frac{P (Ck)}{P (AWj)};

更具体地，问答知识库构建单元500，适于按照如下的方法计算在该类别上各个答案词语对该问题词语的解释的专一程度：

specific (QWi, AWj | C = Ck) = P (QWi | AWj, C = Ck) = \frac{# (QWi, AWj)}{# (AWj)} | C = Ck;

更具体地，问答知识库构建单元500，适于按照如下的方法计算在该类别上该问题词语用各个答案词语进行解释的强度：

interpret (QWi, AWj | C = Ck) = P (AWj | QWi, C = Ck) = \frac{# (QWi, AWj)}{Σ_{j = 1}^{x} # (QWi, AWj)} | C = Ck;

更具体地，问答知识库构建单元500，适于按照如下的方法将上述概率、专一程度和强度相乘：

#（QWi，AWj）表示问题词语为QWi且答案词语为AWj的次数；

#（AWj）表示答案词语为AWj的次数。

以下通过一个例子说明使用本发明的实施例的步骤S200，以及问答知识库100和相关联程度计算单元300所能达到的效果，比如对某一个问答社区，需要确定抓取频率（例如，蜘蛛爬虫的爬取细度），现有确定抓取频率的方法仅依据网页的链接进行分析，使用本发明的实施例则是由该问答社区抓取多个待分析问答对，以下的说明，以一个问答对为例，类别为“医疗健康”：

通过分词技术处理，得到待分析问题词语和待分析答案词语如下：

从分词结果可以看出，问题和答案中没有相关词覆盖，因此如果使用现有评价问答对质量的技术则容易认为该问答对相关联程度低，质量不高，从而使得该问答社区的抓取频率降低。但是实际上使用人工判断明显可知该问答对是一个高质量的问答对。

若使用本发明的方法和装置处理，首先，可以调取已有的问答知识库，或者通过抓取cQA社区、各大专业论坛的问答对，构建问答知识库；

第二步，对上述待分析的问答对，经过词语提取操作得到待分析问题词语集合<孩子，咳嗽，鼻涕>、待分析答案词语集合<症状,药物,治疗,抗病毒，小儿感冒颗粒，说明,剂量，止咳，中药，冲剂,抗生素，阿莫西林，阿莫西林颗粒，颗粒,口服，罗红霉素,疗效>，并且得到待分析的问答对的类别为“医疗健康”；

第三步，根据各个待分析问题词语以及该类别，从问答知识库中选择得到问题词语与待分析问题词语匹配的若干问答知识记录，从而得到如下答案词语及语义相关度（为了方便阅读，下表中的语义相关度的数值是进行了适当的归一化处理后的数值）：

第四步，根据待分析答案词语集合中的待分析答案词语，在第三步所选择得到的问答知识记录的基础上筛选出其包括的答案词语与待分析答案词语匹配的问答知识记录，进而得到所筛选出的问答知识记录的语义相关度。经分析可知，本例中与问答知识记录中的答案词语匹配的待分析答案词语包括：<口服，咳喘，小儿感冒颗粒，检查，止咳，治疗，流感症状，感冒颗粒>；

再计算上述待分析的问答对的相关联程度可以得出，该待分析的问答对的相关联程度达到了0.9（在相关联程度取值范围为0～1的条件下）；

通过对该问答社区（即网络资源点）提取多个待分析问答对，分别使用上述方法获取相关联程度，则可以反映出该问答社区的质量，进而调整抓取频率，可以提高搜索质量。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书（包括伴随的权利要求、摘要和附图）中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书（包括伴随的权利要求、摘要和附图）中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器（DSP）来实现根据本发明实施例的确定网络资源点的抓取频率的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序（例如，计算机程序和计算机程序产品）。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种确定网络资源点的抓取频率的装置，该装置包括：

问答知识库，适于存储多条问答知识记录；

资源分析单元，适于由网络资源点抓取多个待分析问答对；

2.根据权利要求1所述的装置，其中，所述相关联程度计算单元包括：

词语提取子单元，适于对待分析的问答对的问题内容和答案内容进行词语提取操作，得到至少一个待分析问题词语和至少一个待分析答案词语；

计算子单元，适于根据待分析问题词语和待分析答案词语，从问答知识库选择至少一条问答知识记录，根据所选择的问答知识记录计算待分析的问答对的相关联程度。

3.根据权利要求1或2所述的装置，其中，

所述抓取频率确定单元，适于以所述待分析问答对的相关联程度的平均值作为所述网络资源点的抓取频率；或，使用蜘蛛爬虫获取所述网络资源点的初始抓取频率，计算所述待分析问答对的相关联程度的平均值，使用该平均值调整所述初始抓取频率而确定所述网络资源点的抓取频率。

4.根据权利要求1-3任一项所述的装置，其中，该装置还包括问答知识库构建单元，

所述问答知识库构建单元，适于预先从含有问答对的网页提取出多个问答对，根据提取的问答对构建包括多条问答知识记录的问答知识库；

所述问答知识库构建单元，进一步适于在从含有问答对的网页提取出多个问答对时，抓取与所述问答对对应的类别；

所述问答知识库构建单元，进一步适于在根据提取的问答对构建问答知识库时，根据问答对和与所述问答对对应的类别构建问答知识记录；每个问答知识记录对应于一个类别，分别包括一个问题词语、一个答案词语，以及所述问题词语和所述答案词语之间的语义相关度。

5.根据权利要求1-4任一项所述的装置，其中，

所述计算子单元，适于选取其包括的问题词语与待分析问题词语匹配且包括的答案词语与待分析答案词语匹配的问答知识记录；根据所述选取的问答知识记录中对应于相同类别的问答知识记录，得到该待分析的问答对针对各个类别的相关联程度；选取上述该待分析的问答对针对各个类别的相关联程度的最大值，以该最大值作为待分析的问答对的相关联程度。

6.一种确定网络资源点的抓取频率的方法，该方法包括如下步骤：

由网络资源点抓取多个待分析问答对；

7.根据权利要求6所述的方法，其中，所述根据包括多条问答知识记录的问答知识库获取每个待分析问答对的相关联程度，包括对每个待分析问答对执行以下操作：

对该待分析的问答对的问题内容和答案内容进行词语提取操作，得到至少一个待分析问题词语和至少一个待分析答案词语；

根据待分析问题词语和待分析答案词语，从问答知识库选择至少一条问答知识记录，根据所选择的问答知识记录计算该待分析的问答对的相关联程度。

8.根据权利要求6或7所述的方法，其中，所述根据所述待分析问答对的相关联程度确定所述网络资源点的抓取频率，具体包括：

以所述待分析问答对的相关联程度的平均值作为所述网络资源点的抓取频率；

或，

使用蜘蛛爬虫获取所述网络资源点的初始抓取频率，计算所述待分析问答对的相关联程度的平均值，使用该平均值调整所述初始抓取频率而确定所述网络资源点的抓取频率。

9.根据权利要求6至8任一项所述的方法，其中，该方法进一步包括：

预先从含有问答对的网页提取出多个问答对，根据提取的问答对构建包括多条问答知识记录的问答知识库；

在从含有问答对的网页提取出多个问答对时，抓取与所述问答对对应的类别；

在根据提取的问答对构建问答知识库时，根据问答对和与所述问答对对应的类别构建问答知识记录；

每个问答知识记录对应于一个类别，分别包括一个问题词语、一个答案词语，以及所述问题词语和所述答案词语之间的语义相关度。

10.根据权利要求6至9任一项所述的方法，其中，

所述根据待分析问题词语和待分析答案词语，从问答知识库选择至少一条问答知识记录，根据所选择的问答知识记录计算待分析的问答对的相关联程度，具体包括：

选取其包括的问题词语与待分析问题词语匹配且包括的答案词语与待分析答案词语匹配的问答知识记录；

根据所述选取的问答知识记录中对应于相同类别的问答知识记录，得到该待分析的问答对针对各个类别的相关联程度；

选取上述该待分析的问答对针对各个类别的相关联程度的最大值，以该最大值作为待分析的问答对的相关联程度。