CN103425748A

CN103425748A - 一种文档资源建议词的挖掘方法和装置

Info

Publication number: CN103425748A
Application number: CN2013103066237A
Authority: CN
Inventors: 李国洪; 潘欣婷; 陈庆轩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2013-07-19
Filing date: 2013-07-19
Publication date: 2013-12-04
Anticipated expiration: 2033-07-19
Also published as: CN103425748B

Abstract

本发明的目的是提供一种文档资源建议词的挖掘方法和装置。其中，网络设备获取具有文档资源需求的第一文档需求信息；计算所述第一文档需求信息与文档资源库中文档内容标识信息的相似度，以获得其中相似度低于预定相似度阈值的第二文档需求信息；对所述第二文档需求信息进行聚合处理，以获得与所述第二文档需求信息相对应的文档资源建议词。与现有技术相比，本发明使得用户可以根据文档资源建议词来对文档资源库进行建设，有效的提高了文档资源库对用户文档资源需求的满足度。

Description

一种文档资源建议词的挖掘方法和装置

技术领域

本发明涉及网络文档资源库技术领域，尤其涉及一种文档资源建议词的挖掘技术。

背景技术

当前的多种网络文档资源库，如百度文库、新浪爱问共享资料、豆丁网等，一般通过用户上传文档的方式来不断丰富文档资源库。然而，在用户进行文档资源搜索的查询信息中，存在着具有文档资源需求但没有被满足的查询信息，例如某某作文、某某歌曲的吉他谱等，这些查询信息自身描述了明确的文档资源需求或者涵盖了泛化的文档资源需求表述，通过对这部分未满足需求的查询信息的挖掘，可有针对性的引导用户在上传文档资源采用这些查询信息作为文档资源的标题或标签，从而一方面有效地提升了用户搜索文档资源时搜索结果的命中率，同时提升了用户的文档搜索满意度，另一方面也提高了文档资源建设的效率，同时降低了成本。

然而，现有技术多通过人工抽样分析来对未满足用户需求的查询信息进行挖掘和分析。例如，在一定的时间周期内，人工从用户的查询信息中抽样，并参照文档资源库中已有文档资源，挖掘、分析出未被满足需求的查询信息，并且以此为基础，分析这些需求未被满足的查询信息中涵盖的大部分用户的文档需求类型，如驾照考试资料、小学作文等。

对于现有用户未满足需求挖掘、分析，基本属于长周期人工分析的原始方式，人力投入成本过大，而且随着用户上传文档的快速增长，人工分析的时间延迟和人工成本成为制约，而目前尚缺乏有效的数据挖掘和分析方法来获得未满足需求的查询信息，进而影响快速地、有针对性地根据用户需求对文档资源库中文档资源的建设。

发明内容

本发明的目的是提供一种文档资源建议词的挖掘方法和装置。

根据本发明的一个方面，提供了一种文档资源建议词的挖掘方法，其中，该方法包括：

a获取具有文档资源需求的第一文档需求信息；

b计算所述第一文档需求信息与文档资源库中文档内容标识信息的相似度，以获得其中相似度低于预定相似度阈值的第二文档需求信息；

c对所述第二文档需求信息进行聚合处理，以获得与所述第二文档需求信息相对应的文档资源建议词。

根据本发明的另一个方面，还提供了一种文档资源建议词的挖掘装置，其中，该装置包括：

第一需求获取装置，用于获取具有文档资源需求的第一文档需求信息；

第二需求获取装置，用于计算所述第一文档需求信息与文档资源库中文档内容标识信息的相似度，以获得其中相似度低于预定相似度阈值的第二文档需求信息；

建议词获取装置，用于对所述第二文档需求信息进行聚合处理，以获得与所述第二文档需求信息相对应的文档资源建议词。

与现有技术相比，本发明通过获取具有文档资源需求的第一文档需求信息，计算第一文档需求信息与文档资源库中文档内容标识信息的相似度，以获得其中相似度低于预定相似度阈值的第二文档需求信息，并对第二文档需求信息进行聚合处理，以获得相应的文档资源建议词。由于第二文档需求信息与文档内容标识信息的相似度较低，从而用户使用第二文档需求信息进行文档搜索时，往往搜索结果的召回率较低，用户的文档搜索体验也较差，本发明在获取第二文档需求信息后，对其进行诸如分类、聚类等聚合处理，获得处理后的文档资源建议词；这些文档资源建议词可以在用户上传文档时作为文档资源建议词提供给用户，以引导用户对文档资源库进行建设，如将文档资源建议词作为上传文档的标题、标签等，从而有效的提高了后续搜索的命中率，同时提升了用户对文档资源库中文档资源搜索的满足度。进一步地，在通过前述方法引导用户上传文档资源之后，文档资源建议词还可在用户搜索文档资源时，作为搜索建议词提供给用户，这同样有效提高了搜索结果的召回率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本发明一个方面的一种文档资源建议词的挖掘方法的流程图；

图2示出根据本发明另一个方面的一种文档资源建议词的挖掘装置的示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

本发明的方法和装置在网络设备端实现，如连接/控制/管理文档资源库的各种网络设备。在此，网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云；其中，云由基于云计算（Cloud Computing）的大量计算机或网络服务器构成，云计算是分布式计算的一种，由一群松散耦合的计算机集合组成的一个虚拟超级计算机。

进一步地，本发明中，可由多个网络设备作为整体或其中一台网络设备，甚至装置于一台或多台网络设备中的建议词挖掘装置被操作来进行文档资源建议词挖掘。如无特别说明，本文中网络设备与建议词挖掘装置等同使用。

图1为根据本发明一个方面的方法流程图，其具体示出一种文档资源建议词的挖掘过程。

如图1所示，在步骤S1中，网络设备获取具有文档资源需求的第一文档需求信息；在步骤S2中，网络设备计算所述第一文档需求信息与文档资源库中文档内容标识信息的相似度，以获得其中相似度低于预定相似度阈值的第二文档需求信息；在步骤S3中，网络设备对所述第二文档需求信息进行聚合处理，以获得与所述第二文档需求信息相对应的文档资源建议词。

上述各步骤之间是持续不断工作的，在此，本领域技术人员应理解“持续”是指上述各步骤分别实时地，或者按照设定的或实时调整的工作模式要求，在网络设备端进行第一文档需求信息的获取、第二文档需求信息的获取、建议词的获取等，直至网络设备停止获取具有文档资源需求的第一文档需求信息。

具体地，在步骤S1中，网络设备获取具有文档资源需求的第一文档需求信息。在此，第一文档需求信息包括但不限于各种用于明确或泛化表达对文档资源的需求的关键词和语句等，其中明确表达的第一文档需求信息如忽然之间的吉他谱，泛化表达的第一文档需求信息如作文。第一文档需求信息的获取方式至少包括以下方式：

1）网络设备可直接从文档资源库的搜索日志中获取第一文档需求信息。

例如，在步骤S1中，网络设备通过扫描文档资源库的搜索引擎的日志数据，从中获取其中用户输入的文档资源查询信息，由于这些查询信息被用户用来在文档资源库中查询文档资源，故可认为这些查询信息即为具有文档资源需求的第一文档需求信息。在此，文档资源库的搜索引擎用于根据所接收的查询信息来搜索文档资源库中的文档；文档资源库的搜索引擎的日志数据包括但不限于查询信息、查询时间、查询请求的源IP地址等。

2）网络设备可从其他词库/词源获取源词后，对其处理获得第一文档需求信息。在此，其他词库/词源可以是其他搜索引擎的搜索日志中的查询信息，如各种通用搜索引擎的搜索日志中的查询信息；也可以是任何存储有大量词的词库，如输入法的词库。

进一步地，网络设备对其他词库/词源的源词进行处理来获得第一文档需求信息的方式至少可包括以下2种方式：

a）网络设备获取待处理的多个查询信息，按照预定模板对这些查询信息进行匹配，以获得这些查询信息的文档资源需求值，进而按照预定文档资源需求阈值来筛选获得具有文档资源需求的所述第一文档需求信息。在此，所述预定模板包括但不限于各种具有文档资源需求的关键词以及用于表述文档资源需求的语句等，前者如“作文”、“忽然之间”、“吉他谱”、“PPT”等关键词，后者如“关于XX的作文”、“XX吉他谱”、“关于XX的吉他谱”等语句。

例如，网络设备从通用搜索引擎的搜索日志获取待处理的多个查询信息，如“忽然之间吉他谱”和“关于春天的作文”，按照上述预定模板对这些查询信息进行匹配，以获得每个查询信息的文档资源需求值，进而根据预定的文档资源需求阈值来进行筛选，当这两个查询序列的文档资源需求值高于该预定的文档资源需求阈值时，这两个查询序列即为具有文档资源需求的第一文档需求信息。与之相反，当按照上述预定模板对查询信息“吉他谱在哪儿找”进行匹配，其所获得的文档资源需求值将低于该预定文档资源需求阈值，因此该查询信息不属于具有文档资源需求的第一文档需求信息。

b）网络设备通过强非文档资源需求关键词表来过滤源词，以获得具有文档资源需求的第一文档需求信息。在此，强非文档资源需求关键词表包括但不限于各种明显不具有文档资源需求的关键词，诸如“视频直播”、“考试时间”等关键词。

例如，网络设备从外部词库，如输入法词库，获取大量源词，通过根据强非文档资源需求关键词表来对这些源词进行过滤，以获得具有文档资源需求的第一文档需求信息。通过上述强非文档资源需求关键词表，“2013年工程师资格考试时间”、“美职篮总决赛视频直播”，这两个词条将被过滤掉。

然而，本领域技术人员应能理解，网络设备还可结合强非文档资源需求关键词表来对通过其他方式确定的具有文档资源需求的第一文档需求信息进行过滤。

例如，优选地，网络设备还可通过强非文档资源需求关键词表对文档资源库的搜索引擎的文档资源查询信息进行过滤，由于这些查询信息已可被认为是具有文档需求的第一文档需求信息，在对其根据强非文档资源需求关键词表进行进一步过滤后，所获得的第一文档需求信息数量更少，且更准确地保留了具有文档资源需求的第一文档需求信息。

又如，优选地，网络设备还可在对查询信息确定文档资源需求值，并按照预定文档资源需求阈值筛选获得具有文档资源需求的第一文档需求信息后，进一步通过强非文档资源需求关键词表来对第一文档需求信息再次过滤，以获得更准确的具有文档资源需求的第一文档需求信息。

通过结合强非文档资源需求关键词表来过滤获得第一文档需求信息，其拓展了第一文档需求信息的获取方式，同时提高了第一文档需求信息的准确度。

接着，步骤S2中，网络设备计算其在步骤S1所获得的第一文档需求信息与文档资源库中文档内容标识信息的相似度，以获得其中相似度低于预定相似度阈值的第二文档需求信息。在此，文档内容标识信息包括但不限于各种可用于标识文档内容的信息，诸如文档标题、文档摘要、文档关键词等。此外，由于在此获取的第二文档需求信息与文档资源库中文档内容标识信息的相似度较低，从而当采用这些第二文档需求信息来在文档资源库中进行文档搜索时，文档搜索结果的召回率也会较低，故可认为这些第二文档需求信息为用户文档需求未被满足的文档需求信息。

具体地，在步骤S2中，网络设备获取用户文档需求未被满足的第二文档需求信息的方式至少可包括以下几种方式：

1）网络设备计算第一文档需求信息与文档资源库中每个文档内容标识信息的相似度，当其与每个文档内容标识信息的相似度均低于预定相似度阈值时，该第一文档需求信息即为用户文档需求未被满足的第二文档需求信息。

例如，以第一文档需求信息来源于通用搜索引擎的查询信息为例，故第一文档需求信息也属于用户的查询信息，从而由第一文档需求信息处理获得的第二文档需求信息也同样属于用户的查询信息。据此，以以下函数1）来示出第二文档需求信息的判断：

Met (query) = \{\begin{matrix} 1 & &Exists; d &Element; D, sim (d, query) &GreaterEqual; θ \\ 0 & &ForAll; d &Element; D, sim (d, query) \leq α \end{matrix}

函数1）

其中，Met(query)函数表示判断用户检索的第一文档需求信息是否被满足，D表示文档数据库中全部文档的标题集合，d表示一个文档标题，θ是用户文档需求已满足的判定阈值，α为用户文档需求未满足的判定阈值。

可替代地，网络设备还可以考虑低于预定阈值的相似度的覆盖比例，即网络设备计算第一文档需求信息与文档资源库中文档内容标识信息的相似度，当其中低于预定阈值的相似度占所计算的全部相似度的比例低于预定的覆盖比例阈值时，即可认为相应第一文档需求信息为用户文档需求未被满足的第二文档需求信息。

可替代地，网络设备还可计算第一文档需求信息与文档资源库中所有文档内容标识信息的平均相似度，当该平均相似度低于预定相似度阈值时，该第一文档需求信息即为用户文档需求未被满足的第二文档需求信息。

2）网络设备根据第一文档需求信息在文档资源库中进行查询，以获得相应的候选文档资源，计算第一文档需求信息与该（等）候选文档资源的文档内容标识信息的相似度，以获得其中相似度低于预定相似度阈值的第二文档需求信息。

为了降低对具有文档资源需求的第一文档需求信息进行需求未满足判定的时间复杂度，需要对数据集进行剪枝，可通过在文档数据库的所有文档标题中，预筛选相关文档标题集合，即对于第一文档需求信息，检索库内相关的文档标题，作为文档需求未满足判定计算相似度的候选文档标题集合。

例如，通过对库内相关文档标题的检索来筛选用于判断文档需求是否满足的候选文档标题集合Set(query)，可抓取文档资源库的搜索引擎返回的搜索结果中的文档标题，其实现函数2）如下所示：

Set(query)={d|d∈PS(query,topN)} 函数2）

其中，PS(query,topN)是文档资源库的搜索引擎对第一文档需求信息搜索返回前topN个文档搜索结果函数，d为文档标题。在此，例如，topN可取值为20。

在通过检索文档资源库中的相关文档标题，得到用于判定未满足文档需求的候选相似度计算数据集合基础上，利用以下函数3）来完成用户文档需求未被满足的第二文档需求信息的判定。

用户文档需求未被满足的第二文档需求信息筛选函数如下：

Met (query) = \{\begin{matrix} 0 & &ForAll; d &Element; Set (query), \max sim (query, d) \leq δ \\ 1 & other \end{matrix}

函数3）

将具有文档需求的第一文档需求信息与候选文档标题进行语义相似度计算，如果其中每个候选文档标题与第一文档需求信息之间的相似度均不大于阈值δ，即判定该第一文档需求信息的文档需求未被满足，从而其属于用户文档需求未被满足的第二文档需求信息。在此，例如，阈值δ可取值为0.8。

可替代地，网络设备也可根据第一文档需求信息在通用搜索引擎中进行搜索以获得搜索结果，并将搜索结果中排名靠前的N个文档搜索结果作为候选文档资源，计算第一文档需求信息与这些候选文档资源的文档内容标识信息的相似度，以获得其中相似度低于预定相似度阈值的第二文档需求信息。进一步地，网络设备还可将前述搜索结果中排名靠前的N个来源于该文档资源库的文档搜索结果作为候选文档资源，以用于计算第一文档需求信息与这些候选文档资源的文档内容标识信息的相似度，进而获得第二文档需求信息。

优选地，还可对相似度阈值设定上下限，以分别用于判断文档需求已满足的文档需求信息和文档需求未满足的文档需求信息。

例如，第一文档需求信息中对应相似度高于相似度阈值上限的文档需求信息即为文档需求已被满足的文档需求信息，第一文档需求信息中对应相似度低于相似度阈值下限的文档需求信息即为文档需求未被满足的文档需求信息，在此即第二文档需求信息。可替代地，此时可仅过滤掉第一文档需求信息中对应相似度高于相似度阈值上限的文档需求信息，余下的文档需求信息均被视为文档需求未被满足的第二文档需求信息。

又如，将文档需求未被满足的文档需求信息，即第二文档需求信息，对应于相似度阈值上限，第一文档需求信息中对应相似度低于该相似度阈值上限的文档需求信息即为文档需求未被满足的第二文档需求信息，以期获得尽可能多的第二文档需求信息。

随后，在步骤S3中，网络设备对其在步骤S2中获得的第二文档需求信息进行聚合处理，以获得与相应的文档资源建议词。在此，聚合处理意指基于所具有的共同属性来将多个第二文档需求信息聚合为一个或多个类/组，诸如分类处理、聚类处理等。

其中，网络设备对第二文档需求信息进行聚合处理来获得文档资源建议词的方式包括但不限于以下4种方式：

1）网络设备对第二文档需求信息进行分类处理，以获得每个第二文档需求信息所属的类别，并将每个第二文档需求信息作为其所属类别所对应的文档资源建议词。在此，第二文档需求信息的类别可根据实际应用的需要来采用不同的标准进行划分，如按照行业、文档类型等进行划分。

例如，网络设备根据预先标注好类别的正负样本对SVM（支持向量机）进行训练，并基于预训练的SVM来对第二文档需求信息进行分类处理，以获得每个第二文档需求信息所属的类别，并可直接将每个第二文档需求信息作为其所属类别所对应的文档资源建议词。

又如，网络设备预先建立一个关键词表，其中每个关键词标注有对应的类别，网络设备将第二文档需求信息在该关键词表中进行匹配查询，并将相匹配的关键词的类别作为对应第二文档需求信息的类别，进而将第二文档需求信息直接作为其所属类别所对应的文档资源建议词。

通过对第二文档需求信息进行分类，可以挖掘其中具有明确文档需求的文档需求信息，并将其作为文档资源建议词。在此，明确的用户文档需求意指对文档资源具有清晰、具体的需求表述。例如“分数的简单计算PPT”、“假如我有一双翅膀作文”、“忽然之间吉他谱”等，这些需求表述具有明确的用户对文档的需求。

例如，在用户用于文档检索的第二文档需求信息中，表述清晰且具有明确文档需求的文档需求信息可认为代表用户明确的需求。因此，可将对明确的用户需求的挖掘，转化为对文档需求未满足的第二文档需求信息集合中，表述清晰且具有明确文档需求的第二文档需求信息的挖掘，其函数4）如下所示：

Duserneed={query|Met(query)=0,D(query)=1} 函数4）

其中，Duserneed表示明确的用户需求，D(query)是对第二文档需求信息是否为明确的文档需求表述的判定函数，如果第二文档需求信息具有清晰的、明确的文档需求，D(query)值为1，否则为0。

对于D(query)的函数建模，如可通过对具有明确文档需求表述的未满足需求的第二文档需求信息的特征分析，确定第二文档需求信息所属的类别。例如，大部分具有清晰的文档需求表述的第二文档需求信息是对教育类文档资源的需求，因此通过分类函数，对于分类到“教育专区-初中教育”和“教育专区-小学教育”两个二级子类的第二文档需求信息，即认为其是具有明确文档需求的第二文档需求信息，因此D(query)的函数5）描述如下：

D (query) = \{\begin{matrix} 1 & Classify (query) &Element; {C_{1}, C_{2}} \\ 0 & other \end{matrix}

函数5）

其中Classify(query)函数为第二文档需求信息的分类函数，C₁和C₂分别代表两个预定的二级子类，如“教育专区-初中教育”和“教育专区-小学教育”两个二级子类。

明确的用户需求挖掘完成后，将挖掘获得的具有明确文档需求的第二文档需求信息作为文档资源建议词，以引导用户上传对应的文档资源。

2）网络设备对第二文档需求信息进行聚类处理，并将聚类后获得的聚类关键词作为文档资源建议词。

在未满足文档需求的第二文档需求信息的集合基础上，不仅需要挖掘明确的用户文档需求，对于抽象的、更高层次的用户文档需求的泛化描述，在引导用户上传相应文档来丰富文档数据库的场景中，与明确的用户文档需求相比，泛化的用户文档需求更有意义。

基于未满足文档需求的第二文档需求信息的集合，挖掘泛化的用户文档需求，主要通过对第二文档需求信息进行聚类，挖掘其所对应全部类的聚类关键词组作为泛化的用户文档需求的表述形式，如“作文”、“吉他谱”等。

例如，网络设备可采用自顶向下的层次聚类算法来对第二文档需求信息进行聚类处理。具体地，该层次聚类算法的过程描述如下：

a）获取未满足文档需求的第二文档需求信息集合中的每一个第二文档需求信息；

b）对每个第二文档需求信息通过切词处理来进行主干提取，并对提取的主干关键词按权重降序排序；

c）设置顶级聚类关键词数的数量KNUM为1；

d）将当前聚类层级包含的全部第二文档需求信息按照主干关键词权重排序中前KNUM个主干关键词进行聚类；

e）检查聚类层次是否超过阈值，超过转i），否则转f）；

f）检查全部聚类的结果中是否存在类内第二文档需求信息的数量超过阈值的类，超过转g），否则转i）；

g）顶级聚类关键词数的数量KNUM加1；

h）将类内第二文档需求信息的数量超过阈值的类中包含的第二文档需求信息构成下一层级聚类的第二文档需求信息集合，转d）；

i）算法结束，输出全部类的聚类关键词组。

通过以上层次聚类算法，从未满足文档需求的第二文档需求信息集合中挖掘出描述用户泛化文档需求的关键词组。

优选地，在步骤S3中，网络设备还基于聚类关键词再次进行聚类处理，并将再次聚类后获得的二次聚类关键词作为文档资源建议词。

在此，二次聚类与一次聚类采用相同的算法，但二次聚类时对“聚类层次”和“类内第二文档需求信息的数量”的阈值进行了修改，以使得二次聚类后的二次聚类关键词的数量小于一次聚类后聚类关键词的数量，而二次聚类后类内第二文档需求信息的数量大于一次聚类后类内第二文档需求信息的数量，因此，二次聚类后的二次聚类关键词相对于一次聚类后的聚类关键词更能表征出泛化的语义。

为了提高一次聚类后所获得的聚类关键词组的泛化表述能力，在一次层级聚类的基础上，对一次聚类的聚类关键词组利用同样的层次聚类算法对第二文档需求信息进行二次聚类，以对抽象的聚类关键词组集合给出结构化的层次表述，二次聚类后的二次聚类关键词具有更好的泛化文档需求表述能力，并且其层级结构可为用户提供层次化的文档资源建议词，以更好的引导用户上传文档来建设文档资源库。

3）网络设备对第二文档需求信息进行分类处理，以获得至少一个属于预定类别的第二文档需求信息，并将其中每个第二文档需求信息作为其所属类别所对应的文档资源建议词，并且，网络设备对不属于预定类别的第二文档需求信息进行聚类处理，并将聚类后获得的聚类关键词作为文档资源建议词。以获得聚类后的至少一个第二文档需求信息组，并将聚类关键词作为文档资源建议词。

在此，可以仅设定部分预定类别，将属于这部分类别的第二文档需求信息分别作为其所属类别的文档资源建议词，对于不属于这部分类别的第二文档需求信息进行聚类来获得相应的文档资源建议词。

例如，预定类别包括“教育类”，网络设备对每个第二文档需求信息进行分类处理，以获得其中属于“教育类”的第二文档需求信息，并将这些第二文档需求信息直接作为“教育类”所对应的文档资源建议词；对剩余不属于“教育类”的第二文档需求信息，网络设备对其利用上述层次聚类算法来进行聚类处理，以获得聚类后的至少一个类的第二文档需求信息，并将所有类的聚类关键词作为这些剩余第二文档需求信息所对应的文档资源建议词。

由于对第二文档需求信息的分类处理可以较好的识别具有明确文档需求的文档需求信息，对第二文档需求信息的聚类处理可以较好的识别具有泛化文档需求的文档需求信息，在将分类处理和聚类处理相结合的情况下，有效地提高了所获得文档资源建议词的实用性，更有利于引导用户上传文档来建设文档资源库。

4）网络设备对第二文档需求信息进行分类处理，以获得每个第二文档需求信息所属的类别，并且，网络设备对这些第二文档需求信息进行聚类处理，以获得聚类后的至少一个第二文档需求信息组，并将每个第二文档需求信息组所对应的聚类关键词作为与相应第二文档需求信息组所属类别相对应的文档资源建议词。

在此，网络设备对第二文档需求信息进行分类处理，以确定每个第二文档需求信息的分类，再对这些第二文档需求信息进行聚类处理，获得至少一个第二文档需求信息组，并将每个第二文档需求信息组所对应的聚类关键词作为相应第二文档需求信息组所对应的类别的文档资源建议词，其中，当一个第二文档需求信息组中的多个第二文档需求信息分别对应不同类别时，该第二文档需求信息组所对应的聚类关键词可以作为其中第二文档需求信息所对应的全部类别的文档资源建议词。

例如，网络设备通过分类处理确定每个第二文档需求信息所属的类别，再对这些第二文档需求信息进行聚类处理来获得多个第二文档需求信息组，对于其中一个第二文档需求信息组，其中包括的3个第二文档需求信息组对应3个不同的类别，则该第二文档需求信息组的聚类关键词可同时作为这3个类别所对应的文档资源建议词。

以上各种对第二文档需求信息的聚合处理，使得不仅可以将第二文档需求信息直接作为其所属类别所对应的文档资源建议词，还可以对第二文档需求信息聚类后获得的聚类关键词作为文档资源建议词，极大地拓展了获取文档资源建议词的方式。

图2为根据本发明一个方面的装置示意图，其具体示出一种文档资源建议词的挖掘装置。其中，建议词挖掘装置1包括第一需求获取装置11、第二需求获取装置12和建议词获取装置13。

如图2所示，第一需求获取装置11获取具有文档资源需求的第一文档需求信息；第二需求获取装置12计算所述第一文档需求信息与文档资源库中文档内容标识信息的相似度，以获得其中相似度低于预定相似度阈值的第二文档需求信息；建议词获取装置13对所述第二文档需求信息进行聚合处理，以获得与所述第二文档需求信息相对应的文档资源建议词。

上述各装置之间是持续不断工作的，在此，本领域技术人员应理解“持续”是指上述各装置分别实时地，或者按照设定的或实时调整的工作模式要求，在网络设备端由第一需求获取装置11进行第一文档需求信息的获取、第二需求获取装置12进行第二文档需求信息的获取、建议词获取装置13进行建议词的获取等，直至第一需求获取装置11停止获取具有文档资源需求的第一文档需求信息。

具体地，第一需求获取装置11获取具有文档资源需求的第一文档需求信息。在此，第一文档需求信息包括但不限于各种用于明确或泛化表达对文档资源的需求的关键词和语句等，其中明确表达的第一文档需求信息如忽然之间的吉他谱，泛化表达的第一文档需求信息如作文。第一文档需求信息的获取方式至少包括以下方式：

1）第一需求获取装置11可直接从文档资源库的搜索日志中获取第一文档需求信息。

例如，第一需求获取装置11通过扫描文档资源库的搜索引擎的日志数据，从中获取其中用户输入的文档资源查询信息，由于这些查询信息被用户用来在文档资源库中查询文档资源，故可认为这些查询信息即为具有文档资源需求的第一文档需求信息。在此，文档资源库的搜索引擎用于根据所接收的查询信息来搜索文档资源库中的文档；文档资源库的搜索引擎的日志数据包括但不限于查询信息、查询时间、查询请求的源IP地址等。

2）第一需求获取装置11可从其他词库/词源获取源词后，对其处理获得第一文档需求信息。在此，其他词库/词源可以是其他搜索引擎的搜索日志中的查询信息，如各种通用搜索引擎的搜索日志中的查询信息；也可以是任何存储有大量词的词库，如输入法的词库。

进一步地，第一需求获取装置11对其他词库/词源的源词进行处理来获得第一文档需求信息的方式至少可包括以下2种方式：

a）第一需求获取装置11获取待处理的多个查询信息，按照预定模板对这些查询信息进行匹配，以获得这些查询信息的文档资源需求值，进而按照预定文档资源需求阈值来筛选获得具有文档资源需求的所述第一文档需求信息。在此，所述预定模板包括但不限于各种具有文档资源需求的关键词以及用于表述文档资源需求的语句等，前者如“作文”、“忽然之间”、“吉他谱”、“PPT”等关键词，后者如“关于XX的作文”、“XX吉他谱”、“关于XX的吉他谱”等语句。

例如，第一需求获取装置11从通用搜索引擎的搜索日志获取待处理的多个查询信息，如“忽然之间吉他谱”和“关于春天的作文”，按照上述预定模板对这些查询信息进行匹配，以获得每个查询信息的文档资源需求值，进而根据预定的文档资源需求阈值来进行筛选，当这两个查询序列的文档资源需求值高于该预定的文档资源需求阈值时，这两个查询序列即为具有文档资源需求的第一文档需求信息。与之相反，当按照上述预定模板对查询信息“吉他谱在哪儿找”进行匹配，其所获得的文档资源需求值将低于该预定文档资源需求阈值，因此该查询信息不属于具有文档资源需求的第一文档需求信息。

b）第一需求获取装置11通过强非文档资源需求关键词表来过滤源词，以获得具有文档资源需求的第一文档需求信息。在此，强非文档资源需求关键词表包括但不限于各种明显不具有文档资源需求的关键词，诸如“视频直播”、“考试时间”等关键词。

例如，第一需求获取装置11从外部词库，如输入法词库，获取大量源词，通过根据强非文档资源需求关键词表来对这些源词进行过滤，以获得具有文档资源需求的第一文档需求信息。通过上述强非文档资源需求关键词表，“2013年工程师资格考试时间”、“美职篮总决赛视频直播”，这两个词条将被过滤掉。

然而，本领域技术人员应能理解，第一需求获取装置11还可结合强非文档资源需求关键词表来对通过其他方式确定的具有文档资源需求的第一文档需求信息进行过滤。

例如，优选地，第一需求获取装置11还可通过强非文档资源需求关键词表对文档资源库的搜索引擎的文档资源查询信息进行过滤，由于这些查询信息已可被认为是具有文档需求的第一文档需求信息，在对其根据强非文档资源需求关键词表进行进一步过滤后，所获得的第一文档需求信息数量更少，且更准确地保留了具有文档资源需求的第一文档需求信息。

又如，优选地，第一需求获取装置11还可在对查询信息确定文档资源需求值，并按照预定文档资源需求阈值筛选获得具有文档资源需求的第一文档需求信息后，进一步通过强非文档资源需求关键词表来对第一文档需求信息再次过滤，以获得更准确的具有文档资源需求的第一文档需求信息。

接着，第二需求获取装置12计算第一需求获取装置11所获得的第一文档需求信息与文档资源库中文档内容标识信息的相似度，以获得其中相似度低于预定相似度阈值的第二文档需求信息。在此，文档内容标识信息包括但不限于各种可用于标识文档内容的信息，诸如文档标题、文档摘要、文档关键词等。此外，由于在此获取的第二文档需求信息与文档资源库中文档内容标识信息的相似度较低，从而当采用这些第二文档需求信息来在文档资源库中进行文档搜索时，文档搜索结果的召回率也会较低，故可认为这些第二文档需求信息为用户文档需求未被满足的文档需求信息。

具体地，第二需求获取装置12获取用户文档需求未被满足的第二文档需求信息的方式至少可包括以下几种方式：

1）第二需求获取装置12计算第一文档需求信息与文档资源库中每个文档内容标识信息的相似度，当其与每个文档内容标识信息的相似度均低于预定相似度阈值时，该第一文档需求信息即为用户文档需求未被满足的第二文档需求信息。

例如，以第一文档需求信息来源于通用搜索引擎的查询信息为例，故第一文档需求信息也属于用户的查询信息，从而由第一文档需求信息处理获得的第二文档需求信息也同样属于用户的查询信息。据此，同样可以上述函数1）来示出第二文档需求信息的判断。在此为便于阅读，再次示出函数1）如下：

Met (query) = \{\begin{matrix} 1 & &Exists; d &Element; D, sim (d, query) &GreaterEqual; θ \\ 0 & &ForAll; d &Element; D, sim (d, query) \leq α \end{matrix}

函数1）

可替代地，第二需求获取装置12还可以考虑低于预定阈值的相似度的覆盖比例，即第二需求获取装置12计算第一文档需求信息与文档资源库中文档内容标识信息的相似度，当其中低于预定阈值的相似度占所计算的全部相似度的比例低于预定的覆盖比例阈值时，即可认为相应第一文档需求信息为用户文档需求未被满足的第二文档需求信息。

可替代地，第二需求获取装置12还可计算第一文档需求信息与文档资源库中所有文档内容标识信息的平均相似度，当该平均相似度低于预定相似度阈值时，该第一文档需求信息即为用户文档需求未被满足的第二文档需求信息。

2）第二需求获取装置12根据第一文档需求信息在文档资源库中进行查询，以获得相应的候选文档资源，计算第一文档需求信息与该（等）候选文档资源的文档内容标识信息的相似度，以获得其中相似度低于预定相似度阈值的第二文档需求信息。

例如，通过对库内相关文档标题的检索来筛选用于判断文档需求是否满足的候选文档标题集合Set(query)，可抓取文档资源库的搜索引擎返回的搜索结果中的文档标题，其同样可以上述函数2）来实现。在此为便于阅读，再次示出函数2）如下：

Set(query)={d|d∈PS(query,topN)} 函数2）

在通过检索文档资源库中的相关文档标题，得到用于判定未满足文档需求的候选相似度计算数据集合基础上，同样可以利用上述函数3）来完成用户文档需求未被满足的第二文档需求信息的判定。在此为便于阅读，再次示出函数3）如下

用户文档需求未被满足的第二文档需求信息筛选函数如下：

Met (query) = \{\begin{matrix} 0 & &ForAll; d &Element; Set (query), \max sim (query, d) \leq δ \\ 1 & other \end{matrix}

函数3）

可替代地，第二需求获取装置12也可根据第一文档需求信息在通用搜索引擎中进行搜索以获得搜索结果，并将搜索结果中排名靠前的N个文档搜索结果作为候选文档资源，计算第一文档需求信息与这些候选文档资源的文档内容标识信息的相似度，以获得其中相似度低于预定相似度阈值的第二文档需求信息。进一步地，第二需求获取装置12还可将前述搜索结果中排名靠前的N个来源于该文档资源库的文档搜索结果作为候选文档资源，以用于计算第一文档需求信息与这些候选文档资源的文档内容标识信息的相似度，进而获得第二文档需求信息。

随后，建议词获取装置13对第二需求获取装置12中获得的第二文档需求信息进行聚合处理，以获得与相应的文档资源建议词。在此，聚合处理意指基于所具有的共同属性来将多个第二文档需求信息聚合为一个或多个类/组，诸如分类处理、聚类处理等。

其中，建议词获取装置13对第二文档需求信息进行聚合处理来获得文档资源建议词的方式包括但不限于以下4种方式：

1）建议词获取装置13对第二文档需求信息进行分类处理，以获得每个第二文档需求信息所属的类别，并将每个第二文档需求信息作为其所属类别所对应的文档资源建议词。在此，第二文档需求信息的类别可根据实际应用的需要来采用不同的标准进行划分，如按照行业、文档类型等进行划分。

例如，建议词获取装置13根据预先标注好类别的正负样本对SVM（支持向量机）进行训练，并基于预训练的SVM来对第二文档需求信息进行分类处理，以获得每个第二文档需求信息所属的类别，并可直接将每个第二文档需求信息作为其所属类别所对应的文档资源建议词。

又如，建议词获取装置13预先建立一个关键词表，其中每个关键词标注有对应的类别，建议词获取装置13将第二文档需求信息在该关键词表中进行匹配查询，并将相匹配的关键词的类别作为对应第二文档需求信息的类别，进而将第二文档需求信息直接作为其所属类别所对应的文档资源建议词。

例如，在用户用于文档检索的第二文档需求信息中，表述清晰且具有明确文档需求的文档需求信息可认为代表用户明确的需求。因此，可将对明确的用户需求的挖掘，转化为对文档需求未满足的第二文档需求信息集合中，表述清晰且具有明确文档需求的第二文档需求信息的挖掘，其同样可以采用上述函数4）来实现。在此为便于阅读，再次示出函数4）如下：

Duserneed={query|Met(query)=0,D(query)=1} 函数4）

对于D(query)的函数建模，如可通过对具有明确文档需求表述的未满足需求的第二文档需求信息的特征分析，确定第二文档需求信息所属的类别。例如，大部分具有清晰的文档需求表述的第二文档需求信息是对教育类文档资源的需求，因此通过分类函数，对于分类到“教育专区-初中教育”和“教育专区-小学教育”两个二级子类的第二文档需求信息，即认为其是具有明确文档需求的第二文档需求信息，因此D(query)的函数如上述函数5）所示。在此为便于阅读，再次示出函数5）如下：

D (query) = \{\begin{matrix} 1 & Classify (query) &Element; {C_{1}, C_{2}} \\ 0 & other \end{matrix}

函数5）

2）建议词获取装置13对第二文档需求信息进行聚类处理，并将聚类后获得的聚类关键词作为文档资源建议词。

例如，建议词获取装置13可采用自顶向下的层次聚类算法来对第二文档需求信息进行聚类处理。具体地，该层次聚类算法的过程描述如下：

c）设置顶级聚类关键词数的数量KNUM为1；

e）检查聚类层次是否超过阈值，超过转i），否则转f）；

g）顶级聚类关键词数的数量KNUM加1；

i）算法结束，输出全部类的聚类关键词组。

优选地，建议词获取装置13还基于聚类关键词再次进行聚类处理，并将再次聚类后获得的二次聚类关键词作为文档资源建议词。

3）建议词获取装置13对第二文档需求信息进行分类处理，以获得至少一个属于预定类别的第二文档需求信息，并将其中每个第二文档需求信息作为其所属类别所对应的文档资源建议词，并且，建议词获取装置13对不属于预定类别的第二文档需求信息进行聚类处理，并将聚类后获得的聚类关键词作为文档资源建议词。以获得聚类后的至少一个第二文档需求信息组，并将聚类关键词作为文档资源建议词。

例如，预定类别包括“教育类”，建议词获取装置13对每个第二文档需求信息进行分类处理，以获得其中属于“教育类”的第二文档需求信息，并将这些第二文档需求信息直接作为“教育类”所对应的文档资源建议词；对剩余不属于“教育类”的第二文档需求信息，建议词获取装置13对其利用上述层次聚类算法来进行聚类处理，以获得聚类后的至少一个类的第二文档需求信息，并将所有类的聚类关键词作为这些剩余第二文档需求信息所对应的文档资源建议词。

4）建议词获取装置13对第二文档需求信息进行分类处理，以获得每个第二文档需求信息所属的类别，并且，建议词获取装置13对这些第二文档需求信息进行聚类处理，以获得聚类后的至少一个第二文档需求信息组，并将每个第二文档需求信息组所对应的聚类关键词作为与相应第二文档需求信息组所属类别相对应的文档资源建议词。

在此，建议词获取装置13对第二文档需求信息进行分类处理，以确定每个第二文档需求信息的分类，再对这些第二文档需求信息进行聚类处理，获得至少一个第二文档需求信息组，并将每个第二文档需求信息组所对应的聚类关键词作为相应第二文档需求信息组所对应的类别的文档资源建议词，其中，当一个第二文档需求信息组中的多个第二文档需求信息分别对应不同类别时，该第二文档需求信息组所对应的聚类关键词可以作为其中第二文档需求信息所对应的全部类别的文档资源建议词。

例如，建议词获取装置13通过分类处理确定每个第二文档需求信息所属的类别，再对这些第二文档需求信息进行聚类处理来获得多个第二文档需求信息组，对于其中一个第二文档需求信息组，其中包括的3个第二文档需求信息组对应3个不同的类别，则该第二文档需求信息组的聚类关键词可同时作为这3个类别所对应的文档资源建议词。

需要注意的是，本发明可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路（ASIC）、通用目的计算机或任何其他类似硬件设备来实现。

本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本发明的软件程序（包括相关的数据结构）可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本发明的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个功能或步骤的电路。

另外，本发明的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本发明的一个实施例，其包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种文档资源建议词的挖掘方法，其中，该方法包括：

a获取具有文档资源需求的第一文档需求信息；

2.根据权利要求1所述的方法，其中，所述步骤a包括：

-获取待处理的多个查询信息；

-按照预定模板对所述查询信息进行匹配，以获得所述查询信息的文档资源需求值，进而按照预定文档资源需求阈值来筛选获得所述第一文档需求信息。

3.根据权利要求1或2所述的方法，其中，所述步骤a还包括：

-通过强非文档资源需求关键词表来过滤获得所述第一文档需求信息。

4.根据权利要求1至3中任一项所述的方法，其中，所述步骤b包括：

-根据所述第一文档需求信息在文档资源库中进行查询，以获得与所述第一文档需求信息相对应的候选文档资源；

-计算所述第一文档需求信息与所述候选文档资源的文档内容标识信息的相似度，以获得其中相似度低于预定相似度阈值的第二文档需求信息。

5.根据权利要求1至4中任一项所述的方法，其中，对所述相似度阈值设定上下限，其中所述第二文档需求信息所对应的相似度低于所述相似度阈值的上限。

6.根据权利要求1至5中任一项所述的方法，其中，所述聚合处理包括分类处理；

其中，所述步骤c包括：

-对所述第二文档需求信息进行分类处理，以获得所述第二文档需求信息所属的类别，并将所述第二文档需求信息作为其所属类别所对应的文档资源建议词。

7.根据权利要求1至5中任一项所述的方法，其中，所述聚合处理包括聚类处理；

其中，所述步骤c包括：

-对所述第二文档需求信息进行聚类处理，并将聚类后获得的聚类关键词作为所述文档资源建议词。

8.根据权利要求7所述的方法，其中，所述步骤c还包括：

-基于所述聚类关键词再次进行聚类处理，并将再次聚类后获得的二次聚类关键词作为所述文档资源建议词。

9.根据权利要求1至5中任一项所述的方法，其中，所述聚合处理包括分类处理和聚类处理；

其中，所述步骤c包括：

-对所述第二文档需求信息进行分类处理，以获得属于预定类别的至少一个第二文档需求信息，并将所述至少一个第二文档需求信息作为其所属类别所对应的文档资源建议词；

-对不属于预定类别的第二文档需求信息进行聚类处理，并将聚类后获得的聚类关键词作为所述文档资源建议词。

10.根据权利要求1至5中任一项所述的方法，其中，所述聚合处理包括分类处理和聚类处理；

其中，所述步骤c包括：

-对所述第二文档需求信息进行分类处理，以获得所述第二文档需求信息所属的类别；

-对所述第二文档需求信息进行聚类处理，以获得聚类后的至少一个第二文档需求信息组，并将每个第二文档需求信息组所对应的聚类关键词作为与相应第二文档需求信息组所属类别相对应的文档资源建议词。

11.一种文档资源建议词的挖掘装置，其中，该装置包括：

12.根据权利要求11所述的装置，其中，所述第一需求获取装置用于：

-获取待处理的多个查询信息；

13.根据权利要求11或12所述的装置，其中，所述第一需求获取装置还用于：

14.根据权利要求11至13中任一项所述的装置，其中，所述第二需求获取装置用于：

15.根据权利要求11至14中任一项所述的装置，其中，对所述相似度阈值设定上下限，其中所述第二文档需求信息所对应的相似度低于所述相似度阈值的上限。

16.根据权利要求11至15中任一项所述的装置，其中，所述聚合处理包括分类处理；

其中，所述建议词获取装置用于：

17.根据权利要求11至15中任一项所述的装置，其中，所述聚合处理包括聚类处理；

其中，所述建议词获取装置用于：

18.根据权利要求17所述的装置，其中，所述建议词获取装置还用于：

19.根据权利要求11至15中任一项所述的装置，其中，所述聚合处理包括分类处理和聚类处理；

其中，所述建议词获取装置用于：

20.根据权利要求11至15中任一项所述的装置，其中，所述聚合处理包括分类处理和聚类处理；

其中，所述建议词获取装置用于：