CN102955849A

CN102955849A - 基于标签推荐文档的方法及文档推荐装置

Info

Publication number: CN102955849A
Application number: CN2012104224375A
Authority: CN
Inventors: 刘晓震
Original assignee: Sina Technology China Co Ltd
Current assignee: Sina Technology China Co Ltd
Priority date: 2012-10-29
Filing date: 2012-10-29
Publication date: 2013-03-06

Abstract

本发明公开了一种基于标签推荐文档的方法及文档推荐装置。该方法包括：接收用户选取的文档标签，查询预先设置的同义词词林，获取与文档标签相对应的同义词组；根据获取的同义词组，从预先存储的文档库中，查询并获取包含所述同义词组的文档列表；计算包含所述同义词组的文档列表中每一文档的特征值，构建基于文档标签的空间权重向量；根据构建的基于文档标签的空间权重向量，计算文档标签对应的文档与文档列表中每一篇文档的相似度，并选取预定数目的相似度最高的文档作为查询结果输出。应用本发明，可以提升文档推荐效率。

Description

基于标签推荐文档的方法及文档推荐装置

技术领域

本发明涉及搜索技术，尤其涉及一种基于标签（tag）推荐文档的方法及文档推荐装置。

背景技术

随着互联网技术的迅速发展，网络文档，例如，博文以及微博文的数量迅速膨胀，如何有效管理网络文档的海量数据资源，以及，从海量数据资源的文档中，向用户有效推荐文档，受到越来越多的关注。其中，文档分类技术作为管理海量数据以及推荐文档的关键技术，得到了巨大的发展，质量高的文档分类，可以为管理和推荐文档提供较好的支持。

现有技术中，文档分类主要基于特征值权重技术，特征值权重的计算考虑两个权重因子：词频（TF，Term Frequency）以及逆文档词频（IDF，Inverse Document Frequency）。其中，

TF表示一个词（标签）在文档中出现的次数的权重，如果一个词在文档中出现的次数越高，该词就越能表征该文档的主题，同时，考虑文档的长度，因为文档越长，词在文档中出现的频率越高。

TF的权重计算公式为：

TF = \frac{P_{w}}{P}

式中，

TF为词频权重；

P_w为词w出现在文档中的次数；

P为文档长度。

IDF是表示文档集体范围的一种全局因子，IDF的权重计算公式为：

IDF = \log \frac{D}{D_{w}}

式中，

IDF为逆文档词频权重；

D_w为样本（文档库）中含有词w的个体（文档）总数；

D为样本总数，即总文档数。

如果IDF值越小，表示样本中越多的文档包含有该词，该词包含的信息量越少；如果IDF值越大，表示样本中只有越少的文档包含有该词，该词包含的信息量越大。

结合词频及逆文档词频，可以形成词频-逆文档词频（TF-IDF，TermFrequency-Inverse Document Frequency），TF-IDF是一种用于信息搜索、推荐的常用加权技术，常应用于搜寻引擎，作为文档与用户查询之间相关程度的度量或评级，基于统计方法，用以评估词对一个文件集或一个语料库中的其中一份文档的重要程度，并向用户推荐查询结果。其中，词的重要性随着该词在文档中出现的次数成正比增加，同时随着在样本库中出现的频率成反比下降。也就是说，如果词在一篇文档中出现的TF高，且在其他文档中很少出现，则认为该词具有较好的类别区分能力，适用于分类。

TF-IDF权重可以采用TF与IDF进行表示，其计算公式如下：

{Weight}_{w} = TFxIDF = \frac{P_{w}}{p} x \log \frac{D}{D_{w}}

式中，Weight_w为词w的TF-IDF权重。

如果TF-IDF权重值越大，表示该词的指示性越好。

这样，用户在浏览某一文档时，如果需要获取与该文档相关的文档信息以作进一步的了解，由于文档一般包含有标签，可以根据用户选取的当前浏览文档的标签（推荐词或推荐词组），获取文档库中包含有该推荐词或推荐词组的文档，并分别计算各文档包含的用户输入标签在文档库中的TF-IDF权重值，并对获取的TF-IDF权重值进行排序，选取排序前N位的TF-IDF权重值对应的文档作为推荐文档，向用户展示，从而使用户根据展示的推荐文档进行推荐或作进一步浏览。

由上述可见，现有基于推荐词（标签）推荐文档的方法，根据当前浏览文档的标签，获取文档库中包含有该标签的文档，并分别计算各文档在文档库中的TF-IDF权重值，根据TF-IDF权重值进行文档推荐，由于仅仅针对推荐词进行相关文档TF-IDF权重值计算，没有对推荐词进行同义词、同类词的语义分析扩展，使得输出的查询结果信息量（推荐文档）较少，不能满足用户的同义查询需求，查询效率较低。例如，如果用户输入包含三个查询字符串（推荐词组）的标签“恭喜久仰过奖”，通过搜索引擎的搜索查询，进行相关TF-IDF权重值计算后，只向用户输出包含有三个推荐词的相关文档。这样，可能导致搜索引擎的文档库中没有与推荐词组“恭喜久仰过奖”相匹配的文档，从而使得推荐失败，推荐效率低，而没有考虑对推荐词进行同义扩展，例如，分别将推荐词“恭喜”进行同义扩展，得到同义推荐词组“恭喜恭贺贺喜”；将推荐词“久仰”进行同义扩展，得到同义推荐词词组“久仰久仰大名久慕盛名”；将推荐词“过奖”进行同义扩展，得到同义推荐词词组“过奖过誉”，再以扩展的同义词组作为一个空间权重向量的坐标，进行搜索查询，从而获取与通过查询字符串查询得到的文档相关（相近似）的文档作为推荐文档，以扩展查询结果的信息量，满足用户对同义词的查询需求。

发明内容

本发明的实施例提供一种基于标签推荐文档的方法，提升文档推荐效率。

本发明的实施例还提供一种基于标签推荐文档的文档推荐装置，提升文档推荐效率。

为达到上述目的，本发明实施例提供的一种基于标签推荐文档的方法，包括：

接收用户选取的文档标签，查询预先设置的同义词词林，获取与文档标签相对应的同义词组；

根据获取的同义词组，从预先存储的文档库中，查询并获取包含所述同义词组的文档列表；

计算包含所述同义词组的文档列表中每一文档的特征值，构建基于文档标签的空间权重向量；

根据构建的基于文档标签的空间权重向量，计算文档标签对应的文档与文档列表中每一篇文档的相似度，并选取预定数目的相似度最高的文档作为查询结果输出。

其中，所述文档包括文档标识、文档标签、文档更新时间以及文档内容。

其中，所述查询预先设置的同义词词林，获取与文档标签相对应的同义词组包括：

查询预先设置的同义词词林，分别获取与文档标签中各标签对应的同义词子组；

基于文档标签格式，将各标签对应的同义词子组组合为同义词组。

其中，所述从预先存储的文档库中，查询并获取包含所述同义词组的文档列表包括：

基于文档标签，对获取的同义词组进行组合，得到组合的同义词组；

根据组合的同义词组，查询倒排索引集合，获取所述组合的同义词组对应的正排索引集合标识；

根据获取的正排索引集合标识，查询正排索引集合，获取正排索引集合标识映射的文档，形成文档列表。

其中，所述计算包含所述同义词组的文档列表中每一文档的特征值包括：

查询预先设置的标签计数器，遍历文档列表，获取文档列表中每一文档基于文档标签的计数值；

结合文档库中文档总数以及基于文档标签的计数值，分别得到文档列表中各文档对应的特征值。

其中，在所述查询预先存储的标签计数器的步骤之前，所述方法进一步包括：

接收发布的携带博文标识的博文，获取该博文中的博文标签；

查询文档库中，获取所述博文标识对应的博文标签数组；

根据获取的博文标签以及博文标签数组，更新博文标签数组中的计数值。

其中，所述根据获取的博文标签以及博文标签数组，更新博文标签数组中的计数值包括：

将所述博文标签与所述博文标签数组互为差集，将博文标签差博文标签数组的集合写入输入标签数组，博文标签数组差博文标签的集合写入输出标签数组；

根据输入标签数组中的标签，对标签计数器中相应标签对应的计数值执行加1操作；

根据输出标签数组中的标签，对标签计数器中相应标签对应的计数值执行减1操作；

对输入标签数组中的数据，增加索引倒排数据内容，对输出标签数组中的数据，删除对应的索引倒排数据内容。

其中，计算所述相似度采用夹角余弦定理公式。

一种基于标签推荐文档的文档推荐装置，该装置包括：同义词组获取模块、文档获取模块、空间权重向量构建模块以及文档推荐模块，其中，

同义词组获取模块，用于接收用户选取的文档标签，查询预先设置的同义词词林，获取与文档标签相对应的同义词组；

文档获取模块，用于根据获取的同义词组，从预先存储的文档库中，查询并获取包含所述同义词组的文档列表；

空间权重向量构建模块，用于计算包含所述同义词组的文档列表中每一文档的特征值，构建基于文档标签的空间权重向量；

文档推荐模块，用于根据构建的基于文档标签的空间权重向量，计算文档标签对应的文档与文档列表中每一篇文档的相似度，并选取预定数目的相似度最高的文档作为查询结果输出。

较佳地，所述同义词组获取模块包括：解析单元、查询单元以及同义词组获取单元，其中，

解析单元，用于接收用户选取的文档标签，解析得到文档标签中包含的各标签，依次输出至查询单元；

查询单元，用于根据接收的标签，查询预先设置的同义词词林，获取该标签对应的同义词子组，输出至同义词组获取单元；

同义词组获取单元，用于根据文档标签的格式，将接收的同义词子组组合为同义词组。

较佳地，所述文档获取模块包括：组合单元、倒排索引集合单元、正排索引集合单元以及文档获取单元，其中，

组合单元，用于基于文档标签，对获取的同义词组进行组合，得到组合的同义词组；

倒排索引集合单元，用于根据接收的组合的同义词组进行查询，获取所述组合的同义词组对应的正排索引集合标识；

正排索引集合单元，用于根据接收的正排索引集合标识进行查询，获取正排索引集合标识映射的文档，输出至文档获取单元；

文档获取单元，用于存储接收的文档，形成文档列表。

较佳地，所述空间权重向量构建模块包括：标签计数器、查询单元、特征值计算单元以及空间权重向量构建单元，其中，

标签计数器，用于存储文档标签的计数值；

查询单元，用于遍历文档列表，查询标签计数器，获取文档列表中每一文档基于文档标签的计数值；

特征值计算单元，用于结合文档库中文档总数以及基于文档标签的计数值，分别得到文档列表中各文档对应的特征值；

空间权重向量构建单元，用于根据各文档对应的特征值，分别构建各文档基于文档标签的空间权重向量。

较佳地，所述空间权重向量构建模块进一步包括：

更新单元，用于接收发布的携带博文标识的博文，获取该博文中的博文标签；查询文档库中的标签计数器，获取所述博文标识对应的博文标签数组；根据获取的所述博文标签以及所述博文标签数组，更新所述博文标签数组中的计数值。

较佳地，所述更新单元包括：接收子单元、查询子单元以及更新子单元，其中，

接收子单元，用于接收发布的携带博文标识的博文，获取该博文中的博文标签；

查询子单元，用于查询文档库中的标签计数器，获取所述博文标识对应的博文标签数组；

更新子单元，用于将所述博文标签与所述博文标签数组互为差集，将博文标签差博文标签数组的集合写入输入标签数组，博文标签数组差博文标签的集合写入输出标签数组；

对输入标签数组中的数据，在倒排索引集合单元中增加相应数据内容，对输出标签数组中的数据，在倒排索引集合单元中，删除对应的数据内容。

由上述技术方案可见，本发明实施例提供的一种基于标签推荐文档的方法及文档推荐装置，接收用户选取的文档标签，查询预先设置的同义词词林，获取与文档标签相对应的同义词组；根据获取的同义词组，从预先存储的文档库中，查询并获取包含所述同义词组的文档列表；计算包含所述同义词组的文档列表中每一文档的特征值，构建基于文档标签的空间权重向量；根据构建的基于文档标签的空间权重向量，计算文档标签对应的文档与文档列表中每一篇文档的相似度，并选取预定数目的相似度最高的文档作为查询结果输出。这样，通过将文档标签进行同义扩展，得到同义词组，再以扩展的同义词组查询文档库，形成文档列表，计算文档标签对应的文档与文档列表中各文档的相似度，根据相似度输出推荐结果，从而扩展了查询结果的信息量，提升文档推荐效率，满足了用户对同义词的查询需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，以下将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，以下描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员而言，还可以根据这些附图所示实施例得到其它的实施例及其附图。

图1为本发明实施例基于标签推荐文档的方法流程示意图。

图2为本发明实施例基于标签推荐文档的方法具体流程示意图。

图3为本发明实施例文档A生成的空间权重向量示意图。

图4为本发明实施例博文列表中各文档基于文档A标签生成的空间权重向量示意图。

图5为本发明实施例基于标签推荐文档的文档推荐装置结构示意图。

具体实施方式

以下将结合附图对本发明各实施例的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例，都属于本发明所保护的范围。

现有基于标签推荐文档的方法，根据标签的精确匹配计算进行查询，获取相关的文档，计算各文档的TF-IDF权重值，根据TF-IDF权重值进行文档推荐，没有考虑推荐词语义的相近程度，也没有考虑推荐词的同义词所在文档应有的权重，使得查询结果信息量较少，不能满足用户的同义查询需求，文档推荐效率较低。

向量空间模型（SVM，Vector Space Model）作为向量的标识符，是一个可以用于表示文档的代数模型，可用于搜索引擎的相似度计算，可以对文档与其它文档的相关性进行排序计算，从而向用户输出推荐词对应的推荐文档查询结果，从数学模型的角度看，向量空间模型简单直观，以下进行简要描述。

由词W_i组成的词组如果词W_i出现在文档中，则该词W_i在该文档的特征值向量中的值就非零，这样，词频-逆文档词频权重通过向量可以表示为：

{\overset{&RightArrow;}{W}}_{i} = {\overset{&RightArrow;}{TF}}_{W_{i}}^{T} \cdot ID {\overset{&RightArrow;}{F}}_{W_{i}}

\overset{&RightArrow;}{W} = [{TF}_{W 1}^{T} \cdot ID F_{W 1}, T {F_{W 2}}^{T} \cdot ID F_{W 2}, \cdot \cdot \cdot, {TF}_{Wi}^{T} \cdot ID F_{Wi}]

{\overset{&RightArrow;}{TF}}_{A} = {\overset{&RightArrow;}{TF}}_{{\overset{&RightArrow;}{W}}_{A}}

则词组

在文档A与B中的特征值向量可以分别表征如下：

\overset{&RightArrow;}{A} = {\overset{&RightArrow;}{TF}}_{A}^{T} \cdot I {\overset{&RightArrow;}{DF}}_{A}

\overset{&RightArrow;}{B} = {\overset{&RightArrow;}{TF}}_{B}^{T} \cdot I {\overset{&RightArrow;}{DF}}_{B}

由于夹角余弦定理公式可以反映两个向量（文档）之间的相关程度，因而，通过将词组

在文档A与B中的特征值，生成空间权重向量，代入夹角余弦定理公式，可以得到文档A与B的相关程度，夹角余弦定理公式如下：

\cos θ = \frac{Σ_{i = 1}^{n} (A_{i} \cdot B_{i})}{\sqrt{Σ_{i = 1}^{n} A_{i}^{2}} \cdot \sqrt{Σ_{i = 1}^{n} B_{i}^{2}}}

该式中，如果两文档对应的空间权重向量（A_i、B_i）的余弦值为零，则表示该两文档的空间权重向量是正交的，彼此互不相关，即两文档相关程度为零，词组

对应的文档A与B不具有相关性。

本发明实施例中，考虑基于同义词词林扩展，对用户选取的标签进行词义扩展，基于词义扩展的标签，从文档库中获取包含词义扩展的标签的文档，结合向量空间模型，构建扩展的标签在各文档中对应的空间权重向量，并基于各文档对应的空间权重向量，通过夹角余弦定理公式计算各文档之间的相关程度，依据相关程度进行文档推荐，从而提出全新的基于语义的相关性算法的推荐方法。

具体来说，基于同义词词林扩展，对用户输入的标签进行语义分析，即抽取用户用以推荐文档输入的字符串，生成文档标签，根据预先设置的同义词词林，获取文档标签对应的同义词组，基于同义词组，查询文档库，获取包含同义词组的文档，并计算各文档中同义词组的特征值，生成基于文档标签的空间权重向量，与文档标签的特征值形成的空间权重向量进行夹角余弦计算，得到空间权重向量夹角余弦值，从而获取两文档之间的相似度，根据相似度输出推荐结果，使推荐结果更加符合用户的推荐需求，提升文档的推荐效率。

以下描述中，以文档为博文进行说明，将博文的标签用于特征值的SVM的夹角余弦定理，求相关近似度；并对博文的标签特征值进行同义词语义分析，从而扩大推荐词组向量的维度。

图1为本发明实施例基于标签推荐文档的方法流程示意图。参见图1，该流程包括：

步骤101，接收用户选取的文档标签，查询预先设置的同义词词林，获取与文档标签相对应的同义词组；

本步骤中，用户在浏览文档，例如，博文时，如果需要获取与该博文相关的博文，以便进行推荐或作进一步了解，则将浏览的博文中包含的博文标签输入搜索引擎的搜索窗口。

本发明实施例中，博文包括博文标识（blogid）、博文标签（tag）、博文更新时间以及博文内容，其中，博文以博文标识进行表示，搜索引擎服务器中，每一篇博文对应一个唯一的博文标识，可用于博文的文档库检索的唯一标识，以及，在URL中表示该博文的唯一访问地址；tag是博文作者对博文内容的总结，并归纳出的分类推荐词，例如，博文标签可以是展示的博文标题中的关键词“恭喜久仰过奖”，一篇博文可以包含一个或多个tag，实际应用中，还可以对博文标签进行更新，例如，增加、修改、删除等；博文内容为博文作者编辑的文本字符串。

预先设置的同义词词林可以是现有技术中应用较为广泛的同义词词林，例如，可以是哈工大同义词词林，并采用编号分类进行表示，举例来说，同义词词林编号分类可以如下：

Aa01A02=

其中，第一位字符A表示大类，第二位字符a表示中类，第三位和第四位位字符01表示小类，第五位字符A表示词群，第六位和第七位字符02表示原子词群，第八位字符（最后一位字符）表示标志位。其中，

标志位包括：=、#以及等，其中，

=表义同义词；

#表示同类；

表示词语自我封闭。

本发明实施例中，只需要词语相近的词即可，即同义词。

本发明实施例中，查询预先设置的同义词词林，获取与文档标签相对应的同义词组包括：

A01，查询预先设置的同义词词林，分别获取与文档标签中各标签对应的同义词子组；

本步骤中，将标签对应的同义词等效为标签，以有效扩展查询范围。

A02，基于文档标签格式，将各标签对应的同义词子组组合为与文档标签格式相同的同义词组。

举例来说，当博文标签为[tag1；tag2；tag3]时，分别对tag1、tag2、tag3进行同义词词林查询，分别获取博文标签映射的同义词组，即分别得到tag1、tag2、tag3对应的同义词子组Synonyms[tag1]、Synonyms[tag2]以及Synonyms[tag3]，其中，

Synonyms[tag1]＝[tag1，tag4，tag5]；

Synonyms[tag2]＝[tag2，tag6]；

Synonyms[tag3]＝[tag3，tag7]。

将tag1、tag2、tag3分别对应的同义词子组Synonyms[tag1]、Synonyms[tag2]以及Synonyms[tag3]，按照文档标签格式进行组合，因而，得到的博文标签相对应的同义词组为：[tag1，tag4，tag5；tag2，tag6；tag3，tag7]，即当博文标签为一个时，对应的同义词组中，包含的同义词子组为一个，当博文标签为多个（博文标签组）时，对应的同义词组中，每一博文标签对应一个同义词子组，各同义词子组之间，以预先设置的格式进行区分，例如，本发明实施例中，以分号进行区分。

步骤102，根据获取的同义词组，从预先存储的文档库中，查询并获取包含所述同义词组的文档列表；

本步骤中，对于包含Synonyms[tag1]、Synonyms[tag2]以及Synonyms[tag3]的同义词组，从预先存储的文档库中，获取包含有tag1、tag4、tag5中的一个或多个，同时包含有tag2、和/或，tag6，且包含有tag3、和/或，tag7的文档，形成同义词组的文档列表。

实际应用中，由于一个词可能被包含到多个同义词组中，并且一个词可能含有多个同义词。如果按照现有单一顺序的索引集合在文档库中进行文档查询，例如，按照正排索引集合或倒排索引集合查询包含博文标签的同义词的文档时，需要遍历文档库中全部的正排索引集合或倒排索引集合，才能获取包含有同义词或同义词组的博文。因而，本发明实施例中，为了提升文档查询速度，对于文档库，设置正排索引集合及倒排索引集合，即预先存储的文档库中设置有正排索引集合及倒排索引集合。

这样，从预先存储的文档库中，查询并获取包含所述同义词组的文档列表包括：

A001，基于文档标签，对获取的同义词组进行组合，得到组合的同义词组；

本步骤中，基于文档标签，对同义词组[tag1，tag4，tag5；tag2，tag6；tag3，tag7]进行组合，可以分别得到[tag1；tag6；tag3]、[tag1；tag2；tag7]、[tag4；tag2；tag3]、[tag4；tag2；tag7]、[tag4；tag6；tag3]以及[tag4；tag6；tag7]等。

A002，根据组合的同义词组，查询倒排索引集合，获取所述组合的同义词组对应的正排索引集合标识；

本步骤中，如果组合的同义词组为多个，从倒排索引集合中，可以获取多个组合的同义词组对应的正排索引集合标识。

A003，根据获取的正排索引集合标识，查询正排索引集合，获取正排索引集合标识映射的文档，形成文档列表。

本步骤中，如前所述，当组合的同义词组为[tag1；tag6；tag3]时，进行正排索引集合查询，获取[tag1；tag6；tag3]对应的正排索引集合标识，再查询正排索引集合，获取正排索引集合标识映射的文档，形成文档列表，并依据同样的方式，获取各组合的同义词组对应的文档，合并至文档列表中。

这样，根据正排索引集合标识，可以直接获取组合的同义词组映射的文档，从而在查询时，通过倒排索引集合，可以先快速定位到组合的同义词组所属的正排索引集合标识，然后，根据获取的正排索引集合标识，从正排索引集合中，获取映射的文档，既可以找全数据，也可以扫描更少的数据，有效提高查询速度。

本发明实施例中，举例来说，正排索引集合可以表示如下：

′Aa01A01＝′＝>′人士人物人士人氏人选′，

′Aa01A02=′＝>′人类生人全人类′，

′Aa01A03=′＝>′人手人员人口人丁口食指′，

′Aa01A04=′＝>′劳力劳动力工作者′，

′Aa01A05=′＝>′匹夫个人′，

与正排索引集合相对应，倒排索引集合表示如下：

′人′=>′Aa01A01=Ab02B01=Dd17A02=De01B02=Dn03A04=′，

′士′＝>′Aa01A01=Ab01A01=Ae10D03＝A101A01＝′，

′人物′＝>′Aa01A01＝′，

′人士′＝>′Aa01A01＝′，

′人氏′＝>′Aa01A01＝′，

′人选′＝>′Aa01A01＝′，

′人类′＝>′Aa01A02＝'，

′生人′＝>′Aa01A02＝Aa01B01＝Aj02B01＝′，

其中，Dd17A02＝、De01B02＝、Dn03A04＝和Aa01A01＝等是一样的，Aa01A01是同义词的集合，为同义词组的编码值。关于上述字符以及正排索引集合与倒排索引集合的详细描述，具体可参见相关技术文献，在此不再赘述。

这样，通过同义词林、正排索引集合与倒排索引集合，可以更加容易快速地得到文档标签对应的组合的同义词组。当然，实际应用中，也可以采用正排索引集合进行查询。

步骤103，计算包含所述同义词组的文档列表中每一文档的特征值，构建基于文档标签的空间权重向量；

本步骤中，特征值包括：词频、逆文档词频以及词频－逆文档词频，较佳地，采用词频－逆文档词频表示特征值。

计算包含所述同义词组的文档列表中每一文档的特征值包括：

A11，查询预先存储的标签计数器，遍历文档列表，获取文档列表中每一文档基于文档标签的计数值；

本步骤中，标签计数器中，存储有各文档标签在对应博文库中出现的次数，即计数值。

基于文档标签的计数值是指组合的同义词组，例如，[tag1；tag6；tag3]中各子标签，例如，tag1、tag6以及tag3分别在博文库中的计数值。

本发明实施例中，标签计数器对用户发布的文档进行维护，当监测到文档库中存储的文档内容，例如，文档标签、文档中文本内容发生更新，触发更新倒排索引集合。其中，更新包括：增加、修改以及删除，当文档内容有增加、修改以及删除中的一种或多种情形时，触发更新倒排索引集合。

索引集合中的索引，例如人物，包含：文档标识、文档标签计数值以及文档数据，其中，

文档标识用以唯一标识文档，通过文档标识，可以获取文档的数据内容，当检测到用户新发表一篇文档，例如，博文时，为新发表的文档生成一个唯一的文档标识。实际应用中，一篇文档对应一个文档标识，一个或多个文档标签。

文档标签计数值由标签计数器进行维护，标签计数器中存储有每一个文档标签对应的文档总数。实际应用中，标签计数器可以是远程字典服务器（Redis，REmote DIctionary Server），存储文档标签（tag名）在文档库中对应的文档计数值，即tag值，例如，tag名可以是时尚、摄影等名称，tag值为时尚、摄影在文档库文档中出现的文档计数值。

本发明实施例中，在倒排索引集合中，每个文档标签都会生成一个Redis的zset类型的数据。zset类型的数据中，存储含有博文标签的博文列表和博文的发布时间（unix时间戳），博文列表中的博文可以按照发布时间进行排序。举例来说，zset类型的数据格式包括：

标签名（1）={[发布时间->博文ID11]，[发布时间->博文ID12]，[发布时间->博文ID13]}。

标签名（2）={[发布时间->博文ID21]，[发布时间->博文ID22]，[发布时间->博文ID23]}。

当检测到有新的博文发布时，例如，如果博文的标签名称包含时尚以及摄影，则触发维护倒排索引集合的倒排索引队列模块修改标签计数器，将tag名为时尚对应的tag值的计数值加1、并将tag名为摄影对应的tag值的计数值加1，并相应更新文档数据。

同理，当检测到博文发生修改时，倒排索引队列模块中的队列维护程序根据发生修改的博文标识，将原博文标签对应的计数值相应执行减1操作，再将新修改的博文标签对应的计数值相应执行加1操作。也就是说，文档修改时，可能会修改文档标签，在修改文档标签的情况下，需要对标签计数器进行计数值准确性的维护。举例来说。如果文档A修改前的tag名为（a，b，c），修改后为（c，d，e），在接收到文档A修改的文档标签后，与该文档A修改前的tag名进行比较，以判断有哪几个文档标签发生了修改，如上述示例中，确定将标签（a，b）修改为（d，e），标签c未发生变化，相当于在文档A的文档标签中，先删除了标签（a，b），后又增加了标签（d，e），因而，在标签计数器中，先将标签a、b对应的计数值依次减1，成功后再将标签d、e对应的计数值依次加1。

当检测到博文被删除时，倒排索引队列模块触发标签计数器，将该博文的tag名对应的tag值的计数值减1。这样，当有新发表的博文，或对博文进行修改、删除操作时，根据博文标识，对倒排索引集合中存储的对应关系相应更新。

具体来说，在倒排索引队列模块中实现队列维护倒排索引内容包括：

A21，接收发布的携带博文标识的博文，获取该博文中的博文标签；

本步骤中，根据接收的博文的博文标识，获取博文标签，将获取的新博文标签（ntag）数组的博文写入队列。

本发明实施例中，接收的博文包含三部分，分别为：

1）博文标签，例如，博文标签为（人物人士人氏人选），即ntag数组={人物；人士；人氏；人选}；

2）博文标识，例如，blogid为10000000000；

3）博文更新时间，例如，2012-01-01 00:00:00，对应的unix时间戳为：1325376000。

其中，ntag数组为博文当前最新的tag数组，即获取的博文标签；otag数组为博文修改前的tag数组，删除的博文ntag数组为空。如前所述，一篇博文对应多个tag，因此，本发明实施例中，采用tag数组来表示该博文包含的tag。其中，ntag数组和otag数组均用于对倒排索引和tag计数器的准确性的维护。

本发明实施例中，存储的文档的抽象结构为：

｛blogid，发表时间或修改时间，[ntag]｝；

ntag=[tagA；tagB；tagC；tagD]。

A22，查询文档库中，获取所述博文标识对应的博文标签数组；

本步骤中，查询写入队列的博文在文档库中是否存在该博文标识对应的数据内容，如果存在，表明otag数组不存在，置otag数组为空；如果存在，则为前一个ntag数组的内容。

本发明实施例中，如果为新发博文，则不存在otag数组（博文标签数组），则默认取空数组。

具体来说，根据blogid（10000000000），在redis博文内容索引中获取博文内容，如果博文内容存在，则得到该内容中的tag信息，即otag数组，例如，otag数组=（人物人士人才）；如果博文内容不存在，则确定otag数组为空集合。

A23，根据获取的博文标签以及博文标签数组，更新博文标签数组中的计数值。

本步骤具体包括：

A31，将ntag数组与otag数组互为差集，将ntag数组差otag数组的集合写入import_tag；otag数组差ntag数组的集合写入export_tag；

本步骤中，一般地，记A，B是两个集合（或数组），则所有属于A且不属于B的元素构成的集合，称做集合A减集合B，即A数组与B数组的差集。

举例来说，如果文档A修改前的tag数组为｛a，b，c，d｝，即otag数组，修改后的tag数组为｛c，d，e，f｝，即ntag数组，则：

ntag数组差otag数组为：在ntag数组存在，同时不在otag数组存在的tag，为｛e，f｝。

具体流程如下：

遍历ntag数组，获取ntag数组中的各tag，在otag数组中依序进行查找；

如果otag数组中不存在该tag，该tag属于ntag数组差otag数组的差集；

将该tag写入import_tag集合中。

otag数组差ntag数组为：在otag数组存在，同时不在ntag数组存在的tag，为｛a，b｝。

如上所述，ntag数组={人物；人士；人氏；人选}，otag数组=（人物人士人才），则ntag数组差otag数组，得到的差集为（人氏、人选）；otag数组差ntag数组，得到的差集为（人才）。

具体流程如下：

遍历otag数组，获取otag数组中的各tag，在ntag数组中依序进行查找；

如果ntag数组中不存在该tag，该tag属于otag数组差ntag数组的差集；

将该tag写入export_tag集合中。

A32，根据import_tag中的tag，对tag计数器中相应tag对应的计数值执行加1操作，即进行+1操作；

根据export_tag中的tag，对tag计数器中相应的tag对应的计数值执行减1操作，即进行-1操作；

对import_tag中的数据，增加索引倒排数据内容，对export_tag中的数据，删除对应的索引倒排数据内容。

本步骤中，根据import_tag、export_tag，更新维护倒排数据索引。如果ntag数组为空且otag数组不为空的情况下，删除blogid对应的博文。具体来说，

Zset（‘人氏‘）.add（10000000000，1325376000）；

Zset（‘人选’）.add（10000000000，1325376000）；

在Tag计数器中，TagCount（‘人氏’）计数值加1；

Tag计数器（‘人选’）计数值加1。

遍历export_tag，删除倒排数据索引，具体来说，

Zset（‘人才’）.del（10000000000）

Tag计数器中，TagCount（‘人才’）的计数值减1。

实际应用中，如果export_tag为空，则跳过遍历export_tag的步骤；

如果import_tag为空，说明新的文档没有标签或已被删除，不需要被索引。因此删除“博文内容索引”的对应记录，节省存储空间。

这样，通过以上操作，可以维护倒排数据索引内容的数据一致性。

A12，结合文档库中文档总数以及基于文档标签的计数值，分别得到文档列表中各文档对应的特征值。

本步骤中，以特征值为IDF值为例，计算IDF值的公式为：

IDF = \log \frac{D}{D_{w}}

式中，

IDF为逆文档词频权重，即特征值；

D_w为文档库中含有同义词组w的文档总数；

D为文档库中的文档总数。

本发明实施例中，D是相对固定的值，为文档库中所有文档的总数，D_w为含有同义词组w的文档总数，每一同义词组对应一个D_w值，D与D_w均可存储在标签计数器中。也就是说，标签计数器存储总文档数以及各标签下相应的文档总数，在计算IDF值时，从而可以实时从标签计数器中获取D与D_w，按照IDF值的计算公式进行实时计算，得到每个标签（同义词组）的IDF值，构建空间权重向量。

例如，对于组合的同义词组[tag1；tag6；tag3]，是基于文档标签的同义词组，各子标签tag1、tag6以及tag3分别具有一特征值，通过3个特征值构建三维空间权重向量。

步骤104，根据构建的基于文档标签的空间权重向量，计算文档标签对应的文档与文档列表中每一篇文档的相似度，并选取预定数目的相似度最高的文档作为查询结果输出。

本步骤中，利用夹角余弦定理公式对构建的空间权重向量进行相似度计算，得到文档标签对应的文档与文档列表中每一篇文档的相似度，即相似分，选取相似分最高的前N篇文档，作为查询结果输出。

图2为本发明实施例基于标签推荐文档的方法具体流程示意图。参见图2，该流程包括：

步骤201，接收用户输入的文档A标签，查询标签计数器，计算得到该文档A标签对应的空间权重向量；

本步骤中，假设文档A包含多个标签，为[民谣、相册、我们、轻博客]，特征值以逆文档词频为例，查询标签计数器，分别获取民谣、相册、我们、轻博客的计数值，并根据IDF计算公式，分别进行计算，得到民谣、相册、我们、轻博客的特征值，并以特征值组成空间权重向量，例如，[3，4，2，3]。

图3为本发明实施例文档A生成的空间权重向量示意图。参见图3，文档A的标签民谣对应的空间权重向量值为3，标签相册对应的空间权重向量值为4，标签我们对应的空间权重向量值2，标签轻博客对应的空间权重向量值为3。

步骤202，根据文档A标签，查询预先设置的同义词词林，获取文档A标签对应的同义词组；

本步骤中，分别对文档A标签[民谣、相册、我们、轻博客]中的各标签进行同义词转换，得到同义词组，用以扩展基于文档A标签的查询。其中，同义词组中包含文档A标签。

步骤203，根据获取的同义词组，查询倒排索引集合以及正排索引集合，包含同义词组的博文列表；

本步骤中，根据同义词组，分别查询倒排索引集合以及正排索引集合，获取包含同义词组的博文列表。其中，博文列表中的每一篇博文，包含有与文档A标签[民谣、相册、我们、轻博客]中的每一标签相同或同义的标签，例如，博文中至少需要包含：民谣或与民谣同义的词、相册或与相册同义的词、我们或与我们同义的词和轻博客或与轻博客同义的词。

本发明实施例中，假设经过索引得到的博文列表中，包含有博文B1、B2、B3、B4、…、Bn。

步骤204，根据IDF公式，计算博文列表中各博文的空间权重向量；

本步骤中，经过IDF公式计算，假设得到的各博文的空间权重向量分别是：

B1的空间权重向量：[3，4，1，3]；

B2的空间权重向量：[3，4，5，2]；

B3的空间权重向量：[0，0，1，3]；

B4的空间权重向量：[4，0，3，2]；

…；

Bn的空间权重向量：[0，0，0，3]。

步骤205，根据夹角余弦定理公式，分别计算博文列表中各博文对应的空间权重向量与文档A标签对应的空间权重向量的空间夹角余弦值；

本步骤中，分别计算B1、B2、B3、B4、…、Bn与A的空间夹角余弦值，即相似性得分Score（A，B1）、Score（A，B2）、Score（A，B3）、Score（A，B4）、…、Score（A，Bn），简记为S（A，Bi）：

S_{(A, B 1)} = \cos θ_{1} = \frac{A \cdot B_{1}}{| A | \cdot | B_{1} |} = \frac{3 x 3 + 4 x 4 + 2 x 1 + 3 x 3}{\sqrt{3^{2} + 4^{2} + 2^{2} + 3^{2}} x \sqrt{3^{2} + 4^{2} + 1^{2} + 3^{2}}} = \frac{36}{36.469} = 0.987;

S_{(A, B 2)} = \cos θ_{2} = \frac{A \cdot B_{2}}{| A | \cdot | B_{2} |} = \frac{3 x 3 + 4 x 4 + 2 x 5 + 3 x 2}{\sqrt{3^{2} + 4^{2} + 2^{2} + 3^{2}} x \sqrt{3^{2} + 4^{2} + 5^{2} + 2^{2}}} = \frac{41}{45.299} = 0.905;

S_{(A, B 3)} = \cos θ_{3} = \frac{A \cdot B_{3}}{| A | \cdot | B_{3} |} = \frac{3 x 0 + 4 x 0 + 2 x 1 + 3 x 3}{\sqrt{3^{2} + 4^{2} + 2^{2} + 3^{2}} x \sqrt{0^{2} + 0^{2} + 1^{2} + 3^{2}}} = \frac{11}{19.494} = 0.564;

S_{(A, B 4)} = \cos θ_{4} = \frac{A \cdot B_{4}}{| A | \cdot | B_{4} |} = \frac{3 x 3 + 4 x 0 + 2 x 3 + 3 x 2}{\sqrt{3^{2} + 4^{2} + 2^{2} + 3^{2}} x \sqrt{4^{2} + 0^{2} + 3^{2} + 2^{2}}} = \frac{24}{33.196} = 0.723;

…；

S_{(A, Bn)} = \cos θ_{n} = \frac{A \cdot B_{n}}{| A | \cdot | B_{n} |} = \frac{3 x 0 + 4 x 0 + 2 x 0 + 3 x 3}{\sqrt{3^{2} + 4^{2} + 2^{2} + 3^{2}} x \sqrt{0^{2} + 0^{2} + 0^{2} + 3^{2}}} = \frac{9}{18.493} = 0.487;

图4为本发明实施例博文列表中各文档基于文档A标签生成的空间权重向量示意图。参见图4，博文列表中包含的文档标识分别为B1、B2、B3、B4、Bn，文档B1的标签民谣对应的空间权重向量值为3，标签相册对应的空间权重向量值为4，标签我们对应的空间权重向量值1，标签轻博客对应的空间权重向量值为3，文档B2、B3、B4、Bn的标签对应的空间权重向量值如图所示，在此不再赘述。

步骤206，对计算得到的空间夹角余弦值进行排序；

本步骤中，如果计算得到的空间夹角余弦值越大，表明该博文与文档A的相似度越高，两个博文越相似。因此，对Score（A，B1）、Score（A，B2）、Score（A，B3）、Score（A，B4）、…Score、（A，Bn）进行正序排序，得到：

S_（A，B1）＞S_（A，B2）＞S_（A，B4）＞S_（A，B3）＞S_（A，Bn）。

步骤207，选取排序前N位的空间夹角余弦值对应的的博文作为推荐结果。

本步骤中，如果N设置为2，则将博文B1和B2作为推荐结果，返回给用户进行后续操作。

由上述可见，本发明实施例的基于标签推荐文档的方法，通过接收用户选取的文档标签，查询预先设置的同义词词林，获取与文档标签相对应的同义词组；根据获取的同义词组，从预先存储的文档库中，查询并获取包含所述同义词组的文档列表；计算包含所述同义词组的文档列表中每一文档的特征值，构建基于文档标签的空间权重向量；根据构建的基于文档标签的空间权重向量，计算文档标签对应的文档与文档列表中每一篇文档的相似度，并选取预定数目的相似度最高的文档作为查询结果输出。这样，通过将文档标签进行同义扩展，得到同义词组，使用了同义词语分析，更加符合用户意愿；再以扩展的同义词组查询文档库，文档库使用Redis作为倒排索引资源，并使用增量式索引队列维护设计，可以使前端实时维护发生变化的数据，相当于使用了内存式缓存，使前端计算查询速度非常快；计算各文档中同义词组的特征值，生成基于文档标签的空间权重向量，与文档标签的特征值形成的空间权重向量进行相似度计算，根据相似度输出推荐结果，从而扩展了查询结果的信息量，提升文档推荐效率，满足了用户对同义词的查询需求。

图5为本发明实施例基于标签推荐文档的文档推荐装置结构示意图。参见图5，该装置包括：同义词组获取模块、文档获取模块、空间权重向量构建模块以及文档推荐模块，其中，

本发明实施例中，文档包括文档标识、文档标签、文档更新时间以及文档数据内容。其中，一个文档具有唯一文档标识，一个文档标签可以包含一个或多个子标签。

本发明实施例中，基于文档标签，对获取的同义词组进行组合，得到组合的同义词组；根据组合的同义词组，查询倒排索引集合，获取所述组合的同义词组对应的正排索引集合标识；根据获取的正排索引集合标识，查询正排索引集合，获取正排索引集合标识映射的文档，形成文档列表。

本发明实施例中，特征值包括：词频、逆文档词频以及词频－逆文档词频，较佳地，采用词频－逆文档词频表示特征值。

本发明实施例中，利用夹角余弦定理公式对构建的空间权重向量进行相似度计算，得到文档标签对应的文档与文档列表中每一篇文档的相似度，即相似分，选取相似分最高的前N篇文档，作为查询结果输出。

其中，

同义词组获取模块包括：解析单元、查询单元以及同义词组获取单元（图中未示出），其中，

文档获取模块包括：组合单元、倒排索引集合单元、正排索引集合单元以及文档获取单元（图中未示出），其中，

文档获取单元，用于存储接收的文档，形成文档列表。

空间权重向量构建模块包括：标签计数器、查询单元、特征值计算单元以及空间权重向量构建单元（图中未示出），其中，

标签计数器，用于存储文档标签的计数值；

较佳地，空间权重向量构建模块进一步包括：

较佳地，更新单元包括：接收子单元、查询子单元以及更新子单元，其中，

显然，本领域技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若对本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也包含这些改动和变型在内。

Claims

1.一种基于标签推荐文档的方法，包括：

2.根据权利要求1所述的方法，其中，所述文档包括文档标识、文档标签、文档更新时间以及文档内容。

3.根据权利要求2所述的方法，其中，所述查询预先设置的同义词词林，获取与文档标签相对应的同义词组包括：

4.根据权利要求3所述的方法，其中，所述从预先存储的文档库中，查询并获取包含所述同义词组的文档列表包括：

5.根据权利要求4所述的方法，其中，所述计算包含所述同义词组的文档列表中每一文档的特征值包括：

6.根据权利要求5所述的方法，其中，在所述查询预先存储的标签计数器的步骤之前，所述方法进一步包括：

查询文档库中，获取所述博文标识对应的博文标签数组；

7.根据权利要求6所述的方法，其中，所述根据获取的博文标签以及博文标签数组，更新博文标签数组中的计数值包括：

8.根据权利要求1至7任一项所述的方法，其中，计算所述相似度采用夹角余弦定理公式。

9.一种基于标签推荐文档的文档推荐装置，其特征在于，该装置包括：同义词组获取模块、文档获取模块、空间权重向量构建模块以及文档推荐模块，其中，

10.根据权利要求9所述的装置，其特征在于，所述同义词组获取模块包括：解析单元、查询单元以及同义词组获取单元，其中，

11.根据权利要求9所述的装置，其特征在于，所述文档获取模块包括：组合单元、倒排索引集合单元、正排索引集合单元以及文档获取单元，其中，

文档获取单元，用于存储接收的文档，形成文档列表。

12.根据权利要求9至11任一项所述的装置，其特征在于，所述空间权重向量构建模块包括：标签计数器、查询单元、特征值计算单元以及空间权重向量构建单元，其中，

标签计数器，用于存储文档标签的计数值；

13.根据权利要求12所述的装置，其特征在于，所述空间权重向量构建模块进一步包括：

14.根据权利要求13所述的装置，其特征在于，所述更新单元包括：接收子单元、查询子单元以及更新子单元，其中，