CN104239512A

CN104239512A - 一种文本推荐方法

Info

Publication number: CN104239512A
Application number: CN201410469707.7A
Authority: CN
Inventors: 于富财; 伍盛; 李林; 胡光岷
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2014-09-16
Filing date: 2014-09-16
Publication date: 2014-12-24
Anticipated expiration: 2034-09-16
Also published as: CN104239512B

Abstract

本发明公开了一种文本推荐方法，包括建立用户模型，预处理文本文档，提取特征向量，计算特征向量间同义词的最优匹配，根据特征向量与用户模型间的相似度，确定推荐文本，本发明的方法在传统余弦夹角算法基础上加入同义词间语义相似度的匹配因子，考虑文本同义词对相似度的影响，更精确的计算文本间、文本与用户模型间的相似程度，经实验验证，本发明的一种文本推荐方法较余弦夹角算法在准确率上平均有20％的提升，具有较好的实用价值。

Description

一种文本推荐方法

技术领域

本发明属于文本分类领域，具体涉及一种文本推荐方法。

背景技术

随着信息时代的来临，为了从海量的文本中查找需要的信息，需要进行大量的阅读。传统的做法是对文本进行人工分类，并加以组织和整理，为人们提供一种相对有效的信息获取手段。但是，这种传统的文本分类的做法存在着许多弊端：一是耗费大量的人力，物力和精力；二是文本的分类方法不能满足所有用户的需求。这就要求我们探索文本个性化服务的有效方法，提高文本阅读效率。在此背景下，根据用户兴趣模型进一步筛选文档的算法——文本推荐算法应运而生。

一般的文本推荐首先要进行文本预处理，然后根据用户已读文档构建用户模型，最后按照一定的算法计算待推荐文档与用户兴趣模型之间的相关性，将相关性大于阀值的文档推荐给用户。

在实现上，目前文本推荐的主流做法是依照用户历史习惯建立用户模型，然后通过推荐算法计算用户模型与文本库中待推荐文档间的相符程度，将相符程度高于一定阀值的文档列表作为结果反馈给用户，完成推荐过程。目前常见的文本推荐算法如余弦夹角算法、Jaccard系数算法均仅考虑了特征词的严格匹配。但由于自然语言的灵活性，不同文档对同一事物的描述可能会使用意义相同的同义词，若在文本推荐过程中只考虑词形匹配，不考虑同义词匹配，必然会出现推荐结果覆盖率不全、准确率不高的问题。

发明内容

针对传统的文本推荐算法仅考虑了特征词的严格匹配，而未考虑其在语义上的相似性的缺点，本发明提出了一种文本推荐方法。

本发明的技术方案为：一种文本推荐方法，具体包括以下步骤：

S1：预处理待推荐文档，提取文本信息中能代表文本信息的特征词及对应权重；

S2：根据提取出的特征词构成特征向量；

S3：根据用户历史阅读文档，采用均权技术建立用户模型；

S4：根据同义词词典计算特征向量间的中英文同义词对；

S5：根据Kuhn-Munkres算法计算特征向量间同义词的最优匹配，得到余弦夹角；

根据Kuhn-Munkres算法得到的特征向量间同义词的最优匹配为，

OptimalMatch (X, Y) = \max Σ_{i = 0, j = 0}^{n, m} {wx}_{i} \cdot {wy}_{j} \cdot Similarity (x_{i}, y_{j}),

其中，X、Y分别表示两个向量中相互间存在同义词关系的特征词向量，wx_i表示用户向量模型中特征词x_i所对应的权重，wy_j表示用户向量模型中特征词y_j所对应的权重，Similarity(x_i，y_j)表示X向量中第i个特征词与Y向量中第j个特征词间的同义词相似度，n表示X向量中的特征词个数，m表示Y向量中的特征词个数；

根据特征向量间同义词的最优匹配得到余弦夹角：

\begin{matrix} Similarity (A, B) = \frac{A \cdot B}{| A | \cdot | B |} \\ = \frac{\underset{i, j &Element; (0, \max (m, n))}{Σ} {wa}_{i} \cdot {wb}_{j} + OptimalMatch (X, Y)}{\sqrt{Σ_{i = 1}^{m} {wa}_{i}^{2} + OptimalMatch (X, Y)} \cdot \sqrt{Σ_{j = 1}^{n} {wb}_{j}^{2} + OptimalMatch (X, Y)}} \end{matrix}

其中，为余弦夹角公式，A、B分别代表用户模型向量和文档特征向量；

S6：根据步骤S5得到的余弦夹角计算待推荐文档与用户模型向量之间的相似程度；

S7：选取相似程度大于阀值的文档作为结果推荐给用户。

本发明的有益效果：本发明的一种文本推荐方法，在现有的余弦夹角算法基础上考虑同义词对文本推荐的积极作用，提高推荐结果的覆盖率和准确率，具体为，在传统余弦算法基础上加入同义词间语义相似度的匹配因子，考虑文本同义词对相似度的影响，更精确的计算文本间、文本与用户模型间的相似程度，经实验验证，本发明的一种文本推荐方法较传统余弦夹角算法在准确率上平均有20％的提升，具有较好的实用价值。

附图说明

图1是现有技术文本文档预处理的流程图。

图2是本发明的文本推荐方法流程图。

图3是存在多对多同义词关系的两向量示意图。

具体实施方式

下面结合具体的实施例对本发明的内容作进一步的说明。

现有技术的处理流程如图1所示，在文本推荐中，非结构化的文本信息无法被直接用于推荐算法，需通过文本预处理提取文本信息中最能代表文本信息的特征词及对应权重。预处理文本信息包括建立向量空间模型、特征词提取以及停用词剔除。

Salton等人提出的向量空间模型，是一种简单高效的文档表示模型。该模型思想是对于任何一个文档集，以其不同的特征词为基础，构成文档特征词向量空间，用空间中的特征向量表征文档。向量空间模型通常有两种，分别是布尔型向量空间模型和数值型向量空间模型。本发明使用数值型向量空间并使用NLPIR库基于交叉熵提取文档特征向量。例如一个含有两篇文档A,B的文档集，经特征提取后的特征向量如表1所示：

表1 文档特征向量

其中，word为文档的特征词，weight为特征词对应权重。该文档集构成(中国,军事,人文,经济,科技,文化,贸易)7维向量空间，A，B文档向量在此向量空间中分别表示为{(中国,1.1),(军事,1.3),(人文,1.6),(经济,1.7),(科技,0.9),(文化,0),(贸易,0)}、{(中国,0.8),(军事,0),(人文,0),(经济,1.1),(科技,0),(文化,0.9),(贸易,1.3)}。

停用词是指那些对表征文本特征没有实际意义或者对文档的分类以及信息的检索帮助不大，甚至会影响分类和检索精确度的词，如一些虚词(如：啊、很、是、哟、哦、什么等等)。在处理自然语言文本时要过滤掉这些词。

用户兴趣模型由用户历史信息建立，表征该用户对文档的兴趣方向。如何建立用户模型也是个性化推荐中的一个研究方向。文献从不同角度探讨了构建兴趣模型的一些方法。本发明使用均权建模过程。例如取表格1所示的文档特征向量建立用户兴趣模型：

mode l (A, B) = \frac{(1.1 + 0.8,1.3,1.6,1.7 + 1.1,0.9,0.9,1.3)}{2} = (0.95,0.65,0.8,1.4,0.45,0.45,0.65)

其中，Model(A,B)表示由文档A和B在向量空间模型下建立的兴趣模型：{(中国,0.95),(军事,0.65),(人文,0.8),(经济,1.4),(科技,0.45),(文化,0.45),(贸易,0.65)}。

同义词的使用中会遇到同义词相似度这一概念，即用来反映同义词之间的语义相似程度，它是目标文本特征词和用户兴趣模型特征词在语义上的匹配程度的一种量化。同义词词典应用比较广泛的有《同义词词林》、WordNet等。本方案算法实验中分别使用《同义词词林》和WordNet计算中、英文同义词之间的相似度。

本发明基于余弦夹角算法、结合同义词最优匹配的得到改进型文本推荐算法，该算法在余弦夹角算法基础上加入衡量文本间同义词最优匹配程度的因子，将文本间同义词关系纳入文本相似度计算的考虑范围，能更全面的反应文本间的相似程度。具体的，基于向量空间模型，利用NLPIR库提取文本特征向量，结合停用词表去除噪音特征，运用均权技术建立用户模型，最后给出推荐结果。

所述余弦夹角算法是典型的在数值型向量空间模型中计算相似度的算法，该算法用余弦夹角公式计算文档特征向量与用户模型向量之间的相似度，具体计算公式为：

Similarity (A, B) = \frac{A \cdot B}{| A | \cdot | B |} - - - (1)

其中，A、B分别代表用户模型向量和文档特征向量，两个向量分别表示如下：

A＝{(a₁,wa₁),(a₂,wa₂),(a₃,wa₃),。。。。。。(a_m,wa_m)}； (2)

B＝{(b₁,wb₁),(b₂,wb₂),(b₃,wb₃),。。。。。。(b_n,wb_n)}； (3)

其中，wa_m表示用户模型向量中特征词a_m所对应权重；wb_n表示用户模型向量中特征词b_n所对应权重。

结合公式(1)、(2)和(3)，化简得到公式(4)：

Similarity (A, B) = \frac{A \cdot B}{| A | \cdot | B |} = \frac{\underset{i, j &Element; (0, \max (m, n))}{Σ} {wa}_{i} \cdot {wb}_{j}}{\sqrt{Σ_{i = 1}^{m} {wa}_{i}^{2}} \cdot \sqrt{Σ_{j = 1}^{n} {wb}_{j}^{2}}} - - - (4)

其中，wa_i与wb_j相乘的条件为特征词a_i＝b_j。

余弦夹角算法用公式(4)计算用户模型与文档特征向量之间的相似度，最后把相似度大于给定阀值的文档推荐给用户。

所述的余弦夹角算法结构简单，算法复杂度低，且能够保证一定的算法性能，是目前应用很广的一种文档推荐算法。但本发明人发现其依然存在一些缺陷，如只考虑了向量中的特征词在字面上是否相同，而没有考虑不同词语间词义上的相关性。由于词义相关现象在自然语言中非常普遍，忽略词义相关性势必会影响推荐结果的精度和广度。

本发明针对传统文本推荐算法不考虑词义相关性的缺陷，在余弦夹角的基础上，提出一种文本推荐方法。本发明的方法不仅考虑特征词字面上的匹配，还考虑同义词间语义相似度的匹配，其具体实现是在公式(4)的基础上，加入衡量同义词语义相似性的部分：

\begin{matrix} Similarity (A, B) = \frac{A \cdot B}{| A | \cdot | B |} \\ = \frac{\underset{i, j &Element; (0, \max (m, n))}{Σ} {wa}_{i} \cdot {wb}_{j} + \underset{x, y (0, \max (m, n))}{Σ} {wa}_{x} \cdot {wb}_{y} \cdot sim (a_{x}, b_{y})}{\sqrt{Σ_{i = 1}^{m} {wa}_{i}^{2} + Σ^{sim} (a_{x}, b_{y}) \cdot {wa}_{x}^{2}} \cdot \sqrt{Σ_{j = 1}^{n} {wb}_{j}^{2} + Σ^{sim} (a_{x}, b_{y}) \cdot {wb}_{y}^{2}}} \end{matrix} - - - (5)

其中，Sim(a_x,b_y)表示的是向量A中特征词a_x和向量B中特征词b_y的同义词相似度。

以表格1所示的文档特征向量A、B为例，对比得知向量中有两个分量相同，即中国和经济，同时，人文和文化之间还有同义词关系，假设它们之间的相似度为0.8，则根据公式(5)的定义，向量A、B的相似度为：

Similarity (A, B) = \frac{(1.1 \times 0.8 + 1.7 \times 1.1) + (1.6 \times 0.9 \times 0.8)}{\sqrt{({1.1}^{2} + {1.3}^{2} + {1.6}^{2} + {1.7}^{2} + {0.9}^{2}) + ({1.6}^{2} \times 0.8)} + \sqrt{({0.8}^{2} + {0.9}^{2} + {1.3}^{2} + {1.1}^{2}) + ({0.9}^{2} \times 0.8)}}

计算得到，Similarity(A,B)＝0.69，即向量A、B表示的两篇文本的相似度为0.69，然而，采用余弦夹角的特征词字面匹配算法，由公式(8)得到的相似度为0.54，明显低于本发明的方法得出的相似度。

本发明的方法在计算两篇文本相似度过程中考虑了更多影响相似度的因素，所以相似度结果更高。这种相似度大小的变化，恰恰可以区分目标文本与用户兴趣模型联系的密切程度，更有利于向用户推荐真正与用户兴趣模型相似的文本，从而使最后的推荐结果更加准确。

下面给出本发明的进一步改进实施例。

上述例子说明同义词匹配对文本推荐确实有积极地作用，但该例子只考虑了一种最简单的情况，即两个向量中只有一对同义词，但实际的推荐过程中，向量间同义关系一般比较复杂，如图3所示。

其中，A、B为两个特征向量，椭圆表示特征词与权重，点之间的直线表示特征词之间的同义词关系。

A中一个特征词百姓与B中的特征词群众、人有同义词关系，同时A中另一个词工作人员也与B中的特征词人、医生有同义词关系，若以相似度大小来判断，人应该与百姓构成同义词关系(相似度0.7),则剩下的工作人员只能与医生构成同义词关系(相似度0.1),这两对同义词关系的相似度的和为0.7+0.1＝0.8。若百姓和群众构成同义词关系(相似度0.8),工作人员和人构成同义词关系(相似度0.3)，那么这两对同义词关系的相似度的和为0.8+0.3＝1.1，大于前一种同义词组合方式。

本发明采用Kuhn-Munkres算法求解同义词间语义相似度的匹配问题，最优匹配的解的形式为存在同义词关系的特征词组相似度的和，具体公式如下：

OptimalMatch (X, Y) = \max Σ_{i = 0, j = 0}^{n, m} Similarity (x_{i}, y_{j}) - - - (6)

其中，X、Y分别表示A、B向量中相互间存在同义词关系的特征词的向量，similarity(x_i，y_j)表示X向量中第i个特征词与Y向量中第j个特征词间的同义词相似度，n表示X向量中的特征词个数，m表示Y向量中的特征词个数。

考虑到文本的向量表示中各个词都有自身的权重值，最优匹配解的形式调整为：

OptimalMatch (X, Y) = \max Σ_{i = 0, j = 0}^{n, m} {wx}_{i} \cdot {wy}_{j} \cdot Similarity (x_{i}, y_{j}) - - - (7)

本发明的文本推荐方法可进一步化简为：

\begin{matrix} Similarity (A, B) = \frac{A \cdot B}{| A | \cdot | B |} \\ = \frac{\underset{i, j &Element; (0, \max (m, n))}{Σ} {wa}_{i} \cdot {wb}_{j} + OptimalMatch (X, Y)}{\sqrt{Σ_{i = 1}^{m} {wa}_{i}^{2} + OptimalMatch (X, Y)} \cdot \sqrt{Σ_{j = 1}^{n} {wb}_{j}^{2} + OptimalMatch (X, Y)}} \end{matrix} - - - (8)

该公式综合考虑了用户模型向量和待推荐文档特征向量间基于字面匹配和同义词二分图最优匹配结果，弥补了传统推荐算法仅考虑字面匹配的缺陷。

该系统基于向量空间模型，利用NLPIR库提取文本特征向量，结合停用词表去除噪音特征，运用均权技术建立用户模型，根据最优匹配理论获得文档间的同义词对，最后利用公式(8)计算文档与用户模型间的相符程度。

本发明的文本推荐方法如图2所示。

经实验验证，本发明的一种文本推荐方法较余弦夹角算法在准确率上平均有20％的提升，具有较好的实用价值。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种文本推荐方法，其特征在于，具体包括以下步骤：

S2：根据提取出的特征词构成特征向量；

S3：根据用户历史阅读文档，采用均权技术建立用户模型；

S4：根据同义词词典计算特征向量间的中英文同义词对；

S5：根据Kuhn‐Munkres算法计算特征向量间同义词的最优匹配，得到余弦夹角；

根据Kuhn‐Munkres算法得到的特征向量间同义词的最优匹配为，

OptimalMatch (X, Y) = \max Σ_{i = 0, j = 0}^{n, m} {wx}_{i} \cdot {wy}_{j} \cdot Similarity (x_{i}, y_{j}),

根据特征向量间同义词的最优匹配得到余弦夹角：

\begin{matrix} Similarity (A, B) = \frac{A \cdot B}{| A | \cdot | B |} \\ = \frac{\underset{i, j &Element; (0, \max (m, n))}{Σ} {wa}_{i} \cdot {wb}_{j} + OptimalMatch (X, Y)}{\sqrt{Σ_{i = 1}^{m} {wa}_{i}^{2} + OptimalMatch (X, Y)} \cdot \sqrt{Σ_{j = 1}^{n} {wb}_{j}^{2} + OptimalMatch (X, Y)}} \end{matrix}

S6：根据步骤S5得到的余弦夹角，计算待推荐文档与用户模型向量之间的相似程度；

S7：选取相似程度大于预先设定阀值的文档作为结果推荐给用户。

2.根据权利要求1一种文本推荐方法，其特征在于，所述步骤S2预处理待推荐文档还包括剔除停用词。

3.根据权利要求1一种文本推荐方法，其特征在于，所述步骤S3根据提取出的特征词构成特征向量具体为，采用数值型向量空间并结合NLPIR库基于交叉熵的方式将特征词构成特征向量。