CN1162789C

CN1162789C - 通过主题词矫正基于向量空间模型文本相似度计算的方法

Info

Publication number: CN1162789C
Application number: CNB011314036A
Authority: CN
Inventors: 航肖; 肖航; 高建忠; 王江; 诸光; 王楠
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2001-09-06
Filing date: 2001-09-06
Publication date: 2004-08-18
Anticipated expiration: 2021-09-06
Also published as: CN1403957A

Abstract

一种通过主题词矫正基于向量空间模型文本相似度计算的方法，它包括：步骤1：提取文本的主题相关信息；步骤2：矫正基于向量空间模型文本相似度计算；该方法能够修正基于向量空间模型文本相似度计算的结果，用当前文本主题词和已定义类的主题词求交，以判断一个文本是否属于已定义的类别，通过反映对主题词相关程度重视的经验值和主题词求交的百分数，构建了更为有效、更为符合自然的文本类别归属结果。

Description

通过主题词矫正基于向量空间模型文本相似度计算的方法

技术领域：

本发明涉及一种基于向量空间模型计算文本相似度计算的方法，尤其是一种通过主题词矫正基于向量空间模型文本相似度计算的方法，属于计算机技术领域。

背景技术：

文本分类在计算机信息处理中占有非常重要的地位。一般而言，文本分类基本上以文本中所包含的主题词作为分类的主要依据，因此，从被分类文本中获取准确地主题词汇对于文本的准确分类就非常重要。

传统的向量空间模型在文本分类中已经得到比较多的应用；但是，针对文本信息过滤而言，向量空间模型的相似度计算结果精度有限，基本不能作为过滤的依据。

如果能够利用文本主题相关程度对基于向量空间模型文本相似度的计算结果进行矫正，就可以有效地提高基于向量空间模型的文本相似度计算的精度，使得向量空间模型的相似度计算的结果适用于文本信息过滤。

发明内容：

本发明的目的在于提供一种通过主题词矫正基于向量空间模型文本相似度计算的方法，依据文本中特殊的信息，对文本类别归属进行分析，并且设计主题词的提取方法，依据提取的主题词对基于向量空间模型文本相似度计算进行的矫正，依据使相似度计算的结果更加有效和自然。

本发明的目的是这样实现的：

一种通过主题词矫正基于向量空间模型文本相似度计算的方法，所述方法包括如下步骤：

步骤1：提取文本的主题相关信息；

步骤2：矫正基于向量空间模型文本相似度计算。

所述步骤2之前还包括：对依据步骤1所提取的主题相关信息进行矫正，再依据主题信息矫正后的结果矫正基于向量空间模型文本相似度计算。

所述步骤1提取主题相关信息依据词频或集合频度或词长信息内容进行。

所述的提取主题相关信息依据如下计算公式进行：

其中，①表示词频因子部分；②表示集合频率因子；③表示词长因子；w_ik表示词k在文本i中的权值；tf表示词k在文本i中的频率；MAXtf表示文本i中词频最大的词的频率；K₁表示对tf的重视程度，通常取值0.5；w_l为词k的词长；MAX_wl为文本中词长的最大值；K₂表示对w_l的重视程度，通常取值0.5；T_w为文本i中的总词数(仅指特征词)。

对所提取的主题相关信息进行矫正为通过主题信息的相交程度，判断内容的相似度。

矫正基于向量空间模型文本相似度计算为：相交度大于阈值时，强化特征向量相似度值；相交度小于阈值时，弱化特征向量相似度值。

主题相关信息矫正为：

R_{is} = A + \frac{T_{is} \cap C_{s}}{C_{s}}

其中，A是反映对主题词相关的重视程度经验值(0＜A＜1)，R_is是主题词相关系数；T_is是待分析文本i的主题词数；C_s是标准类的主题词数，“∩”是求交运算，即判断C_s包含T_is的数量。

矫正基于向量空间模型文本相似度计算即：＝sim(w_i，v_j)×R_is其中，sim(w_i，v_j)为向量空间模型文本相似度计算。

所述的主题相关信息为主题词或特征词。

使用本发明的方法能够修正基于向量空间模型文本相似度计算的方法，用当前文本主题词和已定义类的主题词求交，以判断一个文本是否属于已定义的类别，通过反映对主题词相关程度重视的经验值和主题词求交的百分数，构建了更为有效、更为符合自然的文本类别归属结果。

附图说明：

图1为本发明方法的流程图。

具体实施方式：

下面结合附图和具体实施方式对本发明做进一步的详细说明。

标准的基于向量空间模型文本相似度计算的方法为：

Sim (w_{i}, v_{j}) = Cosθ = \frac{Σ_{k = 1}^{n} w_{ik} \cdot v_{jk}}{\sqrt{Σ_{k = 1}^{n} w_{ik}^{2}} \cdot \sqrt{Σ_{k = 1}^{n} v_{jk}^{2}}}

公式中W_i，V_j分别为待分析文本向量和标准向量，w_ik，v_jk是向量的分量。由此可以看出，在相似度计算过程中，所有的词都被同等对待。

除了特征词之外，每一类文本中都存在一些特殊的词，它们对文本的类别归属具有特殊的价值，这些特定的词被称为特征词或主题词。在人类的智能分类过程中，会考虑到这些主题词的特殊贡献，对文本类别归属进行加权。

基于这种思想，为使相似度计算的结果更加有效和自然，设置一依据主题词的提取方法，并依据提取的主题词对上述标准方法进行的矫正。

在进行主题词相关矫正之前，首先要提取特定类别的主题词。其过程是：分析特定文本，提取文本特征向量时，综合考虑词频、集合频度、词长信息提取主题词。我们提出的具体方法如下：

在训练过程中，从标准文本中提取以上值最高的一批词作为标准主题词集，处理待分析文本时，也依据这个公式计算待分析文本的主题词集，以这两个集合作为主题词矫正的依据。

具体实例为：

判断一个特征词W是否属于文本i的主题词

某一文本i中总特征词数T_w＝100，词频最大MAXtf＝6，词长最大MAX_wl＝5，

文本中有特征词W，其长度w_l＝3，在文本中的频率tf为5，

取K₁＝K₂＝0.5，

用主题词提取公式计算特征词W在文本i中的权值，得

w_{ik} = (0.5 + \frac{0.5 \times 5}{6}) \times \frac{1}{\log_{2}^{\frac{100}{5}}} \times (0.5 + 0.5 \times \frac{3}{6}) \approx 0.159

重复上述步骤，计算文本i中所有100个特征词的权值，将所有特征词按权值大小排序，

若在文本i中提取10个主题词，则直接选取权值最大的前十个特征词作为文本主题词，若词W的权值w_ik满足条件，词W就是文本i的主题词。

在计算待分析文本的相似度时，基于主题词矫正思想，根据待分析文本与标准主题词集合的相交程度调节主题词矫正系数。

主题词矫正计算公式如下：

R_{is} = A + \frac{T_{is} \cap C_{s}}{C_{s}}

其中，A是经验值(0＜A＜1)，通常取值0.7，反映对主题词相关的重视程度。R_is是主题词相关系数，取值范围A-A+1；T_is是待分析文本i的主题词数；C_s是标准类的主题词数，“∩”是求交运算，即判断C_s包含T_is的数量，求交运算不受主题词的排列顺序影响。

主题词相关系数的目的在于通过主题词相交程度来判断内容的相似度。公式表明，只要达到1-A的主题词相交，即待分析文本主题词数与标准文本主题词数的比值

大于1-A，R_is大于1，就强化特征向量相似度值；反之，

R_is小于1，就弱化特征向量相似度值。

本发明的方法目的是通过主题词矫正基于向量空间模型文本相似度计算的方法，即为用主题词矫正修正基于向量空间模型文本相似度计算：

待分析文本i与标准文本的相关程度＝Sim(w_i，v_j)×R_is

其中R_is为主题词相关矫正系数。

具体实例为：

某一过滤类T有主题词集

Subj_T＝{S₁，S₂，S₃，S₄，S₅，S₆，S₇，S₈，S₉，S₁₀}

某一文本i经向量空间模型计算得到与过滤类T的相似度为Sim(t，i)，经主题词抽取得到主题词集

Subj_i＝{i₁，i₂，i₃，i₄，i₅，i₆，i₇，i₈，i₉，i₁₀}

对Subj_T和Subj_i求交，即判断s_i等于i_k的个数，

1)假设有Subj_T∩Subj_i＝7，取A＝0.7，则主题词矫正值

R_{is} = 0.7 + \frac{T_{is} \cap C_{s}}{C_{s}} = 0.7 + \frac{7}{10} = 1.4

用R_is对由VSM模型文本相似度进行矫正

待分析文本i与T类的相关程度＝Sim(i，T)×R_is＝1.4×Sim(i，T)

文本相似度被矫正提高，说明文本i与过滤类T的主题高度相关增强了文本内容相似程度。

2)假设有Subj_T∩Subj_i＝1，取A＝0.7，则主题词矫正值

R_{is} = 0.7 + \frac{T_{is} \cap C_{s}}{C_{s}} = 0.7 + \frac{1}{10} = 0.8

用R_is对由VSM模型文本相似度进行矫正

待分析文本i与T类的相关程度＝Sim(i，T)×R_is＝0.8×Sim(i，T)

文本相似度被矫正降低，说明文本i与过滤类T的主题偏离削弱了文本内容相似程度。

Claims

1、一种通过主题词矫正基于向量空间模型文本相似度计算的方法，其特征在于：所述方法包括如下步骤：

步骤1：提取文本的主题相关信息；

步骤2：对依据步骤1所提取的主题相关信息进行矫正，再依据主题信息矫正后的结果矫正基于向量空间模型文本相似度计算；

步骤3：矫正基于向量空间模型文本相似度计算。

2、如权利要求1所述的通过主题相关信息矫正基于向量空间模型文本相似度计算的方法，其特征在于：所述步骤1提取主题相关信息依据词频、集合频度、词长信息、词以及总词数，取加权后权重最高的为主题相关信息。

3、如权利要求2所述的基于向量空间模型文本相似度计算的方法，其特征在于：所述的提取主题相关信息依据如下计算公式进行：

其中，①表示词频因子部分；②表示集合频率因子；③表示词长因子；w_ik表示词k在文本i中的权值；tf表示词k在文本i中的频率；MAXtf表示文本i中词频最大的词的频率；K₁表示对tf的重视程度，通常取值0.5；w_l为词k的词长；MAXw_l为文本中词长的最大值；K₂表示对w_l的重视程度，通常取值0.5；T_w为文本i中特征词的总词数。

4、如权利要求1所述的通过主题相关信息矫正基于向量空间模型文本相似度计算的方法，其特征在于：对所提取的主题相关信息进行矫正为通过主题信息的相交程度，判断内容的相似度。

5、如权利要求1或4所述的通过主题相关信息矫正基于向量空间模型文本相似度计算的方法，其特征在于：矫正基于向量空间模型文本相似度计算为：相交度大于阈值时，强化特征向量相似度值；相交度小于阈值时，弱化特征向量相似度值。

6、如权利要求1所述的通过主题相关信息矫正基于向量空间模型文本相似度计算的方法，其特征在于：主题相关信息矫正为：

R_{is} = A + \frac{T_{is} \cap C_{s}}{C_{s}}

其中，A是反映对主题词相关的重视程度经验值，其中的A的取值范围为0＜A＜1，R_is是主题词相关系数；T_is是待分析文本i的主题词数；C_s是标准类的主题词数，“∩”是求交运算，即判断C_s包含T_is的数量。

7、如权利要求6所述的通过主题相关信息矫正基于向量空间模型文本相似度计算的方法，其特征在于：矫正基于向量空间模型文本相似度计算即：＝Sim(w_i，v_j)×R_is

其中，Sim(w_i，v_j)为向量空间模型文本相似度计算。

8、如权利要求1、2、3、4、6或7所述的通过主题相关信息矫正基于向量空间模型文本相似度计算的方法，其特征在于：所述的主题相关信息为主题词或特征词。