CN114781348B

CN114781348B - 一种基于词袋模型的文本相似度计算方法及系统

Info

Publication number: CN114781348B
Application number: CN202210373623.8A
Authority: CN
Inventors: 吴超蓉; 戴礼灿; 宋丹
Original assignee: CETC 10 Research Institute
Current assignee: CETC 10 Research Institute
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2023-06-02
Anticipated expiration: 2042-04-11
Also published as: CN114781348A

Abstract

本发明涉及自然语言处理技术领域，公开了一种基于词袋模型的文本相似度计算方法及系统，该文本相似度计算方法，包括以下步骤：S1，获取文本信息；S2，提取文本特征；S3，生成文本特征向量；S4，计算文本相似度。本发明解决了现有技术存在的文字产品的文本相似度计算精度不够、个性化推荐精准度较低等问题。

Description

一种基于词袋模型的文本相似度计算方法及系统

技术领域

本发明涉及自然语言处理技术领域，具体是一种基于词袋模型的文本相似度计算方法及系统。

背景技术

随着大数据时代的发展，用户获取信息的数据来源越来越丰富，如何从海量数据中向用户提供更为精确的个性化服务，成为亟待解决的问题。为此，个性化推荐成为近年来越来越热门的研究领域。

智能推荐算法是个性化推荐系统的核心，推荐算法的优劣是影响个性化推荐系统性能优劣的重要因素。而在智能推荐服务领域，文字产品是服务产品的主要样式之一。以文字产品为推荐对象，如何为用户更为精确的推荐信息，是目前智能推荐服务领域研究的热点之一。

根据获取用户兴趣方式的不同，推荐算法主要包括基于内容的推荐、协同过滤推荐、基于知识的推荐、混合推荐等多种方法。其中应用最为广泛的基于内容推荐算法，核心思想是计算内容的相似度。目前，文本相似度计算思想，均是通过对文本进行数字向量转换，将文本相似度计算转换为向量相似度计算问题。因此，如何用数字向量准确表征文本特征，是提高文本相似度计算精度的关键因素之一。

发明内容

为克服现有技术的不足，本发明提供了一种基于词袋模型的文本相似度计算方法及系统，解决现有技术存在的文字产品的文本相似度计算精度不够、个性化推荐精准度较低等问题。

本发明解决上述问题所采用的技术方案是：

一种基于词袋模型的文本相似度计算方法，包括以下步骤：

S1，获取文本信息：获取文字产品的文本信息，所述文本信息包括用户在阅文本正文信息、待推荐文本正文信息；

S2，提取文本特征：采用TF-IDF关键词提取算法，对文本进行关键词提取，输出文本的【关键词,TF-IDF值】列表，用以表征文本特征，从而提取文本特征，所述文本特征包括用户在阅文本的文本特征、待推荐文本的文本特征；

S3，生成文本特征向量：生成词袋模型，采用词袋模型将文本特征进行数值化向量表示；

S4，计算文本相似度：计算在阅文本向量与待推荐文本向量之间的夹角，计算得到用户在阅文本与待推荐文本的相似度。

作为一种优选的技术方案，步骤S2包括以下步骤：

S21，利用文本预处理方法，提取出文本关键词；

S22，采用TF-IDF算法计算各关键词的TF-IDF值；

S23，将文本关键词按TF-IDF值从大到小排序，输出排名靠前的n个关键词及其TF-IDF值，输出的用户在阅文本的文本特征形式如下：

{[word₁₁，V_TF-IDF11],[word₁₂，V_TF-IDF12],...,,..[word_1n，V_TF-IDF1n]}；

输出的待推荐文本的文本特征形式如下：

{[word₂₁，V_TF-IDF21],[word₂₂，V_TF-IDF22],...,,..[word_2m，V_TF-IDF2m]}；

其中，word₁₁,word₁₂,...,word_1n分别表示用户在阅文本的前n个关键词，V_TF-IDF11,V_TF-IDF12,...,V_TF-IDF1n分别表示用户在阅文本的各关键词的TF-IDF值，n≥3且n为正整数，n的取值根据需要自行设定；word₂₁,word₂₂,...,word_2m分别表示待推荐文本的前m个关键词，V_TF-IDF21,V_TF-IDF22,...,V_TF-IDF2m分别表示待推荐文本的各关键词的TF-IDF值，m≥3且m为正整数，m的取值根据需要自行设定。

作为一种优选的技术方案，步骤S21中，文本预处理方法包括结巴分词和/或去除停用词。

作为一种优选的技术方案，步骤S3包括以下步骤：

S31，分别对用户在阅文本特征列表和待推荐文本特征列表进行关键词的权重归一化，输出用户在阅文本特征归一化列表和待推荐文本的特征归一化列表；

用户在阅文本特征列表的关键词权重归一化公式如下：

输出用户在阅文本特征归一化列表的形式如下：

{[word₁₁，w₁₁],[word₁₂，w₁₂],...,[word_1i，w_1i],..[word_1n，w_1n]}；

其中，i表示用户在阅文本关键词的编号，1≤i≤n；w_1i表示用户在阅文本第i个关键词的权重，w₁₁+w₁₂+...+w_1i+...+w_1n＝1；V_TF-IDF1i表示用户在阅文本第i个关键词的TF-IDF值；

待推荐文本特征列表的关键词权重归一化公式如下：

输出待推荐文本的特征归一化列表，形式如下：

{[word₂₁，w₂₁],[word₂₂，w₂₂],...,[word_2j，w_2j],..[word_2m，w_2m]}；

其中，j表示待推荐文本关键词的编号，1≤j≤m；w_2j表示待推荐文本第j个关键词的权重，w₂₁+w₂₂+...+w_2j+...+w_2m＝1；V_TF-IDF2j表示待推荐文本第j个关键词的TF-IDF值；

S32，对用户在阅文本的文本关键词和待推荐文本的文本关键词求并集，生成词袋模型；词袋模型形式如下：

U＝U(word₁₁，word₁₂，...，word_1n)∪U(word₂₁，word₂₂，...，word_2m)；

S33，以词袋模型中文本关键词为索引，将文本关键词对应的数值用词权重表示，生成用以表征文本特征的词袋向量，词袋向量形式如下：

word₁₁，word₁₂，...，word_1n，word₂₂，...，word_2m

[w₁₁，w₁₂，...，w_1n，0，...，0]

[w₂₁，0，...，0，w₂₂，...，w_2m]；

其中，

word₁₁，word₁₂，..·，word_1n，word₂₂，...，word_2m表示索引号；

[w₁₁，w₁₂，···，w_1n，0，···，0]表示用户在阅文本的特征向量；

[w₂₁，0，···，0，w₂₂，···，w_2m]表示待推荐文本的特征向量。

作为一种优选的技术方案，步骤S32中，未在文本中出现的词，则权重为0。

作为一种优选的技术方案，步骤S4中，采用余弦计算公式，计算在阅文本特征向量和待推荐文本特征向量之间夹角的余弦值，用以表征用户在阅文本和待推荐文本之间的相似度。

作为一种优选的技术方案，步骤S4中，余弦计算公式如下：

一种基于词袋模型的文本相似度计算系统，基于所述的一种基于词袋模型的文本相似度计算方法，包括依次电相连的文本信息获取模块、文本特征提取模块、文本特征向量生成模块、文本相似度计算模块；

其中，

文本信息获取模块：用以获取文字产品的文本信息，所述文本信息包括用户在阅文本正文信息、待推荐文本正文信息；

文本特征提取模块：用以采用TF-IDF关键词提取算法，对文本进行关键词提取，输出文本的【关键词,TF-IDF值】列表，用以表征文本特征，从而提取文本特征，所述文本特征包括用户在阅文本的文本特征、待推荐文本的文本特征；

文本特征向量生成模块：用以生成词袋模型，采用词袋模型将文本特征进行数值化向量表示；

文本相似度计算模块：用以计算在阅文本向量与待推荐文本向量之间的夹角，计算得到用户在阅文本与待推荐文本的相似度。

本发明相比于现有技术，具有以下有益效果：

本发明提出一种基于词袋模型的文本相似度计算方法及系统，计算文字产品相似度，利用本发明计算得出的文本相似度比其他方法具有更高的准确性，从而提高文字产品的个性化推荐精度。

附图说明

图1为本发明所述的一种基于词袋模型的文本相似度计算方法的步骤示意图；

图2为本发明所述的一种基于词袋模型的文本相似度计算系统的结构示意图。

具体实施方式

下面结合实施例及附图，对本发明作进一步的详细说明，但本发明的实施方式不限于此。

实施例1

如图1、图2所示，本发明提出一种基于词袋模型的文本相似度计算方法，计算文字产品相似度，从而提高文字产品的个性化推荐精度。

包括下列步骤：

步骤S1：获取文本信息。文本信息包括用户在阅文本信息和待推荐文本信息。

用户在阅文本信息主要指用户在阅文本的正文内容；待推荐文本信息主要指待推荐文本的正文内容。

步骤S2：提取文本特征。文本体征包括用户在阅文本特征和待推荐文本特征。

用户在阅文本特征提取：

首先利用结巴分词、及去除停用词等文本预处理方法，提取出文本关键词；其次采用TF-IDF算法计算各关键词的TF-IDF值；将文本关键词按TF-IDF值从大到小排序，输出排名靠前的n个关键词及其TF-IDF值，形如：

用以表征文本特征。其中，word₁₁,word₁₂,...,word_1n分别表示文本的前n个关键词，V_TF-IDF11,V_TF-IDF12,...,V_TF-IDF1n分别表示各关键词的TF-IDF值。n的取值可根据需要自行设定。

待推荐文本特征提取：

待推荐文本特征提取方法参看用户在阅文本特征提取方法。输出为待推荐文本的特征列表，形如：

其中：word₂₁,word₂₂,...,word_2m分别为待推荐文本的前m个关键词，V_TF-IDF21,V_TF-IDF22,...,V_TF-IDF2m分别表示各关键词的TF-IDF值。m的取值可根据需要自行设定。

步骤S3：生成文本特征向量。文本特征向量包括用户在阅文本特征向量，和待推荐文本特征向量。

首先，对用户在阅文本特征列表进行关键词的权重归一化处理。归一化公式如下：

其中：V_TF-IDF11,V_TF-IDF12,...,V_TF-IDF1n分别表示在阅文本前n个关键词的TF-IDF值；V_TF-IDF1i表示在阅文本第i个关键词的TF-IDF值。

输出用户在阅文本特征归一化列表，形如：

{[word₁₁，w₁₁],[word₁₂，w₁₂],...,,..[word_1n，w_1n]}；

其中，word₁₁,word₁₂,...,word_1n分别表示文本的前n个关键词，w₁₁,w₁₂,...,w_1n分别表示各关键词的权重，满足w₁₁+w₁₂+...+w_1n＝1。

其次，对待推荐文本特征列表进行关键词的权重归一化处理。归一化方法参看对用户在阅文本特征列表的归一化方法，待推荐文本特征列表的关键词权重归一化公式如下：

其中，w_2j表示待推荐文本第j个关键词的权重；V_TF-IDF21,V_TF-IDF22,...,V_TF-IDF2m分别表示待推荐文本前m个关键词的TF-IDF值；V_TF-IDF2j表示待推荐文本第j个关键词的TF-IDF值。

输出待推荐文本的特征归一化列表，形如：

{[word₂₁，w₂₁],[word₂₂，w₂₂],...,,..[word_2m，w_2m]}；

其中，word₂₁,word₂₂,...,word_2m分别为待推荐文本的前m个关键词，w₂₁,w₂₂,...,w_2m分别为各关键词的权重，满足w₂₁+w₂₂+...+w_2m＝1。

然后，计算分别用户在阅文本和待推荐文本的特征向量。步骤如下：

对用户在阅文本特征归一化列表和待推荐文本特征归一化列表中的关键词求并集，输出词袋模型，形如：

U＝U(word₁₁,word₁₂，...,word_1n)∪U(word₂₁,word₂₂，...,word_2m)；

其中，word₁₁,word₁₂,...,word_1n分别表示文本的前n个关键词，word₂₁,word₂₂,...,word_2m分别为待推荐文本的前m个关键词。

举例说明：当关键词word₁₁＝word₂₁时，输出词袋模型为：

U＝U(word₁₁,word₁₂，...,word_1n,word₂₂，...,word_2m)；

以词袋模型U中的文本关键词为索引，其对应的数值用词权重表示，未在文本中出现的词，则权重为0，分别生成用户在阅文本和待推荐文本的词袋向量，用以表征文本特征，称之为文本特征向量。

举例说明：当关键词word₁₁＝word₂₁时，输出用户在阅文本的词袋向量和待推荐文本的词袋向量如下所示：

word₁₁，word₁₂，...，word_1n，word₂₂，...，word_2m

[w₁₁，w₁₂，...，w_1n，0，...，0]

[w₂₁，0，...，0，w₂₂，...，w_2m]；

其中：

word₁₁，word₁₂，...，word_ln，word₂₂，..·，word_2m为索引号；

[w₁₁，w₁₂，...，w_1n，0，...，0]为用户在阅文本的特征向量；

[w₂₁，0，...，0，w₂₂，...，w_2m]为待推荐文本的特征向量。

步骤S4：计算文本相似度。

采用余弦计算公式，计算在阅文本特征向量和待推荐文本特征向量之间夹角的余弦值(取值范围为(0～1))，用以表征用户在阅文本和待推荐文本之间的相似度。相似度越高的两篇文本，其特征向量夹角的余弦值越接近于1。计算公式如下：

将提出的基于改进词袋模型的文本相似度计算方法，与其他方法进行对比验证，在收集的10万条文字产品数据集上，本发明的评测指标高于其他方法，利用本发明计算得出的文本相似度比其他方法具有更高的准确性。

如上所述，可较好地实现本发明。

本说明书中所有实施例公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，依据本发明的技术实质，在本发明的精神和原则之内，对以上实施例所作的任何简单的修改、等同替换与改进等，均仍属于本发明技术方案的保护范围之内。

Claims

1.一种基于词袋模型的文本相似度计算方法，其特征在于，包括以下步骤：

S2，提取文本特征：采用TF-IDF关键词提取算法，对文本进行关键词提取，输出文本的[关键词,TF-IDF值]列表，用以表征文本特征，从而提取文本特征，所述文本特征包括用户在阅文本的文本特征、待推荐文本的文本特征；

S4，计算文本相似度：计算在阅文本向量与待推荐文本向量之间的夹角，计算得到用户在阅文本与待推荐文本的相似度；

步骤S2包括以下步骤：

S21，利用文本预处理方法，提取出文本关键词；

S22，采用TF-IDF算法计算各关键词的TF-IDF值；

输出的待推荐文本的文本特征形式如下：

其中，word₁₁,word₁₂,...,word_1n分别表示用户在阅文本的前n个关键词，V_TF-IDF11,V_TF-IDF12,...,V_TF-IDF1n分别表示用户在阅文本的各关键词的TF-IDF值，n≥3且n为正整数，n的取值根据需要自行设定；word₂₁,word₂₂,...,word_2m分别表示待推荐文本的前m个关键词，V_TF-IDF21,V_TF-IDF22,...,V_TF-IDF2m分别表示待推荐文本的各关键词的TF-IDF值，m≥3且m为正整数，m的取值根据需要自行设定；

步骤S3包括以下步骤：

用户在阅文本特征列表的关键词权重归一化公式如下：

输出用户在阅文本特征归一化列表的形式如下：

其中，i表示用户在阅文本关键词的编号，1≤i≤n；w_1i表示用户在阅文本第i个关键词的权重，w₁₁+w₁₂+...w_1i+...+w_1n＝1；V_TF-IDF1i表示用户在阅文本第i个关键词的TF-IDF值；

待推荐文本特征列表的关键词权重归一化公式如下：

/>

输出待推荐文本的特征归一化列表，形式如下：

word₁₁，word₁₂，...，word_1n，word₂₂，...，word_2m

[w₁₁，w₁₂，...，w_1n，0，...，0]

[w₂₁，0..，0，w₂₂，...，w_2m]；

其中，

word₁₁，word₁₂，...，word_1n，word₂₂，...，word_2m表示索引号；

[w₁₁，w₁₂，...，w_1n，0，...，0]表示用户在阅文本的特征向量；

[w₂₁，0，...，0，w₂₂，...，w_2m]表示待推荐文本的特征向量。

2.根据权利要求1所述的一种基于词袋模型的文本相似度计算方法，其特征在于，步骤S32中，未在文本中出现的词，则权重为0。

3.根据权利要求2所述的一种基于词袋模型的文本相似度计算方法，其特征在于，步骤S4中，采用余弦计算公式，计算在阅文本特征向量和待推荐文本特征向量之间夹角的余弦值，用以表征用户在阅文本和待推荐文本之间的相似度。

4.根据权利要求3所述的一种基于词袋模型的文本相似度计算方法，其特征在于，步骤S4中，余弦计算公式如下：

5.根据权利要求1所述的一种基于词袋模型的文本相似度计算方法，其特征在于，步骤S21中，文本预处理方法包括结巴分词和/或去除停用词。

6.一种基于词袋模型的文本相似度计算系统，其特征在于，基于权利要求1至5任一项所述的一种基于词袋模型的文本相似度计算方法，包括依次电相连的文本信息获取模块、文本特征提取模块、文本特征向量生成模块、文本相似度计算模块；

其中，

文本特征提取模块：用以采用TF-IDF关键词提取算法，对文本进行关键词提取，输出文本的[关键词,TF-IDF值]列表，用以表征文本特征，从而提取文本特征，所述文本特征包括用户在阅文本的文本特征、待推荐文本的文本特征；