CN111178038B

CN111178038B - 一种基于潜在语义分析的文档相似度识别方法及装置

Info

Publication number: CN111178038B
Application number: CN201911378044.7A
Authority: CN
Inventors: 于文才; 杜志诚; 杜明本; 钟琴隆; 王秀芹; 朱习文; 董林林; 叶玏
Original assignee: Shandong Banner Information Co ltd
Current assignee: Shandong Banner Information Co ltd
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2023-04-25
Anticipated expiration: 2039-12-27
Also published as: CN111178038A

Abstract

一种基于潜在语义分析的文档相似度识别方法及装置，包括如下步骤：构建原始文档库，所述原始文档库包括若干原始文本，所述原始文本经预处理得到与原始文本一一对应的原始文本词袋向量；获取输入文本，将输入文本进行预处理得到输入文本词袋向量；计算输入文本词袋向量与原始文本词袋向量的近似程度，得到与输入文本近似程度最高的原始文本。本申请首先构建一个文档库，然后以该文档库作为基本文本，将输入文本作为主对比文本进行对比，借助词袋向量，从基础文本中找到输入文本类似的文档，由于词袋向量本身考虑到了语义，因此可以更好的在潜在语义的基础上获得更好的文档相似度的识别效果。

Description

一种基于潜在语义分析的文档相似度识别方法及装置

技术领域

本申请涉及一种基于潜在语义分析的文档相似度识别方法及装置。

背景技术

随着计算机处理能力的增强，如何将自然语言数字化成为了一个重要的客体，因为只有数字化的自然语言才有助于进行快速的计算机处理。

随着网络信息的大量堆积，现有的文档数是非常可观的，从某种角度上讲，将新出现的文档归类到现有文档中至少在应用层面足够使用，比如网络购物中产品的评价等，这就涉及到文档相似度的对比。现在有非常多的理论方法进行文档相似度对比，但是其多出于统计方法，实质上与语义并无关联，这实际上是在丧失自然语言属性的情况下进行了自然语言的处理，虽然也具有一定的效果，但大有缘木求鱼之感。

发明内容

为了解决上述问题，本申请一方面提出了一种基于潜在语义分析的文档相似度识别方法，包括如下步骤：构建原始文档库，所述原始文档库包括若干原始文本，所述原始文本经预处理得到与原始文本一一对应的原始文本词袋向量；获取输入文本，将输入文本进行预处理得到输入文本词袋向量；计算输入文本词袋向量与原始文本词袋向量的近似程度，得到与输入文本近似程度最高的原始文本。本申请首先构建一个文档库，然后以该文档库作为基本文本，将输入文本作为主对比文本进行对比，借助词袋向量，从基础文本中找到输入文本类似的文档，由于词袋向量本身考虑到了语义，因此可以更好的在潜在语义的基础上获得更好的文档相似度的识别效果；但是需要说明的是，该种方式实质上需要逐个对比，计算量较大，因此本申请下面还对于词袋向量的获取方式以及计算方式进行了相应的优化。

优选的，所述预处理包括如下步骤：

获取词袋模型；

构建单词-文本矩阵，矩阵内各个单词按照重要性进行赋值；

确定阈值，将赋值结果低于阈值的单词删除以进行降维处理；

得到最终的单词-文本矩阵，从而获得其词袋向量。本申请通过进行赋值-阈值确定以及删除得到经删减后的单词-文本矩阵，而该单词-文本矩阵的获取之后既能减少自身的计算量，又能更加突出关键单词的影响，删除掉非关键单词。正是由于此种操作，使得如何对于单词-文本进行筛选以及有效的进行分解使得最终得到的词袋向量在具有代表性的前提之下又侵占较少的处理能力成为识别该模型优劣的考究前提。

优选的，所述单词赋值采用TF-IDF方法进行赋值。

优选的，所述降维处理采用SVD矩阵奇异值分解的方式进行。本申请通过采用TF-IDF赋值之后，进行SVD矩阵分解可以相对快捷的将无效的词去掉，优点是所有的模型都是现有的，训练起来较为容易，缺点是对于文档文义进行的是一种表面的应用，而没有实质上进行更加广阔的有效应用。

优选的，所述单词包括单字和词组，获取单词-文本矩阵之后，首先筛选出虚词，将虚词在单词-文本矩阵内赋值为0；所述虚词包括冠词，副词，介词，连词，叹词和拟声词。本申请所说的虚词与现有的汉语语法结构中的虚词有一定的差别，但是其所包含的冠词，副词，介词，连词，叹词和拟声词等同于现有的汉语语法中所采用的词，因此，在本申请的方法中，通过构建单词库来确定相应的单词属于虚词、名词、动词还是形容词。

优选的，虚词赋值为0后，再获取名词，将名词在单词-文本矩阵内赋值为1；获取与名词匹配的动词，并将动词在单词-文本矩阵内赋值为1/（a+1），a为动词与名词之间间隔的单词数；获取与名词匹配的副词，并将副词与名词重新匹配为一个新的词组，所述新的词组赋值为1，但保留原来的名词，原来的名词进行重新赋值为1/b，b为新的词组出现的频次与原来的名词出现的频次之比；获取与名词匹配的形容词，将形容词赋值为1/c^0.5，c为形容词所形容的名词出现的频次。本申请采用名词作为基础，其他词性的词以名词作为基础进行赋值，考虑各个词性的特点来得到各个单词的赋值，需要说明的是，赋值并不是只是说明词语的重要性，而是通过赋值将不同的词进行区别，并考虑到出现频次的因素，再通过阈值筛选之后，筛选出来的词都对于文档的语义都有较大的影响。

优选的，所述阈值按照如下方式获得，除了所有赋值为0的单词，计算其他单词的赋值的平均数x，将阈值设定为f（x）。

优选的，所述阈值为x²。本申请通过实验发现，由于计算得到的x小于1，当直接采用x作为阈值时，得到的单词的量较少，虽然能够减少计算量，但是准确度受到了较大了影响，而采用x的百分比作为阈值时，则导致了引入了过大的噪音，而在采用平方作为阈值时，基本达到了准确度和计算量之间的平衡。

优选的，所述计算输入文本词袋向量与原始文本词袋向量的近似程度以向量的余弦相似度进行表征。

另一方面，本申请还提出了一种基于潜在语义分析的文档相似度的识别装置，包括如下模块：数据库模块，用于构建原始文档库，所述原始文档库包括若干原始文本，所述原始文本经预处理得到与原始文本一一对应的原始文本词袋向量；输入模块，用于获取输入文本，将输入文本进行预处理得到输入文本词袋向量；计算模块，用于计算输入文本词袋向量与原始文本词袋向量的近似程度，得到与输入文本近似程度最高的原始文本。

本申请能够带来如下有益效果：

1、本申请首先构建一个文档库，然后以该文档库作为基本文本，将输入文本作为主对比文本进行对比，借助词袋向量，从基础文本中找到输入文本类似的文档，由于词袋向量本身考虑到了语义，因此可以更好的在潜在语义的基础上获得更好的文档相似度的识别效果；

2、本申请有两种词袋向量的获取方法，一是通过采用TF-IDF赋值之后，进行SVD矩阵分解可以相对快捷的将无效的词去掉，优点是所有的模型都是现有的，训练起来较为容易，缺点是对于文档文义进行的是一种表面的应用，而没有实质上进行更加广阔的有效应用；二是采用名词作为基础，其他词性的词以名词作为基础进行赋值，考虑各个词性的特点来得到各个单词的赋值，需要说明的是，赋值并不是只是说明词语的重要性，而是通过赋值将不同的词进行区别，并考虑到出现频次的因素，再通过阈值筛选之后，筛选出来的词都对于文档的语义都有较大的影响。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施的流程示意图；

图2为第一个实施例采用TF-IDF赋值后的形式；

图3为第二个实施例赋值的流程示意图。

具体实施方式

为能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本申请进行详细阐述。

在第一个实施例中，如图1所示，包括如下步骤：

S101.构建原始文档库，所述原始文档库包括若干原始文本；

S102.原始文本经预处理得到与原始文本一一对应的原始文本词袋向量；

预处理的方式按照如下方式进行：首先获取词袋模型；

构建单词-文本矩阵，矩阵内各个单词按照TF-IDF方法进行赋值；

确定阈值，采用SVD矩阵奇异值分解的方式进行降维处理；

得到最终的单词-文本矩阵，从而获得其词袋向量；

S103.获取输入文本，将输入文本进行预处理得到输入文本词袋向量；

预处理的方式按照如下方式进行：首先获取词袋模型；

得到最终的单词-文本矩阵，从而获得其词袋向量；

当然也可以进行降维设置，即确定阈值，采用SVD矩阵奇异值分解的方式进行降维处理，然后再重新获取单词-文本矩阵，从而获得其词袋向量；

S104. 计算输入文本词袋向量与原始文本词袋向量的余弦相似度，得到与输入文本近似程度最高的原始文本。

为了更好的说明预处理的方式，举例说明，将某文档进行处理，其原始文档数：8910；统计后的单词数：87349；构建文档TF-IDF稀疏矩阵的shape （8910，87349），然后建立如图2所表示的形式，每一行代表一个文档向量的，每个括号内(单词序号（0-87438），TF-IDF值)；SVD后的向量shape(8910,200)，K的取值为200，每行数据是文档的向量，得到下面的矩阵：

[ 0.215699690.082277870.09086483 ... -0.06075808 -0.04542499-0.09162004]

[ 0.62857294 -0.09223312 -0.00088913 ... -0.01255666 -0.01707713-0.00896208]

[ 0.6613617-0.17232007 -0.07268597 ...0.02457953 -0.02739436-0.00775283]

...

[ 0.095896680.24960579 -0.00232736 ... -0.097581910.025696440.07918041]

[ 0.120445380.30009618 -0.00643809 ...0.04512313 -0.01673293-0.03004147]

[ 0.57912564 -0.09381538 -0.2927042... -0.04910881 -0.10562124-0.03150063]

即可用来进行余弦相似度的计算。

在第二个实施例中，大致步骤和图1一致，但是具体的赋值方法不同，赋值方法如图3所示：

S101.构建原始文档库，所述原始文档库包括若干原始文本；

预处理的方式按照如下方式进行：首先获取词袋模型；

构建单词-文本矩阵，矩阵内各个单词按照所述单词包括单字和词组，获取单词-文本矩阵之后，按照如下方式进行赋值：首先筛选出虚词，将虚词在单词-文本矩阵内赋值为0；所述虚词包括冠词，副词，介词，连词，叹词和拟声词。本申请所说的虚词与现有的汉语语法结构中的虚词有一定的差别，但是其所包含的冠词，副词，介词，连词，叹词和拟声词等同于现有的汉语语法中所采用的词，因此，在本申请的方法中，通过构建单词库来确定相应的单词属于虚词、名词、动词还是形容词。虚词赋值为0后，再获取名词，将名词在单词-文本矩阵内赋值为1；获取与名词匹配的动词，并将动词在单词-文本矩阵内赋值为1/（a+1），a为动词与名词之间间隔的单词数；获取与名词匹配的副词，并将副词与名词重新匹配为一个新的词组，所述新的词组赋值为1，但保留原来的名词，原来的名词进行重新赋值为1/b，b为新的词组出现的频次与原来的名词出现的频次之比；获取与名词匹配的形容词，将形容词赋值为1/c^0.5，c为形容词所形容的名词出现的频次。本申请采用名词作为基础，其他词性的词以名词作为基础进行赋值，考虑各个词性的特点来得到各个单词的赋值，需要说明的是，赋值并不是只是说明词语的重要性，而是通过赋值将不同的词进行区别，并考虑到出现频次的因素，再通过阈值筛选之后，筛选出来的词都对于文档的语义都有较大的影响。

除了所有赋值为0的单词，计算其他单词的赋值的平均数x，将阈值设定为x²。

得到最终的单词-文本矩阵，从而获得其词袋向量；

预处理的方式按照如下方式进行：首先获取词袋模型；

构建单词-文本矩阵，预处理的方式按照如下方式进行：首先获取词袋模型；

需要说明的是，如果想要取得若干文本之间的相似度，可以将其中一个作为输入文本，其他作为原始文本，即可采用本申请中的实施方式1或者实施方式2的方案进行计算研究。

在第三个实施例中，一种基于潜在语义分析的文档相似度的识别装置，包括如下模块：数据库模块，用于构建原始文档库，所述原始文档库包括若干原始文本，所述原始文本经预处理得到与原始文本一一对应的原始文本词袋向量；输入模块，用于获取输入文本，将输入文本进行预处理得到输入文本词袋向量；计算模块，用于计算输入文本词袋向量与原始文本词袋向量的近似程度，得到与输入文本近似程度最高的原始文本。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于潜在语义分析的文档相似度识别方法，其特征在于：包括如下步骤：

构建原始文档库，所述原始文档库包括若干原始文本，所述原始文本经预处理得到与原始文本一一对应的原始文本词袋向量；

获取输入文本，将输入文本进行预处理得到输入文本词袋向量；

计算输入文本词袋向量与原始文本词袋向量的近似程度，得到与输入文本近似程度最高的原始文本；

所述预处理包括如下步骤：

获取词袋模型；

构建单词-文本矩阵，矩阵内各个单词按照重要性进行赋值；

得到最终的单词-文本矩阵，从而获得其词袋向量；

所述单词包括单字和词组，获取单词-文本矩阵之后，首先筛选出虚词，将虚词在单词-文本矩阵内赋值为0；所述虚词包括冠词，副词，介词，连词，叹词和拟声词；

虚词赋值为0后，再获取名词，将名词在单词-文本矩阵内赋值为1；获取与名词匹配的动词，并将动词在单词-文本矩阵内赋值为1/（a+1），a为动词与名词之间间隔的单词数；获取与名词匹配的副词，并将副词与名词重新匹配为一个新的词组，所述新的词组赋值为1，但保留原来的名词，原来的名词进行重新赋值为1/b，b为新的词组出现的频次与原来的名词出现的频次之比；获取与名词匹配的形容词，将形容词赋值为1/c^0.5，c为形容词所形容的名词出现的频次。

2.根据权利要求1所述的一种基于潜在语义分析的文档相似度识别方法，其特征在于：所述构建单词-文本矩阵，矩阵内各个单词按照重要性进行赋值之后，所述方法还包括：

对所述降维处理进行替换，替换的降维处理采用SVD矩阵奇异值分解的方式进行。

3.根据权利要求1所述的一种基于潜在语义分析的文档相似度识别方法，其特征在于：所述阈值按照如下方式获得，除了所有赋值为0的单词，计算其他单词的赋值的平均数x，将阈值设定为f（x）。

4.根据权利要求3所述的一种基于潜在语义分析的文档相似度识别方法，其特征在于：所述阈值为x²。

5.根据权利要求1所述的一种基于潜在语义分析的文档相似度识别方法，其特征在于：所述计算输入文本词袋向量与原始文本词袋向量的近似程度以向量的余弦相似度进行表征。

6.一种基于潜在语义分析的文档相似度的识别装置，其特征在于：包括如下模块：

数据库模块，用于构建原始文档库，所述原始文档库包括若干原始文本，所述原始文本经预处理得到与原始文本一一对应的原始文本词袋向量；

输入模块，用于获取输入文本，将输入文本进行预处理得到输入文本词袋向量；

计算模块，用于计算输入文本词袋向量与原始文本词袋向量的近似程度，得到与输入文本近似程度最高的原始文本；

所述预处理包括如下步骤：

获取词袋模型；

构建单词-文本矩阵，矩阵内各个单词按照重要性进行赋值；

得到最终的单词-文本矩阵，从而获得其词袋向量；