CN104281567A

CN104281567A - 一种潜在语义分析方法及系统

Info

Publication number: CN104281567A
Application number: CN201410537871.7A
Authority: CN
Inventors: 贾岩
Original assignee: ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Current assignee: ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Priority date: 2014-10-13
Filing date: 2014-10-13
Publication date: 2015-01-14

Abstract

本发明公开了一种潜在语义分析方法及系统，该方法包括以下步骤：对文本库进行训练；对训练好的文本库进行潜在语义分析；将分解后的潜在语义分析存储到系统中；用户通过该系统的矩阵访问接口可以根据历史参考数据或对象向量与矩阵、关联度识别对象调用段落间关联度、话题间关联度和维度独立性与关联度。本发明可以消除文本中词之间的相关性，并简化文本向量实现降低语义维度。

Description

一种潜在语义分析方法及系统

技术领域

本发明涉及数据网络技术领域，尤其涉及一种潜在语义分析方法及系统。

背景技术

语义分析是编译过程的一个逻辑阶段，语义分析的任务是对结构上正确的文本进行上下文有关性质的审查，进行审查，审查文本有无语义错误。比如语义分析的一个工作是进行类型审查，审查每个算符是否具有语言规范允许的运算对象，当不符合语言规范时，应报告错误。

然而，现有技术中的语义分析无法消除文本中词之间的相关性，并简化文本向量，不利于客户整体把握情报的概貌，起到舆情监控类似效果。

发明内容

为了解决背景技术中存在的技术问题，本发明提出了一种潜在语义分析方法及系统，可以消除文本中词之间的相关性，并简化文本向量，实现降低语义维度。

本发明提出的一种潜在语义分析方法，包括以下步骤：

对文本库进行训练；

对训练好的文本库进行潜在语义分析；

将分解后的潜在语义分析存储到系统中；

用户通过该系统的矩阵访问接口可以根据历史参考数据或对象向量与矩阵、关联度识别对象调用段落间关联度、话题间关联度和维度独立性与关联度。

优选地，所述对文本库进行训练具体为：采用基于统计的方法，提取出文本库中倾向相关特征，利用提取出的特征进行训练文本库的学习。

优选地，利用最大熵方法算出特征的权值，自动统计得出规则进行语义倾向的判断。

优选地，所述提取的特征项包括：1)极性词；2)极性词的极性，例如方向、大小等；3)否定词；4)否定词的位置，即相对于极性词的位置；5)程度词；6)程度词的强度；7)程度词的位置；8)否定词与程度词的位置关系。

优选地，所述对训练好的文本库进行潜在语义分析具体为：通过对项/文档矩阵的矩阵分解将高维的向量空间模型表示中的文档映射到低维的潜在语义空间中。

优选地，所述矩阵分解是将矩阵拆解为数个矩阵的乘积，可分为三角分解、满秩分解、QR分解、Jordan分解和奇异值分解。

优选地，所述奇异值分解得到三个矩阵SVD，用S、D矩阵作为计算段落间关联度计算、话题间关联度、维度独立性计算。

本发明提出的一种潜在语义分析系统，包括：

训练模块，用于对文本库进行训练；

分析模块，与所述训练模块连接，用于对训练好的文本库进行潜在语义分析；

存储模块，与所述分析模块连接，用于将分解后的潜在语义分析存储到系统中；

访问模块，与所述存储模块连接，使用户通过该系统模块可以根据历史参考数据或对象向量与矩阵、关联度识别对象调用段落间关联度、话题间关联度和维度独立性与关联度。

优选地，所述训练模块具体用于采用基于统计的方法，提取出文本库中倾向相关特征，利用提取出的特征进行训练文本库的学习，利用最大熵方法算出特征的权值，自动统计得出规则进行语义倾向的判断。

优选地，所述分析模块具体用于：通过对项/文档矩阵的矩阵分解将高维的向量空间模型表示中的文档映射到低维的潜在语义空间中。

本发明中，对大量的文本集进行分析，从而提取出词与词之间潜在的语义结构，并用这种潜在的语义结构，表示词和文本，达到消除词之间的相关性和简化文本向量实现降维的目的；不但有利于对维度关联情况的把握，而且为分析大文档集合中的核心维度和话题核心变化以及趋势预测提供参考依据，有利于客户整体把握情报的概貌，起到舆情监控类似效果。

附图说明

图1为本发明实施例提出的一种潜在语义分析方法流程图；

图2为本发明实施例提出的一种潜在语义分析系统结构图。

具体实施方式

如图1所示，本发明实施例提出了一种潜在语义分析方法，包括以下步骤：

步骤101，对文本库进行训练。采用基于统计的方法，提取出文本库中倾向相关特征，利用提取出的特征进行训练文本库的学习，利用最大熵方法算出特征的权值，自动统计得出规则进行语义倾向的判断。其中，提取的特征项包括：1)极性词；2)极性词的极性，例如方向、大小等；3)否定词；4)否定词的位置，即相对于极性词的位置；5)程度词；6)程度词的强度；7)程度词的位置；8)否定词与程度词的位置关系等。

步骤102，对训练好的文本库进行潜在语义分析，通过对项/文档矩阵的矩阵分解将高维的向量空间模型表示中的文档映射到低维的潜在语义空间中。其中，矩阵分解是将矩阵拆解为数个矩阵的乘积，可分为三角分解、满秩分解、QR分解、Jordan分解和SVD(奇异值)分解等，常见的有三种：1)三角分解法，2)QR分解法，3)奇异值分解法。奇异值分解是一种正交矩阵分解法，【U，S，V】＝svd(A)，其中U和V分别代表两个正交矩阵，而S代表一对角矩阵，使用SVD分解法的用途是解最小平方误差法和数据压缩。

分解后得到三个矩阵SVD，用S、D矩阵作为计算段落间关联度计算、话题间关联度、维度独立性计算。(1)段落间关联度用于得出段落间语义关联的强弱指标值；(2)话题间关联度提供了一种潜在语义意义上的话题关联情况的参考值。(3)维度独立性分析用以对语义维度的关联性计算，不但有利于对维度关联情况的把握，而且为分析大文档集合中的核心维度和话题核心变化以及趋势预测提供参考依据，有利于客户整体把握情报的概貌，起到舆情监控类似效果。

步骤103，将分解后的潜在语义分析存储到系统中。

步骤104，用户通过该系统的矩阵访问接口可以根据历史参考数据或对象向量与矩阵、关联度识别对象调用段落间关联度、话题间关联度和维度独立性与关联度。

如图2所示，本发明实施例提出的一种潜在语义分析系统，包括：训练模块10，用于对文本库进行训练；分析模块20，与所述训练模块10连接，用于对训练好的文本库进行潜在语义分析；存储模块30，与所述分析模块20连接，用于将分解后的潜在语义分析存储到系统中；访问模块40，与所述存储模块30连接，使用户通过该系统模块可以根据历史参考数据或对象向量与矩阵、关联度识别对象调用段落间关联度、话题间关联度和维度独立性与关联度。

所述训练模块10具体用于采用基于统计的方法，提取出文本库中倾向相关特征，利用提取出的特征进行训练文本库的学习，利用最大熵方法算出特征的权值，自动统计得出规则进行语义倾向的判断。

所述分析模块20具体用于：通过对项/文档矩阵的矩阵分解将高维的向量空间模型表示中的文档映射到低维的潜在语义空间中。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种潜在语义分析方法，其特征在于，包括以下步骤：

对文本库进行训练；

对训练好的文本库进行潜在语义分析；

将分解后的潜在语义分析存储到系统中；

通过矩阵访问接口根据历史参考数据或对象向量与矩阵、关联度识别对象调用段落间关联度、话题间关联度和维度独立性与关联度。

2.根据权利要求1所述的潜在语义分析方法，其特征在于，所述对文本库进行训练具体为：采用基于统计的方法，提取出文本库中倾向相关特征，利用提取出的特征进行训练文本库的学习。

3.根据权利要求2所述的潜在语义分析方法，其特征在于，利用最大熵方法算出特征的权值，自动统计得出规则进行语义倾向的判断。

4.根据权利要求3所述的潜在语义分析方法，其特征在于，所述提取的特征项包括：极性词、极性词的极性、否定词、否定词的位置、程度词、程度词的强度、程度词的位置、否定词与程度词的位置关系。

5.根据权利要求1所述的潜在语义分析方法，其特征在于，所述对训练好的文本库进行潜在语义分析具体为：通过对项/文档矩阵的矩阵分解将高维的向量空间模型表示中的文档映射到低维的潜在语义空间中。

6.根据权利要求5所述的潜在语义分析方法，其特征在于，所述矩阵分解是将矩阵拆解为数个矩阵的乘积，可分为三角分解、满秩分解、QR分解、Jordan分解和奇异值分解。

7.根据权利要求6所述的潜在语义分析方法，其特征在于，所述奇异值分解得到三个矩阵SVD，用S、D矩阵作为计算段落间关联度计算、话题间关联度、维度独立性计算。

8.一种潜在语义分析系统，其特征在于，包括：

训练模块，用于对文本库进行训练；

9.根据权利要求8所述的潜在语义分析系统，其特征在于，所述训练模块具体用于采用基于统计的方法，提取出文本库中倾向相关特征，利用提取出的特征进行训练文本库的学习，利用最大熵方法算出特征的权值，自动统计得出规则进行语义倾向的判断。

10.根据权利要求8所述的潜在语义分析系统，其特征在于，所述分析模块具体用于：通过对项/文档矩阵的矩阵分解将高维的向量空间模型表示中的文档映射到低维的潜在语义空间中。