CN104281567A - 一种潜在语义分析方法及系统 - Google Patents
一种潜在语义分析方法及系统 Download PDFInfo
- Publication number
- CN104281567A CN104281567A CN201410537871.7A CN201410537871A CN104281567A CN 104281567 A CN104281567 A CN 104281567A CN 201410537871 A CN201410537871 A CN 201410537871A CN 104281567 A CN104281567 A CN 104281567A
- Authority
- CN
- China
- Prior art keywords
- latent semantic
- semantic analysis
- degree
- matrix
- association
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明公开了一种潜在语义分析方法及系统,该方法包括以下步骤:对文本库进行训练;对训练好的文本库进行潜在语义分析;将分解后的潜在语义分析存储到系统中;用户通过该系统的矩阵访问接口可以根据历史参考数据或对象向量与矩阵、关联度识别对象调用段落间关联度、话题间关联度和维度独立性与关联度。本发明可以消除文本中词之间的相关性,并简化文本向量实现降低语义维度。
Description
技术领域
本发明涉及数据网络技术领域,尤其涉及一种潜在语义分析方法及系统。
背景技术
语义分析是编译过程的一个逻辑阶段,语义分析的任务是对结构上正确的文本进行上下文有关性质的审查,进行审查,审查文本有无语义错误。比如语义分析的一个工作是进行类型审查,审查每个算符是否具有语言规范允许的运算对象,当不符合语言规范时,应报告错误。
然而,现有技术中的语义分析无法消除文本中词之间的相关性,并简化文本向量,不利于客户整体把握情报的概貌,起到舆情监控类似效果。
发明内容
为了解决背景技术中存在的技术问题,本发明提出了一种潜在语义分析方法及系统,可以消除文本中词之间的相关性,并简化文本向量,实现降低语义维度。
本发明提出的一种潜在语义分析方法,包括以下步骤:
对文本库进行训练;
对训练好的文本库进行潜在语义分析;
将分解后的潜在语义分析存储到系统中;
用户通过该系统的矩阵访问接口可以根据历史参考数据或对象向量与矩阵、关联度识别对象调用段落间关联度、话题间关联度和维度独立性与关联度。
优选地,所述对文本库进行训练具体为:采用基于统计的方法,提取出文本库中倾向相关特征,利用提取出的特征进行训练文本库的学习。
优选地,利用最大熵方法算出特征的权值,自动统计得出规则进行语义倾向的判断。
优选地,所述提取的特征项包括:1)极性词;2)极性词的极性,例如方向、大小等;3)否定词;4)否定词的位置,即相对于极性词的位置;5)程度词;6)程度词的强度;7)程度词的位置;8)否定词与程度词的位置关系。
优选地,所述对训练好的文本库进行潜在语义分析具体为:通过对项/文档矩阵的矩阵分解将高维的向量空间模型表示中的文档映射到低维的潜在语义空间中。
优选地,所述矩阵分解是将矩阵拆解为数个矩阵的乘积,可分为三角分解、满秩分解、QR分解、Jordan分解和奇异值分解。
优选地,所述奇异值分解得到三个矩阵SVD,用S、D矩阵作为计算段落间关联度计算、话题间关联度、维度独立性计算。
本发明提出的一种潜在语义分析系统,包括:
训练模块,用于对文本库进行训练;
分析模块,与所述训练模块连接,用于对训练好的文本库进行潜在语义分析;
存储模块,与所述分析模块连接,用于将分解后的潜在语义分析存储到系统中;
访问模块,与所述存储模块连接,使用户通过该系统模块可以根据历史参考数据或对象向量与矩阵、关联度识别对象调用段落间关联度、话题间关联度和维度独立性与关联度。
优选地,所述训练模块具体用于采用基于统计的方法,提取出文本库中倾向相关特征,利用提取出的特征进行训练文本库的学习,利用最大熵方法算出特征的权值,自动统计得出规则进行语义倾向的判断。
优选地,所述分析模块具体用于:通过对项/文档矩阵的矩阵分解将高维的向量空间模型表示中的文档映射到低维的潜在语义空间中。
本发明中,对大量的文本集进行分析,从而提取出词与词之间潜在的语义结构,并用这种潜在的语义结构,表示词和文本,达到消除词之间的相关性和简化文本向量实现降维的目的;不但有利于对维度关联情况的把握,而且为分析大文档集合中的核心维度和话题核心变化以及趋势预测提供参考依据,有利于客户整体把握情报的概貌,起到舆情监控类似效果。
附图说明
图1为本发明实施例提出的一种潜在语义分析方法流程图;
图2为本发明实施例提出的一种潜在语义分析系统结构图。
具体实施方式
如图1所示,本发明实施例提出了一种潜在语义分析方法,包括以下步骤:
步骤101,对文本库进行训练。采用基于统计的方法,提取出文本库中倾向相关特征,利用提取出的特征进行训练文本库的学习,利用最大熵方法算出特征的权值,自动统计得出规则进行语义倾向的判断。其中,提取的特征项包括:1)极性词;2)极性词的极性,例如方向、大小等;3)否定词;4)否定词的位置,即相对于极性词的位置;5)程度词;6)程度词的强度;7)程度词的位置;8)否定词与程度词的位置关系等。
步骤102,对训练好的文本库进行潜在语义分析,通过对项/文档矩阵的矩阵分解将高维的向量空间模型表示中的文档映射到低维的潜在语义空间中。其中,矩阵分解是将矩阵拆解为数个矩阵的乘积,可分为三角分解、满秩分解、QR分解、Jordan分解和SVD(奇异值)分解等,常见的有三种:1)三角分解法,2)QR分解法,3)奇异值分解法。奇异值分解是一种正交矩阵分解法,【U,S,V】=svd(A),其中U和V分别代表两个正交矩阵,而S代表一对角矩阵,使用SVD分解法的用途是解最小平方误差法和数据压缩。
分解后得到三个矩阵SVD,用S、D矩阵作为计算段落间关联度计算、话题间关联度、维度独立性计算。(1)段落间关联度用于得出段落间语义关联的强弱指标值;(2)话题间关联度提供了一种潜在语义意义上的话题关联情况的参考值。(3)维度独立性分析用以对语义维度的关联性计算,不但有利于对维度关联情况的把握,而且为分析大文档集合中的核心维度和话题核心变化以及趋势预测提供参考依据,有利于客户整体把握情报的概貌,起到舆情监控类似效果。
步骤103,将分解后的潜在语义分析存储到系统中。
步骤104,用户通过该系统的矩阵访问接口可以根据历史参考数据或对象向量与矩阵、关联度识别对象调用段落间关联度、话题间关联度和维度独立性与关联度。
如图2所示,本发明实施例提出的一种潜在语义分析系统,包括:训练模块10,用于对文本库进行训练;分析模块20,与所述训练模块10连接,用于对训练好的文本库进行潜在语义分析;存储模块30,与所述分析模块20连接,用于将分解后的潜在语义分析存储到系统中;访问模块40,与所述存储模块30连接,使用户通过该系统模块可以根据历史参考数据或对象向量与矩阵、关联度识别对象调用段落间关联度、话题间关联度和维度独立性与关联度。
所述训练模块10具体用于采用基于统计的方法,提取出文本库中倾向相关特征,利用提取出的特征进行训练文本库的学习,利用最大熵方法算出特征的权值,自动统计得出规则进行语义倾向的判断。
所述分析模块20具体用于:通过对项/文档矩阵的矩阵分解将高维的向量空间模型表示中的文档映射到低维的潜在语义空间中。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种潜在语义分析方法,其特征在于,包括以下步骤:
对文本库进行训练;
对训练好的文本库进行潜在语义分析;
将分解后的潜在语义分析存储到系统中;
通过矩阵访问接口根据历史参考数据或对象向量与矩阵、关联度识别对象调用段落间关联度、话题间关联度和维度独立性与关联度。
2.根据权利要求1所述的潜在语义分析方法,其特征在于,所述对文本库进行训练具体为:采用基于统计的方法,提取出文本库中倾向相关特征,利用提取出的特征进行训练文本库的学习。
3.根据权利要求2所述的潜在语义分析方法,其特征在于,利用最大熵方法算出特征的权值,自动统计得出规则进行语义倾向的判断。
4.根据权利要求3所述的潜在语义分析方法,其特征在于,所述提取的特征项包括:极性词、极性词的极性、否定词、否定词的位置、程度词、程度词的强度、程度词的位置、否定词与程度词的位置关系。
5.根据权利要求1所述的潜在语义分析方法,其特征在于,所述对训练好的文本库进行潜在语义分析具体为:通过对项/文档矩阵的矩阵分解将高维的向量空间模型表示中的文档映射到低维的潜在语义空间中。
6.根据权利要求5所述的潜在语义分析方法,其特征在于,所述矩阵分解是将矩阵拆解为数个矩阵的乘积,可分为三角分解、满秩分解、QR分解、Jordan分解和奇异值分解。
7.根据权利要求6所述的潜在语义分析方法,其特征在于,所述奇异值分解得到三个矩阵SVD,用S、D矩阵作为计算段落间关联度计算、话题间关联度、维度独立性计算。
8.一种潜在语义分析系统,其特征在于,包括:
训练模块,用于对文本库进行训练;
分析模块,与所述训练模块连接,用于对训练好的文本库进行潜在语义分析;
存储模块,与所述分析模块连接,用于将分解后的潜在语义分析存储到系统中;
访问模块,与所述存储模块连接,使用户通过该系统模块可以根据历史参考数据或对象向量与矩阵、关联度识别对象调用段落间关联度、话题间关联度和维度独立性与关联度。
9.根据权利要求8所述的潜在语义分析系统,其特征在于,所述训练模块具体用于采用基于统计的方法,提取出文本库中倾向相关特征,利用提取出的特征进行训练文本库的学习,利用最大熵方法算出特征的权值,自动统计得出规则进行语义倾向的判断。
10.根据权利要求8所述的潜在语义分析系统,其特征在于,所述分析模块具体用于:通过对项/文档矩阵的矩阵分解将高维的向量空间模型表示中的文档映射到低维的潜在语义空间中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410537871.7A CN104281567A (zh) | 2014-10-13 | 2014-10-13 | 一种潜在语义分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410537871.7A CN104281567A (zh) | 2014-10-13 | 2014-10-13 | 一种潜在语义分析方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104281567A true CN104281567A (zh) | 2015-01-14 |
Family
ID=52256452
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410537871.7A Pending CN104281567A (zh) | 2014-10-13 | 2014-10-13 | 一种潜在语义分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104281567A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105389306A (zh) * | 2015-11-02 | 2016-03-09 | 国网福建省电力有限公司 | 一种基于潜在语义分析的申请单智能解析方法 |
CN106021366A (zh) * | 2016-05-10 | 2016-10-12 | 浙江大学 | 一种基于异构信息的api标签推荐方法 |
CN109036554A (zh) * | 2018-08-07 | 2018-12-18 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN112686050A (zh) * | 2020-12-27 | 2021-04-20 | 北京明朝万达科技股份有限公司 | 基于潜在语义索引的上网行为分析方法、系统和介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101710333A (zh) * | 2009-11-26 | 2010-05-19 | 西北工业大学 | 基于遗传算法的网络文本分割方法 |
CN101727487A (zh) * | 2009-12-04 | 2010-06-09 | 中国人民解放军信息工程大学 | 一种面向网络评论的观点主题识别方法和系统 |
CN103678273A (zh) * | 2012-09-14 | 2014-03-26 | 安徽华贞信息科技有限公司 | 互联网段落级话题识别系统 |
-
2014
- 2014-10-13 CN CN201410537871.7A patent/CN104281567A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101710333A (zh) * | 2009-11-26 | 2010-05-19 | 西北工业大学 | 基于遗传算法的网络文本分割方法 |
CN101727487A (zh) * | 2009-12-04 | 2010-06-09 | 中国人民解放军信息工程大学 | 一种面向网络评论的观点主题识别方法和系统 |
CN103678273A (zh) * | 2012-09-14 | 2014-03-26 | 安徽华贞信息科技有限公司 | 互联网段落级话题识别系统 |
Non-Patent Citations (1)
Title |
---|
吴秀梅: "《基于潜在语义分析和最大熵的中文情感分析研究》", 《中国万方学位论文数据库》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105389306A (zh) * | 2015-11-02 | 2016-03-09 | 国网福建省电力有限公司 | 一种基于潜在语义分析的申请单智能解析方法 |
CN106021366A (zh) * | 2016-05-10 | 2016-10-12 | 浙江大学 | 一种基于异构信息的api标签推荐方法 |
CN109036554A (zh) * | 2018-08-07 | 2018-12-18 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN109036554B (zh) * | 2018-08-07 | 2020-02-14 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN112686050A (zh) * | 2020-12-27 | 2021-04-20 | 北京明朝万达科技股份有限公司 | 基于潜在语义索引的上网行为分析方法、系统和介质 |
CN112686050B (zh) * | 2020-12-27 | 2023-12-05 | 北京明朝万达科技股份有限公司 | 基于潜在语义索引的上网行为分析方法、系统和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111680159B (zh) | 数据处理方法、装置及电子设备 | |
Kimura et al. | SemiCCA: Efficient semi-supervised learning of canonical correlations | |
US20180357258A1 (en) | Personalized search device and method based on product image features | |
CN108170749A (zh) | 基于人工智能的对话方法、装置及计算机可读介质 | |
CN107402913A (zh) | 先行词的确定方法和装置 | |
CN114676704B (zh) | 句子情感分析方法、装置、设备以及存储介质 | |
CN107402912B (zh) | 解析语义的方法和装置 | |
CN112183747A (zh) | 神经网络训练的方法、神经网络的压缩方法以及相关设备 | |
CN104281567A (zh) | 一种潜在语义分析方法及系统 | |
JP6720764B2 (ja) | テキスト解析装置及びプログラム | |
CN111866004B (zh) | 安全评估方法、装置、计算机系统和介质 | |
CN108304387B (zh) | 文本中噪音词的识别方法、装置、服务器组及存储介质 | |
CN115168592B (zh) | 基于方面类别的语句情感分析方法、装置以及设备 | |
CN110969023B (zh) | 文本相似度的确定方法及装置 | |
CN106844328A (zh) | 一种新型大规模文档主题语义分析方法及系统 | |
Liu et al. | Nonparametric sparse matrix decomposition for cross-view dimensionality reduction | |
CN113705315A (zh) | 视频处理方法、装置、设备及存储介质 | |
CN116543768A (zh) | 模型的训练方法、语音识别方法和装置、设备及存储介质 | |
CN111680501A (zh) | 基于深度学习的问询信息识别方法、装置及存储介质 | |
CN115618884B (zh) | 基于多任务学习的言论分析方法、装置以及设备 | |
CN116721454A (zh) | 微表情识别方法和装置、电子设备及存储介质 | |
CN116644765A (zh) | 语音翻译方法、语音翻译装置、电子设备及存储介质 | |
CN110489514A (zh) | 提升事件抽取标注效率的系统及方法、事件抽取方法及系统 | |
CN114492437B (zh) | 关键词识别方法、装置、电子设备及存储介质 | |
Sohail et al. | Text classification in an under-resourced language via lexical normalization and feature pooling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150114 |
|
RJ01 | Rejection of invention patent application after publication |