CN104731946A

CN104731946A - 一种互联网信息数据挖掘方法

Info

Publication number: CN104731946A
Application number: CN201510149573.5A
Authority: CN
Inventors: 刘澜; 周国华; 俞晓辉; 刘勇
Original assignee: Chengdu Golden Taxes Electron Technology Co Ltd
Current assignee: Chengdu Golden Taxes Electron Technology Co Ltd
Priority date: 2015-04-01
Filing date: 2015-04-01
Publication date: 2015-06-24

Abstract

本发明公开了一种互联网信息数据挖掘方法，属于互联网信息数据挖掘技术领域，解决人为的对产品评论信息的情感分析所带来的费时费力、还容易出错的问题。本发明的步骤为从互联网上获取产品信息和对应的评论热点主题关键词，组成产品-热点主题关键词词典；获取评论数据源，对每条评论过滤热点主题关键词对，并通过稀疏表示，同时对稀疏矩阵进行热点主题关键词的更新；对获得的热点主题关键词进行相应的情感分析，得到不同的情感分析；将得到的情感分析对应相关热点主题关键词通过降序的方式反馈给用户。本发明用于挖掘相关产品的评论信息。

Description

一种互联网信息数据挖掘方法

技术领域

一种互联网信息数据挖掘方法，用于挖掘相关产品的评论信息，属于互联网信息数据挖掘技术领域。

背景技术

随着互联网的日渐普及，在数据迅速膨胀的背景下，对于热点主题进行关联性的海量信息梳理就成为了一处必要的手段，例如梳理出互联网所传达的公众对于社会事件，热点人物以及电商产品的评论信息受到了各方的特别关注。用户不仅仅是一个简单的信息浏览者的角色，也是一个信息的发布者，现在互联网买卖产品越来越多，想要让客户和买家了解产品的相关信息，往往都是通过对产品的评论信息来进行了解的，从这些海量的用户评论中快速提取出有参考价值的信息也越来越复杂。不仅收集评论信息消耗的时间越来越长，而且仅仅依靠人力收集、排序、分析、整理和记忆，费时、费力、还容易出错，这就对评论信息的收集带来了许多的不足之处。

发明内容

本发明针对现有技术的不足之处提供了一种互联网信息数据挖掘方法，解决人为的对产品评论信息的情感分析所带来的费时费力、还容易出错的问题。

为了实现上述目的，本发明采用的技术方案为：

一种互联网信息数据挖掘方法，其特征在于，步骤如下：

（1）从互联网上获取产品信息和对应的评论热点主题关键词，组成产品-热点主题关键词词典；

（2）获取评论数据源，对每条评论过滤热点主题关键词对，并通过稀疏表示，同时对稀疏矩阵进行热点主题关键词的更新；

（3）对获得的热点主题关键词进行相应的情感分析，得到不同的情感分析；

（4）将得到的情感分析对应相关热点主题关键词通过降序的方式反馈给用户。

进一步，所述步骤（1）的具体步骤如下：

（11）获取产品信息；

（12）对应获取的产品信息，从互联网上获取相关的产品评论热点主题关键词；

（13）将从互联网上获取的相关产品评论热点主题关键词与产品构成产品-热点主题关键词词典。

进一步，所述步骤（2）的具体步骤如下：

（21）从互联网上获取所有的关于相关产品的评论信息；

（22）对每条评论进行过滤，提取出所有评论信息中出现的名词、形容词以及相相应的名词短语；

（23）将提取的名词、形容词以及相应的名词短语在通过稀疏表示；

（24）将提取的名词、形容词以及相应的名词短语对稀疏矩阵进行热点主题关键词的更新。

进一步，所述步骤（23）的具体步骤如下：

（231）获取名词、形容词以及相应的名词短语。

（232）对获取的名词、形容词以及相应的名词短语进行降维处理。

（233）设定误差上界，根据公式x2=argmin||x||1 s.t.||Ax-y||2<=e进行求解。

（234）根据公式min r(y)=||y-A*di(x2)||2进行分类，输出计算后的分类。

进一步，所述步骤（3）的具体步骤如下：

（31）获取热点主题关键词；

（32）在热点主题关键词的基础上，加入用户的情感表述规则，进行评论信息在句子粒度级别的情感分类；

(33)通过对词典库进行统计，针对每个产品特征建立一个情感极性动态变化的词典，通过对评论信息的上下文语境分析，迭代地推断出了所述评论信息针对对应的所述产品特征的情感分类。

与现有技术相比，本发明的优点在于：

一、能够准确快速的挖掘出与产品相关的评论中的热点主题关键词，克服了人为收集的不足之处；

二、对新增加的热点主题词更新处理及时，能够更好的满足互联网中大量产品评论热点主题关键词的推荐；

三、评论信息的过滤准确性高，减少了人为统计的误差。

附图说明

图1为本发明的流程示意图；

图2为本发明中产品-热点主题关键词词典构成的示意图；

图3为本发明中稀疏表示、更新热点主题关键词词典的示意图；

图4为本发明中情感分析示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的说明。

一种互联网信息数据挖掘方法，步骤如下：

（1）从互联网上获取产品信息和对应的评论热点主题关键词，组成产品-热点主题关键词词典，具体步骤如下：

（11）获取产品信息，如输入商标名称、产品号等；词典的内容为大多数用户所关心的热点主题关键词，加载原始热点主题关键词利用SET数据结构来保证关键词的唯一性，最后根据该结构中最终的顺序来确定每个热点主题关键词的ORDER,同时以该ORDER为下标建立热点主题关键词数组。

（12）对应获取的产品信息，从互联网上获取相关的产品评论热点主题关键词，首先输入网址，再通过抓虫抓取相关产品的评论信息，并检索出相关的热点主题关键词。

（13）将从互联网上获取的相关产品评论热点主题关键词与产品构成产品-热点主题关键词词典，将检索出的相关的热点主题关键词与产品构成产品-热点主题关键词词典。建立以热点主题关键词KEY，ORDER为VALUE的MAP数据结构。利用这两个数据结构实现String,ORDER的双向快速查询，即产品-热点主题关键词。

（2）获取评论数据源，对每条评论过滤热点主题关键词对，并通过稀疏表示，同时对稀疏矩阵进行热点主题关键词的更新，具体步骤如下：

（21）从互联网上获取所有的关于相关产品的评论信息；

（22）对每条评论进行过滤，提取出所有评论信息中出现的名词、形容词以及相相应的名词短语；通过关联规则挖掘的方法提取出评论信息中出现的名词以及名词短语。根据这些特征，可以定义所提取的名词性短语或情感词的语法形式，例如形容词、名词、动词、代词以及它们的结合。通过定义规则得到的情感词进行剪枝去噪，从而提取出被频繁描述的产品特征。

（23）将提取的名词、形容词以及相应的名词短语在通过稀疏表示；具体步骤为：

（231）获取名词、形容词以及相应的名词短语。

（24）将提取的名词、形容词以及相应的名词短语对稀疏矩阵进行热点主题关键词的更新。加载热点主题关键词词典，并且加载新增热点主题关键词词典，利用SET数据结构来保证热点主题关键词的唯一性。

（31）获取热点主题关键词；

（4）将得到的情感分析对应相关热点主题关键词通过降序的方式反馈给用户。通过反馈的产品情感词信息，可以得到相应的产品反应情况，并可实施下一步计划。

Claims

1.一种互联网信息数据挖掘方法，其特征在于，步骤如下：

2.根据权利要求1所述的一种互联网信息数据挖掘方法，其特征在于，所述步骤（1）的具体步骤如下：

（11）获取产品信息；

3.根据权利要求1所述的一种互联网信息数据挖掘方法，其特征在于，所述步骤（2）的具体步骤如下：

（21）从互联网上获取所有的关于相关产品的评论信息；

4.根据权利要求3所述的一种互联网信息数据挖掘方法，其特征在于，所述步骤（23）的具体步骤如下：

（231）获取名词、形容词以及相应的名词短语；

（232）对获取的名词、形容词以及相应的名词短语进行降维处理；

（233）设定误差上界，根据公式x2=argmin||x||1 s.t.||Ax-y||2<=e进行求解；

5.根据权利要求1所述的一种互联网信息数据挖掘方法，其特征在于，所述步骤（3）的具体步骤如下：

（31）获取热点主题关键词；