CN104731946A - 一种互联网信息数据挖掘方法 - Google Patents
一种互联网信息数据挖掘方法 Download PDFInfo
- Publication number
- CN104731946A CN104731946A CN201510149573.5A CN201510149573A CN104731946A CN 104731946 A CN104731946 A CN 104731946A CN 201510149573 A CN201510149573 A CN 201510149573A CN 104731946 A CN104731946 A CN 104731946A
- Authority
- CN
- China
- Prior art keywords
- key words
- product
- subject key
- focus subject
- internet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种互联网信息数据挖掘方法,属于互联网信息数据挖掘技术领域,解决人为的对产品评论信息的情感分析所带来的费时费力、还容易出错的问题。本发明的步骤为从互联网上获取产品信息和对应的评论热点主题关键词,组成产品-热点主题关键词词典;获取评论数据源,对每条评论过滤热点主题关键词对,并通过稀疏表示,同时对稀疏矩阵进行热点主题关键词的更新;对获得的热点主题关键词进行相应的情感分析,得到不同的情感分析;将得到的情感分析对应相关热点主题关键词通过降序的方式反馈给用户。本发明用于挖掘相关产品的评论信息。
Description
技术领域
一种互联网信息数据挖掘方法,用于挖掘相关产品的评论信息,属于互联网信息数据挖掘技术领域。
背景技术
随着互联网的日渐普及,在数据迅速膨胀的背景下,对于热点主题进行关联性的海量信息梳理就成为了一处必要的手段,例如梳理出互联网所传达的公众对于社会事件,热点人物以及电商产品的评论信息受到了各方的特别关注。用户不仅仅是一个简单的信息浏览者的角色,也是一个信息的发布者,现在互联网买卖产品越来越多,想要让客户和买家了解产品的相关信息,往往都是通过对产品的评论信息来进行了解的,从这些海量的用户评论中快速提取出有参考价值的信息也越来越复杂。不仅收集评论信息消耗的时间越来越长,而且仅仅依靠人力收集、排序、分析、整理和记忆,费时、费力、还容易出错,这就对评论信息的收集带来了许多的不足之处。
发明内容
本发明针对现有技术的不足之处提供了一种互联网信息数据挖掘方法,解决人为的对产品评论信息的情感分析所带来的费时费力、还容易出错的问题。
为了实现上述目的,本发明采用的技术方案为:
一种互联网信息数据挖掘方法,其特征在于,步骤如下:
(1)从互联网上获取产品信息和对应的评论热点主题关键词,组成产品-热点主题关键词词典;
(2)获取评论数据源,对每条评论过滤热点主题关键词对,并通过稀疏表示,同时对稀疏矩阵进行热点主题关键词的更新;
(3)对获得的热点主题关键词进行相应的情感分析,得到不同的情感分析;
(4)将得到的情感分析对应相关热点主题关键词通过降序的方式反馈给用户。
进一步,所述步骤(1)的具体步骤如下:
(11)获取产品信息;
(12)对应获取的产品信息,从互联网上获取相关的产品评论热点主题关键词;
(13)将从互联网上获取的相关产品评论热点主题关键词与产品构成产品-热点主题关键词词典。
进一步,所述步骤(2)的具体步骤如下:
(21)从互联网上获取所有的关于相关产品的评论信息;
(22)对每条评论进行过滤,提取出所有评论信息中出现的名词、形容词以及相相应的名词短语;
(23)将提取的名词、形容词以及相应的名词短语在通过稀疏表示;
(24)将提取的名词、形容词以及相应的名词短语对稀疏矩阵进行热点主题关键词的更新。
进一步,所述步骤(23)的具体步骤如下:
(231)获取名词、形容词以及相应的名词短语。
(232)对获取的名词、形容词以及相应的名词短语进行降维处理。
(233)设定误差上界,根据公式x2=argmin||x||1 s.t.||Ax-y||2<=e进行求解。
(234)根据公式min r(y)=||y-A*di(x2)||2进行分类,输出计算后的分类。
进一步,所述步骤(3)的具体步骤如下:
(31)获取热点主题关键词;
(32)在热点主题关键词的基础上,加入用户的情感表述规则,进行评论信息在句子粒度级别的情感分类;
(33)通过对词典库进行统计,针对每个产品特征建立一个情感极性动态变化的词典,通过对评论信息的上下文语境分析,迭代地推断出了所述评论信息针对对应的所述产品特征的情感分类。
与现有技术相比,本发明的优点在于:
一、能够准确快速的挖掘出与产品相关的评论中的热点主题关键词,克服了人为收集的不足之处 ;
二、对新增加的热点主题词更新处理及时,能够更好的满足互联网中大量产品评论热点主题关键词的推荐;
三、评论信息的过滤准确性高,减少了人为统计的误差。
附图说明
图1为本发明的流程示意图;
图2为本发明中产品-热点主题关键词词典构成的示意图;
图3为本发明中稀疏表示、更新热点主题关键词词典的示意图;
图4为本发明中情感分析示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明。
一种互联网信息数据挖掘方法,步骤如下:
(1) 从互联网上获取产品信息和对应的评论热点主题关键词,组成产品-热点主题关键词词典,具体步骤如下:
(11)获取产品信息,如输入商标名称、产品号等;词典的内容为大多数用户所关心的热点主题关键词,加载原始热点主题关键词利用SET数据结构来保证关键词的唯一性,最后根据该结构中最终的顺序来确定每个热点主题关键词的ORDER,同时以该ORDER为下标建立热点主题关键词数组。
(12)对应获取的产品信息,从互联网上获取相关的产品评论热点主题关键词,首先输入网址,再通过抓虫抓取相关产品的评论信息,并检索出相关的热点主题关键词。
(13)将从互联网上获取的相关产品评论热点主题关键词与产品构成产品-热点主题关键词词典,将检索出的相关的热点主题关键词与产品构成产品-热点主题关键词词典。建立以热点主题关键词KEY,ORDER为VALUE的MAP数据结构。利用这两个数据结构实现String,ORDER的双向快速查询,即产品-热点主题关键词。
(2)获取评论数据源,对每条评论过滤热点主题关键词对,并通过稀疏表示,同时对稀疏矩阵进行热点主题关键词的更新,具体步骤如下:
(21)从互联网上获取所有的关于相关产品的评论信息;
(22)对每条评论进行过滤,提取出所有评论信息中出现的名词、形容词以及相相应的名词短语;通过关联规则挖掘的方法提取出评论信息中出现的名词以及名词短语。根据这些特征,可以定义所提取的名词性短语或情感词的语法形式,例如形容词、名词、动词、代词以及它们的结合。通过定义规则得到的情感词进行剪枝去噪,从而提取出被频繁描述的产品特征。
(23)将提取的名词、形容词以及相应的名词短语在通过稀疏表示;具体步骤为:
(231)获取名词、形容词以及相应的名词短语。
(232)对获取的名词、形容词以及相应的名词短语进行降维处理。
(233)设定误差上界,根据公式x2=argmin||x||1 s.t.||Ax-y||2<=e进行求解。
(234)根据公式min r(y)=||y-A*di(x2)||2进行分类,输出计算后的分类。
(24)将提取的名词、形容词以及相应的名词短语对稀疏矩阵进行热点主题关键词的更新。加载热点主题关键词词典,并且加载新增热点主题关键词词典,利用SET数据结构来保证热点主题关键词的唯一性。
(3)对获得的热点主题关键词进行相应的情感分析,得到不同的情感分析;
(31)获取热点主题关键词;
(32)在热点主题关键词的基础上,加入用户的情感表述规则,进行评论信息在句子粒度级别的情感分类;
(33)通过对词典库进行统计,针对每个产品特征建立一个情感极性动态变化的词典,通过对评论信息的上下文语境分析,迭代地推断出了所述评论信息针对对应的所述产品特征的情感分类。
(4)将得到的情感分析对应相关热点主题关键词通过降序的方式反馈给用户。通过反馈的产品情感词信息,可以得到相应的产品反应情况,并可实施下一步计划。
Claims (5)
1.一种互联网信息数据挖掘方法,其特征在于,步骤如下:
(1)从互联网上获取产品信息和对应的评论热点主题关键词,组成产品-热点主题关键词词典;
(2)获取评论数据源,对每条评论过滤热点主题关键词对,并通过稀疏表示,同时对稀疏矩阵进行热点主题关键词的更新;
(3)对获得的热点主题关键词进行相应的情感分析,得到不同的情感分析;
(4)将得到的情感分析对应相关热点主题关键词通过降序的方式反馈给用户。
2.根据权利要求1所述的一种互联网信息数据挖掘方法,其特征在于,所述步骤(1)的具体步骤如下:
(11)获取产品信息;
(12)对应获取的产品信息,从互联网上获取相关的产品评论热点主题关键词;
(13)将从互联网上获取的相关产品评论热点主题关键词与产品构成产品-热点主题关键词词典。
3.根据权利要求1所述的一种互联网信息数据挖掘方法,其特征在于,所述步骤(2)的具体步骤如下:
(21)从互联网上获取所有的关于相关产品的评论信息;
(22)对每条评论进行过滤,提取出所有评论信息中出现的名词、形容词以及相相应的名词短语;
(23)将提取的名词、形容词以及相应的名词短语在通过稀疏表示;
(24)将提取的名词、形容词以及相应的名词短语对稀疏矩阵进行热点主题关键词的更新。
4.根据权利要求3所述的一种互联网信息数据挖掘方法,其特征在于,所述步骤(23)的具体步骤如下:
(231)获取名词、形容词以及相应的名词短语;
(232)对获取的名词、形容词以及相应的名词短语进行降维处理;
(233)设定误差上界,根据公式x2=argmin||x||1 s.t.||Ax-y||2<=e进行求解;
(234)根据公式min r(y)=||y-A*di(x2)||2进行分类,输出计算后的分类。
5.根据权利要求1所述的一种互联网信息数据挖掘方法,其特征在于,所述步骤(3)的具体步骤如下:
(31)获取热点主题关键词;
(32)在热点主题关键词的基础上,加入用户的情感表述规则,进行评论信息在句子粒度级别的情感分类;
(33)通过对词典库进行统计,针对每个产品特征建立一个情感极性动态变化的词典,通过对评论信息的上下文语境分析,迭代地推断出了所述评论信息针对对应的所述产品特征的情感分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510149573.5A CN104731946A (zh) | 2015-04-01 | 2015-04-01 | 一种互联网信息数据挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510149573.5A CN104731946A (zh) | 2015-04-01 | 2015-04-01 | 一种互联网信息数据挖掘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104731946A true CN104731946A (zh) | 2015-06-24 |
Family
ID=53455833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510149573.5A Pending CN104731946A (zh) | 2015-04-01 | 2015-04-01 | 一种互联网信息数据挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104731946A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783807A (zh) * | 2018-12-21 | 2019-05-21 | 昆明理工大学 | 一种针对app软件缺陷的用户评论挖掘方法 |
CN110852085A (zh) * | 2019-08-19 | 2020-02-28 | 湖南正宇软件技术开发有限公司 | 一种热点主题挖掘方法和系统 |
CN111343467A (zh) * | 2020-02-10 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 一种直播数据处理方法、装置、电子设备及存储介质 |
CN112559752A (zh) * | 2020-12-29 | 2021-03-26 | 铁道警察学院 | 一种通用型互联网信息数据挖掘方法 |
-
2015
- 2015-04-01 CN CN201510149573.5A patent/CN104731946A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783807A (zh) * | 2018-12-21 | 2019-05-21 | 昆明理工大学 | 一种针对app软件缺陷的用户评论挖掘方法 |
CN109783807B (zh) * | 2018-12-21 | 2022-10-28 | 昆明理工大学 | 一种针对app软件缺陷的用户评论挖掘方法 |
CN110852085A (zh) * | 2019-08-19 | 2020-02-28 | 湖南正宇软件技术开发有限公司 | 一种热点主题挖掘方法和系统 |
CN111343467A (zh) * | 2020-02-10 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 一种直播数据处理方法、装置、电子设备及存储介质 |
CN111343467B (zh) * | 2020-02-10 | 2021-10-26 | 腾讯科技(深圳)有限公司 | 一种直播数据处理方法、装置、电子设备及存储介质 |
CN112559752A (zh) * | 2020-12-29 | 2021-03-26 | 铁道警察学院 | 一种通用型互联网信息数据挖掘方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Stamatatos et al. | Overview of the PAN/CLEF 2015 evaluation lab | |
Subašić et al. | Peddling or creating? investigating the role of twitter in news reporting | |
CN102254038B (zh) | 一种分析网络评论相关度的系统及其分析方法 | |
CN104268160A (zh) | 一种基于领域词典和语义角色的评价对象抽取方法 | |
Lloret et al. | A novel concept-level approach for ultra-concise opinion summarization | |
CN105045847B (zh) | 一种从文本信息中提取中文机构单位名称的方法 | |
CN104731946A (zh) | 一种互联网信息数据挖掘方法 | |
CN103092956A (zh) | 社交网络平台上话题关键词自适应扩充的方法及系统 | |
CN104199845B (zh) | 基于主体模型的网上评论情感分类方法 | |
CN105718585A (zh) | 文档与标签词语义关联方法及其装置 | |
CN104915443A (zh) | 一种中文微博评价对象的抽取方法 | |
CN103186509A (zh) | 通配符类模板泛化方法和装置、通用模板泛化方法和系统 | |
CN106406913A (zh) | 一种从项目中提取代码的方法及系统 | |
Dias et al. | A method for the identification of collaboration in large scientific databases | |
CN104391852A (zh) | 一种建立关键词词库的方法和装置 | |
CN107480197A (zh) | 实体词识别方法及装置 | |
CN105718457B (zh) | 基于电子票据的信息推送方法及系统 | |
CN104462075A (zh) | 一种互联网人物信息的属性提取方法 | |
CN104217026B (zh) | 一种基于图模型的中文微博客倾向性检索方法 | |
CN103823862A (zh) | 一种跨语言的电子文本剽窃检测系统及其检测方法 | |
Lin et al. | An analysis of Wikipedia references across PLOS publications | |
Hedar et al. | Mining social networks arabic slang comments | |
CN104516956B (zh) | 一种网站信息增量爬取方法 | |
CN111753540B (zh) | 一种对于文本数据进行收集以进行自然语言处理nlp的方法及系统 | |
Berné et al. | Top-down formation of fullerenes in the interstellar medium (Corrigendum) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150624 |
|
RJ01 | Rejection of invention patent application after publication |