CN101369275A

CN101369275A - 一种非结构化文本中的产品属性挖掘方法

Info

Publication number: CN101369275A
Application number: CNA2008101209822A
Authority: CN
Inventors: 卜佳俊; 陈纯; 仇光; 周超; 史源
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2008-09-10
Filing date: 2008-09-10
Publication date: 2009-02-18

Abstract

本发明公开了一种非结构化文本中的产品属性挖掘方法。是通过对非结构化文本进行中文分词与词性标注，然后对其中的名词进行关联规则挖掘获得产品的粗属性，再采用基于搜索引擎的方法进行过滤，获得真正的产品属性。产品属性按照出现频率排序。本发明在非结构化文本中的产品属性挖掘的查全率，查准率以及F值指标上均有很好的表现，并且适用范围广。

Description

一种非结构化文本中的产品属性挖掘方法

技术领域

本发明涉及自然语言处理，信息检索，数据挖掘，机器学习技术领域，特别是涉及一种非结构化文本中的产品属性挖掘方法。

背景技术

随着互联网技术的不断发展，互联网用户的不断增加，网络上的数据与资源正以爆炸式的速度迅速增长。C2C，B2C等电子商务模式的流行，使得网络购物成为继传统购物方式后的又一越来越主流的购物方式，随着电子商务网站功能的完善与用户的增多，用户在电子商务网站上做出的对自己所购买产品的评论信息也越来越多，包括产品的价格，产品各个功能的性能等等。另一方面，随着互联网论坛的兴起，已经涌现了一大批专门讨论各种产品的论坛，其中尤其以讨论手机，数码相机，MP3等数码产品的论坛尤为人气旺盛，几个知名的产品论坛上汇集了数量相当可观的有价值的产品评论信息。上述所说的电子商务网站和论坛中汇聚的产品评论信息可以统称为针对产品评论的非结构化文本，对非结构化文本的研究因为存在很大的市场价值成为当前国际上的一个研究热点。

针对产品评论的非结构化文本的研究，可以从挖掘其中的产品属性出发，通过挖掘非结构化文本中的产品属性，然后将评论文本按照产品属性条目分类，可以使得非结构化的评论文本具有更好的表达价值的能力。挖掘非结构化文本中的产品属性存在达到高的查全率与高的查准率两个难题，特别是要达到高的查准率，目前还尚未有十分有效的方法。

发明内容

本发明的目的在于提供基于关联规则挖掘和搜索引擎过滤的一种非结构化文本中的产品属性挖掘方法。

本发明解决其技术问题所采用的技术方案的步骤如下：

1)对非结构化文本进行中文分词和词性标注；

2)对步骤1)中标注为名词的词语进行关联规则挖掘，挖掘出其中的频繁项，定义为粗属性；

3)对步骤2)中的粗属性进行基于搜索引擎的产品属性过滤，滤去非产品属性的频繁项，提取真正的产品属性。

4)把步骤3)中挖掘出的产品属性按照其在非结构化文本中的出现频率排序。

所述步骤1)中对非结构化文本进行中文分词为基于词语的中文分词，词性标注的关键为名词词性标注。

所述步骤2)中是采用机器学习中的Apriori算法对步骤1)中的名词进行关联规则挖掘，挖掘其中的频繁项，作为粗属性。

所述步骤3)中采用基于搜索引擎的方法过滤步骤2)中的粗属性，具体方法为将产品类别与粗属性组成新的搜索词条发送到百度搜索引擎中，检查百度针对该搜索词条的返回结果的摘要中是否包含该词条来决定是否保留或者过滤粗属性。

所述步骤4)中把挖掘出的产品属性根据其在非结构化文本中出现的频率进行排序，从而可以将结果按照讨论热度排序。

本发明与背景技术相比，具有的有益的效果是：

本发明是一种基于关联规则挖掘和搜索引擎过滤的非结构化文本中的产品属性挖掘方法。它适用于挖掘针对产品评论的非结构化文本中的产品属性。本发明的方法是通过对非结构化文本进行中文分词和词性标注，进而对其中的名词进行关联规则挖掘找出其中的频繁项并将其定义为粗属性，然后采用基于搜索引擎的方法过滤其中的非产品属性的粗属性，提取真正的产品属性，然后把产品属性按照出现频率排序。本发明在非结构化文本中的产品属性挖掘的查全率，查准率以及F-score值指标上均有很好的表现，并且适用范围广。

具体实施方式

在本发明的实施中，首先设定预处理的目标产品，通过网络爬虫抓取论坛等产品评论信息密集的网页资源，对其进行去HTML标签、正文提取等预处理后，对所获得的非结构化正文进行中文分词和词性标注等潜层语法处理，使得文本成为由词及词性组成的集合；其后基于频繁项挖掘的思想，对以上数据进行关联规则挖掘，将获得结果作为产品的粗属性；然而，受互联网数据噪音的影响，上述挖掘的结果中存在非属性的频繁项，本发明中采用基于搜索引擎的方法对噪音频繁项进行过滤，从而获得真正的产品属性；最后对获得的产品属性进行基于频率的排序。本发明实施的关键有三点：粗属性的提取，基于搜索引擎的产品属性过滤，基于出现频率的产品属性排序。其中中文分词、词性标注是本发明实施的基础。

1.粗属性的提取：

粗属性的提取主要采用机器学习中的关联规则挖掘算法，这里采用Apriori方法。具体过程为对经过中文分词和词性标注后非结构化文本中的名词进行关联规则挖掘，并且设定最小支持度为0.01，从而得到频繁项作为粗属性。

2.基于搜索引擎的产品属性过滤：

基于搜索引擎的产品属性过滤主要目的是过滤粗属性中不是产品属性的部分。具体方法为将非结构化文本中所讨论的产品的“产品类别”与粗属性组成新的搜索词条发送到百度搜索引擎中，然后检查百度针对该搜索词条的返回结果除去百度推广后的前三条摘要，如果摘要完整包含搜索词条则保留该属性，

如果摘要不包含搜索词条则删除此粗属性。

3.基于出现频率的产品属性排序

基于出现频率的产品属性排序主要目的是将产品属性按照讨论热度排序。具体方法为统计经过关联规则挖掘和搜索引擎过滤产生的产品属性的出现频率，然后将产品属性按照出现频率由多到少排序，从而反应各个产品属性的讨论热度。

Claims

1.一种非结构化文本中的产品属性挖掘方法，其特征在于该方法的步骤如下：

1)对非结构化文本进行中文分词和词性标注；

3)对步骤2)中的粗属性进行基于搜索引擎的产品属性过滤，滤去非产品属性的频繁项，提取真正的产品属性；

2.根据权利要求1所述的一种非结构化文本中的产品属性挖掘方法，其特征在于：所述步骤1)中对非结构化文本进行中文分词为基于词语的中文分词，词性标注的关键为名词词性标注。

3.根据权利要求1所述的一种非结构化文本中的产品属性挖掘方法，其特征在于：所述步骤2)中是采用机器学习中的Apriori算法对步骤1)中的名词进行关联规则挖掘，挖掘其中的频繁项，作为粗属性。

4.根据权利要求1所述的一种非结构化文本中的产品属性挖掘方法，其特征在于：所述步骤3)中采用基于搜索引擎的方法过滤步骤2)中的粗属性，具体方法为将产品类别与粗属性组成新的搜索词条发送到百度搜索引擎中，检查百度针对该搜索词条的返回结果的摘要中是否包含该词条来决定是否保留或者过滤粗属性。

5.根据权利要求1所述的一种非结构化文本中的产品属性挖掘方法，其特征在于：所述步骤4)中把挖掘出的产品属性根据其在非结构化文本中出现的频率进行排序，从而可以将结果按照讨论热度排序。