CN101369275A - 一种非结构化文本中的产品属性挖掘方法 - Google Patents

一种非结构化文本中的产品属性挖掘方法 Download PDF

Info

Publication number
CN101369275A
CN101369275A CNA2008101209822A CN200810120982A CN101369275A CN 101369275 A CN101369275 A CN 101369275A CN A2008101209822 A CNA2008101209822 A CN A2008101209822A CN 200810120982 A CN200810120982 A CN 200810120982A CN 101369275 A CN101369275 A CN 101369275A
Authority
CN
China
Prior art keywords
attribute
structured text
product attribute
product
thick
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008101209822A
Other languages
English (en)
Inventor
卜佳俊
陈纯
仇光
周超
史源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CNA2008101209822A priority Critical patent/CN101369275A/zh
Publication of CN101369275A publication Critical patent/CN101369275A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种非结构化文本中的产品属性挖掘方法。是通过对非结构化文本进行中文分词与词性标注,然后对其中的名词进行关联规则挖掘获得产品的粗属性,再采用基于搜索引擎的方法进行过滤,获得真正的产品属性。产品属性按照出现频率排序。本发明在非结构化文本中的产品属性挖掘的查全率,查准率以及F值指标上均有很好的表现,并且适用范围广。

Description

一种非结构化文本中的产品属性挖掘方法
技术领域
本发明涉及自然语言处理,信息检索,数据挖掘,机器学习技术领域,特别是涉及一种非结构化文本中的产品属性挖掘方法。
背景技术
随着互联网技术的不断发展,互联网用户的不断增加,网络上的数据与资源正以爆炸式的速度迅速增长。C2C,B2C等电子商务模式的流行,使得网络购物成为继传统购物方式后的又一越来越主流的购物方式,随着电子商务网站功能的完善与用户的增多,用户在电子商务网站上做出的对自己所购买产品的评论信息也越来越多,包括产品的价格,产品各个功能的性能等等。另一方面,随着互联网论坛的兴起,已经涌现了一大批专门讨论各种产品的论坛,其中尤其以讨论手机,数码相机,MP3等数码产品的论坛尤为人气旺盛,几个知名的产品论坛上汇集了数量相当可观的有价值的产品评论信息。上述所说的电子商务网站和论坛中汇聚的产品评论信息可以统称为针对产品评论的非结构化文本,对非结构化文本的研究因为存在很大的市场价值成为当前国际上的一个研究热点。
针对产品评论的非结构化文本的研究,可以从挖掘其中的产品属性出发,通过挖掘非结构化文本中的产品属性,然后将评论文本按照产品属性条目分类,可以使得非结构化的评论文本具有更好的表达价值的能力。挖掘非结构化文本中的产品属性存在达到高的查全率与高的查准率两个难题,特别是要达到高的查准率,目前还尚未有十分有效的方法。
发明内容
本发明的目的在于提供基于关联规则挖掘和搜索引擎过滤的一种非结构化文本中的产品属性挖掘方法。
本发明解决其技术问题所采用的技术方案的步骤如下:
1)对非结构化文本进行中文分词和词性标注;
2)对步骤1)中标注为名词的词语进行关联规则挖掘,挖掘出其中的频繁项,定义为粗属性;
3)对步骤2)中的粗属性进行基于搜索引擎的产品属性过滤,滤去非产品属性的频繁项,提取真正的产品属性。
4)把步骤3)中挖掘出的产品属性按照其在非结构化文本中的出现频率排序。
所述步骤1)中对非结构化文本进行中文分词为基于词语的中文分词,词性标注的关键为名词词性标注。
所述步骤2)中是采用机器学习中的Apriori算法对步骤1)中的名词进行关联规则挖掘,挖掘其中的频繁项,作为粗属性。
所述步骤3)中采用基于搜索引擎的方法过滤步骤2)中的粗属性,具体方法为将产品类别与粗属性组成新的搜索词条发送到百度搜索引擎中,检查百度针对该搜索词条的返回结果的摘要中是否包含该词条来决定是否保留或者过滤粗属性。
所述步骤4)中把挖掘出的产品属性根据其在非结构化文本中出现的频率进行排序,从而可以将结果按照讨论热度排序。
本发明与背景技术相比,具有的有益的效果是:
本发明是一种基于关联规则挖掘和搜索引擎过滤的非结构化文本中的产品属性挖掘方法。它适用于挖掘针对产品评论的非结构化文本中的产品属性。本发明的方法是通过对非结构化文本进行中文分词和词性标注,进而对其中的名词进行关联规则挖掘找出其中的频繁项并将其定义为粗属性,然后采用基于搜索引擎的方法过滤其中的非产品属性的粗属性,提取真正的产品属性,然后把产品属性按照出现频率排序。本发明在非结构化文本中的产品属性挖掘的查全率,查准率以及F-score值指标上均有很好的表现,并且适用范围广。
具体实施方式
在本发明的实施中,首先设定预处理的目标产品,通过网络爬虫抓取论坛等产品评论信息密集的网页资源,对其进行去HTML标签、正文提取等预处理后,对所获得的非结构化正文进行中文分词和词性标注等潜层语法处理,使得文本成为由词及词性组成的集合;其后基于频繁项挖掘的思想,对以上数据进行关联规则挖掘,将获得结果作为产品的粗属性;然而,受互联网数据噪音的影响,上述挖掘的结果中存在非属性的频繁项,本发明中采用基于搜索引擎的方法对噪音频繁项进行过滤,从而获得真正的产品属性;最后对获得的产品属性进行基于频率的排序。本发明实施的关键有三点:粗属性的提取,基于搜索引擎的产品属性过滤,基于出现频率的产品属性排序。其中中文分词、词性标注是本发明实施的基础。
1.粗属性的提取:
粗属性的提取主要采用机器学习中的关联规则挖掘算法,这里采用Apriori方法。具体过程为对经过中文分词和词性标注后非结构化文本中的名词进行关联规则挖掘,并且设定最小支持度为0.01,从而得到频繁项作为粗属性。
2.基于搜索引擎的产品属性过滤:
基于搜索引擎的产品属性过滤主要目的是过滤粗属性中不是产品属性的部分。具体方法为将非结构化文本中所讨论的产品的“产品类别”与粗属性组成新的搜索词条发送到百度搜索引擎中,然后检查百度针对该搜索词条的返回结果除去百度推广后的前三条摘要,如果摘要完整包含搜索词条则保留该属性,
如果摘要不包含搜索词条则删除此粗属性。
3.基于出现频率的产品属性排序
基于出现频率的产品属性排序主要目的是将产品属性按照讨论热度排序。具体方法为统计经过关联规则挖掘和搜索引擎过滤产生的产品属性的出现频率,然后将产品属性按照出现频率由多到少排序,从而反应各个产品属性的讨论热度。

Claims (5)

1.一种非结构化文本中的产品属性挖掘方法,其特征在于该方法的步骤如下:
1)对非结构化文本进行中文分词和词性标注;
2)对步骤1)中标注为名词的词语进行关联规则挖掘,挖掘出其中的频繁项,定义为粗属性;
3)对步骤2)中的粗属性进行基于搜索引擎的产品属性过滤,滤去非产品属性的频繁项,提取真正的产品属性;
4)把步骤3)中挖掘出的产品属性按照其在非结构化文本中的出现频率排序。
2.根据权利要求1所述的一种非结构化文本中的产品属性挖掘方法,其特征在于:所述步骤1)中对非结构化文本进行中文分词为基于词语的中文分词,词性标注的关键为名词词性标注。
3.根据权利要求1所述的一种非结构化文本中的产品属性挖掘方法,其特征在于:所述步骤2)中是采用机器学习中的Apriori算法对步骤1)中的名词进行关联规则挖掘,挖掘其中的频繁项,作为粗属性。
4.根据权利要求1所述的一种非结构化文本中的产品属性挖掘方法,其特征在于:所述步骤3)中采用基于搜索引擎的方法过滤步骤2)中的粗属性,具体方法为将产品类别与粗属性组成新的搜索词条发送到百度搜索引擎中,检查百度针对该搜索词条的返回结果的摘要中是否包含该词条来决定是否保留或者过滤粗属性。
5.根据权利要求1所述的一种非结构化文本中的产品属性挖掘方法,其特征在于:所述步骤4)中把挖掘出的产品属性根据其在非结构化文本中出现的频率进行排序,从而可以将结果按照讨论热度排序。
CNA2008101209822A 2008-09-10 2008-09-10 一种非结构化文本中的产品属性挖掘方法 Pending CN101369275A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2008101209822A CN101369275A (zh) 2008-09-10 2008-09-10 一种非结构化文本中的产品属性挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2008101209822A CN101369275A (zh) 2008-09-10 2008-09-10 一种非结构化文本中的产品属性挖掘方法

Publications (1)

Publication Number Publication Date
CN101369275A true CN101369275A (zh) 2009-02-18

Family

ID=40413091

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008101209822A Pending CN101369275A (zh) 2008-09-10 2008-09-10 一种非结构化文本中的产品属性挖掘方法

Country Status (1)

Country Link
CN (1) CN101369275A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073684A (zh) * 2010-12-22 2011-05-25 百度在线网络技术(北京)有限公司 搜索日志的挖掘方法和装置以及页面搜索的方法和装置
CN102298588A (zh) * 2010-06-25 2011-12-28 株式会社理光 从非结构化文档中抽取对象的方法和装置
CN102737039A (zh) * 2011-04-07 2012-10-17 北京百度网讯科技有限公司 索引建立方法、搜索方法和搜索结果排序方法及对应装置
CN103617290A (zh) * 2013-12-13 2014-03-05 江苏名通信息科技有限公司 中文机器阅读系统
CN108475388A (zh) * 2015-12-31 2018-08-31 电子湾有限公司 用于识别靠前属性的用户界面
CN109934644A (zh) * 2017-12-15 2019-06-25 西安比卓电子科技有限公司 一种信息创建方法
CN113655968A (zh) * 2021-08-24 2021-11-16 上海晋朔信息科技有限公司 非结构化数据存储方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298588A (zh) * 2010-06-25 2011-12-28 株式会社理光 从非结构化文档中抽取对象的方法和装置
CN102298588B (zh) * 2010-06-25 2014-04-30 株式会社理光 从非结构化文档中抽取对象的方法和装置
CN102073684A (zh) * 2010-12-22 2011-05-25 百度在线网络技术(北京)有限公司 搜索日志的挖掘方法和装置以及页面搜索的方法和装置
CN102073684B (zh) * 2010-12-22 2014-08-13 百度在线网络技术(北京)有限公司 搜索日志的挖掘方法、时效性需求识别的方法及对应装置
CN102737039A (zh) * 2011-04-07 2012-10-17 北京百度网讯科技有限公司 索引建立方法、搜索方法和搜索结果排序方法及对应装置
CN102737039B (zh) * 2011-04-07 2014-11-12 北京百度网讯科技有限公司 索引建立方法、搜索方法和搜索结果排序方法及对应装置
CN103617290A (zh) * 2013-12-13 2014-03-05 江苏名通信息科技有限公司 中文机器阅读系统
CN103617290B (zh) * 2013-12-13 2017-02-15 江苏名通信息科技有限公司 中文机器阅读系统
CN108475388A (zh) * 2015-12-31 2018-08-31 电子湾有限公司 用于识别靠前属性的用户界面
US11544776B2 (en) 2015-12-31 2023-01-03 Ebay Inc. System, method, and media for identifying top attributes
CN109934644A (zh) * 2017-12-15 2019-06-25 西安比卓电子科技有限公司 一种信息创建方法
CN113655968A (zh) * 2021-08-24 2021-11-16 上海晋朔信息科技有限公司 非结构化数据存储方法

Similar Documents

Publication Publication Date Title
CN107193803B (zh) 一种基于语义的特定任务文本关键词提取方法
CN103617169B (zh) 一种基于Hadoop的微博热点话题提取方法
CN101231661B (zh) 对象级知识挖掘的方法和系统
CN103365924B (zh) 一种互联网信息搜索的方法、装置和终端
CN101369275A (zh) 一种非结构化文本中的产品属性挖掘方法
CN104598607B (zh) 推荐搜索短语的方法及系统
CN101609459A (zh) 一种情感特征词提取系统
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
WO2017101728A1 (zh) 一种相似词的聚合方法和装置
WO2008073784A1 (en) Web site structure analysis
CN104679825A (zh) 基于网络文本的地震宏观异常信息获取与筛选方法
CN105138558A (zh) 基于用户访问内容的实时个性化信息采集方法
CN106980651B (zh) 一种基于知识图谱的爬取种子列表更新方法及装置
Wu et al. News filtering and summarization on the web
CN103324622A (zh) 一种自动生成首页摘要的方法及装置
CN111324801A (zh) 基于热点词的司法领域热点事件发现方法
CN104899215A (zh) 数据处理方法、推荐源信息组织和信息推荐方法及装置
Nakayama et al. Wikipedia Link Structure and Text Mining for Semantic Relation Extraction.
Yu et al. A survey about algorithms utilized by focused web crawler
CN101216836B (zh) 一种网页锚文本去噪系统及方法
Janbandhu et al. Analysis of web crawling algorithms
CN103488741A (zh) 一种基于url的中文多语义名词的在线语义挖掘系统
Kavasoğlu et al. Personalized summarization of customer reviews based on user’s browsing history
CN1828600A (zh) 基于点击地图界面的分类链接相应网站的信息搜索方法
Ren et al. Role-explicit query extraction and utilization for quantifying user intents

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20090218