CN101369275A - 一种非结构化文本中的产品属性挖掘方法 - Google Patents
一种非结构化文本中的产品属性挖掘方法 Download PDFInfo
- Publication number
- CN101369275A CN101369275A CNA2008101209822A CN200810120982A CN101369275A CN 101369275 A CN101369275 A CN 101369275A CN A2008101209822 A CNA2008101209822 A CN A2008101209822A CN 200810120982 A CN200810120982 A CN 200810120982A CN 101369275 A CN101369275 A CN 101369275A
- Authority
- CN
- China
- Prior art keywords
- attribute
- structured text
- product attribute
- product
- thick
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000009412 basement excavation Methods 0.000 title claims description 13
- 238000001914 filtration Methods 0.000 claims abstract description 13
- 238000005065 mining Methods 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000010801 machine learning Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 2
- 238000003379 elimination reaction Methods 0.000 claims description 2
- 238000012552 review Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种非结构化文本中的产品属性挖掘方法。是通过对非结构化文本进行中文分词与词性标注,然后对其中的名词进行关联规则挖掘获得产品的粗属性,再采用基于搜索引擎的方法进行过滤,获得真正的产品属性。产品属性按照出现频率排序。本发明在非结构化文本中的产品属性挖掘的查全率,查准率以及F值指标上均有很好的表现,并且适用范围广。
Description
技术领域
本发明涉及自然语言处理,信息检索,数据挖掘,机器学习技术领域,特别是涉及一种非结构化文本中的产品属性挖掘方法。
背景技术
随着互联网技术的不断发展,互联网用户的不断增加,网络上的数据与资源正以爆炸式的速度迅速增长。C2C,B2C等电子商务模式的流行,使得网络购物成为继传统购物方式后的又一越来越主流的购物方式,随着电子商务网站功能的完善与用户的增多,用户在电子商务网站上做出的对自己所购买产品的评论信息也越来越多,包括产品的价格,产品各个功能的性能等等。另一方面,随着互联网论坛的兴起,已经涌现了一大批专门讨论各种产品的论坛,其中尤其以讨论手机,数码相机,MP3等数码产品的论坛尤为人气旺盛,几个知名的产品论坛上汇集了数量相当可观的有价值的产品评论信息。上述所说的电子商务网站和论坛中汇聚的产品评论信息可以统称为针对产品评论的非结构化文本,对非结构化文本的研究因为存在很大的市场价值成为当前国际上的一个研究热点。
针对产品评论的非结构化文本的研究,可以从挖掘其中的产品属性出发,通过挖掘非结构化文本中的产品属性,然后将评论文本按照产品属性条目分类,可以使得非结构化的评论文本具有更好的表达价值的能力。挖掘非结构化文本中的产品属性存在达到高的查全率与高的查准率两个难题,特别是要达到高的查准率,目前还尚未有十分有效的方法。
发明内容
本发明的目的在于提供基于关联规则挖掘和搜索引擎过滤的一种非结构化文本中的产品属性挖掘方法。
本发明解决其技术问题所采用的技术方案的步骤如下:
1)对非结构化文本进行中文分词和词性标注;
2)对步骤1)中标注为名词的词语进行关联规则挖掘,挖掘出其中的频繁项,定义为粗属性;
3)对步骤2)中的粗属性进行基于搜索引擎的产品属性过滤,滤去非产品属性的频繁项,提取真正的产品属性。
4)把步骤3)中挖掘出的产品属性按照其在非结构化文本中的出现频率排序。
所述步骤1)中对非结构化文本进行中文分词为基于词语的中文分词,词性标注的关键为名词词性标注。
所述步骤2)中是采用机器学习中的Apriori算法对步骤1)中的名词进行关联规则挖掘,挖掘其中的频繁项,作为粗属性。
所述步骤3)中采用基于搜索引擎的方法过滤步骤2)中的粗属性,具体方法为将产品类别与粗属性组成新的搜索词条发送到百度搜索引擎中,检查百度针对该搜索词条的返回结果的摘要中是否包含该词条来决定是否保留或者过滤粗属性。
所述步骤4)中把挖掘出的产品属性根据其在非结构化文本中出现的频率进行排序,从而可以将结果按照讨论热度排序。
本发明与背景技术相比,具有的有益的效果是:
本发明是一种基于关联规则挖掘和搜索引擎过滤的非结构化文本中的产品属性挖掘方法。它适用于挖掘针对产品评论的非结构化文本中的产品属性。本发明的方法是通过对非结构化文本进行中文分词和词性标注,进而对其中的名词进行关联规则挖掘找出其中的频繁项并将其定义为粗属性,然后采用基于搜索引擎的方法过滤其中的非产品属性的粗属性,提取真正的产品属性,然后把产品属性按照出现频率排序。本发明在非结构化文本中的产品属性挖掘的查全率,查准率以及F-score值指标上均有很好的表现,并且适用范围广。
具体实施方式
在本发明的实施中,首先设定预处理的目标产品,通过网络爬虫抓取论坛等产品评论信息密集的网页资源,对其进行去HTML标签、正文提取等预处理后,对所获得的非结构化正文进行中文分词和词性标注等潜层语法处理,使得文本成为由词及词性组成的集合;其后基于频繁项挖掘的思想,对以上数据进行关联规则挖掘,将获得结果作为产品的粗属性;然而,受互联网数据噪音的影响,上述挖掘的结果中存在非属性的频繁项,本发明中采用基于搜索引擎的方法对噪音频繁项进行过滤,从而获得真正的产品属性;最后对获得的产品属性进行基于频率的排序。本发明实施的关键有三点:粗属性的提取,基于搜索引擎的产品属性过滤,基于出现频率的产品属性排序。其中中文分词、词性标注是本发明实施的基础。
1.粗属性的提取:
粗属性的提取主要采用机器学习中的关联规则挖掘算法,这里采用Apriori方法。具体过程为对经过中文分词和词性标注后非结构化文本中的名词进行关联规则挖掘,并且设定最小支持度为0.01,从而得到频繁项作为粗属性。
2.基于搜索引擎的产品属性过滤:
基于搜索引擎的产品属性过滤主要目的是过滤粗属性中不是产品属性的部分。具体方法为将非结构化文本中所讨论的产品的“产品类别”与粗属性组成新的搜索词条发送到百度搜索引擎中,然后检查百度针对该搜索词条的返回结果除去百度推广后的前三条摘要,如果摘要完整包含搜索词条则保留该属性,
如果摘要不包含搜索词条则删除此粗属性。
3.基于出现频率的产品属性排序
基于出现频率的产品属性排序主要目的是将产品属性按照讨论热度排序。具体方法为统计经过关联规则挖掘和搜索引擎过滤产生的产品属性的出现频率,然后将产品属性按照出现频率由多到少排序,从而反应各个产品属性的讨论热度。
Claims (5)
1.一种非结构化文本中的产品属性挖掘方法,其特征在于该方法的步骤如下:
1)对非结构化文本进行中文分词和词性标注;
2)对步骤1)中标注为名词的词语进行关联规则挖掘,挖掘出其中的频繁项,定义为粗属性;
3)对步骤2)中的粗属性进行基于搜索引擎的产品属性过滤,滤去非产品属性的频繁项,提取真正的产品属性;
4)把步骤3)中挖掘出的产品属性按照其在非结构化文本中的出现频率排序。
2.根据权利要求1所述的一种非结构化文本中的产品属性挖掘方法,其特征在于:所述步骤1)中对非结构化文本进行中文分词为基于词语的中文分词,词性标注的关键为名词词性标注。
3.根据权利要求1所述的一种非结构化文本中的产品属性挖掘方法,其特征在于:所述步骤2)中是采用机器学习中的Apriori算法对步骤1)中的名词进行关联规则挖掘,挖掘其中的频繁项,作为粗属性。
4.根据权利要求1所述的一种非结构化文本中的产品属性挖掘方法,其特征在于:所述步骤3)中采用基于搜索引擎的方法过滤步骤2)中的粗属性,具体方法为将产品类别与粗属性组成新的搜索词条发送到百度搜索引擎中,检查百度针对该搜索词条的返回结果的摘要中是否包含该词条来决定是否保留或者过滤粗属性。
5.根据权利要求1所述的一种非结构化文本中的产品属性挖掘方法,其特征在于:所述步骤4)中把挖掘出的产品属性根据其在非结构化文本中出现的频率进行排序,从而可以将结果按照讨论热度排序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008101209822A CN101369275A (zh) | 2008-09-10 | 2008-09-10 | 一种非结构化文本中的产品属性挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008101209822A CN101369275A (zh) | 2008-09-10 | 2008-09-10 | 一种非结构化文本中的产品属性挖掘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101369275A true CN101369275A (zh) | 2009-02-18 |
Family
ID=40413091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2008101209822A Pending CN101369275A (zh) | 2008-09-10 | 2008-09-10 | 一种非结构化文本中的产品属性挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101369275A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073684A (zh) * | 2010-12-22 | 2011-05-25 | 百度在线网络技术(北京)有限公司 | 搜索日志的挖掘方法和装置以及页面搜索的方法和装置 |
CN102298588A (zh) * | 2010-06-25 | 2011-12-28 | 株式会社理光 | 从非结构化文档中抽取对象的方法和装置 |
CN102737039A (zh) * | 2011-04-07 | 2012-10-17 | 北京百度网讯科技有限公司 | 索引建立方法、搜索方法和搜索结果排序方法及对应装置 |
CN103617290A (zh) * | 2013-12-13 | 2014-03-05 | 江苏名通信息科技有限公司 | 中文机器阅读系统 |
CN108475388A (zh) * | 2015-12-31 | 2018-08-31 | 电子湾有限公司 | 用于识别靠前属性的用户界面 |
CN109934644A (zh) * | 2017-12-15 | 2019-06-25 | 西安比卓电子科技有限公司 | 一种信息创建方法 |
CN113655968A (zh) * | 2021-08-24 | 2021-11-16 | 上海晋朔信息科技有限公司 | 非结构化数据存储方法 |
-
2008
- 2008-09-10 CN CNA2008101209822A patent/CN101369275A/zh active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298588A (zh) * | 2010-06-25 | 2011-12-28 | 株式会社理光 | 从非结构化文档中抽取对象的方法和装置 |
CN102298588B (zh) * | 2010-06-25 | 2014-04-30 | 株式会社理光 | 从非结构化文档中抽取对象的方法和装置 |
CN102073684A (zh) * | 2010-12-22 | 2011-05-25 | 百度在线网络技术(北京)有限公司 | 搜索日志的挖掘方法和装置以及页面搜索的方法和装置 |
CN102073684B (zh) * | 2010-12-22 | 2014-08-13 | 百度在线网络技术(北京)有限公司 | 搜索日志的挖掘方法、时效性需求识别的方法及对应装置 |
CN102737039A (zh) * | 2011-04-07 | 2012-10-17 | 北京百度网讯科技有限公司 | 索引建立方法、搜索方法和搜索结果排序方法及对应装置 |
CN102737039B (zh) * | 2011-04-07 | 2014-11-12 | 北京百度网讯科技有限公司 | 索引建立方法、搜索方法和搜索结果排序方法及对应装置 |
CN103617290A (zh) * | 2013-12-13 | 2014-03-05 | 江苏名通信息科技有限公司 | 中文机器阅读系统 |
CN103617290B (zh) * | 2013-12-13 | 2017-02-15 | 江苏名通信息科技有限公司 | 中文机器阅读系统 |
CN108475388A (zh) * | 2015-12-31 | 2018-08-31 | 电子湾有限公司 | 用于识别靠前属性的用户界面 |
US11544776B2 (en) | 2015-12-31 | 2023-01-03 | Ebay Inc. | System, method, and media for identifying top attributes |
CN109934644A (zh) * | 2017-12-15 | 2019-06-25 | 西安比卓电子科技有限公司 | 一种信息创建方法 |
CN113655968A (zh) * | 2021-08-24 | 2021-11-16 | 上海晋朔信息科技有限公司 | 非结构化数据存储方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107193803B (zh) | 一种基于语义的特定任务文本关键词提取方法 | |
CN103617169B (zh) | 一种基于Hadoop的微博热点话题提取方法 | |
CN101231661B (zh) | 对象级知识挖掘的方法和系统 | |
CN103365924B (zh) | 一种互联网信息搜索的方法、装置和终端 | |
CN101369275A (zh) | 一种非结构化文本中的产品属性挖掘方法 | |
CN104598607B (zh) | 推荐搜索短语的方法及系统 | |
CN101609459A (zh) | 一种情感特征词提取系统 | |
CN103544255A (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
WO2017101728A1 (zh) | 一种相似词的聚合方法和装置 | |
WO2008073784A1 (en) | Web site structure analysis | |
CN104679825A (zh) | 基于网络文本的地震宏观异常信息获取与筛选方法 | |
CN105138558A (zh) | 基于用户访问内容的实时个性化信息采集方法 | |
CN106980651B (zh) | 一种基于知识图谱的爬取种子列表更新方法及装置 | |
Wu et al. | News filtering and summarization on the web | |
CN103324622A (zh) | 一种自动生成首页摘要的方法及装置 | |
CN111324801A (zh) | 基于热点词的司法领域热点事件发现方法 | |
CN104899215A (zh) | 数据处理方法、推荐源信息组织和信息推荐方法及装置 | |
Nakayama et al. | Wikipedia Link Structure and Text Mining for Semantic Relation Extraction. | |
Yu et al. | A survey about algorithms utilized by focused web crawler | |
CN101216836B (zh) | 一种网页锚文本去噪系统及方法 | |
Janbandhu et al. | Analysis of web crawling algorithms | |
CN103488741A (zh) | 一种基于url的中文多语义名词的在线语义挖掘系统 | |
Kavasoğlu et al. | Personalized summarization of customer reviews based on user’s browsing history | |
CN1828600A (zh) | 基于点击地图界面的分类链接相应网站的信息搜索方法 | |
Ren et al. | Role-explicit query extraction and utilization for quantifying user intents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20090218 |