CN104281710A - 一种网络数据挖掘方法 - Google Patents

一种网络数据挖掘方法 Download PDF

Info

Publication number
CN104281710A
CN104281710A CN201410582451.0A CN201410582451A CN104281710A CN 104281710 A CN104281710 A CN 104281710A CN 201410582451 A CN201410582451 A CN 201410582451A CN 104281710 A CN104281710 A CN 104281710A
Authority
CN
China
Prior art keywords
text
network data
excavation method
semantic
data excavation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410582451.0A
Other languages
English (en)
Inventor
贾岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing informed investment home intellectual property rights Operation Co., Ltd.
Original Assignee
ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd filed Critical ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Priority to CN201410582451.0A priority Critical patent/CN104281710A/zh
Publication of CN104281710A publication Critical patent/CN104281710A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • G06F16/24556Aggregation; Duplicate elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明提出了一种网络数据挖掘方法,对获取的网页信息进行文本分类和文本聚类,从而提取话题,具体包括以下步骤:S1、预设网络探针根据行业本体抓取网页信息;S2、对获得的网页信息进行文本提取;S3、预设分类器,将提取的文本进行文本分类,生成多个文本类系;S4、分别对每一个文本类系下的文本进行聚类,生成多个文本子类,每一个文本子类对应一个话题;S5、存储网页链接,并根据文本类系和文本子类建立索引。本发明提出的一种网络数据挖掘方法,可对重复信息进行合并。

Description

一种网络数据挖掘方法
技术领域
本发明涉及信息处理技术领域,尤其涉及一种网络数据挖掘方法。
背景技术
随着信息化程度不断加深,人们对情报信息化集成的渴求也日益强烈;互联网持续增长信息资源蕴含了巨量的具有价值的信息,成为重要的情报信息源头。
不同的网站中存在着大量的重复信息,这些信息被搜索引擎反复的索引,因此在用户使用搜索引擎检索信息的时候就会发现有很多是来自不同网站的相同信息。对于用户来说相同的文章只检索出一篇就够了,但对于搜索引擎来说保存相同内容的网页,也会造成存储资源的浪费和检索时的低效率。
发明内容
基于背景技术存在的技术问题,本发明提出了一种网络数据挖掘方法,可对重复信息进行合并。
本发明提出的一种网络数据挖掘方法,对获取的网页信息进行文本分类和文本聚类,从而提取话题,具体包括以下步骤:
S1、预设网络探针根据行业本体抓取网页信息;
S2、对获得的网页信息进行文本提取;
S3、预设分类器,将提取的文本进行文本分类,生成多个文本类系;
S4、分别对每一个文本类系下的文本进行聚类,生成多个文本子类,每一个文本子类对应一个话题;
S5、存储网页链接,并根据文本类系和文本子类建立索引。
优选地,步骤S3具体包括以下分步骤:
S31、分类器中预设实体词典,并根据每一个文本类别预设特征词典;
S32、根据实体词典对获得的文本提取实体词,并根据各实体词出现次数计算权重;
S33、根据文本中实体词与特征词典匹配度以及实体词权重,对文本进行分类。
优选地,步骤S4具体包括以下分步骤:
S41、根据每一个文本类系建立本体库,本体库中包含多个由概念形成的概念树;
S42、将文本中的实体词映射到本体库中,提取文本语义,并根据语义权重提取文本关键词,生成文本核心语义;
S43、对同一文本类系中各文本对应的核心语义进行语义相似度计算,并将语义相似度大于预设阈值A的文本归属到同一个文本子类中,0<A<1;
S44、根据文本核心语义为每一个文本子类提取一个话题。
优选地,A=0.7。
优选地,步骤S42中,同一文本中同一条文本语义对应的实体词出现次数越多,语义权重越大。
优选地,步骤S43中,语义相似度计算公式为:
Sim ( W 1 , W 2 ) = a Dis ( W 1 , W 2 ) + a
Dis(W1,W2)为概念W1、W2在概念树上的距离,a为可调节的计算常数。
本发明提供的网络数据挖掘方法,通过文本分类与文本聚类,对文本信息进行层层分析归类,提取核心信息,并将重复或相似的信息归属到同一个话题中,有根据话题的相关度将其归类到文本类系中,有利于文本检索的逻辑性,提高检索效率。
本发明通过以话题总结相似文本信息的方式,避免了对同一信息的不同网页重复索引的情况,避免了存储资源的浪费和检索时的低效率。
附图说明
图1为本发明提出的一种网络数据挖掘方法流程图;
图2为本发明中对抓取的网页进行初步归类流程图;
图3为本发明中文本聚类流程图。
具体实施方式
参照图1,本发明提出的一种网络数据挖掘方法,对获取的网页信息进行文本分类和文本聚类,从而提取话题,具体包括以下步骤:
S1、预设网络探针根据行业本体抓取网页信息。
网络探针中预设行业本体,并根据行业本体探测网页,缩小了探测范围,提高了数据探测效率。并且只有当被探测的网络数据符合要求时,才会进行网页抓取,既不会遗漏重要数据,又不会浪费时间做无用功。这种策略在没有损失行业数据收录量的情况下,极大地节约带宽和数据检索量,并提高了数据入库周期,提高实时度。
S2、对获得的网页信息进行文本提取。
网页包含的信息往往庞杂且无序,该步骤中,仅从网页中提取包含行业本体的文本,对网页信息进行初步筛选。
S3、预设分类器,将提取的文本进行文本分类,生成多个文本类系。
参照图2,该步骤相当于对抓取的网页进行初步归类,其具体包括以下分步骤:
S31、分类器中预设实体词典,并根据每一个文本类别预设特征词典。
S32、根据实体词典对获得的文本提取实体词,并根据各实体词出现次数计算权重。
实体词典作为提取实体词的依据,其具有通用性,但是,不同文本类别所包含的特征词是不尽相同甚至完全相异的。故而,步骤S31中,分类器中预设一个实体词典,但是却根据不同文本类系分别预设特征词典。
S33、根据文本中实体词与特征词典匹配度以及实体词权重,对文本进行分类。
实体词权重与实体词在文本中出现的次数成正比,匹配度与实体词中包含的特征词数量以及其权重成正比,可通过和积计算,例如一个文本中的实体词有三个出现在一个文本类别的特征词典中,且这三个实体词在该文本中出现次数分别为1、2、3,则该文本与该特征词典匹配度为1×1+1×2+1×3。对文本进行分类时,将其归属到与其匹配度最高的特征词典对应的文本类别中。
S4、分别对每一个文本类系下的文本进行聚类,生成多个文本子类,每一个文本子类对应一个话题。
参照图3,步骤S4具体包括以下分步骤:
S41、根据每一个文本类系建立本体库,本体库中包含多个由概念形成的概念树。
概念树以一个概念为根节点,并以根节点的延伸概念为子节点,依次类推,概念树中的各概念为由下到上层层包含的关系。由于经过文本分类,每一个文本类别中的文本已经具备一定的关联度,针对文本类别建立本体库,有利于保证同一个本体库中概念间的关联性,提高文本语义集中程度。
S42、将文本中的实体词映射到本体库中,提取文本语义,并根据语义权重提取文本关键词,生成文本核心语义,语义与概念一一对应。
该步骤中,同一文本中同一条文本语义对应的实体词出现次数越多,语义权重越大。该步骤相当于根据语义在文本中出现的频率确定文本语义倾向。
S43、对同一文本类系中各文本对应的核心语义进行语义相似度计算,并将语义相似度大于预设阈值A的文本归属到同一个文本子类中。
语义相似度计算公式为:
Sim ( W 1 , W 2 ) = a Dis ( W 1 , W 2 ) + a
Dis(W1,W2)为语义W1、W2在概念树上的距离,a为可调节的计算常数。
具体实施时A可在区间(0,1)上任意取值,具体根据语义相似度计算需要决定。本实施方式中,A=0.7
S44、根据文本核心语义为每一个文本子类提取一个话题。
文本子类的话题应该能够概括该文本子类中的文本核心信息。
S5、存储网页链接,并根据文本类系和文本子类建立索引。
本发明提供的网络数据挖掘方法,通过文本分类与文本聚类,对文本信息进行层层分析归类,提取核心信息,并将重复或相似的信息归属到同一个话题中,有根据话题的相关度将其归类到文本类系中,有利于文本检索的逻辑性,提高检索效率。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (6)

1.一种网络数据挖掘方法,其特征在于,对获取的网页信息进行文本分类和文本聚类,从而提取话题,具体包括以下步骤:
S1、预设网络探针根据行业本体抓取网页信息;
S2、对获得的网页信息进行文本提取;
S3、预设分类器,将提取的文本进行文本分类,生成多个文本类系;
S4、分别对每一个文本类系下的文本进行聚类,生成多个文本子类,每一个文本子类对应一个话题;
S5、存储网页链接,并根据文本类系和文本子类建立索引。
2.如权利要求1所述的网络数据挖掘方法,其特征在于,步骤S3具体包括以下分步骤:
S31、分类器中预设实体词典,并根据每一个文本类别预设特征词典;
S32、根据实体词典对获得的文本提取实体词,并根据各实体词出现次数计算权重;
S33、根据文本中实体词与特征词典匹配度以及实体词权重,对文本进行分类。
3.如权利要求1所述的网络数据挖掘方法,其特征在于,步骤S4具体包括以下分步骤:
S41、根据每一个文本类系建立本体库,本体库中包含多个由概念形成的概念树;
S42、将文本中的实体词映射到本体库中,提取文本语义,并根据语义权重提取文本关键词,生成文本核心语义;
S43、对同一文本类系中各文本对应的核心语义进行语义相似度计算,并将语义相似度大于预设阈值A的文本归属到同一个文本子类中,0<A<1;
S44、根据文本核心语义为每一个文本子类提取一个话题。
4.如权利要求3所述的网络数据挖掘方法,其特征在于,A=0.7。
5.如权利要求3所述的网络数据挖掘方法,其特征在于,步骤S42中,同一文本中同一条文本语义对应的实体词出现次数越多,语义权重越大。
6.如权利要求3所述的网络数据挖掘方法,其特征在于,步骤S43中,语义相似度计算公式为:
Sim ( W 1 , W 2 ) = a Dis ( W 1 , W 2 ) + a
Dis(W1,W2)为概念W1、W2在概念树上的距离,a为可调节的计算常数。
CN201410582451.0A 2014-10-27 2014-10-27 一种网络数据挖掘方法 Pending CN104281710A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410582451.0A CN104281710A (zh) 2014-10-27 2014-10-27 一种网络数据挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410582451.0A CN104281710A (zh) 2014-10-27 2014-10-27 一种网络数据挖掘方法

Publications (1)

Publication Number Publication Date
CN104281710A true CN104281710A (zh) 2015-01-14

Family

ID=52256583

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410582451.0A Pending CN104281710A (zh) 2014-10-27 2014-10-27 一种网络数据挖掘方法

Country Status (1)

Country Link
CN (1) CN104281710A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279277A (zh) * 2015-11-12 2016-01-27 百度在线网络技术(北京)有限公司 知识数据的处理方法和装置
CN106294473A (zh) * 2015-06-03 2017-01-04 北京搜狗科技发展有限公司 一种实体词挖掘方法、信息推荐方法及装置
CN109284385A (zh) * 2018-10-15 2019-01-29 平安科技(深圳)有限公司 基于机器学习的文本分类方法及终端设备
CN111008226A (zh) * 2019-12-24 2020-04-14 韶关学院 一种新型的数据挖掘方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090112865A1 (en) * 2007-10-26 2009-04-30 Vee Erik N Hierarchical structure entropy measurement methods and systems
CN102831193A (zh) * 2012-08-03 2012-12-19 人民搜索网络股份公司 基于分布式多级聚类的话题检测装置及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090112865A1 (en) * 2007-10-26 2009-04-30 Vee Erik N Hierarchical structure entropy measurement methods and systems
CN102831193A (zh) * 2012-08-03 2012-12-19 人民搜索网络股份公司 基于分布式多级聚类的话题检测装置及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴启纲: "《中文文本聚类算法的研究与实现》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294473A (zh) * 2015-06-03 2017-01-04 北京搜狗科技发展有限公司 一种实体词挖掘方法、信息推荐方法及装置
CN105279277A (zh) * 2015-11-12 2016-01-27 百度在线网络技术(北京)有限公司 知识数据的处理方法和装置
WO2017080220A1 (zh) * 2015-11-12 2017-05-18 百度在线网络技术(北京)有限公司 知识数据的处理方法和装置
CN109284385A (zh) * 2018-10-15 2019-01-29 平安科技(深圳)有限公司 基于机器学习的文本分类方法及终端设备
CN111008226A (zh) * 2019-12-24 2020-04-14 韶关学院 一种新型的数据挖掘方法

Similar Documents

Publication Publication Date Title
CN103678670B (zh) 一种微博热词与热点话题挖掘系统及方法
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN102722709B (zh) 一种垃圾图片识别方法和装置
CN104408093A (zh) 一种新闻事件要素抽取方法与装置
CN102567494B (zh) 网站分类方法及装置
CN101814083A (zh) 网页自动分类方法和系统
CN104376406A (zh) 一种基于大数据的企业创新资源管理与分析系统和方法
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN105279252A (zh) 挖掘相关词的方法、搜索方法、搜索系统
CN102411563A (zh) 一种识别目标词的方法、装置及系统
CN104239436A (zh) 一种基于文本分类和聚类分析的网络热点事件发现方法
CN110543595B (zh) 一种站内搜索系统及方法
CN105653518A (zh) 一种基于微博数据的特定群体发现及扩充方法
CN104317784A (zh) 一种跨平台用户识别方法和系统
CN104199833A (zh) 一种网络搜索词的聚类方法和聚类装置
CN103389998A (zh) 一种基于云服务的新型互联网商业情报语义分析技术
CN103473317A (zh) 提取关键词的方法和设备
CN105138558A (zh) 基于用户访问内容的实时个性化信息采集方法
CN104536956A (zh) 一种基于微博平台的事件可视化方法及系统
CN103324745A (zh) 基于贝叶斯模型的文本垃圾识别方法和系统
CN108021582B (zh) 互联网舆情监控方法及装置
CN105528422A (zh) 一种主题爬虫处理方法及装置
CN110457579B (zh) 基于模板和分类器协同工作的网页去噪方法及系统
CN103886077B (zh) 短文本的聚类方法和系统
CN109710825A (zh) 一种基于机器学习的网页有害信息识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180920

Address after: 102600 3 floor, 2 building, No. 4 Daxing District Garden Road, Beijing, 1 unit 317

Applicant after: Beijing informed investment home intellectual property rights Operation Co., Ltd.

Address before: 230000 A502, National Science and Technology Park, 602 Mount Huangshan Road, Hefei high tech Zone, Anhui

Applicant before: Anhui Huazhen Information Science & Technology Co., Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150114