CN104281710A

CN104281710A - 一种网络数据挖掘方法

Info

Publication number: CN104281710A
Application number: CN201410582451.0A
Authority: CN
Inventors: 贾岩
Original assignee: ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Current assignee: Beijing informed investment home intellectual property rights Operation Co., Ltd.
Priority date: 2014-10-27
Filing date: 2014-10-27
Publication date: 2015-01-14

Abstract

本发明提出了一种网络数据挖掘方法，对获取的网页信息进行文本分类和文本聚类，从而提取话题，具体包括以下步骤：S1、预设网络探针根据行业本体抓取网页信息；S2、对获得的网页信息进行文本提取；S3、预设分类器，将提取的文本进行文本分类，生成多个文本类系；S4、分别对每一个文本类系下的文本进行聚类，生成多个文本子类，每一个文本子类对应一个话题；S5、存储网页链接，并根据文本类系和文本子类建立索引。本发明提出的一种网络数据挖掘方法，可对重复信息进行合并。

Description

一种网络数据挖掘方法

技术领域

本发明涉及信息处理技术领域，尤其涉及一种网络数据挖掘方法。

背景技术

随着信息化程度不断加深，人们对情报信息化集成的渴求也日益强烈；互联网持续增长信息资源蕴含了巨量的具有价值的信息，成为重要的情报信息源头。

不同的网站中存在着大量的重复信息，这些信息被搜索引擎反复的索引，因此在用户使用搜索引擎检索信息的时候就会发现有很多是来自不同网站的相同信息。对于用户来说相同的文章只检索出一篇就够了，但对于搜索引擎来说保存相同内容的网页，也会造成存储资源的浪费和检索时的低效率。

发明内容

基于背景技术存在的技术问题，本发明提出了一种网络数据挖掘方法，可对重复信息进行合并。

本发明提出的一种网络数据挖掘方法，对获取的网页信息进行文本分类和文本聚类，从而提取话题，具体包括以下步骤：

S1、预设网络探针根据行业本体抓取网页信息；

S2、对获得的网页信息进行文本提取；

S3、预设分类器，将提取的文本进行文本分类，生成多个文本类系；

S4、分别对每一个文本类系下的文本进行聚类，生成多个文本子类，每一个文本子类对应一个话题；

S5、存储网页链接，并根据文本类系和文本子类建立索引。

优选地，步骤S3具体包括以下分步骤：

S31、分类器中预设实体词典，并根据每一个文本类别预设特征词典；

S32、根据实体词典对获得的文本提取实体词，并根据各实体词出现次数计算权重；

S33、根据文本中实体词与特征词典匹配度以及实体词权重，对文本进行分类。

优选地，步骤S4具体包括以下分步骤：

S41、根据每一个文本类系建立本体库，本体库中包含多个由概念形成的概念树；

S42、将文本中的实体词映射到本体库中，提取文本语义，并根据语义权重提取文本关键词，生成文本核心语义；

S43、对同一文本类系中各文本对应的核心语义进行语义相似度计算，并将语义相似度大于预设阈值A的文本归属到同一个文本子类中，0＜A＜1；

S44、根据文本核心语义为每一个文本子类提取一个话题。

优选地，A＝0.7。

优选地，步骤S42中，同一文本中同一条文本语义对应的实体词出现次数越多，语义权重越大。

优选地，步骤S43中，语义相似度计算公式为：

Sim (W_{1}, W_{2}) = \frac{a}{Dis (W_{1}, W_{2}) + a}

Dis(W₁,W₂)为概念W1、W2在概念树上的距离，a为可调节的计算常数。

本发明提供的网络数据挖掘方法，通过文本分类与文本聚类，对文本信息进行层层分析归类，提取核心信息，并将重复或相似的信息归属到同一个话题中，有根据话题的相关度将其归类到文本类系中，有利于文本检索的逻辑性，提高检索效率。

本发明通过以话题总结相似文本信息的方式，避免了对同一信息的不同网页重复索引的情况，避免了存储资源的浪费和检索时的低效率。

附图说明

图1为本发明提出的一种网络数据挖掘方法流程图；

图2为本发明中对抓取的网页进行初步归类流程图；

图3为本发明中文本聚类流程图。

具体实施方式

参照图1，本发明提出的一种网络数据挖掘方法，对获取的网页信息进行文本分类和文本聚类，从而提取话题，具体包括以下步骤：

S1、预设网络探针根据行业本体抓取网页信息。

网络探针中预设行业本体，并根据行业本体探测网页，缩小了探测范围，提高了数据探测效率。并且只有当被探测的网络数据符合要求时，才会进行网页抓取，既不会遗漏重要数据，又不会浪费时间做无用功。这种策略在没有损失行业数据收录量的情况下，极大地节约带宽和数据检索量，并提高了数据入库周期，提高实时度。

S2、对获得的网页信息进行文本提取。

网页包含的信息往往庞杂且无序，该步骤中，仅从网页中提取包含行业本体的文本，对网页信息进行初步筛选。

S3、预设分类器，将提取的文本进行文本分类，生成多个文本类系。

参照图2，该步骤相当于对抓取的网页进行初步归类，其具体包括以下分步骤：

S31、分类器中预设实体词典，并根据每一个文本类别预设特征词典。

S32、根据实体词典对获得的文本提取实体词，并根据各实体词出现次数计算权重。

实体词典作为提取实体词的依据，其具有通用性，但是，不同文本类别所包含的特征词是不尽相同甚至完全相异的。故而，步骤S31中，分类器中预设一个实体词典，但是却根据不同文本类系分别预设特征词典。

实体词权重与实体词在文本中出现的次数成正比，匹配度与实体词中包含的特征词数量以及其权重成正比，可通过和积计算，例如一个文本中的实体词有三个出现在一个文本类别的特征词典中，且这三个实体词在该文本中出现次数分别为1、2、3，则该文本与该特征词典匹配度为1×1+1×2+1×3。对文本进行分类时，将其归属到与其匹配度最高的特征词典对应的文本类别中。

S4、分别对每一个文本类系下的文本进行聚类，生成多个文本子类，每一个文本子类对应一个话题。

参照图3，步骤S4具体包括以下分步骤：

S41、根据每一个文本类系建立本体库，本体库中包含多个由概念形成的概念树。

概念树以一个概念为根节点，并以根节点的延伸概念为子节点，依次类推，概念树中的各概念为由下到上层层包含的关系。由于经过文本分类，每一个文本类别中的文本已经具备一定的关联度，针对文本类别建立本体库，有利于保证同一个本体库中概念间的关联性，提高文本语义集中程度。

S42、将文本中的实体词映射到本体库中，提取文本语义，并根据语义权重提取文本关键词，生成文本核心语义，语义与概念一一对应。

该步骤中，同一文本中同一条文本语义对应的实体词出现次数越多，语义权重越大。该步骤相当于根据语义在文本中出现的频率确定文本语义倾向。

S43、对同一文本类系中各文本对应的核心语义进行语义相似度计算，并将语义相似度大于预设阈值A的文本归属到同一个文本子类中。

语义相似度计算公式为：

Sim (W_{1}, W_{2}) = \frac{a}{Dis (W_{1}, W_{2}) + a}

Dis(W₁,W₂)为语义W1、W2在概念树上的距离，a为可调节的计算常数。

具体实施时A可在区间(0，1)上任意取值，具体根据语义相似度计算需要决定。本实施方式中，A＝0.7

S44、根据文本核心语义为每一个文本子类提取一个话题。

文本子类的话题应该能够概括该文本子类中的文本核心信息。

S5、存储网页链接，并根据文本类系和文本子类建立索引。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种网络数据挖掘方法，其特征在于，对获取的网页信息进行文本分类和文本聚类，从而提取话题，具体包括以下步骤：

S1、预设网络探针根据行业本体抓取网页信息；

S2、对获得的网页信息进行文本提取；

S5、存储网页链接，并根据文本类系和文本子类建立索引。

2.如权利要求1所述的网络数据挖掘方法，其特征在于，步骤S3具体包括以下分步骤：

3.如权利要求1所述的网络数据挖掘方法，其特征在于，步骤S4具体包括以下分步骤：

S44、根据文本核心语义为每一个文本子类提取一个话题。

4.如权利要求3所述的网络数据挖掘方法，其特征在于，A＝0.7。

5.如权利要求3所述的网络数据挖掘方法，其特征在于，步骤S42中，同一文本中同一条文本语义对应的实体词出现次数越多，语义权重越大。

6.如权利要求3所述的网络数据挖掘方法，其特征在于，步骤S43中，语义相似度计算公式为：

Sim (W_{1}, W_{2}) = \frac{a}{Dis (W_{1}, W_{2}) + a}