CN112612870B

CN112612870B - 一种非结构化数据管理方法及系统

Info

Publication number: CN112612870B
Application number: CN202011441984.9A
Authority: CN
Inventors: 连柯; 潘城; 温景新; 江映燕; 郭立玮; 吴振田; 尹震超; 王秀竹
Original assignee: Guangdong Electric Power Communication Technology Co Ltd
Current assignee: Guangdong Electric Power Communication Technology Co Ltd
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2023-12-01
Anticipated expiration: 2040-12-11
Also published as: CN112612870A

Abstract

本发明公开了一种非结构化数据管理方法，包括采集电网系统中的非结构化数据并进行预处理；对所述预处理后的数据进行分词处理获取候选关键词；利用TF‑IDF的计算方法计算所述候选关键词的TF‑IDF值，并对所述关键词进行聚类处理；对所述聚类后的关键词进行优化，建立数据主题域模型。本发明方法可以对非结构化文档类数据通过转换为结构化数据进行有效管理；本发明是以hadoop底层平台为基础对变电站系统数据进行汇聚，能有效的解决数据共享问题；通过挖掘文件关键词的特征进行主题域建设与主题管理，并且能满足通过关键词对文件的索引需求。

Description

一种非结构化数据管理方法及系统

技术领域

本发明涉及非结构化数据管理的技术领域，尤其涉及一种非结构化数据管理方法及系统。

背景技术

随着网络技术的发展，电网系统中产生了大量的非结构化数据，随着数据量的大量增加，让数据的管理和存储变得困难。且在在电网系统中，各个系统之间的数据相互独立，缺乏统一的数据管理，相应的部门和平台之间无法进行信息交流。

通过在hadoop(一种能够对大量数据进行分布式处理的软件框架)架构上建立的非结构化数据管理系统，利用HDFS对非结构化数据进行存储，通过对系统的非结构化数据进行采集、处理，将非结构化数据进行结构化数据转换，能很好的解决系统在非结构化数据上的存储、查询和管理问题，让非结构化数据变成资产化和价值化的可共享数据。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在非结构化数据管理、存储和查询的问题，提出了本发明。

因此，本发明解决的技术问题是：现有方法无法对多个系统的非结构化数据进行统一管理，系统数据之间存在数据孤岛，无法跨部门、跨平台之间的信息交流难以实现；无法对大规模数据进行存储，而且存储格式固定，容错率性低，存储容量有限，可拓展性差等特点；对非结构化数据通过标题、时间等方式进行查询，无法满足特定条件下的查询需求。

为解决上述技术问题，本发明提供如下技术方案：采集电网系统中的非结构化数据并进行预处理；对所述预处理后的数据进行分词处理获取候选关键词；利用TF-IDF的计算方法计算所述候选关键词的TF-IDF值，并对所述关键词进行聚类处理；对所述聚类后的关键词进行优化，建立数据主题域模型，实现数据分类管理。

作为本发明所述的非结构化数据管理方法的一种优选方案，其中：所述采集电网系统中的非结构化数据包括，根据数据连通利用共享交换方式采集电网系统中的非结构化数据并上传到大数据对象进行存储。

作为本发明所述的非结构化数据管理方法的一种优选方案，其中：所述预处理包括，将所述非结构化数据根据规则进行编码转换，清除重复数据、错误数据、空数据、去除具有特殊字符的数据，并把处理后的数据存储至目标数据库。

作为本发明所述的非结构化数据管理方法的一种优选方案，其中：所述获取候选关键词包括，对所述预处理后的数据进行分词处理，获得词序列，并根据所述词序列进行去停用词处理操作，将剩余词作为候选关键词。

作为本发明所述的非结构化数据管理方法的一种优选方案，其中：所述计算候选关键词的TF-IDF值包括，利用TF-IDF方法对所述候选关键词进行计算，获取每个候选关键词的TF-IDF值，并对计算结果进行倒序排列，将排名前TopN个词汇作为文本关键词。

作为本发明所述的非结构化数据管理方法的一种优选方案，其中：所述TF-IDF方法包括，所述TF-IDF方法的计算公式表示为如下：

TF-IDF＝TF×IDF

其中：TF为词频，IDF为逆文档频率，TF和IDF表示为：

TF＝某次在文章中出现的次数/文章总词数

IDF＝log(语料库的文档总数/包含该词的文档数+1)

作为本发明所述的非结构化数据管理方法的一种优选方案，其中：所述聚类处理包括，利用DBScan算法对所述关键词进行聚类处理，包括利用距离度量方式对样本集和邻域参数进行处理，进而实现样本簇划分。

作为本发明所述的非结构化数据管理方法的一种优选方案，其中：所述DBScan算法包括，设定样本集为D＝(x₁,x₂...,x_m)，邻域参数为MinPts，簇划分为C，首先进行数据的初始化，初始化核心对象集合为初始化聚类簇数为k＝0、初始化未访问样本集合为Γ＝D、簇划分为/>对于数据j＝1,2,...m利用距离度量方式找出核心对象，在核心对象中，若所述核心对象集合并不符合/>则随机选取一个核心对象，初始化当前簇核心、类别序号以及簇样本集合并对未访问样本集合进行更新，在所述当前簇核心对象队列中取一个核心对象o′，利用邻域距离阈值找出所有邻域子样本集，并且进行当前簇样本集合、未访问样本集合的更新，最终完成所述簇划分C＝{C1,C2,...,Ck}。

作为本发明所述的非结构化数据管理方法的一种优选方案，其中：所述建立数据主题域模型包括，对聚类后的所述关键词类进行主题命名，并且文件主题域建立参考关键词类目进行建设，方便数据管理。

本发明的有益效果：本发明方法可以对非结构化文档类数据通过转换为结构化数据进行有效管理；本发明是以hadoop底层平台为基础对变电站系统数据进行汇聚，能有效的解决数据共享问题；通过挖掘文件关键词的特征进行主题域建设与主题管理，并且能满足通过关键词对文件的索引需求。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明第一个实施例所述的非结构化数据管理方法的流程示意图；

图2为本发明第一个实施例所述的非结构化数据管理方法的数据管理整体流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1～2，为本发明的第一个实施例，该实施例提供了一种非结构化数据管理方法，包括：

本发明是一种基于hadoop(一种能够对大量数据进行分布式处理的软件框架)架构建立的非结构化数据管理方法，相应的有hadoop架构带来的便利，并且具有对各大系统的非结构化数据进行采集、存储、计算等功能。

S1：采集电网系统中的非结构化数据并进行预处理。其中需要说明的是，

采集电网系统中的非结构化数据包括，对各个系统中的非结构化数据进行数据抽取，抽取的数据若分布在多个系统，需要对多个系统的数据进行抽取，并且本方法的非结构化数据只针对文档类数据，如word、pdf等文件，根据数据连通利用共享交换方式采集电网系统中的非结构化数据并上传到大数据对象进行存储。

进一步的是，预处理包括，将非结构化数据根据规则进行编码转换并保证数据唯一性，清除重复数据、错误数据、空数据、去除具有特殊字符的数据，并把处理后的数据存储至目标数据库。

S2：对预处理后的数据进行分词处理获取候选关键词。其中需要说明的是，

获取候选关键词包括，对预处理后的数据进行分词处理，，将无用词去除，得到候选关键词，获得词序列，并根据词序列进行去停用词处理操作，将剩余词作为候选关键词，再对候选关键词进行词频统计，根据词频对候选关键词进行倒排序。

S3：利用TF-IDF的计算方法计算候选关键词的TF-IDF值，并对关键词进行聚类处理。其中需要说明的是，

计算候选关键词的TF-IDF值包括，利用TF-IDF方法对候选关键词进行计算，获取每个候选关键词的TF-IDF值，并对计算结果进行倒序排列，将排名前TopN个词汇作为文本关键词，TF-IDF方法的计算公式表示为如下：

TF-IDF＝TF×IDF

其中：TF为词频，IDF为逆文档频率，TF和IDF可以表示为：

TF＝某次在文章中出现的次数/文章总词数

IDF＝log(语料库的文档总数/包含该词的文档数+1)

进一步的是，利用DBScan算法对关键词进行聚类处理，DBScan算法是一个比较有代表性的基于密度的聚类算法，它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类；具体包括利用距离度量方式对样本集和邻域参数进行处理，进而实现样本簇划分，其中设定样本集为D＝(x₁,x₂...,x_m)，邻域参数为MinPts，将其以样本距离度量方式进行输入，获取的输出为簇划分为C；其具体步骤为：首先进行数据的初始化，初始化核心对象集合为初始化聚类簇数为k＝0、初始化未访问样本集合为Γ＝D、簇划分为/>对于数据j＝1,2,...m找出其核心对象，利用距离度量方式找到样本x_j的∈-邻域子样本集N∈(x_j)，若子样本集样本个数满足|N∈(x_j)|≥MinPts，则将样本x_j加入核心对象样本集合：Ω＝Ω∪{x_j}；若核心对象集合/>则结束簇划分；若核心对象集合并不符合/>在核心对象集合Ω中，随机选择一个核心对象o，初始化当前簇核心对象队列Ωcur＝{o}，初始化类别序号k＝k+1，初始化当前簇样本集合Ck＝{o},更新未访问样本集合Γ＝Γ-{o}；若当前簇核心对象队列为则当前聚类簇Ck生成完毕,更新簇划分C＝{C1,C2,...,Ck}，更新核心对象集合Ω＝Ω-Ck，再重新判断核心对象集合是否为/>否则更新核心对象集合Ω＝Ω-Ck；在当前簇核心对象队列Ωcur中取出一个核心对象o′,通过邻域距离阈值∈找出所有的∈-邻域子样本集N∈(o′)，令Δ＝N∈(o′)∩Γ，更新当前簇样本集合Ck＝Ck∪Δ，更新未访问样本集合Γ＝Γ-Δ，更新Ωcur＝Ωcur∪(Δ∩Ω)-o′，并当前簇核心对象队列判断；其算法的输出结果为C＝{C1,C2,...,Ck}。

S4：对聚类后的关键词进行优化，建立数据主题域模型，实现数据分类管理。其中需要说明的是，

建立数据主题域模型包括，对聚类后的关键词类进行主题命名，并且文件主题域建立参考关键词类目进行建设，方便数据管理。

本发明对各个系统中文档类的非结构化数据进行采集、处理，通过对文档关键词特征归类，以关键词归类建立的主题域解决非结构化文档数据管理的问题，与此同时摆脱传统的通过标题、时间等查询方式，满足用关键词查询文档内容的特性要求；其关键点在于非结构化数据的转换与管理，特点在与通过对文件类的非结构化数据进行编码转换保证数据唯一性，清除重复数据、错误数据、空数据、去除具有特殊字符的数据，再进行文件分词、候选关键词提取、关键词提取、通过对关键词进行聚类处理得到相应的关键词数据集，将关键词数据集作为主题域模型，从而能够使得文件类非结构化数据进行结构化转变，通过主题域的模型可将文件进行自动分类，主题域其特点在于对数据进行主题管理，让非结构化数据变成规范、统一、可以进行主题分析的数据，满足对文件类非结构化数据的有效管理，同时在对文件进行关键词处理后，提取出关键词可作为一种对文件内容进行精准查询的方式，其主要特点在于能够快速、准确的对文件内容进行检索。

实施例2

本发明的第二个实施例，为了更好地对本发明方法中采用的技术效果加以验证说明，本实施例中选择人为创建目录管理进行测试，以科学论证的手段对比试验结果，以验证本方法所具有的真实效果。

机器学习主要采用的评价指标有准确率、召回率以及F值三个评价指标，本实验使用准确率作为评价指标，当准确率达到80％时达到实验标准，将被正确提取的数据条数设定为a，提出的信息条数设为b，该类的全部样本数为c，可以得到准确率、召回率的判别公式为：

P(ture)＝a/b*100％

R(recall)＝a/c*100％

通过对关键词数据集进行DBSCAN算法聚类得到K个聚类类别，将各个主题类别命名，可对文档进行主题化管理，其结果如下表1所示：

表1：聚类类别(部分)。

从科技、体育、社会、电影和军事对文档进行聚类管理划分，并且利用准确率公式进行计算，证明实验的有效性，其所得聚类管理结果如下表2所示：

表2：实验聚类结果准确率。

利用传统人为的创建目录对文档进行主题管理，其查询的方式为通过时间、标题等方式进行查询，随机选取3个人在1天的时间对152篇文档进行管理归类，其管理结果如下表3所示：

表3：人为对文档分类场景。

文档	实际篇数	抽取篇数	正确篇数	准确率
					科技	82	20	16	80.00％
体育	213	41	37	90.24％
					社会	254	43	35	81.39％
电影	187	27	23	85.19％
					军事	87	21	18	85.71％

通过表2和表3可以看出，利用本发明方法时，数量表大会导致簇类增多，某些文档区分度不够，可能被划分到其他类别中，但是从划分的准确率来看，本发明方法的准确率要普遍高于使用传统人工方法，因此本方法具有实用性，并且传统方法需要耗费大量人力和时间，而本方法通过系统算法进行处理，其速度明显要快于人工，并且所需人力较少；另一方面，从表4中的可查询类别来看，

表4：发明与传统模式下的文档查询对比。

可以看出本发明方法可以从标题、标题关键词以及内容关键词进行查询，而传统人工仅可以根据标题来进行查询，因此本发明的实用性以及应用范围更加广泛。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种非结构化数据管理方法，其特征在于：包括，

采集电网系统中的非结构化数据并进行预处理；

对所述预处理后的数据进行分词处理获取候选关键词；

利用TF-IDF的计算方法计算所述候选关键词的TF-IDF值，并对所述关键词进行聚类处理；

对所述聚类后的关键词进行优化，建立数据主题域模型，实现数据分类管理；

计算候选关键词的TF-IDF值包括，

利用TF-IDF方法对所述候选关键词进行计算，获取每个候选关键词的TF-IDF值，并对计算结果进行倒序排列，将排名前TopN个词汇作为文本关键词；

所述TF-IDF方法包括，

所述TF-IDF方法的计算公式表示为如下：

TF-IDF＝TF×IDF

其中：TF为词频，IDF为逆文档频率，TF和IDF表示为：

TF＝某次在文章中出现的次数/文章总词数

IDF＝log(语料库的文档总数/包含该词的文档数+1)；

所述聚类处理包括，

利用DBScan算法对所述关键词进行聚类处理，包括利用距离度量方式对样本集和邻域参数进行处理，进而实现样本簇划分；

所述DBScan算法包括，

设定样本集为D＝(x₁,x₂...,x_m)，邻域参数为∈和MinPts，簇划分为C，首先进行数据的初始化，初始化核心对象集合为初始化聚类簇数为k＝0、初始化未访问样本集合为Γ＝D、簇划分为/>对于数据j＝1,2,...m利用距离度量方式找到样本x_j的∈-邻域子样本集N，若子样本集样本个数满足|N|≥MinPts，则将样本x_j加入核心对象样本集合，在核心对象中，若所述核心对象集合并不符合/>则随机选取一个核心对象，初始化当前簇核心、类别序号以及簇样本集合并对未访问样本集合进行更新，在所述当前簇核心对象队列中取一个核心对象o′，利用邻域距离阈值∈找出所有邻域子样本集，并且进行当前簇样本集合、未访问样本集合的更新，最终完成所述簇划分C＝{C1,C2,...,Ck}。

2.如权利要求1所述的非结构化数据管理方法，其特征在于：所述采集电网系统中的非结构化数据包括，

根据数据连通利用共享交换方式采集电网系统中的非结构化数据并上传到大数据对象进行存储。

3.如权利要求2所述的非结构化数据管理方法，其特征在于：所述预处理包括，

将所述非结构化数据根据规则进行编码转换，清除重复数据、错误数据、空数据、去除具有特殊字符的数据，并把处理后的数据存储至目标数据库。

4.如权利要求3所述的非结构化数据管理方法，其特征在于：所述获取候选关键词包括，

对所述预处理后的数据进行分词处理，获得词序列，并根据所述词序列进行去停用词处理操作，将剩余词作为候选关键词。

5.如权利要求4所述的非结构化数据管理方法，其特征在于：所述建立数据主题域模型包括，

对聚类后的所述关键词类进行主题命名，并且文件主题域建立参考关键词类目进行建设，方便数据管理。