CN109299286A

CN109299286A - 非结构化数据的知识挖掘方法及系统

Info

Publication number: CN109299286A
Application number: CN201811141181.4A
Authority: CN
Inventors: 王军平
Original assignee: Beijing Cyberbas Data Technology Co Ltd
Current assignee: Beijing Cyberbas Data Technology Co Ltd
Priority date: 2018-09-28
Filing date: 2018-09-28
Publication date: 2019-02-01

Abstract

本发明公开了一种非结构化数据的知识挖掘方法及系统，通过基于搜索引擎，采集非结构化数据，并对采集的非结构化数据进行数据预处理；根据需挖掘知识对应的目标数据特征，对数据预处理后的非结构化数据进行数据分析，根据分析结果构建知识挖掘模型；利用知识挖掘模型，从非结构化数据中提取出对应的目标信息；具有根据具体的知识挖掘需求构建对应的知识挖掘模型的有益效果，从而提高了知识挖掘的针对性和知识挖掘的准确率。

Description

非结构化数据的知识挖掘方法及系统

技术领域

本发明涉及数据处理技术领域，特别涉及一种非结构化数据的知识挖掘方法及系统。

背景技术

随着互联网的发展和普及，各种信息呈现了爆炸式增加；若通过人为的方式来获取有用的信息费时费力，且非常困难；因此如何从海量的信息中获取所需要的内容并能够将获取的内容以有用的知识呈现，成为用户普遍关注的焦点。现有的针对海量数据进行知识挖掘时，更侧重根据已知的知识预先进行人工模型的建立，然后根据既定的人工模型进行知识挖掘。这种处理方式由于采用既定的模型进行知识挖掘，在不同应用场景中模型的匹配度不高，因此知识挖掘的效果也不明显。

发明内容

本发明提供一种非结构化数据的知识挖掘方法及系统，用以根据具体的知识挖掘需求构建对应的知识挖掘模型，提高知识挖掘的针对性和知识挖掘的准确率。

本发明提供了一种非结构化数据的知识挖掘方法，所述非结构化数据的知识挖掘方法包括：

基于搜索引擎，采集非结构化数据，并对采集的非结构化数据进行数据预处理；

根据需挖掘知识对应的目标数据特征，对数据预处理后的非结构化数据进行数据分析，根据分析结果构建知识挖掘模型；

利用知识挖掘模型，从非结构化数据中提取出对应的目标信息。

进一步地，所述基于搜索引擎，采集非结构化数据，并对采集的非结构化数据进行数据预处理，包括：

基于搜索引擎，采用分布式方式分类抓取网页中的内容，并从抓取的网页内容中提取非结构化数据；其中，所述网页包括链接页和内容页；

识别提取出的非结构化数据中是否存在重复数据，若存在则对提取出的非结构化数据进行去重处理；

对去重处理后的非结构化数据的噪声进行光滑处理；

识别并删除非结构化数据中的异常或者离群点；

判断所述非结构化数据是否存在缺失；

若存在缺失，则根据预设处理方式，填充缺失字段或者删除缺失字段。

进一步地，所述根据需挖掘知识对应的目标数据特征，对数据预处理后的非结构化数据进行数据分析，根据分析结果构建知识挖掘模型，包括：

根据需挖掘知识对应的目标数据的数据特征，将语义推理和机器学习方法相结合，进行包含语义的机器学习；

利用预设分析模型，分析所述非结构化数据对应的描述意图；

根据机器学习和分析结果，构建知识挖掘模型。

进一步地，所述根据机器学习和分析结果，构建知识挖掘模型，包括：

根据分析结果，构建深度卷积神经网络对应的知识挖掘模型；

根据机器学习，对构建的知识挖掘模型进行模型训练，在训练过程中自动修饰完善对应的神经网络，优化知识挖掘模型；

对优化后的知识挖掘模型进行评估，并根据评估结果，从构建的多个知识挖掘模型中选择一个最优的知识挖掘模型作为最终采用的知识挖掘模型。

根据机器学习和分析结果，设计与机器学习和分析结果相匹配的LDA模型对应的算法，并采用分布式及块分裂技术，构建对应的知识挖掘模型。

对应于以上实施例所提供的一种非结构化数据的知识挖掘方法，本发明还提供了一种非结构化数据的知识挖掘系统，所述非结构化数据的知识挖掘系统包括：

数据预处理模块，用于基于搜索引擎，采集非结构化数据，并对采集的非结构化数据进行数据预处理；

模型构建模块，用于根据需挖掘知识对应的目标数据特征，对数据预处理后的非结构化数据进行数据分析，根据分析结果构建知识挖掘模型；

知识挖掘模块，用于利用知识挖掘模型，从非结构化数据中提取出对应的目标信息。

进一步地，所述数据预处理模块用于：

对去重处理后的非结构化数据的噪声进行光滑处理；

识别并删除非结构化数据中的异常或者离群点；

判断所述非结构化数据是否存在缺失；

进一步地，所述模型构建模块用于：

根据机器学习和分析结果，构建知识挖掘模型。

进一步地，所述模型构建模块用于：

本发明一种非结构化数据的知识挖掘方法及系统可以达到如下有益效果：

通过基于搜索引擎，采集非结构化数据，并对采集的非结构化数据进行数据预处理；根据需挖掘知识对应的目标数据特征，对数据预处理后的非结构化数据进行数据分析，根据分析结果构建知识挖掘模型；利用知识挖掘模型，从非结构化数据中提取出对应的目标信息；具有根据具体的知识挖掘需求构建对应的知识挖掘模型的有益效果，从而提高了知识挖掘的针对性和知识挖掘的准确率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所指出的内容来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明一种非结构化数据的知识挖掘方法的一种实施方式的流程示意图；

图2是本发明一种非结构化数据的知识挖掘系统的一种实施方式的功能模块示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供一种非结构化数据的知识挖掘方法及系统，用以根据具体的知识挖掘需求构建对应的知识挖掘模型，提高知识挖掘的针对性和知识挖掘的准确率。其中，本发明实施例中所描述的结构化数据可以理解为：行数据，存储在对应的数据库中，能够用二维表结构来逻辑表达实现的数据；相对于结构化数据而言，非结构化数据可以理解为：不方便采用数据库二维逻辑表来表现的数据，包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频、视频信息等；本发明下述实施例中，对上述内容将不进行赘述。

如图1所示，图1是本发明一种非结构化数据的知识挖掘方法的一种实施方式的流程示意图；本发明一种非结构化数据的知识挖掘方法可以实施为如下描述的步骤S10-S30：

步骤S10、基于搜索引擎，采集非结构化数据，并对采集的非结构化数据进行数据预处理；

本发明实施例中，能够实施本发明非结构化数据的知识挖掘方法的知识挖掘系统，根据具体需求，基于搜索引擎，从网页采集需进行知识挖掘的非结构化数据；例如，知识挖掘系统从网页采集信息，从抓取的网页内容中提取非结构化数据；其中，网页包括链接页和内容页。由于现实中的数据一般是不完整的、带有随机性的、存在噪声污染的以及不一致的脏数据，数据质量不高，无法直接进行数据挖掘，或者直接进行数据挖掘得到的效果差强人意，因此，为了后续知识挖掘的处理更加方便以及知识挖掘模型的构建更加匹配，则知识挖掘系统需要对采集的非结构化数据进行数据预处理。

步骤S20、根据需挖掘知识对应的目标数据特征，对数据预处理后的非结构化数据进行数据分析，根据分析结果构建知识挖掘模型；

针对预处理后的非结构化数据，知识挖掘模型根据需挖掘知识具体需求对应的目标数据特征，对步骤S10中预处理后的非结构化数据进行数据分析；例如，提取上述非结构化数据中的关键字、获取上述非结构化数据的数据特征等信息，进而根据分析结果，选取并构建与目标数据特征相匹配的知识挖掘模型。

知识挖掘模型在获取目标数据特征时，可以通过数据取样来实现；即：从对应的网页中抽取出与此次目标相关的数据自己并保证数据完整无缺。在取样时，知识挖掘系统无需动用全部数据，只需找出具有相关性、时效性以及可靠性的数据即可。

由于常用的数据挖掘与机器学习模型有很多中，比如：分类模型、回归模型、聚类模型、预测模型、关联挖掘模型等；上述模型分别解决不同的任务以及不同的数据处理方式，并且每种模型中有着众多不同的算法，每种算法都适应不同的场景；例如，在计算机视觉上应用聚类模型进行图像分割、模式识别与目标识别等；使用分类、回归模型对设备的故障进行预测以便在设备故障发生之前就进行维修，对设备采购需求、设备技改、设备剩余寿命进行预测，同时可以对设备的故障进行分类等。因此，为了提高知识挖掘的针对性和知识挖掘的准确率，知识挖掘系统需要根据具体的目标数据特征，来选取不同的算法，并根据对应的算法构建与目标数据特征相匹配的知识挖掘模型。

步骤S30、利用知识挖掘模型，从非结构化数据中提取出对应的目标信息。

根据构建的与目标数据特征相匹配的知识挖掘模型，知识挖掘系统从上述非结构化数据中提取出对应的目标信息，从而将看似海量的杂乱无章的结构性数据得以合理的利用，从中挖掘出对应的知识，实现了海量数据信息到针对性知识的转变，提高了数据利用率。

进一步地，在本发明一优选的实施例中，知识挖掘系统还可以根据对应的具体应用场景中的新生数据，对构建的相应知识挖掘模型进行更新，以达到的更好的效果等。

进一步地，在本发明一优选的实施例中，为了针对不同类型的非结构化数据进行数据预处理，从而实现更好的处理效果，所述对采集的非结构化数据进行数据预处理，包括，识别所述采集的非结构化数据的类型，当所述采集的非结构化数据为文本数据时，所述对采集的非结构化数据进行数据预处理包括：对所述文本数据中的噪声数据进行清理，具体为：

建立一个存储不含噪声的干净数据的干净数据库；获取待清洗的文本数据，对待清洗数据进行预处理以获取结构化数据，所述的结构化数据组成文本数据的词的集合，具体为：将待清洗数据进行分词，并将所有词转换为统一的编码形式；将具有统一编码形式的数据根据数据字典消除不一致的数据、获得标准化数据；对该标准化数据进行一致性校验，将内容上的明显错误进行修改；将完全相同的词进行去重操作，从而获得结构化数据；

引入知识网络的语义概念，获取每两个词的语义相似度；具体为：分别获取每个词所表达的概念、和描述每个概念的义原；获取任意两个独立的词，分别计算两个词的每个概念下的义原之间的相似度，两个义原的相似度用他们的语义距离来衡量；寻找两个概念之间的最大义原相似度和最小义原相似度，两个概念之间的相似度为最大义原相似度和最小义原相似度的均值；寻找两个词之间的最大概念相似度，将最大概念相似度作为两个词的语义相似度；

利用两个词的语义相似度作为距离度量，使用K-means算法，对词进行自动聚类，识别出噪声数据；具体包括：随机获取K个词作为质心，设定相似度阈值；将剩余的每个词分别测量其到各个质心的距离，并将该词归入与其距离最短的质心的类中；重新计算已经得到的各个类的质心；判断新的质心与原质心的距离是否等于或小于相似度阈值，若是，则远离各个质心而无法归于任一质心的类中的剩余数据即为噪声数据；

在噪声数据中寻找引起噪声的语义本体，对引起噪声的语义本体进行矫正、以获取干净数据，将干净数据存入干净数据库中；具体为：获取一个噪声数据，判断噪声数据中是否有某个字段明显偏离聚类质心而导致鼓励，若是，则认为该字段为引起噪声的语义本体；若否，则获取该噪声数据的所有字段，将该噪声数据的各个字段分别丢弃后进行聚类，若某个字段被丢弃后，此数据点仍然为噪声，则认为该被丢弃的字段为非噪声语义本体；若某个字段被丢弃后，此数据点不再称为噪声，则该被丢弃的字段为引起噪声的语义本体；去除该引起噪声的语义本体，将该噪声数据重新聚类以归入与其距离最短的质心的类中；将所述质心的类中的原有的词的语义本体属性的数据值求平均，将此平均值作为噪声数据的语义本体属性，则认为噪声数据被矫正形成干净数据；

重复执行以上步骤直到对文本数据中的噪声数据清理完成；

当所述采集的非结构化数据为非文本数据时，所述对采集的非结构化数据进行数据预处理包括：对所述采集的非结构化数据进行清洗，具体为：

配置数据清洗规则文件；所述数据清洗规则文件包括至少一条数据清洗规则，所述数据清洗规则包括数据表名，数据清洗规则伪代码和规则序号；

根据数据清洗规则文件，生成数据清洗代码；包括：从所述数据清洗规则文件中获取待清洗数据表的表名对应的数据清洗规则，生成临时文件；读取所述临时文件的第一条数据清洗规则，将该数据清洗规则中的数据清洗规则伪代码作为条件判断的条件部分，生成针对该数据清洗规则的清洗代码；遍历所述临时文件中所有的数据清洗规则，为每一条数据清洗规则生成对应的清洗代码，组合成完整的待清洗数据表的清洗代码；

执行数据清洗代码，为待清洗的数据打上标签；包括：读取待清洗数据表中的一条数据，为所述数据设置初始标签值；所述数据每触发一条数据清洗规则，则将其标签值增加2ⁿ，其中n为该数据清洗规则的规则序号；遍历待清洗数据表的表名对应的每一个数据清洗规则；遍历待清洗数据表中的每一条数据，为每一条待清洗数据打上标签；

解析标签，对脏数据进行清洗；包括：将标签值与2ⁿ分别做与运算，如果得到的结果为2ⁿ其本身，则说明该标签值对应的数据触发了n对应的数据清洗规则，否则未触发n对应的数据清洗规则，n为该数据清洗规则的规则序号。在本发明一优选的实施例中，知识挖掘系统基于搜索引擎，采集非结构化数据，并对采集的非结构化数据进行数据预处理，可以通过如下方式实施：

基于搜索引擎，采用分布式方式分类抓取网页中的内容，并从抓取的网页内容中提取非结构化数据；其中，所述网页包括链接页和内容页；识别提取出的非结构化数据中是否存在重复数据，若存在则对提取出的非结构化数据进行去重处理；对去重处理后的非结构化数据的噪声进行光滑处理；识别并删除非结构化数据中的异常或者离群点；判断所述非结构化数据是否存在缺失；若存在缺失，则根据预设处理方式，填充缺失字段或者删除缺失字段。

比如，在一具体的应用场景中，知识挖掘系统对数据纪录的缺失属性进行填充、对数据的噪声进行光滑操作、识别并删除数据中的异常或者离群点(在有些挖掘任务中则不需要处理，如欺诈行为识别)等。或者，知识挖掘系统将数据的各个属性通过平滑聚集、数据概化、数据规范化等方式将数据转换成适用于数据挖掘的形式等。

在本发明一优选的实施例中，知识挖掘系统根据需挖掘知识对应的目标数据特征，对数据预处理后的非结构化数据进行数据分析，根据分析结果构建知识挖掘模型，可以通过如下方式实施：

根据需挖掘知识对应的目标数据的数据特征，将语义推理和机器学习方法相结合，进行包含语义的机器学习；利用预设分析模型，分析所述非结构化数据对应的描述意图；根据机器学习和分析结果，构建知识挖掘模型。例如，知识挖掘系统学习待挖掘的非结构化数据对应的描述意图；结合形式语义推理，对待挖掘的非结构化数据进行语法分析和语义推理，从而了解该非结构化数据对应的描述意图，进而构建知识挖掘模型。

在本发明一优选的实施例中，知识挖掘系统根据机器学习和分析结果，构建知识挖掘模型，可以通过如下方式实施：

根据分析结果，构建深度卷积神经网络对应的知识挖掘模型；根据机器学习，对构建的知识挖掘模型进行模型训练，在训练过程中自动修饰完善对应的神经网络，优化知识挖掘模型；对优化后的知识挖掘模型进行评估，并根据评估结果，从构建的多个知识挖掘模型中选择一个最优的知识挖掘模型作为最终采用的知识挖掘模型。在实际应用中，若上述处理方式都没能解决实际问题，则重复执行上述过程，直至构建的知识挖掘模型达到预期目标。

进一步地，在本发明一优选的实施例中，知识挖掘系统根据比较结果，构建知识挖掘模型，可以通过如下方式实施：

根据机器学习和分析结果，设计与机器学习和分析结果相匹配的LDA模型对应的算法，并采用分布式及块分裂技术，构建对应的知识挖掘模型。本发明实施例中所描述的LDA模型即：Latent Dirichlet Allocation是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。LDA是一种非监督机器学习技术，可以用来识别大规模文档集或语料库中潜藏的主题信息。它采用词袋(bag of words)的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息，每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。

本发明非结构化数据的知识挖掘方法通过基于搜索引擎，采集非结构化数据，并对采集的非结构化数据进行数据预处理；根据需挖掘知识对应的目标数据特征，对数据预处理后的非结构化数据进行数据分析，根据分析结果构建知识挖掘模型；利用知识挖掘模型，从非结构化数据中提取出对应的目标信息；具有根据具体的知识挖掘需求构建对应的知识挖掘模型的有益效果，从而提高了知识挖掘的针对性和知识挖掘的准确率。

对应于图1所述实施例提供的一种非结构化数据的知识挖掘方法，本发明还提供了一种非结构化数据的知识挖掘系统；所述非结构化数据的知识挖掘系统能够实施图1实施例所描述的一种非结构化数据的知识挖掘方法，如图2所示，图2是本发明一种非结构化数据的知识挖掘系统的一种实施方式的功能模块示意图；本发明一种非结构化数据的知识挖掘系统包括：数据预处理模块100、模型构建模块200以及知识挖掘模块300；其中：

数据预处理模块100，用于基于搜索引擎，采集非结构化数据，并对采集的非结构化数据进行数据预处理；

模型构建模块200，用于根据需挖掘知识对应的目标数据特征，对数据预处理后的非结构化数据进行数据分析，根据分析结果构建知识挖掘模型；

知识挖掘模块300，用于利用知识挖掘模型，从非结构化数据中提取出对应的目标信息。

在本发明一优选的实施例中，所述数据预处理模块100用于：

对去重处理后的非结构化数据的噪声进行光滑处理；

识别并删除非结构化数据中的异常或者离群点；

判断所述非结构化数据是否存在缺失；

在本发明一优选的实施例中，所述模型构建模块200用于：

根据机器学习和分析结果，构建知识挖掘模型。

在本发明一优选的实施例中，所述模型构建模块200用于：

本发明非结构化数据的知识挖掘系统通过基于搜索引擎，采集非结构化数据，并对采集的非结构化数据进行数据预处理；根据需挖掘知识对应的目标数据特征，对数据预处理后的非结构化数据进行数据分析，根据分析结果构建知识挖掘模型；利用知识挖掘模型，从非结构化数据中提取出对应的目标信息；具有根据具体的知识挖掘需求构建对应的知识挖掘模型的有益效果，从而提高了知识挖掘的针对性和知识挖掘的准确率。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种非结构化数据的知识挖掘方法，其特征在于，所述非结构化数据的知识挖掘方法包括：

2.如权利要求1所述的非结构化数据的知识挖掘方法，其特征在于，所述基于搜索引擎，采集非结构化数据，并对采集的非结构化数据进行数据预处理，包括：

对去重处理后的非结构化数据的噪声进行光滑处理；

识别并删除非结构化数据中的异常或者离群点；

判断所述非结构化数据是否存在缺失；

3.如权利要求1或2所述的非结构化数据的知识挖掘方法，其特征在于，所述根据需挖掘知识对应的目标数据特征，对数据预处理后的非结构化数据进行数据分析，根据分析结果构建知识挖掘模型，包括：

根据机器学习和分析结果，构建知识挖掘模型。

4.如权利要求3所述的非结构化数据的知识挖掘方法，其特征在于，所述根据机器学习和分析结果，构建知识挖掘模型，包括：

5.如权利要求3所述的非结构化数据的知识挖掘方法，其特征在于，所述根据机器学习和分析结果，构建知识挖掘模型，包括：

6.一种非结构化数据的知识挖掘系统，其特征在于，所述非结构化数据的知识挖掘系统包括：

7.如权利要求6所述的非结构化数据的知识挖掘系统，其特征在于，所述数据预处理模块用于：

对去重处理后的非结构化数据的噪声进行光滑处理；

识别并删除非结构化数据中的异常或者离群点；

判断所述非结构化数据是否存在缺失；

8.如权利要求6或7所述的非结构化数据的知识挖掘系统，其特征在于，所述模型构建模块用于：

根据机器学习和分析结果，构建知识挖掘模型。

9.如权利要求8所述的非结构化数据的知识挖掘系统，其特征在于，所述模型构建模块用于：

10.如权利要求8所述的非结构化数据的知识挖掘系统，其特征在于，所述模型构建模块用于：