CN112506930A

CN112506930A - 一种基于机器学习技术的数据洞察平台

Info

Publication number: CN112506930A
Application number: CN202011478815.2A
Authority: CN
Inventors: 金震; 李明; 曹朝辉; 杨海建
Original assignee: Beijing SunwayWorld Science and Technology Co Ltd
Current assignee: Beijing SunwayWorld Science and Technology Co Ltd
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-03-16
Anticipated expiration: 2040-12-15
Also published as: CN112506930B

Abstract

本发明提供了一种基于机器学习技术的数据洞察平台，包括：数据接入层，用于从各种数据源获取数据，并建立数据洞察平台的数据库；数据分类层，用于对所述数据库中的标准数据进行分类分析生成数据资产目录，并在所述数据资产目录下建立数据资产卡片；核心算法层，用于基于对数据资产卡片进行洞察分析，并得到分析结果；可交互业务展示层，用于将所述分析结果根据用户选定方式进行展示；通过数据洞察平台解决了数据繁杂难以利用的问题，并通过建立数据资产目录实现了业务与技术的关联，打破技术人员和业务人员之间的壁垒，为数据洞察分析提供数据支撑，通过可交互业务展示层，分析结果可以得到直观的展示。

Description

一种基于机器学习技术的数据洞察平台

技术领域

本发明涉及机器学习技术领域，特别涉及一种基于机器学习技术的数据洞察平台。

背景技术

就现如今的发展趋势而言，大数据技术的发展如火如荼，大数据的价值体现在对大规模数据集合的智能处理方面，进而在大规模的数据中获取有用的信息。要想逐步实现这个功能，就必须对数据进行分析和挖掘。而数据的采集、存储、和管理都是数据分析步骤的基础，通过进行数据分析得到的结果，将应用于大数据相关的各个领域。未来大数据技术的进一步发展，与数据分析技是密切相关的。

目前企业、政府等信息系统的用户积累了大量的系统数据，但是数据繁杂、重复、不规范的情况较多，导致数据对各项业务发展的驱动作用未体现出来，数据的价值没有被挖掘出来，而且，虽然很多大数据的处理工具和系统应用了比较先进的技术和方法，可以采集大量的数据，对业务的支撑方面有所欠缺，并且分析结果的展示形式有限。

因此，为了解决数据繁杂难以利用且价值没有得到体现的问题，本发明提供一种基于机器学习技术的数据洞察平台。

发明内容

本发明提供一种基于机器学习技术的数据洞察平台，通过数据洞察平台解决了数据繁杂难以利用的问题，并通过建立数据资产目录实现了业务与技术的关联，打破技术人员和业务人员之间的壁垒，为数据洞察分析提供数据支撑，通过可交互业务展示层，分析结果可以得到直观的展示。

本发明提供一种基于机器学习技术的数据洞察平台，包括：

数据接入层，用于从各种数据源获取数据，并建立数据洞察平台的数据库；

数据分类层，用于对所述数据库中的标准数据进行分类分析生成数据资产目录，并在所述数据资产目录下建立数据资产卡片；

核心算法层，用于基于对数据资产卡片进行洞察分析，并得到分析结果；

可交互业务展示层，用于将所述分析结果根据用户选定方式进行展示。

在一种可能实现的方式中，从各种数据源获取数据，并建立数据洞察平台的数据库，包括：

接收数据导入请求，并根据所述数据导入请求获取相应的导入数据源；

接收所述导入数据源，并对所述导入数据源进行解析操作，得到所述导入数据源的第一组织架构树；

获取所述数据洞察平台的数据源，并对所述数据源进行解析操作，获得所述数据源的第二组织架构树；

将所述第一组织架构树和第二组织架构树进行合并操作，获得合并组织架构树，并基于所述合并架构树，建立所述数据洞察平台的数据库；

所述数据库中包含有所述导入数据源中的数据。

在一种可能实现的方式中，从各种数据源获取数据，并建立所述数据洞察平台的数据库后，还包括：

对所述数据库中的数据进行数据预处理，其过程包括：

对所述数据库中的数据进行数据缺失检测，判断所述数据库中的数据是否出现缺失，若是，则遍历所述数据库，得到数据缺失的位置，利用双线性差值算法对所述数据缺失的位置进行补值，得到第一数据集合；

对所述第一数据集合进行错误数据检测，并提取所述第一数据集合中的错误数据；

获取所述第一数据集合的比特数，并将比特数相同的数据组成数据集合，并对所述数据集合进行标记排序，按照所述排序将所述数据集合组成矩阵，将所述矩阵与预设矩阵相乘得到修正序列，基于所述修正序列对所述错误数据进行修正，得到正确数据；

将所述第一数据集合中的错误数据替换为修正得到的正确数据，并将替换后的第一数据集合作为第二数据集合；

利用哈希函数将所述第二数据集合的数据分别映射成相应的哈希值，并提取所述哈希值中的最小哈希值；

利用局部敏感哈希算法将所述哈希值中的最小哈希值对应的第二数据集合中的数据映射到检测序列中，并计算所述检测序列中所任意两个数据的相似值，若所述相似度大于预设相似值，则判定所述两个任意数据为重复数据；

将所述重复数据按照导入时间先后顺序，保留所述重复数据中导入时间最靠前的数据，将所述重复数据中剩余数据进行删除；

将所述剩余数据删除后的第二数据集合作为第三数据集合，并对所述第三数据集合中的数据进行数据标准化，得到标准数据。

在一种可能实现的方式中，对所述数据库中的标准数据进行分类分析生成数据资产目录，包括：

将预设数据的预设属性参数进行分类，并根据所述预设属性参数对预设数据进行分类，得到预分类结果；

基于所述预分类结果以及预设属性参数训练得到数据分类模型；

对所述标准数据进行解析，获得所述标准数据的属性参数，并基于所述属性参数进行特征提取，得到对应的属性特征；

将所述标准数据的属性特征输入到所述数据分类模型中对所述标准数据进行分类，并得到多个分类类别；

所述分类类别包括多个类别名称以及多个类别名称下对应的标准数据，并建立所述多个类别名称与多个类别名称下对应的标准数据的对应关系；

基于所述多个类别名称构建数据资产目录，并基于所述对应关系建立类别名称与类别名称对应的标准数据的搜索引擎。

在一种可能实现的方式中，在所述数据资产目录下建立数据资产卡片，包括：

在所述数据资产目录下建立新的业务模型；

基于所述业务模型在所述数据资产目录中搜索查询得到相关数据类别，将所述相关数据类别按照不同的业务服务功能在所述业务模型下建立多个第一数据资产卡片；

基于所述业务模型在业务推动过程中产生的数据根据所述不同的业务服务功能在所述业务模型下建立多个第二资产数据卡片；

所述多个第一数据资产卡片和多个第二资产数据卡片共同组成在所述业务模型下的数据资产卡片；

同时，在所述数据资产卡片上建立新增、变更、归档、查询的链接。

在一种可能实现的方式中，所述第一数据资产卡片的数据类型为元数据和主数据；所述第二数据资产卡片的数据类型为业务数据和分析数据。

在一种可能实现的方式中，对数据资产卡片进行洞察分析，并得到分析结果，包括：

获取用户的登录信息和用户对应的历史操作信息，并结合所述用户的本次的业务需求确定所述用户的所需数据特征，并基于所述特征利用预设的分析方式进行分析，得到数据筛选规则；

基于所述数据筛选规则在所述数据资产卡片中筛选出满足用户业务需求的目标数据；

对所述目标数据进行网络化，得到包含节点和边的关系网络，利用基于嵌入映射的表征学习算法对所述关系网络进行计算，得到所述关系网络的节点和高维向量，所述节点和高维向量构成所述目标数据的目标特征；

将所述目标数据的目标特征输入预设的相似度分析模型中，得到目标数据的语义相似度和文本相似度；

对所述语义相似度和文本相似度分别设置不同的权重，并将所述语义相似度和文本相似度与对应的权重相乘并求和，得到所述目标数据的相似度得分；

将所述目标数据中相似度得分一致的目标数据进行聚类得到一个聚簇，将全部的所述目标数据进行聚类得到多个聚簇；

依次随机选取聚簇中一个点作为预中心点，利用欧式距离公式计算所述预中心点到所述聚簇中剩余点的距离并求和得到距离之和，将所述距离之和最小的预中心点作为中心点，得到所述聚簇的中心点；

获取所述每个聚簇的中心点的中心数据，并基于所述中心数据构建分布矩阵，并利用自适应梯度下降算法对所述分布矩阵进行优化，得到分析结果。

在一种可能实现的方式中，用于将所述分析结果根据用户选定方式进行展示，包括：

将所述分析结果转化为所述数据洞察平台所能识别的语言，并将分析结果根据用户选定方式在所述可交互业务展示层进行展示；

其中，其中，根据所述用户选定方式进行展示是基于折线图、柱状图、饼状图、雷达图、散点图、仪表图、热力图、迁徙图中任一种或多种进行展示的，同时，还基于表格、滚动列表、文本、注释、图片中任一种或多种进行展示。

在一种可能实现的方式中，基于聚类分析对数据资产卡片进行洞察分析，并得到分析结果，还包括：

通过计算所述分析结果的质量评估值获得所述分析结果的评估有效值对所述分析结果进行评估，其过程包括：

根据如下公式计算所述分析结果的质量评估值：

其中，Q表示所述分析结果的质量评估值，m表示聚簇的数目，s_i表示第i个聚簇中样本点的数目，q_j表示第j个聚簇中样本点的数目，x_w表示所述第i个聚簇中第w个样本点的属性值，

表示所述第i个聚簇中s_i个样本点属性值的平均值，y_p表示所述第j个聚簇中第p个样本点的属性值，

表示所述第j个聚簇中q_j个样本点属性值的平均值，D_ij表示第i个聚簇中心点与第j个聚簇中心点的距离，j的取值范围为[1，m]，且i与j不相等；

基于所述分析结果的质量评估值，根据如下公式计算所述分析结果的评估有效值：

其中，σ所述分析结果的评估有效值，T_i表示所述第i个聚簇的相似度得分,取值为[1,10]，T_j表示所述第j个聚簇的相似度得分,取值为[1,10]，δ表示误差系数，取值范围为[0.2-0.4]；

将计算得到的所述分析结果的评估有效值与预设有效值进行比较；

若所述分析结果的评估有效值大于预设有效值，则控制所述核心算法层停止对所述数据资产卡片的洞察分析，并将得到的分析结果传输到可交互业务展示层进行展示；

否则，则控制所述核心算法层继续对所述数据资产卡片进行洞察分析，直到得到的分析结果的评估有效值大于预设有效值后，再通过可交互业务展示层进行展示。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中所述一种基于机器学习技术的数据洞察平台的结构图；

图2为本发明实施例中所述一种基于机器学习技术的数据洞察平台的另一实现图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例1：

本发明实施例提供一种基于机器学习技术的数据洞察平台，如图1所示，包括：

在该实施例中，所述数据资产目录支持全文模糊检索、分类导航、关键词、资源形态、行业分类、部门等多种组合检方式，支撑各种基于目录的主题应用服务。

上述设计方案的工作原理是：如图2所示，从各种数据源获取数据，并建立数据洞察平台的数据库；对所述数据库中的标准数据进行分类分析生成数据资产目录，并在所述数据资产目录下建立数据资产卡片；基于对数据资产卡片进行洞察分析，并得到分析结果；将所述分析结果根据用户选定方式进行展示。

上述设计方案的有益效果是：通过建立数据库并获得标准数据，解决了数据繁杂难以利用的问题，并通过在数据资产目录下建立数据资产卡片进行洞察分析，实现了业务与技术的关联，打破技术人员和业务人员之间的壁垒，为数据洞察分析提供数据支撑，通过可交互业务展示层，分析结果可以得到直观的展示。

实施例2：

基于实施例1的基础上，本发明实施例提供一种基于机器学习技术的数据洞察平台，从各种数据源获取数据，并建立数据洞察平台的数据库，包括：

所述数据库中包含有所述导入数据源中的数据。

在该实施例中，所述第一组织架构树、第二组织架构树和合并架构树可以直观的反应数据源中数据的上下左右相互之间的关系，例如在采购电子商务数据下平行建立物资单元、地址单元、财务单元等结构，在物资单元下平行建立物资分类、物资分配、物资维护等子结构，在地址单元下平行建立客户地址、供应商地址等子结构，在财务单元下平行建立财务公司、财务成本中心等子结构，它们共同组成组织架构树。

上述设计方案的工作原理及有益效果是:通过获取各种数据源及本数据洞察平台的数据源来建立数据库，获取多样、全面的数据，通过组织架构树使数据之间的关系分明。

实施例3：

基于实施例1的基础上，本发明实施例提供一种基于机器学习技术的数据洞察平台，从各种数据源获取数据，并建立所述数据洞察平台的数据库后，还包括：

对所述数据库中的数据进行数据预处理，其过程包括：

获取所述第一数据集合的比特数，并将比特数相同的数据组成数据集合，并对所述数据集合进行标记排序，按照所述排序将所述数据集合组成矩阵，将

所述矩阵与预设矩阵相乘得到修正序列，基于所述修正序列对所述错误数据进行修正，得到正确数据；

在该实施例中，所述错误数据为不满足数据格式要求的数据，例如对数据格式的要求为百分比，而错误数据的数据格式为分数。

在该实施例中，所述第一数据集合的比特数，英文名称为bit，用来描述数据集合的大小。

在该实施例中，所述双线性差值算法是指在数据缺失的位置的前后方向分别进行一次线性插值。

在该实施例中，所述矩阵是指将多个数据集合一列一列的排序得到矩阵，其中所述数据集合中包含的数据元素相同，数据元素的个数为所述矩阵的行数，数据集合的个数为所述矩阵的列数。

在该实施例中，所述预设矩阵的行数与所述矩阵的列数相等，所述预设矩阵的列数为1，所述矩阵与预设矩阵相乘得到的修正序列的行数与所述矩阵行数相同，列数为1。

在该实施例中，所述哈希函数为特定的函数关系，可以将第二数据集合的数据通过所述特定的函数关系得到相应的哈希值。

在该实施例中，在进行数据重复处理时利用局部敏感哈希算法可以快速地从海量数据中提取出相似数据。

在该实施例中，所述局部敏感哈希算法是一种空间域转换算法，例如，如果两个数据在原有的数据空间是相似的，那么分别经过局部敏感哈希算法转换以后的它们也具有很高的相似度。

在该实施例中，所述检测序列是通过局部敏感哈希算法将第二数据集合中的数据映射到该检测序列中，所述检测序列为第二数据集合中数据的另一种表现形式，可以表征数据间的相似性。

在该实施例中，计算所述检测序列中所任意两个数据的相似值表示将会将检测序列的其中一个数据与其他全部数据进行比较得到两者间的相似值。

在该实施例中，所述数据标准化表示对数据进行线性变换。

上述设计方案的有益效果是：通过对数据库中的数据进行数据缺失处理、错误数据处理、重复数据处理得到标准化数据，解决了数据繁杂、重复、不规范的问题，提高了数据分析的效率和精确度。

实施例4：

基于实施例1的基础上，本发明实施例提供一种基于机器学习技术的数据洞察平台，对所述数据库中的标准数据进行分类分析生成数据资产目录，包括：

在该实施例中，所述预设属性参数和属性参数包括关键字、语义参数、统计参数。

在该实施例中，所述属性特征包括与所述属性参数对应的关键字特征、语义特征、统计特征。

在该实施例中，所述分类类别是基于关键字特征、语义特征、统计特征得到的，例如将关键字特征相似的数据划分为一类。

上述设计方案的有益效果是：通过构建数据资产目录，并建立搜索引擎，实现了数据的查询功能。

实施例5：

基于实施例1或4的基础上，本发明实施例提供一种基于机器学习技术的数据洞察平台，在所述数据资产目录下建立数据资产卡片，包括：

在所述数据资产目录下建立新的业务模型；

在该实施例中，所述业务服务功能是根据业务需求得到的，例如可以是水质检测功能、货物流程检测功能。

在该实施例中，以业务服务功能为水质检测功能为例，所述第一数据资产卡片可以是在所述资产数据目录下得到水质检测对象及所述对象的基本信息，而第二数据资产卡片可以是在水质检测过程中得到的各个水质检测对象的水质情况。

上述设计方案的有益效果是：通过在数据资产目录下建立新的业务模型，实现业务与技术的相关联，打破技术人员和业务人员之间的壁垒，为数据洞察分析提供数据支撑，并且在所述数据资产卡片上建立新增、变更、归档、查询的链接，可以快速对数据资产卡片进行修改、保存。

实施例6：

基于实施例5的基础上，本发明实施例提供一种基于机器学习技术的数据洞察平台，所述第一数据资产卡片的数据类型为元数据和主数据；所述第二数据资产卡片的数据类型为业务数据和分析数据。

在该实施例中，所述元数据的是帮助查找、存取、使用和管理信息资源的数据，如水质检测对象数据。

在该实施例中，所述主数据也叫基准数据，可以共享，如水质检测对象的基本信息。

在该实施例中所述业务数据在业务处理过程中产生的数据，如各个水质检测对象的水质情况。

在该实施例中所述分析数据是指在业务数据的基础上进行分析得到的数据，如依据水质情况而设计的治理方案。

上述设计方案的有益效果是：通过将数据进行分类可以有针对性地获取数据信息。

实施例7：

基于实施例1的基础上，本发明实施例提供一种基于机器学习技术的数据洞察平台，对数据资产卡片进行洞察分析，并得到分析结果，包括：

在该实施例中，所述业务需求例如可以是季度财务报表情况、产品的购买人群分析等。

在该实施例中，所述预设的分析方式是指提取所需数据特征的关键字信息，并基于所述关键字信息获取相关联的相关文字信息，并对所述关键字信息和相关文字信息进行分析得到数据筛选规则。

在该实施例中，所述数据的节点表示数据关系不同的位置点，所述相邻节点连接构成数据的边，对目标数据全部划分将得到关系网络。

在该实施例中，所述语义相似度和文本相似度的权重的取值范围为[0.4-0.8]，且所述语义相似度和文本相似度的权重之和为1。

在该实施例中，所述分布矩阵的构建方法为将每个中心数据按照列依次排列，得到分布矩阵，所述中心数据中的元素个数为所述分布矩阵的行，所述中心数据的个数为所述分布矩阵的列。

在该实施例中，所述自适应梯度下降算法是指通过更新每次梯度下降的方向，可以在较短时间内得到优化程度较高的分布矩阵。

上述设计方案的有益效果是：通过对数据资产卡片进行洞察分析，得到的分析结果支撑业务的决策和关联，通过自适应梯度下降算法对分析结果进行优化，使得分析结果更准确，做出正确的决策。

实施例8：

基于实施例1的基础上，本发明实施例提供一种基于机器学习技术的数据洞察平台，用于将所述分析结果根据用户选定方式进行展示，包括：

其中，根据所述用户选定方式进行展示是基于折线图、柱状图、饼状图、雷达图、散点图、仪表图、热力图、迁徙图中任一种或多种进行展示的，同时，还基于表格、滚动列表、文本、注释、图片中任一种或多种进行展示。

上述设计方案的有益效果是：通过提供多种展示形式供用户选择，使得分析结果可以得到直观的展示。

实施例9：

基于实施例1或7的基础上，本发明实施例提供一种基于机器学习技术的数据洞察平台，基于聚类分析对数据资产卡片进行洞察分析，并得到分析结果，还包括：

根据如下公式计算所述分析结果的质量评估值：

在该实施例中，所述分析结果的评估有效值用来表征分析结果的准确性，所述评估有效值越大，说明所述分析结果的准确性越高。

在该实施例中，所述聚簇中的样本点为所述聚簇中的目标数据，且所述样本点的属性值即所述目标数据的属性值，是指将所述目标数据的属性用数值来表征，例如样本点的属性分别为高级、中级、初级，用数字1，2，3来依次代替。

上述设计方案的有益效果是：通过对聚簇的数目、样本点的属性值作为计算指标通过计算得到所述分析结果的质量评估值，可以表征所述聚类分析中得到的聚簇的精确度，通过质量评估值进一步得到分析结果的评估有效值，来对分析结果进行评估，对没有达到要求的分析结果重新进行洞察分析得到新的分析结果，保证了分析结果的质量和准确性。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。