CN110990383A

CN110990383A - 一种基于工业大数据集的相似度计算方法

Info

Publication number: CN110990383A
Application number: CN201910972798.9A
Authority: CN
Inventors: 乔非; 王巧玲
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2019-10-14
Filing date: 2019-10-14
Publication date: 2020-04-10

Abstract

本发明涉及一种基于工业大数据集的相似度计算方法。其步骤包括：S1.采集数据，并将样本数据进行有效的预处理；S2.从样本数据集中随机提取10％的数据，作为训练样本集，并对训练样本集进行归一化处理。S3.用改进相似度计算公式计算出训练样本集中每一个数据点与其他数据点的相似度平均值，作为神经网络的训练数据输出集。S4.输入训练样本集和训练数据输出集，来训练神经网络。S5.将整个大数据集输入到完成训练的神经网络中，得到输出，输出结果是每一个数据点与其他数据点的相似度。S6.将输出结果进行计算处理，得到整个数据集的相似度。本发明涉及大数据集快速相似度计算方法，为大数据质量评估提供坚实的理论依据，具有准确度高，运算速度快的优点。

Description

一种基于工业大数据集的相似度计算方法

技术领域

本发明涉及数据质量评估技术领域，尤其是涉及一种基于工业大数据集的相似度计算方法。

背景技术

对大数据而言，核心关键是从大规模数据中发现和挖掘出有价值的信息。而数据挖掘过程中，使用合适的技术，筛选掉其中无用或不相关的内容，探寻和发现其中内在的、具有巨大潜在价值的信息和财富是极为重要的。

由于信息技术高速发展,数据集成技术在各个领域广泛应用。在建造数据仓库的过程中，通常需要从多个相对独立的数据源中导入大量的数据，将这些数据进行集成。现有的数据仓库经常存在如输入错误，不同数据源中数据表示方法不同等问题，导致数据仓库中存在很多噪声数据：相似记录、错误数据、丢失值等。

因此，需要在数据挖掘前先对数据进行清洗，保证数据质量，从而获得由价值的信息。相似度是大数据应用中数据的一个重要性质，相似记录检测是数据清洗的关键问题之一。相似度计算是衡量变量间相互关系强弱，联系紧密程度的重要手段，也是判断决策和解决问题的重要工具。

在工业测试用例选择应用中，有着基于相似度的测试用例选择方法(STCS)，其潜在假设为“越多样化的测试集具有更强的暴露故障能力”。因此，也有文献通过数据相似性预定义的相似度度量来得到多样化的测试用例选择，实现更高效的故障检测能力。还有人通过对洪水数据的相似性分析，有效实现了在洪水发生的早期阶段发生报警，允许操作员早做准备。还有人提出了位置误差相似度计算方法，通过对机器人运动学参数建立的误差模型的分析，提高了工业机器人的绝对位置精度。

在深度学习领域，跨域可视数据匹配是许多现实世界视觉任务中的基本问题之一，解决该问题的常规方法通常包括两个步骤：i)将来自不同域的样本投影到公共空间中，ii)基于特定距离在该空间中计算相似性。基于广义相似度量和特征学习技术，实现了跨域视觉匹配。有一种基于给定离散小波分解的近似水平的新结构相似性度量，从而捕获到不同图像之间的相似度。

在推荐系统领域，有一种改进的相似性度量公共Pearson相关系数(COPC)。它强烈依赖于选择的距离函数，其遵循单调性的自然属性并利用共识评估度量来捕获最佳值以改进PCC测量。

然而以上提出的传统方法，都只是对相似度度量方法进行了改进，没有对相似度计算过程的时效性进行改进。

在相似计算过程中，如何提高效率是一个巨大的挑战。由于目前数据量在不断增大，数据来源渠道又非常多，所以，需要检测的数据量在不断增多，而对这些数据处理运算时间复杂度也越来越高。高效地检测处理相似或重复数据，是当前研究的热点问题。但是，目前的技术，大多通过数据与数据相互比较来进行相似数据的检测。而随着数据量的急剧增加，所需的时间也呈指数级增长，传统的方法显然是不可行的。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于工业大数据集的相似度计算方法。

本发明的目的可以通过以下技术方案来实现：

一种基于工业大数据集的相似度计算方法，该方法包括以下步骤：

步骤1：采集数据，并对数据进行预处理，筛选淘汰缺失数据，得到预处理后的样本数据集；

步骤2：对预处理后的样本数据集随机提取部分数据，并进行归一化处理，得到归一化后的训练样本集；

步骤3：用改进相似度计算公式计算出归一化后的训练样本集中每个数据点与其他数据点的相似度平均值作为神经网络的训练数据输出集；

步骤4：输入训练样本集和训练数据输出集，在训练次数范围内迭代循环训练神经网络直至达到训练目标或超过训练次数；

步骤5：将整个大数据集输入至完成训练的神经网络中，设置参数后得到作为输出结果的每个数据点与其他数据点的相似度；

步骤6：根据输出结果得到整个大数据集的相似度。

进一步地，所述步骤1具体包括：采集数据，并对数据进行预处理，采用二分法查找缺失维度的数据点，并将该数据点剔除后得到预处理后的样本数据集。

进一步地，所述步骤2中的归一化处理具体包括：归一化退化变量样本，采用最大最小值归一化方法，对各个维度进行归一化，并规约于[0,1]之间。

进一步地，所述的最大最小值归一化方法，其对应的描述公式为：

式中，X_i表示数据点在i维度的数值，X_min表示数据点在i维度的最小值，X_max表示数据点在i维度的最大值。

进一步地，所述的步骤2具体包括：对预处理后的样本数据集随机提取10％的数据，并进行归一化处理，得到归一化后的训练样本集。

进一步地，所述的步骤3中的改进相似度计算公式为：

式中，Cot1(A,B)和Cot2(A,B)表示改进相似度计算公式中的两种余切值，A₁,A₂...A_j表示数据点A中j维数据，B₁,B₂...B_j表示数据点B中j维数据。

进一步地，所述的步骤6中的整个大数据集的相似度，其计算公式为：

式中，Simi(D)表示整个大数据集D的相似度，n、i、j均为自然数，simi(x_i,x_j)表示大数据集中的两两数据点之间相似度的平均值。

与现有技术相比，本发明具有以下优点：

(1)原始的余弦相似度计算方法，有一个较为明显的缺点是：当一个数据点为另一个数据点的2倍时，两者之间的相似度为1，即余弦相似度认为两个数据点相同，此缺点在一定程度上降低了相似度计算的准确性；本发明针对传统余弦相似度进行了改进，提出了两种余切相似度计算方法，有效避免了当两个向量方向一致，模不一样的时候，相似度为1的不准确情况。避免了传统余弦相似度存在的缺陷，有效改进了相似度计算的准确性。

(2)特别地，针对于大数据背景下，数据集相似度运算效率较低的问题，本发明基于神经网络相似度计算方法方法。将大数据集的相似度进行训练计算，从而大大节约计算时间，提高了数据相似度计算的时效性。

附图说明

图1为本发明实施例的基于神经网络的相似度计算方法流程图；

图2为本发明实施例的神经网络迭代训练流程图；

图3为本发明实施例的神经网络损失函数下降状态图；

图4为本发明实施例的神经网络训练状态图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

实施例

如图1所示为本发明实施例的基于神经网络的相似度计算方法流程图，该方法的步骤包括：

S1.采集数据，并将样本数据进行有效的预处理，筛选并淘汰缺失数据。

S2.从样本数据集中随机提取10％的数据，作为训练样本集，并对训练样本集进行归一化处理，以避免数值较大的维度对整个相似度计算影响大，从而导致计算结果值不准确。

S3.用改进相似度计算公式计算出训练样本集中每一个数据点与其他数据点的相似度平均值，作为神经网络的训练数据输出集。

S4.输入训练样本集和训练数据输出集，在训练次数范围内，不断迭代循环训练神经网络，直到达到训练目标或超过训练次数。

S5.将整个大数据集输入到完成训练的神经网络中，设置学习率、训练要求精度、最大训练次数等参数，得到输出，输出结果是每一个数据点与其他数据点的相似度。

S6.将输出结果进行计算处理，得到整个数据集的相似度。

其中，步骤S1样本数据的预处理具体包括：

缺失值剔除，采用二分法查找出有缺失维度的数据点，并将该数据点剔除，避免对后续相似度计算带来误差。

步骤S2.样本数据集归一化具体包括：

归一化退化变量样本，采用最大最小值归一化方法，对各个维度进行归一化，将其规约于[0,1]之间，即：

在实际生产过程中，数据集通常有多个维度，而不同维度的阈值大不相同，归一化能有效避免阈值大的维度对相似度计算产生较大的影响。将每一个维度的阈值控制在[0,1]之间，保证了每一个维度对相似度的贡献作用相同，从而使得计算出的相似度有意义。

步骤S3.神经网络的训练数据输出集具体包括：

用遍历算法，依次算出每一个数据点，与其他随机数据集中数据点的平均相似度，并把所有数据点与其他数据点的平均相似度作为训练数据输出集。

改进相似度计算公式，其具体描述公式，为：

步骤S4.训练循环神经网络具体包括：

将随机数据集作为神经网络训练输入集，不断迭代循环训练神经网络，训练输出结果与训练期望输出结果的误差小于给定差额。表明神经网络训练完成。

步骤S5.神经网络仿真输出具体包括：

将整个数据集输入到已经训练完毕的神经网络中，迭代仿真，输出结果为每个数据点与其他所有数据点的相似度平均值。

步骤S6.整个数据集的相似度具体包括：

假设数据集D＝{X₁,X₂...X_n},由n个数据点X组成，则整个数据集D的相似度定义为：

用神经网络计算一个数据集中每一个数据点与其他所有数据点之间的相似度平均值，从而计算出整个数据集的平均相似度。

因大数据集数据过于庞大，若用传统的方法计算，时间复杂度为O(n²)，而神经网络计算时间平均在15s内，因此很大程度上减小了时间复杂度。

如图2为神经网络训练迭代流程示意图，神经网络的训练输入为随机样本数据集，训练目标为随意样本数据集中每一个数据点与其他数据点之间的相似度平均值。将神经网络训练到与设定目标一致。再将整个数据集输入到神经网络中，运行神经网络，并得到输出，此时的输出为数据集中每一个数据点与其他所有数据点的相似度的平均值。最后将输出结果进行计算，得到整个数据集的相似度。

如图3所示为本发明实施例的神经网络损失函数下降状态图；

如图4所示为本发明实施例的神经网络训练状态图。

图3中，Best Training Performance为最佳训练表现，epoch表示数据集迭代轮次，Mean Square Error表示均方误差，Train表示实际训练状态，Best表示最佳训练状态，Goal表示目标训练状态，图4中，Gradient表示变化率，Validation Checks表示设定值，Learning Rate(lr)表示学习率。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于工业大数据集的相似度计算方法，其特征在于，该方法包括以下步骤：

步骤6：根据输出结果得到整个大数据集的相似度。

2.根据权利要求1所述的一种基于工业大数据集的相似度计算方法，其特征在于，所述步骤1具体包括：采集数据，并对数据进行预处理，采用二分法查找缺失维度的数据点，并将该数据点剔除后得到预处理后的样本数据集。

3.根据权利要求1所述的一种基于工业大数据集的相似度计算方法，其特征在于，所述步骤2中的归一化处理具体包括：归一化退化变量样本，采用最大最小值归一化方法，对各个维度进行归一化，并规约于[0,1]之间。

4.根据权利要求3所述的一种基于工业大数据集的相似度计算方法，其特征在于，所述的最大最小值归一化方法，其对应的描述公式为：

5.根据权利要求1所述的一种基于工业大数据集的相似度计算方法，其特征在于，所述的步骤2具体包括：对预处理后的样本数据集随机提取10％的数据，并进行归一化处理，得到归一化后的训练样本集。

6.根据权利要求1所述的一种基于工业大数据集的相似度计算方法，其特征在于，所述的步骤3中的改进相似度计算公式为：

7.根据权利要求1所述的一种基于工业大数据集的相似度计算方法，其特征在于，所述的步骤6中的整个大数据集的相似度，其计算公式为：