CN110990453B

CN110990453B - 数据集中强相关变量提取及专利数量影响因素提取方法

Info

Publication number: CN110990453B
Application number: CN201911176601.7A
Authority: CN
Inventors: 王树良; 许建峰; 冯俊达; 刘传鲁; 耿晶
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2021-07-16
Anticipated expiration: 2039-11-26
Also published as: CN110990453A

Abstract

本发明公开了本发明提供了数据集中强相关变量提取及专利数量影响因素提取方法，能够计算两两变量之间的相关性，更有利于挖掘现实数据中隐藏的关联关系。其中数据集中强相关变量提取方法，通过对数据进行分块划分，并采用邻域向量检测以及自适应加权的方式进行两变量之间相关性的计算。本发明还提供了一种利用强相关变量提取方法进行专利数量影响因素提取的方法，根据该方法提取的影响因素与专利数量存在较强的相关性，从而获得专利数量与其他变量之间隐藏的关联关系。

Description

数据集中强相关变量提取及专利数量影响因素提取方法

技术领域

本发明涉及数据挖掘技术领域，具体涉及数据集中强相关变量提取及专利数量影响因素提取方法。

背景技术

随着大量的数据产生在各个学科，如地理学，物理学，政治学和经济学，尤其是生物学科的数据在呈指数型增长,挖掘大数据集中的潜在关系也变得越来越有意义.想象有一个数据集中有百个变量，即可组合成千上万对双变量，这些变量对之间很可能存在着隐藏的关联关系，尤其当这些要探寻的关系类型未知时，人工挖掘如此大量的关系便显得不切实际。

因此，很多情况下，在进行信息分析、信息推荐及信息预测时，由于数据量庞大，在一个大数据集中，如何有效地辨识变量之间的潜在关系越来越具有挑战性和重要性。例如在对世界健康组织的数据进行分析时，判断人的健康系数与什么变量的关系最紧密，是饮食习惯、睡眠规律还是其他因素。

在互联网信息推荐时，如何根据一些用户的浏览记录、关注内容判断另一些用户感兴趣的信息；市场分析时，如何根据以往市场分析报告找出市场波动的影响因素，从而根据这些因素的现状预测下一阶段的市场动态；因此变量之间的相关度获取是否准确至关重要。

在这种需求下，David N.Reshef以及Yakir A.Reshef等人在《Science》杂志上提出了一个新的统计方法，即最大信息系数MIC，可用于量化双变量之间的关系强度，进而发现隐藏在大数据集中的重要关系。

该方法使用类拟合的思想，使用网格包围双变量在平面直角坐标系中形成的离散点，即，如果两个变量之间存在某种关系，那么就可以在其散点图上构造某种网格划分，使得大多数的数据点集中在该网格的几个单元格中，这些包含数据点的网格可近似视为某种拟合曲线，从而达到刻画两变量的关系的目的。不同于曲线拟合方法无法应对非函数型关系，容易过拟合，以及计算量大，该方法对函数以及非函数关系均适用，计算量小，且可挖掘出变量间深层关系。该方法依赖于样本的大小，通过搜寻满足一定条件的所有网格划分直至搜寻到最优的网格划分方案，该方案即为其网格拟合方案，最可能揭示出其真实的潜在关系，该网格划分下的互信息的归一化值即为MIC值。

MIC方法较之其他的相关性度量方法，如Pearson相关系数、Spearman相关系数等，更加适用于数据探索，可以在大数据集中发现范围广泛的关系类型，不再局限于特定的函数类型，尤其是线性关系，此外，MIC能够对于噪声水平相同的不同关系类型给出类似的评估值，特别地，对于函数类型而言，MIC对R2值接近的不同函数关系给出相近的度量，避免单纯地因不同的关系类型影响相似性的度量。这些特征使得MIC在各个领域产生重要的影响，抒写着数据探索的新篇章。

MIC相对于Pearson，Spearman相关系数而言，其优势是可以检测出各种类型的关系，线性和非线性，单调和非单调，甚至是非函数类型的广泛关系，并且受异常值的影响较少。对于最大相关系数，距离相关系数，或者互信息而言，MIC最重要的优势是它的均匀性，对于相同噪声水平的不同函数关系，可以给出相近的评估值，例如互信息可能对于R2值相同的抛物线函数和正弦函数给出不同的值，但是实际上抛物线关系和正弦关系同属于函数关系，都是强关联关系，得到不同的相关性度量值是不合理的，MIC很好地解决了这一缺陷，对于两个无噪声的具有确定关系的随机变量，MIC值都为1；对于两个有噪声但存在关系的随机表里，MIC的值与噪声水平成反比，与R2值接近；对于两个统计上相互独立的随机变量，MIC的值趋近0。

MIC度量方法的提出对于统计学、社会学、生物学等各个学科的研究有着极大的促进作用，然而，仍然很多学者在质疑MIC的优势之处，并认为MIC的均匀性存在一定精度偏差，随后，David Reshef等人在后续的研究中提出，由于目前计算MIC的近似算法因考虑到效率性，仅是在有效的时间内逼近MIC的实际值，导致MIC值出现均匀性的偏差，并期待更好地平衡时间和精度的改进近似算法出现。

如何进行MIC近似值的计算，使得近似值无限接近于MIC的真实值，更有利于挖掘现实数据中隐藏的关联关系。

发明内容

有鉴于此，本发明提供了数据集中强相关变量提取及专利数量影响因素提取方法，能够计算两两变量之间的相关性，作为最大信息系数MIC近似值，使得近似值无限接近于MIC的真实值，更有利于挖掘现实数据中隐藏的关联关系。

为达到上述目的，本发明的技术方案提供的数据集中强相关变量提取方法，包括如下步骤：

S1、在已有数据集中选取两个变量，分别为第一变量X和第二变量Y，从已有数据集中提取第一变量X的数据数量和第二变量Y的数据数量相等。

S2、第一变量X的数据和第二变量Y的数据一一对应组成数据二元组，构建关于第一变量X和第二变量Y的平面坐标系，每个数据二元组对应平面坐标系内的一个数据点，取所有数据点的外包矩形作为数据平面，对数据平面的行列分别进行均匀划分，得到数据块，每个数据块对应一个行列号。

S3、构建关于数据平面的概率质量密度矩阵，概率质量密度矩阵中的元素为对应行列号的数据块内的数据点个数。

S4、取概率质量密度矩阵中的非零单元作为当前处理单元。

S5、计算当前处理单元的局部相关分数RS，具体包括如下步骤：

取当前处理单元的8个邻域单元的值组成邻域向量neighborhood，若领域单元不存在则补零。

S501、构建自适应权值向量w＝[α⁶ α⁵ α⁴ α³ α² α ξ ξ]；其中α为第一权值参数，α取值为[0,1]；ξ为第二权值，ξ为α的10倍以上的数值。

S502、将neighborhood中的数值按照由小到大的顺序进行重新排列得到neighborhood’。

S503、当前处理单元的局部相关分数

∈为依经验设定的误差。

S6、选取概率质量密度矩阵中的下一非零单元更新当前处理单元，重复S5，直至概率质量密度矩阵中的所有非零单元均获得局部相关分数。

S7、以所有非零单元对应的局部相关分数的平均值作为第一变量X和第二变量Y的相关性强度。

S8、在已有数据集中再次选取两个变量，更新第一变量X和第二变量Y，重复S1～S7，直至已有数据集中两两变量之间均得到相关性强度。

S9、在已有数据集中，提取相关性强度大于设定阈值的两个变量作为已有数据集的强相关变量；设定阈值为经验值。

进一步地，已有数据集为用于数据挖掘的公开数据集。

进一步地，已有数据集为世界卫生组织WHO提供的公开数据集。

本发明还提供了一种专利数量影响因素提取方法，包括如下步骤：

SS1、在已有公开数据集中选取两个变量，分别为第一变量X和第二变量Y，其中以专利数量作为第一变量X，随机选取已有公开数据集中的变量作为第二变量Y，从已有公开数据集中提取第一变量X的数据数量和第二变量Y的数据数量相等。

SS2、第一变量X的数据和第二变量Y的数据一一对应组成数据二元组，构建关于第一变量X和第二变量Y的平面坐标系，每个数据二元组对应平面坐标系内的一个数据点，取所有数据点的外包矩形作为数据平面，对数据平面的行列分别进行均匀划分，得到数据块，每个数据块对应一个行列号。

SS3、构建关于数据平面的概率质量密度矩阵，概率质量密度矩阵中的元素为对应行列号的数据块内的数据点个数。

SS4、取概率质量密度矩阵中的非零单元作为当前处理单元。

SS5、计算当前处理单元的局部相关分数RS，具体包括如下步骤：

SS501、构建自适应权值向量w＝[α⁶ α⁵ α⁴ α³ α² α ξ ξ]；其中α为第一权值参数，α取值为[0,1]；ξ为第二权值，ξ为α的10倍以上的数值。

SS502、将neighborhood中的数值按照由小到大的顺序进行重新排列得到neighborhood’。

SS503、当前处理单元的局部相关分数

SS6、选取概率质量密度矩阵中的下一非零单元更新当前处理单元，重复SS5，直至概率质量密度矩阵中的所有非零单元均获得局部相关分数。

SS7、以所有非零单元对应的局部相关分数的平均值作为第一变量X和第二变量Y的相关性强度。

SS8、保持第一变量X不变，在已有公开数据集中再次选取一个变量以更新第二变量Y，重复SS1～SS7，直至获得已有公开数据集中所有变量与第一变量X的相关性强度。

SS9、在已有公开数据集中，提取与第一变量X的相关性强度大于设定阈值的变量作为专利数量的影响因素；设定阈值为经验值。

有益效果：

1、本发明提供了数据集中强相关变量提取方法，通过对数据进行分块划分，并采用邻域向量检测以及自适应加权的方式进行两变量之间相关性的计算，所计算出的的相关性强度可以作为最大信息系数MIC近似值，该相关性强度在数值上无限接近于MIC的真实值，因此更有利于挖掘现实数据中隐藏的关联关系。

2、本发明实施例还提供了一种利用强相关变量提取方法进行专利数量影响因素提取的方法，该方法通过对数据进行分块划分，并采用邻域向量检测以及自适应加权的方式进行专利数量及其他变量之间相关性的计算，所计算出的相关性强度可以作为最大信息系数MIC近似值，该相关性强度在数值上无限接近于MIC的真实值，因此更有利于挖掘现实数据中隐藏的关联关系，因此根据该方法提取的影响因素与专利数量存在较强的相关性，从而获得专利数量与其他变量之间隐藏的关联关系。

附图说明

图1为本发明提供的数据集中强相关变量的提取方法流程图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

本发明提供了一种数据集中强相关变量的提取方法，如图1所示，包括如下步骤：

S2、第一变量X的数据和第二变量Y的数据一一对应组成数据二元组，构建关于第一变量X和第二变量Y的平面坐标系，每个数据二元组对应平面坐标系内的一个数据点，取所有数据点的外包矩形作为数据平面，对数据平面的行和列分别进行均匀划分，得到数据块，每个数据块对应一个行列号。

其中对数据平面的行列进行均匀划分时，可以凭经验设定行列的划分数量。

考虑两变量的数据之间的函数关系是离散的，在二维数据空间，即数据平面内，也即数据集的散点图，先把整个数据平面划分成数据块，表示每个数据块的概率质量(PM)很容易通过计算落入每个数据块的数据点的数量得到。如果一组数据呈现某种函数关系，那么封装这种关系的PM拟合矩阵也可以反映这种关系。当由一组离散点组成的无噪声泛函关系穿透一个数据块时，落在数据块邻域内的散点数据点大多位于8个邻域格中的2个。另外,在恰当选择了网格划分之后,在数据点邻近的八个数据块中的两个有更高的概率落入点,而其他六个是空着的。反之，拥有这样的邻域的中心格子也表示有该处的局部数据拥有无噪声的函数关系。

S4、取概率质量密度矩阵中的非零单元作为当前处理单元；

自适应权值向的确定规则如下:8个权值中，2个应该设置得高，其余的应该设置得相对低。在这种情况下，重要关系的局部数据往往有一个干净整洁的邻域。更具体而言，对于中央数据块，只有两个邻域单元应该加权相对较大的第二权值ξ，而其他邻域单元应该加权相对小的正数α和α的指数形式。用指数形式的α的含义是，其他六个邻域单元对于最后的局部相关分数的积极贡献应该越来越少。

S502、将neighborhood中的数值按照由小到大的顺序进行重新排列得到neighborhood’；

S503、当前处理单元的局部相关分数

∈为依经验设定的误差，∈不为零，其值尽量少。

S6、选取概率质量密度矩阵中的下一非零单元更新当前处理单元，重复S5，直至概率质量密度矩阵中的所有非零单元均获得局部相关分数；

S7、以所有非零单元对应的局部相关分数的平均值作为第一变量X和第二变量Y的相关性强度；

S8、在已有数据集中再次选取两个变量，更新第一变量X和第二变量Y，重复S1～S7，直至已有数据集中两两变量之间均得到相关性强度；

本发明中，已有数据集为用于数据挖掘的公开数据集。例如可以是世界卫生组织WHO提供的公开数据集。

基于上述的数据集中强相关变量的提取方法，本发明还提供了一种专利数量影响因素提取方法，包括如下步骤：

SS4、取概率质量密度矩阵中的非零单元作为当前处理单元。

SS503、当前处理单元的局部相关分数

本发明实施例中，对WHO数据集中63546对数据进行分析，并在其中发现了一个非常有趣的强相关：城市人口数量和专利数量，虽然这对不是一个传统意义上的连续函数，但基于本发明提供的数据集中强相关变量的提取方法，依靠其低噪声下的能检测几乎任何一对变量相关性强弱的特性依旧给与其了很高的分数。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.专利数量影响因素提取方法，其特征在于，包括如下步骤：

SS1、在已有公开数据集中选取两个变量，分别为第一变量X和第二变量Y，其中以专利数量作为第一变量X，随机选取所述已有公开数据集中的变量作为第二变量Y，从所述已有公开数据集中提取第一变量X的数据数量和第二变量Y的数据数量相等；

SS2、第一变量X的数据和第二变量Y的数据一一对应组成数据二元组，构建关于第一变量X和第二变量Y的平面坐标系，每个数据二元组对应所述平面坐标系内的一个数据点，取所有数据点的外包矩形作为数据平面，对所述数据平面的行列分别进行均匀划分，得到数据块，每个数据块对应一个行列号；

SS3、构建关于所述数据平面的概率质量密度矩阵，所述概率质量密度矩阵中的元素为对应行列号的数据块内的数据点个数；

SS4、取所述概率质量密度矩阵中的非零单元作为当前处理单元；

SS5、计算所述当前处理单元的局部相关分数RS，具体包括如下步骤：

取所述当前处理单元的8个邻域单元的值组成邻域向量neighborhood，若领域单元不存在则补零；

SS501、构建自适应权值向量w＝[α⁶ α⁵ α⁴ α³ α² α ξ ξ]；其中α为第一权值参数，α取值为[0,1]；ξ为第二权值，ξ为α的10倍以上的数值；

SS502、将neighborhood中的数值按照由小到大的顺序进行重新排列得到neighborhood’；

SS503、所述当前处理单元的局部相关分数

其中，ò为依经验设定的误差；

SS6、选取所述概率质量密度矩阵中的下一非零单元更新当前处理单元，重复SS5，直至所述概率质量密度矩阵中的所有非零单元均获得局部相关分数；

SS7、以所有非零单元对应的局部相关分数的平均值作为所述第一变量X和第二变量Y的相关性强度；

SS8、保持第一变量X不变，在所述已有公开数据集中再次选取一个变量以更新第二变量Y，重复SS1～SS7，直至获得所述已有公开数据集中所有变量与第一变量X的相关性强度；

SS9、在所述已有公开数据集中，提取与第一变量X的相关性强度大于设定阈值的变量作为所述专利数量的影响因素；所述设定阈值为经验值。