CN110083815A

CN110083815A - 一种同义变量识别方法和系统

Info

Publication number: CN110083815A
Application number: CN201910373824.6A
Authority: CN
Inventors: 祝捷
Original assignee: Zhongye Saidi Chongqing Information Technology Co Ltd
Current assignee: Zhongye Saidi Chongqing Information Technology Co Ltd
Priority date: 2019-05-07
Filing date: 2019-05-07
Publication date: 2019-08-02
Anticipated expiration: 2039-05-07
Also published as: CN110083815B

Abstract

本发明提出一种同义变量识别方法包括：获取所有表格，提取表格中每个变量的特征；在获取的表格中选取一个表格作为模板，将其他表格中变量名与模板中变量名进行匹配，根据匹配结果记录与模板变量名不匹配的变量的位置信息；根据所述不匹配变量的特征和位置信息得到相关性矩阵；根据所述相关性矩阵计算距离矩阵，对所述距离矩阵进行聚类，获取聚类结果；计算所述聚类结果对应的变量间的相似度和可靠度，判断对应的不匹配的变量是否为同义变量；本发明能快速识别同义变量，识别准确度和效率高。

Description

一种同义变量识别方法和系统

技术领域

本发明涉及计算机数据处理领域，尤其涉及一种同义变量识别方法和系统。

背景技术

在针对多个数据表格整合的过程中，由于建立表格时输入错误(例如：将及格率误输入为几格率)、命名方式差异(例如：及格率和及格比例)等问题，导致不同表格中的变量名字不同，但是表达的内容相同的情况。在进行数据表格合并、字段关联、整理时就会出现关联失败的情况，需要人工审核校对，大大降低了数据整理的工作效率。

发明内容

鉴于以上现有技术存在的问题，本发明提出一种同义变量识别方法和系统，主要解决数据整理人工校验效率不高的问题。

为了实现上述目的及其他目的，本发明采用的技术方案如下。

一种同义变量识别方法，包括：

获取所有表格，提取表格中每个变量的特征；

在获取的表格中选取一个表格作为模板，将其他表格中变量名与模板中变量名进行匹配，根据匹配结果记录与模板变量名不匹配的变量的位置信息；

根据所述不匹配变量的特征和位置信息得到相关性矩阵；

根据所述相关性矩阵计算距离矩阵，对所述距离矩阵进行聚类，获取聚类结果；

计算所述聚类结果对应的变量间的相似度和可靠度，判断对应的不匹配的变量是否为同义变量。

可选地，所述变量的特征包括：变量名、变量数据缺失率、变量在所有表格中出现次数与总表格数的占比、变量类型、连续型变量的描述性特征和离散型变量的非空值比例；所述变量类型以单个变量去重后的数据量为依据划分为离散型变量和连续型变量，所述离散型变量包括短分类变量和长分类变量。

可选地，进行变量名匹配至少包括以下步骤：

选出变量名最多的表格作为模板，并对模板中的变量名进行编号；

对所有表格中的变量名进行预处理；

将其他表格的变量名与所述模板中的变量名进行匹配，若变量名匹配，则以模板变量名对应的编号作为其他表格的对应变量名的编号；若变量名不匹配，则以预设值作为不匹配的变量名的编号。

可选地，当变量名不匹配占比达到设定第一阈值且将变量名连接起来的字符串与模板变量名连接起来的字符串模糊匹配度达到设定第二阈值时，进行二次匹配；所述二次匹配采用模糊匹配，在不重复匹配的情况下，所述变量名的模糊匹配度达到设定的第三阈值则判定用于匹配的变量为同义变量；所述第三阈值大于所述第二阈值。

可选地，所述不匹配变量的位置信息确定步骤至少包括：

提取与所述不匹配变量邻近的多个变量的编号；

当提取的邻近变量数量相对所述不匹配变量不对称时，不足数量的邻近变量位置以设定编号补足；

当邻近变量为不匹配变量时，则以对应模板处的编号替换所述不匹配变量的编号；

以邻近变量编号确定不匹配变量位置；

可选地，计算距离矩阵之前至少包括以下步骤：

根据不匹配变量的特征计算得到特征相关性矩阵；

根据不匹配变量的位置信息计算得到位置相关性矩阵；

计算所述特征相关性矩阵和位置相关性矩阵的差异信息熵；

根据所述差异信息熵与综合信息熵的比值设置权重；

将特征相关性矩阵和位置相关性矩阵结合权重，进行加权求和得到总相关性矩阵。

可选地，得到总相关性矩阵用于计算距离矩阵，包括：

设置同一表格中变量间的距离为无穷大；

以如下公式计算得到距离矩阵：

l＝(1-γ)*10

其中，l为距离，γ为构成总相关性矩阵的相关系数。

可选地，所述距离矩阵进行聚类判断同义变量至少包括以下步骤：

设置距离阈值；

根据阈值将变量划分到多个簇；

采用层次聚类，根据划分到一个簇的变量得到聚类结果；

计算簇中所有变量相似度的均值，记为簇相似度；

计算簇中所有变量的方差，判断簇可靠度；

将对应的簇相似度和簇可靠度与聚类结果一并输出。

一种同义变量识别系统，包括：

表格信息处理模块，用于获取所有表格，提取表格中每个变量的特征；

信息筛选模块，用于从获取的表格中选出一个表格作为模板，将其他表格中变量名与模板中变量名进行匹配，根据匹配结果记录与模板变量名不匹配的变量的位置信息；

相关性矩阵计算模块，用于根据所述不匹配变量的特征和位置信息得到相关性矩阵；

识别模块，用于根据所述相关性矩阵计算距离矩阵，对所述距离矩阵进行聚类，获取初步聚类结果；计算所述初步聚类结果对应的变量间的相似度和可靠度，判断对应的不匹配的变量是否为同义变量；

所述表格信息处理模块的输出端与所述信息筛选模块的输入端连接；所述信息筛选模块和表格信息处理模块的输出端与所述相关性矩阵计算模块的输入端连接；所述相关性矩阵计算模块的输出端与所述识别模块的输入端连接。

可选地，所述同义变量识别模块包括距离矩阵计算单元和聚类单元；

所述距离矩阵计算单元的输入端与所述相关性矩阵计算模块的输出端连接；所述距离矩阵计算单元的输出端与所述聚类单元的输入端连接；所述相关性矩阵计算模块根据变量的特征和位置信息计算相关性矩阵，并利用差异信息熵设置权值，加权求和得到总相关性矩阵；所述聚类单元根据所述总相关性矩阵，计算距离矩阵，并根据距离阈值聚类，并计算聚类结果对应的变量相似度和可靠度。

如上所述，本发明一种同义变量识别方法和系统，具有以下有益效果。

通过变量预处理和匹配筛选降低了计算的复杂度；利用变量特征和位置相关性聚类得能够快速得到识别结果，提高了工作效率；识别结果与相似度和可靠度结合，提供定性和定量两个维度的识别结果，结果更直观，有利于复核；整个过程不需要人工校对，降低了人工成本。

附图说明

图1为本发明同义变量识别方法的流程图。

图2为本发明同义变量识别系统的结构框图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

请参阅图1，本发明提供一种同义变量识别方法，包括：

获取所有表格，提取表格中每个变量的特征S1；

在获取的表格中选取一个表格作为模板，将其他表格中变量名与模板中变量名进行匹配S2，根据匹配结果记录与模板变量名不匹配的变量的位置信息S3；

根据所述不匹配变量的特征和位置信息得到相关性矩阵S4；

根据所述相关性矩阵计算距离矩阵S5，对所述距离矩阵进行聚类S6，获取聚类结果；

计算所述聚类结果对应的变量间的相似度和可靠度S7，判断对应的不匹配的变量是否为同义变量S8。

在一实施例中，变量的特征包括：变量名、变量数据缺失率、变量在所有表格中出现次数与总表格数的占比、变量类型、连续型变量的描述性特征和离散型变量的非空值比例；变量类型以单个变量去重后的数据量为依据划分为离散型变量和连续型变量，离散型变量包括短分类变量和长分类变量。在另一实施例中，针对单个变量去重后的数据量小于10为短分类变量，数据量大于10且非数字单元格占比大于20％为长分类变量，其余为连续型变量。

在一实施例中，进行变量名匹配至少包括以下步骤：

选出变量名最多的表格作为模板，并对模板中的变量名进行编号；在另一实施例中，所述变量编号code为1到n；

对所有表格中的变量名进行预处理；在另一实施例中变量名预处理包括删除停字符、将所述有英文大写字母切换为小写字母等、删除重复字符等；

在一实施例中，将其他表格的变量名与所述模板中的变量名进行匹配，若变量名匹配，则以模板变量名对应的编号作为其他表格的对应变量名的编号；若变量名不匹配，则以预设值作为不匹配的变量名的编号。在另一实施例中，当表格中存在变量时，预设不匹配变量名编号为-9999，当表格中不存在变量时，为对应表格预设变量编号-6666；

在一实施例中，当变量名不匹配占比达到设定第一阈值且将变量名连接起来的字符串与模板变量名连接起来的字符串模糊匹配度达到设定第二阈值时，进行二次匹配；所述二次匹配采用模糊匹配，在不重复匹配的情况下，所述变量名的模糊匹配度达到设定的第三阈值则判定用于匹配的变量为同义变量；所述第三阈值大于所述第二阈值。在另一实施例中，如果一个表格，-9999比例大于60％或-9999加-6666比例大于80％且将变量名连接起来的字符串与模板变量名连接起来的字符串模糊匹配得分大于20，则认为是出现了表格整体表达方式调整的问题，进行二次匹配；二次匹配为基于开源算法Fuzzywuzzy的模糊匹配，要求分值大于50且不存在重复匹配情况匹配变量名，得到不匹配变量。

在一实施例中，不匹配变量的位置信息确定步骤至少包括：

提取与不匹配变量邻近的多个变量的编号；

当邻近变量为不匹配变量时，则以对应模板处的编号替换不匹配变量的编号；

以邻近变量编号确定不匹配变量位置；

在另一实施例中，可以提取不匹配变量的左边四个和右边四个的变量对应的code。如果左右四个变量为-9999就用对应位置模板处的code填充。针对左边或者右边不足4个变量的问题，左边直接补0，右边填充模板code的最大值加一。

在一实施例中，计算距离矩阵之前至少包括以下步骤：

根据不匹配变量的特征计算得到特征相关性矩阵；

根据不匹配变量的位置信息计算得到位置相关性矩阵；

计算所述特征相关性矩阵和位置相关性矩阵的差异信息熵；

根据所述差异信息熵与综合信息熵的比值设置权重；

在另一实施例中，根据不匹配变量的特征计算特征相关性矩阵主要是针对不同变量类型采用不同规则分别计算特征相关性矩阵。

针对变量名特征，如果一个字符串是另一个字符串的子串则记为0，如果一个字符串包含了另一个字符串的所有元素，则记为0.2，其余记为1，将得到的值加上两个变量变量名字符串的编辑距离得到的结果取平均数之后，用1减去该平均数得到最后的相关性矩阵并进行0-1标准化；

针对变量类型特征，将相同类型记为1，不同类型记为0；

针对连续特征，计算特征的均值、方差、每隔25％分位数的欧式距离，并进行0-1标准化，如果为离散特征则记为0；

针对离散特征分类变量的类型总数/该变量非空值总数的比例，计算比例的曼哈顿距离，并进行0-1标准化；

针对缺失率，计算两个变量缺失率的曼哈顿距离，并进行0-1标准化；

针对出现比率：如果两个变量的出现比率和为1则记为1，其余记为0；

针对位置信息对左右8个特征计算加权绝对差之和，并进行0-1标准化，

以上生成的所有特征相关性矩阵值域均为[0,1]，值越大表示相关性越高。

在另一实施例中，根据不匹配变量的位置信息计算得到位置相关性矩阵可采用如下步骤：

取出的8个位置信息记为l4,l3,l2,l1,r1,r2,r3,r4分别表示了由左及右的八个位置信息，赋予(1/8,1/8,1/4,1/2,1/2,1/4,1/8,1/8)的权重，如果左右变量少于4则用0补齐，然后计算加权的绝对差值之和；

计算位置信息整体的相关性，用每个变量code减去其左边第一个变量如果位置信息没有混乱，那么这个差值应该是大于0的，反之就认为有一处出现了混乱，计算非混乱部分的比例，乘以步骤1，得出位置相关性矩阵；然后进行0-1的标准化(值域为[0,1],越高表示相似度越高)。

采用差异信息熵对得到的特征相关性矩阵和位置相关性矩阵进行进一步处理，以差异信息熵作为权重对相关性矩阵进行加权求和得到总相关性矩阵。所述差异信息熵的计算方式属本领域常规技术手段，这里不再赘述。

在一实施例中，得到总相关性矩阵后，将总相关性矩阵转换为距离矩阵，设置同一表格中变量间的距离为无穷大；以如下公式计算得到距离矩阵：

l＝(1-γ)*10

其中，l为距离，γ为构成总相关性矩阵的相关系数。

在一实施例中，距离矩阵进行聚类判断同义变量至少包括以下步骤：

设置距离阈值；在另一是实施例中，阈值设定为所有距离去重后的20％分位点和2之间的较大值；

根据阈值将变量划分到多个簇；

采用层次聚类，将划分到一个簇的变量判定为同义变量；

计算簇中所有变量相似度的均值，记为簇相似度；

计算簇中所有变量的方差，判断簇可靠度；在另一实施例中，将变量方差投影到[0,1]，0表示簇凝聚性最差可靠度低，1表示凝聚性最好可靠度高。

将对应的簇相似度和簇可靠度与同义变量一并输出。

请查阅图2，一种同义变量识别系统，包括：

表格信息处理模块1，用于获取所有表格，提取表格中每个变量的特征；

信息筛选模块2，用于从获取的表格中选出一个表格作为模板，将其他表格中变量名与模板中变量名进行匹配，根据匹配结果记录与模板变量名不匹配的变量的位置信息；

相关性矩阵计算模块3，用于根据所述不匹配变量的特征和位置信息得到相关性矩阵；

识别模块4，用于根据所述相关性矩阵计算距离矩阵，对所述距离矩阵进行聚类，获取初步聚类结果；计算所述初步聚类结果对应的变量间的相似度和可靠度，判断对应的不匹配的变量是否为同义变量；

表格信息处理模块1的输出端与信息筛选模块2的输入端连接；信息筛选模块3和表格信息处理模块1的输出端与相关性矩阵计算模块3的输入端连接；相关性矩阵计算模块3的输出端与识别模块4的输入端连接。

在一实施例中，表格信息处理模块1在提取表格中变量特征之前，还需要对变量进行预处理；在另一实施例中，对变量名预处理包括删除停字符、将所述有英文大写字母切换为小写字母、删除变量名相同的变量等；提取特征包括变量数据缺失率、该变量在所有表格中的出现次数占表格总数的比例、变量类型、针对连续型变量的描述性统计特征和针对离散型变量的非空值比例。其中，针对变量类型的区分认为：针对单个变量去重后的数据量小于10为短分类变量，数据量大于10且非数字单元格占比大于20％为长分类变量，其余为连续型变量。

信息筛选模块2从表格信息处理模块获取的表格中选择包含变量最多的表格作为模板；并对模板中的变量进行编号，编号code为1到n；

将其他表格的变量与模板变量名进行匹配；

若匹配，则以模板变量名的code填充用于匹配的对应变量名的编号，若不匹配，则用于匹配的对应变量名编号为-9999，当对应表格中没有变量时，以-6666作为对应表格的变量名编号；

如果一个表格，-9999比例大于60％或-9999加-6666比例大于80％且将变量名连接起来的字符串与模板变量名连接起来的字符串模糊匹配得分大于20，则认为是出现了表格整体表达方式调整的问题，进行二次匹配；要求分值大于50且不存在重复匹配情况；如果不存在-9999，则认为不存在同义变量，或者只是由于停字符的影响直接输出按照变量名匹配的结果；如果存在-9999，提取模板的变量和所有编号为-9999的变量，输出给位置信息提取单元，针对未匹配上的变量和模板中的变量记录其位置信息，主要是提取该变量左边四个和右边四个的变量对应的code。如果左右四个变量为-9999就用对应位置模板处的code填充。针对左边或者右边不足4个变量的问题，左边直接补0，右边填充模板code的最大值加一。

经过以上步骤，信息筛选模块2选出不匹配变量，将不匹配变量的位置信息发送给相关性矩阵计算模块3；

相关性矩阵计算模块3根据变量的特征和位置信息计算相关性矩阵：根据不匹配变量的特征计算得到特征相关性矩阵；根据不匹配变量的位置信息计算得到位置相关性矩阵；计算所述特征相关性矩阵和位置相关性矩阵的差异信息熵；根据所述差异信息熵与综合信息熵的比值设置权重。

相关性矩阵计算模块3将计算得到的总相关性矩阵发送给识别模块4；

在一实施例中，识别模块包括距离矩阵计算单元4a和聚类单元4b；

距离矩阵计算单元4a的输入端与相关性矩阵计算模块3的输出端连接；距离矩阵计算单元的输出端与聚类单元4b的输入端连接；相关性矩阵计算模块3根据变量的特征和位置信息计算相关性矩阵，并利用差异信息熵设置权值，加权求和得到总相关性矩阵；聚类单元4b根据总相关性矩阵，计算距离矩阵，并根据距离阈值聚类，并计算聚类结果对应的变量相似度和可靠度。

在另一实施例中，也可以通过设置显示模块与识别模块4连接，实时显示识别结果，让结果更直观，也有利于复核。

综上所述，本发明一种同义变量识别方法和系统，通过变量预处理和匹配筛选降低了计算的复杂度；利用变量特征和位置相关性聚类得能够快速得到识别结果，提高了工作效率；识别结果与相似度和可靠度结合，提供定性和定量两个维度的识别结果，结果更直观，有利于复核；整个过程不需要人工校对，降低了人工成本。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种同义变量识别方法，其特征在于，包括：

获取所有表格，提取表格中每个变量的特征；

根据所述不匹配变量的特征和位置信息得到相关性矩阵；

2.根据权利要求1所述同义变量识别方法，其特征在于，所述变量的特征包括：变量名、变量数据缺失率、变量在所有表格中出现次数与总表格数的占比、变量类型、连续型变量的描述性特征和离散型变量的非空值比例；所述变量类型以单个变量去重后的数据量为依据划分为离散型变量和连续型变量，所述离散型变量包括短分类变量和长分类变量。

3.根据权利要求1所述同义变量识别方法，其特征在于，进行变量名匹配至少包括以下步骤：

对所有表格中的变量名进行预处理；

4.根据权利要求1所述同义变量识别方法，其特征在于，当变量名不匹配占比达到设定第一阈值且将变量名连接起来的字符串与模板变量名连接起来的字符串模糊匹配度达到设定第二阈值时，进行二次匹配；所述二次匹配采用模糊匹配，在不重复匹配的情况下，所述变量名的模糊匹配度达到设定的第三阈值则判定用于匹配的变量为同义变量；所述第三阈值大于所述第二阈值。

5.根据权利要求1所述同义变量识别方法，其特征在于，所述不匹配变量的位置信息确定步骤至少包括：

提取与所述不匹配变量邻近的多个变量的编号；

以邻近变量编号确定不匹配变量位置。

6.根据权利要求1所述同义变量识别方法，其特征在于，所述计算距离矩阵之前至少包括以下步骤：

根据不匹配变量的特征计算得到特征相关性矩阵；

根据不匹配变量的位置信息计算得到位置相关性矩阵；

计算所述特征相关性矩阵和位置相关性矩阵的差异信息熵；

根据所述差异信息熵与综合信息熵的比值设置权重；

7.根据权利要求6所述同义变量识别方法，其特征在于，得到总相关性矩阵用于计算距离矩阵，包括：

设置同一表格中变量间的距离为无穷大；

以如下公式计算得到距离矩阵：

l＝(1-γ)*10

其中，l为距离，γ为构成总相关性矩阵的相关系数。

8.根据权利要求1所述同义变量识别方法，其特征在于，所述距离矩阵进行聚类判断同义变量至少包括以下步骤：

设置距离阈值；

根据阈值将变量划分到多个簇；

采用层次聚类，根据划分到一个簇的变量得到聚类结果；

计算簇中所有变量相似度的均值，记为簇相似度；

计算簇中所有变量的方差，判断簇可靠度；

将对应的簇相似度和簇可靠度与聚类结果一并输出。

9.一种同义变量识别系统，其特征在于，包括：

10.根据权利要求9所述的同义变量识别系统，其特征在于，所述同义变量识别模块包括距离矩阵计算单元、聚类单元；

所述距离矩阵计算单元的输入端与所述变量信息筛选模块的输出端连接；所述距离矩阵计算单元的输出端与所述聚类单元的输入端连接；所述相关性矩阵计算单元根据变量的特征和位置信息计算相关性矩阵，并利用差异信息熵设置权值，加权求和得到总相关性矩阵；所述聚类单元根据所述总相关性矩阵，计算距离矩阵，并根据距离阈值聚类，并计算聚类结果对应的变量相似度和可靠度。