CN110083815A - 一种同义变量识别方法和系统 - Google Patents

一种同义变量识别方法和系统 Download PDF

Info

Publication number
CN110083815A
CN110083815A CN201910373824.6A CN201910373824A CN110083815A CN 110083815 A CN110083815 A CN 110083815A CN 201910373824 A CN201910373824 A CN 201910373824A CN 110083815 A CN110083815 A CN 110083815A
Authority
CN
China
Prior art keywords
variable
synonymous
name
matrix
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910373824.6A
Other languages
English (en)
Other versions
CN110083815B (zh
Inventor
祝捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongye Saidi Chongqing Information Technology Co Ltd
Original Assignee
Zhongye Saidi Chongqing Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongye Saidi Chongqing Information Technology Co Ltd filed Critical Zhongye Saidi Chongqing Information Technology Co Ltd
Priority to CN201910373824.6A priority Critical patent/CN110083815B/zh
Publication of CN110083815A publication Critical patent/CN110083815A/zh
Application granted granted Critical
Publication of CN110083815B publication Critical patent/CN110083815B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提出一种同义变量识别方法包括:获取所有表格,提取表格中每个变量的特征;在获取的表格中选取一个表格作为模板,将其他表格中变量名与模板中变量名进行匹配,根据匹配结果记录与模板变量名不匹配的变量的位置信息;根据所述不匹配变量的特征和位置信息得到相关性矩阵;根据所述相关性矩阵计算距离矩阵,对所述距离矩阵进行聚类,获取聚类结果;计算所述聚类结果对应的变量间的相似度和可靠度,判断对应的不匹配的变量是否为同义变量;本发明能快速识别同义变量,识别准确度和效率高。

Description

一种同义变量识别方法和系统
技术领域
本发明涉及计算机数据处理领域,尤其涉及一种同义变量识别方法和系统。
背景技术
在针对多个数据表格整合的过程中,由于建立表格时输入错误(例如:将及格率误输入为几格率)、命名方式差异(例如:及格率和及格比例)等问题,导致不同表格中的变量名字不同,但是表达的内容相同的情况。在进行数据表格合并、字段关联、整理时就会出现关联失败的情况,需要人工审核校对,大大降低了数据整理的工作效率。
发明内容
鉴于以上现有技术存在的问题,本发明提出一种同义变量识别方法和系统,主要解决数据整理人工校验效率不高的问题。
为了实现上述目的及其他目的,本发明采用的技术方案如下。
一种同义变量识别方法,包括:
获取所有表格,提取表格中每个变量的特征;
在获取的表格中选取一个表格作为模板,将其他表格中变量名与模板中变量名进行匹配,根据匹配结果记录与模板变量名不匹配的变量的位置信息;
根据所述不匹配变量的特征和位置信息得到相关性矩阵;
根据所述相关性矩阵计算距离矩阵,对所述距离矩阵进行聚类,获取聚类结果;
计算所述聚类结果对应的变量间的相似度和可靠度,判断对应的不匹配的变量是否为同义变量。
可选地,所述变量的特征包括:变量名、变量数据缺失率、变量在所有表格中出现次数与总表格数的占比、变量类型、连续型变量的描述性特征和离散型变量的非空值比例;所述变量类型以单个变量去重后的数据量为依据划分为离散型变量和连续型变量,所述离散型变量包括短分类变量和长分类变量。
可选地,进行变量名匹配至少包括以下步骤:
选出变量名最多的表格作为模板,并对模板中的变量名进行编号;
对所有表格中的变量名进行预处理;
将其他表格的变量名与所述模板中的变量名进行匹配,若变量名匹配,则以模板变量名对应的编号作为其他表格的对应变量名的编号;若变量名不匹配,则以预设值作为不匹配的变量名的编号。
可选地,当变量名不匹配占比达到设定第一阈值且将变量名连接起来的字符串与模板变量名连接起来的字符串模糊匹配度达到设定第二阈值时,进行二次匹配;所述二次匹配采用模糊匹配,在不重复匹配的情况下,所述变量名的模糊匹配度达到设定的第三阈值则判定用于匹配的变量为同义变量;所述第三阈值大于所述第二阈值。
可选地,所述不匹配变量的位置信息确定步骤至少包括:
提取与所述不匹配变量邻近的多个变量的编号;
当提取的邻近变量数量相对所述不匹配变量不对称时,不足数量的邻近变量位置以设定编号补足;
当邻近变量为不匹配变量时,则以对应模板处的编号替换所述不匹配变量的编号;
以邻近变量编号确定不匹配变量位置;
可选地,计算距离矩阵之前至少包括以下步骤:
根据不匹配变量的特征计算得到特征相关性矩阵;
根据不匹配变量的位置信息计算得到位置相关性矩阵;
计算所述特征相关性矩阵和位置相关性矩阵的差异信息熵;
根据所述差异信息熵与综合信息熵的比值设置权重;
将特征相关性矩阵和位置相关性矩阵结合权重,进行加权求和得到总相关性矩阵。
可选地,得到总相关性矩阵用于计算距离矩阵,包括:
设置同一表格中变量间的距离为无穷大;
以如下公式计算得到距离矩阵:
l=(1-γ)*10
其中,l为距离,γ为构成总相关性矩阵的相关系数。
可选地,所述距离矩阵进行聚类判断同义变量至少包括以下步骤:
设置距离阈值;
根据阈值将变量划分到多个簇;
采用层次聚类,根据划分到一个簇的变量得到聚类结果;
计算簇中所有变量相似度的均值,记为簇相似度;
计算簇中所有变量的方差,判断簇可靠度;
将对应的簇相似度和簇可靠度与聚类结果一并输出。
一种同义变量识别系统,包括:
表格信息处理模块,用于获取所有表格,提取表格中每个变量的特征;
信息筛选模块,用于从获取的表格中选出一个表格作为模板,将其他表格中变量名与模板中变量名进行匹配,根据匹配结果记录与模板变量名不匹配的变量的位置信息;
相关性矩阵计算模块,用于根据所述不匹配变量的特征和位置信息得到相关性矩阵;
识别模块,用于根据所述相关性矩阵计算距离矩阵,对所述距离矩阵进行聚类,获取初步聚类结果;计算所述初步聚类结果对应的变量间的相似度和可靠度,判断对应的不匹配的变量是否为同义变量;
所述表格信息处理模块的输出端与所述信息筛选模块的输入端连接;所述信息筛选模块和表格信息处理模块的输出端与所述相关性矩阵计算模块的输入端连接;所述相关性矩阵计算模块的输出端与所述识别模块的输入端连接。
可选地,所述同义变量识别模块包括距离矩阵计算单元和聚类单元;
所述距离矩阵计算单元的输入端与所述相关性矩阵计算模块的输出端连接;所述距离矩阵计算单元的输出端与所述聚类单元的输入端连接;所述相关性矩阵计算模块根据变量的特征和位置信息计算相关性矩阵,并利用差异信息熵设置权值,加权求和得到总相关性矩阵;所述聚类单元根据所述总相关性矩阵,计算距离矩阵,并根据距离阈值聚类,并计算聚类结果对应的变量相似度和可靠度。
如上所述,本发明一种同义变量识别方法和系统,具有以下有益效果。
通过变量预处理和匹配筛选降低了计算的复杂度;利用变量特征和位置相关性聚类得能够快速得到识别结果,提高了工作效率;识别结果与相似度和可靠度结合,提供定性和定量两个维度的识别结果,结果更直观,有利于复核;整个过程不需要人工校对,降低了人工成本。
附图说明
图1为本发明同义变量识别方法的流程图。
图2为本发明同义变量识别系统的结构框图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
请参阅图1,本发明提供一种同义变量识别方法,包括:
获取所有表格,提取表格中每个变量的特征S1;
在获取的表格中选取一个表格作为模板,将其他表格中变量名与模板中变量名进行匹配S2,根据匹配结果记录与模板变量名不匹配的变量的位置信息S3;
根据所述不匹配变量的特征和位置信息得到相关性矩阵S4;
根据所述相关性矩阵计算距离矩阵S5,对所述距离矩阵进行聚类S6,获取聚类结果;
计算所述聚类结果对应的变量间的相似度和可靠度S7,判断对应的不匹配的变量是否为同义变量S8。
在一实施例中,变量的特征包括:变量名、变量数据缺失率、变量在所有表格中出现次数与总表格数的占比、变量类型、连续型变量的描述性特征和离散型变量的非空值比例;变量类型以单个变量去重后的数据量为依据划分为离散型变量和连续型变量,离散型变量包括短分类变量和长分类变量。在另一实施例中,针对单个变量去重后的数据量小于10为短分类变量,数据量大于10且非数字单元格占比大于20%为长分类变量,其余为连续型变量。
在一实施例中,进行变量名匹配至少包括以下步骤:
选出变量名最多的表格作为模板,并对模板中的变量名进行编号;在另一实施例中,所述变量编号code为1到n;
对所有表格中的变量名进行预处理;在另一实施例中变量名预处理包括删除停字符、将所述有英文大写字母切换为小写字母等、删除重复字符等;
在一实施例中,将其他表格的变量名与所述模板中的变量名进行匹配,若变量名匹配,则以模板变量名对应的编号作为其他表格的对应变量名的编号;若变量名不匹配,则以预设值作为不匹配的变量名的编号。在另一实施例中,当表格中存在变量时,预设不匹配变量名编号为-9999,当表格中不存在变量时,为对应表格预设变量编号-6666;
在一实施例中,当变量名不匹配占比达到设定第一阈值且将变量名连接起来的字符串与模板变量名连接起来的字符串模糊匹配度达到设定第二阈值时,进行二次匹配;所述二次匹配采用模糊匹配,在不重复匹配的情况下,所述变量名的模糊匹配度达到设定的第三阈值则判定用于匹配的变量为同义变量;所述第三阈值大于所述第二阈值。在另一实施例中,如果一个表格,-9999比例大于60%或-9999加-6666比例大于80%且将变量名连接起来的字符串与模板变量名连接起来的字符串模糊匹配得分大于20,则认为是出现了表格整体表达方式调整的问题,进行二次匹配;二次匹配为基于开源算法Fuzzywuzzy的模糊匹配,要求分值大于50且不存在重复匹配情况匹配变量名,得到不匹配变量。
在一实施例中,不匹配变量的位置信息确定步骤至少包括:
提取与不匹配变量邻近的多个变量的编号;
当提取的邻近变量数量相对所述不匹配变量不对称时,不足数量的邻近变量位置以设定编号补足;
当邻近变量为不匹配变量时,则以对应模板处的编号替换不匹配变量的编号;
以邻近变量编号确定不匹配变量位置;
在另一实施例中,可以提取不匹配变量的左边四个和右边四个的变量对应的code。如果左右四个变量为-9999就用对应位置模板处的code填充。针对左边或者右边不足4个变量的问题,左边直接补0,右边填充模板code的最大值加一。
在一实施例中,计算距离矩阵之前至少包括以下步骤:
根据不匹配变量的特征计算得到特征相关性矩阵;
根据不匹配变量的位置信息计算得到位置相关性矩阵;
计算所述特征相关性矩阵和位置相关性矩阵的差异信息熵;
根据所述差异信息熵与综合信息熵的比值设置权重;
将特征相关性矩阵和位置相关性矩阵结合权重,进行加权求和得到总相关性矩阵。
在另一实施例中,根据不匹配变量的特征计算特征相关性矩阵主要是针对不同变量类型采用不同规则分别计算特征相关性矩阵。
针对变量名特征,如果一个字符串是另一个字符串的子串则记为0,如果一个字符串包含了另一个字符串的所有元素,则记为0.2,其余记为1,将得到的值加上两个变量变量名字符串的编辑距离得到的结果取平均数之后,用1减去该平均数得到最后的相关性矩阵并进行0-1标准化;
针对变量类型特征,将相同类型记为1,不同类型记为0;
针对连续特征,计算特征的均值、方差、每隔25%分位数的欧式距离,并进行0-1标准化,如果为离散特征则记为0;
针对离散特征分类变量的类型总数/该变量非空值总数的比例,计算比例的曼哈顿距离,并进行0-1标准化;
针对缺失率,计算两个变量缺失率的曼哈顿距离,并进行0-1标准化;
针对出现比率:如果两个变量的出现比率和为1则记为1,其余记为0;
针对位置信息对左右8个特征计算加权绝对差之和,并进行0-1标准化,
以上生成的所有特征相关性矩阵值域均为[0,1],值越大表示相关性越高。
在另一实施例中,根据不匹配变量的位置信息计算得到位置相关性矩阵可采用如下步骤:
取出的8个位置信息记为l4,l3,l2,l1,r1,r2,r3,r4分别表示了由左及右的八个位置信息,赋予(1/8,1/8,1/4,1/2,1/2,1/4,1/8,1/8)的权重,如果左右变量少于4则用0补齐,然后计算加权的绝对差值之和;
计算位置信息整体的相关性,用每个变量code减去其左边第一个变量如果位置信息没有混乱,那么这个差值应该是大于0的,反之就认为有一处出现了混乱,计算非混乱部分的比例,乘以步骤1,得出位置相关性矩阵;然后进行0-1的标准化(值域为[0,1],越高表示相似度越高)。
采用差异信息熵对得到的特征相关性矩阵和位置相关性矩阵进行进一步处理,以差异信息熵作为权重对相关性矩阵进行加权求和得到总相关性矩阵。所述差异信息熵的计算方式属本领域常规技术手段,这里不再赘述。
在一实施例中,得到总相关性矩阵后,将总相关性矩阵转换为距离矩阵,设置同一表格中变量间的距离为无穷大;以如下公式计算得到距离矩阵:
l=(1-γ)*10
其中,l为距离,γ为构成总相关性矩阵的相关系数。
在一实施例中,距离矩阵进行聚类判断同义变量至少包括以下步骤:
设置距离阈值;在另一是实施例中,阈值设定为所有距离去重后的20%分位点和2之间的较大值;
根据阈值将变量划分到多个簇;
采用层次聚类,将划分到一个簇的变量判定为同义变量;
计算簇中所有变量相似度的均值,记为簇相似度;
计算簇中所有变量的方差,判断簇可靠度;在另一实施例中,将变量方差投影到[0,1],0表示簇凝聚性最差可靠度低,1表示凝聚性最好可靠度高。
将对应的簇相似度和簇可靠度与同义变量一并输出。
请查阅图2,一种同义变量识别系统,包括:
表格信息处理模块1,用于获取所有表格,提取表格中每个变量的特征;
信息筛选模块2,用于从获取的表格中选出一个表格作为模板,将其他表格中变量名与模板中变量名进行匹配,根据匹配结果记录与模板变量名不匹配的变量的位置信息;
相关性矩阵计算模块3,用于根据所述不匹配变量的特征和位置信息得到相关性矩阵;
识别模块4,用于根据所述相关性矩阵计算距离矩阵,对所述距离矩阵进行聚类,获取初步聚类结果;计算所述初步聚类结果对应的变量间的相似度和可靠度,判断对应的不匹配的变量是否为同义变量;
表格信息处理模块1的输出端与信息筛选模块2的输入端连接;信息筛选模块3和表格信息处理模块1的输出端与相关性矩阵计算模块3的输入端连接;相关性矩阵计算模块3的输出端与识别模块4的输入端连接。
在一实施例中,表格信息处理模块1在提取表格中变量特征之前,还需要对变量进行预处理;在另一实施例中,对变量名预处理包括删除停字符、将所述有英文大写字母切换为小写字母、删除变量名相同的变量等;提取特征包括变量数据缺失率、该变量在所有表格中的出现次数占表格总数的比例、变量类型、针对连续型变量的描述性统计特征和针对离散型变量的非空值比例。其中,针对变量类型的区分认为:针对单个变量去重后的数据量小于10为短分类变量,数据量大于10且非数字单元格占比大于20%为长分类变量,其余为连续型变量。
信息筛选模块2从表格信息处理模块获取的表格中选择包含变量最多的表格作为模板;并对模板中的变量进行编号,编号code为1到n;
将其他表格的变量与模板变量名进行匹配;
若匹配,则以模板变量名的code填充用于匹配的对应变量名的编号,若不匹配,则用于匹配的对应变量名编号为-9999,当对应表格中没有变量时,以-6666作为对应表格的变量名编号;
如果一个表格,-9999比例大于60%或-9999加-6666比例大于80%且将变量名连接起来的字符串与模板变量名连接起来的字符串模糊匹配得分大于20,则认为是出现了表格整体表达方式调整的问题,进行二次匹配;要求分值大于50且不存在重复匹配情况;如果不存在-9999,则认为不存在同义变量,或者只是由于停字符的影响直接输出按照变量名匹配的结果;如果存在-9999,提取模板的变量和所有编号为-9999的变量,输出给位置信息提取单元,针对未匹配上的变量和模板中的变量记录其位置信息,主要是提取该变量左边四个和右边四个的变量对应的code。如果左右四个变量为-9999就用对应位置模板处的code填充。针对左边或者右边不足4个变量的问题,左边直接补0,右边填充模板code的最大值加一。
经过以上步骤,信息筛选模块2选出不匹配变量,将不匹配变量的位置信息发送给相关性矩阵计算模块3;
相关性矩阵计算模块3根据变量的特征和位置信息计算相关性矩阵:根据不匹配变量的特征计算得到特征相关性矩阵;根据不匹配变量的位置信息计算得到位置相关性矩阵;计算所述特征相关性矩阵和位置相关性矩阵的差异信息熵;根据所述差异信息熵与综合信息熵的比值设置权重。
将特征相关性矩阵和位置相关性矩阵结合权重,进行加权求和得到总相关性矩阵。
相关性矩阵计算模块3将计算得到的总相关性矩阵发送给识别模块4;
在一实施例中,识别模块包括距离矩阵计算单元4a和聚类单元4b;
距离矩阵计算单元4a的输入端与相关性矩阵计算模块3的输出端连接;距离矩阵计算单元的输出端与聚类单元4b的输入端连接;相关性矩阵计算模块3根据变量的特征和位置信息计算相关性矩阵,并利用差异信息熵设置权值,加权求和得到总相关性矩阵;聚类单元4b根据总相关性矩阵,计算距离矩阵,并根据距离阈值聚类,并计算聚类结果对应的变量相似度和可靠度。
在另一实施例中,也可以通过设置显示模块与识别模块4连接,实时显示识别结果,让结果更直观,也有利于复核。
综上所述,本发明一种同义变量识别方法和系统,通过变量预处理和匹配筛选降低了计算的复杂度;利用变量特征和位置相关性聚类得能够快速得到识别结果,提高了工作效率;识别结果与相似度和可靠度结合,提供定性和定量两个维度的识别结果,结果更直观,有利于复核;整个过程不需要人工校对,降低了人工成本。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种同义变量识别方法,其特征在于,包括:
获取所有表格,提取表格中每个变量的特征;
在获取的表格中选取一个表格作为模板,将其他表格中变量名与模板中变量名进行匹配,根据匹配结果记录与模板变量名不匹配的变量的位置信息;
根据所述不匹配变量的特征和位置信息得到相关性矩阵;
根据所述相关性矩阵计算距离矩阵,对所述距离矩阵进行聚类,获取聚类结果;
计算所述聚类结果对应的变量间的相似度和可靠度,判断对应的不匹配的变量是否为同义变量。
2.根据权利要求1所述同义变量识别方法,其特征在于,所述变量的特征包括:变量名、变量数据缺失率、变量在所有表格中出现次数与总表格数的占比、变量类型、连续型变量的描述性特征和离散型变量的非空值比例;所述变量类型以单个变量去重后的数据量为依据划分为离散型变量和连续型变量,所述离散型变量包括短分类变量和长分类变量。
3.根据权利要求1所述同义变量识别方法,其特征在于,进行变量名匹配至少包括以下步骤:
选出变量名最多的表格作为模板,并对模板中的变量名进行编号;
对所有表格中的变量名进行预处理;
将其他表格的变量名与所述模板中的变量名进行匹配,若变量名匹配,则以模板变量名对应的编号作为其他表格的对应变量名的编号;若变量名不匹配,则以预设值作为不匹配的变量名的编号。
4.根据权利要求1所述同义变量识别方法,其特征在于,当变量名不匹配占比达到设定第一阈值且将变量名连接起来的字符串与模板变量名连接起来的字符串模糊匹配度达到设定第二阈值时,进行二次匹配;所述二次匹配采用模糊匹配,在不重复匹配的情况下,所述变量名的模糊匹配度达到设定的第三阈值则判定用于匹配的变量为同义变量;所述第三阈值大于所述第二阈值。
5.根据权利要求1所述同义变量识别方法,其特征在于,所述不匹配变量的位置信息确定步骤至少包括:
提取与所述不匹配变量邻近的多个变量的编号;
当提取的邻近变量数量相对所述不匹配变量不对称时,不足数量的邻近变量位置以设定编号补足;
当邻近变量为不匹配变量时,则以对应模板处的编号替换所述不匹配变量的编号;
以邻近变量编号确定不匹配变量位置。
6.根据权利要求1所述同义变量识别方法,其特征在于,所述计算距离矩阵之前至少包括以下步骤:
根据不匹配变量的特征计算得到特征相关性矩阵;
根据不匹配变量的位置信息计算得到位置相关性矩阵;
计算所述特征相关性矩阵和位置相关性矩阵的差异信息熵;
根据所述差异信息熵与综合信息熵的比值设置权重;
将特征相关性矩阵和位置相关性矩阵结合权重,进行加权求和得到总相关性矩阵。
7.根据权利要求6所述同义变量识别方法,其特征在于,得到总相关性矩阵用于计算距离矩阵,包括:
设置同一表格中变量间的距离为无穷大;
以如下公式计算得到距离矩阵:
l=(1-γ)*10
其中,l为距离,γ为构成总相关性矩阵的相关系数。
8.根据权利要求1所述同义变量识别方法,其特征在于,所述距离矩阵进行聚类判断同义变量至少包括以下步骤:
设置距离阈值;
根据阈值将变量划分到多个簇;
采用层次聚类,根据划分到一个簇的变量得到聚类结果;
计算簇中所有变量相似度的均值,记为簇相似度;
计算簇中所有变量的方差,判断簇可靠度;
将对应的簇相似度和簇可靠度与聚类结果一并输出。
9.一种同义变量识别系统,其特征在于,包括:
表格信息处理模块,用于获取所有表格,提取表格中每个变量的特征;
信息筛选模块,用于从获取的表格中选出一个表格作为模板,将其他表格中变量名与模板中变量名进行匹配,根据匹配结果记录与模板变量名不匹配的变量的位置信息;
相关性矩阵计算模块,用于根据所述不匹配变量的特征和位置信息得到相关性矩阵;
识别模块,用于根据所述相关性矩阵计算距离矩阵,对所述距离矩阵进行聚类,获取初步聚类结果;计算所述初步聚类结果对应的变量间的相似度和可靠度,判断对应的不匹配的变量是否为同义变量;
所述表格信息处理模块的输出端与所述信息筛选模块的输入端连接;所述信息筛选模块和表格信息处理模块的输出端与所述相关性矩阵计算模块的输入端连接;所述相关性矩阵计算模块的输出端与所述识别模块的输入端连接。
10.根据权利要求9所述的同义变量识别系统,其特征在于,所述同义变量识别模块包括距离矩阵计算单元、聚类单元;
所述距离矩阵计算单元的输入端与所述变量信息筛选模块的输出端连接;所述距离矩阵计算单元的输出端与所述聚类单元的输入端连接;所述相关性矩阵计算单元根据变量的特征和位置信息计算相关性矩阵,并利用差异信息熵设置权值,加权求和得到总相关性矩阵;所述聚类单元根据所述总相关性矩阵,计算距离矩阵,并根据距离阈值聚类,并计算聚类结果对应的变量相似度和可靠度。
CN201910373824.6A 2019-05-07 2019-05-07 一种同义变量识别方法和系统 Active CN110083815B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910373824.6A CN110083815B (zh) 2019-05-07 2019-05-07 一种同义变量识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910373824.6A CN110083815B (zh) 2019-05-07 2019-05-07 一种同义变量识别方法和系统

Publications (2)

Publication Number Publication Date
CN110083815A true CN110083815A (zh) 2019-08-02
CN110083815B CN110083815B (zh) 2023-05-23

Family

ID=67418924

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910373824.6A Active CN110083815B (zh) 2019-05-07 2019-05-07 一种同义变量识别方法和系统

Country Status (1)

Country Link
CN (1) CN110083815B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111061688A (zh) * 2019-12-13 2020-04-24 深圳前海环融联易信息科技服务有限公司 统计变量命名方式的方法、装置、计算机设备及存储介质
CN116089504A (zh) * 2023-04-10 2023-05-09 北京宽客进化科技有限公司 一种关系型表格数据生成方法和系统

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100150453A1 (en) * 2006-01-25 2010-06-17 Equivio Ltd. Determining near duplicate "noisy" data objects
CN101882225A (zh) * 2009-12-29 2010-11-10 北京中科辅龙计算机技术股份有限公司 基于模板的工程图纸材料信息提取方法
CN104346407A (zh) * 2013-08-08 2015-02-11 航天信息股份有限公司 数据申报系统中报表和xml文件数据交互的方法及其装置
CN105045769A (zh) * 2015-06-01 2015-11-11 中国人民解放军装备学院 一种基于结构识别的Web表格信息抽取方法
CN106156239A (zh) * 2015-04-27 2016-11-23 中国移动通信集团公司 一种表格抽取方法和装置
CN106384282A (zh) * 2016-06-14 2017-02-08 平安科技(深圳)有限公司 构建决策模型的方法和装置
CN107784314A (zh) * 2016-08-26 2018-03-09 北京协同创新智能电网技术有限公司 一种多变量报警系统的正常异常数据划分方法及系统
CN107992625A (zh) * 2017-12-25 2018-05-04 湖南星汉数智科技有限公司 一种网页表格数据自动抽取方法及装置
CN108763289A (zh) * 2018-04-13 2018-11-06 西安电子科技大学 一种海量异构传感器格式数据的解析方法
CN108804745A (zh) * 2018-04-13 2018-11-13 上海机电工程研究所 飞行器气动试验数据管理系统及方法
CN109003191A (zh) * 2018-07-12 2018-12-14 上海金仕达卫宁软件科技有限公司 基于层次聚类的医疗反欺诈模版自动生成方法及系统
CN109325042A (zh) * 2018-08-14 2019-02-12 中国平安人寿保险股份有限公司 处理模版获取方法、表格处理方法、装置、设备及介质
CN109344831A (zh) * 2018-08-22 2019-02-15 中国平安人寿保险股份有限公司 一种数据表识别方法、装置及终端设备
CN109491703A (zh) * 2018-11-07 2019-03-19 网易(杭州)网络有限公司 表格合并的方法、装置、存储介质及电子装置
CN109657469A (zh) * 2018-12-07 2019-04-19 腾讯科技(深圳)有限公司 一种脚本检测方法及装置

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100150453A1 (en) * 2006-01-25 2010-06-17 Equivio Ltd. Determining near duplicate "noisy" data objects
CN101882225A (zh) * 2009-12-29 2010-11-10 北京中科辅龙计算机技术股份有限公司 基于模板的工程图纸材料信息提取方法
CN104346407A (zh) * 2013-08-08 2015-02-11 航天信息股份有限公司 数据申报系统中报表和xml文件数据交互的方法及其装置
CN106156239A (zh) * 2015-04-27 2016-11-23 中国移动通信集团公司 一种表格抽取方法和装置
CN105045769A (zh) * 2015-06-01 2015-11-11 中国人民解放军装备学院 一种基于结构识别的Web表格信息抽取方法
CN106384282A (zh) * 2016-06-14 2017-02-08 平安科技(深圳)有限公司 构建决策模型的方法和装置
CN107784314A (zh) * 2016-08-26 2018-03-09 北京协同创新智能电网技术有限公司 一种多变量报警系统的正常异常数据划分方法及系统
CN107992625A (zh) * 2017-12-25 2018-05-04 湖南星汉数智科技有限公司 一种网页表格数据自动抽取方法及装置
CN108763289A (zh) * 2018-04-13 2018-11-06 西安电子科技大学 一种海量异构传感器格式数据的解析方法
CN108804745A (zh) * 2018-04-13 2018-11-13 上海机电工程研究所 飞行器气动试验数据管理系统及方法
CN109003191A (zh) * 2018-07-12 2018-12-14 上海金仕达卫宁软件科技有限公司 基于层次聚类的医疗反欺诈模版自动生成方法及系统
CN109325042A (zh) * 2018-08-14 2019-02-12 中国平安人寿保险股份有限公司 处理模版获取方法、表格处理方法、装置、设备及介质
CN109344831A (zh) * 2018-08-22 2019-02-15 中国平安人寿保险股份有限公司 一种数据表识别方法、装置及终端设备
CN109491703A (zh) * 2018-11-07 2019-03-19 网易(杭州)网络有限公司 表格合并的方法、装置、存储介质及电子装置
CN109657469A (zh) * 2018-12-07 2019-04-19 腾讯科技(深圳)有限公司 一种脚本检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
车成逸 等: "Web页面中数据表的识别方法研究", 《计算机工程》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111061688A (zh) * 2019-12-13 2020-04-24 深圳前海环融联易信息科技服务有限公司 统计变量命名方式的方法、装置、计算机设备及存储介质
CN111061688B (zh) * 2019-12-13 2023-06-09 深圳前海环融联易信息科技服务有限公司 统计变量命名方式的方法、装置、计算机设备及存储介质
CN116089504A (zh) * 2023-04-10 2023-05-09 北京宽客进化科技有限公司 一种关系型表格数据生成方法和系统

Also Published As

Publication number Publication date
CN110083815B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN111505433B (zh) 一种低压台区户变关系纠错及相位识别方法
CN107688667A (zh) 智能机器人客服方法、电子装置及计算机可读存储介质
CN107590206A (zh) 一种核电厂控制系统反向自组织信号流图生成方法
CN110083815A (zh) 一种同义变量识别方法和系统
CN104077407B (zh) 一种智能数据搜索系统及方法
CN103744919B (zh) 电网知识库的自学习方法和系统
WO2021051864A1 (zh) 词典扩充方法及装置、电子设备、存储介质
CN109241297B (zh) 一种内容分类聚合方法、电子设备、存储介质及引擎
CN104618361B (zh) 一种网络流数据重排序方法
CN106021545A (zh) 用于车辆远程诊断与备件检索的方法
CN115577701B (zh) 针对大数据安全的风险行为识别方法、装置、设备及介质
CN107465691A (zh) 基于路由器日志分析的网络攻击检测系统及检测方法
CN112510817A (zh) 一种台区低压拓扑关系智能识别方法
CN111309718A (zh) 一种配网电压数据缺失填补方法及装置
CN109101590A (zh) 基于cmdb的配置项ci拓扑关系可视化方法
CN115329556A (zh) 变电站cad图纸审核方法及设备
CN107861965A (zh) 数据智能识别方法及系统
CN110297829A (zh) 一种面向特定行业结构化业务数据的全文检索方法及系统
CN105447135A (zh) 数据查找方法和装置
CN111898694B (zh) 一种基于随机树分类的非入侵式负荷识别方法及装置
CN111881265A (zh) 报关单商品信息的处理方法及系统、存储介质及电子设备
CN112104518B (zh) 一种比特数据特征挖掘方法、系统、设备及可读介质
CN111339167A (zh) 基于K-means和主成分线性回归的台区线损率影响因素分析方法
CN105573984A (zh) 社会经济指标的识别方法及装置
CN114611515B (zh) 一种基于企业舆情信息识别企业实际控制人的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 401329 No. 5-6, building 2, No. 66, Nongke Avenue, Baishiyi Town, Jiulongpo District, Chongqing

Applicant after: MCC CCID information technology (Chongqing) Co.,Ltd.

Address before: 401122 No. 11 Huijin Road, North New District of Chongqing

Applicant before: CISDI CHONGQING INFORMATION TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant