CN112965968B - 一种基于注意力机制的异构数据模式匹配方法 - Google Patents
一种基于注意力机制的异构数据模式匹配方法 Download PDFInfo
- Publication number
- CN112965968B CN112965968B CN202110240555.3A CN202110240555A CN112965968B CN 112965968 B CN112965968 B CN 112965968B CN 202110240555 A CN202110240555 A CN 202110240555A CN 112965968 B CN112965968 B CN 112965968B
- Authority
- CN
- China
- Prior art keywords
- data
- value
- attention
- source
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000007246 mechanism Effects 0.000 title claims abstract description 39
- 238000013528 artificial neural network Methods 0.000 claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000013507 mapping Methods 0.000 claims abstract description 11
- 238000001914 filtration Methods 0.000 claims abstract description 9
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 20
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 claims description 5
- 239000000470 constituent Substances 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 9
- 101000797593 Homo sapiens Protein AMN1 homolog Proteins 0.000 description 6
- 102100032914 Protein AMN1 homolog Human genes 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于注意力机制的异构数据模式匹配方法,包括如下步骤:输入源数据和待匹配数据,待匹配数据为异构数据;将源数据和待匹配数据进行分类,包括数值型数据、字符型数据和稀有类型数据;将分类后的数据根据新建的数据指标体系进行特征提取;将源数据提取的特征输入到基于注意力机制的模式匹配模型中进行训练,待匹配数据的特征输入到训练好的模型中进行异构数据间属性的相似度计算,并根据双向过滤法建立源模式和待匹配模式中元素的语义映射关系,即模式匹配。本发明基于注意力机制算法降低了神经网络的复杂度,进一步过滤干扰数据,提高了异构数据模式匹配的效率和准确率。
Description
技术领域
本发明具体涉及一种基于注意力机制的异构数据模式匹配方法。
背景技术
伴随着智能制造的发展,与之相关的产品设计、生产装备、感知设备和联网终端等,都会产生更多关于数据处理的需求。同时,生产者本身也在源源不断地产生数据,这些数据将会渗透到企业运营、产品的价值链乃至产品的整个生命周期。但是,目前我国企业数字化基础总体上较为薄弱,不同类型的企业,基础数字化能力参差不齐。因此在企业内部之间、产业链上下游之间、跨领域各类生产设备与信息系统之间,还存在很多以不同形式存储的异构数据源,形成了大量的、封闭的信息孤岛。这些信息无法进行系统间数据共享,给数据的分析、存储和应用带来诸多障碍。随着科技的快速发展及信息化、智能化理念的普及,如何集成这些异构数据,已成为当下急需攻破的一大难题。
现在,模式匹配被广泛应用,以解决以上问题。模式匹配是利用元素自身信息、语义信息、数据实例信息和结构信息来识别并解决数据之间的语义冲突,同时,构建源模式和待匹配模式中元素的语义映射关系。传统的模式匹配方法普遍采用人工的方式进行规则匹配。尽管人工匹配在一定程度上保证了匹配的准确率,但是,也牺牲了匹配的效率。同时,如何对各个规则的权重进行合理分配也是一大难题。随着数据规模的扩大,手工匹配会耗费大量的人力物力,同时容易破坏数据的完整性,难以有效应对异构数据的高增长性问题。所以,现在还有一些企业应用基于学习的模式匹配方法,具体为通过BP神经网络,根据元素自身信息、语义信息、数据实例信息和结构信息来挖掘可匹配的元素映射关系。基于BP神经网络的方法,尽管在一定程度上解决了基于规则的方法无法确定相关权重的问题,但仍然存在匹配空间过大,复杂度高,效率不高等问题。
发明内容
本发明的目的在于提供一种基于注意力机制的异构数据模式匹配方法,能够提高异构数据模式匹配的效率和准确率。
本发明提供的这种基于注意力机制的异构数据模式匹配方法,包括如下步骤:
S1.获取目的数据和待匹配数据,并进行预处理;
S2.根据建立的新数据指标体系进行特征提取;
S3.训练基于注意力机制的模式匹配模型;
S4.建立源模式和待匹配模式中元素的语义映射关系,并进行模式匹配。
步骤S1的预处理过程包括去噪和分类;所述的去噪具体包括,统计数据列中空属性的比率,删除数据列中空属性比率高于预设阈值的属性;对于缺失数据,连续变量使用统计值填补,统计值包括平均值和中位数;分类变量不进行填补或用众数填补;对于异常数据采用分箱图进行判断并清除;所述的分类具体包括对去噪后的数据按照数据类型进行分类,数据类型包括数值型、字符型和时间、金钱等组成的稀有类型。
步骤S2的新数据指标体系采用注意力机制建立,具体为选取注意力权重排列顺序高于预设排序的特征新建数据指标体系,注意力通过如下公式计算:
a=fφ(x)
其中x为输入数据,fφ为注意力网络,a是取值在0到1之间的多维注意力向量。
新建数据指标体系具体包括数值型和字符型两种数据指标体系,然后按照数据类型对应新建的数据指标体系提取特征;其中,数值型数据指标体系的特征包括最大值、最小值、小数位数、标准差和平均值;字符型数据指标体系的特征包括数据类型长度、最大值、是否允许为空、数字字符比率和平均值,字符型数据指标体系中的最大值和平均值为实际字符串长度的最大值和平均值;稀有类型转换为数值型数据,并采用数值型数据指标体系进行描述,特征信息V=[value1,value2,…,valuen],将神经网络的输入信息的指标量化为数值,并通过转换函数将量化的数值信息转换到区间[0,1],其中转换函数为:
f(length)=2*(1/(1+k-length)-0.5),其中k=1.01
若f(length)<0,则f(length)=0,其中length为量化的数值信息。
步骤S3具体为在神经网络中引入注意力机制算法构建模式匹配模型,模式匹配模型包括输入层、注意力模块、第一全连接层、第二全连接层和输出层;初始化权值,设置模型训练参数、优化器和损失函数;将步骤S2提取的特征信息发送到输入层;注意力模块采用注意力机制算法;通过第一全连接层、第二全连接层和输出层对得到的注意力数值进行训练,具体为进行相似度匹配,将得到的注意力数值通过正向传播得到输出层误差,反向传播不断调整神经网络的权值和设定阈值,直至神经网络收敛。
注意力机制算法:假设存在源数据Source,目标数据Target。将Source中的构成元素想象成是由一系列的<Key,Value>数据对构成的,给定Target中的某个元素Query,通过计算Query和各个Key的相似性或者相关性,得到每个Key对应Value的权重系数,然后对Value进行加权求和,即得到了最终的Attention数值。即本质上Attention机制是对Source中元素的Value值进行加权求和,而Query和Key用来计算对应Value的权重系数。具体包括如下步骤:
A.计算Query和一个Keyi的相似性,Query为Target中的某个元素,Keyi为源数据中的元素;采用引入额外的前馈神经网络来计算相似性:
Similarity(Query,Keyi)=MLP(Query,Keyi)
式中MLP(Query,Keyi)代表一个前馈神经网络;
B.引入SoftMax函数对步骤A得到的相似性进行数值转换,通过SoftMax计算valuei对应的权重系数,valuei为步骤S2中提取的特征信息,采用公式:
其中,Simi为步骤A得到的相似度Similarity的缩写,Lx为源数据的长度,
C.将步骤B得到的valuei对应的权重系数与valuei相乘,获得注意力数值:
Attention(Query,Source)=αi·Valuei
式中Attention(Query,Source)为最终得到的查询向量Query与源数据中各元素的注意力数值。
步骤S4,具体为计算异构数据间的相似度后,将大于相似度设定阈值的属性作为输出;通过双向过滤法识别相似数据,双向过滤法具体为分别用目的数据和待匹配数据中的属性集合作为训练数据集,建立并训练正反两个方向的神经网络,分别在这两个神经网络中进行属性的匹配,取两者输出结果的交集作为最终的匹配结果;建立源模式和待匹配模式中元素的语义映射关系。
本发明提供的这种基于注意力机制的异构数据模式匹配方法,降低了神经网络的复杂度,进一步过滤干扰数据,提高了异构数据模式匹配的效率和准确率。
附图说明
图1为本发明方法的流程示意图。
图2为本发明方法的逻辑示意图。
图3为本发明方法的数值型数据指标体系和字符型数据指标体系的注意力概率分布。
图4为本发明方法的新数据指标体系。
具体实施方式
如图1为本发明方法的流程示意图。本发明提供的这种基于注意力机制的异构数据模式匹配方法,包括如下步骤:
S1.获取目的数据和待匹配数据,并进行预处理;
由于不同的数据类型描述同一属性的时候数据指标取值存在较大差异,会出现不是相同属性但其属性的特征向量取值相同或相似而得到匹配的情形,从而使属性匹配的准确率降低,因此首先需要将预处理目的数据和待匹配数据进行数据类型分类。其次工业生产线采集到的数据大多都包含噪声,一旦对噪声数据处理不当,将有可能对数据匹配结果甚至数据集成的结果形成较大干扰,因此需要对数据中产生的噪声进行处理。
预处理过程包括去噪和分类;所述的去噪具体包括,可能干扰结果的一些数据实例,比如数据列中的空属性,异常数据等。对噪声数据的处理采取以下方法,统计数据列中空属性的比率,删除比率高于预设阈值的属性,本实施例的预设阈值为80%;对于缺失数据,当缺失值少于20%时,连续变量可以使用均值或中位数填补;分类变量不需要填补,单算一类即可,也可以用众数填补分类变量;对于异常数据采用分箱图进行判断,对异常数据直接清除。所述的分类具体包括对去噪后的数据按照数据类型进行分类,数据类型包括数值型、字符型和稀有类型。
S2.根据建立的数据指标体系进行特征提取;
根据数据指标体系进行特征提取,判断异构数据间属性是否为同一属性,主要是通过比较描述属性的元数据信息来实现的。研究发现主要包括三种方法:在数据字典级别上比较属性名的方法、在模式级别上比较模式信息的方法和在数据内容级别上比较属性值及所来自域的方法。对于比较属性名的方法,尽管简单,但准确率不可靠。比较属性值及所来自域的方法容易受到噪声数据的干扰,容错性较差。基于属性的模式信息来判断两个属性是否相同,避免了比较属性名的方法中出现的同名异义、异名同义等问题。研究给出了基于神经网络的属性匹配方法所需要的模式信息,数据内容的统计信息及其它语义信息等数据指标,原始数据指标体系包括:字符型、数值型、稀有类型、数据类型长度、是否允许为空、维度、小数位数、最小值、最大值、平均值、差异系数、标准差和数字字符比率。现有基于学习的模式匹配方法对于数值型和字符型数据均采用描述属性的原始数据指标体系。然而,由于不同数据类型的差异性,其对同一指标的敏感度也不同。例如:
假设描述属性的特征向量为:数据类型,最大值、最小值和平均值。
当描述属性Sno的数据类型是字符串时:最大值代表实际字符串长度的最大值、最小值代表实际字符串长度的最小值、平均值代表实际字符串长度的平均值。特征向量的具体取值为:(字符串型,5,5,5);当描述属性CustormerID的数据类型同样是字符串时,特征向量的具体取值为:(字符串型,5,5,5);当描述属性Sno的数据类型是数值型时,特征向量的具体取值为:(数值型,28,3,17);当描述属性CustormerID的数据类型是数值型时,特征向量的具体取值为:(数值型,99,1,45)。
显然,用原始数据指标体系来描述字符型属性时的,存在不是相同属性但特征向量取值相同的情况,用原始数据指标体系来描述数值型属性时的,能明显区分二者的差异。对于字符型数据来说原始数据指标体系不足以体现异构属性之间的相异性,使得属性匹配的准确率下降。因此对所有数据类型均采用同一数据指标体系来进行描述不能实现高质量的模式匹配。
同时,注意力机制能够通过学习注意力权重,捕捉到关键特征。因此本发明基于注意力机制学习原始数据指标体系各个特征的注意力分配,目的是在达到与原始数据指标体系相当的分类效果的同时减少人工提取特征的工作量,降低匹配空间。注意力可以通过如下公式计算,其中x为输入数据,fφ为注意力网络,a是取值在0到1之间的多维注意力向量:
a=fφ(x)
因此,通过以上计算,即可求出原始数据指标体系下数值型数据和字符型数据的注意力分布。
采用注意力机制建立数据指标体系,具体为选取注意力权重排列顺序高于预设排序的特征新建数据指标体系,预设排序一般选取为5。本实施例的一种数值型和字符型数据指标体系的注意力概率分布如图3本发明方法的数值型数据指标体系和字符型数据指标体系的注意力概率分布所示。经过特征选取后新建数据指标体系为如图4本发明方法的新数据指标体系所示,其中数值型数据指标体系包括最大值、最小值、小数位数、标准差、平均值共5个特征;字符型数据指标体系包括数据类型长度、最大值、是否允许为空、数字字符比率、平均值共5个特征。当描述属性的数据类型为字符型时,最大值、平均值分别代表实际字符串长度的最大值、平均值。稀有类型转换为数值型数据,并采用数值型指标体系进行描述。特征信息V=[value1,value2,…,valuen],作为神经网络的输入信息,需要将神经网络的输入信息量化为数值,并通过转换函数将量化的数值信息转换到区间[0,1],其中转换函数为:
f(length)=2*(1/(1+k-length)-0.5),其中k=1.01
若f(length)<0,则f(length)=0,其中length为量化的数值信息。
S3.训练基于注意力机制模式匹配模型;具体为在神经网络中引入注意力机制算法构建模式匹配模型,模式匹配模型包括输入层、注意力模块、第一全连接层、第二全连接层和输出层;初始化权值,设置模型训练参数、优化器和损失函数;将步骤S2提取的特征信息发送到输入层;注意力模块采用注意力机制算法;通过第一全连接层、第二全连接层和输出层对得到的注意力数值进行训练,具体为进行相似度匹配,将得到的注意力数值通过正向传播得到输出层误差,反向传播不断调整神经网络的权值和设定阈值,直至神经网络收敛。
对现有技术基于BP神经网络的模式匹配方法准确率(Precision)和查全率(Recall)不高的原因进行分析。已知Precision=T/(T+F),T为匹配算法找到的正确匹配数,F为匹配算法找到的错误匹配数。假设存在数据1和数据2,其中数据1采用BP神经网络进行匹配结果为:T1=a1,F1=b1;数据2的准确率较高其匹配结果为:T2=a2,F2=b2;
计算P1和P2,其中P1为数据1的准确率,P2为数据2的准确率
由于P2>P1,则必然存在P2-P1>0,即
a2>a1,b1>b2,即T2>T1,F2>F1
如公式所示,造成准确率不高的主要原因是:匹配算法找到的正确匹配数T不够多,相反找到的错误匹配数F过多。BP神经网络模式匹配方法F值过高的主要原因是其随机初始化造成输出结果不稳定。不论训练神经网络的次数如何,真正与训练数据相匹配的数据,其输出结果是稳定的。而与训练数据不一致的数据每一次的输出结果往往存在较大差异,可能大于相似度阈值,也可能远小于相似度阈值,一旦将大于相似度阈值的输出作为最终的匹配结果必然会造成错误匹配,即F值的增加。即使采用双向过滤法已经过滤掉一批这样的干扰数据,但依然存在着匹配紊乱的问题。本发明通过在神经网络中加入注意力机制,能够让神经网络去学习不同局部的重要性,为特征向量赋予较低的权重,最终过滤掉可能大于相似度阈值的输出,降低F值,提高了匹配的准确率。
注意力机制算法,够让神经网络去学习不同局部的重要性,进一步过滤干扰数据,提高匹配的准确率。注意力模型(AM),是根据人类在观察环境时往往只专注于几个特别重要的局部信息的规律总结而来。例如,人类的视觉系统倾向于关注图像中辅助判断的部分信息,并忽略掉与其不相关的信息。注意力机制可以让神经网络学会只关注关键的部分。所述的基于注意力机制的异构数据模式匹配方法是指识别并解决数据之间的语义冲突,构建源模式和待匹配模式中元素的语义映射关系。注意力算法:假设存在源数据Source,目标数据Target。将Source中的构成元素想象成是一系列的<Key,Value>数据对构成的,给定Target中的某个元素Query,通过计算Query和各个Key的相似性或者相关性,得到每个Key对应Value的权重系数,然后对Value进行加权求和,即得到了最终的Attention数值。具体包括如下步骤:
A.计算Query和一个Keyi的相似性,Query为Target中的某个元素,Keyi为源数据中的元素;具体可以采用向量点集法、Consine相似度法或引入额外前馈神经网络法等计算相似性,本发明优选采用引入额外前馈神经网络法计算相似性,计算公式为:
Similarity(Query,Keyi)=MLP(Query,Keyi)
B.引入SoftMax函数对步骤A得到的相似性进行数值转换,一方面可以进行归一化,将原始计算分值整理成所有元素权重之和为1的概率分布;另一方面也可以通过SoftMax的内在机制更加突出重要元素的权重。通过SoftMax计算valuei对应的权重系数,valuei为步骤S2中提取的特征信息,采用公式:
其中,Simi为步骤A得到的相似度Similarity的缩写,Lx为源数据的长度;
C.将步骤B得到的valuei对应的权重系数与valuei相乘,获得注意力数值:
Attention(Query,Source)=αi·Valuei
式中Attention(Query,Source)为最终得到的注意力数值;
假设用相同的样本数据在相同的初始权值和阈值下分别训练加入注意力机制的神经网络AMN1和BP神经网络BPN1,对加入注意力机制的神经网络AMN1和BP神经网络BPN1两种异构数据进行匹配;输入任意向量P=[P1,P2,…,Pn],P与训练数据不一致;输入层到隐藏层的权重矩阵为W1=[W11,W12,…,W1n],隐藏层的输出向量分别H=[H1,H2,…,Hn],隐含层到输出层的权重矩阵为W=[W11,W12,…,W1n],隐含层的阈值为B1,激活函数为f1,输出层的阈值为B2,激活函数为f2;相似度阈值为S(通常0.9≤S≤1);网络收敛时在BPN1和AMN1上的隐藏层输出为HB1,HA1;在输出层的输出为OB1,OA1;
OB1=f2(W2*HB1+B2)=f2(W2*f1(W11P1+W12P2+…+W1nPn)+B2)
在神经网络中加入注意力机制,在相同权值和阈值下训练神经网络AMN1,用于计算注意力的前馈神经网络将输出与输入向量同维度的注意力矩阵A=[a1,a2,…,an],其中a1+a2+…+an=1。
P=A*P=[a1*P1,a2*P2,…,an*Pn]
OA1=f2(W2*H2+b2)=f2(W2*f1(W11a1P1+W12a2P2+…+W1nanPn)+B2)
令(W11P1+W12P2+…+W1nPn)=Z1,a1=a2=…=an=a,则
OB1=f2(W2*f1(Z1)+B2)
OA1=f2(W2*f1(a*Z1)+B2)
已知BP神经网络的输出O1大于相似度阈值S,只有当a的取值与1相接近时,OB1才近似等于OA1。然而a1=a2=…=an=a=1是一种极端情况,且违背了a1+a2+…+an=1的原则。实际上由于数据P与训练数据不一致,ai远小于1,因此OA1远小于OB1,同时OB1与相似度阈值S相近,相应的输出OA1小于相似度阈值S,不是最终输出的匹配结果,进一步过滤了干扰数据。因此在神经网络中加入注意力机制能够近一步过滤干扰数据,提高准确率。
S4.建立源模式和待匹配模式中元素的语义映射关系,并进行模式匹配。具体为计算异构数据间的相似度,将大于相似度的设定阈值的属性作为输出,相似度的取值一般在0.90到0.99之间;通过双向过滤法识别相似数据,双向过滤法具体为分别用目的数据和待匹配数据中的属性集合作为训练数据集,建立并训练正反两个方向的神经网络,分别在这两个网络中进行属性的匹配,取两者输出结果的交集作为最终的匹配结果;建立源模式和待匹配模式中元素的语义映射关系。
如图2为本发明方法的逻辑示意图。输入源数据和待匹配数据,二者均满足异构数据要求;将源数据和待匹配数据进行分类,包括数值型数据、字符型数据和稀有类型数据;将分类后的数据按照数据类型选择相应的数据指标体系进行特征提取,其中数值型数据对应数值型数据指标体系、字符型数据对应字符型数据指标体系,稀有数据对应数值型数据指标体系;将源数据输入模式匹配器中进行训练,将待匹配数据输入训练好的模型中进行相似度计算,输出相似字段映射。最后采用双向过滤法确定最终匹配关系。
采用具体实例说明:假设C和D是具有满足异构数据要求的两个数据集;异构数据指的是不同数据源对同一数据具有不同的定义,例如数据类型、格式、精度等。
输入:数据特征向量C、待匹配数据特征向量D。
输出:匹配结果P。
步骤一、将目的数据集合C和待匹配特征集合D进行预处理,分为数值型、字符型和稀有类型,按照数据指标体系进行特征提取,得到对应特征向量,如数值型数据特征向量C1、D1。
步骤二、以C1作为输入到基于注意力机制的模式匹配器中训练神经网络,得到训练好的模型AMN1。将待匹配的数值型特征向量D1输入到训练好的神经网络AMN1中,计算相似度,得到相似度矩阵为S1=[s1,s2,…,sn]。
步骤三、设定相似度阈值θ,输出S1中大于相似度阈值的元素,得到正向匹配集合P1=[(C1i,D1j)]。
步骤四、将D1作为目的数据训练神经网络,C1作为待匹配的数据。经过步骤二~步骤三,得到反向匹配集合P2=[(D1j,C1i)]。
步骤五、将P1和P2取交集,得到最终的匹配结果P。
Claims (3)
1.一种基于注意力机制的异构数据模式匹配方法,包括如下步骤:
S1.获取目的数据和待匹配数据,并进行预处理;
S2.根据建立的新数据指标体系进行特征提取;具体为选取注意力概率排列顺序高于预设排序的特征新建数据指标体系,注意力通过如下公式计算:
a=fφ(x)
其中x为输入数据,fφ为注意力网络,a是取值在0到1之间的多维注意力向量;
新建数据指标体系,具体包括按照数值型和字符型两种数据指标体系;其中,数值型数据指标体系的特征包括最大值、最小值、小数位数、标准差和平均值;字符型数据指标体系的特征包括数据类型长度、最大值、是否允许为空、数字字符比率和平均值,字符型数据指标体系中的最大值和平均值为实际字符串长度的最大值和平均值;稀有类型转换为数值型数据,并采用数值型指标体系进行描述,特征信息V=[value1,value2,…,valuen],将神经网络的输入信息的指标量化为数值,并通过转换函数将量化的数值信息转换到区间[0,1],其中转换函数为:
f(length)=2*(1/(1+k-length)-0.5),其中k=1.01
若f(length)<0,则f(length)=0,其中length为量化的数值信息;
S3.训练基于注意力机制的模式匹配模型;具体为在神经网络中引入注意力机制算法构建模式匹配模型,模式匹配模型包括输入层、注意力模块、第一全连接层、第二全连接层和输出层;初始化权值,设置模型训练参数、优化器和损失函数;将步骤S2提取的特征信息发送到输入层;注意力模块采用注意力机制算法;通过第一全连接层、第二全连接层和输出层对得到的注意力数值进行训练,具体为进行相似度匹配,将得到的注意力数值通过正向传播得到输出层误差,反向传播不断调整神经网络的权值和设定阈值,直至神经网络收敛;
注意力机制算法具体包括如下步骤:假设存在源数据Source,目标数据Target;将Source中的构成元素想象成是一系列的<Key,Value>数据对构成;给定Target中的某个元素Query,通过计算Query和各个Key的相似性或者相关性,得到每个Key对应Value的权重系数,然后对Value进行加权求和,从而得到了最终的Attention数值;具体包括如下步骤:
A.计算Query和一个Keyi的相似性,Query为Target中的某个元素,Keyi为源数据中的元素;采用引入额外的前馈神经网络来计算相似性:
Similarity(Query,Keyi)=MLP(Query,Keyi)
式中MLP(Query,Keyi)代表一个前馈神经网络;
B.引入SoftMax函数对步骤A得到的相似性进行数值转换,通过SoftMax计算valuei对应的权重系数,valuei为步骤S2中提取的特征信息,采用公式:
其中,Simi为步骤A得到的相似度,Lx为源数据的长度;
C.将步骤B得到的valuei对应的权重系数与valuei相乘,获得注意力数值:
Attention(Query,Source)=αi·Valuei
式中Attention(Query,Source)为最终得到的注意力数值;
S4.建立源模式和待匹配模式中元素的语义映射关系,并进行模式匹配。
2.根据权利要求1所述的基于注意力机制的异构数据模式匹配方法,其特征在于步骤S1的预处理过程包括去噪和分类;所述的去噪具体包括,统计数据列中空属性的比率,删除数据列中空属性比率高于预设阈值的属性;对于缺失数据,连续变量使用统计值填补,统计值包括平均值和中位数;分类变量不进行填补或用众数填补;对于异常数据采用分箱图进行判断并清除;所述的分类具体包括对去噪后的数据按照数据类型进行分类,数据类型包括数值型、字符型和稀有类型。
3.根据权利要求2所述的基于注意力机制的异构数据模式匹配方法,其特征在于步骤S4,具体为计算异构数据间的相似度,将大于相似度的设定阈值的属性作为输出;通过双向过滤法识别相似数据,双向过滤法具体为分别用目的数据和待匹配数据中的属性集合作为训练数据集,建立并训练正反两个方向的神经网络,分别在这两个神经网络中进行属性的匹配,取两者输出结果的交集作为最终的匹配结果;建立源模式和待匹配模式中元素的语义映射关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110240555.3A CN112965968B (zh) | 2021-03-04 | 2021-03-04 | 一种基于注意力机制的异构数据模式匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110240555.3A CN112965968B (zh) | 2021-03-04 | 2021-03-04 | 一种基于注意力机制的异构数据模式匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112965968A CN112965968A (zh) | 2021-06-15 |
CN112965968B true CN112965968B (zh) | 2023-10-24 |
Family
ID=76276478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110240555.3A Active CN112965968B (zh) | 2021-03-04 | 2021-03-04 | 一种基于注意力机制的异构数据模式匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112965968B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114625875B (zh) * | 2022-03-09 | 2024-03-29 | 平安科技(深圳)有限公司 | 多数据源信息的模式匹配方法、装置、存储介质及设备 |
CN116303687B (zh) * | 2023-05-12 | 2023-08-01 | 烟台黄金职业学院 | 一种工程造价数据智能管理方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007147166A2 (en) * | 2006-06-16 | 2007-12-21 | Quantum Leap Research, Inc. | Consilence of data-mining |
CN101706780A (zh) * | 2009-09-03 | 2010-05-12 | 北京交通大学 | 一种基于视觉注意力模型的图像语义检索方法 |
CN102799627A (zh) * | 2012-06-26 | 2012-11-28 | 哈尔滨工程大学 | 一种基于一阶逻辑和神经网络的数据对应方法 |
WO2015195308A1 (en) * | 2014-06-19 | 2015-12-23 | Thomson Licensing | System for natural language processing |
CN107844482A (zh) * | 2016-09-17 | 2018-03-27 | 复旦大学 | 基于全局本体的多数据源模式匹配方法 |
CN108182946A (zh) * | 2017-12-25 | 2018-06-19 | 广州势必可赢网络科技有限公司 | 一种基于声纹识别的声乐模式选择方法及装置 |
CN109343990A (zh) * | 2018-09-25 | 2019-02-15 | 江苏润和软件股份有限公司 | 一种基于深度学习的云计算系统异常检测方法 |
CN111159223A (zh) * | 2019-12-31 | 2020-05-15 | 武汉大学 | 一种基于结构化嵌入的交互式代码搜索方法及装置 |
WO2020143137A1 (zh) * | 2019-01-07 | 2020-07-16 | 北京大学深圳研究生院 | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 |
CN112288011A (zh) * | 2020-10-30 | 2021-01-29 | 闽江学院 | 一种基于自注意力深度神经网络的图像匹配方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9792351B2 (en) * | 2005-06-10 | 2017-10-17 | International Business Machines Corporation | Tolerant and extensible discovery of relationships in data using structural information and data analysis |
-
2021
- 2021-03-04 CN CN202110240555.3A patent/CN112965968B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007147166A2 (en) * | 2006-06-16 | 2007-12-21 | Quantum Leap Research, Inc. | Consilence of data-mining |
CN101706780A (zh) * | 2009-09-03 | 2010-05-12 | 北京交通大学 | 一种基于视觉注意力模型的图像语义检索方法 |
CN102799627A (zh) * | 2012-06-26 | 2012-11-28 | 哈尔滨工程大学 | 一种基于一阶逻辑和神经网络的数据对应方法 |
WO2015195308A1 (en) * | 2014-06-19 | 2015-12-23 | Thomson Licensing | System for natural language processing |
CN107844482A (zh) * | 2016-09-17 | 2018-03-27 | 复旦大学 | 基于全局本体的多数据源模式匹配方法 |
CN108182946A (zh) * | 2017-12-25 | 2018-06-19 | 广州势必可赢网络科技有限公司 | 一种基于声纹识别的声乐模式选择方法及装置 |
CN109343990A (zh) * | 2018-09-25 | 2019-02-15 | 江苏润和软件股份有限公司 | 一种基于深度学习的云计算系统异常检测方法 |
WO2020143137A1 (zh) * | 2019-01-07 | 2020-07-16 | 北京大学深圳研究生院 | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 |
CN111159223A (zh) * | 2019-12-31 | 2020-05-15 | 武汉大学 | 一种基于结构化嵌入的交互式代码搜索方法及装置 |
CN112288011A (zh) * | 2020-10-30 | 2021-01-29 | 闽江学院 | 一种基于自注意力深度神经网络的图像匹配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112965968A (zh) | 2021-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110728360B (zh) | 一种基于bp神经网络的微能源器件能量识别方法 | |
CN108399428B (zh) | 一种基于迹比准则的三元组损失函数设计方法 | |
CN109117793B (zh) | 基于深度迁移学习的直推式雷达高分辨距离像识别方法 | |
CN112965968B (zh) | 一种基于注意力机制的异构数据模式匹配方法 | |
CN113919441A (zh) | 一种基于超图变换网络的分类方法 | |
CN111709523A (zh) | 一种基于内部集成的宽度学习方法 | |
CN113255844A (zh) | 基于图卷积神经网络交互的推荐方法及系统 | |
Liu et al. | A hybrid coupled k-nearest neighbor algorithm on imbalance data | |
Lawrence et al. | Explaining neural matrix factorization with gradient rollback | |
CN106097094A (zh) | 一种面向中小企业的人机结合信贷评估新模型 | |
Rijal et al. | Integrating Information Gain methods for Feature Selection in Distance Education Sentiment Analysis during Covid-19. | |
CN114488069A (zh) | 基于图神经网络的雷达高分辨率距离像识别方法 | |
Zhao et al. | An efficient and lightweight approach for intrusion detection based on knowledge distillation | |
Zhou et al. | Deep global semantic structure-preserving hashing via corrective triplet loss for remote sensing image retrieval | |
Patel et al. | A reduced error pruning technique for improving accuracy of decision tree learning | |
CN113191144B (zh) | 一种基于传播影响力的网络谣言识别系统及方法 | |
Aljibawi et al. | A survey on clustering density based data stream algorithms | |
CN115081551A (zh) | 基于K-Means聚类和优化RVM线损模型建立方法及系统 | |
Hui et al. | Analysis of decision tree classification algorithm based on attribute reduction and application in criminal behavior | |
CN112561599A (zh) | 一种融合域特征交互的基于注意力网络学习的点击率预测方法 | |
CN117688472B (zh) | 一种基于因果结构的无监督域适应多元时间序列分类方法 | |
Meng et al. | Transfer learning based graph convolutional network with self-attention mechanism for abnormal electricity consumption detection | |
CN114881716A (zh) | 一种基于多种特征交互的点击率预测技术 | |
CN115174421B (zh) | 基于自监督解缠绕超图注意力的网络故障预测方法及装置 | |
Chen | Brain Tumor Prediction with LSTM Method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |