CN110457704B - 目标字段的确定方法、装置、存储介质及电子装置 - Google Patents
目标字段的确定方法、装置、存储介质及电子装置 Download PDFInfo
- Publication number
- CN110457704B CN110457704B CN201910741181.6A CN201910741181A CN110457704B CN 110457704 B CN110457704 B CN 110457704B CN 201910741181 A CN201910741181 A CN 201910741181A CN 110457704 B CN110457704 B CN 110457704B
- Authority
- CN
- China
- Prior art keywords
- field
- similarity
- target
- word
- suffix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000004364 calculation method Methods 0.000 claims abstract description 24
- 239000013598 vector Substances 0.000 claims description 123
- 238000004590 computer program Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 18
- 230000011218 segmentation Effects 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种目标字段的确定方法、装置、存储介质及电子装置,包括:将原始数据表中的原始字段中的第一后缀词与标准数据表中的标准字段中的第二后缀词进行比对;确定与所述第二后缀词相同的所述第一后缀词所对应的原始字段为第一字段,与所述第一后缀词相同的所述第二后缀词所对应的标准字段为第二字段;使用第一相似度模型和第二相似度模型分别对第一目标字段和第二目标字段进行相似度计算,以得到第一相似度和第二相似度,其中,所述第一目标字段是所述第一字段去除所述第一后缀词后得到的字段,所述第二目标字段是所述第二字段去除所述第二后缀词后得到的字段;根据所述第一相似度和/或所述第二相似度确定所述原始数据表中的目标字段。通过本发明,解决了字段匹配方法效率低的问题,进而达到了提高字段匹配的效率和准确率的效果。
Description
技术领域
本发明涉及通信领域,具体而言,涉及一种目标字段的确定方法、装置、存储介质及电子装置。
背景技术
数据标准化对数据资源的整合和共享起到了积极的指导作用。在大数据背景下,需要对数据资源进行整合。例如,公安内外网数据呈现种类繁多、数据量大、结构复杂、建设标准不统一、数据代码冲突等特点,迫切需要数据标准化工作的引领、指导、规范和约束。所有数据以标准数据元为依据,使得数据库数据的格式和数据项的命名一致,实现数据可识读,可共享。
数据标准化工作最主要的工作是数据元标准化,也就是将不同数据源的不同表的数据元转换成标准数据元,而目前普遍的做法是通过人工判断的方式,将不同数据源的表字段与标准表中的字段进行匹配,消耗大量的人力和时间,工作量极大,效率极低。
针对相关技术中,字段匹配方法效率低的问题,目前尚未存在有效的解决方案。
发明内容
本发明实施例提供了一种目标字段的确定方法、装置、存储介质及电子装置,以至少解决相关技术中字段匹配方法效率低的问题。
根据本发明的一个实施例,提供了一种目标字段的确定方法,包括:将原始数据表中的原始字段中的第一后缀词与标准数据表中的标准字段中的第二后缀词进行比对;确定与所述第二后缀词相同的所述第一后缀词所对应的原始字段为第一字段,与所述第一后缀词相同的所述第二后缀词所对应的标准字段为第二字段;使用第一相似度模型和第二相似度模型分别对第一目标字段和第二目标字段进行相似度计算,以得到第一相似度和第二相似度,其中,所述第一目标字段是所述第一字段去除所述第一后缀词后得到的字段,所述第二目标字段是所述第二字段去除所述第二后缀词后得到的字段;根据所述第一相似度和/或所述第二相似度确定所述原始数据表中的目标字段。
可选地,使用第一相似度模型和第二相似度模型分别对第一目标字段和第二目标字段进行相似度计算,以得到第一相似度和第二相似度,包括:在所述第一字段中提取出所述第一目标字段,并对所述第一目标字段进行分词处理后,提取出第一目标词向量;以及,在所述第二字段中提取出所述第二目标字段,并对所述第二目标字段进行分词处理后,提取出第二目标词向量;通过所述第一相似度模型确定所述第一目标词向量与所述第二目标词向量的所述第一相似度;通过所述第二相似度模型确定所述第一目标词向量与所述第二目标词向量的所述第二相似度。
可选地,通过所述第一相似度模型确定所述第一目标词向量与所述第二目标词向量的所述第一相似度,包括:通过欧式距离算法确定所述第一目标词向量与所述第二目标词向量之间的欧式距离,并将所述欧式距离作为所述第一相似度。
可选地,通过所述第二相似度模型确定所述第一目标词向量与所述第二目标词向量的所述第二相似度,包括:通过如下公式计算所述第一目标词向量与所述第二目标词向量之间的相似度得分score:
其中,V表示第二目标词向量,Vo表示第一目标词向量,Vi表示第二目标词向量的第i个向量,Vi o表示第一目标词向量中第i个向量,M表示第一目标词向量中的向量总数。
可选地,根据所述第一相似度和/或所述第二相似度确定所述原始数据表中的目标字段,包括以下之一:在所述第一相似度大于第一阈值的情况下,确定与所述第一相似度相对应的原始字段为所述目标字段;在所述第二相似度大于第二阈值的情况下,确定与所述第二相似度相对应的原始字段为所述目标字段;在所述第一相似度大于第一阈值,且所述第二相似度大于第二阈值的情况下,确定与所述第一相似度和所述第二相似度相对应的原始字段为所述目标字段。
可选地,根据所述第一相似度和/或所述第二相似度确定所述原始数据表中的目标字段,还包括:以所述第一相似度和所述第二相似度的加权和作为目标相似度,在所述目标相似度大于第三阈值的情况下,确定与所述第一相似度和所述第二相似度相对应的原始字段为所述目标字段,其中,与所述第一相似度相对应的第一权值,与所述第二相似度相对应的第二权值是通过第一模型得到的,所述第一模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:第一相似度、第二相似度,以及第一权值和第二权值。
可选地,根据所述第一相似度和/或所述第二相似度确定所述原始数据表中的目标字段,还包括:以所述第一相似度和所述第二相似度的加权和作为目标相似度,在所述目标相似度大于第四阈值的情况下,确定与所述第一相似度和所述第二相似度相对应的原始字段为所述目标字段,其中,与所述第一相似度相对应的第一权值,与所述第二相似度相对应的第二权值是预先设定的。
根据本发明的一个实施例,还提供了一种目标字段的确定装置,包括:比对模块,用于将原始数据表中的原始字段中的第一后缀词与标准数据表中的标准字段中的第二后缀词进行比对;第一确定模块,用于确定与所述第二后缀词相同的所述第一后缀词所对应的原始字段为第一字段,与所述第一后缀词相同的所述第二后缀词所对应的标准字段为第二字段;计算模块,用于使用第一相似度模型和第二相似度模型分别对第一目标字段和第二目标字段进行相似度计算,以得到第一相似度和第二相似度,其中,所述第一目标字段是所述第一字段去除所述第一后缀词后得到的字段,所述第二目标字段是所述第二字段去除所述第二后缀词后得到的字段;第二确定模块,用于根据所述第一相似度和/或所述第二相似度确定所述原始数据表中的目标字段。
可选地,所述计算模块包括:第一提取单元,用于在所述第一字段中提取出所述第一目标字段,并对所述第一目标字段进行分词处理后,提取出第一目标词向量;以及,第二提取单元,用于在所述第二字段中提取出所述第二目标字段,并对所述第二目标字段进行分词处理后,提取出第二目标词向量;第一确定单元,用于通过所述第一相似度模型确定所述第一目标词向量与所述第二目标词向量的所述第一相似度;第二确定单元,用于通过所述第二相似度模型确定所述第一目标词向量与所述第二目标词向量的所述第二相似度。
可选地,所述第一确定单元还用于,通过欧式距离算法确定所述第一目标词向量与所述第二目标词向量之间的欧式距离,并将所述欧式距离作为所述第一相似度。
可选地,所述第二确定单元还用于,通过如下公式计算所述第一目标词向量与所述第二目标词向量之间的相似度得分score:
其中,V表示第二目标词向量,Vo表示第一目标词向量,Vi表示第二目标词向量的第i个向量,Vi o表示第一目标词向量中第i个向量,M表示第一目标词向量中的向量总数。
根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,由于将原始数据表中的原始字段中的第一后缀词与标准数据表中的标准字段中的第二后缀词进行比对;确定与第二后缀词相同的第一后缀词所对应的原始字段为第一字段,与第一后缀词相同的第二后缀词所对应的标准字段为第二字段;使用第一相似度模型和第二相似度模型分别对第一目标字段和第二目标字段进行相似度计算,以得到第一相似度和第二相似度,其中,第一目标字段是所述第一字段去除所述第一后缀词后得到的字段,第二目标字段是所述第二字段去除所述第二后缀词后得到的字段;根据所述第一相似度和/或所述第二相似度确定所述原始数据表中的目标字段。因此,可以解决字段匹配方法效率低的问题,达到提高字段匹配的效率和准确率的效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种目标字段的确定方法的移动终端的硬件结构框图;
图2是根据本发明实施例的目标字段的确定的流程图;
图3是根据本发明实施例的字段的特征向量提取示意图;
图4是根据本发明实施例的数据表字段匹配流程图;
图5是根据本发明实施例的目标字段的确定装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种目标字段的确定方法的移动终端的硬件结构框图。如图1所示,移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的目标字段的确定方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种运行于上述移动终端的目标字段的确定方法,图2是根据本发明实施例的目标字段的确定的流程图,如图2所示,该流程包括如下步骤:
步骤S202,将原始数据表中的原始字段中的第一后缀词与标准数据表中的标准字段中的第二后缀词进行比对;
其中,字段中包括后缀词,例如“河北省”、“安徽省”等地址字段中都包括后缀“省”。“北京第三医院”、“上海第九医院”等字段中均包括“医院”后缀,“内蒙古自治区”、“宁夏自治区”、“广西自治区”中“自治区”是后缀词。
步骤S204,确定与所述第二后缀词相同的所述第一后缀词所对应的原始字段为第一字段,与所述第一后缀词相同的所述第二后缀词所对应的标准字段为第二字段;
其中,在上述例子中,若原始表中所存储的字段是“河北省”,标准表中存储的是“安徽省”,去除后缀词“省”后原始表中的第一字段是“河北”,去除后缀词“省”后标准表中的第二字段是“安徽”。
步骤S206,使用第一相似度模型和第二相似度模型分别对第一目标字段和第二目标字段进行相似度计算,以得到第一相似度和第二相似度,其中,所述第一目标字段是所述第一字段去除所述第一后缀词后得到的字段,所述第二目标字段是所述第二字段去除所述第二后缀词后得到的字段;
其中,在以上所举例子中,“省”“医院”“自治区”后缀词的字符长度不同,在相似度计算过程中,会因为后缀词语的长度影响到相似度的判断。例如,在“北京第三医院”、“上海第九医院”相似度计算过程中,相似的词语为“医院”和“第”,在“宁夏自治区”、“广西自治区”的相似度计算过程中,相似的词语为“自治区”。若按照相似词语占总词语的字数判断,“宁夏自治区”、“广西自治区”的相似度更高,而若按照相似度进行对原始表中的字段进行筛选的话,有可能会保留相似度较高的“宁夏自治区”、“广西自治区”,剔除相似度较低的字段“北京第三医院”、“上海第九医院”。而其实上述字段中若去除后缀“医院”和“自治区”后,“北京第三医院”、“上海第九医院”存在相似的词语“第”,而“宁夏”和“广西”是没有相似的词语的。也就是说,剔除后缀词后,“北京第三医院”、“上海第九医院”的相似度更高。因此,本申请通过去除后缀词进行相似度计算的方式,可以消除后缀词对相似度计算的影响,进一步可以提高字段相似度匹配的精确度。
步骤S208,根据所述第一相似度和/或所述第二相似度确定所述原始数据表中的目标字段。
其中,在原始数据表中选择出与标准表中相似度大于预定阈值的字段进行后续的数据处理。
通过上述步骤,由于将原始数据表中的原始字段中的第一后缀词与标准数据表中的标准字段中的第二后缀词进行比对;确定与第二后缀词相同的第一后缀词所对应的原始字段为第一字段,与第一后缀词相同的第二后缀词所对应的标准字段为第二字段;使用第一相似度模型和第二相似度模型分别对第一目标字段和第二目标字段进行相似度计算,以得到第一相似度和第二相似度,其中,第一目标字段是所述第一字段去除所述第一后缀词后得到的字段,第二目标字段是所述第二字段去除所述第二后缀词后得到的字段;根据所述第一相似度和/或所述第二相似度确定所述原始数据表中的目标字段。因此,可以解决字段匹配方法效率低的问题,达到提高字段匹配的效率和准确率的效果。
可选地,上述步骤的执行主体可以为终端等,但不限于此。
在一个选的实施例,使用第一相似度模型和第二相似度模型分别对第一目标字段和第二目标字段进行相似度计算,以得到第一相似度和第二相似度,包括:在所述第一字段中提取出所述第一目标字段,并对所述第一目标字段进行分词处理后,提取出第一目标词向量;以及,在所述第二字段中提取出所述第二目标字段,并对所述第二目标字段进行分词处理后,提取出第二目标词向量;通过所述第一相似度模型确定所述第一目标词向量与所述第二目标词向量的所述第一相似度;通过所述第二相似度模型确定所述第一目标词向量与所述第二目标词向量的所述第二相似度。
在本实施例中,如图3是根据本发明实施例的字段的特征向量提取示意图,对字段名进行分词处理得到其中,分别代表一个词,将提取特征向量后得到最终得到去除后缀词后的字段的特征向量V=[v1 v2 ... vM]。
在一个选的实施例,通过所述第一相似度模型确定所述第一目标词向量与所述第二目标词向量的所述第一相似度,包括:通过欧式距离算法确定所述第一目标词向量与所述第二目标词向量之间的欧式距离,并将所述欧式距离作为所述第一相似度。在本实施例中,欧式距离越小表示第一目标词向量与所述第二目标词向量的欧式距离越近,相似度越高。欧式距离越大表示第一目标词向量与所述第二目标词向量的欧式距离越远,相似度越低。
在一个选的实施例,通过所述第二相似度模型确定所述第一目标词向量与所述第二目标词向量的所述第二相似度,包括:通过如下公式计算所述第一目标词向量与所述第二目标词向量之间的相似度得分score:
其中,V表示第二目标词向量,Vo表示第一目标词向量,Vi表示第二目标词向量的第i个向量,Vi o表示第一目标词向量中第i个向量,M表示第一目标词向量中的向量总数。
在本实施例中,通过图3所示的方式求得原始数据表中每个去除后缀词的字段的特征向量以及标准数据表中每个去除后缀词的字段的特征向量V=[v1 v2 ... vM],通过上述余弦相似度模型计算第二目标词向量V与第一目标词向量Vo之间的第一相似度,根据该相似度确定原始数据表中的字段与标准数据表中字段的相似度。
在一个选的实施例,根据所述第一相似度和/或所述第二相似度确定所述原始数据表中的目标字段,包括以下之一:在所述第一相似度大于第一阈值的情况下,确定与所述第一相似度相对应的原始字段为所述目标字段;在所述第二相似度大于第二阈值的情况下,确定与所述第二相似度相对应的原始字段为所述目标字段;在所述第一相似度大于第一阈值,且所述第二相似度大于第二阈值的情况下,确定与所述第一相似度和所述第二相似度相对应的原始字段为所述目标字段。在本实施例中,第一阈值和第二阈值是根据实际情况预先设定的。具体地,可以根据字段的长度,以及实际需求的精准度而定。
在一个选的实施例,根据所述第一相似度和/或所述第二相似度确定所述原始数据表中的目标字段,还包括:以所述第一相似度和所述第二相似度的加权和作为目标相似度,在所述目标相似度大于第三阈值的情况下,确定与所述第一相似度和所述第二相似度相对应的原始字段为所述目标字段,其中,与所述第一相似度相对应的第一权值,与所述第二相似度相对应的第二权值是通过第一模型得到的,所述第一模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:第一相似度、第二相似度,以及第一权值和第二权值。在本实施例中,第一模型可以是神经网络算法,通过对神经网络模型的训练得到第一权值和第二权值,使用第一权值和第二权值对第一相似度和第二相似度进行加权,确定加权和是否有大于第三阈值,确定大于第三阈值的原始数据表中的字段为目标字段,对目标字段进行后续的处理。
在一个选的实施例,根据所述第一相似度和/或所述第二相似度确定所述原始数据表中的目标字段,还包括:以所述第一相似度和所述第二相似度的加权和作为目标相似度,在所述目标相似度大于第四阈值的情况下,确定与所述第一相似度和所述第二相似度相对应的原始字段为所述目标字段,其中,与所述第一相似度相对应的第一权值,与所述第二相似度相对应的第二权值是预先设定的。在本实施例中,可以根据实际情况或者经验值预先设定第一权值、第二权值和第四阈值,使用第一权值和第二权值对第一相似度和第二相似度进行加权,确定加权和是否有大于第四阈值,确定大于第四阈值的原始数据表中的字段为目标字段,对目标字段进行后续的处理。
下面通过一个具体实施例说明本申请,如图4是根据本发明实施例的数据表字段匹配流程图,具体包括如下步骤:
步骤1:确定去除相同后缀词的第一字段和第二字段。
获取一个原始数据表中的原始字段,根据与标准数据表中的标准字段的后缀词比对,得到去除相同后缀词的第一目标字段和第二目标字段,其中,第一目标字段是原始字段去除后缀词得到的字段,第二目标字段是标准字段去除后缀词得到的字段。
步骤2:对第一目标字段和第二目标字段进行分词,得到第一目标词向量和第二目标词向量;
步骤3:根据欧式距离和余弦相似度模型确定第一目标词向量和第二目标词向量的相似度。
步骤4:相似度大于阈值,转到步骤5,否则,转到步骤6;
步骤5:将该表归入匹配分类,结束;
步骤6:将该表归为未匹配分类,结束。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
在本实施例中还提供了一种目标字段的确定装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5是根据本发明实施例的目标字段的确定装置的结构框图,如图5所示,该装置包括:比对模块52,用于将原始数据表中的原始字段中的第一后缀词与标准数据表中的标准字段中的第二后缀词进行比对;第一确定模块54,用于确定与所述第二后缀词相同的所述第一后缀词所对应的原始字段为第一字段,与所述第一后缀词相同的所述第二后缀词所对应的标准字段为第二字段;计算模块56,用于使用第一相似度模型和第二相似度模型分别对第一目标字段和第二目标字段进行相似度计算,以得到第一相似度和第二相似度,其中,所述第一目标字段是所述第一字段去除所述第一后缀词后得到的字段,所述第二目标字段是所述第二字段去除所述第二后缀词后得到的字段;第二确定模块58,用于根据所述第一相似度和/或所述第二相似度确定所述原始数据表中的目标字段。
在一个选的实施例,所述计算模块包括:第一提取单元,用于在所述第一字段中提取出所述第一目标字段,并对所述第一目标字段进行分词处理后,提取出第一目标词向量;以及,第二提取单元,用于在所述第二字段中提取出所述第二目标字段,并对所述第二目标字段进行分词处理后,提取出第二目标词向量;第一确定单元,用于通过所述第一相似度模型确定所述第一目标词向量与所述第二目标词向量的所述第一相似度;第二确定单元,用于通过所述第二相似度模型确定所述第一目标词向量与所述第二目标词向量的所述第二相似度。
在一个选的实施例,所述第一确定单元还用于,通过欧式距离算法确定所述第一目标词向量与所述第二目标词向量之间的欧式距离,并将所述欧式距离作为所述第一相似度。
在一个选的实施例,所述第二确定单元还用于,通过如下公式计算所述第一目标词向量与所述第二目标词向量之间的相似度得分score:
其中,V表示第二目标词向量,Vo表示第一目标词向量,Vi表示第二目标词向量的第i个向量,Vi o表示第一目标词向量中第i个向量,M表示第一目标词向量中的向量总数。
在一个选的实施例,上述装置还用于,通过以下之一方式确定所述原始数据表中的目标字段:在所述第一相似度大于第一阈值的情况下,确定与所述第一相似度相对应的原始字段为所述目标字段;在所述第二相似度大于第二阈值的情况下,确定与所述第二相似度相对应的原始字段为所述目标字段;在所述第一相似度大于第一阈值,且所述第二相似度大于第二阈值的情况下,确定与所述第一相似度和所述第二相似度相对应的原始字段为所述目标字段。
在一个选的实施例,上述装置还用于通过以下方式确定所述原始数据表中的目标字段,以所述第一相似度和所述第二相似度的加权和作为目标相似度,在所述目标相似度大于第三阈值的情况下,确定与所述第一相似度和所述第二相似度相对应的原始字段为所述目标字段,其中,与所述第一相似度相对应的第一权值,与所述第二相似度相对应的第二权值是通过第一模型得到的,所述第一模型为使用多组数据通过机器学习训练出的,所述多组数据中的每组数据均包括:第一相似度、第二相似度,以及第一权值和第二权值。
在一个选的实施例,上述装置还用于通过如下方式确定所述原始数据表中的目标字段,以所述第一相似度和所述第二相似度的加权和作为目标相似度,在所述目标相似度大于第四阈值的情况下,确定与所述第一相似度和所述第二相似度相对应的原始字段为所述目标字段,其中,与所述第一相似度相对应的第一权值,与所述第二相似度相对应的第二权值是预先设定的。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,将原始数据表中的原始字段中的第一后缀词与标准数据表中的标准字段中的第二后缀词进行比对;
S2,确定与所述第二后缀词相同的所述第一后缀词所对应的原始字段为第一字段,与所述第一后缀词相同的所述第二后缀词所对应的标准字段为第二字段;
S3,使用第一相似度模型和第二相似度模型分别对第一目标字段和第二目标字段进行相似度计算,以得到第一相似度和第二相似度,其中,所述第一目标字段是所述第一字段去除所述第一后缀词后得到的字段,所述第二目标字段是所述第二字段去除所述第二后缀词后得到的字段;
S4,根据所述第一相似度和/或所述第二相似度确定所述原始数据表中的目标字段。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,将原始数据表中的原始字段中的第一后缀词与标准数据表中的标准字段中的第二后缀词进行比对;
S2,确定与所述第二后缀词相同的所述第一后缀词所对应的原始字段为第一字段,与所述第一后缀词相同的所述第二后缀词所对应的标准字段为第二字段;
S3,使用第一相似度模型和第二相似度模型分别对第一目标字段和第二目标字段进行相似度计算,以得到第一相似度和第二相似度,其中,所述第一目标字段是所述第一字段去除所述第一后缀词后得到的字段,所述第二目标字段是所述第二字段去除所述第二后缀词后得到的字段;
S4,根据所述第一相似度和/或所述第二相似度确定所述原始数据表中的目标字段。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种目标字段的确定方法,其特征在于,包括:
将原始数据表中的原始字段中的第一后缀词与标准数据表中的标准字段中的第二后缀词进行比对;
确定与所述第二后缀词相同的所述第一后缀词所对应的原始字段为第一字段,与所述第一后缀词相同的所述第二后缀词所对应的标准字段为第二字段;
使用第一相似度模型和第二相似度模型分别对第一目标字段和第二目标字段进行相似度计算,以得到第一相似度和第二相似度,其中,所述第一目标字段是所述第一字段去除所述第一后缀词后得到的字段,所述第二目标字段是所述第二字段去除所述第二后缀词后得到的字段;
根据所述第一相似度和/或所述第二相似度确定所述原始数据表中的目标字段;
其中,使用所述第二相似度模型对所述第一目标字段和所述第二目标字段进行相似度计算,以得到所述第二相似度,包括:
如下公式计算所述第二相似度:
其中,V表示所述第二目标字段对应的第二目标词向量,V o 表示所述第一目标字段对应的第一目标词向量,V i 表示所述第二目标词向量的第i个向量,V i o 表示所述第一目标词向量中第i个向量,M表示第一目标词向量中的向量总数,score为所述第一目标词向量与所述第二目标词向量之间的相似度得分;
将所述相似度得分score确定为所述第二相似度。
2.根据权利要求1所述的方法,其特征在于,在所述使用第一相似度模型和第二相似度模型分别对第一目标字段和第二目标字段进行相似度计算,以得到第一相似度和第二相似度之前,所述方法还包括:
在所述第一字段中提取出所述第一目标字段,并对所述第一目标字段进行分词处理后,提取出所述第一目标词向量;以及,
在所述第二字段中提取出所述第二目标字段,并对所述第二目标字段进行分词处理后,提取出所述第二目标词向量。
3.根据权利要求2所述的方法,其特征在于,使用所述第一相似度模型对所述第一目标字段和所述第二目标字段进行相似度计算,以得到所述第一相似度,包括:
通过欧式距离算法确定所述第一目标词向量与所述第二目标词向量之间的欧式距离,并将所述欧式距离作为所述第一相似度。
4.一种目标字段的确定装置,其特征在于,包括:
比对模块,用于将原始数据表中的原始字段中的第一后缀词与标准数据表中的标准字段中的第二后缀词进行比对;
第一确定模块,用于确定与所述第二后缀词相同的所述第一后缀词所对应的原始字段为第一字段,与所述第一后缀词相同的所述第二后缀词所对应的标准字段为第二字段;
计算模块,用于使用第一相似度模型和第二相似度模型分别对第一目标字段和第二目标字段进行相似度计算,以得到第一相似度和第二相似度,其中,所述第一目标字段是所述第一字段去除所述第一后缀词后得到的字段,所述第二目标字段是所述第二字段去除所述第二后缀词后得到的字段;
第二确定模块,用于根据所述第一相似度和/或所述第二相似度确定所述原始数据表中的目标字段;
所述计算模块包括:第一确定单元,用于通过如下公式计算所述第二相似度:
其中,V表示所述第二目标字段对应的第二目标词向量,V o 表示所述第一目标字段对应的第一目标词向量,V i 表示所述第二目标词向量的第i个向量,V i o 表示所述第一目标词向量中第i个向量,M表示第一目标词向量中的向量总数,score为所述第一目标词向量与所述第二目标词向量之间的相似度得分;
将所述相似度得分score确定为所述第二相似度。
5.根据权利要求4所述的装置,其特征在于,所述计算模块包括:
第一提取单元,用于在所述第一字段中提取出所述第一目标字段,并对所述第一目标字段进行分词处理后,提取出所述第一目标词向量;以及,
第二提取单元,用于在所述第二字段中提取出所述第二目标字段,并对所述第二目标字段进行分词处理后,提取出所述第二目标词向量。
6.根据权利要求5所述的装置,其特征在于,所述计算模块还包括:第一确定单元,用于通过欧式距离算法确定所述第一目标词向量与所述第二目标词向量之间的欧式距离,并将所述欧式距离作为所述第一相似度。
7.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至3任一项中所述的方法。
8.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至3任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910741181.6A CN110457704B (zh) | 2019-08-12 | 2019-08-12 | 目标字段的确定方法、装置、存储介质及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910741181.6A CN110457704B (zh) | 2019-08-12 | 2019-08-12 | 目标字段的确定方法、装置、存储介质及电子装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110457704A CN110457704A (zh) | 2019-11-15 |
CN110457704B true CN110457704B (zh) | 2022-11-15 |
Family
ID=68486077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910741181.6A Active CN110457704B (zh) | 2019-08-12 | 2019-08-12 | 目标字段的确定方法、装置、存储介质及电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110457704B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110895533B (zh) * | 2019-11-29 | 2023-01-17 | 北京锐安科技有限公司 | 一种表单映射方法、装置、计算机设备和存储介质 |
CN111061833B (zh) * | 2019-12-10 | 2023-03-21 | 北京明略软件系统有限公司 | 数据处理方法、装置、电子设备和计算机可读存储介质 |
CN112347320B (zh) * | 2020-11-05 | 2024-08-06 | 杭州数梦工场科技有限公司 | 数据表字段的关联字段推荐方法及装置 |
CN113723097B (zh) * | 2021-08-24 | 2024-09-13 | 中国人民解放军32382部队 | 器械标准体系优化分类方法及设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108091372B (zh) * | 2016-11-21 | 2021-06-18 | 医渡云(北京)技术有限公司 | 医疗字段映射校验方法及装置 |
CN107784070B (zh) * | 2017-09-15 | 2020-10-30 | 平安科技(深圳)有限公司 | 一种提高数据清洗效率的方法、装置及设备 |
CN109040081B (zh) * | 2018-08-10 | 2020-08-04 | 哈尔滨工业大学(威海) | 一种基于bwt的协议字段逆向分析系统及方法 |
CN109783611A (zh) * | 2018-12-29 | 2019-05-21 | 北京明略软件系统有限公司 | 一种字段匹配的方法、装置、计算机存储介质及终端 |
-
2019
- 2019-08-12 CN CN201910741181.6A patent/CN110457704B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110457704A (zh) | 2019-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110457704B (zh) | 目标字段的确定方法、装置、存储介质及电子装置 | |
CN112800095B (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN107688667A (zh) | 智能机器人客服方法、电子装置及计算机可读存储介质 | |
CN109918498B (zh) | 一种问题入库方法和装置 | |
CN110874528B (zh) | 文本相似度的获取方法及装置 | |
CN110876072B (zh) | 一种批量注册用户识别方法、存储介质、电子设备及系统 | |
CN112364014A (zh) | 数据查询方法、装置、服务器及存储介质 | |
CN112559631A (zh) | 分布式图数据库的数据处理方法、装置以及电子设备 | |
CN110532273A (zh) | 数据表的处理方法及装置、存储介质、电子装置 | |
CN106326258B (zh) | Url匹配方法及装置 | |
CN109885651A (zh) | 一种问题推送方法和装置 | |
CN114492849B (zh) | 一种基于联邦学习的模型更新方法及装置 | |
CN110532267A (zh) | 字段的确定方法、装置、存储介质及电子装置 | |
CN114464194A (zh) | 声纹聚类方法、装置、存储介质及电子装置 | |
CN114358252A (zh) | 目标神经网络模型中的操作执行方法及装置、存储介质 | |
CN110222103A (zh) | 提取excel数据的方法及装置、计算机设备、存储介质 | |
CN113032524A (zh) | 商标侵权识别方法、终端设备及存储介质 | |
CN110399360A (zh) | 字典表的设置方法及装置、存储介质、电子装置 | |
CN110874387A (zh) | 移动设备识别符共现关系稀疏图的构建方法及装置 | |
CN106304026B (zh) | 终端信息的确定方法及装置 | |
CN111832559B (zh) | 目标检测方法及装置、存储介质、电子装置 | |
CN111340114A (zh) | 图像的匹配方法及装置、存储介质和电子装置 | |
CN106372071A (zh) | 数据仓库的信息获取方法和装置 | |
CN113343017B (zh) | 图像特征点相似度的确定方法及装置 | |
CN110532561B (zh) | 数据检测方法及装置、存储介质、电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |