CN110795482B - 数据对标方法、装置、及存储装置 - Google Patents
数据对标方法、装置、及存储装置 Download PDFInfo
- Publication number
- CN110795482B CN110795482B CN201910985080.3A CN201910985080A CN110795482B CN 110795482 B CN110795482 B CN 110795482B CN 201910985080 A CN201910985080 A CN 201910985080A CN 110795482 B CN110795482 B CN 110795482B
- Authority
- CN
- China
- Prior art keywords
- text
- standard
- field
- qualifier
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种数据对标方法、装置、及存储装置。其中数据对标方法包括:从待对标数据表中提取原始数据信息,该原始数据信息包括字段名、以及与该字段名相对应的字段注释;基于深度学习的序列标注模型对该字段注释进行识别以获取与该字段名相对应的特性词;将该与字段名相对应的特性词与标准库中的标准数据元进行第一文本匹配;对第一文本匹配后输出的结果进行校验。通过上述方式,在识别出特征词的基础上再进行文本匹配,提高了文本匹配结果的可信度,降低了对标过程中的误匹配率。
Description
技术领域
本申请涉及数据治理技术领域,特别是涉及一种数据对标方法、装置、及存储装置。
背景技术
数据对标是数据治理的一个重要环节,是将非标准数据项表示对标到符合标准规范的数据项表示。具体地,数据项对标可拆分为数据元(由对象、特性词和表示词三大要素构成)对标和限定词(对象的修饰词)对标两部分。现有技术中多基于字段名的相似度匹配方法,由于实际的不规范的字段命名方式多样(通常包括英文、尤其是汉语拼音首字母缩写),因此对于大量存在的汉语拼音缩写容易引起误匹配;另一方面,现有技术中没有对数据元的三要素进行识别,从而无法对误匹配到的数据元进行有效校验;而基于字段注释的数据,则面临实际的注释过长,冗余信息过多,使得文本相似度偏低,导致结果不可信。此外,现有方法对于未匹配到的字段缺乏自动新增标准数据项功能。因此,急需一种新的数据对标方法以解决现有技术中存在的易误匹配、无法有效校验、及缺乏自动新增标准数据项功能的问题。
发明内容
本申请提供一种数据对标方法、装置、及存储装置,能够解决现有技术中存在的易误匹配、无法有效校验、及缺乏自动新增标准数据项功能的问题。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种数据对标方法,包括:
从待对标数据表中提取原始数据信息,所述原始数据信息包括字段名、以及与所述字段名相对应的字段注释;
基于深度学习的序列标注模型对所述字段注释进行识别以获取与所述字段名相对应的特性词;
将所述与所述字段名相对应的特性词与标准库中的标准数据元进行第一文本匹配;
对第一文本匹配后输出的结果进行校验,所述结果为第一文本匹配上的标准数据元或第一文本未匹配上的特性词。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种数据对标装置,包括:
提取模块,用于从待对标数据表中提取原始数据信息,所述原始数据信息包括字段名、以及与所述字段名相对应的字段注释;
识别模块,用于基于深度学习的序列标注模型对所述字段注释进行识别以获取与所述字段名相对应的特性词;
文本匹配模块,用于将所述与所述字段名相对应的特性词与标准库中的标准数据元进行第一文本匹配;
校验模块,用于对第一文本匹配后输出的结果进行校验。
为解决上述技术问题,本申请采用的再一个技术方案是:提供一种数据对标装置,该装置包括处理器、与所述处理器耦接的存储器,其中,
所述存储器存储有用于实现上述的数据对标方法的程序指令;
所述处理器用于执行所述存储器存储的所述程序指令以对待对标数据表中的对应字段进行对标。
为解决上述技术问题,本申请采用的再一个技术方案是:提供一种存储装置,存储有能够实现上述的数据对标方法的程序文件。
本申请的有益效果是:本发明的数据对标方法、装置、及存储装置通过从待对标数据表中提取原始数据信息,该原始数据信息包括字段名、以及与该字段名相对应的字段注释;基于深度学习的序列标注模型对该字段注释进行识别以获取与该字段名相对应的特性词;将该与字段名相对应的特性词与标准库中的标准数据元进行第一文本匹配;对第一文本匹配后输出的结果进行校验,其中结果为第一文本匹配上的标准数据元或第一文本未匹配上的特性词。通过上述方式,在识别出特征词的基础上再进行文本匹配,提高了文本匹配结果的可信度,降低了误匹配率,尤其可以解决字段注释过长、冗余信息过多,使得文本相似度偏低,导致的结果不可信问题,以及可以解决现有技术中用字段名进行匹配时,由于字段名命名方式多样(通常包括英文、尤其是汉语拼音首字母缩写)导致误匹配率高的问题。
附图说明
图1是本发明第一实施例的数据对标方法的流程示意图;
图2是本发明实施例中的标准数据元示意图;
图3是本发明第二实施例的数据对标方法的流程示意图;
图4是本发明实施例的数据对标装置的第一结构示意图;
图5是本发明实施例的数据对标装置的第二结构示意图;
图6是本发明实施例的存储装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
图1是本发明第一实施例的数据对标方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括步骤:
步骤S101:从待对标数据表中提取原始数据信息。
本实施例中,该原始数据信息包括但不限于表名、字段名、与该字段名相对应的字段注释和采样数据等,其中采样数据用于对文本匹配后输出的结果进行校验时使用,详后述。
举例说明,从待对标数据表中提取原始数据信息,提取结果如表1所示:
表1原始数据信息提取结果
表名 | 房屋租赁表 |
原始字段名 | FDSFZH |
原始字段注释 | 房东的身份证ID |
原始字段类型 | Varchar |
原始字段采样数据 | 33011242151524XXXX |
步骤S102:基于深度学习的文本分类模型对该表名和字段注释进行文本分类以获取与该字段名对应的对象和表示词。
本实施例中,文本分类模型包括对象分类模型和表示词分类模型,其中,对象分类模型包括但不限于卷积神经网络、循环神经网络或BERT模型中的任意一种或几种的组合,对象分类模型负责根据输入的表名和字段注释文本分类出对象,具体为将该表名和字段注释输入至该基于深度学习的对象分类模型中以获取与该字段名相对应的对象;表示词分类模型包括但不限于卷积神经网络、循环神经网络或BERT模型中的任意一种或几种的组合,表示词分类模型负责根据输入的表名和字段注释文本分类出表示词,具体为将该表名和字段注释输入至该基于深度学习的表示词分类模型中以获取与该字段名相对应的表示词。
承前举例说明,基于深度学习的对象分类模型对该原始表名“房屋租赁表”和原始字段注释“房东的身份证ID”进行文本分类后,获取到的对象为“人”;基于深度学习的表示词分类模型对该原始表名“房屋租赁表”和原始字段注释“房东的身份证ID”进行文本分类后,获取到的表示词为“号码”。
步骤S103:基于深度学习的序列标注模型对该字段注释进行识别以获取与该字段名相对应的特性词和限定词。
本实施例中,序列标注模型包括但不限于BILSTM+CRF模型和BERF+CRF模型,序列标注模型负责识别出字段注释中的特性词和限定词部分。需要说明的是,特性词属于数据元的三大构成要素之一,因此,每个字段注释中一定能识别出特性词,但不一定能识别出限定词,但在本实施例中,基于深度学习的序列标注模型对该字段注释进行识别,识别结果中包括与该字段名相对应的特性词和限定词。
承前举例说明,基于深度学习的序列标注模型对原始字段注释“房东的身份证ID”进行识别后,识别出的特性词为“身份证ID”,识别出的限定词为“房东”。
步骤S104:将该与字段名相对应的特性词与标准库中的标准数据元进行第一文本匹配,以及将该与字段名相对应的限定词与标准库中的标准限定词进行第二文本匹配。
具体地,先计算该特性词与标准库中各个标准数据元之间的第一文本相似度、以及计算该限定词与标准库中各个标准限定词之间的第二文本相似度。请一并参阅图2所示,图2是本发明实施例的标准数据元示意图,由图2可知,标准数据元中除了包含三大构成要素(对象类词、表示词和特性词)外,还包含中文名称、同义名称等要素,因此,在计算该特性词与标准库中各个标准数据元之间的第一文本相似度时,需要分别计算该特性词与标准库中各个标准数据元的各个要素之间的第一文本相似度。可选地,计算该第一文本相似度和第二文本相似度的算法包括但不限于BLEU、余弦相似度、词向量相似度、和TFIDF相似度算法。
本实施例中,只要标准数据元中存在一个要素与该特性词之间的第一文本相似度大于预设相似度阈值,即可将该标准数据元归为第一标准数据元集,并选取该标准数据元中各要素与该特性词之间的第一文本相似度中最大的第一文本相似度作为该标准数据元与该特性词之间的第一文本相似度;再从第一标准数据元集中选取与该特性词之间的第一文本相似度最大的标准数据元作为第一文本匹配上的标准数据元输出,输出后再进行校验,校验过程详见后述。若标准库中所有标准数据元的各个要素与该特性词之间的第一文本相似度均小于或等于预设相似度阈值,即第一文本未匹配上,则定义该特性词为相对于标准库的新增特性词,直接输出并进行校验,校验过程详见后述。
同理,若标准库中存在与该限定词之间的第二文本相似度大于预设相似度阈值的标准限定词,则从中选取与该限定词之间的第二文本相似度最大的标准限定词作为第二文本匹配上的标准限定词输出,后续可以基于该第二文本匹配上的标准限定词对该字段名进行对标。若标准库中所有限定词与该限定词之间的第二文本相似度均小于或等于预设相似度阈值,即第二文本未匹配上,则定义该限定词为相对于标准库的新增限定词,直接输出并将其作为新增标准限定词添加至标准库中,实现将标准库未覆盖到的限定词自动更新至标准库,以解决标准库覆盖不全的问题。
承前举例说明,将步骤S103中识别到的特性词“身份证ID”与标准库中的标准数据元进行第一文本匹配,匹配到的标准数据元的中文名称为“公民身份号码”,对应的内部标识符为DV00001(对应于图2中所示的标准数据元),即可将该标准数据元DV00001输出;将步骤S103中识别到的限定词“房东”与标准库中的标准限定词进行第二文本匹配,匹配到的标准限定词为“房东”,即可将该标准限定词“房东”输出。
通过步骤S103中先识别出特性词和限定词,然后步骤S104中再基于识别出的特性词和限定词进行文本匹配,提高了文本匹配结果的可靠性,降低了对标过程中的误匹配率,尤其可以解决字段注释过长、冗余信息过多,使得文本相似度偏低,导致的结果不可信问题,以及可以解决现有技术中用字段名进行匹配时,由于字段名命名方式多样(通常包括英文、尤其是汉语拼音首字母缩写)导致误匹配率高的问题。
步骤S105:对第一文本匹配后输出的结果进行校验。
如步骤S104中所述,该第一文本匹配后输出的结果为第一文本匹配上的标准数据元或第一文本未匹配上的特性词;具体地,对第一文本匹配上的标准数据元进行校验的操作可以为:对步骤S102中获取的对象和表示词是否分别与第一文本匹配上的标准数据元中的对象和表示词一致进行第一判定、以及对通过步骤S101提取的采样数据是否与第一文本匹配上的标准数据元中的表示词一致进行第二判定,若该第一判定和第二判定的结果均为一致,则表明该第一文本匹配上的标准数据元与该字段名匹配正确,且可以基于该第一文本匹配上的标准数据元对该字段名进行对标;否则表明该第一文本匹配上的标准数据元与该字段名匹配错误,需要重新匹配或操作人员协助匹配。通过上述的多维度校验方式可以有效保证匹配结果的可靠性,降低对标过程中的误匹配率。
更具体地,判断步骤S102中获取的对象和表示词是否分别与第一文本匹配上的标准数据元中的对象和表示词一致的操作可以为:计算步骤S102中获取的对象和表示词分别与第一文本匹配上的标准数据元中的对象和表示词之间的文本相似度,然后基于该文本相似度是否大于预设的文本相似度阈值来判断是否一致,再具体地,用于计算文本相似度的算法在步骤S104中已列出,为简约起见,在此不再赘述。接下来举例说明如何判断采样数据是否与第一文本匹配上的标准数据元中的表示词一致,例如,第一文本匹配上的标准数据元中的表示词为号码,表示格式为c18(18位数字),在步骤S101中提取的原始字段采样数据为“33011242151524XXXX”,满足上述的条件,说明该采样数据与第一文本匹配上的标准数据元中的表示词一致;再比如第一文本匹配上的标准数据元中的表示词为姓名,而通过步骤S101提取的采样数据几乎不是姓名,则说明该采样数据与第一文本匹配上的标准数据元中的表示词不一致。
具体地,对第一文本未匹配上的特性词进行校验的操作可以为:对通过步骤S101提取的采样数据是否与步骤S102中获取的表示词一致进行第三判定,若该第三判定的结果为一致时,将步骤S102中获取的对象和表示词、以及该第一文本未匹配上的特性词(即步骤S103中获取的特性词)作为新增数据元添加至标准库中,实现将标准库未覆盖到的数据元自动更新至标准库,以解决标准库覆盖不全的问题。
本发明第一实施例的数据对标方法通过在识别出特征词和限定词的基础上再进行文本匹配,提高了文本匹配结果的可靠度,尤其可以解决字段注释过长、冗余信息过多,使得文本相似度偏低,导致的结果不可信问题,以及可以解决现有技术中用字段名进行匹配时,由于字段名命名方式多样(通常包括英文、尤其是汉语拼音首字母缩写)导致误匹配率高的问题;同时,通过文本分类出对象和表示词,以用于对第一文本匹配后输出的结果进行校验,该多维度校验方式可以有效保证匹配结果的可靠性,降低对标过程中的误匹配率;此外,该方法还能实现将标准库未覆盖到的数据项(数据元和限定词)自动更新至标准库,以解决标准库覆盖不全的问题。
图3是本发明第二实施例的数据对标方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图3所示的流程顺序为限。如图3所示,该方法包括步骤:
步骤S201:从待对标数据表中提取原始数据信息。
在本实施例中,图2中的步骤S201和图1中的步骤S101类似,为简约起见,在此不再赘述。
步骤S202:基于深度学习的文本分类模型对该表名和字段注释进行文本分类以获取与该字段名对应的对象和表示词。
在本实施例中,图2中的步骤S202和图1中的步骤S102类似,为简约起见,在此不再赘述。
步骤S203:基于深度学习的序列标注模型对该字段注释进行识别以获取与该字段名相对应的特性词。
在本实施例中,图2中的步骤S203和图1中的步骤S103类似,为简约起见,在此不再赘述。需要说明的是,与第一实施例不同的是,在本实施例中,基于深度学习的序列标注模型对该字段注释进行识别,识别结果中仅包括与该字段名相对应的特性词,未识别出限定词。
步骤S204:将该与字段名相对应的特性词与标准库中的标准数据元进行第一文本匹配。
在本实施例中,图2中的步骤S204和图1中的步骤S104类似,为简约起见,在此不再赘述。需要说明的是,与第一实施例不同的是,本实施例中未识别出限定词,因此没有第二文本匹配操作。
步骤S205:对第一文本匹配后输出的结果进行校验。
在本实施例中,图2中的步骤S205和图1中的步骤S105类似,为简约起见,在此不再赘述。
本发明第二实施例的数据对标方法通过在识别出特征词的基础上再进行文本匹配,提高了文本匹配结果的可靠度,尤其可以解决字段注释过长、冗余信息过多,使得文本相似度偏低,导致的结果不可信问题,以及可以解决现有技术中用字段名进行匹配时,由于字段名命名方式多样(通常包括英文、尤其是汉语拼音首字母缩写)导致误匹配率高的问题;同时,通过文本分类出对象和表示词,以用于对第一文本匹配后输出的结果进行校验,该多维度校验方式可以有效保证匹配结果的可靠性,降低对标过程中的误匹配率;此外,该方法还能实现将标准库未覆盖到的数据元自动更新至标准库,以解决标准库覆盖不全的问题。
图4是本发明实施例的数据对标装置的第一结构示意图。如图4所示,该装置30包括提取模块31、识别模块32、文本匹配模块33和校验模块34。
提取模块31,用于从待对标数据表中提取原始数据信息。
可选地,该原始数据信息包括表名、字段名、以及与该字段名相对应的字段注释和采样数据。
识别模块32与提取模块31耦接,用于基于深度学习的序列标注模型对该字段注释进行识别以获取与该字段名相对应的特性词。
可选地,该识别模块32用于基于深度学习的序列标注模型对该字段注释进行识别以获取与该字段名相对应的限定词。
可选地,该序列标注模型为BILSTM+CRF模型或BERF+CRF模型。
可选地,该识别模块32还用于基于深度学习的文本分类模型对该表名和字段注释进行文本分类以获取与该字段名相对应的对象和表示词。
可选地,该文本分类模型包括对象分类模型和表示词分类模型,该识别模块32基于深度学习的文本分类模型对该表名和字段注释进行文本分类以获取与该字段名相对应的对象和表示词的操作可以为将该表名和字段注释输入至该基于深度学习的对象分类模型中以获取与该字段名相对应的对象、以及将该表名和字段注释输入至该基于深度学习的表示词分类模型中以获取与该字段名相对应的表示词。
可选地,对象分类模型为卷积神经网络、循环神经网络或BERT模型中的任意一种或几种的组合,该表示词分类模型为卷积神经网络、循环神经网络或BERT模型中的任意一种或几种的组合。
文本匹配模块33与识别模块32耦接,用于将该与字段名相对应的特性词与标准库中的标准数据元进行第一文本匹配。
可选地,文本匹配模块33将该与字段名相对应的特性词与标准库中的标准数据元进行第一文本匹配的操作可以为计算该特性词与标准库中各个标准数据元之间的第一文本相似度;将第一标准数据元集中与所述特性词之间的第一文本相似度最大的标准数据元作为第一文本匹配上的标准数据元输出,该第一标准数据元集为标准库中与该特性词之间的第一文本相似度大于预设相似度阈值的标准数据元组成的集;或者将该特性词作为第一文本未匹配上的特性词输出,该第一文本未匹配上的特性词与标准库中各个标准数据元之间的第一文本相似度均小于或等于预设相似度阈值。
可选地,该文本匹配模块33还用于将该与字段名相对应的限定词与标准库中的标准限定词进行第二文本匹配,其中,第二文本匹配后输出的结果为第二文本匹配上的标准限定词或第二文本未匹配上的限定词
可选地,该文本匹配模块33将该与字段名相对应的限定词与标准库中的标准限定词进行第二文本匹配的操作可以为计算该限定词与标准库中各个标准限定词之间的第二文本相似度;将第一标准限定词集中与该限定词之间的第二文本相似度最大的标准限定词作为第二文本匹配上的标准限定词输出,再基于该第二文本匹配上的标准限定词对该字段名进行对标;其中,该第一标准限定词集为标准库中与该限定词之间的第二文本相似度大于预设相似度阈值的标准限定词组成的集;或者将该限定词作为第二文本未匹配上的限定词输出,并将该第二文本未匹配上的限定词作为新增标准限定词添加至标准库中,其中,该第二文本未匹配上的限定词与标准库中的标准限定词之间的第二文本相似度均小于或等于预设相似度阈值。
可选地,该第一文本相似度和该第二文本相似度均基于BLEU、余弦相似度、词向量相似度、或TFIDF相似度算法中的任意一种算法计算得到。
校验模块34与文本匹配模块33耦接,用于对第一文本匹配后输出的结果进行校验,其中,该结果为第一文本匹配上的标准数据元或第一文本未匹配上的特性词。
可选地,校验模块34对第一文本匹配后输出的结果进行校验的操作可以为对该与字段名相对应的对象和表示词是否分别与第一文本匹配上的标准数据元中的对象和表示词一致进行第一判定,以及基于该采样数据是否与第一文本匹配上的标准数据元中的表示词一致进行第二判定;当该第一判定和该第二判定的结果均为一致时,基于该第一文本匹配上的标准数据元对该字段名进行对标;或者基于该采样数据是否和与该字段名相对应的表示词一致进行第三判定;当该第三判定的结果为一致时,将该与字段名相对应的对象和表示词、以及第一文本未匹配上的特性词作为新增标准数据元添加至标准库中。
请参阅图5,图5为本发明实施例的数据对标装置的第二结构示意图。如图5所示,该装置40包括处理器41及和处理器41耦接的存储器42。
存储器42存储有用于实现上述任一实施例所述的数据对标方法的程序指令。
处理器41用于执行存储器42存储的程序指令以对对待对标数据表中的对应字段进行对标。
其中,处理器41还可以称为CPU(Central Processing Unit,中央处理单元)。处理器41可能是一种集成电路芯片,具有信号的处理能力。处理器41还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
参阅图6,图6为本发明实施例的存储装置的结构示意图。本发明实施例的存储装置存储有能够实现上述所有方法的程序文件51,其中,该程序文件51可以以软件产品的形式存储在上述存储装置中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储装置包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (11)
1.一种数据对标方法,其特征在于,包括:
从待对标数据表中提取原始数据信息,所述原始数据信息包括字段名、与所述字段名相对应的字段注释、以及与所述字段名相对应的采样数据;其中,所述采样数据用于对文本匹配后输出的结果进行校验;
基于深度学习的序列标注模型对所述字段注释进行识别以获取与所述字段名相对应的特性词;
将所述与所述字段名相对应的特性词与标准库中的标准数据元进行第一文本匹配;
对第一文本匹配后输出的结果进行校验,所述结果为第一文本匹配上的标准数据元或第一文本未匹配上的特性词;
所述原始数据信息还包括表名,基于深度学习的文本分类模型对所述表名和所述字段注释进行文本分类以获取与所述字段名相对应的对象和表示词;
所述对第一文本匹配后输出的结果进行校验,包括:
对与字段名相对应的对象和表示词是否分别与第一文本匹配上的标准数据元中的对象和表示词一致进行第一判定,以及基于所述采样数据是否与第一文本匹配上的标准数据元中的表示词一致进行第二判定;
当所述第一判定和所述第二判定的结果均为一致时,基于所述第一文本匹配上的标准数据元对所述字段名进行对标;或者
基于所述采样数据是否和与所述字段名相对应的表示词一致进行第三判定;
当所述第三判定的结果为一致时,将所述与所述字段名相对应的对象和表示词、以及所述第一文本未匹配上的特性词作为新增标准数据元添加至所述标准库中。
2.根据权利要求1所述的方法,其特征在于,所述数据对标方法还包括:
基于深度学习的序列标注模型对所述字段注释进行识别以获取与所述字段名相对应的限定词;
将所述与所述字段名相对应的限定词与标准库中的标准限定词进行第二文本匹配并输出结果,所述结果为第二文本匹配上的标准限定词或第二文本未匹配上的限定词。
3.根据权利要求2所述的方法,其特征在于,所述数据对标方法还包括:
基于所述第二文本匹配上的标准限定词对所述字段名进行对标;或者
将所述第二文本未匹配上的限定词作为新增标准限定词添加至所述标准库中。
4.根据权利要求2所述的方法,其特征在于,所述“将所述与所述字段名相对应的特性词与标准库中的标准数据元进行第一文本匹配”的步骤包括:
计算所述特性词与标准库中各个标准数据元之间的第一文本相似度;
将第一标准数据元集中与所述特性词之间的第一文本相似度最大的标准数据元作为第一文本匹配上的标准数据元输出,所述第一标准数据元集为标准库中与所述特性词之间的第一文本相似度大于预设相似度阈值的标准数据元组成的集;或者将所述特性词作为第一文本未匹配上的特性词输出,所述第一文本未匹配上的特性词与标准库中各个标准数据元之间的第一文本相似度均小于或等于预设相似度阈值;以及
所述“将所述与所述字段名相对应的限定词与标准库中的标准限定词进行第二文本匹配”的步骤包括:
计算所述限定词与标准库中各个标准限定词之间的第二文本相似度;
将第一标准限定词集中与所述限定词之间的第二文本相似度最大的标准限定词作为第二文本匹配上的标准限定词输出,所述第一标准限定词集为标准库中与所述限定词之间的第二文本相似度大于预设相似度阈值的标准限定词组成的集;或者将所述限定词作为第二文本未匹配上的限定词输出,所述第二文本未匹配上的限定词与标准库中的标准限定词之间的第二文本相似度均小于或等于预设相似度阈值。
5.根据权利要求4所述的方法,其特征在于,所述第一文本相似度和所述第二文本相似度均基于BLEU、余弦相似度、词向量相似度、或TFIDF相似度算法中的任意一种算法计算得到。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述序列标注模型为BILSTM+CRF模型或BERF+CRF模型。
7.根据权利要求2所述的方法,其特征在于,所述文本分类模型包括对象分类模型和表示词分类模型,所述“基于深度学习的文本分类模型对所述表名和所述字段注释进行文本分类以获取与所述字段名相对应的对象和表示词”的步骤包括:
将所述表名和所述字段注释输入至所述基于深度学习的对象分类模型中以获取与所述字段名相对应的对象、以及将所述表名和所述字段注释输入至所述基于深度学习的表示词分类模型中以获取与所述字段名相对应的表示词。
8.根据权利要求7所述的方法,其特征在于,所述对象分类模型为卷积神经网络、循环神经网络或BERT模型中的任意一种或几种的组合,所述表示词分类模型为卷积神经网络、循环神经网络或BERT模型中的任意一种或几种的组合。
9.一种数据对标装置,其特征在于,包括:
提取模块,用于从待对标数据表中提取原始数据信息,所述原始数据信息包括字段名、与所述字段名相对应的字段注释、以及与所述字段名相对应的采样数据;其中,所述采样数据用于对文本匹配后输出的结果进行校验;
识别模块,用于基于深度学习的序列标注模型对所述字段注释进行识别以获取与所述字段名相对应的特性词;
文本匹配模块,用于将所述与所述字段名相对应的特性词与标准库中的标准数据元进行第一文本匹配;
校验模块,用于对第一文本匹配后输出的结果进行校验;
所述原始数据信息还包括表名,基于深度学习的文本分类模型对所述表名和所述字段注释进行文本分类以获取与所述字段名相对应的对象和表示词;
所述校验模块,还用于对与字段名相对应的对象和表示词是否分别与第一文本匹配上的标准数据元中的对象和表示词一致进行第一判定,以及基于所述采样数据是否与第一文本匹配上的标准数据元中的表示词一致进行第二判定;
当所述第一判定和所述第二判定的结果均为一致时,基于所述第一文本匹配上的标准数据元对所述字段名进行对标;或者
基于所述采样数据是否和与所述字段名相对应的表示词一致进行第三判定;
当所述第三判定的结果为一致时,将所述与所述字段名相对应的对象和表示词、以及所述第一文本未匹配上的特性词作为新增标准数据元添加至所述标准库中。
10.一种数据对标装置,其特征在于,所述装置包括处理器、与所述处理器耦接的存储器,其中,
所述存储器存储有用于实现如权利要求1-8中任一项所述的数据对标方法的程序指令;
所述处理器用于执行所述存储器存储的所述程序指令以对待对标数据表中的对应字段进行对标。
11.一种存储装置,其特征在于,存储有能够实现如权利要求1-8中任一项所述的数据对标方法的程序文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910985080.3A CN110795482B (zh) | 2019-10-16 | 2019-10-16 | 数据对标方法、装置、及存储装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910985080.3A CN110795482B (zh) | 2019-10-16 | 2019-10-16 | 数据对标方法、装置、及存储装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110795482A CN110795482A (zh) | 2020-02-14 |
CN110795482B true CN110795482B (zh) | 2022-11-22 |
Family
ID=69440350
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910985080.3A Active CN110795482B (zh) | 2019-10-16 | 2019-10-16 | 数据对标方法、装置、及存储装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110795482B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084302B (zh) * | 2020-08-24 | 2024-04-30 | 江苏易达捷信数字科技有限公司 | 造价文件的清单数据检测方法、系统、装置及存储介质 |
CN112035616B (zh) * | 2020-08-31 | 2024-07-16 | 深圳平安医疗健康科技服务有限公司 | 基于bert模型和规则的医保数据对码方法、装置及设备 |
CN112181949A (zh) * | 2020-10-10 | 2021-01-05 | 浪潮云信息技术股份公司 | 一种在线数据建模的方法及装置 |
CN112464640A (zh) * | 2020-10-22 | 2021-03-09 | 浙江大华技术股份有限公司 | 数据要素分析方法、装置、电子装置和存储介质 |
CN112732591B (zh) * | 2021-01-15 | 2023-04-07 | 杭州中科先进技术研究院有限公司 | 一种缓存深度学习的边缘计算架构 |
CN114840563B (zh) * | 2021-02-01 | 2024-05-03 | 腾讯科技(深圳)有限公司 | 一种字段描述信息的生成方法、装置、设备及存储介质 |
CN113407536B (zh) * | 2021-06-10 | 2024-05-31 | 平安科技(深圳)有限公司 | 表数据的关联方法、装置、终端设备及介质 |
CN113469255A (zh) * | 2021-07-05 | 2021-10-01 | 浙江大华技术股份有限公司 | 一种数据项对标的方法及装置 |
CN113626558B (zh) * | 2021-07-07 | 2022-10-25 | 厦门市美亚柏科信息股份有限公司 | 一种基于智能推荐的字段标准化的方法和系统 |
CN114579712B (zh) * | 2022-05-05 | 2022-07-15 | 中科雨辰科技有限公司 | 基于动态模型的文本属性提取匹配方法 |
CN117390170B (zh) * | 2023-12-12 | 2024-03-08 | 恩核(北京)信息技术有限公司 | 数据标准的对标方法、装置、电子设备和可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018149326A1 (zh) * | 2017-02-16 | 2018-08-23 | 阿里巴巴集团控股有限公司 | 一种自然语言问句答案的生成方法、装置及服务器 |
CN108764194A (zh) * | 2018-06-04 | 2018-11-06 | 科大讯飞股份有限公司 | 一种文本校验方法、装置、设备及可读存储介质 |
CN109766436A (zh) * | 2018-12-04 | 2019-05-17 | 北京明略软件系统有限公司 | 一种数据表的字段与知识库的数据元匹配的方法和装置 |
CN110110035A (zh) * | 2018-01-24 | 2019-08-09 | 北京京东尚科信息技术有限公司 | 数据处理方法和装置以及计算机可读存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140237342A1 (en) * | 2004-04-01 | 2014-08-21 | Google Inc. | System and method for information gathering utilizing form identifiers |
CN108091372B (zh) * | 2016-11-21 | 2021-06-18 | 医渡云(北京)技术有限公司 | 医疗字段映射校验方法及装置 |
CN106933972B (zh) * | 2017-02-14 | 2019-05-31 | 杭州数梦工场科技有限公司 | 利用自然语言处理技术定义数据元素的方法以及装置 |
CN108256074B (zh) * | 2018-01-17 | 2020-06-23 | 贝壳找房(北京)科技有限公司 | 校验处理的方法、装置、电子设备和存储介质 |
CN109299094A (zh) * | 2018-09-18 | 2019-02-01 | 深圳壹账通智能科技有限公司 | 数据表处理方法、装置、计算机设备和存储介质 |
CN109785919B (zh) * | 2018-11-30 | 2023-06-23 | 平安科技(深圳)有限公司 | 名词匹配方法、装置、设备及计算机可读存储介质 |
CN109785921A (zh) * | 2018-12-03 | 2019-05-21 | 南方医科大学南方医院 | 一种医疗数据录入方法、系统、装置和存储介质 |
CN109783611A (zh) * | 2018-12-29 | 2019-05-21 | 北京明略软件系统有限公司 | 一种字段匹配的方法、装置、计算机存储介质及终端 |
CN109871382A (zh) * | 2019-02-13 | 2019-06-11 | 北京明略软件系统有限公司 | 一种数据表接入标准库的实现方法和装置 |
-
2019
- 2019-10-16 CN CN201910985080.3A patent/CN110795482B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018149326A1 (zh) * | 2017-02-16 | 2018-08-23 | 阿里巴巴集团控股有限公司 | 一种自然语言问句答案的生成方法、装置及服务器 |
CN110110035A (zh) * | 2018-01-24 | 2019-08-09 | 北京京东尚科信息技术有限公司 | 数据处理方法和装置以及计算机可读存储介质 |
CN108764194A (zh) * | 2018-06-04 | 2018-11-06 | 科大讯飞股份有限公司 | 一种文本校验方法、装置、设备及可读存储介质 |
CN109766436A (zh) * | 2018-12-04 | 2019-05-17 | 北京明略软件系统有限公司 | 一种数据表的字段与知识库的数据元匹配的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110795482A (zh) | 2020-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110795482B (zh) | 数据对标方法、装置、及存储装置 | |
US20200081899A1 (en) | Automated database schema matching | |
CN110765770A (zh) | 一种合同自动生成方法及装置 | |
CN110704633A (zh) | 命名实体识别方法、装置、计算机设备及存储介质 | |
CN109446885B (zh) | 一种基于文本的元器件识别方法、系统、装置和存储介质 | |
WO2020000717A1 (zh) | 网页分类方法、装置及计算机可读存储介质 | |
CN104714950B (zh) | 用于对数据库中的信息进行修正及补充的方法及系统 | |
US20200133962A1 (en) | Knowledge graph generating apparatus, method, and non-transitory computer readable storage medium thereof | |
WO2022116419A1 (zh) | 域名侵权的自动化判定方法、装置、电子设备和存储介质 | |
CN107316156B (zh) | 一种数据处理方法、装置、服务器及存储介质 | |
CN109857957B (zh) | 建立标签库的方法、电子设备及计算机存储介质 | |
CN109917978B (zh) | 基于bim模型的批注对应构件显示方法、装置以及存储装置 | |
CN115827895A (zh) | 一种漏洞知识图谱处理方法、装置、设备及介质 | |
US20170109697A1 (en) | Document verification | |
CN114090671A (zh) | 数据导入方法、装置、电子设备及存储介质 | |
CN115935344A (zh) | 一种异常设备的识别方法、装置及电子设备 | |
CN111967261A (zh) | 癌症分期信息处理方法、装置及存储介质 | |
CN114240568A (zh) | 关联产品的推荐方法和推荐装置 | |
CN112287936A (zh) | 光学字符识别测试方法、装置、可读存储介质及终端设备 | |
CN110414579A (zh) | 元数据模型合标性检查方法及装置、存储介质 | |
CN111414519A (zh) | 一种信息处理方法、装置、计算机系统及可读存储介质 | |
CN112541357B (zh) | 实体识别方法、装置及智能设备 | |
CN115294593A (zh) | 一种图像信息抽取方法、装置、计算机设备及存储介质 | |
CN114154480A (zh) | 信息提取方法、装置、设备和存储介质 | |
EP3680842A1 (en) | Automated extraction of performance segments and metadata values associated with the performance segments from contract documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |