CN116975167A - 基于加权Jaccard系数的元数据分级方法及系统 - Google Patents
基于加权Jaccard系数的元数据分级方法及系统 Download PDFInfo
- Publication number
- CN116975167A CN116975167A CN202311211533.XA CN202311211533A CN116975167A CN 116975167 A CN116975167 A CN 116975167A CN 202311211533 A CN202311211533 A CN 202311211533A CN 116975167 A CN116975167 A CN 116975167A
- Authority
- CN
- China
- Prior art keywords
- metadata
- word
- word set
- subset
- comprehensive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012545 processing Methods 0.000 claims abstract description 65
- 230000011218 segmentation Effects 0.000 claims abstract description 49
- 238000004140 cleaning Methods 0.000 claims description 11
- 230000008859 change Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000013519 translation Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims 1
- 238000002372 labelling Methods 0.000 abstract description 5
- 238000012549 training Methods 0.000 abstract description 2
- 230000000295 complement effect Effects 0.000 abstract 1
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 4
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及基于加权Jaccard系数的元数据分级方法及系统,属于元数据处理技术领域,所述方法包括:获取待分级的元数据;对待分级的元数据进行分词处理,生成包括多个子集的综合词集合,对待分级的元数据的对应的分级标准进行分词处理得到包括多个子集的企业分级标准词集合,获取综合词集合与企业分级标准词集合中相同类型子集之间的加权Jaccard系数,基于Jaccard系数获取待分级的元数据的等级。本申请提供的方法及系统,充分考虑2元组、3元组、4元组情况,对低字元组词进行补充匹配,提高匹配成功率,具有较强的可迁移性,无需模型训练和提前标注样本,即可对数据库数据表字段进行分级分类,可减少人工操作的时间和成本。
Description
技术领域
本发明涉及元数据处理技术领域,尤其涉及一种基于加权Jaccard系数的元数据分级方法及系统。
背景技术
在当前的互联网时代,数据被视为企业、组织和各行各业的核心资产之一,是企业经营决策的重要依据,但随着技术的发展进步数据泄露和黑客攻击越来越频繁,对数据的安全保护要求也越来越高。数据库是存储和管理数据的关键工具,对数据库的数据表字段进行分级分类,可以根据不同的级别设置不同的管理和操作权限,从而提高数据的安全性和保密性,为企业和组织的发展和进步提供了有效的保障。
目前对数据库元数据进行分级的方法主要有人工标注法、模型预测法等,人工标注通过手动标记每个字段的敏感程度,将其分为不同的级别,但是,这种方法代价昂贵、费时费力,且可能存在主观性;模型预测法使用机器学习算法来训练模型,然后预测每个字段级别,但是构建模型需要大量的数据集、计算资源和时间,并且迁移到在其他企业的数据分级场景的成本较高,还需要进行相应的领域内知识训练。
发明内容
本发明意在提供一种基于加权Jaccard系数的元数据分级方法及系统,以解决现有技术中存在的不足,本发明要解决的技术问题通过以下技术方案来实现。
本发明提供的基于加权Jaccard系数的元数据分级方法,包括:
分别采集存量元数据和增量元数据,并对获取的存量元数据和增量元数据进行整合,形成待分级的元数据;
判断待分级的元数据是否存在中文字段和中文描述,对中文字段和中文描述进行N-Gram分词处理,对于缺失中文信息的待分级的元数据,将其翻译成中文字段和中文描述,对经过翻译处理的元数据进行N-Gram分词处理,形成元数据对应的综合词集合,并对形成的综合词集合进行清洗处理,其中,综合词集合包括2字词子集、3字词子集和4字词子集,且每个子集分别包括一个或多个元素;
对待分级的元数据对应的不同的分级标准进行N-Gram分词处理分别得到不同的分级标准分别对应的企业分级标准词集合,其中,企业分级标准词集合包括2字词子集、3字词子集和4字词子集;
对综合词集合中的子集中的元素分别分配不同的位置权重,获取综合词集合与企业分级标准词集合中相同类型子集之间的交集和并集,并获取交集中的所有元素以及并集中元素的个数,并对交集中的所有元素各自对应的位置权重进行求和处理,基于求和处理结果获取综合词集合与企业分级标准词集合中相同类型子集之间的Jaccard系数;
从综合词集合与企业分级标准词集合中4字词子集之间的Jaccard系数开始判断,在综合词集合与企业分级标准词集合中4字词子集之间的Jaccard系数不全为0时,将最大的Jaccard系数对应的企业分级标准词集合的分级标准的级别作为元数据的等级;
在综合词集合与企业分级标准词集合中4字词子集之间的Jaccard系数全为0时,判断综合词集合与企业分级标准词集合中3字词子集之间的Jaccard系数是否全为0,重复以上步骤,获取待分级的元数据的等级。
在上述的方案中,在判断综合词集合与企业分级标准词集合中相同类型子集之间的Jaccard系数均全为0时,则将待分级的元数据写入文件中,进行人工核查分级。
在上述的方案中,通过执行SQL语句或采用数据库工具连接到数据库上,获取数据库中存量元数据。
在上述的方案中,通过监听数据库变更事件来采集增量元数据。
在上述的方案中,所述数据库变更事件包括增加表、列元素或修改表、列元素。
在上述的方案中,通过非空判断、字符长度阈值判断或正则匹配判断待分级的元数据是否存在中文字段和中文描述。
在上述的方案中,对形成的综合词集合进行清洗处理包括:
对形成的综合词集合进行停用词过滤,并将经过停用词过滤处理后的综合词集合中子集中的专有名词以及数据术语通过内部知识库匹配方式进行合并和标注。
在上述的方案中,位置权重的公式为:ωi=ki,其中,i为综合词集合中子集中的元素在综合词集合中位置顺序,i=1,2,3,...n,n为位置顺序的总数,ωi为在综合词集合中的位置顺序为i的子集中的元素的位置权重,k为大于 1 的常数。
在上述的方案中,Jaccard系数公式为:
;
其中,综合词集合中的子集X和企业分级标准词集合中的子集Y,Xh∩Yh为子集X和子集Y的交集,h为交集中元素在交集中的位置序号,h=1,2,……n,n为交集中元素的总个数,∣Xh∩Yh∣表示在交集中的位置序号为h的元素的个数,其值为1,∣X∪Y∣为子集X和子集Y的并集中的元素个数,j为子集X和子集Y的交集中元素在综合词集合中的位置顺序,ωj为子集X和子集Y的交集中元素对应的位置权重,∑ωj∣Xh∩Yh∣表示对子集X和子集Y的交集中元素对应的位置权重进行求和。
本发明提供的基于加权Jaccard系数的元数据分级系统,采用如上所述的基于加权Jaccard系数的元数据分级方法进行元数据分级,包括:
元数据采集模块,用于分别采集存量元数据和增量元数据,并对获取的存量元数据和增量元数据进行整合,形成待分级的元数据;
综合词集合形成模块,用于判断待分级的元数据是否存在中文字段和中文描述,对中文字段和中文描述进行N-Gram分词处理,对于缺失中文信息的待分级的元数据,将其翻译成中文字段和中文描述,对经过翻译处理的元数据进行N-Gram分词处理,形成元数据对应的综合词集合,并对形成的综合词集合进行清洗处理,其中,综合词集合包括2字词子集、3字词子集和4字词子集,且每个子集分别包括一个或多个元素;
企业分级标准词集合形成模块,用于对待分级的元数据对应的不同的分级标准进行N-Gram分词处理分别得到不同的分级标准分别对应的企业分级标准词集合,其中,企业分级标准词集合包括2字词子集、3字词子集和4字词子集;
Jaccard系数获取模块,用于对综合词集合中的子集中的元素分别分配不同的位置权重,获取综合词集合与企业分级标准词集合中相同类型子集之间的交集和并集,并获取交集中的所有元素以及并集中元素的个数,并对交集中的所有元素各自对应的位置权重进行求和处理,基于求和处理结果获取综合词集合与企业分级标准词集合中相同类型子集之间的Jaccard系数;
元数据等级获取模块,从综合词集合与企业分级标准词集合中4字词子集之间的Jaccard系数开始判断,在综合词集合与企业分级标准词集合中4字词子集之间的Jaccard系数不全为0时,将最大的Jaccard系数对应的企业分级标准词集合的分级标准的级别作为元数据的等级,在综合词集合与企业分级标准词集合中4字词子集之间的Jaccard系数全为0时,判断综合词集合与企业分级标准词集合中3字词子集之间的Jaccard系数是否全为0,重复判断,获取待分级的元数据的等级;
人工核查模块,在判断综合词集合与企业分级标准词集合中相同类型子集之间的Jaccard系数均全为0时,则将待分级的元数据写入文件中,进行人工核查分级。
本发明实施例包括以下优点:
本发明实施例提供的基于加权Jaccard系数的元数据分级方法及系统,分别采集存量元数据和增量元数据,并对获取的存量元数据和增量元数据进行整合,形成待分级的元数据,然后对待分级的元数据进行分词处理,生成包含2字词子集、3字词子集和4字词子集的综合词集合,对综合词集合中各个子集中的元素分别分配不同的位置权重,并对待分级的元数据对应的分级标准进行分词处理后得到包含2字词子集、3字词子集和4字词子集的企业分级标准词集合,获取综合词集合中子集与对应的企业分级标准词集合中子集之间的Jaccard系数,最后基于Jaccard系数形成的元数据的等级,能充分考虑中心词,相较于用一般Jaccard系数更合理,且进行分词处理时,不仅仅局限于某一元组的分词,充分考虑2元组、3元组、4元组情况,优先匹配多字元组词使得匹配的结果更准确,同时对低字元组词进行补充匹配,提高匹配成功率,具有较强的可迁移性,无需模型训练和提前标注样本,即可对数据库数据表字段进行分级分类,可减少人工操作的时间和成本,帮助企业和组织更好地管理和利用数据。
附图说明
图1是本发明的一个实施例中一种基于加权Jaccard系数的元数据分级方法的流程图;
图2是本发明的一个实施例中采集元数据的流程图;
图3是本发明的一个实施例中形成综合词集合的流程图;
图4是本发明的一个实施例中获取Jaccard系数的流程图;
图5是本发明的一个实施例中获取元数据的等级的流程图;
图6是本发明的另一个实施例中一种基于加权Jaccard系数的元数据分级系统的组成示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
如图1所示,本发明的提供一种基于加权Jaccard系数的元数据分级方法,包括以下步骤:
步骤S1:执行SQL语句,获取数据库中存量元数据或采用如MySQL Workbench、Oracle SQL Developer等的专业的数据库工具,直接连接到数据库上,自动获取存量元数据,并监听包括增加或修改表、列等元素等的数据库变更事件来采集增量元数据,对获取的存量元数据和增量元数据进行整合,形成待分级的元数据,具体可参阅图2,其中,本实施例中的存量元数据为当前时刻数据库中已经存在的数据表的元数据,数据库中已经存在的数据表的元数据包括数据表名、字段、存储位置、描述信息等,实施例中的增量元数据为增改数据库中表的元数据,其包括数据表名、字段、存储位置、描述信息等。
在本发明的一个实施例中,执行SQL语句,将information_schema.TABLES和information_schema.COLUMNS 进行内连接,再执行查询可以获得数据库中存量元数据。
在本发明的一个实施例中,增量元数据为涉及表结构变动的DDL语句,其包括如CREATE语句、ALTER语句、DROP语句等,具体地,使用FlinkCDC订阅MySQL的binlog日志,所述binlog日志中具有包括增加或修改表、列等元素等数据库变更事件,并对MySQL的binlog日志进行过滤,获取涉及表结构变动的DDL语句。
步骤S2:通过非空判断、字符长度阈值判断、正则匹配等方法判别上述形成的待分级的元数据是否存在中文字段和中文描述,对中文字段和中文描述进行N=2、3和4的N-Gram分词处理,对于缺失中文信息的待分级的元数据,则调用机器翻译API将英文字段和英文描述翻译成中文字段和中文描述,再对翻译形成的中文字段和中文描述进行N=2、3和4的N-Gram分词处理,形成元数据对应的综合词集合,其中综合词集合包括2字词子集、3字词子集和4字词子集,且2字词子集、3字词子集和4字词子集分别包括一个或多个元素,对形成的综合词集合进行清洗处理,具体可参阅图3,其中,清洗处理的过程包括对形成的综合词集合进行停用词过滤,并将经过停用词过滤处理后的综合词集合中子集中的专有名词、数据术语等通过内部知识库匹配等方式进行合并和标注。
在本发明的实施例中,在进行N-Gram分词处理过程中,对于中文信息缺失或者字数太少质量不高的元数据对应的数据字段,调用机器翻译API将英文字段和英文描述翻译成中文字段和中文描述,可提高匹配成功率。
在本发明的一个实施例中,在N的选择上选取2、3和4,经过N-Gram分词处理后得到的综合词集合包括2字词子集、3字词子集和4字词子集,例如元数据对应的字段为”ABCDEF”,采用顺序切分经过N=2、3和4的N-Gram分词处理后得到的综合词集合为{{AB,CD,EF},{ABC,DEF},{ABCD}},其中,2字词子集为{AB,CD,EF},2字词子集中的元素为AB、CD和EF;3字词子集为{ABC,DEF},3字词子集中的元素为ABC和DEF;4字词子集为{ABCD},4字词子集中的元素为ABCD,此外,还可采用jieba分词库进行N-Gram分词处理,例如,元数据对应的字段为”ABCD”时,采用jieba分词库进行2-Gram分词处理后,得到的2字词子集可能为{AB,BC,CD}。
在本发明的另一个实施例中,元数据对应的字段为“用户姓名”,采用顺序切分,经过N=2、3和4的N-Gram分词处理后得到的综合词集合为{{用户,姓名},{用户姓},{用户姓名}},其中,2字词子集为{用户,姓名},2字词子集中的元素为用户和姓名;3字词子集为{用户姓},3字词子集中的元素为用户姓;4字词子集为{用户姓名},4字词子集中的元素为用户姓名。
步骤S3:对待分级的元数据对应的不同的分级标准进行N=2、3和4的N-Gram分词处理后分别得到不同的分级标准分别对应的企业分级标准词集合,其中,企业分级标准词集合包括2字词子集、3字词子集和4字词子集。
在本发明的另一个实施例中,采用的分级标准包括1级分级标准、2级分级标准和3级分级标准,待分级的元数据对应的字段为“用户手机”,待分级的元数据对应的1级分级标准为“用户联系方式用户手机号用户邮箱”,待分级的元数据对应的2级分级标准为“用户地理位置经度纬度”,待分级的元数据对应的3级分级标准为“用户密码认证信息”。
在本发明的一个实施例中,待分级的元数据对应的2级分级标准为“用户姓名性别爱好”,对待分级的元数据对应的2级分级标准进行N=2、3和4的N-Gram分词处理后得到的企业分级标准词集合为{{用户,姓名,性别,爱好},{用户姓,名性别},{用户姓名,性别爱好}},其中,2字词子集为{用户,姓名,性别,爱好},2字词子集中的元素为用户、姓名、性别和爱好;3字词子集为{用户姓,名性别},3字词子集中的元素为用户姓和名性别;4字词子集为{用户姓名,性别爱好},4字词子集中的元素为用户姓名和性别爱好。
步骤S4:对经过清洗处理的综合词集合中的子集中的元素分别分配不同的位置权重,分别获取综合词集合中2字词子集与企业分级标准词集合中2字词子集之间的交集和并集、综合词集合中3字词子集与企业分级标准词集合中3字词子集之间的交集和并集、获取综合词集合中4字词子集与企业分级标准词集合中4字词子集之间的交集和并集,并获取交集中的所有元素以及并集中元素的个数,并对交集中的所有元素各自对应的位置权重进行求和处理,基于求和处理结果获取综合词集合中子集与对应的企业分级标准词集合中子集之间的Jaccard系数,具体可参阅图4。
具体地,分别获取综合词集合中2字词子集与对待分级的元数据对应的不同分级标准进行分词处理后分别得到的企业分级标准词集合中的2字词子集之间的交集和并集;分别获取综合词集合中3字词子集与对待分级的元数据对应不同进行分词处理后分别得到的企业分级标准词集合中3字词子集之间的交集和并集;分别获取综合词集合中4字词子集与对待分级的元数据对应的不同进行分词处理后分别得到的企业分级标准词集合中的3字词子集之间的交集和并集。
具体地,由于在数据库表命名习惯,一般的重心词在末尾,句子前面的词主要是修饰词,比如“客户号码”和“客户名称”,中心词应该为“号码”和“名称”,“客户名称”对应的A级分级标准为“客户”,可能对应的B级分级标准为“名称”,基于此问题,给综合词集合中的2字词子集、3字词子集和4字词子集中的各个元素分别分配不同权重,位置权重的公式为:ωi=ki, i为综合词集合中的子集中的某一元素在综合词集合中位置顺序,i=1,2,3,...n,n为位置顺序的总数,ωi为在综合词集合中的位置顺序为i的子集中的元素的位置权重,k为一个大于 1 的常数,用于控制位置权重随位置递增的速度,这样设计位置权重的公式可以保证子集在综合词集合中的顺序越靠后,其对应的权重也越大,同时,由于使用了指数函数,权重增长速度会越来越快,可以避免权重过于平均或集中在少数子集的情况。
具体地,获取Jaccard系数的具体公式如下:
;
其中,综合词集合中的子集X和企业分级标准词集合中的子集Y,Xh∩Yh为子集X和子集Y的交集,h为交集中元素在交集中的位置序号,h=1,2,……n,n为交集中元素的总个数,∣Xh∩Yh∣表示在交集中的位置序号为h的元素的个数,其值为1,∣X∪Y∣为子集X和子集Y的并集中的元素个数,j为子集X和子集Y的交集中元素在综合词集合中的位置顺序,ωj为子集X和子集Y的交集中元素对应的位置权重,∑ωj∣Xh∩Yh∣表示对子集X和子集Y的交集中元素对应的位置权重进行求和。
在本发明的一个实施例中,待分级的元数据对应的字段为“用户姓名”,元数据对应的综合词集合为{{用户,姓名},{用户姓},{用户姓名}},其中,2字词子集为{用户,姓名},3字词子集为{用户姓},4字词子集为{用户姓名};该待分级的元数据对应的2级分级标准为“用户姓名性别爱好”,其对应的企业分级标准词集合为{{用户,姓名,性别,爱好},{用户姓,名性别},{用户姓名,性别爱好}},其中,2字词子集为{用户,姓名,性别,爱好},3字词子集为{用户姓,名性别},4字词子集为{用户姓名,性别爱好},4字词子集中的元素为用户姓名和性别爱好,则综合词集合中2字词子集与通过2级分级标准进行分词处理得到的企业分级标准词集合中的2字词子集之间的交集为{用户,姓名},并集为{用户,姓名,性别,爱好},则并集中的元素个数为4,交集中元素“用户”对应的位置权重为k,交集中元素“姓名”对应的位置权重为k2,从而,综合词集合中2字词子集与通过2级分级标准进行分词处理得到的企业分级标准词集合中的2字词子集之间的Jaccard系数为J=(k×1+k2×1)/4。
步骤S5:由于更多字的子集可以更精确地表达文本含义,包含更多的信息,在语料库中出现的频率相对较低,因此在元数据的分级过程中优先判断综合词集合中4字词子集与企业分级标准词集合中4字词子集之间的Jaccard系数,若综合词集合中4字词子集与对不同的分级标准进行分词处理后得到的企业分级标准词集合中的4字词子集之间的Jaccard系数非零,则将最大的4字词子集之间的Jaccard系数对应的分级标准的级别作为待分级的元数据的等级;若综合词集合中4字词子集与对任一个分级标准进行分词处理后得到的企业分级标准词集合中的4字词子集之间的Jaccard系数均为零,则判断综合词集合中3字词子集与企业分级标准词集合中3字词子集之间的Jaccard系数,若综合词集合中3字词子集与对不同的分级标准进行分词处理后得到的企业分级标准词集合中的3字词子集之间的Jaccard系数非零,则将最大的3字词子集之间的Jaccard系数对应的分级标准的级别作为待分级的元数据的等级;若综合词集合中3字词子集与对任一个分级标准进行分词处理后得到的企业分级标准词集合中的3字词子集之间的Jaccard系数均为零,则判断综合词集合中2字词子集与企业分级标准词集合中2字词子集之间的Jaccard系数,若综合词集合中2字词子集与对不同的分级标准进行分词处理后得到的企业分级标准词集合中的2字词子集之间的Jaccard系数非零,则将最大的2字词子集之间的Jaccard系数对应的分级标准的级别作为待分级的元数据的等级;若综合词集合中2字词子集与对任一个分级标准进行分词处理后得到的企业分级标准词集合中的2字词子集之间的Jaccard系数均为零,则将待分级的元数据写入文件中,进行人工核查分级,具体可参阅图5。
在本发明的一个实施例中,待分级的元数据对应的字段为“用户手机号” ,其对应的1级分级标准为“用户手机号身份证”,其对应的2级分级标准为“用户地理位置”,其对应的3级分级标准为“用户密码”,对待分级的元数据对应的1级分级标准进行分词处理后得到第一企业分级标准词集合,对待分级的元数据对应的2级分级标准进行分词处理后得到第二企业分级标准词集合,对待分级的元数据对应的3级分级标准进行分词处理后得到第三企业分级标准词集合,该待分级的元数据的综合词集合中4字词子集与第一企业分级标准词集合中的4字词子集之间的Jaccard系数为0.9,该待分级的元数据的综合词集合中4字词子集与第二企业分级标准词集合中的4字词子集之间的Jaccard系数为0.2,该待分级的元数据的综合词集合中4字词子集与第三企业分级标准词集合中的4字词子集之间的Jaccard系数为0,则Jaccard系数最大时对应的分级标准的级别作为该待分级的元数据的等级,即该待分级的元数据的等级为1级。
如图6所示,本发明的另一个实施例中提供一种基于加权Jaccard系数的元数据分级系统,包括:
元数据采集模块,用于执行SQL语句,获取数据库中存量元数据或采用如MySQLWorkbench、Oracle SQL Developer等的专业的数据库工具,直接连接到数据库上,自动获取存量元数据,并监听包括增加或修改表、列等元素等的数据库变更事件来采集增量元数据,对获取的存量元数据和增量元数据进行整合,形成待分级的元数据;
综合词集合形成模块,用于通过非空判断、字符长度阈值判断、正则匹配等方法判别上述形成的待分级的元数据是否存在中文字段和中文描述,对中文字段和中文描述进行N=2、3和4的N-Gram分词处理,对于缺失中文信息的待分级的元数据,则调用机器翻译API将英文字段和英文描述翻译成中文字段和中文描述,再对翻译形成的中文字段和中文描述进行N=2、3和4的N-Gram分词处理,形成元数据对应的综合词集合,其中综合词集合包括2字词子集、3字词子集和4字词子集,且2字词子集、3字词子集和4字词子集分别包括一个或多个元素,对形成的综合词集合进行清洗处理;
企业分级标准词集合形成模块,用于对待分级的元数据对应的不同的分级标准进行N=2、3和4的N-Gram分词处理分别得到不同的分级标准分别对应的企业分级标准词集合;
Jaccard系数获取模块,用于对经过清洗处理的综合词集合中的子集中的元素分别分配不同的位置权重,分别获取综合词集合中2字词子集与企业分级标准词集合中2字词子集之间的交集和并集、综合词集合中3字词子集与企业分级标准词集合中3字词子集之间的交集和并集、获取综合词集合中4字词子集与企业分级标准词集合中4字词子集之间的交集和并集,并获取交集中的所有元素以及并集中元素的个数,并对交集中的所有元素各自对应的位置权重进行求和处理,基于求和处理结果获取综合词集合中子集与对应的企业分级标准词集合中子集之间的Jaccard系数;
元数据等级获取模块,用于优先判断综合词集合中4字词子集与企业分级标准词集合中4字词子集之间的Jaccard系数,若综合词集合中4字词子集与对不同的分级标准进行分词处理后得到的企业分级标准词集合中的4字词子集之间的Jaccard系数非零,则将最大的4字词子集之间的Jaccard系数对应的分级标准的级别作为待分级的元数据的等级;若综合词集合中4字词子集与对任一个分级标准进行分词处理后得到的企业分级标准词集合中的4字词子集之间的Jaccard系数均为零,则判断综合词集合中3字词子集与企业分级标准词集合中3字词子集之间的Jaccard系数,若综合词集合中3字词子集与与对不同的分级标准进行分词处理后得到的企业分级标准词集合中的3字词子集之间的Jaccard系数非零,则将最大的3字词子集之间的Jaccard系数对应的分级标准的级别作为待分级的元数据的等级;若综合词集合中3字词子集与对任一个分级标准进行分词处理后得到的企业分级标准词集合中的3字词子集之间的Jaccard系数均为零,则判断综合词集合中2字词子集与企业分级标准词集合中2字词子集之间的Jaccard系数,若综合词集合中2字词子集与与对不同的分级标准进行分词处理后得到的企业分级标准词集合中的2字词子集之间的Jaccard系数非零,则将最大的2字词子集之间的Jaccard系数对应的分级标准的级别作为待分级的元数据的等级;若综合词集合中2字词子集与对任一个分级标准进行分词处理后得到的企业分级标准词集合中的2字词子集之间的Jaccard系数均为零,则进入人工核查模块;
人工核查模块,用于在判断综合词集合与企业分级标准词集合中相同类型子集之间的Jaccard系数均全为0时,将待分级的元数据写入文件中,进行人工核查分级。
应该指出,上述详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语均具有与本申请所属技术领域的普通技术人员的通常理解所相同的含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式。此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便这里描述的本申请的实施方式能够以除了在这里图示或描述的那些以外的顺序实施。
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于描述,在这里可以使用空间相对术语,如“在……之上”、“在……上方”、“在……上表面”、“上面的”等,用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是,空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如,如果附图中的器件被倒置,则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其他器件或构造之下”。因而,示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位,如旋转90度或处于其他方位,并且对这里所使用的空间相对描述作出相应解释。
在上面详细的说明中,参考了附图,附图形成本文的一部分。在附图中,类似的符号典型地确定类似的部件,除非上下文以其他方式指明。在详细的说明书、附图及权利要求书中所描述的图示说明的实施方案不意味是限制性的。在不脱离本文所呈现的主题的精神或范围下,其他实施方案可以被使用,并且可以作其他改变。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于加权Jaccard系数的元数据分级方法,其特征在于,所述方法包括:
分别采集存量元数据和增量元数据,并对获取的存量元数据和增量元数据进行整合,形成待分级的元数据;
判断待分级的元数据是否存在中文字段和中文描述,对中文字段和中文描述进行N-Gram分词处理,对于缺失中文信息的待分级的元数据,将其翻译成中文字段和中文描述,对经过翻译处理的元数据进行N-Gram分词处理,形成元数据对应的综合词集合,并对形成的综合词集合进行清洗处理,其中,综合词集合包括2字词子集、3字词子集和4字词子集,且每个子集分别包括一个或多个元素;
对待分级的元数据对应的不同的分级标准进行N-Gram分词处理分别得到不同的分级标准分别对应的企业分级标准词集合,其中,企业分级标准词集合包括2字词子集、3字词子集和4字词子集;
对综合词集合中的子集中的元素分别分配不同的位置权重,获取综合词集合与企业分级标准词集合中相同类型子集之间的交集和并集,并获取交集中的所有元素以及并集中元素的个数,并对交集中的所有元素各自对应的位置权重进行求和处理,基于求和处理结果获取综合词集合与企业分级标准词集合中相同类型子集之间的Jaccard系数;
从综合词集合与企业分级标准词集合中4字词子集之间的Jaccard系数开始判断,在综合词集合与企业分级标准词集合中4字词子集之间的Jaccard系数不全为0时,将最大的Jaccard系数对应的企业分级标准词集合的分级标准的级别作为元数据的等级;
在综合词集合与企业分级标准词集合中4字词子集之间的Jaccard系数全为0时,判断综合词集合与企业分级标准词集合中3字词子集之间的Jaccard系数是否全为0,重复以上步骤,获取待分级的元数据的等级。
2.根据权利要求1所述的基于加权Jaccard系数的元数据分级方法,其特征在于,在判断综合词集合与企业分级标准词集合中相同类型子集之间的Jaccard系数均全为0时,则将待分级的元数据写入文件中,进行人工核查分级。
3.根据权利要求1所述的基于加权Jaccard系数的元数据分级方法,其特征在于,通过执行SQL语句或采用数据库工具连接到数据库上,获取数据库中存量元数据。
4.根据权利要求1所述的基于加权Jaccard系数的元数据分级方法,其特征在于,通过监听数据库变更事件来采集增量元数据。
5.根据权利要求4所述的基于加权Jaccard系数的元数据分级方法,其特征在于,所述数据库变更事件包括增加表、列元素或修改表、列元素。
6.根据权利要求1所述的基于加权Jaccard系数的元数据分级方法,其特征在于,通过非空判断、字符长度阈值判断或正则匹配判断待分级的元数据是否存在中文字段和中文描述。
7.根据权利要求1所述的基于加权Jaccard系数的元数据分级方法,其特征在于,对形成的综合词集合进行清洗处理包括:
对形成的综合词集合进行停用词过滤,并将经过停用词过滤处理后的综合词集合中子集中的专有名词以及数据术语通过内部知识库匹配方式进行合并和标注。
8.根据权利要求1所述的基于加权Jaccard系数的元数据分级方法,其特征在于,位置权重的公式为:ωi=ki,其中,i为综合词集合中子集中的元素在综合词集合中位置顺序,i=1,2,3,...n,n为位置顺序的总数,ωi为在综合词集合中的位置顺序为i的子集中的元素的位置权重,k为大于 1 的常数。
9.根据权利要求1所述的基于加权Jaccard系数的元数据分级方法,其特征在于,Jaccard系数公式为:
;
其中,综合词集合中的子集X和企业分级标准词集合中的子集Y,Xh∩Yh为子集X和子集Y的交集,h为交集中元素在交集中的位置序号,h=1,2,……n,n为交集中元素的总个数,∣Xh∩Yh∣表示在交集中的位置序号为h的元素的个数,其值为1,∣X∪Y∣为子集X和子集Y的并集中的元素个数,j为子集X和子集Y的交集中元素在综合词集合中的位置顺序,ωj为子集X和子集Y的交集中元素对应的位置权重,∑ωj∣Xh∩Yh∣表示对子集X和子集Y的交集中元素对应的位置权重进行求和。
10.一种基于加权Jaccard系数的元数据分级系统,采用如权利要求1-9任一项所述的基于加权Jaccard系数的元数据分级方法进行元数据分级,其特征在于,所述系统包括:
元数据采集模块,用于分别采集存量元数据和增量元数据,并对获取的存量元数据和增量元数据进行整合,形成待分级的元数据;
综合词集合形成模块,用于判断待分级的元数据是否存在中文字段和中文描述,对中文字段和中文描述进行N-Gram分词处理,对于缺失中文信息的待分级的元数据,将其翻译成中文字段和中文描述,对经过翻译处理的元数据进行N-Gram分词处理,形成元数据对应的综合词集合,并对形成的综合词集合进行清洗处理,其中,综合词集合包括2字词子集、3字词子集和4字词子集,且每个子集分别包括一个或多个元素;
企业分级标准词集合形成模块,用于对待分级的元数据对应的不同的分级标准进行N-Gram分词处理分别得到不同的分级标准分别对应的企业分级标准词集合,其中,企业分级标准词集合包括2字词子集、3字词子集和4字词子集;
Jaccard系数获取模块,用于对综合词集合中的子集中的元素分别分配不同的位置权重,获取综合词集合与企业分级标准词集合中相同类型子集之间的交集和并集,并获取交集中的所有元素以及并集中元素的个数,并对交集中的所有元素各自对应的位置权重进行求和处理,基于求和处理结果获取综合词集合与企业分级标准词集合中相同类型子集之间的Jaccard系数;
元数据等级获取模块,从综合词集合与企业分级标准词集合中4字词子集之间的Jaccard系数开始判断,在综合词集合与企业分级标准词集合中4字词子集之间的Jaccard系数不全为0时,将最大的Jaccard系数对应的企业分级标准词集合的分级标准的级别作为元数据的等级,在综合词集合与企业分级标准词集合中4字词子集之间的Jaccard系数全为0时,判断综合词集合与企业分级标准词集合中3字词子集之间的Jaccard系数是否全为0,重复判断,获取待分级的元数据的等级;
人工核查模块,在判断综合词集合与企业分级标准词集合中相同类型子集之间的Jaccard系数均全为0时,则将待分级的元数据写入文件中,进行人工核查分级。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311211533.XA CN116975167B (zh) | 2023-09-20 | 2023-09-20 | 基于加权Jaccard系数的元数据分级方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311211533.XA CN116975167B (zh) | 2023-09-20 | 2023-09-20 | 基于加权Jaccard系数的元数据分级方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116975167A true CN116975167A (zh) | 2023-10-31 |
CN116975167B CN116975167B (zh) | 2024-02-27 |
Family
ID=88485219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311211533.XA Active CN116975167B (zh) | 2023-09-20 | 2023-09-20 | 基于加权Jaccard系数的元数据分级方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116975167B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150227505A1 (en) * | 2012-08-27 | 2015-08-13 | Hitachi, Ltd. | Word meaning relationship extraction device |
CN116484126A (zh) * | 2022-01-14 | 2023-07-25 | 微软技术许可有限责任公司 | 网页中的列表提取和可视化 |
CN116521865A (zh) * | 2023-03-31 | 2023-08-01 | 广东南方财经控股有限公司 | 一种基于自动识别技术的元数据分类方法、存储介质及系统 |
-
2023
- 2023-09-20 CN CN202311211533.XA patent/CN116975167B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150227505A1 (en) * | 2012-08-27 | 2015-08-13 | Hitachi, Ltd. | Word meaning relationship extraction device |
CN116484126A (zh) * | 2022-01-14 | 2023-07-25 | 微软技术许可有限责任公司 | 网页中的列表提取和可视化 |
CN116521865A (zh) * | 2023-03-31 | 2023-08-01 | 广东南方财经控股有限公司 | 一种基于自动识别技术的元数据分类方法、存储介质及系统 |
Non-Patent Citations (2)
Title |
---|
MURIEL FOULONNEAU: "Information redundancy across metadata collections", SCIENCEDIRECT, vol. 43, no. 3, pages 740 - 751, XP005863828, DOI: 10.1016/j.ipm.2006.06.004 * |
王常武;韩菁华;张付志;: "一种相似重复元数据记录检测方法", 计算机工程, vol. 35, no. 21, pages 85 - 87 * |
Also Published As
Publication number | Publication date |
---|---|
CN116975167B (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107204184B (zh) | 语音识别方法及系统 | |
CN106250513B (zh) | 一种基于事件建模的事件个性化分类方法及系统 | |
US20170235813A1 (en) | Methods and systems for modeling complex taxonomies with natural language understanding | |
US8386240B2 (en) | Domain dictionary creation by detection of new topic words using divergence value comparison | |
US8239189B2 (en) | Method and system for estimating a sentiment for an entity | |
WO2019024496A1 (zh) | 企业推荐方法及应用服务器 | |
CN106599160B (zh) | 一种内容规则库管理系统及其编码方法 | |
CN110597962B (zh) | 搜索结果展示方法、装置、介质及电子设备 | |
CN112749284A (zh) | 知识图谱构建方法、装置、设备及存储介质 | |
US11068479B2 (en) | Method and system for analytic based connections among user types in an online platform | |
CN109101551B (zh) | 一种问答知识库的构建方法及装置 | |
CN101853311A (zh) | 一种法律服务方法及系统 | |
CN110188291B (zh) | 基于代理日志的文档处理 | |
CN110334343B (zh) | 一种合同中个人隐私信息抽取的方法和系统 | |
US20240160642A1 (en) | Systems and methods for categorization of ingested database entries to determine topic frequency | |
CN110941702A (zh) | 一种法律法规和法条的检索方法及装置、可读存储介质 | |
US9886480B2 (en) | Managing credibility for a question answering system | |
CN101203847A (zh) | 用于管理列表的系统和方法 | |
CN111666425A (zh) | 基于语义知识的汽配件搜索方法 | |
CN116797195A (zh) | 工单处理方法、装置、计算机设备和计算机可读存储介质 | |
CN106294398A (zh) | 信息处理装置和信息处理方法 | |
CN114595689A (zh) | 数据处理方法、装置、存储介质和计算机设备 | |
CN111488453B (zh) | 资源分级方法、装置、设备及存储介质 | |
CN113326363B (zh) | 搜索方法及装置、预测模型训练方法及装置、电子设备 | |
US20230142351A1 (en) | Methods and systems for searching and retrieving information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |