CN115481240A - 一种数据资产质量检测方法和检测装置 - Google Patents
一种数据资产质量检测方法和检测装置 Download PDFInfo
- Publication number
- CN115481240A CN115481240A CN202110606566.9A CN202110606566A CN115481240A CN 115481240 A CN115481240 A CN 115481240A CN 202110606566 A CN202110606566 A CN 202110606566A CN 115481240 A CN115481240 A CN 115481240A
- Authority
- CN
- China
- Prior art keywords
- data asset
- feature
- list
- detection
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 157
- 238000000034 method Methods 0.000 claims abstract description 51
- 238000002372 labelling Methods 0.000 claims abstract description 39
- 238000013507 mapping Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims description 22
- 230000015654 memory Effects 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 2
- 238000007689 inspection Methods 0.000 description 10
- 238000004519 manufacturing process Methods 0.000 description 8
- 238000013523 data management Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 6
- 230000018109 developmental process Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 206010063385 Intellectualisation Diseases 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Educational Administration (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Computational Linguistics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种数据资产质量检测方法和检测装置,该方法包括:获取待检测数据资产清单;对待检测数据资产清单进行关键词提取,构建关键词语料库;基于预设自定义词库对关键词语料库中的关键词进行特征类型的标注,并利用模型自动标注,构建检测特征关键词库;按照标注的特征类型,对检测特征关键词库与待检测数据资产清单进行映射,生成各数据资产特征清单;基于各特征类型对应的预设检测规则清单,分别对各数据资产特征清单进行数据资产质量检测,生成质量检测结果。根据标注的特征作为检测规则选取的索引,当数据质量检验时,能够快速的匹配出合适的检测规则,从而减少大量的重复工作,提高了数据质检的工作效率。
Description
技术领域
本发明涉及数据质量检测技术领域,具体涉及一种数据资产质量检测方法和检测装置。
背景技术
随着信息系统的快速发展;数据的重要性越来越凸显,身处大数据时代,数据质量在数据交互,数据应用中也成为重点关注对象,并且数据质量的含义也在悄然发生改变。电力数据主要来源于电力生产和使用的各个环节,直接反映电力运行状态和企业运营情况。数据已成为公司发展的基础性战略资源,数据质量一定程度上制约了公司数字化转型发展,但实际上收集到的大量数据信息都存在各种质量问题,精准检测数据质量则是提升数据质量水平的重要基石。数据质量检测方法存在的人工投入大、时间长、业务依赖度高、见效慢等问题,一直是数据治理工作中的难题,很多数据质量团队都会将数据治理作为咨询和实施项目开展。随着人工智能技术的发展,数据治理过程智能化、自动化成为可能。其中,基于系统规则的检验方法,因其准确度相对高,应用较为广泛,但是,由于其需要大量的业务知识,并且需要对所有内容都进行规则遍历,检测效率低时间较长,对检测数据的使用存在滞后性,降低了生产工作效率,因此,如何提高数据检测效率成为亟待解决的问题。
发明内容
有鉴于此,本发明实施例提供了一种数据资产质量检测方法和检测装置以克服在现有技术中数据资产质量检测效率低的问题。
根据第一方面,本发明实施例提供了一种数据资产质量检测方法,所述方法包括:
获取待检测数据资产清单;
对所述待检测数据资产清单进行关键词提取,构建关键词语料库;
基于预设自定义词库对所述关键词语料库中的关键词进行特征类型的标注,构建检测特征关键词库;
按照标注的特征类型,对所述检测特征关键词库与所述待检测数据资产清单进行映射,生成各数据资产特征清单;
基于各特征类型对应的预设检测规则清单,分别对各数据资产特征清单进行数据资产质量检测,生成质量检测结果。
可选地,所述基于预设自定义词库对所述关键词语料库中的关键词进行特征类型的标注,构建检测特征关键词库,包括:
从所述关键词语料库中选取第一预设比例的关键词作为训练样本;
利用所述预设自定义词库中的自定义词作为特征类型对所述训练样本进行标注;
将带有标注的训练样本输入预设特征类型标注模型进行训练,得到训练好的预设特征类型标注模型;
利用训练好的预设特征类型标注模型对所述关键词语料库中所有关键词进行特征类型标注,得到所述检测特征关键词库。
可选地,在所述基于预设自定义词库对所述关键词语料库中的关键词进行特征类型的标注,构建检测特征关键词库之前,所述方法还包括:
对所述关键词语料库中的关键词进行相同词数量统计;
对统计结果进行从小到大的排序;
根据排序结果从所述关键词语料库中剔除第二预设比例的关键词。
可选地,所述按照标注的特征类型,对所述检测特征关键词库与所述待检测数据资产清单进行映射,生成各数据资产特征清单,包括:
获取所述检测特征关键词库中当前特征类型对应的关键词;
利用所述当前特征类型对应的关键词与所述待检测数据资产清单进行映射;
根据映射结果生成所述当前特征类型对应的当前数据资产特征清单。
可选地,所述基于各特征类型对应的预设检测规则清单,分别对各数据资产特征清单进行数据资产质量检测,生成质量检测结果,包括:
获取所述当前特征类型对应的当前预设检测规则清单;
利用所述当前预设检测规则清单中所包含的检测规则对所述当前数据资产特征清单进行数据资产质量检测,得到所述当前特征类型对应的当前质量检测数据;
基于不同特征类型对应的当前质量检测数据,生成所述质量检测结果。
可选地,所述对所述待检测数据资产清单进行关键词提取,构建关键词语料库,包括:
基于所述待检测数据资产清单的内容属性,从所述待检测数据资产清单进行语料提取,得到不同内容属性对应的语料;
基于所述不同内容属性对应的语料作为关键词构建所述关键词语料库。
可选地,所述基于所述不同内容属性对应的语料作为关键词构建所述关键词语料库,包括:
对所有语料进行分词;
将分词后的结果作为关键词构建所述关键词语料库。
根据第二方面,本发明实施例提供了一种数据资产质量检测装置,应用于电子设备,所述装置包括:
信息采集模块,获取待检测数据资产清单;
语料提取模块,对所述待检测数据资产清单进行语料提取,构建关键词语料库;
特征标注模块,基于预设自定义词库对所述关键词语料库中的关键词进行特征类型的标注,构建检测特征关键词库;
数据资产特征清单管理模块,按照标注的特征类型,对所述检测特征关键词库与所述待检测数据资产清单进行映射,生成各数据资产特征清单;
检测模块,基于各特征类型对应的预设检测规则清单,分别对各数据资产特征清单进行数据资产质量检测,生成质量检测结果
根据第三方面,本发明实施例提供了一种电子设备,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面,或者第一方面任意一种可选实施方式中所述的方法。
根据第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行第一方面,或者第一方面任意一种可选实施方式中所述的方法。
本发明技术方案,具有如下优点:
本发明实施例提供的一种数据资产质量检测方法和检测装置,包括:获取待检测数据资产清单;对待检测数据资产清单进行关键词提取,构建关键词语料库;基于预设自定义词库对关键词语料库中的关键词进行特征类型的标注,构建检测特征关键词库;按照标注的特征类型,对检测特征关键词库与待检测数据资产清单进行映射,生成各数据资产特征清单;基于各特征类型对应的预设检测规则清单,分别对各数据资产特征清单进行数据资产质量检测,生成质量检测结果。从而通过对原始数据资产清单进行关键词提取后先进行标注预处理的方式,利用标注的特征作为检测规则选取的索引,在进行数据质量检验时,能够快速的匹配出对应的检测规则进行检测,从而无需对所有内容都进行所有规则的遍历,避免大量的无效检测过程,提高了数据资产质量检测的工作效率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的一种数据资产质量检测方法的流程示意图;
图2为本发明实施例的一种数据资产质量检测方法的构建检测特征关键词库流程示意图;
图3为本发明实施例的一种数据资产质量检测方法的生成数据资产特征清单的流程示意图;
图4为本发明实施例的一种数据资产质量检测方法的检测流程示意图;
图5为本发明实施例的一个数据资产质量检测方法的工作过程示意图;
图6为本发明实施例的一种数据资产质量检测装置的结构示意图;
图7本发明实施例的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
数据资产是指由个人或企业拥有或者控制的,能够为企业带来未来经济利益的,以物理或电子的方式记录的数据资源。具体来讲,数据资产是指以个人或企业的照片、文档、图纸、视频、数字版权等等以文件为载体的数据,相对于实物资产以数据形式存在的一类资产。数据资产被认为是数字时代的最重要的资产形式之一。
电力数据主要来源于电力生产和使用的各个环节,直接反映电力运行状态和企业运营情况。数据已成为公司发展的基础性战略资源,数据质量一定程度上制约了公司数字化转型发展,而精准检测数据质量问题则是提升数据质量水平的重要基石。数据质量检测方法存在的人工投入大、时间长、业务依赖度高、见效慢等问题,一直是数据治理工作中的难题,很多数据质量团队都会将数据治理作为咨询和实施项目开展。随着人工智能技术的发展,数据治理过程智能化、自动化成为可能。其中,基于系统规则的检验方法,因其准确度相对高,应用较为广泛,但是,由于其需要大量的业务知识,并且需要对所有内容都进行规则遍历,检测效率低时间较长,对检测数据的使用存在滞后性,降低了生产工作效率,因此,如何提高数据检测效率成为亟待解决的问题。
基于上述问题,本发明实施例提供了一种数据资产质量检测方法,如图1所示,该数据资产质量检测方法主要包括如下步骤:
步骤S101:获取待检测数据资产清单。
具体地,本发明实施例中获取的待检测数据资产清单是电力行业生产过程中采集的生产数据、设备数据等的元数据信息,将元数据信息汇总为电子表格的形式,在其他行业中,数据还可以是财务数据,造价数据,游戏数据,本发明并不以此为限。
步骤S102:对待检测数据资产清单进行关键词提取,构建关键词语料库。
具体地,根据待检测数据清单的内容属性,提取其中的短文本,将提取的短文本作为关键词,构成关键词语料库。
步骤S103:基于预设自定义词库对关键词语料库中的关键词进行特征类型的标注,构建检测特征关键词库。
具体地,在电力行业,许多数据为行业专有名词,因此对这类词分类,常用类别并不能很好的对应其内容属性,因此结合行业特点预设自定义词库,用于对行业关键词更好的分类标注。根据关键词语料库中语料的不同内容属性,对应自定义词库中合适类型的词进行特征标注。例如:关键词“类型”、“类别”、“单位”均标注为“枚举”特征类型。标注方法可以是人为标注、聚类标注和有监督机器学习标注,本发明并不以此为限。本发明实施例采用有监督学习方法进行基于模型的自动标注,大大提高了特征标注的效率和准确。
步骤S104:按照标注的特征类型,对检测特征关键词库与待检测数据资产清单进行映射,生成各数据资产特征清单。
具体地,可以利用模糊查询、相似计算、多结果融合等方法将检测特征关键词库与数据资产清单进行映射,每个表和每个字段均能映射到检测特征关键词库中的特征,映射后的结果生成表级和字段级的数据资产特征清单。映射方法并不唯一,属于现有技术,在此不再进行赘述。
步骤S105:基于各特征类型对应的预设检测规则清单,分别对各数据资产特征清单进行数据资产质量检测,生成质量检测结果。
具体地,针对每一特征类别的关键词,均设有对应的检测规则。在预设检测规则清单中,除特征类型检测规则外,还包括语料完整性检测规则,表中业务规则,根据描述语料解析出的规则。带有特征的检测规则,用于针对不同特征对应的数据资产直接进行检测。例如:一张资产特征清单表中的字段被标注为“枚举”特征,那么针对这张表的此字段,直接通过“枚举”类型对应的检测规则、语料完整性检测规则和字段的业务规则进行检测,而不使用其他类型对应的检测规则,避免了将一个数据资产清单通过所有检测规则检测一轮的问题,提高了检测效率。最后将各个类别的检测结果合并为质量检测结果。
具体地,在一实施例中,上述步骤S102,具体包括如下步骤:
步骤S211:基于待检测数据资产清单的内容属性,从待检测数据资产清单进行语料提取,得到不同内容属性对应的语料。具体地,根据待检测数据资产清单中表中数据的内容属性提取短文本,例如:所属层级、所属专业/所属部门、所属系统、中文表名、英文表名、表描述、字段英文名、字段中文名、字段描述、字段类型、是否主键、是否敏感数据,提取中文表名、英文表名、中文字段名、英文字段名、字段描述关键信息。
步骤S212:基于不同内容属性对应的语料作为关键词构建关键词语料库。
具体地,在一实施例中,上述步骤S212,还包括如下步骤:
步骤S301:对所有语料进行分词。具体地,使用现有分词模型技术分词即可。
步骤S302:将分词后的结果作为关键词构建关键词语料库。
具体地,在一实施例中,在上述步骤S103之前,上述方法还包括如下步骤:
步骤S105:对关键词语料库中的关键词进行相同词数量统计。具体地,根据关键词语料库中相同关键词出现的次数进行统计。
步骤S106:对统计结果进行从小到大的排序。具体地,根据步骤S105中的统计结果,将相同关键词出现的次数按照从小到大的顺序排序。
步骤S107:根据排序结果从关键词语料库中剔除第二预设比例的关键词。具体地,根据步骤S106的排序结果,对于出现频率高的关键词作为有效样本,对于出现频率低的关键词作为无效样本。选取出现频次高于第二预设比例的样本作为有效样本,低于第二预设比例的样本作为无效样本,并剔除无效样本。例如:本发明实施例中预设比例为80%,对于预设比例在50%以上均可,本发明并不以此限。剔出频率过低的样本可以减少标注训练环节的干扰因素,使得训练模型更加精准。
具体地,在一实施例中,如图2所示,上述的步骤S103,具体包括如下步骤:
步骤S201:从关键词语料库中选取第一预设比例的关键词作为训练样本。
具体地,训练样本可以从全量关键词语料库中选取,数量按照第一预设比例选取。例如:第一预设比例为10%,那么选取全量关键词语料库中10%的关键词作为训练样本,本发明并不以此为限。选取关键词后,将所选关键词进行向量化处理,组成词矩阵用于下一步骤。
步骤S202:利用预设自定义词库中的自定义词作为特征类型对训练样本进行标注。
具体地,根据关键词语料库中语料的不同内容属性,对应自定义词库中合适类型的词进行特征标注。例如:关键词“类型”、“类别”、“单位”均标注为“枚举”特征类型。标注方法可以是人为标注、聚类标注和有监督机器学习标注,本发明并不以此为限。本发明实施例采用有监督学习方法实现特征的自动标注,需要确定训练模型的训练样本,根据步骤S201得到的训练样本,对每个训练样本进行标注作为模型期望输出,构建有监督学习模型,进入步骤S203。使用有监督学习方法进行词的特征标注,对于大量样本,减少人工工作量,提高工作效率,加快了检测进度。
步骤S203:将带有标注的训练样本输入预设特征类型标注模型进行训练,得到训练好的预设特征类型标注模型。
具体地,根据步骤S202得到的训练样本对预设特征类型标注模型进行有监督训练,可根据梯度下降法或最小距离等方法调整模型参数到最优结果,本发明并不以此为限,最终完成模型的训练。
步骤S204:利用训练好的预设特征类型标注模型对关键词语料库中所有关键词进行特征类型标注,得到检测特征关键词库。
具体地,将关键词语料库中的所有关键词作为输入,通过步骤S203得到的训练好的预设特征类型标注模型,得到关键词的对应特征类型。将处理后的关键词与特征类型词合并做为检测特征关键词库。
具体地,在一实施例中,如图3所示,上述的步骤S104,具体包括如下步骤:
步骤S205:获取检测特征关键词库中当前特征类型对应的关键词。具体地,例如:对于其中一个特征类型,获取该特征类型在检测特征关键词库中对应的所有关键词。
步骤S206:利用当前特征类型对应的关键词与待检测数据资产清单进行映射。具体地,可以利用模糊查询、相似计算、多结果融合将当前特征对应的关键词与数据资产清单进行映射,根据这些关键词均可以将相对应的每个表和每个字段映射到当前特征。
步骤S207:根据映射结果生成当前特征类型对应的当前数据资产特征清单。具体地,根据当前特征映射后的结果,生成表级和字段级的当前特征的数据资产特征清单,例如:数据资产特征清单包含的表单信息中有中文表名、英文表名、中文字段名、英文字段名。当前清单对应的特征为:如主变压器、zbyq、设备增加方式、sbzjfs、枚举。获取的数据资产特征清单可以在接下来的检测环节直接用特征对应的规则进行检测,大大提高检测效率。
具体地,在一实施例中,如图4所示,上述步骤S105,具体包括如下步骤:
步骤S208:获取当前特征类型对应的当前预设检测规则清单。具体地,针对不同特征类型有不同的类型检测规则,除此之外,还包括语料完整性检测规则,表中业务规则,根据描述语料解析出的规则。例如:表中本身存在“电压>50KV”即为业务规则。上述规则组合为当前特征类型对应的当前预设检测规则清单。
步骤S209:利用当前预设检测规则清单中所包含的检测规则对当前数据资产特征清单进行数据资产质量检测,得到当前特征类型对应的当前质量检测数据。
具体地,根据步骤S208得到的当前特征的当前预设检测规则清单对当前数据资产特征清单进行数据资产质量检测,例如:根据“枚举”特征的规则检测清单,对“枚举”特征对应的数据资产特征清单进行质量检测。避免了不必要规则的检测步骤,提高了检测效率。
步骤S210:基于不同特征类型对应的当前质量检测数据,生成质量检测结果。具体地,不同特征类型的数据资产特征清单经过检测后会得到不同的检测数据,将得到的检测数据整理为质量检测结果。
综合上述步骤,如图5所示,通过将需要检测的数据资产清单,进行关键词的提取、筛选,之后根据行业内的自定义词库进行特征标注,得到带特征标签的数据资产清单。在质量检测环节可以直接通过对应特征类型的检测规则进行检测,减少了大量规则检测步骤,缩短了检测时间,提高了检测效率,为接下来的生产环节降低成本。
本发明实施例还提供了一种数据资产质量检测装置,如图6所示,该数据资产质量检测装置包括:
信息采集模块101,获取待检测数据资产清单。详细内容参见上述方法实施例中步骤S101的相关描述,在此不再进行赘述。
语料提取模块102,对待检测数据资产清单进行语料提取,构建关键词语料库。详细内容参见上述方法实施例中步骤S102的相关描述,在此不再进行赘述。
特征标注模块103,基于预设自定义词库对关键词语料库中的关键词进行特征类型的标注,构建检测特征关键词库。详细内容参见上述方法实施例中步骤S103的相关描述,在此不再进行赘述。
数据资产特征清单管理模块104,按照标注的特征类型,对检测特征关键词库与待检测数据资产清单进行映射,生成各数据资产特征清单。详细内容参见上述方法实施例中步骤S104的相关描述,在此不再进行赘述。
检测模块105,基于各特征类型对应的预设检测规则清单,分别对各数据资产特征清单进行数据资产质量检测,生成质量检测结果。详细内容参见上述方法实施例中步骤S105的相关描述,在此不再进行赘述。
本发明实施例提供的数据资产质量检测装置,用于执行上述实施例提供的数据资产质量检测方法,其实现方式与原理相同,详细内容参见上述方法实施例的相关描述,不再赘述。
通过上述各个组成部分的协同合作,本发明实施例提供的数据质量检测装置,提前将需要检测的数据资产清单,进行关键词的提取、筛选,之后根据行业内的自定义词库进行特征标注,得到带特征标签的数据资产清单。在质量检测环节可以直接通过对应特征类型的检测规则进行检测,减少了大量规则检测步骤,缩短了检测时间,提高了检测效率,为接下来的生产环节降低成本。
本发明实施例提供的一种电子设备,如图7所示,该电子设备包括:处理器901和存储器902,其中,处理器901和存储器902可以通过总线或者其他方式连接,图7中以通过总线连接为例。
处理器901可以为中央处理器(Central Processing Unit,CPU)。处理器901还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器902作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如上述方法实施例中的方法所对应的程序指令/模块。处理器901通过运行存储在存储器902中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的方法。
存储器902可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器901所创建的数据等。此外,存储器902可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器902可选包括相对于处理器901远程设置的存储器,这些远程存储器可以通过网络连接至处理器901。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器902中,当被处理器901执行时,执行上述方法实施例中的方法。
上述电子设备具体细节可以对应参阅上述方法实施例中对应的相关描述和效果进行理解,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,实现的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (10)
1.一种数据资产质量检测方法,其特征在于,包括:
获取待检测数据资产清单;
对所述待检测数据资产清单进行关键词提取,构建关键词语料库;
基于预设自定义词库对所述关键词语料库中的关键词进行特征类型的标注,构建检测特征关键词库;
按照标注的特征类型,对所述检测特征关键词库与所述待检测数据资产清单进行映射,生成各数据资产特征清单;
基于各特征类型对应的预设检测规则清单,分别对各数据资产特征清单进行数据资产质量检测,生成质量检测结果。
2.根据权利要求1所述的方法,其特征在于,所述基于预设自定义词库对所述关键词语料库中的关键词进行特征类型的标注,构建检测特征关键词库,包括:
从所述关键词语料库中选取第一预设比例的关键词作为训练样本;
利用所述预设自定义词库中的自定义词作为特征类型对所述训练样本进行标注;
将带有标注的训练样本输入预设特征类型标注模型进行训练,得到训练好的预设特征类型标注模型;
利用训练好的预设特征类型标注模型对所述关键词语料库中所有关键词进行特征类型标注,得到所述检测特征关键词库。
3.根据权利要求1所述的方法,其特征在于,在所述基于预设自定义词库对所述关键词语料库中的关键词进行特征类型的标注,构建检测特征关键词库之前,所述方法还包括:
对所述关键词语料库中的关键词进行相同词数量统计;
对统计结果进行从小到大的排序;
根据排序结果从所述关键词语料库中剔除第二预设比例的关键词。
4.根据权利要求1所述的方法,其特征在于,所述按照标注的特征类型,对所述检测特征关键词库与所述待检测数据资产清单进行映射,生成各数据资产特征清单,包括:
获取所述检测特征关键词库中当前特征类型对应的关键词;
利用所述当前特征类型对应的关键词与所述待检测数据资产清单进行映射;
根据映射结果生成所述当前特征类型对应的当前数据资产特征清单。
5.根据权利要求1所述的方法,其特征在于,所述基于各特征类型对应的预设检测规则清单,分别对各数据资产特征清单进行数据资产质量检测,生成质量检测结果,包括:
获取所述当前特征类型对应的当前预设检测规则清单;
利用所述当前预设检测规则清单中所包含的检测规则对所述当前数据资产特征清单进行数据资产质量检测,得到所述当前特征类型对应的当前质量检测数据;
基于不同特征类型对应的当前质量检测数据,生成所述质量检测结果。
6.根据权利要求1所述的方法,其特征在于,所述对所述待检测数据资产清单进行关键词提取,构建关键词语料库,包括:
基于所述待检测数据资产清单的内容属性,从所述待检测数据资产清单进行语料提取,得到不同内容属性对应的语料;
基于所述不同内容属性对应的语料作为关键词构建所述关键词语料库。
7.根据权利要求6所述的方法,其特征在于,所述基于所述不同内容属性对应的语料作为关键词构建所述关键词语料库,包括:
对所有语料进行分词;
将分词后的结果作为关键词构建所述关键词语料库。
8.一种数据资产质量检测装置,应用于电子设备,其特征在于,所述装置包括:
信息采集模块,获取待检测数据资产清单;
语料提取模块,对所述待检测数据资产清单进行语料提取,构建关键词语料库;
特征标注模块,基于预设自定义词库对所述关键词语料库中的关键词进行特征类型的标注,构建检测特征关键词库;
数据资产特征清单管理模块,按照标注的特征类型,对所述检测特征关键词库与所述待检测数据资产清单进行映射,生成各数据资产特征清单;
检测模块,基于各特征类型对应的预设检测规则清单,分别对各数据资产特征清单进行数据资产质量检测,生成质量检测结果。
9.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机从而执行如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110606566.9A CN115481240A (zh) | 2021-05-31 | 2021-05-31 | 一种数据资产质量检测方法和检测装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110606566.9A CN115481240A (zh) | 2021-05-31 | 2021-05-31 | 一种数据资产质量检测方法和检测装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115481240A true CN115481240A (zh) | 2022-12-16 |
Family
ID=84419550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110606566.9A Pending CN115481240A (zh) | 2021-05-31 | 2021-05-31 | 一种数据资产质量检测方法和检测装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115481240A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117786465A (zh) * | 2024-02-23 | 2024-03-29 | 北京中科闻歌科技股份有限公司 | 一种领域预训练模型数据构建方法和系统 |
-
2021
- 2021-05-31 CN CN202110606566.9A patent/CN115481240A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117786465A (zh) * | 2024-02-23 | 2024-03-29 | 北京中科闻歌科技股份有限公司 | 一种领域预训练模型数据构建方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109189942B (zh) | 一种专利数据知识图谱的构建方法及装置 | |
CN110851598B (zh) | 文本分类方法、装置、终端设备及存储介质 | |
CN111177532A (zh) | 一种垂直搜索方法、装置、计算机系统及可读存储介质 | |
CN113282955B (zh) | 隐私政策中隐私信息提取方法、系统、终端及介质 | |
CN112163424A (zh) | 数据的标注方法、装置、设备和介质 | |
CN113986864A (zh) | 日志数据处理方法、装置、电子设备及存储介质 | |
CN111460162B (zh) | 一种文本分类方法、装置、终端设备及计算机可读存储介质 | |
CN111767725A (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN112257444B (zh) | 金融信息负面实体发现方法、装置、电子设备及存储介质 | |
CN113971398A (zh) | 一种面向网络安全领域实体快速识别的词典构造方法 | |
CN112818200A (zh) | 基于静态网站的数据爬取及事件分析方法及系统 | |
Hossari et al. | TEST: A terminology extraction system for technology related terms | |
CN115146062A (zh) | 融合专家推荐与文本聚类的智能事件分析方法和系统 | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN115481240A (zh) | 一种数据资产质量检测方法和检测装置 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
Behera | Implementation of a finite state automaton to recognize and remove stop words in English text on its retrieval | |
CN115713085A (zh) | 文献主题内容分析方法及装置 | |
CN114842982A (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN114706948A (zh) | 新闻处理方法、装置、存储介质以及电子设备 | |
CN109597879B (zh) | 一种基于“引文关系”数据的业务行为关系抽取方法及装置 | |
CN113468339A (zh) | 基于知识图谱的标签提取方法、系统、电子设备及介质 | |
CN116029280A (zh) | 一种文档关键信息抽取方法、装置、计算设备和存储介质 | |
Rehman et al. | Text Document Classification Using Deep Learning Techniques | |
CN114064904A (zh) | 一种用于医疗文本的聚类方法、系统及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |