CN113515511B - 信息资源编目文件的数据清洗方法及装置 - Google Patents
信息资源编目文件的数据清洗方法及装置 Download PDFInfo
- Publication number
- CN113515511B CN113515511B CN202110595298.5A CN202110595298A CN113515511B CN 113515511 B CN113515511 B CN 113515511B CN 202110595298 A CN202110595298 A CN 202110595298A CN 113515511 B CN113515511 B CN 113515511B
- Authority
- CN
- China
- Prior art keywords
- information
- information resource
- classification
- template table
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
- G06F16/168—Details of user interfaces specifically adapted to file systems, e.g. browsing and visualisation, 2d or 3d GUIs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
Abstract
本发明提供了一种信息资源编目文件的数据清洗方法及装置,其中,该方法包括:对信息资源分类模板表、信息资源信息模板表及信息项模板表的表信息及表关系进行有效性分析及错误检查;根据完整上级分类编码清洗不合法数据;根据信息资源完整分类编码校验合法性,根据信息资源完整分类编码、分类编码及完整上级分类编码清洗错误数据,根据信息资源名称和信息资源编码清洗重复数据,根据信息资源格式分类和信息资源格式类型清洗不全数据;根据完整分类编码与完整上级编码和分类编码清洗错误数据,根据信息资源编码清洗错误数据,根据信息项名称和信息项编码清洗的重复数据;并对不合法数据信息进行统一重构。通过上述方案能够提高信息资源管理效率。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种信息资源编目文件的数据清洗方法及装置。
背景技术
信息资源存在数量多、门类广、分布分散、信息不对称的特性,由于这些特性造成信息资源采集录入与管理上的困难。目前市面上的软件系统有多种获取方式,包括日常行政管理过程中形成的,或者是通过先进的自动化监测仪器(例如,卫星遥感影像等)进行采集等,但往往功能上只是单一的手动整理录入,操作过程较为繁琐。
若要实现信息资源更好的管理,就需要一种全面的技术方式来处理信息资源,实现信息资源的高效管理,满足人们在大量信息资源中准确、全面、迅速、方便、经济地获取所需信息内容的各种要求。
发明内容
有鉴于此,本发明提供了一种信息资源编目文件的数据清洗方法及装置,以提高信息资源管理效率。
为了达到上述目的,本发明采用以下方案实现:
根据本发明实施例的一个方面,提供了一种信息资源编目文件的数据清洗方法,包括:
获取包含信息资源分类模板表、信息资源信息模板表及信息项模板表的信息资源编目文件;
对信息资源编目文件中信息资源分类模板表、信息资源信息模板表及信息项模板表的表信息及表关系进行有效性分析及错误检查;
获取信息资源编目文件中信息资源分类模板表中的分类名称、分类编码及完整上级分类编码,根据分类名称和分类编码清洗信息资源分类模板表中的重复数据,根据完整上级分类编码清洗信息资源分类模板表中的不合法数据;
获取信息资源编目文件中信息资源信息模板表中的信息资源完整分类编码、信息资源名称、信息资源编码、信息资源格式分类及信息资源格式类型,根据信息资源完整分类编码校验信息资源信息模板表中数据信息的合法性,根据信息资源完整分类编码、分类编码及完整上级分类编码清洗信息资源信息模板表中的错误数据,根据信息资源名称和信息资源编码清洗信息资源信息模板表中的重复数据,根据信息资源格式分类和信息资源格式类型清洗信息资源信息模板表中的不全数据;
获取信息资源编目文件中信息项模板表中的完整分类编码、信息资源编码、信息项名称及信息项编码,根据信息项模板表中的完整分类编码与信息资源分类模板表中的完整上级编码和分类编码清洗信息项模板表中的错误数据,根据信息项模板表中的信息资源编码和信息资源信息模板表中的信息资源编码清洗错误数据,根据信息项模板表中的信息项名称和信息项编码清洗信息项模板表中的重复数据;
获取信息项模板表中的数据类型、数据长度、共享类型、共享条件、共享方式分类、共享方式类型、开放类型及开放条件中的一个或多个数据信息进行合法性验证,并对不合法数据信息进行统一重构。
在一些实施例中,获取包含信息资源分类模板表、信息资源信息模板表及信息项模板表的信息资源编目文件,包括:
通过http协议获取包含信息资源分类模板表、信息资源信息模板表及信息项模板表的信息资源编目文件。
在一些实施例中,对信息资源编目文件中信息资源分类模板表、信息资源信息模板表及信息项模板表的表信息及表关系进行有效性分析及错误检查,包括:
比对信息资源编目文件中信息资源分类模板表、信息资源信息模板表及信息项模板表的表名称;
比对信息资源分类模板表中的分类编码、信息资源分类模板表中的完整上级分类编码、信息资源信息模板表中的信息资源完整分类编码、信息项模板表中的完整分类编码、及信息项模板表中的信息资源编码之间的映射关系;
校验信息资源编目文件中信息资源分类模板表、信息资源信息模板表及信息项模板表的文件名格式一致性。
在一些实施例中,根据分类名称和分类编码清洗信息资源分类模板表中的重复数据,包括:
根据分类名称和分类编码校验信息资源分类模板表中数据信息的重复性,并清洗信息资源分类模板表中的重复数据信息。
在一些实施例中,根据信息资源完整分类编码校验信息资源信息模板表中数据信息的合法性,包括:
判断信息资源信息模板表中信息资源完整分类编码的数据是否存在,若存在,则确定信息资源信息模板表中相应数据信息为合法数据;
根据信息资源完整分类编码、分类编码及完整上级分类编码清洗信息资源信息模板表中的错误数据,包括:
拆分信息资源完整分类编码,通过比对将拆分后的信息资源完整分类编码与分类编码和完整上级分类编码校验信息资源信息模板表中数据的有效性,将校验无效的数据作为错误数据,并清洗信息资源信息模板表中的错误数据;
根据信息资源名称和信息资源编码清洗信息资源信息模板表中的重复数据,包括:
根据信息资源名称和信息资源编码校验信息资源信息模板表中的重复数据,并清洗信息资源信息模板表中的重复数据;
根据信息资源格式分类和信息资源格式类型清洗信息资源信息模板表中的不全数据,包括:
根据信息资源格式分类和信息资源格式类型校验信息资源信息模板表中的信息资源格式类型不全的数据,并清洗信息资源信息模板表中信息资源格式类型不全的数据。
在一些实施例中,根据信息项模板表中的完整的分类编码与信息资源分类模板表中的完整上级编码和分类编码清洗信息项模板表中的错误数据,包括:
拆分信息项模板表中的完整分类编码,通过比对拆分后的完整分类编码与信息资源分类模板表中的完整上级编码和分类编码校验信息项模板表中数据的有效性,将无效数据作为无效数据,并清洗信息项模板表中的无效数据;
根据信息项模板表中的信息资源编码和信息资源信息模板表中的信息资源编码清洗错误数据,包括:
通过比对信息项模板表中的信息资源编码和信息资源信息模板表中的信息资源编码校验信息项模板表中数据的有效性,将无效数据作为错误数据,并清洗错误数据;
根据信息项模板表中的信息项名称和信息项编码清洗信息项模板表中的重复数据,包括:
根据信息项模板表中的信息项名称和信息项编码校验信息项模板表中的重复数据,并清洗重复数据。
在一些实施例中,拆分信息资源完整分类编码,通过比对将拆分后的信息资源完整分类编码与分类编码和完整上级分类编码校验信息资源信息模板表中数据的有效性,包括
根据分隔符拆分信息资源完整分类编码,通过比对将拆分后的信息资源完整分类编码与分类编码和完整上级分类编码校验信息资源信息模板表中数据的有效性,其中,信息资源完整分类编码由分类编码和完整上级分类编码通过分隔符连接成。
在一些实施例中,拆分信息项模板表中的完整分类编码,通过比对拆分后的完整分类编码与信息资源分类模板表中的完整上级编码和分类编码校验信息项模板表中数据的有效性,包括:
根据分隔符拆分信息项模板表中的完整分类编码,通过比对拆分后的完整分类编码与信息资源分类模板表中的完整上级编码和分类编码校验信息项模板表中数据的有效性,其中,完整分类编码由分类编码和完整上级分类编码通过分隔符连接成。
根据本发明实施例的另一个方面,还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施例所述方法的步骤。
根据本发明实施例的另一个方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例所述方法的步骤。
本发明实施例的信息资源编目文件的数据清洗方法、计算机设备及计算机可读存储介质,能够实现对包含信息资源分类模板表、信息资源信息模板表及信息项模板表的信息资源编目文件中的不合法数据、重复数据、错误数据、不全数据等清洗,可以将各种数据资源高效地组织和管理起来,方便按目录的方式访问数据资源。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本发明一实施例的信息资源编目文件的数据清洗方法的流程示意图;
图2是本发明一具体实施例中信息资源编目文件中信息资源分类模板表示例;
图3是本发明一具体实施例中信息资源编目文件中信息资源信息模板表示例;
图4是本发明一具体实施例中信息资源编目文件中信息项模板表示例。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
需要预先说明的是,下述实施例或示例的描述或其中所提及的特征可以以相同或类似的方式,与其他实施例或示例中的特征组合,或替换其他实施例或示例中的特征,以形成可能的实施方式。另外,本文所使用的术语“包括/包含”是指特征、要素、步骤或组件的存在,但并不排除还存在一个或多个其他特征、要素、步骤或组件。
为了克服目录模板入库过程中,会收集到大量信息资源分类、信息资源名称、信息资源代码等信息,用户可能提供的信息可能是错误的、不全、重复数据的问题,本发明实施例提供了一种信息资源编目的数据清洗方法,以通过编目录入的方式,将各种数据资源组织和管理起来,方便按目录的方式访问数据资源。
需要依据信息属性对信息资源进行采集、分类、编目和录入。通过在线手工录入与目录模板自动导入两种方式,按照信息资源分类、信息资源名称、信息资源代码、信息资源提供方、信息资源提供方代码、信息资源摘要、信息资源格式、信息项信息、共享属性、开放属性、发布日期等信息进行填报上传,并且用户在该页面可以快速的通过信息资源分类及更细致的查找条件快速的查找对应的信息资源。
图1是本发明一实施例的信息资源编目文件的数据清洗方法的流程示意图,参见图1,该些实施例的信息资源编目文件的数据清洗方法,可包括步骤S110~步骤S160。
下面将对步骤S110至步骤S160的具体实施方式进行详细说明。
步骤S110:获取包含信息资源分类模板表、信息资源信息模板表及信息项模板表的信息资源编目文件。
该步骤S110中,信息资源编目文件可以是通过对从多个客户端采集的原始数据进行加工、标准化处理得到。该信息资源编目文件包括信息资源分类模板表、信息资源信息模板表及信息项模板表,该信息资源编目文件的文件格式例如可以是Excel文件,则信息资源分类模板表、信息资源信息模板表及信息项模板表可以是该Excel文件中的三张表。在其他实施例中,该信息资源编目文件的文件格式例如可以是Word文件,则信息资源分类模板表、信息资源信息模板表及信息项模板表可以是该Word文件中的三部分表格。
另外,信息资源分类模板表可以是指用于存放信息资源的分类相关数据信息的表,数据信息例如可以是,分类名称、分类编码、分类描述、完整上级分类编码等,其中,该完整上级分类编码可以不包含该信息资源分类模板表中的分类编码;信息资源信息模板表可以是指用于存放信息资源本身的数据信息的表,数据信息例如可以是,信息资源完整分类编码、信息资源名称、信息资源编码、信息资源摘要、提供方名称、提供方内部部分、资源提供方代码、信息资源格式分类、信息资源格式类型、其他类型资源格式描述等,其中,信息资源完整分类编码可以与分类编码、完整上级分类编码相关;信息项模板表可以是指用于存放信息资源的项的数据信息的表,数据信息例如可以是,完整分类编码、信息资源编码、信息项名称、信息项编码、数据类型、数据长度、共享类型、共享条件、共享方式分类、共享方式类型、开放类型、开放条件等,其中,完整分类编码可以与分类编码、完整上级分类编码相关,可以与信息资源完整分类编码相关或相同,该完整分类编码可以与信息资源信息模板表中的完整分类编码相同。
在一些实施例中,上述步骤S110,即,获取包含信息资源分类模板表、信息资源信息模板表及信息项模板表的信息资源编目文件,具体可包括步骤:S111,通过http协议获取包含信息资源分类模板表、信息资源信息模板表及信息项模板表的信息资源编目文件。
该步骤S111中,可以通过http协议或web页面将信息资源编目文件传入服务器,从而在服务器中进行数据清洗。以此,可以方便信息资源编目文件的数据导入。
步骤S120:对信息资源编目文件中信息资源分类模板表、信息资源信息模板表及信息项模板表的表信息及表关系进行有效性分析及错误检查。
该步骤S120中,表信息可包括表名称、文件名格式等,表关系可以包括表之间的关联关系、映射关系等。对于具有一定对应关系的信息资源编目文件中的各表,各表的表信息之间或各表的中的数据信息之间会存在一定共同信息主键信息,该主键信息可以作为数据表之间关联关系的唯一索引,可以通过比较各表的表信息之间或各表的中的数据信息之间是否有共同信息或一致性信息来判断信息资源编目文件中是否有效或是否错误,若有效或没有错误可以不做处理,若无效可以进行提示或进行必要处理。
在一些实施例中,上述步骤S120,即,对信息资源编目文件中信息资源分类模板表、信息资源信息模板表及信息项模板表的表信息及表关系进行有效性分析及错误检查,具体可包括步骤:S121,比对信息资源编目文件中信息资源分类模板表、信息资源信息模板表及信息项模板表的表名称;S122,比对信息资源分类模板表中的分类编码、信息资源分类模板表中的完整上级分类编码、信息资源信息模板表中的信息资源完整分类编码、信息项模板表中的完整分类编码、及信息项模板表中的信息资源编码之间的映射关系;S123,校验信息资源编目文件中信息资源分类模板表、信息资源信息模板表及信息项模板表的文件名格式一致性。
该步骤S121中,可按照文件名进行对照判断。若表名称存在共同信息,或者各表的表名称与预定的表名称一致,可以认为比对一致,若比对不一致可以进行提示。该步骤S122中,可以按照编码一致性进行对照判断。信息资源完整分类编码或完整分类编码可以包含分类编码和完整上级分类编码,此时,可以比较信息资源完整分类编码或完整分类编码的拆分结果与分类编码、完整上级分类编码是否一致,或比较信息资源完整分类编码或完整分类编码与分类编码和完整上级分类编码的拼接结果是否一致来判断其之间的映射关系,另外可以比较信息资源信息模板表和信息项模板表中信息资源编码的一致性,以判断两表数据信息的映射关系或关联关系。该步骤S123中,可以按照文件名进行对照判断。可以以此判断不同表的文件格式是否一致,若一致,无需处理,若不一致,可以进行提示或进行可行的处理。
步骤S130:获取信息资源编目文件中信息资源分类模板表中的分类名称、分类编码及完整上级分类编码,根据分类名称和分类编码清洗信息资源分类模板表中的重复数据。
该步骤S130中,信息完全一致即可认为重复,不符合分类编码信息的数据即可认为不合法,若不合法引发歧义可以增加名词解释或去除。若信息资源分类模板表中的数据信息若有重复,则可以进行去重。若将完整上级分类编码作为信息资源分类模板表与信息资源信息模板表或信息项模板表的关联项,则可以认为应必须存在,若不存在。
完整上级分类编码的数据可以根据业务逻辑具有一定构成规则,可以通过拆分,确认该数据是否符合业务逻辑规则,若符合可以分为有效,反之可以认为无效,若无效可以进行去除、标记或提示等清洗处理。
在一些实施例中,上述步骤S130中,根据分类名称和分类编码清洗信息资源分类模板表中的重复数据,具体可包括步骤:S131,根据分类名称和分类编码校验信息资源分类模板表中数据信息的重复性,并清洗信息资源分类模板表中的重复数据信息。
该步骤S131中,可以通过判断表中不同两条数据信息中的分类名称和分类编码是否均一致,来判断该两条数据是否为重复数据,若重复可以去除重复部分,只保留一条。
步骤S140:获取信息资源编目文件中信息资源信息模板表中的信息资源完整分类编码、信息资源名称、信息资源编码、信息资源格式分类及信息资源格式类型,根据信息资源完整分类编码校验信息资源信息模板表中数据信息的合法性,根据信息资源完整分类编码、分类编码及完整上级分类编码清洗信息资源信息模板表中的错误数据,根据信息资源名称和信息资源编码清洗信息资源信息模板表中的重复数据,根据信息资源格式分类和信息资源格式类型清洗信息资源信息模板表中的不全数据。
该步骤S140中,若数据不合法、重复、不全,则可进行清洗,以去除不合法数据、去重、去除不全数据。
在一些实施例中,可以通过判断表中是否包含关键信息来判断是否合法,示例性地,上述步骤S140中,根据信息资源完整分类编码校验信息资源信息模板表中数据信息的合法性,具体可包括步骤:S141,判断信息资源信息模板表中信息资源完整分类编码的数据是否存在,若存在,则确定信息资源信息模板表中相应数据信息为合法数据。该步骤S141中,若不存在,可以进行去除、标记或提示等清洗处理,若合法,无需处理。
在一些实施例中,可以通过分析不同表中编码之间的关联性来查找错误数据,示例性地,上述步骤S140中,根据信息资源完整分类编码、分类编码及完整上级分类编码清洗信息资源信息模板表中的错误数据,具体可包括步骤:S142,拆分信息资源完整分类编码,通过比对将拆分后的信息资源完整分类编码与分类编码和完整上级分类编码校验信息资源信息模板表中数据的有效性,将校验无效的数据作为错误数据,并清洗信息资源信息模板表中的错误数据。
其中,信息资源完整分类编码可以由分类编码和完整上级分类编码通过分隔符连接成。该分隔符例如可以为逗号等,可以从分隔符处对数据进行拆分。
在其他实施例中,可以分类编码和完整上级分类编码按设定业务逻辑拼接在一起,再与信息资源完整分类编码进行比对,来判断数据是否有效。
进一步的实施例中,上述步骤S142,即,拆分信息资源完整分类编码,通过比对将拆分后的信息资源完整分类编码与分类编码和完整上级分类编码校验信息资源信息模板表中数据的有效性,具体可包括步骤:S1421,根据分隔符拆分信息资源完整分类编码,通过比对将拆分后的信息资源完整分类编码与分类编码和完整上级分类编码校验信息资源信息模板表中数据的有效性,其中,信息资源完整分类编码由分类编码和完整上级分类编码通过分隔符连接成。
该分隔符例如可以为逗号等,可以从分隔符处对数据进行拆分。
在其他实施例中,可以先将分类编码和完整上级分类编码拼接在一起,再与信息资源完整分类编码进行比较。
在一些实施例中,上述步骤S140中,根据信息资源名称和信息资源编码清洗信息资源信息模板表中的重复数据,具体可包括步骤:S143,根据信息资源名称和信息资源编码校验信息资源信息模板表中的重复数据,并清洗信息资源信息模板表中的重复数据。
该步骤S143中,可以通过比较表中两条数据信息中的信息资源名称和信息资源编码是否均一致,来判断两条数据信息是否为重复数据,若是,可以进行去重。
在一些实施例中,上述步骤S140中,根据信息资源格式分类和信息资源格式类型清洗信息资源信息模板表中的不全数据,具体可包括步骤:S144,根据信息资源格式分类和信息资源格式类型校验信息资源信息模板表中的信息资源格式类型不全的数据,并清洗信息资源信息模板表中信息资源格式类型不全的数据。
步骤S150:获取信息资源编目文件中信息项模板表中的完整分类编码、信息资源编码、信息项名称及信息项编码,根据信息项模板表中的完整分类编码与信息资源分类模板表中的完整上级编码和分类编码清洗信息项模板表中的错误数据,根据信息项模板表中的信息资源编码和信息资源信息模板表中的信息资源编码清洗错误数据,根据信息项模板表中的信息项名称和信息项编码清洗信息项模板表中的重复数据。
该步骤S150中,可以通过多种方法来查找表中的错误数据进行清洗。可以校验信息项模板表中数据信息的合法性,可以将该完整的分类编码及信息资源编码作为目标关联数据,如果存在关联,则认为合法数据,无需处理。
在一些实施例中,可以通过比较表之间的相关信息来查找错误数据,示例性地,上述步骤S150中,根据信息项模板表中的完整的分类编码与信息资源分类模板表中的完整上级编码和分类编码清洗信息项模板表中的错误数据,具体可包括步骤:S151,拆分信息项模板表中的完整分类编码,通过比对拆分后的完整分类编码与信息资源分类模板表中的完整上级编码和分类编码校验信息项模板表中数据的有效性,将无效数据作为无效数据,并清洗信息项模板表中的无效数据。
在其他实施例中,可以先将完整上级编码和分类编码按设定逻辑拼接在一起,再与完整分类编码进行比较,以校验数据有效性。
进一步的实施例中,上述步骤S151,即,拆分信息项模板表中的完整分类编码,通过比对拆分后的完整分类编码与信息资源分类模板表中的完整上级编码和分类编码校验信息项模板表中数据的有效性,具体可包括步骤:S1511,根据分隔符拆分信息项模板表中的完整分类编码,通过比对拆分后的完整分类编码与信息资源分类模板表中的完整上级编码和分类编码校验信息项模板表中数据的有效性,其中,完整分类编码由分类编码和完整上级分类编码通过分隔符连接成。其中,该分隔符例如可以是逗号,则可以从逗号处分割数据。在其他实施例中,可以先拼接再比对。
在一些实施例中,上述步骤S150中,根据信息项模板表中的信息资源编码和信息资源信息模板表中的信息资源编码清洗错误数据,具体可包括步骤:S152,通过比对信息项模板表中的信息资源编码和信息资源信息模板表中的信息资源编码校验信息项模板表中数据的有效性,将无效数据作为错误数据,并清洗错误数据。
该步骤S152中,信息项模板表和信息资源信息模板表中的信息资源编码为关联项,应当一致,若一致可认为有效,无需处理,若不一致,认为无效,可以进行清洗。
在一些实施例中,上述步骤S150中,根据信息项模板表中的信息项名称和信息项编码清洗信息项模板表中的重复数据,具体可包括步骤:S153,根据信息项模板表中的信息项名称和信息项编码校验信息项模板表中的重复数据,并清洗重复数据。
该步骤S153中,可以通过比较表中两条数据信息中的信息项名称和信息项编码是否均一致来判断是否为重复数据,若是,可以进行清洗,若否,无需处理。
步骤S160:获取信息项模板表中的数据类型、数据长度、共享类型、共享条件、共享方式分类、共享方式类型、开放类型及开放条件中的一个或多个数据信息进行合法性验证。
另外,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施例所述方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例所述方法的步骤。
下面结合一个具体实施例对上述方法进行说明,然而,值得注意的是,该具体实施例仅是为了更好地说明本申请,并不构成对本申请的不当限定。
在一个具体实施例中,用来实现信息资源编目的数据清洗方法,可包括以下步骤S01~步骤S08:
S01:数据采集,从各类数据部门收集到统一数据处理中心,经过数据编目部门进一步的加工及标准化处理;
该步骤S01中,通过在线手工录入与目录模板自动导入两种方式,按照信息资源分类、信息资源名称、信息资源代码、信息资源提供方、信息资源提供方代码、信息资源摘要、信息资源格式、信息项信息、共享属性、开放属性、发布日期等信息进行填报上传,并且用户在该页面可以快速的通过信息资源分类及更细致的查找条件快速的查找对应的信息资源;
S02:数据上传,将采集处理后的数据编目文件,通过http协议传入服务器;
S03:数据清洗,通过对上传成功的编目文件进行有效性分析及错误检查,如:比对表名称、信息资源分类中的分类编码、信息资源信息中的完整分类编码、信息项中的完整分类编码及信息资源编码之间的映射关系等;
S04:进一步地,步骤S03中,获取excel文件(编目文件,包含一个Excel文件中的信息资源分类、信息资源信息、信息项三个表)中三张表名,校验信息资源分类模板、信息资源信息模板、信息项模板(模板是指编目文件中的三个表)文件名格式一致性;
S05:进一步地,步骤S03中,获取第一个信息资源分类模板表(信息资源分类模板)(如图2所示)中数据信息,包括分类名称、分类编码、分类描述、完整上级编码数据信息,并校验信息的合法性,比对验证完整上级编码;
该步骤S05中,具体地,可包括步骤:S051:进一步地,步骤S05中,拆分完整上级编码数据(可根据预先定义的数据资源编码标准拆分,拆分后可便于对比是否一致),校验是否有效性,清洗错误数据;S052:进一步地,步骤S05中,获取分类名称、分类编码,校验是否重复性(入库的信息项只能有唯一的编码标识),清洗重复数据;
S06:进一步地,步骤S03中,循环获取第二个信息资源信息模板表(如图3所示)中数据信息,包括信息资源完整分类编码、信息资源名称、信息资源编码、信息资源摘要、提供方名称、资源提供方代码、信息资源格式分类、信息资源格式类型、其他类型资源格式描述数据信息,并校验信息的合法性,将该完整分类编码作为目标关联数据,如果编码存在,认为合法数据(具体可认为该模版中的某条信息是合法数据);
该步骤S06中,具体地,可包括步骤:S061:进一步地,步骤S06中,拆分完整分类编码数据,与第一个信息资源分类模板表中完整上级编码和分类编码拼接后校验是否有效性,清洗错误数据;S62:进一步地,步骤S06中,获取信息资源名称、信息资源编码,与入库数据校验是否重复性,清洗重复数据;S063:进一步地,步骤S06中,获取信息资源格式分类、信息资源格式类型,校验格式类型是否不全,清洗不全数据;
S07:进一步地,步骤S03中,循环获取第三个信息项模板表(如图4所示)中数据信息,包括完整的分类编码、信息资源编码、信息项名称、信息项编码、数据类型、数据长度、共享类型、共享条件、共享方式分类、共享方式类型、开放类型、开放条件数据信息,并校验信息的合法性,将该完整的分类编码及信息资源编码作为目标关联数据,如果存在关联,则认为合法数据,无需处理;
该步骤S07中,具体地,可包括步骤:S071:进一步地,步骤S07中,拆分完整分类编码数据,与第二个信息资源分类模板表中完整上级编码和信息资源编码拼接后校验是否有效性,清洗错误数据;S072:进一步地,步骤S07中,将信息资源编码与第二个信息资源分类模板表中信息资源编码比对校验是否有效性,清洗错误数据;S73:进一步地,步骤S07中,获取信息项名称、信息项编码,与入库数据校验是否重复性,清洗重复数据;
S08:进一步地,步骤S07中,获取数据类型、数据长度、共享类型、共享条件、共享方式分类、共享方式类型、开放类型、开放条件数据信息进行合法验证,重构统一。
该实施例中,系统建设选用模块化技术,可采用前后端分离的架构。后端模块设计可采用微服务架构进行设计开发,可通过Web前端实现业务逻辑配置。系统可采用现有业界主流的技术和平台进行开发与集成,容器及调度技术可采用现有产业界主流技术。同时,可具备接入其他技术和平台的能力;系统功能方便扩展,可通过扩展实现新增功能,还可通过扩展实现和现有平台的集成;系统的从服务响应时间、异常处理的等级和应对方案、故障修改时间的维度体现的更为迅速;系统中的网络设备、主机及存储、操作系统、数据库、应用系统、关键数据的安全保护上更为有效;系统对于对象化/组件化设计、设计业务和功能的分离、程序与数据的分离、集中图形界面维护上更为便利的进行维护操作;系统随着业务量的增长和新业务的出现,通过主机/网络、应用架构、业务功能和数据存储更具有可扩展性;系统随着业务量的增长和新业务的出现,更为有效的通过主机系统、网络系统、操作系统、数据库系统、业务应用系统和外围设备向新的系统架构平滑移植。
综上所述,本发明实施例的信息资源编目文件的数据清洗方法、计算机设备及计算机可读存储介质,能够实现对包含信息资源分类模板表、信息资源信息模板表及信息项模板表的信息资源编目文件中的不合法数据、重复数据、错误数据、不全数据等清洗,可以将各种数据资源高效地组织和管理起来,方便按目录的方式访问数据资源。
在本说明书的描述中,参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本发明的实施,其中的步骤顺序不作限定,可根据需要作适当调整。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种信息资源编目文件的数据清洗方法,其特征在于,包括:
获取包含信息资源分类模板表、信息资源信息模板表及信息项模板表的信息资源编目文件;
对信息资源编目文件中信息资源分类模板表、信息资源信息模板表及信息项模板表的表信息及表关系进行有效性分析及错误检查;
获取信息资源编目文件中信息资源分类模板表中的分类名称、分类编码及完整上级分类编码,根据分类名称和分类编码清洗信息资源分类模板表中的重复数据,根据完整上级分类编码清洗信息资源分类模板表中的不合法数据;
获取信息资源编目文件中信息资源信息模板表中的信息资源完整分类编码、信息资源名称、信息资源编码、信息资源格式分类及信息资源格式类型,根据信息资源完整分类编码校验信息资源信息模板表中数据信息的合法性,根据信息资源完整分类编码与信息资源分类模板表中的完整上级分类编码和分类编码清洗信息资源信息模板表中的错误数据,根据信息资源名称和信息资源编码清洗信息资源信息模板表中的重复数据,根据信息资源格式分类和信息资源格式类型清洗信息资源信息模板表中的不全数据;
获取信息资源编目文件中信息项模板表中的完整分类编码、信息资源编码、信息项名称及信息项编码,根据信息项模板表中的完整分类编码与信息资源分类模板表中的完整上级分类编码和分类编码清洗信息项模板表中的错误数据,根据信息项模板表中的信息资源编码和信息资源信息模板表中的信息资源编码清洗错误数据,根据信息项模板表中的信息项名称和信息项编码清洗信息项模板表中的重复数据;
获取信息项模板表中的数据类型、数据长度、共享类型、共享条件、共享方式分类、共享方式类型、开放类型及开放条件中的一个或多个数据信息进行合法性验证,并对不合法数据信息进行统一重构;
所述对信息资源编目文件中信息资源分类模板表、信息资源信息模板表及信息项模板表的表信息及表关系进行有效性分析及错误检查,包括:
比对信息资源编目文件中信息资源分类模板表、信息资源信息模板表及信息项模板表的表名称;
比对信息资源分类模板表中的分类编码、信息资源分类模板表中的完整上级分类编码、信息资源信息模板表中的信息资源完整分类编码、信息项模板表中的完整分类编码、及信息项模板表中的信息资源编码之间的映射关系;
校验信息资源编目文件中信息资源分类模板表、信息资源信息模板表及信息项模板表的文件名格式一致性。
2.如权利要求1所述的信息资源编目文件的数据清洗方法,其特征在于,获取包含信息资源分类模板表、信息资源信息模板表及信息项模板表的信息资源编目文件,包括:
通过http协议获取包含信息资源分类模板表、信息资源信息模板表及信息项模板表的信息资源编目文件。
3.如权利要求1所述的信息资源编目文件的数据清洗方法,其特征在于,
根据分类名称和分类编码清洗信息资源分类模板表中的重复数据,包括:
根据分类名称和分类编码校验信息资源分类模板表中数据信息的重复性,并清洗信息资源分类模板表中的重复数据信息。
4.如权利要求1所述的信息资源编目文件的数据清洗方法,其特征在于,
根据信息资源完整分类编码校验信息资源信息模板表中数据信息的合法性,包括:
判断信息资源信息模板表中信息资源完整分类编码的数据是否存在,若存在,则确定信息资源信息模板表中相应数据信息为合法数据;
根据信息资源完整分类编码、分类编码及完整上级分类编码清洗信息资源信息模板表中的错误数据,包括:
拆分信息资源完整分类编码,通过比对拆分后的信息资源完整分类编码与分类编码和完整上级分类编码校验信息资源信息模板表中数据的有效性,将校验无效的数据作为错误数据,并清洗信息资源信息模板表中的错误数据;
根据信息资源名称和信息资源编码清洗信息资源信息模板表中的重复数据,包括:
根据信息资源名称和信息资源编码校验信息资源信息模板表中的重复数据,并清洗信息资源信息模板表中的重复数据;
根据信息资源格式分类和信息资源格式类型清洗信息资源信息模板表中的不全数据,包括:
根据信息资源格式分类和信息资源格式类型校验信息资源信息模板表中的信息资源格式类型不全的数据,并清洗信息资源信息模板表中信息资源格式类型不全的数据。
5.如权利要求1所述的信息资源编目文件的数据清洗方法,其特征在于,
根据信息项模板表中的完整的分类编码与信息资源分类模板表中的完整上级分类编码和分类编码清洗信息项模板表中的错误数据,包括:
拆分信息项模板表中的完整分类编码,通过比对拆分后的完整分类编码与信息资源分类模板表中的完整上级分类编码和分类编码校验信息项模板表中数据的有效性,将无效数据作为无效数据,并清洗信息项模板表中的无效数据;
根据信息项模板表中的信息资源编码和信息资源信息模板表中的信息资源编码清洗错误数据,包括:
通过比对信息项模板表中的信息资源编码和信息资源信息模板表中的信息资源编码校验信息项模板表中数据的有效性,将无效数据作为错误数据,并清洗错误数据;
根据信息项模板表中的信息项名称和信息项编码清洗信息项模板表中的重复数据,包括:
根据信息项模板表中的信息项名称和信息项编码校验信息项模板表中的重复数据,并清洗重复数据。
6.如权利要求4所述的信息资源编目文件的数据清洗方法,其特征在于,拆分信息资源完整分类编码,通过比对拆分后的信息资源完整分类编码与分类编码和完整上级分类编码校验信息资源信息模板表中数据的有效性,包括
根据分隔符拆分信息资源完整分类编码,通过比对将拆分后的信息资源完整分类编码与分类编码和完整上级分类编码校验信息资源信息模板表中数据的有效性,其中,信息资源完整分类编码由分类编码和完整上级分类编码通过分隔符连接成。
7.如权利要求5所述的信息资源编目文件的数据清洗方法,其特征在于,拆分信息项模板表中的完整分类编码,通过比对拆分后的完整分类编码与信息资源分类模板表中的完整上级分类编码和分类编码校验信息项模板表中数据的有效性,包括:
根据分隔符拆分信息项模板表中的完整分类编码,通过比对拆分后的完整分类编码与信息资源分类模板表中的完整上级分类编码和分类编码校验信息项模板表中数据的有效性,其中,完整分类编码由分类编码和完整上级分类编码通过分隔符连接成。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110595298.5A CN113515511B (zh) | 2021-05-28 | 2021-05-28 | 信息资源编目文件的数据清洗方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110595298.5A CN113515511B (zh) | 2021-05-28 | 2021-05-28 | 信息资源编目文件的数据清洗方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113515511A CN113515511A (zh) | 2021-10-19 |
CN113515511B true CN113515511B (zh) | 2022-11-11 |
Family
ID=78065160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110595298.5A Active CN113515511B (zh) | 2021-05-28 | 2021-05-28 | 信息资源编目文件的数据清洗方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113515511B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018036324A1 (zh) * | 2016-08-26 | 2018-03-01 | 中兴通讯股份有限公司 | 一种智慧城市信息共享的方法和装置 |
CN109254971A (zh) * | 2018-08-31 | 2019-01-22 | 新华三大数据技术有限公司 | 资源编目方法及装置 |
CN109688223A (zh) * | 2018-12-27 | 2019-04-26 | 华迪计算机集团有限公司 | 生态环境数据资源共享方法及装置 |
CN109783598A (zh) * | 2018-12-25 | 2019-05-21 | 杭州数梦工场科技有限公司 | 信息资源的编目方法、装置、电子设备及存储介质 |
CN111091881A (zh) * | 2019-12-28 | 2020-05-01 | 北京颐圣智能科技有限公司 | 医疗信息分类方法、医疗分类信息的存储方法及计算设备 |
CN111752249A (zh) * | 2020-07-06 | 2020-10-09 | 成都信息工程大学 | 一种应用于离散制造业生产过程的数据采集和编目方法、系统、终端设备及存储介质 |
CN112182138A (zh) * | 2019-07-03 | 2021-01-05 | 北京京东尚科信息技术有限公司 | 一种目录编制方法和装置 |
CN112800171A (zh) * | 2020-12-29 | 2021-05-14 | 勤智数码科技股份有限公司 | 一种基于行政区域关系快速形成目录分类的方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104035754A (zh) * | 2013-03-05 | 2014-09-10 | 北大方正集团有限公司 | 一种基于xml的自定义代码生成方法及生成器 |
CN108257043B (zh) * | 2018-01-16 | 2021-07-27 | 航天科工智慧产业发展有限公司 | 一种政务信息资源梳理及目录管理系统和方法 |
CN109871861B (zh) * | 2018-12-27 | 2023-05-23 | 航天信息股份有限公司 | 一种用于为目标数据提供编码的系统及方法 |
CN112685385B (zh) * | 2020-12-31 | 2021-11-16 | 广西中科曙光云计算有限公司 | 一种用于智慧城市建设的大数据平台 |
-
2021
- 2021-05-28 CN CN202110595298.5A patent/CN113515511B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018036324A1 (zh) * | 2016-08-26 | 2018-03-01 | 中兴通讯股份有限公司 | 一种智慧城市信息共享的方法和装置 |
CN109254971A (zh) * | 2018-08-31 | 2019-01-22 | 新华三大数据技术有限公司 | 资源编目方法及装置 |
CN109783598A (zh) * | 2018-12-25 | 2019-05-21 | 杭州数梦工场科技有限公司 | 信息资源的编目方法、装置、电子设备及存储介质 |
CN109688223A (zh) * | 2018-12-27 | 2019-04-26 | 华迪计算机集团有限公司 | 生态环境数据资源共享方法及装置 |
CN112182138A (zh) * | 2019-07-03 | 2021-01-05 | 北京京东尚科信息技术有限公司 | 一种目录编制方法和装置 |
CN111091881A (zh) * | 2019-12-28 | 2020-05-01 | 北京颐圣智能科技有限公司 | 医疗信息分类方法、医疗分类信息的存储方法及计算设备 |
CN111752249A (zh) * | 2020-07-06 | 2020-10-09 | 成都信息工程大学 | 一种应用于离散制造业生产过程的数据采集和编目方法、系统、终端设备及存储介质 |
CN112800171A (zh) * | 2020-12-29 | 2021-05-14 | 勤智数码科技股份有限公司 | 一种基于行政区域关系快速形成目录分类的方法 |
Non-Patent Citations (1)
Title |
---|
共享环境下的图书馆编目数据整合研究;王思敏、宋爱香;《科技风》;20190823;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113515511A (zh) | 2021-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8881131B2 (en) | Method and apparatus for populating a software catalogue with software knowledge gathering | |
CN107818150B (zh) | 一种日志审计方法及装置 | |
US7971231B2 (en) | Configuration management database (CMDB) which establishes policy artifacts and automatic tagging of the same | |
CN109040252A (zh) | 文件传输方法、系统、计算机设备和存储介质 | |
CN106682097A (zh) | 一种处理日志数据的方法和装置 | |
US20090204617A1 (en) | Content acquisition system and method of implementation | |
US9069771B2 (en) | Music recognition method and system based on socialized music server | |
CN106708965A (zh) | 一种数据的处理方法和装置 | |
CN111026961A (zh) | 标引多重数据元素内的感兴趣的数据的方法及系统 | |
CN104462096A (zh) | 舆情监测分析方法和装置 | |
WO2011148377A1 (en) | Data tagging | |
CN111737528A (zh) | 一种数据采集校验方法、装置、电子设备及存储介质 | |
CN110008462A (zh) | 一种命令序列检测方法及命令序列处理方法 | |
Jeziorowski et al. | Towards image-based dark vendor profiling: an analysis of image metadata and image hashing in dark web marketplaces | |
CN113515511B (zh) | 信息资源编目文件的数据清洗方法及装置 | |
Du et al. | Deduplicated disk image evidence acquisition and forensically-sound reconstruction | |
Green et al. | Define “authoring tool”: a survey of interactive narrative authoring tools | |
CN110795520A (zh) | 一种数字化地质资料包目录与文件关联关系自动识别方法 | |
Ajienka et al. | The relevance of application domains in empirical findings | |
CN103559225A (zh) | Web服务资源库数据的清洗方法和服务器 | |
CN113138974A (zh) | 数据库合规检测的方法和装置 | |
Vanya et al. | Supporting software architects to improve their software system's decomposition–lessons learned | |
CN105531697B (zh) | 一种内容信息处理方法和系统 | |
Conway et al. | Preservation network models: Creating stable networks of information to ensure the long term use of scientific data | |
US20120136828A1 (en) | Systems and methods for replicating a group of data objects within a storage network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |