CN109446190B

CN109446190B - 一种标准元数据的数据处理方法

Info

Publication number: CN109446190B
Application number: CN201811318735.3A
Authority: CN
Inventors: 徐术坤; 石莹; 华振楠; 莫颜君; 邵璇; 胡妮丽; 杨易; 韩阳昱
Original assignee: Hubei Standardization And Quality Institute
Current assignee: Hubei Standardization And Quality Institute
Priority date: 2018-11-07
Filing date: 2018-11-07
Publication date: 2022-11-01
Anticipated expiration: 2038-11-07
Also published as: CN109446190A

Abstract

本发明涉及一种标准元数据的数据处理方法，它包括以下步骤：步骤1、对标准元数据进行格式化的步骤；步骤2、将标准数据与系统内目标数据作比较的步骤；步骤3、将标准数据内的各项字段内容与系统内目标数据的各项字段内容作比较的步骤；步骤4、通过年代号对标准数据有效性进行判断，建立废代关系，完成。本发明方法可对待录入的标准元数据进行规范化处理，使元数据质量较好，减少工作量，提高工作效率。

Description

一种标准元数据的数据处理方法

技术领域

本发明涉及数据处理方法，尤其是标准元数据的数据处理方法。

背景技术

目前，技术标准的更新速度越来越快，且随着网络数据的发展，各种各样的标准元数据数量急剧增长。由于增长的标准元数据质量参差不齐，各种来源存在大量“脏”数据，给后续的基于其上的业务带来了不小的麻烦。因为一旦标准元数据的质量处理不好，基于其上的业务逻辑便会产生问题，以致带来损失。特别是标准文献的查询销售网站，重复数据较多、质量不高、信息包含内容不全，就可能导致用户查询不到需要信息或不知如何下订单。在过去，这类问题通常是由人工判断，但随着标准数据量的不断增长和积累，由此带来的人力消耗也急剧增加，故如何对大量的标准元数据进行判重处理成了一个首要的问题。

一直以来，业内对于网络非结构数据判重问题研究较多，各种算法成果也层出不穷，且目前的各类搜索引擎中均有运用。但标准元数据作为带语义的结构化数据，其数据质量优化标准和准确度的要求都更为精确。故现有的对于非结构化数据的质量优化方案，并不能完全满足标准数据高质量的要求。

发明内容

本发明所要解决的技术问题是：提供一种标准元数据的数据处理方法，可对待录入的标准元数据进行规范化处理，使元数据质量较好，减少工作量，提高工作效率。

本发明解决其技术问题所采用的技术方案是：

一种标准元数据的数据处理方法，其特征在于：它包括以下步骤：

步骤1、对标准元数据进行格式化的步骤，得到标准数据；

步骤2、将标准数据与系统内目标数据作比较的步骤，判断是否重复，并做出以下决定：

是，进行步骤3；

或

否，新增数据，保存，进行步骤4；

步骤3、将标准数据内的各项字段内容与系统内目标数据的各项字段内容作比较的步骤，判断相同字段内容是否一致，并做出以下决定：

是，覆盖或合并系统内目标数据的相同字段内容，进行步骤4；

或

否，交人工处理，结束；

步骤4、通过年代号对标准数据有效性进行判断，建立废代关系，完成。

上述方案中，所述标准元数据至少包括标准题录与标准公告。

上述方案中，步骤1具体为：规范化检查的对象为每个标准的唯一标识——标准号，标准号格式规范，直接导入；标准号格式不规范，则进行格式化处理，格式规范后再导入。

本发明优点在于：可以对待录入的标准元数据(脏数据)进行规范化处理，使元数据质量较好，这样在比较录入数据与目标数据时，就能缩小比较范围，减少工作量，提高工作效率。而且，相较于传统的数据交换方式，这种数据质量优化方法可以在数据交换与管理系统内实现一键式操作，降低劳动成本，减少复杂工序，且可以将标准文档与标准数据库条目自动关联，去除重复数据，更加高效地对标准数据进行管理和分析，有效地提高了数据质量，极大地突破了人工处理的难度和繁复性。

附图说明

图1为本发明的流程示意图。

图2为对标准元数据进行格式化步骤的流程示意图。

图3为目标数据比对过程的流程示意图。

具体实施方式

本发明中几个步骤的功能都是通过数据库通用类实现的，主要根据数据库中的表，创建对应的实体类，所有的数据库实体类都放在model包下面，然后根据表的关联创建相应的子包用来存放于数据库相对应的实体类。实体类的类名与数据库的表名相对应，实体类的属性名与数据库的字段名相对应，这样在对数据库进行操作的时候，可以通过实体类对象直接操作每一个属性，使代码更简洁明了。

为使本发明实施例的目的、技术方案和优点更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案及其方法进行清楚、完整地描述。

如图1、2所示，步骤1、对标准元数据进行格式化的步骤，得到标准数据；

标准元数据导入部分，标准题录与公告上传模块的功能是通过AccessUploadController类的upload()方法实现的，通过识别前端界面发送的请求，接收前端界面发送过来的文件，然后解析、存放文件，调用线程对文件中的数据进行处理，处理后再调用OperationRecordService对象中的方法进行操作记录，最后将处理结果返回给前端界面，完成数据的上传导入。

标准数据格式化处理的功能是通过CommonOperationUtil类实现的，当AccessUploadController类调用线程的时候，线程启动，调用CommonOperationUtil类对标准数据进行处理，并且返回处理后的结果。其处理步骤如下：1.根据A462(被代替标准号)对应的标准号的状态设置当前对应的标准的状态。2.处理单个的A462，例如“GB 123-2012”，完整的A462存在“GB 123-2012；ISO 8859-1；GB/T 23-2012(2014)”这样的情形，前面的方法中已做分割，此处会逐一处理。3.国内标准A100(标准号)、A461(代替标准号)、A462字段中标准号后面带括号的题录，系统将会识别相关标准，做如下操作：①系统将该题录括号中的“XXXX(XXXX为四位年份)”信息，放入相关联标准中的确认年份A207题录字段中，例如GB/T 19216-2002(2008)，系统找寻匹配GB/T 19216-2002，并把括号中的2008放入GB/T19216-2002这条题录信息中的A207字段中，②系统将该题录括号中的“XXXX版、条文说明、或其他有中文字的信息”信息，放入相关联标准中的版本A103题录字段中并且同时放入标准名称A298中。标准数据处理完成之后，调用StdService接口中的方法，进行查询、修改数据库中的数据以及将处理好的数据添加到数据库中。这样就完成了标准数据的格式化处理，导入数据库的数据格式都是规范的，保证了数据的规范性。例如：GB/T 1920-98变为GB/T 1920-1998；“20120101”、“2012.01.01”、“2012年1月1日”、“01-01-2012”、“01/01/2012”等统一转换为“2012-01-01”；GB/T 50204-2002(2011版)，系统找寻匹配GB/T 50204-2002并把(2011版)中的“2011版”放入GB/T 50204-2002这条题录信息中的A103字段中和A298字段中，A298字段变为“混凝土结构工程施工及验收规范(2011年版)”。

是，进行步骤3；

或

否，新增数据，保存，进行步骤4；

具体为：如图3所示，将导入的标准数据与系统中的目标数据作比较，进行重复性检查，这个功能是通过StdDuplicationDetectController类中的getduplicationDetectPage()方法和duplicationSearch()方法实现的，getduplicationDetectPage()方法识别前端发送过来的请求，然后调用StdService接口中的方法，获取数据库中所有重复记录，最后将所有的记录返回给前端。duplicationSearch()方法识别前端发送过来的请求，然后获取前端传送过来的参数，然后根据参数调用StdService接口中的方法，查询部分重复记录,其中标准数据的标识符、字段内容见表1。这样就实现了对标准数据的重复性检查，减少了一定的工作量，保证了数据的完整性。

表1标准数据的标识符、字段长度

注：1：标星号“*”的数据项为重要的数据项和必须进行著录的数据项。

2：对于国外标准，英文标准名称和原文标准名称至少有一个为必选项。

是，覆盖或合并系统内目标数据的相同字段内容，保证标准数据中必须著录的各项字段的内容完整、正确，进行步骤4；

或

否，交人工处理，结束；

经过人工处理后仍存在问题的标准数据进入白名单，锁定其状态，不再执行系统的任何其他操作，此外，标准公告中的特例数据(需人为判断)经人工处理后也进入白名单。

然后，步骤4中，通过年代号对标准数据有效性进行判断，建立废代关系，完成数据优化，这个功能对应时效性自动化对比模块，主要通过TimelinessController类的upload()和checkStatus()方法实现。upload()方法识别前端发送的请求，获取前端发送的文件，解压、分析、处理数据。然后调用TimelinessOperationRecordService接口，进行时效性对比；checkStatus()方法识别前端发送的请求，然后调用TimelinessOperationRecordService接口，获取时效对比文件处理的记录，最后将记录返回给前端，从而判断数据的有效性，保证最终数据的正确性。例如，时效性比对结果见表2。

表2时效性比对结果

最后，白名单模块的功能是通过WhiteListController类中的getWhiteList()、setLock()、cancelLock()方法实现的。具体过程如下：getWhiteList()方法识别前端发送的请求，调用StdService接口中的方法，获取所有白名单的记录，并且返回给前端。setLock()方法识别前端发送的请求，获取前端传过来的参数，调用StdService接口中的方法，将相应的数据的白名单状态给设置为锁定状态，将处理结果返回给前端。cancelLock()方法识别前端发送的请求，获取前端传过来的参数，调用StdService接口中的方法，将相应的数据的白名单状态为锁定状态给取消锁定，将处理结果返回给前端。这样可以保证白名单中的数据不会影响数据库中的其他数据。

其中，StdService接口的作用主要是对数据库进行操作，对标准信息进行添加、修改、删除、查询操作。

这样，在对导入的标准数据进行格式化处理、重复性检查和清整优化这几大步骤之后，标准元数据中的脏数据得到了纠错、去重处理，优化了元数据的质量，保证了进入数据库中的大部分数据的规范性、完整性和正确性，与传统的数据交换方式比较，这种数据质量优化方法可以在数据交换与管理系统内实现一键式操作，降低劳动成本，减少复杂工序，提高工作效率，且可以将标准文档与标准数据库条目自动关联，去除重复数据，更加高效地对标准数据进行管理和分析，有效地提高了数据质量，极大地突破了人工处理的难度和繁复性。

Claims

1.标准元数据的数据处理方法，其特征在于：它包括以下步骤：

步骤1、对标准元数据进行格式化的步骤，得到标准数据；

步骤1具体为：规范化检查的对象为每个标准的唯一标识：标准号，若标准号格式规范，直接导入；若标准号格式不规范，则进行格式化处理，格式规范后再导入；

格式化处理具体如下：

1.1)根据标准元数据中被代替标准号字段A462中对应的标准号的状态设置当前对应标准元数据的标准的状态；

1.2)若标准元数据中被代替标准号字段存在多个标准号，则分割为单个的标准号逐一处理；

1.3)根据标准元数据中标准号字段A100、代替标准号字段A461、被代替标准号字段A462中标准号后面带括号的题录，识别相关标准，做如下操作：将该题录括号中的年份信息，放入相关联标准中的确认年份A207题录字段中；然后将该题录括号的“XXXX版、条文说明或其他有中文字的信息”，放入相关联标准版本A103题录字段中并且同时放入标准元数据中标准名称字段A298中；

1.4)标准数据处理完成之后，调用StdService接口中的方法，进行查询、修改数据库中的数据并将处理好的数据添加到数据库中，完成了标准数据的格式化处理；

是，进行步骤3；

或

否，新增数据，保存，进行步骤4；

或

否，交人工处理，结束；

步骤4、通过年代号对标准数据有效性进行判断，建立废代关系，完成；

经过人工处理后仍存在问题的标准数据进入白名单，锁定其状态，不再执行系统的任何其他操作，保证白名单中的数据不会影响数据库中的其他数据；标准公告中的特例数据经人工处理后也进入白名单。

2.如权利要求1所述的数据处理方法，其特征在于：所述标准元数据至少包括标准题录与标准公告。