CN113535938A

CN113535938A - 基于内容识别的标准数据构建方法、系统、设备及介质

Info

Publication number: CN113535938A
Application number: CN202110829959.6A
Authority: CN
Inventors: 白格日乐图
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2021-07-22
Filing date: 2021-07-22
Publication date: 2021-10-22

Abstract

本发明公开了一种基于内容识别的标准数据构建方法、系统、设备及介质，标准数据构建方法包括：数据源预处理步骤：对数据源的元数据及数据内容进行预处理获得数据的数据特征；匹配指数获得步骤：根据数据的数据特征、元数据及/或字典码表通过数据标准化元模型算法进行关联获得标准数据，并计算标准数据的元数据与数据特征的匹配指数；标准数据推荐步骤：根据匹配指数选择至少一所述标准数据后，对标准数据进行验证后输出标准化程度评估结果，根据标准化程度评估结果推荐标准数据。通过本发明实现了数据元、元数据、数据内容、字典码表的自动标准化，结合人机互操作，构建标准数据层，提高数据质量和治理效率。

Description

基于内容识别的标准数据构建方法、系统、设备及介质

技术领域

本发明涉及数据处理技术领域，特别涉及一种基于内容识别的标准数据构建方法、系统、设备及介质。

背景技术

通过对在线文档进行标签提取，可以更加有效的支撑知识库的文档检索，推荐等智能化服务。文档标签的提取是通过nlp等技术从文档中抽取一条或几条文档的重要信息，这些信息是用户真正关注的内容，包括实体、关键短语等。利用这些标签可以使文档的查询，推荐等服务更加智能，更加准确，从而提升效率。信息时代数据作为重要的生产要素，在各行各业特别重视数据资产，数据治理再IT建设和企业治理过程中越来越重要。由于IT系统建设历史原因及个性化数据加工生产需求，存在数据源繁杂且标准不统一，数据质量参差不齐的情况。尽管在国家、行业层面定义各类数据的数据元、数据项、字典及接口标准来引导标准化建设工作，仍缺乏高效的工具支撑及标准和指导规范覆盖不到方方面面的业务情况。

现有技术中，以数据治理流程约束的人工对照国家/行业标准，在数据准备阶段，引入关键词匹配规则实现数据项的自动标准化工作。一般的实现方式为：在数据元管理时将别名、关键词定义，且不断维护更新数据元的定义。对于将要标准化的数据项，通过关键词匹配规则，自动映射对应的数据元，实现数据项的自动标准化。但是基于关键词匹配规则实现，存在大量的规则维护工作且自动化效果较差情况，还需要大量的人工梳理工作。而字典码表、数据内容未做标准化处理，导致数据的表里不一，数据标准无法贯彻执行。

由此可见，现有技术的数据标准化工作主要由人工对照规范或者基于关键词规则自动标准化数据项，对字典码表、数据内容未做自动标准化，且缺乏数据质量的保证。

因此亟需开发一种克服上述缺陷的基于内容识别的标准数据构建方法、系统、设备及介质。

发明内容

针对上述问题，本申请实施例提供了一种基于内容识别的标准数据构建方法、系统、设备及介质，以至少解决提升数据质量的问题。

本发明提供一种基于内容识别的标准数据构建方法，其中，包括：

数据源预处理步骤：对数据源的元数据及数据内容进行预处理获得数据的数据特征；

匹配指数获得步骤：根据所述数据的数据特征、元数据及/或字典码表通过数据标准化元模型算法进行关联获得标准数据，并计算所述标准数据的元数据与数据特征的匹配指数；

标准数据推荐步骤：根据所述匹配指数选择至少一所述标准数据后，对所述标准数据进行验证后输出标准化程度评估结果，根据所述标准化程度评估结果推荐所述标准数据。

上述的标准数据构建方法，其中，所述匹配指数获得步骤包括：

标准数据获取步骤：根据所述数据的数据特征及所述元数据通过所述数据标准化元模型算法进行关联获得所述标准数据；

初始匹配指数获得步骤：通过所述数据标准化元模型算法根据数据特征及所述元数据获得多个初始匹配指数；

第一匹配指数获得步骤：根据多个所述初始匹配指数通过加权计算获得第一匹配指数；

其中，所述标准数据推荐步骤中根据所述第一匹配指数选择至少一所述标准数据。

标准数据获取步骤：根据所述数据的数据特征、所述元数据及字典码表通过数据标准化元模型算法进行关联获得所述标准数据及字典码表标识；

字典码表标识判断步骤：对每一所述标准数据的所述字典码表标识进行判断；

第二匹配指数获得步骤：当所述字典码表标识为1时，所述标准数据通过字典码表匹配度算法获得第二匹配指数；

其中，所述标准数据推荐步骤中根据所述第二匹配指数选择至少一所述标准数据。

上述的标准数据构建方法，其中，还包括：

新增推荐步骤：将所述标准数据推荐步骤中未匹配的数据特征及/或字典码表标识推荐到前端，进行新增数据元及/或字典码表的操作。

本发明还提供一种基于内容识别的标准数据构建系统，其中，包括：

数据源预处理单元，对数据源的元数据及数据内容进行预处理获得数据的数据特征；

匹配指数获得单元，根据所述数据的数据特征、元数据及/或字典码表通过数据标准化元模型算法进行关联获得标准数据，并计算所述标准数据的元数据与数据特征的匹配指数；

标准数据推荐单元，根据所述匹配指数选择至少一所述标准数据后，对所述标准数据进行验证后输出标准化程度评估结果，根据所述标准化程度评估结果推荐所述标准数据。

上述的标准数据构建系统，其中，所述匹配指数获得单元包括：

标准数据获取模块，根据所述数据的数据特征及所述元数据通过所述数据标准化元模型算法进行关联获得所述标准数据；

初始匹配指数获得模块，通过所述数据标准化元模型算法根据数据特征及所述元数据获得多个初始匹配指数；

第一匹配指数获得模块，根据多个所述初始匹配指数通过加权计算获得第一匹配指数；

其中，所述标准数据推荐单元根据所述第一匹配指数选择至少一所述标准数据。

标准数据获取模块，根据所述数据的数据特征、所述元数据及字典码表通过数据标准化元模型算法进行关联获得所述标准数据及字典码表标识；

字典码表标识判断模块，对每一所述标准数据的所述字典码表标识进行判断；

第二匹配指数获得模块，当所述字典码表标识为1时，所述标准数据通过字典码表匹配度算法获得第二匹配指数；

其中，所述标准数据推荐单元根据所述第二匹配指数选择至少一所述标准数据。

上述的标准数据构建系统，其中，还包括：

新增推荐单元，将所述标准数据推荐步骤中未匹配的数据特征及/或字典码表标识推荐到前端，进行新增数据元及/或字典码表的操作。

本发明还提供一种设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上述中任一项所述的标准数据构建方法。

本发明还提供一种介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如上述中任一项所述的标准数据构建方法。

本发明结合内容识别技术，实现数据元、元数据、数据内容、字典码表的自动标准化，结合人机互操作，构建标准数据层，提高数据质量和治理效率，进而提升数据能力，尤其是数据组织存储能力。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的标准数据构建方法的流程图；

图2为图1中步骤S2第一实施例的分步骤流程图；

图3为图1中步骤S2第二实施例的分步骤流程图；

图4为本发明的标准数据构建系统的结构示意图；

图5为本发明的设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。另外，在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。

关于本文中所使用的“第一”、“第二”、“S1”、“S2”、…等，并非特别指称次序或顺位的意思，也非用以限定本发明，其仅为了区别以相同技术用语描述的元件或操作。

关于本文中所使用的方向用语，例如：上、下、左、右、前或后等，仅是参考附图的方向。因此，使用的方向用语是用来说明并非用来限制本创作。

关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等，均为开放性的用语，即意指包含但不限于。

关于本文中所使用的“及/或”，包括所述事物的任一或全部组合。

关于本文中的“多个”包括“两个”及“两个以上”；关于本文中的“多组”包括“两组”及“两组以上”。

关于本文中所使用的用语“大致”、“约”等，用以修饰任何可以微变化的数量或误差，但这些微变化或误差并不会改变其本质。一般而言，此类用语所修饰的微变化或误差的范围在部分实施例中可为20％，在部分实施例中可为10％，在部分实施例中可为5％或是其他数值。本领域技术人员应当了解，前述提及的数值可依实际需求而调整，并不以此为限。

某些用以描述本申请的用词将于下或在此说明书的别处讨论，以提供本领域技术人员在有关本申请的描述上额外的引导。

数据标准化：对数据定义、组织、监督和保护进行标准化的过程，通过对数据元、数据项、字典的标准化管理和数据内容标准化处理，提供统一的标准数据层。

数据元：也称为数据元素，是用一组属性描述其定义、标识、表示和允许值的数据单元，在一定语境下，通常用于构建一个语义正确、独立且无歧义的特定概念语义的信息单元。

数据项：数据元素可由若干个数据项(data item)组成，数据项是数据的不可分割的最小单位。

字典：也称码表，对于数据内容枚举值的描述。

元模型：元模型定义了描述某一模型的规范，具体来说就是组成模型的元素和元素之间的关系。在此文中为描述元数据之间关系的模型。

本发明基于数据源的元数据及数据内容，不断训练数据标准化元模型，实现新增数据元/字典码表推荐、数据项自动匹配、字典码表自动匹配、数据内容标准化验证后推荐输出以下结合附图对本发明进行具体说明如下。

请参照图1，图1为本发明的标准数据构建方法的流程图。如图1所示，本发明的基于内容识别的标准数据构建方法包括：

数据源预处理步骤S1：对数据源的元数据及数据内容进行预处理获得数据的数据特征。

具体来说，在本步骤中，将数据源的元数据及数据内容根据模型需要的内容进行计算预处理，输出数据源的数据特征，即表1。数据特征主要包括：每个字段的最小长度、平均长度、最大长度、取值范围、抽样数据、空值比例等。

表1：

匹配指数获得步骤S2：根据所述数据的数据特征、元数据及/或字典码表通过数据标准化元模型算法进行关联获得标准数据，并计算所述标准数据的元数据与数据特征的匹配指数。

标准数据推荐步骤S3：根据所述匹配指数选择至少一所述标准数据后，对所述标准数据进行验证后输出标准化程度评估结果，根据所述标准化程度评估结果推荐所述标准数据。

具体地说，基于前述步骤数据元标准化映射及数据处理已完成，在本步骤中需要根据数据源内容的抽样计算，输出数据内容的标准化程度评估结果，将元模型验证标准化程度较低的具体数据项及样例数据输出，可进行人工二次确认。

具体来说，数据标准化元模型，基于预处理数据，即主要为数据资源名称、数据字段名称、数据字段注释、样例数据，与元数据、字典码表，对数据源的字段名称进行语义相似度算法计算，得出每个数据源字段所对应的匹配指数，本发明的语义相似度算法支持算法包配置，且支持多个算法包使用及指数综合计算

需要说明的是，其中数据字段名称一般为英文简写、英文全写、拼音首字母简写、拼音全写等情况，算法包需要实现这4类情况的计算处理。数据字段注释一般为中文，算法先处理中文的计算处理。

其中，在本实施例中以数据字段名称和元数据名称进行匹配为例，但本发明并不以此为限。

请参照图2，图2为图1中步骤S2第一实施例的分步骤流程图。如图2所示，所述匹配指数获得步骤S2包括：

标准数据获取步骤S21：根据所述数据的数据特征及所述元数据通过所述数据标准化元模型算法进行关联获得所述标准数据；

初始匹配指数获得步骤S22：通过所述数据标准化元模型算法根据数据特征及所述元数据获得多个初始匹配指数；

第一匹配指数获得步骤S23：根据多个所述初始匹配指数通过加权计算获得第一匹配指数。

具体地说，参见表2，举例来说数据字段名称：cardno与元数据名称：librarycardno经过计算获得三个初始匹配指数0.8、0.9、0.92，将三个初始匹配指数0.8、0.9、0.92通过设置对应的权重，即0.8*20％+0.9*40％+0.92*40％，计算获得第一匹配指数0.888，所有计算完成后，将数据元与元数据综合匹配度最高的第一匹配指数对应的标准数据，经过人工确认后，作为正样本或负样本进行输出，其中在本实施例中，可以通过设置阈值的方式选择至少一标准数据输出。

表2：

其中，在本实施例中，所述标准数据推荐步骤S3中根据所述第一匹配指数选择至少一所述标准数据。

由此本发明将人工数据标准梳理流程自动化，提高数据梳理、数据准备工作效率；通过人机交互操作，人工确认数据将作为反馈数据，提高元模型准确率；元模型约束元数据的更新机制，保证元数据的一致性；通过元模型固化及数据内容标准化验证方式，减少人工操作导致的错误和遗漏。

请参照图3，图3为图1中步骤S2第二实施例的分步骤流程图。如图3所示，在本实施例中，所述匹配指数获得步骤S2包括：

标准数据获取步骤S21’：根据所述数据的数据特征、所述元数据及字典码表通过数据标准化元模型算法进行关联获得所述标准数据及字典码表标识；

初始匹配指数获得步骤S22’：通过所述数据标准化元模型算法根据数据特征及所述元数据获得多个初始匹配指数；

第一匹配指数获得步骤S23’：根据多个所述初始匹配指数通过加权计算获得第一匹配指数；

字典码表标识判断步骤S24’：对每一所述标准数据的所述字典码表标识进行判断；

第二匹配指数获得步骤S25’：当所述字典码表标识为1时，所述标准数据通过字典码表匹配度算法获得第二匹配指数。

其中，所述标准数据推荐步骤S3中根据所述第二匹配指数选择至少一所述标准数据。具体地说，若匹配的元数据为枚举类型数据，则计算结果标识为字典码表，如果字典码表标识为1，则进入字典码表匹配度算法模型。基于第一匹配指数，当第一匹配指数满足某个阈值的映射关系，计算数据项所有枚举值与字典码表数据获得第二匹配指数，将第二匹配指数最高的1个或多个标准数据进行推荐。

更进一步地，所述标准数据构建方法还包括：

新增推荐步骤S4：将所述标准数据推荐步骤中未匹配的数据特征及/或字典码表标识推荐到前端，进行新增数据元及/或字典码表的操作。

请参照图4，图4为本发明的标准数据构建系统的结构示意图。如图4所示，本发明的基于内容识别的标准数据构建系统包括：

数据源预处理单元11，对数据源的元数据及数据内容进行预处理获得数据的数据特征；

匹配指数获得单元12，根据所述数据的数据特征、元数据及/或字典码表通过数据标准化元模型算法进行关联获得标准数据，并计算所述标准数据的元数据与数据特征的匹配指数；

标准数据推荐单元13，根据所述匹配指数选择至少一所述标准数据后，对所述标准数据进行验证后输出标准化程度评估结果，根据所述标准化程度评估结果推荐所述标准数据；

新增推荐单元14，将所述标准数据推荐步骤中未匹配的数据特征及/或字典码表标识推荐到前端，进行新增数据元及/或字典码表的操作。

在本发明的一实施例中，所述匹配指数获得单元S12包括：

在本发明的另一实施例中，所述匹配指数获得单元S12包括：

请参照图5，图5为本发明的设备的结构示意图。如图5所示，本实施例揭示了一种设备的一种具体实施方式。电子设备可以包括处理器81以及存储有计算机程序指令的存储器82。

具体地，上述处理器81可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器82可包括硬盘驱动器(Hard Disk Drive，简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器82可在数据处理装置的内部或外部。在特定实施例中，存储器82是非易失性(Non-Volatile)存储器。在特定实施例中，存储器82包括只读存储器(Read-Only Memory，简称为ROM)和随机存取存储器(RandomAccess Memory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory，简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory，简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory，简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(Static Random-Access Memory，简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory，简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory，简称SDRAM)等。

存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器81所执行的可能的计算机程序指令。

处理器81通过读取并执行存储器82中存储的计算机程序指令，以实现上述实施例中的任意一种标准数据构建方法。

在其中一些实施例中，电子设备还可包括通信接口83和总线80。其中，如图5所示，处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。

通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线80包括硬件、软件或两者，将电子设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一：数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制，总线80可包括图形加速接口(Accelerated Graphics Port，简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，简称为EISA)总线、前端总线(FrontSide Bus，简称为FSB)、超传输(Hyper Transport，简称为HT)互连、工业标准架构(Industry Standard Architecture，简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count，简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture，简称为MCA)总线、外围组件互连(Peripheral Component Interconnect，简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment，简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus，简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

另外，结合上述实施例中处理方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种标准数据构建方法。

综上所述，本发明基于内容识别技术，不断训练元模型算法具有以下有益效果：

1、随着处理数据类型增多，元模型算法不断积累和增强；

2、实现数据元的自定义及更新；

3、实现数据项的自动标准化及修正；

4、实现数据内容的标准化验证及修正；

5、实现字典码表的标准化验证及修正。

尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于内容识别的标准数据构建方法，其特征在于，包括：

2.如权利要求1所述的标准数据构建方法，其特征在于，所述匹配指数获得步骤包括：

3.如权利要求1所述的标准数据构建方法，其特征在于，所述匹配指数获得步骤包括：

4.如权利要求3所述的标准数据构建方法，其特征在于，还包括：

5.一种基于内容识别的标准数据构建系统，其特征在于，包括：

6.如权利要求5所述的标准数据构建系统，其特征在于，所述匹配指数获得单元包括：

7.如权利要求5所述的标准数据构建系统，其特征在于，所述匹配指数获得单元包括：

8.如权利要求7所述的标准数据构建系统，其特征在于，还包括：

9.一种设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的标准数据构建方法。

10.一种介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至4中任一项所述的标准数据构建方法。