CN115374108B

CN115374108B - 一种基于知识图谱技术的数据标准生成与自动映射方法

Info

Publication number: CN115374108B
Application number: CN202210869941.3A
Authority: CN
Inventors: 金震; 张京日; 穆宇浩
Original assignee: Beijing SunwayWorld Science and Technology Co Ltd
Current assignee: Beijing SunwayWorld Science and Technology Co Ltd
Priority date: 2022-07-22
Filing date: 2022-07-22
Publication date: 2023-06-20
Anticipated expiration: 2042-07-22
Also published as: CN115374108A

Abstract

本发明提供了一种基于知识图谱技术的数据标准生成与自动映射方法，包括：获取用于生成数据标准的元数据的特征数据集；基于知识图谱技术，处理特征数据集，生成正式发布的数据标准；基于正式发布的数据标准，获得数据标准与元数据的映射关系；获取用于关联管理的待关联元数据，根据所述映射关系，获得与待关联元数据相关联的数据标准。本发明提供了一种基于知识图谱数据标准生成方法，根据对元数据的采集，结合元数据的依赖影响关系，以及元数据内部自身相似性的分析，自动提取形成系列的数据标准，具有智能化、轻量级、可插拔的优势。

Description

一种基于知识图谱技术的数据标准生成与自动映射方法

技术领域

本发明涉及增强数据管理技术领域，具体涉及一种基于知识图谱技术的数据标准生成与自动映射方法。

背景技术

随着移动互联网的发展，互联所产生的数据也在爆发式地增长，这些数据可以作为分析关系的有效原料；知识图谱本质上是语义网络的知识库，是一种用图模型来刻画知识与世界万物之间关联关系的技术和方法，通过可视化来描述知识及其属性间的联系，分析、挖掘知识之间存在的潜在关系的技术；数据标准是有效提升数据质量、建立治理规范的有效手段，而标准的建立，需要综合多个业务系统专家的经验，平衡多个系统的数据规范要求，通常是一个比较耗时费力的过程。

发明内容

本发明提供了一种基于知识图谱技术的数据标准生成与自动映射方法，根据对元数据的采集，结合元数据的依赖影响关系，以及元数据内部的自身相似性的分析，自动提取形成系列的数据标准；具有智能化、轻量级、可插拔等优点。

一种基于知识图谱技术的数据标准生成与自动映射方法，包括：

S1：获取用于生成数据标准的元数据的特征数据集；

S2：基于知识图谱技术，处理特征数据集，生成正式发布的数据标准；

S3：基于正式发布的数据标准，获得数据标准与元数据的映射关系；获取用于关联管理的待关联元数据，根据所述映射关系，获得与待关联元数据相关联的数据标准。

进一步地，S2包括：

S201：基于元数据特征数据集，提取若干个数据标准实体，所述数据标准实体包括标准编号、标准英文名称、标准名称、标准分类、标准类型、创建人、状态和操作；

S202：分析数据标准实体之间的相似性，确定若干个数据标准实体之间的依赖影响关系；

S203：将若干个数据标准实体和若干个数据标准实体之间的依赖影响关系进行融合，生成实体-关系-属性的三元组结构化数据集；

S204：采用Neo4j-import方式将三元组结构化数据集导入预设的Neo4j图数据库，并转化成若干个CSV格式文件；

S205：基于所述若干个CSV格式文件，构建生成待发布数据标准知识图谱；

S206：审核待发布数据标准知识图谱，生成正式发布的数据标准。

进一步地，S206包括：

S2061：基于预设的审核规则，对待发布数据标准知识图谱进行匹配核查；若核查过程中发现错误，则提示错误，并生成第一核查结果报告；

S2062：基于第一核查结果报告，对核查错误进行修改，生成核查数据标准知识图谱；若核查过程中未发现错误，则直接生成核查数据标准知识图谱；

S2063：通过评估人员按照预设的评估流程对核查数据标准知识图谱进行评估，若评估通过，则进行发布，生成正式发布的数据标准。

进一步地，S3包括：

S301：基于正式发布的数据标准，获取数据标准与元数据特征的映射匹配关系规则；

S302：获取用于关联管理的待关联元数据，获得待关联元数据的特征数据集；

S303：基于所述映射匹配关系规则对所述特征数据集中的特征进行映射匹配关系查询，获得若干个与待关联元数据相匹配的数据标准；

S304：将匹配度值大于预设匹配度阈值的数据标准汇总，生成数据标准推荐管理列表。

进一步地，S301包括：

S3011：根据正式发布的数据标准和元数据特征数据集，制定实体映射规则和关系映射规则，根据实体映射规则和关系映射规则，生成映射匹配关系规则；

S3012：将元数据特征数据集划分为训练数据集和验证数据集，基于训练数据集对映射匹配关系规则进行映射测试，获得映射匹配关系规则映射测试准确率；

S3013：根据映射匹配关系规则映射测试准确率，对映射匹配关系规则进行修正后继续测试，直至映射匹配关系规则映射测试准确率符合要求为止。

进一步地，S1包括：

S101：获取数据的全部元数据；

S102：统计获得全部元数据在数据中出现的频次，获得频次数值结果列表；将频次结果列表中的频次数值按照降序排列生成降序排列表；将降序排列表中低于预设序号的频次数值的元数据剔除，得到第一元数据筛选列表；

S103：基于预设的重要性值分析模型，对第一元数据筛选列表的元数据的重要性进行分析，获得元数据的重要性值；将重要性值小于预设重要性阈值的元数据剔除，得到第二元数据筛选列表；获取第二元数据筛选列表中的元数据特征，生成元数据的特征数据集。

进一步地，S103包括构建重要性值分析模型，具体步骤为：

S1031：分析元数据的特征包含关系，根据特征包含子特征的个数，生成该特征所对应的第一重要性权重值；

S1032：分析元数据特征的覆盖范围，根据特征覆盖子特征的层数，生成该特征所对应的第二重要性权重值；

S1033：对第一重要性权重值和第二重要性权重值作求和计算，获得重要性值。

进一步地，S1包括对元数据的特征数据集进行清洗：

S104：基于元数据特征对数据标准的影响程度，构建特征-影响力值的影响力匹配关系库，基于所述影响力匹配关系库，将元数据特征的缺失值进行匹配查询，获得元数据特征的缺失值所对应的影响力值；

S105：判定所述影响力值的大小，若影响力值小于预设的第一影响力阈值，则对该影响力值对应的缺失值执行删除记录操作处理；若影响力值小于预设的第二影响力阈值并大于预设的第一影响力阈值，则对该影响力值对应的缺失值不执行操作处理；若影响力值大于预设的第二影响力阈值，则对该影响力值对应的缺失值执行数据插补操作处理；

S106：基于元数据特征包含信息内容的范围大小，构建特征-包含范围值的包含匹配关系库，基于所述包含匹配关系库，将元数据特征的异常值进行匹配查询，获得元数据特征的异常值所对应的包含范围值；

S107：判定所述包含范围值的大小，若包含范围值小于预设的第一包含范围阈值，则对该包含范围值对应的异常值执行删除记录操作处理；若包含范围值小于预设的第二包含范围阈值并大于预设的第一包含范围阈值，则不执行操作处理；若包含范围值大于预设的第二包含范围阈值，则执行填充操作处理。

进一步地，还包括S4，基于数据标准对用户发起的搜索请求进行语义搜索，具体步骤为：

S401：获取用户发出的所要查询的数据的关键词；

S402：基于语义索引搜索方法，根据关键词的语义概念，采用预设语义索引模型进行匹配搜索，获得所述关键词所对应的语义结果；

S403：基于实例搜索方法，采用数据标准中实体的结构为索引，通过查询实体的属性，获得所述关键词的语义概念对应的实例结果；

S404：获取语义结果和实例结果之间的语义关系，基于预设的语义关系适配规则，将语义结果与实例结果进行关系适配，获得语义结果与实例结果的适配组合结果，将所述适配组合结果生成搜索答案反馈给用户。

进一步地，还包括S5，通过交互查询形式进行查询；具体步骤为：

S501：根据正式发布的数据标准，构建交互数据标准查询系统；所述交互数据标准查询系统包括交互显示界面；所述交互显示界面通过手机APP或电脑Web网页进行显示；

S502：用户在所述交互显示界面输入文本框内输入要查询的第一数据；

S503：交互数据标准查询系统根据所述第一数据，进行处理后生成第一查询结果，并将第一查询结果在交互显示界面进行显示；同时，在显示界面生成交互问答子界面；所述交互问答子界面用于为用户提供反馈问题；所述反馈问题为对查询结果是否满意；

S504：用户通过回答所述反馈问题，对第一查询结果作出反馈内容；所述反馈内容包括满意、不满意；

S505：针对所述不满意的内容，执行S503、S504操作步骤，直至用户作出的反馈内容为满意的为止。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明的一种基于知识图谱技术的数据标准生成与自动映射方法步骤示意图；

图2为本发明的一种基于知识图谱技术的数据标准生成与自动映射方法的生成数据标准的步骤示意图；

图3为本发明的一种基于知识图谱技术的数据标准生成与自动映射方法生成元数据特征数据集的步骤示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

一种基于知识图谱技术的数据标准生成与自动映射方法，如图1所示，包括：

S1：获取用于生成数据标准的元数据的特征数据集；

上述技术方案的工作原理为：元数据的本质是描述数据的数据。知识图谱是一种语义网络，由节点和边组成。其中的节点表示实体，边则表示实体之间的各种语义关系，它能够将不同种类的信息进行连接，进而得到一个关系网络，在此基础上便能通过知识图谱从“关系”的角度去分析问题。基于知识图谱技术，对元数据的特征进行处理生成知识图谱，形成数据标准，可以智能、轻便地实现数据标准的构建。具体步骤为：获取用于生成数据标准的元数据的特征数据集，以用于采用知识图谱技术进行处理；基于知识图谱技术，处理特征数据集，生成正式发布的数据标准；基于正式发布的数据标准，获得数据标准与元数据的映射关系；获取用于关联管理的待关联元数据，根据所述映射关系，获得与待关联元数据相关联的数据标准。

上述技术方案的有益效果为：采用本实施例提供的方案，通过借助智能化技术提高了数据标准的生成速度，提供了可管理的数据标准清单。

在一个实施例中，如图2所示，S2包括：

上述技术方案的工作原理为：知识图谱的构建与应巧需要多种智能信息处理技术的支持，包括实体关联、关系抽取、知识推理和知识表示；Neo4j是使用最为广泛的图数据库，支持Java、python、C#等多种语言，相比于其它存储形式，在图谱的可视化表示方面具有较为完备的技术。考虑到知识图谱的可视化以及后期的融合扩充工作，选择将知识图谱存储至图数据库Neo4j进行集中存储；实体抽取和关系抽取是知识抽取的核心，主要是从文本信息中识别出关键信息；关系抽取，主要是为处理实体间语义链接性问题，通过关系抽取可以挖掘到深层实体之间的关系；具体步骤为：

上述技术方案的有益效果为：采用本实施例提供的方案，通过知识图谱的构建，为数据标准的生成和发布，提供了智能化、快捷性的基础。

在一个实施例中，S206包括：

上述技术方案的工作原理为：通过审核规则和人工审核相结合的方式，可以保证审核的质量；具体步骤为：

上述技术方案的有益效果为：采用本实施例提供的方案，通过采用审核规则和人工审核相结合的方式，提高了审核的质量。

在一个实施例中，S3包括：

上述技术方案的工作原理为：映射匹配关系规则可以更方便地将数据标准和元数据映射出来，从而提高映射的质量；具体步骤为：

上述技术方案的有益效果为：采用本实施例提供的方案，采用映射匹配关系规则，提高了映射的效果，有助于生成高质量的数据标准推荐管理列表。

在一个实施例中，S301包括：

上述技术方案的工作原理为：S301包括：

上述技术方案的有益效果为：采用本实施例提供的方案，通过反复对映射规则测试准确率进行测试，可以保证映射匹配关系规则的有效性、准确性。

在一个实施例中，如图3所示，S1包括：

S101：获取数据的全部元数据；

上述技术方案的工作原理为：元数据在数据中出现的频次，可以反映数据的属性信息在数据中的体现，出现频次越多，说明该属性信息在数据中的特征性越明显；重要性分析则是从数据特征对与数据的重要性的角度来分析，保留重要性值大的特征，有助于获取典型的元数据；具体步骤为：

S101：获取数据的全部元数据；

上述技术方案的有益效果为：采用本实施例提供的方案，通过对元数据在数据中出现的频次分析和重要性分析，可以保证获取到典型的元数据。

在一个实施例中，S103包括构建重要性值分析模型，具体步骤为：

上述技术方案的工作原理为：将特征包含关系、特征的覆盖范围作为重要性分析的条件，从而构建重要性值分析模型，通过分析模型分析出重要性值，可以充分地反映出元数据的重要性；具体步骤为：

上述技术方案的有益效果为：采用本实施例提供的方案，通过将特征包含关系、特征的覆盖范围作为元数据重要性分析的条件，有助于提高重要性分析的质量。

在一个实施例中，S1包括对元数据的特征数据集进行清洗：

上述技术方案的工作原理为：数据清洗是发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等，用于解决部分数据冗余无序、无层次逻辑关系等问题，从而保证清理后的数据具有准确性、一致性、有效性；具体步骤为：

上述技术方案的有益效果为：采用本实施例提供的方案，通过对数据的清洗，保证了元数据的有效性和准确性。

在一个实施例中，还包括S4，基于数据标准对用户发起的搜索请求进行语义搜索，具体步骤为：

S401：获取用户发出的所要查询的数据的关键词；

上述技术方案的工作原理为：知识图谱能够更好地理解用户输入的查询词，用户查询词是典型的短文本，通常查询词只包括若干关键词；基于知识图谱技术，通过对实体进行识别，可以借助重要性为用户展现语义。语义关系搜索实际是对知识本体的搜索，其采用语义标注文档和实例搜索中的查询处理方法，从用户输入中识别出用户提问中的概念，并由查询构建模块构建出正规的SPARQL语句，在知识本体中查询获取相应概念间的语义关系，并将其语义关系组织成答案反馈给用户；具体步骤为：具体步骤为：

S401：获取用户发出的所要查询的数据的关键词；

对数据标准进行语义标注是建立语义索引的前提，标注被用于数据标准的搜索和排序，其中排序算法是基于一个经典的向量空间模型。在本实施例中，标注被赋予权重来反映该关键词的概念与用户查询的相关程度，其权重基于每个数据标准中相关语义概念的出现频率，即计算对应某一数据标准和语义概念所对应的权重，计算公式为：

α为数据标准的序列编号，β为语义概念的序列编号；P_αβ是序号α的数据标准和序号β的语义概念所对应的权重，L_αβ是序号α的数据标准中序号β的语义概念出现的次数，mL_αβ是序号α的数据标准中重复出现次数最多序号β的语义概念的实例，G_α是被实例标注的序号α的数据标准数，G是数据标准中的数据标准总数；数据标准被标准为语义概念后，其数据标准中语义概念的出现次数实际上是该语义概念标签在数据标准中出现的次数，即次数出现越多，则表示权重越大，表示关键词的语义概念与用户查询的相关程度越大，从而能够向用户推荐最相关的语义概念。

上述技术方案的有益效果为：采用本实施例提供的方案，通过进行语义的查询，可以提高查询的效率，提高了数据标准的使用效果；通过将标注被赋予权重来反映该关键词的概念与用户查询的相关程度，可以提高查询的准确性和效率。

在一个实施例中，还包括S5，通过交互查询形式进行查询；具体步骤为：

上述技术方案的工作原理为：交互查询可以提高用户的使用便捷性和智能化程度，从而增强用户的使用体验；具体步骤为：

上述技术方案的有益效果为：采用本实施例提供的方案，采用交互查询界面，提高了用户使用数据标准查询的用户体验，提高了查询的使用效果。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于知识图谱技术的数据标准生成与自动映射方法，其特征在于，包括：

S1：获取用于生成数据标准的元数据的特征数据集；

S3：基于正式发布的数据标准，获得数据标准与元数据的映射关系；获取用于关联管理的待关联元数据，根据所述映射关系，获得与待关联元数据相关联的数据标准；

S1包括：

S101：获取数据的全部元数据；

S103：基于预设的重要性值分析模型，对第一元数据筛选列表的元数据的重要性进行分析，获得元数据的重要性值；将重要性值小于预设重要性阈值的元数据剔除，得到第二元数据筛选列表；获取第二元数据筛选列表中的元数据特征，生成元数据的特征数据集；

S3包括：

2.根据权利要求1所述的一种基于知识图谱技术的数据标准生成与自动映射方法，其特征在于，S2包括：

3.根据权利要求2所述的一种基于知识图谱技术的数据标准生成与自动映射方法，其特征在于，S206包括：

4.根据权利要求1所述一种基于知识图谱技术的数据标准生成与自动映射方法，其特征在于，S301包括：

5.根据权利要求1所述一种基于知识图谱技术的数据标准生成与自动映射方法，其特征在于，S103包括构建重要性值分析模型，具体步骤为：

6.根据权利要求1所述的一种基于知识图谱技术的数据标准生成与自动映射方法，其特征在于，S1包括对元数据的特征数据集进行清洗：

7.根据权利要求1所述一种基于知识图谱技术的数据标准生成与自动映射方法，其特征在于，还包括S4，基于数据标准对用户发起的搜索请求进行语义搜索，具体步骤为：

S401：获取用户发出的所要查询的数据的关键词；

8.根据权利要求1所述一种基于知识图谱技术的数据标准生成与自动映射方法，还包括S5，通过交互查询形式进行查询；具体步骤为：