CN116561436B

CN116561436B - 一种基于知识图谱的数据需求匹配方法

Info

Publication number: CN116561436B
Application number: CN202310836544.0A
Authority: CN
Inventors: 杜雅文
Original assignee: Jiangsu Shudui Technology Co ltd
Current assignee: Jiangsu Shudui Technology Co ltd
Priority date: 2023-07-10
Filing date: 2023-07-10
Publication date: 2023-09-29
Anticipated expiration: 2043-07-10
Also published as: CN116561436A

Abstract

本发明公开了一种基于知识图谱的数据需求匹配方法，包括以下步骤：定义不同数据集，每个数据集包含若干数据项；将数据项进行比对，判断数据项之间是否相同或相似；若全部相同，则定义该不同数据集之间相似度；建立同义词数据项库，判断是否相似，若全部相似，则定义该不同数据集之间相似度；若不完全相同也不完全相似，则基于知识图谱进行比对，将数据项进行比对，若存在相同或相似，则定义数据项之间的相似度，若不相同也不相似，则计算该数据项的相似度，取最高值；计算数据项的总和相似度，计算数据集的相似度；基于不同数据集之间的相似度判断不同需求之间是否当作同一个需求进行处理；本方法具有省时省力、精度高、效果高的特点。

Description

一种基于知识图谱的数据需求匹配方法

技术领域

本发明涉及公共数据领域，特别涉及一种基于知识图谱的数据需求匹配方法。

背景技术

长期以来，政府各部门内拥有着大量城市基础数据资源，各部门数据各成体系。数据供需管理是用于对公共数据在跨部门数据共享过程中的需求提出、责任确认、责任实施、共享使用的全过程进行场景化、精细化、流程化的管理。用于统一数据共享的流程、原则与要求。实现数据需求场景清晰化、数源责任清单化，支持各部门跟踪数据供需对接进展情况，数源确认是否被响应以及响应结果，供需问题统一协调的过程，责任数据实施的进展等详细信息。在供需对接的过程中，会出现不同部门的不同需求可能出现相同或者相似的情况，这样就需要一种机制来判断这些需求的相似度有多少，从而来统一对这些需求进行处理。

目前现有的处理方式只能从关键字匹配，或者人工分辨处理，花费时间长，还不能找出全部的相似需求，所以耗费人力，产出低，不能解决全局问题。且不能对上下游链路等情况从全面的角度出发，也没有一个很好的衡量指标，存在对需求的匹配不精准、不明确的问题。

发明内容

为实现上述目的，发明人提供了一种基于知识图谱的数据需求匹配方法，包括以下步骤：

S1，将不同需求所需数据的集合定义为不同数据集，每个数据集包含若干个数据元素，将数据元素定义为数据项；

S2，将不同数据集中的数据项之间进行比对，分别判断不同数据集中的数据项之间是否相同或相似；

S3，若不同数据集中的数据项之间全部相同，则定义该不同数据集之间相似度为100%；

S4，建立同义词数据项库，根据同义词数据项库分别判断不同数据集中的数据项之间是否相似，若不同数据集中的数据项之间全部相似，则定义该不同数据集之间相似度为100%；

S5，若不同数据集中的数据项之间不完全相同也不完全相似，则设定数据集中的数据项总数为n个，则每个数据项的占比为1/n；

S6，基于知识图谱，分别对S5中的不同数据集中的数据项进行图谱比对，随机选择一个数据集，将该数据集中的数据项与其他数据集中的数据项进行逐一比对，依次轮询，若存在相同或相似，则定义该不同数据集中的该数据项之间的相似度为100%，不再对该数据项进行之后的比对，若不相同也不相似，则基于知识图谱比对，计算该数据项的相似度，取最高值；

S7，计算不同数据集中的数据项的总和相似度，然后计算不同数据集之间的相似度；

S8，基于不同数据集之间的相似度判断不同需求之间是否当作同一个需求进行处理。

作为本发明的一种优选方式，当基于知识图谱对两个数据集A和B中存在的不相同也不相似的数据项进行比对时，还包括以下步骤：

分别确定两个数据集第一层存在的节点数，若数据集A的数据项a1周边有n个节点，数据集B的数据项b1周边有m个节点，在m和n中取最大值；

当第一层有m个相同节点，若n>m，则计算数据项a1和数据项b1的相似度为n÷m；若n=m，则数据项a1和数据项b1的相似度为100%；

若第一层无相同节点，则单独计算该节点的相似度，依次计算下一层的节点相似度，每层节点的相似度的总和构成了数据项a1和数据项b1之间的总和相似度。

作为本发明的一种优选方式，还包括步骤：若第k+1层的节点为相同节点，则两个节点的相似度权重为100%/k+1。

作为本发明的一种优选方式，还包括步骤：

计算数据集A的数据项a1与数据集B的数据项b1的相似度=（X₁*1+X₂*1/2+…+X_k+1*1/（k+1））÷m；

其中，X₁代表a1和b1周边第一层为相同的相同节点数；X₂代表a1和b1周边第二层为相同的相同节点数；X_k+1代表数据项a1和数据项b1周边有第n+1层为相同的相同节点数。

作为本发明的一种优选方式，步骤S7，计算不同数据集中的数据项的总和相似度，然后计算不同数据集之间的相似度包括以下步骤：

当数据集为两个时，数据集A的数据项包括a1、a2、a3、a4、…、an；数据集B的数据项包括b1、b2、b3、b4、…、bm；

设定数据项a1与数据项b1的相似度为X_ab1，则数据项a1、数据项b1两个数据项中具有相同节点的数据项为N_ab1，则数据项a1与数据项b1的相似度X_ab1=1÷N_ab1，当没有一层节点相同时，相似度为0；

设定数据项a2与数据项b2相似度为X_ab2，则数据项a2、数据项b2两个数据项中具有相同节点的数据项为N_ab2，则数据项a2与数据项b2的相似度X_ab2=1÷N_ab2；

设定数据项a3与数据项b3相似度为X_ab3，则数据项a3、数据项b3两个数据项中具有相同节点的数据项为N_ab3，则数据项a3与数据项b3的相似度X_ab3=1÷N_ab3；

设定数据项a4与数据项b4相似度为X_ab4，则数据项a4、数据项b4两个数据项中具有相同节点的数据项为N_ab4，则数据项a4与数据项b4的相似度X_ab4=1÷N_ab4；

若m>n；则设定数据项an与数据项bn的相似度为X_abn，则数据项an、数据项bn两个数据项中具有相同节点的数据项为N_abn，则数据项an与数据项bn的相似度X_abn=1÷N_abn；再计算数据集A和数据集B的相似度为：Y_ab=（1÷N_ab1+1÷N_ab2+1÷N_ab3+ …+1÷N_abn）÷m；

若m<n，则设定数据项am与数据项bm的相似度为X_abm，则数据项am、数据项bm两个数据项中具有相同节点的数据项为N_abm，则数据项am与数据项bm的相似度X_abm=1÷N_abm；再计算数据集A和数据集B的相似度为：Y_ab=（1÷N_ab1+1÷N_ab2+1÷N_ab3+ …+1÷N_abm）÷n。

区别于现有技术，上述技术方案所达到的有益效果有：本方法通过知识图谱来辅助计算出不同数据集，即不同数据需求之间的相似度，从而能够有效帮助业务部门在数据供需管理中，判断不同需求是否存在相似度，从而可以合并来进行处理，而不是通过传统的人工的手段进行比对两个需求的相似度，具有省时省力、效率高的效果。

附图说明

图1为具体实施方式所述数据集A的数据项示例图；

图2为具体实施方式所述数据集B的数据项示例图；

图3为具体实施方式所述数据项中不同层级节点溯源示例图；

图4为具体实施方式所述数据集A与数据集B数据情况示例图；

图5为具体实施方式所述数据集A与数据集B中节点溯源示例图。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

如图1和图2所示，本实施例提供了一种基于知识图谱的数据需求匹配方法，具体包括以下步骤：

首先把需求所需数据的集合定义为数据集，且看作一个模块，这个模块中有多个数据元素叫数据项，如图1和图2所示；

即对需求A和需求B，分别对应2个数据集，即数据集A和数据集B，需求A，也就是数据集A，包含a1，a2，a3，a4，a5，…，an，这些数据项；需求B，也就是数据集B，包含b1，b2，b3，b4，b5，…，bm，这些数据项；

对比这两个需求模块的相似度，需要建立一个同义词数据项库，因为在提需求时，即用户在填报时，填写的内容可能不规范、或者不标准，有可能表示同样的意思，但是不同用户填写的不同，所以需要有一个标准的数据项来对提交的数据项，进行标准化的处理。这样能够处理因表述不同原因导致的信息项不同，比如：公民身份证号码和身份证号、姓名和名字、常驻地址和地址、婚姻状况和婚姻状等情形。

这样通过相同和相似的比对，已经可以确定一部分的数据元素是相同或者相似的数据项，首先，规定如果两个模块（数据集）是一模一样的，那么就认为这两个数据集/模块的需求相似度为100%；此时定义不同需求之间，也就是各个模块之间的相似程度最大为100%，如果将模块中包含的n个元素进行拆分开，那么每个占比为1/n的比例，另外一个模块的数据元素（数据项）有m个，那个每一个的占比为1/m，这样就得到每个数据项的占比为该数据项总数的百分之一。

首先对已知的数据集也就是需要找到相似度高的数据集，选择一个数据集进行比对；从第一个数据集开始依次轮巡对需要检测的数据集的每个数据项进行关键字比对，同义词检索，如果在上述2种过程中能找到对应的数据项，那么就认为这两个数据项的相似度百分比为100%，不再进行之后的比对，对于未找到关键字和同义词的需要进行图谱辅助计算，取最高值。

当两个数据集的相似度对数据集A的数据项a1和数据集B的b1的进行图谱比对，那么首先确定他们第一层分别有多少节点，如果a1的周边有n个节点，b1的周边有m个节点，m和n取最大值，当第一层有m个相同节点，若n>m，则计算数据项a1和数据项b1的相似度为n÷m；若n=m，则数据项a1和数据项b1的相似度为100%；若第一层无相同节点，则单独计算该节点的相似度，依次计算下一层的节点相似度，每层节点的相似度的总和构成了数据项a1和数据项b1之间的总和相似度。

如图3所示，在知识图谱中，2个数据项可以有多种情况：在情况1中，两个数据项可以从上一个节点连接为同一个节点；在情况二中，可以是第二个节点，即上上个节点为相同节点；在情况三中，可以是第三个节点为相同节点；在情况四中，可以是往上的第k+1个节点为相同节点；在情况五中，也可以是这两个数据项往上并没有相同的节点；

当两个数据项在知识图谱中，不同层级的相同节点是不同的，定义2个数据项的第一层级的节点相同，则认为这两个数据项的相似度为100%，如果是第k+1个节点为相同节点，那么两个节点的相似度的权重为100%/k+1。

数据集A和数据集B的两个数据项a1和b1的知识图谱辅助计算步骤如下：

a1的第一层共有n个节点，b1的第一层共有m个节点，其中m>n；

m-n为b1没有找到的对应的节点；

第一层节点相同,相似度为1；

第二层节点相同，相似度为1/2；

第三层节点相同，相似度为1/3；

依次类推；

第k+1层节点相同，相似度1/（k+1）；

没有一层节点相同，相似度为0；

那么计算a1和b1的相似度=（X₁*1+X₂*1/2+…+X_k+1*1/（k+1））÷m；

其中，X₁代表a1和b1周边有多少个第一层为相同的相同节点；X₂代表a1和b1周边有多少个第二层为相同的相同节点；……；X_k+1代表a1和b1周边有多少个第k+1层为相同的相同节点。

当对比2个需求来计算两个模块之间的相似度，可以计算单个数据项之间的相似度，首先计算数据集对于需求A，也就是数据集A来说，有数据项a1、a2、a3 、a4、…、an；对于需求B，也就是数据集B来说，有数据项b1、b2、b3、b4、…、bm；分别计算每个数据集之间的相似度。

设定数据项a1与数据项b1的相似度为X_ab1，则数据项a1、数据项b1两个数据项中具有相同节点的数据项为N_ab1，则数据项a1与数据项b1的相似度X_ab1=1÷N_ab1；

若m<n，则设定数据项am与数据项bm的相似度为X_abm，则数据项am、数据项bm两个数据项中具有相同节点的数据项为第N_abm，则数据项am与数据项bm的相似度X_abm=1÷N_abm；再计算数据集A和数据集B的相似度为：Y_ab=（1÷N_ab1+1÷N_ab2+1÷N_ab3+ …+1÷N_abm）÷n。

在本实施例中，就可以通过知识图谱对两个数据集的相似度进行计算，来辅助判断两个数据集之间的相似度如何，是否可以当作同一个需求来处理。

举例说明如下：目前有2个需求，分别是数据集A和数据集B，数据集的数据情况如图4所示。

按照提交的数据需求A，也就是数据集A，和需求B，也就是数据集B，通过系统自动分析比对计算两个需求的相似度，那么系统会根据以下情况进行分析：

首先确定这两个需求的数据项分别是有3个和4个，使用需求A的数据项去比对需求B的数据项，即a1分别和b1、b2、b3、b4分别计算，然后取最高值，计算方式如下：

比对数据集A和数据集B，男方姓名-a1和男方姓名-b1，通过关键字比对，发现第一个需求的第一个数据项a1和数据集B的第一个数据项b1，是两完全相同的数据项，那就认为这两个数据项是相同的，也就是相似度为100%，此时两者相似度Y_ab1=1；那么就不再进行数据项a1往下再比对。同时，数据集B的数据项男方姓名-b1,也不需再和数据集A的其他数据项进行比对。

进行数据集A的第二个数据项男方身份证-a2和男方身份证ID-b2进行比对，发现通过关键字比对，这两个数据项通过关键字比对不相同，那么再利用同义词库的方法进行解析，发现数据集A的数据项男方身份证和数据集B的数据项男方身份证ID，这两个是同义词，那么认为这两个数据项的相似度百分比也是100%，此时两者相似度Y_ab2=1；那么就不再进行数据项a2往下再比对。同时，数据集B的数据项男方姓名-b2,也不需再和数据集A的其他数据项进行比对。

接着分别对数据集A的数据项男方出生登记日期-a3和数据集B的数据项出生登记日期-b3对比，首先需要进行关键字的比对，发现不能完全匹配，再进行同义词库的检索查找，也不能找到对应的信息，那么就开始使用图谱的方式进行计算，如图5所示：

按照如图5所示的方法进行计算，发现在第一层数据集A男方出生登记日期和数据集B出生登记日期之间第一层的周边男方出生登记日期分别有6个节点，和出生登记日期周边有5个节点，其中，它们在第一层有4个共同节点，1个在第二个节点有共同的节点，男方出生登记日期的第六个节点，结婚证没有对应的节点，那么男方出生登记日期和出生登记日期这两个数据项的相似度为：Y_ab3=（1+1+1+1+1/2+0）÷6=0.75；

数据集B的b4对应在数据集A没有找到对应的数据项目，那么定义此数据集的相似度为Y_ab4=0；

那么计算数据集A和数据集B两个需求的相似度为：N_ab=（Y_ab1+ Y_ab2+ Y_ab3+ Y_ab4）÷4=68.75%。

上述实施例通过知识图谱来辅助计算出两个数据集，即两个数据需求之间的相似度，能够有效帮助业务部门在数据供需管理中，判断两个需求是否存在相似度，从而可以合并来进行处理，而不是通过传统的人工的手段进行比对两个需求的相似度，具有省时省力、效率高的优点。

在上述实施例中，采用知识图谱通过对政务数据标准化的梳理，产生大量的政务事项数据，需要和政务领域知识深度结合，让机器具有政务领域知识的认知能力，不断透视事项之间关系，优化事项服务。事项知识图谱将人与事项相关知识智能地连接起来，能够对各类政务应用进行智能化升级，为自然人和法人办事及政府工作人员办公都带来更智能的应用体验。从而达到需求推荐，数据推荐、数据治理辅助决策、动态最优服务计算、数字化项目审批的目的。

知识图谱包括：知识工程、知识地图、知识应用，从业务维度看，可以有效管理和组织人口、法人等相关数据，通过知识图谱形成人口、法人图谱等模型，支撑政务智能化应用场景。从数据维度看，可以帮助组织掌握政务数据资源之间关联关系，如理清权责、事项、信息资源目录、系统、云、网等关联关系，从而支撑政务数据资源的查询、整合、分析和应用，通过知识图谱这样的工具，将对数据的来源去向，以及关联关系，有更加明确、更加详细的解读，便于做分析和决策。

需要说明的是，尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的专利保护范围。因此，基于本发明的创新理念，对本文所述实施例进行的变更和修改，或利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接地将以上技术方案运用在其他相关的技术领域，均包括在本发明的专利保护范围之内。

Claims

1.一种基于知识图谱的数据需求匹配方法，其特征在于，包括以下步骤：

S8，基于不同数据集之间的相似度判断不同需求之间是否当作同一个需求进行处理；

当基于知识图谱对两个数据集A和B中存在的不相同也不相似的数据项进行比对时，还包括以下步骤：

2.根据权利要求1所述的基于知识图谱的数据需求匹配方法，其特征在于，还包括步骤：若第k+1层的节点为相同节点，则两个节点的相似度权重为100%/k+1。

3.根据权利要求2所述的基于知识图谱的数据需求匹配方法，其特征在于，还包括步骤：

其中，X₁代表a1和b1周边第一层为相同的相同节点数；X₂代表a1和b1周边第二层为相同的相同节点数；X_k+1代表数据项a1和数据项b1周边有第k+1层为相同的相同节点数。

4.根据权利要求3所述的基于知识图谱的数据需求匹配方法，其特征在于：步骤S7，计算不同数据集中的数据项的总和相似度，然后计算不同数据集之间的相似度包括以下步骤：