CN116561436B - 一种基于知识图谱的数据需求匹配方法 - Google Patents

一种基于知识图谱的数据需求匹配方法 Download PDF

Info

Publication number
CN116561436B
CN116561436B CN202310836544.0A CN202310836544A CN116561436B CN 116561436 B CN116561436 B CN 116561436B CN 202310836544 A CN202310836544 A CN 202310836544A CN 116561436 B CN116561436 B CN 116561436B
Authority
CN
China
Prior art keywords
data
similarity
data item
item
items
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310836544.0A
Other languages
English (en)
Other versions
CN116561436A (zh
Inventor
杜雅文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Shudui Technology Co ltd
Original Assignee
Jiangsu Shudui Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Shudui Technology Co ltd filed Critical Jiangsu Shudui Technology Co ltd
Priority to CN202310836544.0A priority Critical patent/CN116561436B/zh
Publication of CN116561436A publication Critical patent/CN116561436A/zh
Application granted granted Critical
Publication of CN116561436B publication Critical patent/CN116561436B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Educational Administration (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Development Economics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于知识图谱的数据需求匹配方法,包括以下步骤:定义不同数据集,每个数据集包含若干数据项;将数据项进行比对,判断数据项之间是否相同或相似;若全部相同,则定义该不同数据集之间相似度;建立同义词数据项库,判断是否相似,若全部相似,则定义该不同数据集之间相似度;若不完全相同也不完全相似,则基于知识图谱进行比对,将数据项进行比对,若存在相同或相似,则定义数据项之间的相似度,若不相同也不相似,则计算该数据项的相似度,取最高值;计算数据项的总和相似度,计算数据集的相似度;基于不同数据集之间的相似度判断不同需求之间是否当作同一个需求进行处理;本方法具有省时省力、精度高、效果高的特点。

Description

一种基于知识图谱的数据需求匹配方法
技术领域
本发明涉及公共数据领域,特别涉及一种基于知识图谱的数据需求匹配方法。
背景技术
长期以来,政府各部门内拥有着大量城市基础数据资源,各部门数据各成体系。数据供需管理是用于对公共数据在跨部门数据共享过程中的需求提出、责任确认、责任实施、共享使用的全过程进行场景化、精细化、流程化的管理。用于统一数据共享的流程、原则与要求。实现数据需求场景清晰化、数源责任清单化,支持各部门跟踪数据供需对接进展情况,数源确认是否被响应以及响应结果,供需问题统一协调的过程,责任数据实施的进展等详细信息。在供需对接的过程中,会出现不同部门的不同需求可能出现相同或者相似的情况,这样就需要一种机制来判断这些需求的相似度有多少,从而来统一对这些需求进行处理。
目前现有的处理方式只能从关键字匹配,或者人工分辨处理,花费时间长,还不能找出全部的相似需求,所以耗费人力,产出低,不能解决全局问题。且不能对上下游链路等情况从全面的角度出发,也没有一个很好的衡量指标,存在对需求的匹配不精准、不明确的问题。
发明内容
为实现上述目的,发明人提供了一种基于知识图谱的数据需求匹配方法,包括以下步骤:
S1,将不同需求所需数据的集合定义为不同数据集,每个数据集包含若干个数据元素,将数据元素定义为数据项;
S2,将不同数据集中的数据项之间进行比对,分别判断不同数据集中的数据项之间是否相同或相似;
S3,若不同数据集中的数据项之间全部相同,则定义该不同数据集之间相似度为100%;
S4,建立同义词数据项库,根据同义词数据项库分别判断不同数据集中的数据项之间是否相似,若不同数据集中的数据项之间全部相似,则定义该不同数据集之间相似度为100%;
S5,若不同数据集中的数据项之间不完全相同也不完全相似,则设定数据集中的数据项总数为n个,则每个数据项的占比为1/n;
S6,基于知识图谱,分别对S5中的不同数据集中的数据项进行图谱比对,随机选择一个数据集,将该数据集中的数据项与其他数据集中的数据项进行逐一比对,依次轮询,若存在相同或相似,则定义该不同数据集中的该数据项之间的相似度为100%,不再对该数据项进行之后的比对,若不相同也不相似,则基于知识图谱比对,计算该数据项的相似度,取最高值;
S7,计算不同数据集中的数据项的总和相似度,然后计算不同数据集之间的相似度;
S8,基于不同数据集之间的相似度判断不同需求之间是否当作同一个需求进行处理。
作为本发明的一种优选方式,当基于知识图谱对两个数据集A和B中存在的不相同也不相似的数据项进行比对时,还包括以下步骤:
分别确定两个数据集第一层存在的节点数,若数据集A的数据项a1周边有n个节点,数据集B的数据项b1周边有m个节点,在m和n中取最大值;
当第一层有m个相同节点,若n>m,则计算数据项a1和数据项b1的相似度为n÷m;若n=m,则数据项a1和数据项b1的相似度为100%;
若第一层无相同节点,则单独计算该节点的相似度,依次计算下一层的节点相似度,每层节点的相似度的总和构成了数据项a1和数据项b1之间的总和相似度。
作为本发明的一种优选方式,还包括步骤:若第k+1层的节点为相同节点,则两个节点的相似度权重为100%/k+1。
作为本发明的一种优选方式,还包括步骤:
计算数据集A的数据项a1与数据集B的数据项b1的相似度=(X1*1+X2*1/2+…+Xk+1*1/(k+1))÷m;
其中,X1代表a1和b1周边第一层为相同的相同节点数;X2代表a1和b1周边第二层为相同的相同节点数;Xk+1代表数据项a1和数据项b1周边有第n+1层为相同的相同节点数。
作为本发明的一种优选方式,步骤S7,计算不同数据集中的数据项的总和相似度,然后计算不同数据集之间的相似度包括以下步骤:
当数据集为两个时,数据集A的数据项包括a1、a2、a3、a4、…、an;数据集B的数据项包括b1、b2、b3、b4、…、bm;
设定数据项a1与数据项b1的相似度为Xab1,则数据项a1、数据项b1两个数据项中具有相同节点的数据项为Nab1,则数据项a1与数据项b1的相似度Xab1=1÷Nab1,当没有一层节点相同时,相似度为0;
设定数据项a2与数据项b2相似度为Xab2,则数据项a2、数据项b2两个数据项中具有相同节点的数据项为Nab2,则数据项a2与数据项b2的相似度Xab2=1÷Nab2
设定数据项a3与数据项b3相似度为Xab3,则数据项a3、数据项b3两个数据项中具有相同节点的数据项为Nab3,则数据项a3与数据项b3的相似度Xab3=1÷Nab3
设定数据项a4与数据项b4相似度为Xab4,则数据项a4、数据项b4两个数据项中具有相同节点的数据项为Nab4,则数据项a4与数据项b4的相似度Xab4=1÷Nab4
若m>n;则设定数据项an与数据项bn的相似度为Xabn,则数据项an、数据项bn两个数据项中具有相同节点的数据项为Nabn,则数据项an与数据项bn的相似度Xabn=1÷Nabn;再计算数据集A和数据集B的相似度为:Yab=(1÷Nab1+1÷Nab2+1÷Nab3+ …+1÷Nabn)÷m;
若m<n,则设定数据项am与数据项bm的相似度为Xabm,则数据项am、数据项bm两个数据项中具有相同节点的数据项为Nabm,则数据项am与数据项bm的相似度Xabm=1÷Nabm;再计算数据集A和数据集B的相似度为:Yab=(1÷Nab1+1÷Nab2+1÷Nab3+ …+1÷Nabm)÷n。
区别于现有技术,上述技术方案所达到的有益效果有:本方法通过知识图谱来辅助计算出不同数据集,即不同数据需求之间的相似度,从而能够有效帮助业务部门在数据供需管理中,判断不同需求是否存在相似度,从而可以合并来进行处理,而不是通过传统的人工的手段进行比对两个需求的相似度,具有省时省力、效率高的效果。
附图说明
图1为具体实施方式所述数据集A的数据项示例图;
图2为具体实施方式所述数据集B的数据项示例图;
图3为具体实施方式所述数据项中不同层级节点溯源示例图;
图4为具体实施方式所述数据集A与数据集B数据情况示例图;
图5为具体实施方式所述数据集A与数据集B中节点溯源示例图。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
如图1和图2所示,本实施例提供了一种基于知识图谱的数据需求匹配方法,具体包括以下步骤:
首先把需求所需数据的集合定义为数据集,且看作一个模块,这个模块中有多个数据元素叫数据项,如图1和图2所示;
即对需求A和需求B,分别对应2个数据集,即数据集A和数据集B,需求A,也就是数据集A,包含a1,a2,a3,a4,a5,…,an,这些数据项;需求B,也就是数据集B,包含b1,b2,b3,b4,b5,…,bm,这些数据项;
对比这两个需求模块的相似度,需要建立一个同义词数据项库,因为在提需求时,即用户在填报时,填写的内容可能不规范、或者不标准,有可能表示同样的意思,但是不同用户填写的不同,所以需要有一个标准的数据项来对提交的数据项,进行标准化的处理。这样能够处理因表述不同原因导致的信息项不同,比如:公民身份证号码和身份证号、姓名和名字、常驻地址和地址、婚姻状况和婚姻状等情形。
这样通过相同和相似的比对,已经可以确定一部分的数据元素是相同或者相似的数据项,首先,规定如果两个模块(数据集)是一模一样的,那么就认为这两个数据集/模块的需求相似度为100%;此时定义不同需求之间,也就是各个模块之间的相似程度最大为100%,如果将模块中包含的n个元素进行拆分开,那么每个占比为1/n的比例,另外一个模块的数据元素(数据项)有m个,那个每一个的占比为1/m,这样就得到每个数据项的占比为该数据项总数的百分之一。
首先对已知的数据集也就是需要找到相似度高的数据集,选择一个数据集进行比对;从第一个数据集开始依次轮巡对需要检测的数据集的每个数据项进行关键字比对,同义词检索,如果在上述2种过程中能找到对应的数据项,那么就认为这两个数据项的相似度百分比为100%,不再进行之后的比对,对于未找到关键字和同义词的需要进行图谱辅助计算,取最高值。
当两个数据集的相似度对数据集A的数据项a1和数据集B的b1的进行图谱比对,那么首先确定他们第一层分别有多少节点,如果a1的周边有n个节点,b1的周边有m个节点,m和n取最大值,当第一层有m个相同节点,若n>m,则计算数据项a1和数据项b1的相似度为n÷m;若n=m,则数据项a1和数据项b1的相似度为100%;若第一层无相同节点,则单独计算该节点的相似度,依次计算下一层的节点相似度,每层节点的相似度的总和构成了数据项a1和数据项b1之间的总和相似度。
如图3所示,在知识图谱中,2个数据项可以有多种情况:在情况1中,两个数据项可以从上一个节点连接为同一个节点;在情况二中,可以是第二个节点,即上上个节点为相同节点;在情况三中,可以是第三个节点为相同节点;在情况四中,可以是往上的第k+1个节点为相同节点;在情况五中,也可以是这两个数据项往上并没有相同的节点;
当两个数据项在知识图谱中,不同层级的相同节点是不同的,定义2个数据项的第一层级的节点相同,则认为这两个数据项的相似度为100%,如果是第k+1个节点为相同节点,那么两个节点的相似度的权重为100%/k+1。
数据集A和数据集B的两个数据项a1和b1的知识图谱辅助计算步骤如下:
a1的第一层共有n个节点,b1的第一层共有m个节点,其中m>n;
m-n为b1没有找到的对应的节点;
第一层节点相同,相似度为1;
第二层节点相同,相似度为1/2;
第三层节点相同,相似度为1/3;
依次类推;
第k+1层节点相同,相似度1/(k+1);
没有一层节点相同,相似度为0;
那么计算a1和b1的相似度=(X1*1+X2*1/2+…+Xk+1*1/(k+1))÷m;
其中,X1代表a1和b1周边有多少个第一层为相同的相同节点;X2代表a1和b1周边有多少个第二层为相同的相同节点;……;Xk+1代表a1和b1周边有多少个第k+1层为相同的相同节点。
当对比2个需求来计算两个模块之间的相似度,可以计算单个数据项之间的相似度,首先计算数据集对于需求A,也就是数据集A来说,有数据项a1、a2、a3 、a4、…、an;对于需求B,也就是数据集B来说,有数据项b1、b2、b3、b4、…、bm;分别计算每个数据集之间的相似度。
设定数据项a1与数据项b1的相似度为Xab1,则数据项a1、数据项b1两个数据项中具有相同节点的数据项为Nab1,则数据项a1与数据项b1的相似度Xab1=1÷Nab1
设定数据项a2与数据项b2相似度为Xab2,则数据项a2、数据项b2两个数据项中具有相同节点的数据项为Nab2,则数据项a2与数据项b2的相似度Xab2=1÷Nab2
设定数据项a3与数据项b3相似度为Xab3,则数据项a3、数据项b3两个数据项中具有相同节点的数据项为Nab3,则数据项a3与数据项b3的相似度Xab3=1÷Nab3
设定数据项a4与数据项b4相似度为Xab4,则数据项a4、数据项b4两个数据项中具有相同节点的数据项为Nab4,则数据项a4与数据项b4的相似度Xab4=1÷Nab4
若m>n;则设定数据项an与数据项bn的相似度为Xabn,则数据项an、数据项bn两个数据项中具有相同节点的数据项为Nabn,则数据项an与数据项bn的相似度Xabn=1÷Nabn;再计算数据集A和数据集B的相似度为:Yab=(1÷Nab1+1÷Nab2+1÷Nab3+ …+1÷Nabn)÷m;
若m<n,则设定数据项am与数据项bm的相似度为Xabm,则数据项am、数据项bm两个数据项中具有相同节点的数据项为第Nabm,则数据项am与数据项bm的相似度Xabm=1÷Nabm;再计算数据集A和数据集B的相似度为:Yab=(1÷Nab1+1÷Nab2+1÷Nab3+ …+1÷Nabm)÷n。
在本实施例中,就可以通过知识图谱对两个数据集的相似度进行计算,来辅助判断两个数据集之间的相似度如何,是否可以当作同一个需求来处理。
举例说明如下:目前有2个需求,分别是数据集A和数据集B,数据集的数据情况如图4所示。
按照提交的数据需求A,也就是数据集A,和需求B,也就是数据集B,通过系统自动分析比对计算两个需求的相似度,那么系统会根据以下情况进行分析:
首先确定这两个需求的数据项分别是有3个和4个,使用需求A的数据项去比对需求B的数据项,即a1分别和b1、b2、b3、b4分别计算,然后取最高值,计算方式如下:
比对数据集A和数据集B,男方姓名-a1和男方姓名-b1,通过关键字比对,发现第一个需求的第一个数据项a1和数据集B的第一个数据项b1,是两完全相同的数据项,那就认为这两个数据项是相同的,也就是相似度为100%,此时两者相似度Yab1=1;那么就不再进行数据项a1往下再比对。同时,数据集B的数据项男方姓名-b1,也不需再和数据集A的其他数据项进行比对。
进行数据集A的第二个数据项男方身份证-a2和男方身份证ID-b2进行比对,发现通过关键字比对,这两个数据项通过关键字比对不相同,那么再利用同义词库的方法进行解析,发现数据集A的数据项男方身份证和数据集B的数据项男方身份证ID,这两个是同义词,那么认为这两个数据项的相似度百分比也是100%,此时两者相似度Yab2=1;那么就不再进行数据项a2往下再比对。同时,数据集B的数据项男方姓名-b2,也不需再和数据集A的其他数据项进行比对。
接着分别对数据集A的数据项男方出生登记日期-a3和数据集B的数据项出生登记日期-b3对比,首先需要进行关键字的比对,发现不能完全匹配,再 进行同义词库的检索查找,也不能找到对应的信息,那么就开始使用图谱的方式进行计算,如图5所示:
按照如图5所示的方法进行计算,发现在第一层数据集A男方出生登记日期和数据集B出生登记日期之间第一层的周边男方出生登记日期分别有6个节点,和出生登记日期周边有5个节点,其中,它们在第一层有4个共同节点,1个在第二个节点有共同的节点,男方出生登记日期的第六个节点,结婚证没有对应的节点,那么男方出生登记日期和出生登记日期这两个数据项的相似度为:Yab3=(1+1+1+1+1/2+0)÷6=0.75;
数据集B的b4对应在数据集A没有找到对应的数据项目,那么定义此数据集的相似度为Yab4=0;
那么计算数据集A和数据集B两个需求的相似度为:Nab=(Yab1+ Yab2+ Yab3+ Yab4)÷4=68.75%。
上述实施例通过知识图谱来辅助计算出两个数据集,即两个数据需求之间的相似度,能够有效帮助业务部门在数据供需管理中,判断两个需求是否存在相似度,从而可以合并来进行处理,而不是通过传统的人工的手段进行比对两个需求的相似度,具有省时省力、效率高的优点。
在上述实施例中,采用知识图谱通过对政务数据标准化的梳理,产生大量的政务事项数据,需要和政务领域知识深度结合,让机器具有政务领域知识的认知能力,不断透视事项之间关系,优化事项服务。事项知识图谱将人与事项相关知识智能地连接起来,能够对各类政务应用进行智能化升级,为自然人和法人办事及政府工作人员办公都带来更智能的应用体验。从而达到需求推荐,数据推荐、数据治理辅助决策、动态最优服务计算、数字化项目审批的目的。
知识图谱包括:知识工程、知识地图、知识应用,从业务维度看,可以有效管理和组织人口、法人等相关数据,通过知识图谱形成人口、法人图谱等模型,支撑政务智能化应用场景。从数据维度看,可以帮助组织掌握政务数据资源之间关联关系,如理清权责、事项、信息资源目录、系统、云、网等关联关系,从而支撑政务数据资源的查询、整合、分析和应用,通过知识图谱这样的工具,将对数据的来源去向,以及关联关系,有更加明确、更加详细的解读,便于做分析和决策。
需要说明的是,尽管在本文中已经对上述各实施例进行了描述,但并非因此限制本发明的专利保护范围。因此,基于本发明的创新理念,对本文所述实施例进行的变更和修改,或利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接地将以上技术方案运用在其他相关的技术领域,均包括在本发明的专利保护范围之内。

Claims (4)

1.一种基于知识图谱的数据需求匹配方法,其特征在于,包括以下步骤:
S1,将不同需求所需数据的集合定义为不同数据集,每个数据集包含若干个数据元素,将数据元素定义为数据项;
S2,将不同数据集中的数据项之间进行比对,分别判断不同数据集中的数据项之间是否相同或相似;
S3,若不同数据集中的数据项之间全部相同,则定义该不同数据集之间相似度为100%;
S4,建立同义词数据项库,根据同义词数据项库分别判断不同数据集中的数据项之间是否相似,若不同数据集中的数据项之间全部相似,则定义该不同数据集之间相似度为100%;
S5,若不同数据集中的数据项之间不完全相同也不完全相似,则设定数据集中的数据项总数为n个,则每个数据项的占比为1/n;
S6,基于知识图谱,分别对S5中的不同数据集中的数据项进行图谱比对,随机选择一个数据集,将该数据集中的数据项与其他数据集中的数据项进行逐一比对,依次轮询,若存在相同或相似,则定义该不同数据集中的该数据项之间的相似度为100%,不再对该数据项进行之后的比对,若不相同也不相似,则基于知识图谱比对,计算该数据项的相似度,取最高值;
S7,计算不同数据集中的数据项的总和相似度,然后计算不同数据集之间的相似度;
S8,基于不同数据集之间的相似度判断不同需求之间是否当作同一个需求进行处理;
当基于知识图谱对两个数据集A和B中存在的不相同也不相似的数据项进行比对时,还包括以下步骤:
分别确定两个数据集第一层存在的节点数,若数据集A的数据项a1周边有n个节点,数据集B的数据项b1周边有m个节点,在m和n中取最大值;
当第一层有m个相同节点,若n>m,则计算数据项a1和数据项b1的相似度为n÷m;若n=m,则数据项a1和数据项b1的相似度为100%;
若第一层无相同节点,则单独计算该节点的相似度,依次计算下一层的节点相似度,每层节点的相似度的总和构成了数据项a1和数据项b1之间的总和相似度。
2.根据权利要求1所述的基于知识图谱的数据需求匹配方法,其特征在于,还包括步骤:若第k+1层的节点为相同节点,则两个节点的相似度权重为100%/k+1。
3.根据权利要求2所述的基于知识图谱的数据需求匹配方法,其特征在于,还包括步骤:
计算数据集A的数据项a1与数据集B的数据项b1的相似度=(X1*1+X2*1/2+…+Xk+1*1/(k+1))÷m;
其中,X1代表a1和b1周边第一层为相同的相同节点数;X2代表a1和b1周边第二层为相同的相同节点数;Xk+1代表数据项a1和数据项b1周边有第k+1层为相同的相同节点数。
4.根据权利要求3所述的基于知识图谱的数据需求匹配方法,其特征在于:步骤S7,计算不同数据集中的数据项的总和相似度,然后计算不同数据集之间的相似度包括以下步骤:
当数据集为两个时,数据集A的数据项包括a1、a2、a3、a4、…、an;数据集B的数据项包括b1、b2、b3、b4、…、bm;
设定数据项a1与数据项b1的相似度为Xab1,则数据项a1、数据项b1两个数据项中具有相同节点的数据项为Nab1,则数据项a1与数据项b1的相似度Xab1=1÷Nab1,当没有一层节点相同时,相似度为0;
设定数据项a2与数据项b2相似度为Xab2,则数据项a2、数据项b2两个数据项中具有相同节点的数据项为Nab2,则数据项a2与数据项b2的相似度Xab2=1÷Nab2
设定数据项a3与数据项b3相似度为Xab3,则数据项a3、数据项b3两个数据项中具有相同节点的数据项为Nab3,则数据项a3与数据项b3的相似度Xab3=1÷Nab3
设定数据项a4与数据项b4相似度为Xab4,则数据项a4、数据项b4两个数据项中具有相同节点的数据项为Nab4,则数据项a4与数据项b4的相似度Xab4=1÷Nab4
若m>n;则设定数据项an与数据项bn的相似度为Xabn,则数据项an、数据项bn两个数据项中具有相同节点的数据项为Nabn,则数据项an与数据项bn的相似度Xabn=1÷Nabn;再计算数据集A和数据集B的相似度为:Yab=(1÷Nab1+1÷Nab2+1÷Nab3+ …+1÷Nabn)÷m;
若m<n,则设定数据项am与数据项bm的相似度为Xabm,则数据项am、数据项bm两个数据项中具有相同节点的数据项为Nabm,则数据项am与数据项bm的相似度Xabm=1÷Nabm;再计算数据集A和数据集B的相似度为:Yab=(1÷Nab1+1÷Nab2+1÷Nab3+ …+1÷Nabm)÷n。
CN202310836544.0A 2023-07-10 2023-07-10 一种基于知识图谱的数据需求匹配方法 Active CN116561436B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310836544.0A CN116561436B (zh) 2023-07-10 2023-07-10 一种基于知识图谱的数据需求匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310836544.0A CN116561436B (zh) 2023-07-10 2023-07-10 一种基于知识图谱的数据需求匹配方法

Publications (2)

Publication Number Publication Date
CN116561436A CN116561436A (zh) 2023-08-08
CN116561436B true CN116561436B (zh) 2023-09-29

Family

ID=87503869

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310836544.0A Active CN116561436B (zh) 2023-07-10 2023-07-10 一种基于知识图谱的数据需求匹配方法

Country Status (1)

Country Link
CN (1) CN116561436B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117131245B (zh) * 2023-10-27 2024-03-05 江苏数兑科技有限公司 一种运用知识图谱技术实现目录资源推荐机制的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150142829A1 (en) * 2013-11-18 2015-05-21 Fujitsu Limited System, apparatus, program and method for data aggregatione
CN113127754A (zh) * 2021-04-16 2021-07-16 天津大学 一种基于知识图谱的供应商推荐方法
CN113722509A (zh) * 2021-09-07 2021-11-30 中国人民解放军32801部队 一种基于实体属性相似度的知识图谱数据融合方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150142829A1 (en) * 2013-11-18 2015-05-21 Fujitsu Limited System, apparatus, program and method for data aggregatione
CN113127754A (zh) * 2021-04-16 2021-07-16 天津大学 一种基于知识图谱的供应商推荐方法
CN113722509A (zh) * 2021-09-07 2021-11-30 中国人民解放军32801部队 一种基于实体属性相似度的知识图谱数据融合方法

Also Published As

Publication number Publication date
CN116561436A (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
CN109255586B (zh) 一种面向电子政务办事的在线个性化推荐方法
CN112308157B (zh) 一种面向决策树的横向联邦学习方法
US20110191311A1 (en) Bi-model recommendation engine for recommending items and peers
US20150317294A1 (en) Collaborative hierarchical document development and review system
CN116561436B (zh) 一种基于知识图谱的数据需求匹配方法
US20130159325A1 (en) Bi-model recommendation engine for recommending items and peers
CN107194672B (zh) 一种融合学术专长与社会网络的评审分配方法
CN105210058A (zh) 使用多个引擎来进行图查询处理
Yu et al. SeqOthello: querying RNA-seq experiments at scale
WO2007106786A2 (en) Methods and systems for multi-credit reporting agency data modeling
JP2017514256A (ja) オントロジアライナ方法、セマンティックマッチング方法及び装置
JP2017521748A (ja) 推定オントロジを生成する方法及び装置
CN109885693B (zh) 基于知识图谱的快速知识对比方法及系统
Bousquet et al. Local certification of graph decompositions and applications to minor-free classes
US20080270385A1 (en) Method and Tool For Searching In Several Data Sources For a Selected Community of Users
CN110765317B (zh) 一种企业受益人运算系统及方法
CN112084781A (zh) 一种标准术语确定方法、装置及存储介质
Bettencourt et al. Invention in the city: Increasing returns to scale in metropolitan patenting
CN115328883A (zh) 一种数据仓库建模方法和系统
CN111680498A (zh) 实体消歧方法、装置、存储介质及计算机设备
CN112966054A (zh) 基于企业图谱节点间关系的族群划分方法和计算机设备
WO2023178767A1 (zh) 基于企业征信大数据知识图谱的企业风险检测方法和装置
CN113657083B (zh) 面向意图计算与推理的dikw资源交互填充系统
US8548988B2 (en) System and method for comparing universities based on their university model graphs
CN111723129B (zh) 报表生成方法、报表生成装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Data Requirement Matching Method Based on Knowledge Graph

Granted publication date: 20230929

Pledgee: Bank of China Limited Nanjing Gulou Branch

Pledgor: Jiangsu shudui Technology Co.,Ltd.

Registration number: Y2024980004729