CN111061883A - 更新知识图谱的方法、装置、设备及存储介质 - Google Patents
更新知识图谱的方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111061883A CN111061883A CN201911025472.1A CN201911025472A CN111061883A CN 111061883 A CN111061883 A CN 111061883A CN 201911025472 A CN201911025472 A CN 201911025472A CN 111061883 A CN111061883 A CN 111061883A
- Authority
- CN
- China
- Prior art keywords
- data
- entity
- knowledge graph
- data source
- updating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000007499 fusion processing Methods 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims description 14
- 238000010276 construction Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 abstract description 5
- 238000001228 spectrum Methods 0.000 abstract 2
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000009795 derivation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000239290 Araneae Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供的一种更新知识图谱的方法、装置、设备及存储介质,该方法通过获取初始知识图谱中的业务数据;按照预设规则抽取所述业务数据中的实体数据;对所述实体数据进行数据融合处理,以得到与所述实体数据对应的数据源集合,其中,所述数据源集合包括至少一个数据源;将所述数据源集合中的每个所述数据源与对应的所述业务数据进行匹配;根据每个所述数据源与所述业务数据的匹配结果,对所述业务数据进行更新。本申请实施例实现了知识图谱的自动更新及自动融合,无需人工手动去维护知识图谱,提高了知识图谱的更新效率及准确率。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种更新知识图谱的方 法、装置、设备及存储介质。
背景技术
目前对知识进行有效表达的方法是知识图谱,知识图谱是将现实 世界以图形的方式展现概念和概念间的关系,不仅帮助人们认识客观 世界,而且也为计算机定义了实现的数据模型,它将复杂的知识表示 成网状结构,可以对数据进行复杂查询,可以通过规则从关联的数据 中挖掘出隐含的信息,揭示知识以及领域的动态发展规律,为知识以 及技术的研究提供切实、有价值的参考。
相关技术在对知识图谱进行构建和数据更新时,通常是人工手动 构建知识图谱和更新知识图谱的数据,存在准确率较低以及耗时长的 问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申 请实施例提供了一种更新知识图谱的方法、装置、设备及存储介质。
有鉴于此,第一方面,本申请实施例提供了一种更新知识图谱的 方法,所述方法包括以下步骤:
获取初始知识图谱中的业务数据;
按照预设规则抽取所述业务数据中的实体数据;
对所述实体数据进行数据融合处理,以得到与所述实体数据对应 的数据源集合,其中,所述数据源集合包括至少一个数据源;
将所述数据源集合中的每个所述数据源与对应的所述业务数据进 行匹配;
根据每个所述数据源与所述业务数据的匹配结果,对所述业务数 据进行更新。
结合第一方面,在第一方面第一种可能的实施方式中,所述按照 预设规则抽取所述业务数据中的实体数据,包括:
抽取所述业务数据中的三元组数据。
结合第一方面,在第一方面第二种可能的实施方式中,所述数据 融合处理包括数据层融合处理,所述对所述实体数据进行数据融合处 理,以得到与所述实体数据对应的数据源集合,包括:
利用所述初始知识图谱的链接结构,构建各个所述实体数据之间 的实体关联模型;
基于所述实体关联模型,对各个所述实体数据进行实体链接;
根据实体链接的结果,获取与所述实体数据对应的数据源集合。
结合第一方面,在第一方面第三种可能的实施方式中,所述数据 融合处理包括语义融合处理,所述对所述实体数据进行数据融合处理, 以得到与所述实体数据对应的数据源集合,包括:
利用所述初始知识图谱的链接结构,构建每个所述实体数据中的 多个语义的语义关联模型;
基于语义关联模型,将各个所述语义进行语义链接;
根据语义链接的结果,获取与所述实体数据对应的数据源集合。
结合第一方面,在第一方面第四种可能的实施方式中,所述将所 述数据源集合中的每个所述数据源与对应的所述业务数据进行匹配, 包括:
基于所述数据源的权威度、冗余度、多样性、一致性以及MLN验 证中的一种或多种,将所述数据源集合中的每个所述数据源与对应的 所述业务数据进行匹配。
第二方面,本申请实施例提供了一种更新知识图谱的装置,
结合第二方面,在第二方面第一种可能的实施方式中,所述装置 包括:
获取单元,用于获取初始知识图谱中的业务数据;
抽取单元,用于按照预设规则抽取所述业务数据中的实体数据;
数据处理单元,用于对所述实体数据进行数据融合处理,以得到 与所述实体数据对应的数据源集合,其中,所述数据源集合包括至少 一个数据源;
匹配单元,用于将所述数据源集合中的每个所述数据源与对应的 所述业务数据进行匹配;以及
更新单元,用于根据每个所述数据源与所述业务数据的匹配结果, 对所述业务数据进行更新。
结合第二方面,在第二方面第二种可能的实施方式中,所述抽取 单元包括:
抽取子单元,用于抽取所述业务数据中的三元组数据。
结合第二方面,在第二方面第三种可能的实施方式中,所述数据 处理单元包括:
第一构建子单元,用于利用所述初始知识图谱的链接结构,构建 各个所述实体数据之间的实体关联模型;
实体链接子单元,用于基于所述实体关联模型,对各个所述实体 数据进行实体链接;
第一获取子单元,用于根据实体链接的结果,获取与所述实体数 据对应的数据源集合。
结合第二方面,在第二方面第四种可能的实施方式中,所述数据 处理单元包括:
第二构建子单元,用于利用所述初始知识图谱的链接结构,构建 每个所述实体数据中的多个语义的语义关联模型;
语义链接子单元,用于基于语义关联模型,将各个所述语义进行 语义链接;
第二获取子单元,用于根据语义链接的结果,获取与所述实体数 据对应的数据源集合。
第三方面,本申请实施例提供了一种终端设备,所述终端设备包 括:至少一个处理器、存储器、至少一个网络接口和用户接口;
所述至少一个处理器、存储器、至少一个网络接口和用户接口通 过总线系统耦合在一起;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如 第一方面所述的更新知识图谱的方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述 计算机可读存储介质上存储有更新知识图谱的程序,所述更新知识图 谱的程序被处理器执行时实现如第一方面所述的更新知识图谱的方法 的步骤。
本申请实施例提供的上述技术方案与现有技术相比具有如下优 点:
本申请实施例提供的该方法,通过获取初始知识图谱中的业务数 据;按照预设规则抽取所述业务数据中的实体数据;对所述实体数据 进行数据融合处理,以得到与所述实体数据对应的数据源集合,其中, 所述数据源集合包括至少一个数据源;将所述数据源集合中的每个所 述数据源与对应的所述业务数据进行匹配;根据每个所述数据源与所 述业务数据的匹配结果,对所述业务数据进行更新。本申请实施例实 现了知识图谱的自动更新及自动融合,无需人工手动去维护知识图谱, 提高了知识图谱的更新效率及准确率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符 合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面 将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而 易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前 提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种更新知识图谱的方法的流程示意 图;
图2为本申请实施例提供的一种更新知识图谱的方法的流程示意 图;
图3为本申请实施例提供的一种更新知识图谱的方法的流程示意 图;
图4为本申请实施例提供的一种更新知识图谱的装置的结构示意 图;
图5为本申请实施例提供的一种终端设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结 合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、 完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不 是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没 有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请 保护的范围。
现在将参考附图描述实现本发明各个实施例的服务器。在后续的 描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的 后缀仅为了有利于本发明的说明,其本身并没有特定的意义。因此, “模块”与“部件”可以混合地使用。
本申请实施例提供了一种更新知识图谱的方法,如图1所示,该 方法可以包括以下步骤:
S101、获取初始知识图谱中的业务数据。
可选的,蜘蛛爬虫实现业务数据爬取,业务数据例如:金融数据, 社交数据等。
S102、按照预设规则抽取所述业务数据中的实体数据。
可选的,包括:抽取所述业务数据中的三元组数据。
S103、对所述实体数据进行数据融合处理,以得到与所述实体数 据对应的数据源集合,其中,所述数据源集合包括至少一个数据源。
S104、将所述数据源集合中的每个所述数据源与对应的所述业务 数据进行匹配。
可选的,包括:基于所述数据源的权威度、冗余度、多样性、一 致性以及MLN验证中的一种或多种,将所述数据源集合中的每个所述 数据源与对应的所述业务数据进行匹配。
S105、根据每个所述数据源与所述业务数据的匹配结果,对所述 业务数据进行更新。
可选的,通过对新知识进行验证,保证新知识与知识图谱的一致 性和准确性,保证知识的持续更新。对现有知识库中分散、冗余、异 构、非确定性的知识进行模型训练,提取新词。
本申请实施例实现了知识图谱的自动更新及自动融合,无需人工 手动去维护知识图谱,提高了知识图谱的更新效率及准确率。
如图2所示,本申请实施例还提供了一种更新知识图谱的方法, 所述数据融合处理包括数据层融合处理,上述步骤S103包括以下步骤:
S201、利用所述初始知识图谱的链接结构,构建各个所述实体数 据之间的实体关联模型。
S202、基于所述实体关联模型,对各个所述实体数据进行实体链 接。
S203、根据实体链接的结果,获取与所述实体数据对应的数据源 集合。
可选的,主要基于实体关联模型的实体链接,实体关联模型主要 从以下划分:
实体知名度,如:水果苹果30%,苹果公司20%。
实体名字分布,如实体的名字出现的频率。
实体的上下文分布,是指上文中提到的实体及有效下文中的实体 关联。
如图3所示,本申请实施例还提供了一种更新知识图谱的方法, 所述数据融合处理包括语义融合处理,上述步骤S103包括以下步骤:
S301、利用所述初始知识图谱的链接结构,构建每个所述实体数 据中的多个语义的语义关联模型。
S302、基于语义关联模型,将各个所述语义进行语义链接。
S303、根据语义链接的结果,获取与所述实体数据对应的数据源 集合。
可选的,基于语义链接,主要实现方法如下:
基于图的协同推理;基于上下文语义相关;协同推导方法。
可选的,协同推导方法是指通过将证据在图上依存结构传递协同 增强证据直接至收敛。
可选的,实体与语义链接,主要通过建立文本模型来实现。假设 每一个数据文本中都有N个关键语义,每个语义是实体的多项式分布 如:苹果有新的手机产品,即:{IT:0.4,手机:0.3,苹果公司:0.3}。
本申请实施例,通过自定义的网络爬虫,后端系统则自动通过图 数据库及非结构化数据存储,再通过通过对新数据爬取、机器学习、神 经网络等自融合机器学习,对关键信息抽取,将三元组数据进行导入, 转换为庞大的知识图谱系统,从而实现知识图谱自动更新及融合,无需 人工手动去维护知识图谱。
可选的,语义融合主要是基于数据结构映射关系的结构,建立一 个集合的知识源,每个知识源使用不用的分类体系和属性,将这些分 类体系和属性体系统一为一个全局的数据结构映射,如表一所示。
表一
可选的实现方式为:
建立标准数据;对样本数据进行训练;进行推理;进行新知识确 认。
如图4所示,本申请实施例还提供了一种更新知识图谱的装置, 所述装置包括:
获取单元41,用于获取初始知识图谱中的业务数据;
抽取单元42,用于按照预设规则抽取所述业务数据中的实体数据;
数据处理单元43,用于对所述实体数据进行数据融合处理,以得 到与所述实体数据对应的数据源集合,其中,所述数据源集合包括至 少一个数据源;
匹配单元44,用于将所述数据源集合中的每个所述数据源与对应 的所述业务数据进行匹配;以及
更新单元45,用于根据每个所述数据源与所述业务数据的匹配结 果,对所述业务数据进行更新。
在本申请另一实施例中,所述抽取单元42包括:
抽取子单元,用于抽取所述业务数据中的三元组数据。
在本申请另一实施例中,所述数据处理单元43包括:
第一构建子单元,用于利用所述初始知识图谱的链接结构,构建 各个所述实体数据之间的实体关联模型;
实体链接子单元,用于基于所述实体关联模型,对各个所述实体 数据进行实体链接;
第一获取子单元,用于根据实体链接的结果,获取与所述实体数 据对应的数据源集合。
在本申请另一实施例中,所述数据处理单元43包括:
第二构建子单元,用于利用所述初始知识图谱的链接结构,构建 每个所述实体数据中的多个语义的语义关联模型;
语义链接子单元,用于基于语义关联模型,将各个所述语义进行 语义链接;
第二获取子单元,用于根据语义链接的结果,获取与所述实体数 据对应的数据源集合。
图5是本发明另一个实施例提供的终端设备的结构示意图。图5 所示的终端设备500包括:至少一个处理器501、存储器502、至少一 个网络接口504和其他用户接口503。终端设备500中的各个组件通过 总线系统505耦合在一起。可理解,总线系统505用于实现这些组件 之间的连接通信。总线系统505除包括数据总线之外,还包括电源总 线、控制总线和状态信号总线。但是为了清楚说明起见,在图5中将 各种总线都标为总线系统505。
其中,用户接口503可以包括显示器、键盘或者点击设备(例如, 鼠标,轨迹球(trackball)、触感板或者触摸屏等。
可以理解,本发明实施例中的存储器502可以是易失性存储器或 非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非 易失性存储器可以是只读存储器(Read-OnlyMemory,ROM)、可编程只 读存储器(ProgrammableROM,PROM)、可擦除可编程只读存储器 (ErasablePROM,EPROM)、电可擦除可编程只读存储器 (ElectricallyEPROM,EEPROM)或闪存。易失性存储器可以是随机存取 存储器(RandomAccessMemory,RAM),其用作外部高速缓存。通过示 例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存 储器(StaticRAM,SRAM)、动态随机存取存储器(DynamicRAM, DRAM)、同步动态随机存取存储器(SynchronousDRAM,SDRAM)、双 倍数据速率同步动态随机存取存储器(DoubleDataRate SDRAM, DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(SynchlinkDRAM,SLDRAM) 和直接内存总线随机存取存储器(DirectRambusRAM,DRRAM)。本 文描述的存储器502旨在包括但不限于这些和任意其它适合类型的存 储器。
在一些实施方式中,存储器502存储了如下的元素,可执行单元 或者数据结构,或者他们的子集,或者他们的扩展集:操作系统5021 和应用程序5022。
其中,操作系统5021,包含各种系统程序,例如框架层、核心库 层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应 用程序5022,包含各种应用程序,例如媒体播放器(MediaPlayer)、浏 览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的 程序可以包含在应用程序5022中。
在本发明实施例中,通过调用存储器502存储的程序或指令,具 体的,可以是应用程序5022中存储的程序或指令,处理器501用于执 行各方法实施例所提供的方法步骤,例如包括:
获取初始知识图谱中的业务数据;
按照预设规则抽取所述业务数据中的实体数据;
对所述实体数据进行数据融合处理,以得到与所述实体数据对应 的数据源集合,其中,所述数据源集合包括至少一个数据源;
将所述数据源集合中的每个所述数据源与对应的所述业务数据进 行匹配;
根据每个所述数据源与所述业务数据的匹配结果,对所述业务数 据进行更新。
上述本发明实施例揭示的方法可以应用于处理器501中,或者由 处理器501实现。处理器501可能是一种集成电路芯片,具有信号的 处理能力。在实现过程中,上述方法的各步骤可以通过处理器501中 的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501 可以是通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专 用集成电路(ApplicationSpecific IntegratedCircuit,ASIC)、现成可编程 门阵列(FieldProgrammableGateArray,FPGA)或者其他可编程逻辑器 件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行 本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以 是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完 成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元 可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电 可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介 质位于存储器502,处理器501读取存储器502中的信息,结合其硬件 完成上述方法的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、 中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在 一个或多个专用集成电路(ApplicationSpecificIntegratedCircuits,ASIC)、 数字信号处理器(DigitalSignalProcessing,DSP)、数字信号处理设备 (DSPDevice,DSPD)、可编程逻辑设备(ProgrammableLogicDevice, PLD)、现场可编程门阵列(Field-ProgrammableGateArray,FPGA)、通 用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能 的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的单元来实现本文所述 的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以 在处理器中或在处理器外部实现。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可 读存储介质上存储有资源分配程序,所述资源分配程序被处理器执行 时实现如各方法实施例所述的更新知识图谱的方法的步骤,例如包括:
获取初始知识图谱中的业务数据;
按照预设规则抽取所述业务数据中的实体数据;
对所述实体数据进行数据融合处理,以得到与所述实体数据对应 的数据源集合,其中,所述数据源集合包括至少一个数据源;
将所述数据源集合中的每个所述数据源与对应的所述业务数据进 行匹配;
根据每个所述数据源与所述业务数据的匹配结果,对所述业务数 据进行更新。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。 当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或 硬件中实现。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之 间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他 实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本 相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例 的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的, 其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开 的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位 于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需 要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域 普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关 系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来, 而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系 或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在 涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品 或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素, 或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没 有更多限制的情况下,由语句“包括一个……”限定的要素,并不排 除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同 要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理 解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说 将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精 神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限 制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖 特点相一致的最宽的范围。
Claims (11)
1.一种更新知识图谱的方法,其特征在于,所述方法包括以下步骤:
获取初始知识图谱中的业务数据;
按照预设规则抽取所述业务数据中的实体数据;
对所述实体数据进行数据融合处理,以得到与所述实体数据对应的数据源集合,其中,所述数据源集合包括至少一个数据源;
将所述数据源集合中的每个所述数据源与对应的所述业务数据进行匹配;
根据每个所述数据源与所述业务数据的匹配结果,对所述业务数据进行更新。
2.根据权利要求1所述的方法,其特征在于,所述按照预设规则抽取所述业务数据中的实体数据,包括:
抽取所述业务数据中的三元组数据。
3.根据权利要求1所述的方法,其特征在于,所述数据融合处理包括数据层融合处理,所述对所述实体数据进行数据融合处理,以得到与所述实体数据对应的数据源集合,包括:
利用所述初始知识图谱的链接结构,构建各个所述实体数据之间的实体关联模型;
基于所述实体关联模型,对各个所述实体数据进行实体链接;
根据实体链接的结果,获取与所述实体数据对应的数据源集合。
4.根据权利要求1或3所述的方法,其特征在于,所述数据融合处理包括语义融合处理,所述对所述实体数据进行数据融合处理,以得到与所述实体数据对应的数据源集合,包括:
利用所述初始知识图谱的链接结构,构建每个所述实体数据中的多个语义的语义关联模型;
基于语义关联模型,将各个所述语义进行语义链接;
根据语义链接的结果,获取与所述实体数据对应的数据源集合。
5.根据权利要求1所述的方法,其特征在于,所述将所述数据源集合中的每个所述数据源与对应的所述业务数据进行匹配,包括:
基于所述数据源的权威度、冗余度、多样性、一致性以及MLN验证中的一种或多种,将所述数据源集合中的每个所述数据源与对应的所述业务数据进行匹配。
6.一种更新知识图谱的装置,其特征在于,所述装置包括:
获取单元,用于获取初始知识图谱中的业务数据;
抽取单元,用于按照预设规则抽取所述业务数据中的实体数据;
数据处理单元,用于对所述实体数据进行数据融合处理,以得到与所述实体数据对应的数据源集合,其中,所述数据源集合包括至少一个数据源;
匹配单元,用于将所述数据源集合中的每个所述数据源与对应的所述业务数据进行匹配;以及
更新单元,用于根据每个所述数据源与所述业务数据的匹配结果,对所述业务数据进行更新。
7.根据权利要求6所述装置,其特征在于,所述抽取单元包括:
抽取子单元,用于抽取所述业务数据中的三元组数据。
8.根据权利要求6所述装置,其特征在于,所述数据处理单元包括:
第一构建子单元,用于利用所述初始知识图谱的链接结构,构建各个所述实体数据之间的实体关联模型;
实体链接子单元,用于基于所述实体关联模型,对各个所述实体数据进行实体链接;
第一获取子单元,用于根据实体链接的结果,获取与所述实体数据对应的数据源集合。
9.根据权利要求6或8所述装置,其特征在于,所述数据处理单元包括:
第二构建子单元,用于利用所述初始知识图谱的链接结构,构建每个所述实体数据中的多个语义的语义关联模型;
语义链接子单元,用于基于语义关联模型,将各个所述语义进行语义链接;
第二获取子单元,用于根据语义链接的结果,获取与所述实体数据对应的数据源集合。
10.一种终端设备,其特征在于,所述终端设备包括:至少一个处理器、存储器、至少一个网络接口和用户接口;
所述至少一个处理器、存储器、至少一个网络接口和用户接口通过总线系统耦合在一起;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至5中任意一项所述的更新知识图谱的方法的步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有更新知识图谱的程序,所述更新知识图谱的程序被处理器执行时实现如权利要求1至5中任一项所述的更新知识图谱的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911025472.1A CN111061883B (zh) | 2019-10-25 | 2019-10-25 | 更新知识图谱的方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911025472.1A CN111061883B (zh) | 2019-10-25 | 2019-10-25 | 更新知识图谱的方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111061883A true CN111061883A (zh) | 2020-04-24 |
CN111061883B CN111061883B (zh) | 2023-12-08 |
Family
ID=70297593
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911025472.1A Active CN111061883B (zh) | 2019-10-25 | 2019-10-25 | 更新知识图谱的方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111061883B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112906826A (zh) * | 2021-03-30 | 2021-06-04 | 平安科技(深圳)有限公司 | 基于多维度的知识图谱的融合方法、装置及计算机设备 |
CN112949745A (zh) * | 2021-03-23 | 2021-06-11 | 中国检验检疫科学研究院 | 多源数据的融合处理方法、装置、电子设备及存储介质 |
CN114385833A (zh) * | 2022-03-23 | 2022-04-22 | 支付宝(杭州)信息技术有限公司 | 更新知识图谱的方法及装置 |
CN114418399A (zh) * | 2022-01-20 | 2022-04-29 | 杭州和利时自动化有限公司 | 一种流程行业工厂知识图谱自维护系统及方法 |
CN115408534A (zh) * | 2022-08-23 | 2022-11-29 | 连连银通电子支付有限公司 | 一种知识图谱更新方法、装置、设备及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020031A (zh) * | 2012-12-19 | 2013-04-03 | 珠海金山办公软件有限公司 | 一种智能更新数据透视表的方法及装置 |
US20160335544A1 (en) * | 2015-05-12 | 2016-11-17 | Claudia Bretschneider | Method and Apparatus for Generating a Knowledge Data Model |
US20170124464A1 (en) * | 2015-10-28 | 2017-05-04 | Fractal Industries, Inc. | Rapid predictive analysis of very large data sets using the distributed computational graph |
CN107368468A (zh) * | 2017-06-06 | 2017-11-21 | 广东广业开元科技有限公司 | 一种运维知识图谱的生成方法及系统 |
WO2018036239A1 (zh) * | 2016-08-24 | 2018-03-01 | 慧科讯业有限公司 | 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统 |
CN107908637A (zh) * | 2017-09-26 | 2018-04-13 | 北京百度网讯科技有限公司 | 一种基于知识库的实体更新方法及系统 |
CN109446341A (zh) * | 2018-10-23 | 2019-03-08 | 国家电网公司 | 知识图谱的构建方法及装置 |
CN109885691A (zh) * | 2019-01-08 | 2019-06-14 | 平安科技(深圳)有限公司 | 知识图谱补全方法、装置、计算机设备及存储介质 |
CN110008346A (zh) * | 2019-01-24 | 2019-07-12 | 平安科技(深圳)有限公司 | 黑名单传导图谱构建方法、装置、计算机设备和存储介质 |
CN110245874A (zh) * | 2019-03-27 | 2019-09-17 | 中国海洋大学 | 一种基于机器学习和知识推理的决策融合方法 |
US20190325329A1 (en) * | 2018-04-23 | 2019-10-24 | Qliktech International Ab | Knowledge graph data structures and uses thereof |
-
2019
- 2019-10-25 CN CN201911025472.1A patent/CN111061883B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020031A (zh) * | 2012-12-19 | 2013-04-03 | 珠海金山办公软件有限公司 | 一种智能更新数据透视表的方法及装置 |
US20160335544A1 (en) * | 2015-05-12 | 2016-11-17 | Claudia Bretschneider | Method and Apparatus for Generating a Knowledge Data Model |
US20170124464A1 (en) * | 2015-10-28 | 2017-05-04 | Fractal Industries, Inc. | Rapid predictive analysis of very large data sets using the distributed computational graph |
WO2018036239A1 (zh) * | 2016-08-24 | 2018-03-01 | 慧科讯业有限公司 | 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统 |
CN107368468A (zh) * | 2017-06-06 | 2017-11-21 | 广东广业开元科技有限公司 | 一种运维知识图谱的生成方法及系统 |
CN107908637A (zh) * | 2017-09-26 | 2018-04-13 | 北京百度网讯科技有限公司 | 一种基于知识库的实体更新方法及系统 |
US20190325329A1 (en) * | 2018-04-23 | 2019-10-24 | Qliktech International Ab | Knowledge graph data structures and uses thereof |
CN109446341A (zh) * | 2018-10-23 | 2019-03-08 | 国家电网公司 | 知识图谱的构建方法及装置 |
CN109885691A (zh) * | 2019-01-08 | 2019-06-14 | 平安科技(深圳)有限公司 | 知识图谱补全方法、装置、计算机设备及存储介质 |
CN110008346A (zh) * | 2019-01-24 | 2019-07-12 | 平安科技(深圳)有限公司 | 黑名单传导图谱构建方法、装置、计算机设备和存储介质 |
CN110245874A (zh) * | 2019-03-27 | 2019-09-17 | 中国海洋大学 | 一种基于机器学习和知识推理的决策融合方法 |
Non-Patent Citations (1)
Title |
---|
韩普;马健;张嘉明;刘亦卓;: "基于多数据源融合的医疗知识图谱框架构建研究", 现代情报, no. 06 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949745A (zh) * | 2021-03-23 | 2021-06-11 | 中国检验检疫科学研究院 | 多源数据的融合处理方法、装置、电子设备及存储介质 |
CN112949745B (zh) * | 2021-03-23 | 2024-04-19 | 中国检验检疫科学研究院 | 多源数据的融合处理方法、装置、电子设备及存储介质 |
CN112906826A (zh) * | 2021-03-30 | 2021-06-04 | 平安科技(深圳)有限公司 | 基于多维度的知识图谱的融合方法、装置及计算机设备 |
CN114418399A (zh) * | 2022-01-20 | 2022-04-29 | 杭州和利时自动化有限公司 | 一种流程行业工厂知识图谱自维护系统及方法 |
CN114385833A (zh) * | 2022-03-23 | 2022-04-22 | 支付宝(杭州)信息技术有限公司 | 更新知识图谱的方法及装置 |
CN114385833B (zh) * | 2022-03-23 | 2023-05-12 | 支付宝(杭州)信息技术有限公司 | 更新知识图谱的方法及装置 |
CN115408534A (zh) * | 2022-08-23 | 2022-11-29 | 连连银通电子支付有限公司 | 一种知识图谱更新方法、装置、设备及存储介质 |
CN115408534B (zh) * | 2022-08-23 | 2023-12-12 | 连连银通电子支付有限公司 | 一种知识图谱更新方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111061883B (zh) | 2023-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111061883A (zh) | 更新知识图谱的方法、装置、设备及存储介质 | |
Serafino et al. | True scale-free networks hidden by finite size effects | |
US10339188B2 (en) | Question distribution method and a question distribution system for a Q and A platform | |
Oussalah et al. | A software architecture for Twitter collection, search and geolocation services | |
CN110597943A (zh) | 基于人工智能的兴趣点处理方法、装置及电子设备 | |
CN111444181B (zh) | 知识图谱更新方法、装置及电子设备 | |
CN110489558B (zh) | 文章聚合方法和装置、介质和计算设备 | |
JP2018097846A (ja) | Api学習 | |
CN109194714B (zh) | 一种文案推送方法、装置、终端设备及存储介质 | |
US8316006B2 (en) | Creating an ontology using an online encyclopedia and tag cloud | |
CN102929867A (zh) | 用于自动化的文档翻译的技术 | |
EP2965283B1 (en) | Systems and methods for associating microposts with geographic locations | |
CN102622453A (zh) | 基于本体的食品安全事件语义检索系统 | |
Nesi et al. | Geographical localization of web domains and organization addresses recognition by employing natural language processing, Pattern Matching and clustering | |
CN111611268A (zh) | 政务服务的搜索处理方法及装置 | |
CN108289118A (zh) | 一种分布式消息流的管理方法和装置 | |
CN103324670A (zh) | 一种页面内容更新消息的推送方法和系统 | |
KR101819924B1 (ko) | 높은 상세 레벨의 뉴스 지도들과 이미지 오버레이들 | |
US20120284224A1 (en) | Build of website knowledge tables | |
CN111078219B (zh) | 页面显示方法、装置、系统、电子设备及存储介质 | |
Lämmel et al. | Metadata harvesting and quality assurance within open urban platforms | |
Zhang et al. | Towards an interoperable online volunteered geographic information system for disaster response | |
CN104699814A (zh) | 热点信息的搜索方法及系统 | |
Schuler et al. | Rule-based generation of mobile user interfaces | |
CN115221290A (zh) | 标签前置数据查询方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |