CN111625655A - 基于知识图谱的归并以及分类方法、装置以及存储介质 - Google Patents

基于知识图谱的归并以及分类方法、装置以及存储介质 Download PDF

Info

Publication number
CN111625655A
CN111625655A CN202010397379.XA CN202010397379A CN111625655A CN 111625655 A CN111625655 A CN 111625655A CN 202010397379 A CN202010397379 A CN 202010397379A CN 111625655 A CN111625655 A CN 111625655A
Authority
CN
China
Prior art keywords
knowledge
graph
entity model
knowledge graph
text information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010397379.XA
Other languages
English (en)
Other versions
CN111625655B (zh
Inventor
王燕
吴奇锋
王明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iReadyIT Beijing Co Ltd
Original Assignee
iReadyIT Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iReadyIT Beijing Co Ltd filed Critical iReadyIT Beijing Co Ltd
Priority to CN202010397379.XA priority Critical patent/CN111625655B/zh
Publication of CN111625655A publication Critical patent/CN111625655A/zh
Application granted granted Critical
Publication of CN111625655B publication Critical patent/CN111625655B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于知识图谱的归并以及分类方法、装置以及存储介质。其中,该方法包括:获取基于第一实体‑联系模型图形的第一知识图谱;获取所述第一知识图谱的第一实体模型的第一文本信息;根据所述第一文本信息,确定与所述第一知识图谱进行归并的第二知识图谱,其中所述第二知识图谱包括第二实体模型,并且所述第二实体模型的第二文本信息与所述第一文本信息匹配;以及基于所述第一实体模型和所述第二实体模型,将所述第一知识图谱与所述第二知识图谱进行归并,生成第三知识图谱。

Description

基于知识图谱的归并以及分类方法、装置以及存储介质
技术领域
本申请涉及知识图谱领域,特别是涉及一种基于知识图谱的归并以及分类方法、装置以及存储介质。
背景技术
知识图谱是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互关系,是一种利用可视化技术描述知识资源及其载体的语义网络,所形成的语义网络可以用于解决精准搜索、计算文本语义相似度、制作对话机器人或智能问答系统等人工智能领域的课题。将知识图谱应用在企业中可以直观地反应企业的业务关系。
一个企业可能会构建多个知识图谱系统,并且这些知识图谱中的文本信息是存在关联关系的,但是现有的同一个企业中的多个知识图谱是相互独立的,没有进行关联的,无法反应出业务之间的关联关系。
针对上述的现有技术中存在的同一个企业中的多个知识图谱是相互独立的,没有进行关联的,无法反应出业务之间的关联关系的技术问题,目前尚未提出有效的解决方案。
发明内容
本公开的实施例提供了一种基于知识图谱的归并以及分类方法、装置以及存储介质,以至少解决现有技术中存在的同一个企业中的多个知识图谱是相互独立的,没有进行关联的,无法反应出业务之间的关联关系的技术问题。
根据本公开实施例的一个方面,提供了一种基于知识图谱的归并以及分类方法,包括:获取基于第一实体-联系模型图形的第一知识图谱;获取第一知识图谱的第一实体模型的第一文本信息;根据第一文本信息,确定与第一知识图谱进行归并的第二知识图谱,其中第二知识图谱包括第二实体模型,并且第二实体模型的第二文本信息与第一文本信息匹配;以及基于第一实体模型和第二实体模型,将第一知识图谱与第二知识图谱进行归并,生成第三知识图谱。
根据本公开实施例的另一个方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时由处理器执行以上任意一项所述的方法。
根据本公开实施例的另一个方面,还提供了一种基于知识图谱的归并以及分类装置,包括:获取第一知识图谱模块,用于获取基于第一实体-联系模型图形的第一知识图谱;获取第一文本信息模块,用于获取第一知识图谱的第一实体模型的第一文本信息;确定第二知识图谱模块,用于根据第一文本信息,确定与第一知识图谱进行归并的第二知识图谱,其中第二知识图谱包括第二实体模型,并且第二实体模型的第二文本信息与第一文本信息匹配;以及归并模块,用于基于第一实体模型和第二实体模型,将第一知识图谱与第二知识图谱进行归并,生成第三知识图谱。
根据本公开实施例的另一个方面,还提供了一种基于知识图谱的归并以及分类装置,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取基于第一实体-联系模型图形的第一知识图谱;获取第一知识图谱的第一实体模型的第一文本信息;根据第一文本信息,确定与第一知识图谱进行归并的第二知识图谱,其中第二知识图谱包括第二实体模型,并且第二实体模型的第二文本信息与第一文本信息匹配;以及基于第一实体模型和第二实体模型,将第一知识图谱与第二知识图谱进行归并,生成第三知识图谱。
在本公开实施例中,计算设备通过获取第一知识图谱的第一实体模型的第一文本信息,并且根据第一文本信息,确定第二知识图谱,然后将第一知识图谱和第二知识图谱进行归并,最后生成第三知识图谱。从而,通过这种方式,本实施例将存在关联关系的知识图谱进行归并,将同一个企业的多个独立的知识图谱打通,更加直观地反映出有关联关系的业务。进而解决了同一个企业中的多个知识图谱是相互独立的,没有进行关联的,无法反应出业务之间的关联关系的技术问题。
附图说明
此处所说明的附图用来提供对本公开的进一步理解,构成本申请的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:
图1是用于实现根据本公开实施例1所述的方法的计算机终端的硬件结构框图;
图2是根据本公开实施例1的第一个方面所述的基于知识图谱的归并以及分类方法的流程示意图;
图3是根据本公开实施例1的第一个方面所述的第一知识图谱的示意图;
图4是根据本公开实施例1的第一个方面所述的第二知识图谱的示意图;
图5是根据本公开实施例1的第一个方面所述的第三知识图谱的示意图;
图6是根据本公开实施例2所述的基于知识图谱的归并以及分类装置的示意图;以及
图7是根据本公开实施例3所述的基于知识图谱的归并以及分类装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本公开的技术方案,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本公开实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
实体命名识别:从文本中提取实体并将每个实体打上标签。
实体-联系模型:(简称E-R模型),提供不受任何DBMS约束的面向用户的表达方法,在数据库设计中被广泛用作数据建模的工具。
长短期记忆神经网络(LSTM):是一种循环神经网络(RNN)的特殊类型,可以学习长期依赖信息。比起传统的循环神经网络,主要有两个改动的部分。其一,是引入了cell细胞;其二,是加入了gate的机制。Input Gate是输入门,输入的参数是当前位置的输入信息和上一个隐层神经元传过来的信息,其作用就是用来决定输入信息,留下需要的,削减没用的。Forget Gate是遗忘门,这是用来决定上一层的隐层神经元传过来的信息需要保留多少,需要删除多少。Output Gate是输出门,用来决定最后生成的输出信息哪些重要,哪些不重要。
实施例1
根据本实施例,提供了一种基于知识图谱的归并以及分类方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例所提供的方法实施例可以在服务器或者类似的计算设备中执行。图1示出了一种用于实现基于知识图谱的归并以及分类方法的计算设备的硬件结构框图。如图1所示,计算设备可以包括一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器、以及用于通信功能的传输装置。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算设备还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算设备中的其他元件中的任意一个内。如本公开实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器可用于存储应用软件的软件程序以及模块,如本公开实施例中的基于知识图谱的归并以及分类方法对应的程序指令/数据存储装置,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的基于知识图谱的归并以及分类方法。存储器可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备的通信供应商提供的无线网络。在一个实例中,传输装置包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算设备的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算设备中的部件的类型。
在上述运行环境下,根据本实施例的第一个方面,提供了一种基于知识图谱的归并以及分类方法。图2示出了该方法的流程示意图,参考图2所示,该方法包括:
S202:获取基于第一实体-联系模型图形的第一知识图谱;
S204:获取第一知识图谱的第一实体模型的第一文本信息;
S206:根据第一文本信息,确定与第一知识图谱进行归并的第二知识图谱,其中第二知识图谱包括第二实体模型,并且第二实体模型的第二文本信息与第一文本信息匹配;以及
S208:基于第一实体模型和第二实体模型,将第一知识图谱与第二知识图谱进行归并,生成第三知识图谱。
具体地,参考图2以及图3所示,在本实施例中,首先计算设备获取第一实体-联系模型(即第一E-R模型)图形的第一知识图谱,例如图3中的“职能部门”知识图谱为第一知识图谱,包含“绩效及过程管控小组”实体模型、“人事部门”实体模型、“财务部门”实体模型、“工艺部门”实体模型、“维修部门”实体模型以及“职能部门”实体模型。
然后,计算设备获取该第一知识图谱中的第一实体模型的第一文本信息,例如,参考图3所示,计算设备获取“职能部门”知识图谱的第一实体模型(“职能部门”)的第一文本信息“职能部门”。
进一步地,计算设备根据第一文本信息,确定与第一知识图谱进行归并的第二知识图谱,其中第二知识图谱包括第二实体模型,并且第二实体模型与第一文本信息匹配。
例如,参考图4所示,计算设备根据上述第一文本信息确定与第一知识图谱“职能部门”进行归并的第二知识图谱“业务线”,其中第二知识图谱“业务线”包含“危废处理业务线”实体模型、“生活垃圾焚烧发电业务线”实体模型、“生活垃圾填埋业务线”实体模型、“沼气发电业务线”实体模型、“拆船业务线”实体模型、“资源回收线”实体模型、“危废处理厂”实体模型、“生活垃圾焚烧发电厂”实体模型、“生活垃圾填埋厂”实体模型、“沼气发电厂”实体模型、“拆船厂”实体模型以及“资源回收厂”实体模型。其中第二实体模型为“业务线”实体模型,第二实体模型的第二文本信息为“业务线”。并且,第二文本信息“业务线”与第一文本信息“职能部门”相匹配。
进一步地,参考图5所示,计算设备基于第一实体模型和第二实体模型,将第一知识图谱“职能部门”和第二知识图谱“业务线”进行归并,生成第三知识图谱“A事业部”。
从而,本实施例通过获取第一知识图谱的第一实体模型的第一文本信息,并且根据第一文本信息,确定第二知识图谱,然后将第一知识图谱和第二知识图谱进行归并,最后生成第三知识图谱。从而,通过这种方式,本实施例将存在关联关系的知识图谱进行归并,将同一个企业的多个独立的知识图谱打通,更加直观地反映出有关联关系的业务。进而解决了同一个企业中的多个知识图谱是相互独立的,没有进行关联的,无法反应出业务之间的关联关系的技术问题。
可选地,根据第一文本信息,确定与第一知识图谱进行归并的第二知识图谱的操作,包括:确定第一实体模型的第一继承关系属性,第一继承关系属性用于指示第一实体模型与第一知识图谱中的其他实体模型之间的继承关系;以及根据第一文本信息以及第一继承关系属性,确定第二知识图谱,其中第二知识图谱的第二实体模型的第二文本信息和第二继承关系属性与第一实体模型的第一文本信息和第一继承关系匹配。
具体地,计算设备确定第一实体模型的第一继承关系属性,第一继承关系属性用于指示第一实体模型与第一知识图谱中的其他实体模型之间的继承关系。例如,参考图3所示,在第一知识图谱中,第一实体模型“职能部门”实体模型与第一知识图谱中的其他实体模型之间的关系为:“绩效及过程管控小组”实体模型、“人事部门”实体模型、“财务部门”实体模型、“工艺部门”实体模型以及“维修部门”实体模型继承第一实体模型“职能部门”实体模型。
进一步地,计算设备根据第一文本信息以及第一继承关系属性,确定第二知识图谱,其中第二知识图谱的第二实体模型的第二文本信息与第一实体模型的第一文本信息匹配,第二实体模型的第二继承关系属性和第一继承关系属性匹配。
例如,计算设备根据第一文本信息“职能部门”以及第一继承关系属性,确定第二知识图谱“业务线”。其中第二实体模型“业务线”的文本信息与第一实体模型“职能部门”的文本信息匹配,第一实体模型“职能部门”的文本信息继承“A事业部”实体模型,第二实体模型“业务线”的文本信息继承“A事业部”实体模型。
第一实体模型与第二实体模型基于同一实体模型,从而确定第一实体模型与第二实体模型是相匹配的,确保与第一知识图谱进行归并的第二知识图谱是相匹配的。
可选地,还包括:确定第三知识图谱的实体模型的继承关系;根据第三知识图谱的实体模型的继承关系,确定第三知识图谱中的最顶级的实体模型;以及根据第三知识图谱中与最顶级的实体模型相关的业务路径,确定第三知识图谱的标签信息。
具体地,参考图5所示,计算设备确定第三知识图谱“A事业部”的实体模型的继承关系,例如,实体模型“职能部门”和实体模型“业务线”继承“A事业部”实体模型。
根据第三知识图谱“A事业部”的实体模型的继承关系,确定第三知识图谱“A事业部”中的最顶级的实体模型“A事业部”。
进一步地,计算设备根据第三知识图谱中与最顶级的实体模型“A事业部”相关的业务路径,确定第三知识图谱的标签信息。例如,计算设备根据“A事业部”+“职能部门”+“绩效及过程管控小组”的路径,确定第三知识图谱的标签信息;计算设备也可以根据“A事业部”+“业务线”+“危废处理业务线”+“危废处理厂”的路径,确定第三知识图谱的标签信息。从而,计算设备通过对业务路径加标签的方式,将第三知识图谱进行分类,从而确定出与某个业务路径对应的实体模型。
可选地,根据第三知识图谱中与最顶级的实体模型相关的业务路径,确定第三知识图谱的标签信息的操作,包括:确定业务路径上的业务模型和/或者实体模型;将所确定的业务模型和/或者实体模型的文本信息进行组合,生成待标签文本信息;以及利用预先设定的自然语言处理模型,根据待标签文本信息,确定第三知识图谱的标签。
具体地,计算设备确定业务路径上的业务模型和/或实体模型。例如,计算设备确定“A事业部”+“职能部门”+“绩效及过程管控小组”的路径上的实体模型为:“A事业部”实体模型、“职能部门”以及“绩效及过程管控小组”实体模型。
进一步地,计算设备将所确定的业务模型和/或者实体模型的文本信息进行组合,生成待标签文本信息。例如,计算设备将“A事业部”实体模型、“职能部门”实体模型以及“绩效及过程管控小组”实体模型的文本信息进行组合,生成待标签文本信息:“A事业部”、“职能部门”以及“绩效及过程管控小组”。
进一步地,计算设备利用预先设定的自然语言处理模型,根据待标签文本信息,确定第三知识图谱的标签。例如,计算设备利用预先设定的自然语言处理模型,根据上述所确定的待标签文本信息,确定第三知识图谱的标签。
从而,通过加标签的方式,确定知识图谱中的某段业务路径,从而确定该段业务路程相关的知识图谱。
可选地,利用预先设定的自然语言处理模型,根据待标签文本信息,确定第三知识图谱的标签的操作,包括:根据待标签文本信息,生成与待标签文本信息对应的向量矩阵;利用预设的长短期记忆神经网络,生成与向量矩阵对应的文本特征;以及利用预设的CRF模型,确定与文本特征对应的标签,作为第三知识图谱的标签。
具体地,计算设备根据待标签文本信息,生成与待标签文本信息对应的向量矩阵。例如,计算设备根据待标签文本信息:“A事业部”、“职能部门”以及“绩效及过程管控小组”,生成与待标签文本信息对应的向量矩阵A。
进一步地,计算设备利用预设的长短期记忆神经网络(LSTM),生成与向量矩阵A对应的文本特征(X1,X2,…Xn)。然后,计算设备根据预设的CRF模型,确定与文本特征(X1,X2,…Xn)对应的标签,作为第三知识图谱的标签。从而,通过机器学习的方式,实现语义算法自动识别和匹配,快速构建知识图谱。
此外,参考图1所示,根据本实施例的第二个方面,提供了一种存储介质。所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行以上任意一项所述的方法。
从而根据本实施例,计算设备通过获取第一知识图谱的第一实体模型的第一文本信息,并且根据第一文本信息,确定第二知识图谱,然后将第一知识图谱和第二知识图谱进行归并,最后生成第三知识图谱。从而,通过这种方式,本实施例将存在关联关系的知识图谱进行归并,将同一个企业的多个独立的知识图谱打通,更加直观地反映出有关联关系的业务。进而解决了同一个企业中的多个知识图谱是相互独立的,没有进行关联的,无法反应出业务之间的关联关系的技术问题。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
图6示出了根据本实施例所述的基于知识图谱的归并以及分类装置600,该装置600与根据实施例1的第一个方面所述的方法相对应。参考图6所示,该装置600包括:获取第一知识图谱模块610,用于获取基于第一实体-联系模型图形的第一知识图谱;获取第一文本信息模块620,用于获取第一知识图谱的第一实体模型的第一文本信息;确定第二知识图谱模块630,用于根据第一文本信息,确定与第一知识图谱进行归并的第二知识图谱,其中第二知识图谱包括第二实体模型,并且第二实体模型的第二文本信息与第一文本信息匹配;以及归并模块640,用于基于第一实体模型和第二实体模型,将第一知识图谱与第二知识图谱进行归并,生成第三知识图谱。
可选地,确定第二知识图谱模块630,包括:确定第一继承关系属性子模块,用于确定第一实体模型的第一继承关系属性,第一继承关系属性用于指示第一实体模型与第一知识图谱中的其他实体模型之间的继承关系;以及确定第二知识图谱子模块,用于根据第一文本信息以及第一继承关系属性,确定第二知识图谱,其中第二知识图谱的第二实体模型的第二文本信息和第二继承关系属性与第一实体模型的第一文本信息和第一继承关系匹配。
可选地,装置600,还包括:确定继承关系模块,用于确定第三知识图谱的实体模型的继承关系;确定最顶级实体模型模块,用于根据第三知识图谱的实体模型的继承关系,确定第三知识图谱中的最顶级的实体模型;以及确定标签信息模块,用于根据第三知识图谱中与最顶级的实体模型相关的业务路径,确定第三知识图谱的标签信息。
可选地,确定标签信息模块,包括:确定模型子模块,用于确定业务路径上的业务模型和/或实体模型;生成子模块,用于将所确定的业务模型和/或者实体模型的文本信息进行组合,生成待标签文本信息;以及确定标签子模块,用于利用预先设定的自然语言处理模型,根据待标签文本信息,确定第三知识图谱的标签。
从而根据本实施例,通过基于知识图谱的归并以及分类装置600,获取第一知识图谱的第一实体模型的第一文本信息,并且根据第一文本信息,确定第二知识图谱,然后将第一知识图谱和第二知识图谱进行归并,最后生成第三知识图谱。从而,通过这种方式,本实施例将存在关联关系的知识图谱进行归并,将同一个企业的多个独立的知识图谱打通,更加直观地反映出有关联关系的业务。进而解决了同一个企业中的多个知识图谱是相互独立的,没有进行关联的,无法反应出业务之间的关联关系的技术问题。
实施例3
图7示出了根据本实施例所述的基于知识图谱的归并以及分类装置700,该装置700与根据实施例1的第一个方面所述的方法相对应。参考图7所示,该装置700包括:处理器710;以及存储器720,与处理器710连接,用于为处理器710提供处理以下处理步骤的指令:获取基于第一实体-联系模型图形的第一知识图谱;获取第一知识图谱的第一实体模型的第一文本信息;根据第一文本信息,确定与第一知识图谱进行归并的第二知识图谱,其中第二知识图谱包括第二实体模型,并且第二实体模型的第二文本信息与第一文本信息匹配;以及基于第一实体模型和第二实体模型,将第一知识图谱与第二知识图谱进行归并,生成第三知识图谱。
可选地,根据第一文本信息,确定与第一知识图谱进行归并的第二知识图谱的操作,包括:确定第一实体模型的第一继承关系属性,第一继承关系属性用于指示第一实体模型与第一知识图谱中的其他实体模型之间的继承关系;以及根据第一文本信息以及第一继承关系属性,确定第二知识图谱,其中第二知识图谱的第二实体模型的第二文本信息和第二继承关系属性与第一实体模型的第一文本信息和第一继承关系匹配。
可选地,存储器720还用于为处理器710提供处理以下处理步骤的指令:确定第三知识图谱的实体模型的继承关系;根据第三知识图谱的实体模型的继承关系,确定第三知识图谱中的最顶级的实体模型;以根据第三知识图谱中与最顶级的实体模型相关的业务路径,确定第三知识图谱的标签信息。
可选地,根据第三知识图谱中与最顶级的实体模型相关的业务路径,确定第三知识图谱的标签信息的操作,包括:确定业务路径上的业务模型和/或实体模型;将所确定的业务模型和/或者实体模型的文本信息进行组合,生成待标签文本信息;以及利用预先设定的自然语言处理模型,根据待标签文本信息,确定第三知识图谱的标签。
可选地,利用预先设定的自然语言处理模型,根据待标签文本信息,确定第三知识图谱的标签的操作,包括:根据待标签文本信息,生成与待标签文本信息对应的向量矩阵;利用预设的长短期记忆神经网络,生成与向量矩阵对应的文本特征;以及利用预设的CRF模型,确定与文本特征对应的标签,作为第三知识图谱的标签。
从而根据本实施例,通过基于知识图谱的归并以及分类装置700,获取第一知识图谱的第一实体模型的第一文本信息,并且根据第一文本信息,确定第二知识图谱,然后将第一知识图谱和第二知识图谱进行归并,最后生成第三知识图谱。从而,通过这种方式,本实施例将存在关联关系的知识图谱进行归并,将同一个企业的多个独立的知识图谱打通,更加直观地反映出有关联关系的业务。进而解决了同一个企业中的多个知识图谱是相互独立的,没有进行关联的,无法反应出业务之间的关联关系的技术问题。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于知识图谱的归并以及分类方法,其特征在于,包括:
获取基于第一实体-联系模型图形的第一知识图谱;
获取所述第一知识图谱的第一实体模型的第一文本信息;
根据所述第一文本信息,确定与所述第一知识图谱进行归并的第二知识图谱,其中所述第二知识图谱包括第二实体模型,并且所述第二实体模型的第二文本信息与所述第一文本信息匹配;以及
基于所述第一实体模型和所述第二实体模型,将所述第一知识图谱与所述第二知识图谱进行归并,生成第三知识图谱。
2.根据权利要求1所述的方法,其特征在于,根据所述第一文本信息,确定与所述第一知识图谱进行归并的第二知识图谱的操作,包括:
确定所述第一实体模型的第一继承关系属性,所述第一继承关系属性用于指示所述第一实体模型与所述第一知识图谱中的其他实体模型之间的继承关系;以及
根据所述第一文本信息以及所述第一继承关系属性,确定所述第二知识图谱,其中所述第二知识图谱的所述第二实体模型的第二文本信息和第二继承关系属性与所述第一实体模型的所述第一文本信息和所述第一继承关系匹配。
3.根据权利要求1所述的方法,其特征在于,还包括:
确定所述第三知识图谱的实体模型的继承关系;
根据所述第三知识图谱的实体模型的继承关系,确定所述第三知识图谱中的最顶级的实体模型;以及
根据所述第三知识图谱中与所述最顶级的实体模型相关的业务路径,确定所述第三知识图谱的标签信息。
4.根据权利要求3所述的方法,其特征在于,根据所述第三知识图谱中与所述最顶级的实体模型相关的业务路径,确定所述第三知识图谱的标签信息的操作,包括:
确定所述业务路径上的业务模型和/或实体模型;
将所确定的业务模型和/或者实体模型的文本信息进行组合,生成待标签文本信息;以及
利用预先设定的自然语言处理模型,根据所述待标签文本信息,确定所述第三知识图谱的标签。
5.根据权利要求4所述的方法,其特征在于,利用预先设定的自然语言处理模型,根据所述待标签文本信息,确定所述第三知识图谱的标签的操作,包括:
根据所述待标签文本信息,生成与所述待标签文本信息对应的向量矩阵;
利用预设的长短期记忆神经网络,生成与所述向量矩阵对应的文本特征;以及
利用预设的CRF模型,确定与所述文本特征对应的标签,作为所述第三知识图谱的标签。
6.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行权利要求1至5中任意一项所述的方法。
7.一种基于知识图谱的归并以及分类装置,其特征在于,包括:
获取第一知识图谱模块,用于获取基于第一实体-联系模型图形的第一知识图谱;
获取第一文本信息模块,用于获取所述第一知识图谱的第一实体模型的第一文本信息;
确定第二知识图谱模块,用于根据所述第一文本信息,确定与所述第一知识图谱进行归并的第二知识图谱,其中所述第二知识图谱包括第二实体模型,并且所述第二实体模型的第二文本信息与所述第一文本信息匹配;以及
归并模块,用于基于所述第一实体模型和所述第二实体模型,将所述第一知识图谱与所述第二知识图谱进行归并,生成第三知识图谱。
8.根据权利要求7所述的装置,其特征在于,确定第二知识图谱模块,包括:
确定第一继承关系属性子模块,用于确定所述第一实体模型的第一继承关系属性,第一继承关系属性用于指示所述第一实体模型与所述第一知识图谱中的其他实体模型之间的继承关系;以及
确定第二知识图谱子模块,用于根据所述第一文本信息以及所述第一继承关系属性,确定所述第二知识图谱,其中所述第二知识图谱的所述第二实体模型的第二文本信息和第二继承关系属性与所述第一实体模型的所述第一文本信息和所述第一继承关系匹配。
9.根据权利要求7所述的装置,其特征在于,还包括:
确定继承关系模块,用于确定所述第三知识图谱的实体模型的继承关系;
确定最顶级实体模型模块,用于根据所述第三知识图谱的实体模型的继承关系,确定所述第三知识图谱中的最顶级的实体模型;以及
确定标签信息模块,用于根据所述第三知识图谱中与所述最顶级的实体模型相关的业务路径,确定所述第三知识图谱的标签信息。
10.一种基于知识图谱的归并以及分类装置,其特征在于,包括:
处理器;以及
存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:
获取基于第一实体-联系模型图形的第一知识图谱;
获取所述第一知识图谱的第一实体模型的第一文本信息;
根据所述第一文本信息,确定与所述第一知识图谱进行归并的第二知识图谱,其中所述第二知识图谱包括第二实体模型,并且所述第二实体模型的第二文本信息与所述第一文本信息匹配;以及
基于所述第一实体模型和所述第二实体模型,将所述第一知识图谱与所述第二知识图谱进行归并,生成第三知识图谱。
CN202010397379.XA 2020-05-12 2020-05-12 基于知识图谱的归并以及分类方法、装置以及存储介质 Active CN111625655B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010397379.XA CN111625655B (zh) 2020-05-12 2020-05-12 基于知识图谱的归并以及分类方法、装置以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010397379.XA CN111625655B (zh) 2020-05-12 2020-05-12 基于知识图谱的归并以及分类方法、装置以及存储介质

Publications (2)

Publication Number Publication Date
CN111625655A true CN111625655A (zh) 2020-09-04
CN111625655B CN111625655B (zh) 2023-07-21

Family

ID=72270972

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010397379.XA Active CN111625655B (zh) 2020-05-12 2020-05-12 基于知识图谱的归并以及分类方法、装置以及存储介质

Country Status (1)

Country Link
CN (1) CN111625655B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528046A (zh) * 2020-12-25 2021-03-19 网易(杭州)网络有限公司 新的知识图谱的构建方法、装置和信息检索方法、装置
CN113569056A (zh) * 2021-07-27 2021-10-29 科大讯飞(苏州)科技有限公司 知识图谱补全方法、装置、电子设备与存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017167071A1 (zh) * 2016-03-30 2017-10-05 阿里巴巴集团控股有限公司 一种对应用程序进行项目评估的方法及系统
US20190018904A1 (en) * 2017-07-14 2019-01-17 Phylot Inc. Method and system for identifying and discovering relationships between disparate datasets from multiple sources
CN110442710A (zh) * 2019-07-03 2019-11-12 广州探迹科技有限公司 一种基于知识图谱的短文本语义理解与精准匹配方法及装置
CN110569369A (zh) * 2019-09-16 2019-12-13 神州数码融信软件有限公司 银行金融系统知识图谱的生成方法及装置、应用方法及装置
CN110609902A (zh) * 2018-05-28 2019-12-24 华为技术有限公司 一种基于融合知识图谱的文本处理方法及装置
CN110825886A (zh) * 2019-11-14 2020-02-21 北京京航计算通讯研究所 知识图谱融合系统
CN111091003A (zh) * 2019-12-05 2020-05-01 电子科技大学广东电子信息工程研究院 一种基于知识图谱查询的并行抽取方法
CN111125376A (zh) * 2019-12-23 2020-05-08 秒针信息技术有限公司 知识图谱生成方法、装置、数据处理设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017167071A1 (zh) * 2016-03-30 2017-10-05 阿里巴巴集团控股有限公司 一种对应用程序进行项目评估的方法及系统
US20190018904A1 (en) * 2017-07-14 2019-01-17 Phylot Inc. Method and system for identifying and discovering relationships between disparate datasets from multiple sources
CN110609902A (zh) * 2018-05-28 2019-12-24 华为技术有限公司 一种基于融合知识图谱的文本处理方法及装置
CN110442710A (zh) * 2019-07-03 2019-11-12 广州探迹科技有限公司 一种基于知识图谱的短文本语义理解与精准匹配方法及装置
CN110569369A (zh) * 2019-09-16 2019-12-13 神州数码融信软件有限公司 银行金融系统知识图谱的生成方法及装置、应用方法及装置
CN110825886A (zh) * 2019-11-14 2020-02-21 北京京航计算通讯研究所 知识图谱融合系统
CN111091003A (zh) * 2019-12-05 2020-05-01 电子科技大学广东电子信息工程研究院 一种基于知识图谱查询的并行抽取方法
CN111125376A (zh) * 2019-12-23 2020-05-08 秒针信息技术有限公司 知识图谱生成方法、装置、数据处理设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DIEGO COLLARANA; MIKHAIL GALKIN; IGNACIO TRAVERSO-RIBÓN; CHRISTOPH LANGE; MARIA-ESTHER VIDAL; SÖREN AUER: "Semantic Data Integration for Knowledge Graph Construction at Query Time", 《2017 IEEE 11TH INTERNATIONAL CONFERENCE ON SEMANTIC COMPUTING (ICSC)》, pages 109 - 116 *
廖盼: "基于多方法融合的学科知识图谱构建研究——以管理科学与工程学科为例", 《中国学位论文全文数据库》 *
苏佳 等: "基于多源数据融合的Java代码知识图谱构建方法研究", 《智能计算机与应用》 *
苏佳 等: "基于多源数据融合的Java代码知识图谱构建方法研究", 《智能计算机与应用》, 1 May 2020 (2020-05-01) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528046A (zh) * 2020-12-25 2021-03-19 网易(杭州)网络有限公司 新的知识图谱的构建方法、装置和信息检索方法、装置
CN112528046B (zh) * 2020-12-25 2023-09-15 网易(杭州)网络有限公司 新的知识图谱的构建方法、装置和信息检索方法、装置
CN113569056A (zh) * 2021-07-27 2021-10-29 科大讯飞(苏州)科技有限公司 知识图谱补全方法、装置、电子设备与存储介质

Also Published As

Publication number Publication date
CN111625655B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
CN111522927B (zh) 基于知识图谱的实体查询方法和装置
CN113590776B (zh) 基于知识图谱的文本处理方法、装置、电子设备及介质
CN112541359B (zh) 文档内容识别方法、装置、电子设备及介质
CN111985229A (zh) 一种序列标注方法、装置及计算机设备
CN112380870A (zh) 用户意图分析方法、装置、电子设备及计算机存储介质
CN113254711B (zh) 一种互动图像的显示方法、装置、计算机设备和存储介质
CN109189931A (zh) 一种目标语句的筛选方法及装置
CN113570269A (zh) 运维项目的管理方法、装置、设备、介质和程序产品
CN109408561A (zh) 业务名称匹配方法及装置
US20150193519A1 (en) Modeling and visualizing level-based hierarchies
CN111625655B (zh) 基于知识图谱的归并以及分类方法、装置以及存储介质
CN113505273B (zh) 基于重复数据筛选的数据排序方法、装置、设备及介质
CN114610795A (zh) 应用于大数据挖掘的数字化业务信息处理方法及服务器
Subramanian et al. Systems dynamics-based modeling of data warehouse quality
CN110765276A (zh) 知识图谱中的实体对齐方法及装置
US10140120B2 (en) Context-specific view of a hierarchical data structure
CN112395432B (zh) 课程推送方法、装置、计算机设备及存储介质
CN110457436B (zh) 信息标注方法、装置、计算机可读存储介质及电子设备
CN112286916A (zh) 一种数据处理方法、装置、设备及存储介质
CN116127047A (zh) 企业信息库的建立方法与装置
CN110750643A (zh) 上市公司非定期公告的分类方法、装置及存储介质
CN115861606A (zh) 一种针对长尾分布文档的分类方法、装置及存储介质
CN113626605B (zh) 信息分类方法、装置、电子设备及可读存储介质
CN115168609A (zh) 一种文本匹配方法、装置、计算机设备和存储介质
CN115033229A (zh) 活动模型生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant