CN109885691B - 知识图谱补全方法、装置、计算机设备及存储介质 - Google Patents

知识图谱补全方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN109885691B
CN109885691B CN201910014362.9A CN201910014362A CN109885691B CN 109885691 B CN109885691 B CN 109885691B CN 201910014362 A CN201910014362 A CN 201910014362A CN 109885691 B CN109885691 B CN 109885691B
Authority
CN
China
Prior art keywords
entity
knowledge
knowledge graph
named
tuple
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910014362.9A
Other languages
English (en)
Other versions
CN109885691A (zh
Inventor
金戈
徐亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910014362.9A priority Critical patent/CN109885691B/zh
Publication of CN109885691A publication Critical patent/CN109885691A/zh
Priority to PCT/CN2019/118160 priority patent/WO2020143319A1/zh
Application granted granted Critical
Publication of CN109885691B publication Critical patent/CN109885691B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种知识图谱补全方法、装置、计算机设备及存储介质,包括下述步骤:获取待处理的知识信息;根据预设的第一抽取规则从所述待处理的知识信息中抽取命名实体和关联关系;根据所述命名实体和关联关系生成实体元组;将所述实体元组补充到知识图谱中。通过上述方法,获取到的数据源仅需要少部分标注,根据有标注的部分数据生成一个文法样式,再通过该文法样式对未标记的数据进行信息抽取,可以有效减少对数据源中标注的依赖性,减少了为数据源添加标注的人力和时间成本,提高知识图谱补全的效率和精确度。

Description

知识图谱补全方法、装置、计算机设备及存储介质
技术领域
本发明涉及信息处理技术领域,特别是涉及一种知识图谱补全方法、装置、计算机设备及存储介质。
背景技术
知识图谱是知识工程中以图的形式组织的知识集群,其由不同类型的实体作为节点、关系作为连接节点的边所构成的。在知识图谱中,实体指真实世界中的客观物体,或者人类思想中的抽象概念,关系则是描述两个实体之间的实际关系。
在已知的知识图谱中,实体类型有人物、事件、组织机构、地点等,而它们之间的关系类型也十分多样化。不同的实体类型所关注的关系也是不同的。例如,对于人物实体之间,常见关系有亲人及朋友关系;对于人与组织机构之间,常见关系有工作单位、毕业院校等。这些已知的实体间的关系在原始的知识图谱中比较稀疏,而实际上实体间还存在大量的隐含关系。
现有机制中,在构建和补全知识图谱时,会将数据源中所有获取到的实体都进行分析,然后建立所有实体、实体属性之间的关联关系。这样,构建出的知识图谱虽然所能涵盖的范围较广,但对于一批样本,不仅需要知道其中每一个样本数据本身,还需要知道其对应的类别标签,非常依赖含有标签的数据源,标记成本较高。
发明内容
本发明实施例能够提供一种降低对含标注数据源的依赖性的知识图谱补全方法、装置、计算机设备及存储介质。
为解决上述技术问题,本发明创造的实施例采用的一个技术方案是:提供一种知识图谱补全方法,包括以下步骤:
获取待处理的知识信息;
根据预设的第一抽取规则从所述待处理的知识信息中抽取命名实体和关联关系;
根据所述命名实体和关联关系生成实体元组;
将所述实体元组补充到知识图谱中。
可选地,所述根据预设的第一抽取规则从所述待处理的知识信息中抽取命名实体和关联关系的步骤,包括以下步骤:
从所述待处理的知识信息中确定种子样式,其中,所述种子样式包括已标记的语句;
根据所述已标记的语句生成对应的文法模式;
根据所述文法模式在所述待处理的知识信息中抽取命名实体和关联关系。
可选地,所述将所述实体元组补充到知识图谱中的步骤之后,包括以下步骤:
判断所述知识图谱中是否存在与所述命名实体相同的对应实体;
若所述知识图谱中已存在与所述命名实体相同的对应实体,则将所述实体元组链接到所述对应实体。
可选地,所述将所述实体元组补充到知识图谱中的步骤之后,包括以下步骤:
判断所述知识图谱中是否存在与所述命名实体相同的对应实体;
若所述知识图谱中不存在与所述命名实体相同的对应实体,则根据预设的匹配规则在所述知识图谱中查找所述命名实体的相似实体;
根据所述相似实体所属的实体元组对所述命名实体进行归类并补充关系。
可选地,包括下述步骤:
根据预设的第二抽取规则从所述待处理的知识信息中抽取属性元组;
将所述属性元组补充到所述知识图谱中。
可选地,所述将所述实体元组补充到知识图谱中的步骤之后,包括下述步骤:
根据预设的计算规则计算所述待处理的知识信息中各命名实体间的并列关系相似度;
根据所述并列关系相似度和所述第三抽取规则在所述待处理的知识信息中抽取并列实体元组;
将所述并列实体元组补充到所述知识图谱中。
可选地,所述将所述实体元组补充到知识图谱中的步骤之后,包括下述步骤:
根据预设的推理规则判断所述命名实体与所述知识图谱中已存在的实体间的从属关系;
根据所述从属关系生成从属实体元组;
将所述从属实体元组补充到所述知识图谱中。
为解决上述技术问题,本发明实施例还提供一种知识图谱补全装置,包括:
获取模块,用于获取待处理的知识信息;
抽取模块,用于根据预设的第一抽取规则从所述待处理的知识信息中抽取命名实体和关联关系;
处理模块,用于根据所述命名实体和关联关系生成实体元组;
执行模块,用于将所述实体元组补充到知识图谱中。
可选地,所述知识图谱补全装置,还包括:
第一处理子模块,用于从所述待处理的知识信息中确定种子样式,其中,所述种子样式包括已标记的语句;
第二处理子模块,用于根据所述已标记的语句生成对应的文法模式;
第一抽取子模块,用于根据所述文法模式在所述待处理的知识信息中抽取命名实体和关联关系。
可选地,所述知识图谱补全装置,还包括:
第一判断子模块,用于判断所述知识图谱中是否存在与所述命名实体相同的对应实体;
第一执行子模块,用于若所述知识图谱中已存在与所述命名实体相同的对应实体,则将所述实体元组链接到所述对应实体。
可选地,所述知识图谱补全装置,还包括:
第二判断子模块,用于判断所述知识图谱中是否存在与所述命名实体相同的对应实体;
第一查找子模块,用于若所述知识图谱中不存在与所述命名实体相同的对应实体,则根据预设的匹配规则在所述知识图谱中查找所述命名实体的相似实体;
第二执行子模块,用于根据所述相似实体所属的实体元组对所述命名实体进行归类并补充关系。
可选地,所述知识图谱补全装置,还包括:
第二抽取子模块,用于根据预设的第二抽取规则从所述待处理的知识信息中抽取属性元组;
第三执行子模块,用于将所述属性元组补充到所述知识图谱中。
可选地,所述知识图谱补全装置,还包括:
第三处理子模块,用于根据预设的计算规则计算所述待处理的知识信息中各命名实体间的并列关系相似度;
第三抽取子模块,用于根据所述并列关系相似度和所述第三抽取规则在所述待处理的知识信息中抽取并列实体元组;
第四执行子模块,用于将所述并列实体元组补充到所述知识图谱中。
可选地,所述知识图谱补全装置,还包括:
第四处理子模块,用于根据预设的推理规则判断所述命名实体与所述知识图谱中已存在的实体间的从属关系;
第五处理子模块,用于根据所述从属关系生成从属实体元组;
第五执行子模块,用于将所述从属实体元组补充到所述知识图谱中。
为解决上述技术问题,本发明实施例还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述知识图谱补全方法的步骤。
为解决上述技术问题,本发明实施例还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述知识图谱补全方法的步骤。
本发明实施例的有益效果是:通过预设的抽取规则,仅需要对待处理的知识信息中小部分内容进行标注即可实现命名实体和关联关系的抽取,并根据抽取得到的命名实体和关联关系形成实体元组对知识图谱进行补充,相较于传统的需要对待处理数据中所有信息都进行标注才可以实现知识图谱补全的方式,可以有效地减少对于数据源中标注的依赖性,节省对于数据源标注的人力和时间成本,提高了知识图谱补全的效率和准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例知识图谱补全方法的基本流程示意图;
图2为本发明实施例抽取命名实体和关联关系的流程示意图;
图3为本发明实施例对实体元组进行链接的流程示意图;
图4为本发明实施例对命名实体进行归类并补充关系的流程示意图;
图5为本发明实施例补充属性元组的流程示意图;
图6为本发明实施例补充并列实体元组的流程示意图;
图7为本发明实施例补充从属实体元组的流程示意图;
图8为本发明实施例知识图谱补全装置的基本结构框图;
图9为本发明实施例计算机设备基本结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunicationsService,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(PersonalDigitalAssistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(GlobalPositioningSystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(MobileInternetDevice,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
具体地请参阅图1,图1为本实施例知识图谱补全方法的基本流程示意图。
如图1所示,一种知识图谱补全方法,包括以下步骤:
S1100、获取待处理的知识信息;
在一些实施方式中,可以通过网络爬虫等方式获取到互联网上的内容,包括百科、文章或者文献等等,但不限于此。以百科为例,通过一定的词汇首先获取到该词汇的百科页面,提取其中的文本数据作为目标内容,通过百科中的词汇链接等链接方式,链接到其他的词汇页面中,同时,根据链接方式的不同,确定两个词汇之间的关系,例如同义、反义或者上下位关系等,但不限于此,将获取到的页面内容整理形成文本数据,重复上述方法,统计获取到的大量文本数据作为待处理的知识信息。
S1200、根据预设的第一抽取规则从所述待处理的知识信息中抽取命名实体和关联关系;
通过自然语言的解析技术对待处理的知识信息进行命名实体的提取。将待处理的知识信息进行分句,将不同的句子输入到自然语言解析模型中,识别句子中的命名实体,并进行标记,输出得到已标记命名实体的句子,其中,自然语言解析模型可以现有的对自然语言进行分析或识别的任意计算模型。
在待处理的知识信息中确定种子样式,种子样式的确定可以通过人工进行,也可以通过已训练至收敛的用于提取种子样式的神经网络模型进行。种子样式中包含有已标注的句子,标注内容包括句子中的命名实体和关联关系,将一定量的同一类别的种子样式作为训练样本集输入到神经网络模型中,通过反复迭代的方式训练得到收敛的神经网络模型,用于从自然语言句式中提取命名实体和关联关系,定义上述在句子中提取得到命名实体和关联关系的模式为该类别种子样式的文法模式。
将待处理的知识信息的句子根据上述文法模式,识别并抽取命名实体和关联关系,具体地,将上述句子输入到上述用于提取命名实体和关联关系的神经网络模式中,根据神经网络的输出分类结果,得到句子中的命名实体和关联关系。
S1300、根据所述命名实体和关联关系生成实体元组;
根据提取得到的命名实体和关联关系,生成“实体-关系-实体”的三元组,作为实体元组,例如,获取到的实体为“猫”和“哺乳动物”,关系为“种类”,即得生成三元组(猫,种类,哺乳动物)。
S1400、将所述实体元组补充到知识图谱中;
将获取到的实体元组添加到知识图谱中,并判断所述知识图谱中是否存在与实体元组中命名实体相同的对应实体,若所述知识图谱中已存在与命名实体相同的实体,则将实体元组链接到对应实体;若所述知识图谱中不存在与命名实体相同的对应实体,则根据预设的匹配规则在所述知识图谱中查找所述命名实体的相似实体,并根据相似实体所属的实体元组对所述命名实体进行归类并补充关系。
如图2所示,步骤S1200具体包括以下步骤:
S1210、从所述待处理的知识信息中确定种子样式,其中,所述种子样式包括已标记的语句;
种子样式的确定可以通过人工进行,也可以通过已训练至收敛的用于提取种子样式的神经网络模型进行。种子样式中包含有已标注的语句,标注内容包括语句中的命名实体和关联关系。
S1220、根据所述已标记的语句生成对应的文法模式;
获取到一定量从待处理的知识信息中确定的同一类型的已标记的语句,根据语句的共性确定该类语句的文法模式,其中,文法模式即用于在语句中根据自然语言的表达方法提取出命名实体和关联关系的模式。在一些实施方式中,将一定量的同一类别的种子样式作为训练样本集输入到神经网络模型中,通过反复迭代的方式训练得到收敛的神经网络模型,用于从自然语言句式中提取命名实体和关联关系。
S1230、根据所述文法模式在所述待处理的知识信息中抽取命名实体和关联关系;
将待处理的知识信息进行分句,根据上述方法确定的文法模式,对各个句子进行命名实体和关联关系的提取。在一些实施方式中,可以将分句后的句子输入到已训练至收敛的神经网络模型中,根据神经网络的输出结果确定句子中的命名实体和关联关系。
通过文法模式抽取命名实体和关联关系的方法,只需要在待处理的知识信息中进行一小部分的标记,从而有效降低了对已标记样本的依赖性,节省标记的人力和时间成本。
如图3所示,步骤S1400之后还包括以下步骤:
S1510、判断所述知识图谱中是否存在与所述命名实体相同的对应实体;
将实体元组补充到知识图谱中之后,在知识图谱中查找是否存在与实体元组中的命名实体相同的对应实体,具体地,在获取到实体元组后,将其中的命名实体作为搜索条件,查找知识图谱中搜索与命名实体具有映射关系的实体。
S1520、若所述知识图谱中已存在与所述命名实体相同的对应实体,则将所述实体元组链接到所述对应实体;
当在知识图谱中查找到与命名实体相同的对应实体后,将补充进来的实体元组链接到知识图谱中的对应实体上,作为原有实体的补充关系,形成对应实体的关系网络。
如图4所示,步骤S1400之后还包括以下步骤:
S1610、判断所述知识图谱中是否存在与所述命名实体相同的对应实体;
将实体元组补充到知识图谱中之后,在知识图谱中查找是否存在与实体元组中的命名实体相同的对应实体,具体地,在获取到实体元组后,将其中的命名实体作为搜索条件,查找知识图谱中搜索与命名实体具有映射关系的实体。
S1620、若所述知识图谱中不存在与所述命名实体相同的对应实体,则根据预设的匹配规则在所述知识图谱中查找所述命名实体的相似实体;
当知识图谱中查找不到与命名实体相同的对应实体时,根据预设的规则对命名实体进行分类,例如人名、地名或者书名等等,但不限于此,在一些实施方式中,分类的方式可以通过自然语言解析模型对句子的语境进行判断,采用主体识别的方式确定命名实体在句子中所占的语义,并进行分类。在知识图谱中查找分类后的命名实体的相似实体,相似实体与命名实体为同一类别。具体地,查找相似实体的方式可以通过匹配命名实体与知识图谱中同一类别实体的相似度,根据相似度进行排序,确定其中相似度最高的同一类别实体作为命名实体的相似实体。
S1630、根据所述相似实体所属的实体元组对所述命名实体进行归类并补充关系;
提取出相似实体所属的实体元组,根据命名实体与相似实体的匹配关系,对命名实体进行归类并补充关系。具体地,将提取出的相似实体所属的实体元组进行替换,将其中的相似实体替换为命名实体,生成新的实体元组,并根据新生成的实体元组形成命名实体的关系网络,补充知识图谱中的相关内容。例如,获取到命名实体为“田园猫”,查找出的相似实体为“梨花猫”,相似实体所属的实体元组有(梨花猫,种类,哺乳动物),(梨花猫,作用,宠物),将相似实体所属的实体元组中的“梨花猫”替换为“田园猫”,生成(田园猫,种类,哺乳动物),(田园猫,作用,宠物)的实体元组,补充命名实体“田园猫”的关系网络。
如图5所示,还包括下述步骤:
S2100、根据预设的第二抽取规则从所述待处理的知识信息中抽取属性元组;
通过预设的第二抽取规则从待处理的知识信息中抽取属性实体、属性名称和属性值,形成三元组,作为属性元组,例如(张三,身高,175CM)。具体地,抽取的方式可以通过已训练至收敛用于在句子中抽取属性元组的神经网络模型,将待处理的知识信息分句后输入到上述神经网络模型中,根据神经网络的输出结果确定句子中的属性元组,该神经网络模型在训练时,将一定量已标记属性实体、属性名称和属性值的句子作为训练样本集,通过反复迭代的方式直至模型收敛。
S2200、将所述属性元组补充到所述知识图谱中;
将获取到的属性元组添加到知识图谱中,并判断所述知识图谱中是否存在与属性元组中命名实体相同的实体,若所述知识图谱中已存在与属性实体相同的实体,则将属性元组链接到对应实体;若所述知识图谱中不存在与属性实体相同的对应实体,则根据预设的匹配规则在所述知识图谱中查找所述属性实体的相似实体,并根据相似实体所属的属性元组对所述属性实体进行归类并补充关系。
通过上述方法,在实体与关联关系补充的同时,也可以保证实体的属性关系的补充,在抽取命名实体和关联关系后,还可以在知识信息中再次抽取出实体属性和属性值,进一步完善了知识图谱中实体的各项关系和数据生成的关系网络。
如图6所示,步骤S1400之后还包括下述步骤:
S1710、根据预设的计算规则计算所述待处理的知识信息中各命名实体间的并列关系相似度;
将从待处理的知识信息中抽取出的命名实体间进行相似度计算,相似度计算可以依据命名实体所在的句子的相似度,或通过自然语言解析方法对于句子的语义进行判断,并识别出命名实体在句中所充当的成分,得出命名实体的并列关系相似度。另一方面,可以从命名实体所属的实体元组进行并列关系相似度计算,例如实体元组中,关联关系和关联实体相同的命名实体,并列关系相似度较高。
S1720、根据所述并列关系相似度和所述第三抽取规则在所述待处理的知识信息中抽取并列实体元组;
在已有的实体元组中查找出与命名实体并列关系相似度较高的并列实体,根据抽取并列实体的语句模式,在待处理的知识信息中抽取并列实体元组,并确定并列实体的上下位关系。抽取并列实体的语句模式可以是并列实体三元体在所处的句子中抽取出来的语法特征,例如命名实体为“狗”,查找出的具有并列关系的并列实体为“猫”,并且并列实体抽取出的实体元组为(猫,物种,哺乳动物),即根据该抽取方法,可以抽取出(狗,物种,哺乳动物)作为并列实体元组,表达猫和狗作为并列关系,同属于哺乳动物的下位关系。
S1730、将所述并列实体元组补充到所述知识图谱中。
将抽取到的并列实体元组补充到知识图谱中,并在知识图谱中查找并列实体元组中命名实体相同的实体,若知识图谱中存在与上述命名实体相同的实体,则将并列实体元组链接到与命名实体相同的实体上,作为实体关系网络的补充,若知识图谱中不存在与命名实体相同的实体,则将该命名实体在知识图谱中作为新的实体。
通过上述并列实体元组的补充方法,可以在补充实体元组之后通过计算得到命名实体的并列和上下位关系,作为原有实体的关系补充,提高了知识图谱中实体间关系网络的完整度。
如图7所示,步骤S1400之后还包括下述步骤:
S1810、根据预设的推理规则判断所述命名实体与所述知识图谱中已存在的实体间的从属关系;
在将实体元组补充到知识图谱之后,在知识图谱中查找与实体元组中的命名实体相关联的已有实体,并且根据推理规则判断命名实体与已有实体间的从属关系。具体地,以命名实体作为搜索条件,在知识图谱中查找与命名实体相同或相似的已有实体,并提取出已有实体所属的实体元组,根据实体元组的关系,将命名实体与另一个实体建立关联关系。例如,补充的实体元组为(张三,同事,李四),在知识图谱中查找“张三”或“李四”,得到已有的实体元组(李四,公司,A企业),即可以逻辑推理的方式获得“张三的公司是A企业”的信息,另一方面,补充的实体元组为(老虎,科,猫科),已有的实体元组为(猫科,目,食肉目),可以推理得到“老虎属于食肉目”的信息。
S1820、根据所述从属关系生成从属实体元组;
根据获取到的从属关系,确定其中的命名实体,生成从属实体元组。例如,根据(老虎,科,猫科),已有的实体元组为(猫科,目,食肉目),可以根据推理结果生成(老虎,目,食肉目)作为从属实体元组。
S1830、将所述从属实体元组补充到所述知识图谱中。
将抽取到的从属实体元组补充到知识图谱中,并在知识图谱中查找从属实体元组中命名实体相同的实体,若知识图谱中存在与上述命名实体相同的实体,则将从属实体元组链接到与命名实体相同的实体上,作为实体关系网络的补充,若知识图谱中不存在与命名实体相同的实体,则将该命名实体在知识图谱中作为新的实体。
通过上述从属实体元组的补充方法,可以根据补充的实体元组和已有的实体元组推理得到新的从属关系,作为原有实体的关系补充,提高了知识图谱中实体间关系网络的完整度。
为解决上述技术问题,本发明实施例还提供一种知识图谱补全装置。具体请参阅图8,图8为本实施知识图谱补全装置的基本结构框图。
如图8所示,知识图谱补全装置,包括:获取模块2100、抽取模块2200、处理模块2300和执行模块2400。其中,获取模块用于获取待处理的知识信息;抽取模块用于根据预设的第一抽取规则从所述待处理的知识信息中抽取命名实体和关联关系;处理模块用于根据所述命名实体和关联关系生成实体元组;执行模块用于将所述实体元组补充到知识图谱中。
通过预设的抽取规则,仅需要对待处理的知识信息中小部分内容进行标注即可实现命名实体和关联关系的抽取,并根据抽取得到的命名实体和关联关系形成实体元组对知识图谱进行补充,相较于传统的需要对待处理数据中所有信息都进行标注才可以实现知识图谱补全的方式,可以有效地减少对于数据源中标注的依赖性,节省对于数据源标注的人力和时间成本,提高了知识图谱补全的效率和准确性。
在一些实施方式中,知识图谱补全装置还包括:第一处理子模块、第二处理子模块、第一抽取子模块。其中第一处理子模块用于从所述待处理的知识信息中确定种子样式,其中,所述种子样式包括已标记的语句;第二处理子模块用于根据所述已标记的语句生成对应的文法模式;第一抽取子模块用于根据所述文法模式在所述待处理的知识信息中抽取命名实体和关联关系。
在一些实施方式中,知识图谱补全装置还包括:第一判断子模块、第一执行子模块。其中,第一判断子模块用于判断所述知识图谱中是否存在与所述命名实体相同的对应实体;第一执行子模块用于若所述知识图谱中已存在与所述命名实体相同的对应实体,则将所述实体元组链接到所述对应实体。
在一些实施方式中,知识图谱补全装置还包括:第二判断子模块、第一查找子模块、第二执行子模块。其中,第二判断子模块用于判断所述知识图谱中是否存在与所述命名实体相同的对应实体;第一查找子模块用于若所述知识图谱中不存在与所述命名实体相同的对应实体,则根据预设的匹配规则在所述知识图谱中查找所述命名实体的相似实体;第二执行子模块用于根据所述相似实体所属的实体元组对所述命名实体进行归类并补充关系。
在一些实施方式中,知识图谱补全装置还包括:第二抽取子模块、第三执行子模块。其中,第二抽取子模块用于根据预设的第二抽取规则从所述待处理的知识信息中抽取属性元组;第三执行子模块用于将所述属性元组补充到所述知识图谱中。
在一些实施方式中,知识图谱补全装置还包括:第三处理子模块、第三抽取子模块、第四执行子模块。其中,第三处理子模块用于根据预设的计算规则计算所述待处理的知识信息中各命名实体间的并列关系相似度;第三抽取子模块用于根据所述并列关系相似度和所述第三抽取规则在所述待处理的知识信息中抽取并列实体元组;第四执行子模块用于将所述并列实体元组补充到所述知识图谱中。
在一些实施方式中,知识图谱补全装置还包括:第四处理子模块、第五处理子模块、第五执行子模块。其中,第四处理子模块用于根据预设的推理规则判断所述命名实体与所述知识图谱中已存在的实体间的从属关系;第五处理子模块用于根据所述从属关系生成从属实体元组;第五执行子模块用于将所述从属实体元组补充到所述知识图谱中。
为解决上述技术问题,本发明实施例还提供一种计算机设备。具体请参阅图9,图9为本实施例计算机设备基本结构框图。
如图9所示,计算机设备的内部结构示意图。如图9所示,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种知识图谱补全方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种知识图谱补全方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图8中获取模块2100、抽取模块2200、处理模块2300和执行模块2400的具体功能,存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有知识图谱补全装置中执行所有子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
本发明还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例所述知识图谱补全方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)等非易失性存储介质,或随机存储记忆体(RandomAccessMemory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (6)

1.一种知识图谱补全方法,其特征在于,包括以下步骤:
获取待处理的知识信息;其中,所述知识信息为文本数据;
根据预设的第一抽取规则从所述待处理的知识信息中抽取命名实体和关联关系;
根据所述命名实体和关联关系生成实体元组;其中,所述实体元组至少包括以下任意一项:并列实体元组和从属实体元组;
将所述实体元组补充到知识图谱中;
所述将所述实体元组补充到知识图谱中的步骤之后,包括以下步骤:
判断所述知识图谱中是否存在与所述命名实体相同的对应实体;
若所述知识图谱中已存在与所述命名实体相同的对应实体,则将所述实体元组链接到所述对应实体;
若所述知识图谱中不存在与所述命名实体相同的对应实体,则通过自然语言解析模型对句子语境进行判断,采用主体识别的方式确定命名实体在句子中所占的语义,并进行分类,通过匹配命名实体与所述知识图谱中同一类别实体的相似度,根据相似度进行排序,确定相似度最高的同一类别实体作为所述命名实体的相似实体,提取所述相似实体所属的实体元组,将所述相似实体所属的实体元组中的相似实体替换为命名实体,生成新的实体元组,并根据所述新的实体元组形成所述命名实体的关系网络,补充所述知识图谱中的相关内容;
所述根据预设的第一抽取规则从所述待处理的知识信息中抽取命名实体和关联关系的步骤,包括以下步骤:
从所述待处理的知识信息中确定种子样式,其中,所述种子样式包括已标记的语句,标注内容包括语句中的命名实体和关联关系;
根据所述已标记的语句生成对应的文法模式;其中,文法模式根据对应类别种子样式中语句的共性确定;
根据所述文法模式在所述待处理的知识信息中抽取命名实体和关联关系;
包括下述步骤:
根据预设的第二抽取规则从所述待处理的知识信息中抽取属性元组;
将所述属性元组补充到所述知识图谱中。
2.如权利要求1所述的知识图谱补全方法,其特征在于,所述将所述实体元组补充到知识图谱中的步骤之后,包括下述步骤:
根据预设的计算规则计算所述待处理的知识信息中各命名实体间的并列关系相似度;
根据所述并列关系相似度和第三抽取规则在所述待处理的知识信息中抽取并列实体元组;
将所述并列实体元组补充到所述知识图谱中。
3.如权利要求1或2所述的知识图谱补全方法,其特征在于,所述将所述实体元组补充到知识图谱中的步骤之后,包括下述步骤:
根据预设的推理规则判断所述命名实体与所述知识图谱中已存在的实体间的从属关系;
根据所述从属关系生成从属实体元组;
将所述从属实体元组补充到所述知识图谱中。
4.一种知识图谱补全装置,其特征在于,包括:
获取模块,用于获取待处理的知识信息;其中,所述知识信息为文本数据;
抽取模块,用于根据预设的第一抽取规则从所述待处理的知识信息中抽取命名实体和关联关系;
处理模块,用于根据所述命名实体和关联关系生成实体元组;其中,所述实体元组至少包括以下任意一项:并列实体元组和从属实体元组;
执行模块,用于将所述实体元组补充到知识图谱中;
所述将所述实体元组补充到知识图谱中的步骤之后,包括以下步骤:
判断所述知识图谱中是否存在与所述命名实体相同的对应实体;
若所述知识图谱中已存在与所述命名实体相同的对应实体,则将所述实体元组链接到所述对应实体;
若所述知识图谱中不存在与所述命名实体相同的对应实体,则通过自然语言解析模型对句子语境进行判断,采用主体识别的方式确定命名实体在句子中所占的语义,并进行分类,通过匹配命名实体与所述知识图谱中同一类别实体的相似度,根据相似度进行排序,确定相似度最高的同一类别实体作为所述命名实体的相似实体,提取所述相似实体所属的实体元组,将所述相似实体所属的实体元组中的相似实体替换为命名实体,生成新的实体元组,并根据所述新的实体元组形成所述命名实体的关系网络,补充所述知识图谱中的相关内容;
所述抽取模块,具体用于:
从所述待处理的知识信息中确定种子样式,其中,所述种子样式包括已标记的语句,标注内容包括语句中的命名实体和关联关系;
根据所述已标记的语句生成对应的文法模式;其中,文法模式根据对应类别种子样式中语句的共性确定;
根据所述文法模式在所述待处理的知识信息中抽取命名实体和关联关系;
所述执行模块,还用于:
根据预设的第二抽取规则从所述待处理的知识信息中抽取属性元组;
将所述属性元组补充到所述知识图谱中。
5.一种计算机设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述权利要求1-3任意一项所述的知识图谱补全方法。
6.一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种知识图谱补全方法,所述方法包括上述权利要求1-3任意一项所述的知识图谱补全方法。
CN201910014362.9A 2019-01-08 2019-01-08 知识图谱补全方法、装置、计算机设备及存储介质 Active CN109885691B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910014362.9A CN109885691B (zh) 2019-01-08 2019-01-08 知识图谱补全方法、装置、计算机设备及存储介质
PCT/CN2019/118160 WO2020143319A1 (zh) 2019-01-08 2019-11-13 知识图谱补全方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910014362.9A CN109885691B (zh) 2019-01-08 2019-01-08 知识图谱补全方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN109885691A CN109885691A (zh) 2019-06-14
CN109885691B true CN109885691B (zh) 2024-06-25

Family

ID=66925686

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910014362.9A Active CN109885691B (zh) 2019-01-08 2019-01-08 知识图谱补全方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN109885691B (zh)
WO (1) WO2020143319A1 (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885691B (zh) * 2019-01-08 2024-06-25 平安科技(深圳)有限公司 知识图谱补全方法、装置、计算机设备及存储介质
CN110489513A (zh) * 2019-06-24 2019-11-22 覃立万 一种智能机器人社交信息处理方法及与人的社交系统
CN110275966B (zh) * 2019-07-01 2021-10-01 科大讯飞(苏州)科技有限公司 一种知识抽取方法及装置
CN110489561B (zh) * 2019-07-12 2024-07-12 平安科技(深圳)有限公司 知识图谱构建方法、装置、计算机设备和存储介质
CN110427496B (zh) * 2019-08-05 2022-06-03 北京百度网讯科技有限公司 用于文本处理的知识图谱扩充方法及装置
CN110427524B (zh) * 2019-08-05 2022-03-08 北京百度网讯科技有限公司 知识图谱补全的方法、装置、电子设备及存储介质
CN110569365A (zh) * 2019-08-29 2019-12-13 南京智慧光信息科技研究院有限公司 基于人工智能的移民关系知识图谱生成方法和机器人系统
CN110781310A (zh) * 2019-09-09 2020-02-11 深圳壹账通智能科技有限公司 目标概念图谱的构建方法、装置、计算机设备和存储介质
CN111061883B (zh) * 2019-10-25 2023-12-08 珠海格力电器股份有限公司 更新知识图谱的方法、装置、设备及存储介质
CN111048167B (zh) * 2019-10-31 2023-08-18 中电药明数据科技(成都)有限公司 一种层级式病例结构化方法及系统
CN112905712B (zh) * 2019-12-04 2023-08-15 北京百度网讯科技有限公司 知识图谱处理方法、装置、电子设备和介质
CN113468335A (zh) * 2020-03-30 2021-10-01 海信集团有限公司 实体隐含关系抽取方法及设备
CN111368097A (zh) * 2020-03-30 2020-07-03 中国建设银行股份有限公司 一种知识图谱抽取方法及装置
CN111666969B (zh) * 2020-04-22 2021-11-23 北京百度网讯科技有限公司 计算图文相似度的方法、装置、电子设备和可读存储介质
CN111581397A (zh) * 2020-05-07 2020-08-25 南方电网科学研究院有限责任公司 一种基于知识图谱的网络攻击溯源方法、装置及设备
CN111737369A (zh) * 2020-05-21 2020-10-02 北京明略软件系统有限公司 一种关系图谱的更新方法、装置及存储介质
CN112100324B (zh) * 2020-08-28 2023-05-05 广州探迹科技有限公司 一种知识图谱的扩展方法、装置、存储介质和计算设备
CN111930897B (zh) * 2020-09-14 2021-04-27 平安国际智慧城市科技股份有限公司 专利检索方法、装置、电子设备及计算机可读存储介质
CN112132444B (zh) * 2020-09-18 2023-05-12 北京信息科技大学 一种互联网+环境下文化创新企业知识缺口的识别方法
CN112486568B (zh) * 2020-12-02 2022-06-28 浙江理工大学 一种基于知识图谱的程序自动修正方法
CN112463986A (zh) * 2020-12-08 2021-03-09 北京明略软件系统有限公司 信息存储的方法及装置
CN112612902B (zh) * 2020-12-23 2023-07-14 国网浙江省电力有限公司电力科学研究院 一种电网主设备的知识图谱构建方法及设备
CN112597316B (zh) * 2020-12-30 2023-12-26 厦门渊亭信息科技有限公司 一种可解释性推理问答方法及装置
CN113239208A (zh) * 2021-05-06 2021-08-10 广东博维创远科技有限公司 一种基于知识图谱的标注训练模型
CN114490884B (zh) * 2021-12-21 2023-06-06 北京三快在线科技有限公司 确定实体关联关系的方法、装置、电子设备及存储介质
CN114722147A (zh) * 2022-03-31 2022-07-08 长沙博为软件技术股份有限公司 一种电子病历中传染病史的质控方法、系统、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105938495A (zh) * 2016-04-29 2016-09-14 乐视控股(北京)有限公司 实体关系识别方法及装置
CN106951499A (zh) * 2017-03-16 2017-07-14 中国人民解放军国防科学技术大学 一种基于翻译模型的知识图谱表示方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488724B (zh) * 2013-09-16 2016-09-28 复旦大学 一种面向图书的阅读领域知识图谱构建方法
US20160041986A1 (en) * 2014-08-08 2016-02-11 Cuong Duc Nguyen Smart Search Engine
CN104933164B (zh) * 2015-06-26 2018-10-09 华南理工大学 互联网海量数据中命名实体间关系提取方法及其系统
CN106776711B (zh) * 2016-11-14 2020-04-07 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN107368468B (zh) * 2017-06-06 2020-11-24 广东广业开元科技有限公司 一种运维知识图谱的生成方法及系统
CN107358315A (zh) * 2017-06-26 2017-11-17 深圳市金立通信设备有限公司 一种信息预测方法及终端
CN108804521B (zh) * 2018-04-27 2021-05-14 南京柯基数据科技有限公司 一种基于知识图谱的问答方法及农业百科问答系统
CN108875051B (zh) * 2018-06-28 2020-04-28 中译语通科技股份有限公司 面向海量非结构化文本的知识图谱自动构建方法及系统
CN108932340A (zh) * 2018-07-13 2018-12-04 华融融通(北京)科技有限公司 一种不良资产经营领域下金融知识图谱的构建方法
CN109885691B (zh) * 2019-01-08 2024-06-25 平安科技(深圳)有限公司 知识图谱补全方法、装置、计算机设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105938495A (zh) * 2016-04-29 2016-09-14 乐视控股(北京)有限公司 实体关系识别方法及装置
CN106951499A (zh) * 2017-03-16 2017-07-14 中国人民解放军国防科学技术大学 一种基于翻译模型的知识图谱表示方法

Also Published As

Publication number Publication date
CN109885691A (zh) 2019-06-14
WO2020143319A1 (zh) 2020-07-16

Similar Documents

Publication Publication Date Title
CN109885691B (zh) 知识图谱补全方法、装置、计算机设备及存储介质
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
US20170228459A1 (en) Method and device for mobile searching based on artificial intelligence
CN109460551B (zh) 签名信息提取方法及装置
US9305083B2 (en) Author disambiguation
CN111177532A (zh) 一种垂直搜索方法、装置、计算机系统及可读存储介质
CN105912716A (zh) 一种短文本分类方法及装置
CN112100326B (zh) 一种抗干扰的融合检索和机器阅读理解的问答方法及系统
CN104102639A (zh) 基于文本分类的推广触发方法和装置
CN108280225B (zh) 一种语义检索方法及检索系统
CN111339277A (zh) 基于机器学习的问答交互方法及装置
CN114090776A (zh) 文档解析方法、系统及装置
CN112966053B (zh) 一种基于知识图谱的海洋领域专家库构建方法及装置
EP3961426A2 (en) Method and apparatus for recommending document, electronic device and medium
CN115687647A (zh) 公证文书生成方法、装置、电子设备及存储介质
CN105404677A (zh) 一种基于树形结构的检索方法
CN113282729A (zh) 基于知识图谱的问答方法及装置
CN108595466B (zh) 一种互联网信息过滤以及互联网用户信息和网帖结构分析方法
CN113609847A (zh) 信息抽取方法、装置、电子设备及存储介质
CN104778232A (zh) 一种基于长查询的搜索结果的优化方法和装置
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN116956068A (zh) 基于规则引擎的意图识别方法、装置、电子设备及介质
CN110705285A (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN111625722B (zh) 一种基于深度学习的人才推荐方法、系统及存储介质
CN114491209A (zh) 基于互联网信息抓取的企业业务标签挖掘的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant