CN112100324A - 一种基于贪婪实体链接的知识图谱自动校验迭代的方法 - Google Patents
一种基于贪婪实体链接的知识图谱自动校验迭代的方法 Download PDFInfo
- Publication number
- CN112100324A CN112100324A CN202010884220.0A CN202010884220A CN112100324A CN 112100324 A CN112100324 A CN 112100324A CN 202010884220 A CN202010884220 A CN 202010884220A CN 112100324 A CN112100324 A CN 112100324A
- Authority
- CN
- China
- Prior art keywords
- entity
- event
- core database
- entities
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明提供了一种基于贪婪实体链接的知识图谱自动校验迭代的方法、装置、存储介质和计算设备,包括:获取外部文本信息;根据外部文本信息,生成事件列表;将事件列表里的事件实体和核心数据库实体进行实体嵌入编码后,进行事件实体与核心数据库实体的相似度排序;若事件实体与核心数据库实体的最大相似度大于预设第一阈值,则将事件实体插入核心数据库;若事件实体与核心数据库实体的最大相似度小于预设第一阈值,则对事件实体进行属性补全,若补全后的事件实体与核心数据库实体的最大相似度大于预设第一阈值,则将属性补全后的事件实体插入核心数据库。采用该知识图谱的扩展方法、装置、存储介质和计算设备,可以解决知识图谱扩展时人工依赖强,对部分知识无法进行自动校验和扩展的问题。
Description
技术领域
本发明涉及知识图谱扩展领域,尤其涉及一种基于贪婪实体链接的知识图谱自动校验迭代的方法、装置、存储介质和计算设备。
背景技术
构建垂直领域(企业)知识图谱的传统流程,均要经历本体库定义、实体库建立、关系属性集建立,关系抽取等环节。每个环节需要人工某程度的参与。对于垂直领域与通用领域有交集的先验知识梳理,通常由人工加工,嵌在各个环节中,由于人工介入的环节较多,当知识图谱需要进行知识更新的时候,人力成本巨大,也导致整个图谱的迭代效率缓慢。
发明内容
为了解决上述技术问题中的至少一个,本发明提供了一种基于贪婪实体链接的知识图谱自动校验迭代的方法、装置、存储介质和计算设备。解决知识图谱中的知识迭代更新缓慢,更新过程中对人工依赖太强、对于部分知识无法做到自动校验和扩展的问题。
本发明的目的通过以下方案实现:
一种基于贪婪实体链接的知识图谱自动校验迭代的方法,包括:
获取外部文本信息;
根据所述外部文本信息,生成事件列表;
将所述事件列表里的事件实体和核心数据库实体进行实体嵌入编码后,进行所述事件实体与所述核心数据库实体的相似度排序;
若所述事件实体与所述核心数据库实体的最大相似度大于预设第一阈值,则将所述事件实体插入所述核心数据库;
若所述事件实体与所述核心数据库实体的最大相似度小于预设第一阈值,则对所述事件实体进行属性补全,若补全后的所述事件实体与核心数据库实体的最大相似度大于预设第一阈值,则将属性补全后的所述事件实体插入所述核心数据库。
进一步地,根据所述外部文本信息,生成事件列表包括:
将所述外部文本切分为段落;
将所述段落切分为句子;
获取所述句子的(S、O、B、T)四元组属性;
将所述句子的(S、O、B、T)四元组属性合并为句子图;
将所述句子图合并为段落图;
通过所述段落图,生成所述事件列表。
进一步地,对所述事件实体进行属性补全包括:
选取与所述事件实体相似度最高的指定个数的候选核心数据库实体;
依次根据所述候选核心数据库实体对所述事件实体进行属性补全;
进行属性补全后的所述事件实体与所述候选核心数据库实体的相似度排序;
若属性补全后的所述事件实体与所述候选核心数据库实体的最大相似度大于预设第一阈值,则将属性补全后的所述事件实体插入所述核心数据库。
若属性补全后的所述事件实体与所述候选核心数据库实体的最大相似度小于预设第一阈值,则将属性补全后的所述事件实体放入潜意识模块。
进一步地,在所述事件实体进行属性补全之前,还包括:
将所述事件实体与指定知识库进行实体链接,获取所述事件实体与所述指定知识库实体的相似度;其中,所述指定知识库包括潜意识模块和外部知识库;
确定所述事件实体与所述指定知识库实体的相似度大于预设第二阈值。
进一步地,采用贪心策略根据所述候选核心数据库实体对所述事件实体进行属性补全;
其中,所述贪心策略,包括:若补全某属性,能提高所述事件实体与所述候选实体的最大相似度,则进行所述事件实体的属性补全。
进一步地,所述外部知识库包括:WiKi、或Babel、或ZhiishiMe。
进一步地,将所述句子的(S、O、B、T)四元组属性合并为句子图,还包括:
对于含有代词的句子图,将所述代词与对应的上下文其他句子放入Bert模型;
计算所述代词与对应的上下文其他句子的候选实体的相关度得分;
使用所述相关度得分最高的所述候选实体替换所述代词对应的实体。
一种基于贪婪实体链接的知识图谱自动校验迭代的装置,包括:
外部信息获取模块,用于获取外部文本信息;
事件列表生成模块,用于根据所述外部文本信息,生成事件列表;
新知识校验模块,用于将所述事件列表里的事件实体和核心数据库实体进行实体嵌入编码后,进行所述事件实体与所述核心数据库实体的相似度排序,判断所述事件实体与所述核心数据库实体的最大相似度是否大于预设第一阈值,如果是,触发新知识扩展模块,否则,触发属性补全模块;
所述新知识扩展模块,用于将所述事件实体插入所述核心数据库;
所述属性补全模块,用于对所述事件实体进行属性补全,若补全后的所述事件实体与核心数据库实体的最大相似度大于预设第一阈值,则将属性补全后的所述事件实体插入所述核心数据库。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法。
一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。
相比于现有技术,本发明的优势在于:针对进入知识图谱的新知识,能够做到自动校验和扩展,可以去除人工依赖,节省人力成本。
附图说明
附图示出了本发明的示例性实施方案,并与其说明一起用于解释本发明的原理,其中包括了这些附图以提供对本发明的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
图1是本发明实施例的基于贪婪实体链接的知识图谱自动校验迭代的方法流程图;
图2是本发明的另一实施例的基于贪婪实体链接的知识图谱自动校验迭代的方法流程图;
图3是本发明实施例的基于贪婪实体链接的知识图谱自动校验迭代装置结构图;
图4是本发明另一实施例的基于贪婪实体链接的知识图谱自动校验迭代装置结构图。
具体实施方案
下面结合附图和实施方案对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施方案仅用于解释相关内容,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分。
需要说明的是,在不冲突的情况下,本发明中的实施方案及实施方案中的特征可以相互组合。下面将参考附图并结合实施方案来详细说明本发明。
图1示例性地示出根据本发明公开的基于贪婪实体链接的知识图谱自动校验迭代的方法流程图,始于步骤S110:获取外部文本信息。外部文本信息的获取可以使通过爬虫引擎爬取而获得,此时的外部文本信息为垂直领域的外部文本信息,可以是领域动态、新闻或其他外部文本信息。
步骤S120中,根据文本信息,生成事件列表。在进行事件列表的生成过程中,通过以下步骤得以实现:将经过步骤S110获取到的外部文本信息拆分成段落,这一步通过文本中的换行符实现,通过换行符将文本切分为段落合集,再针对段落合集里的每个元素进行句子切分。
随后将切分之后的句子运行语义标注,通过抽取,简化成(S、O、B、T)四元组,这里S代表主语,O代表关系,B代表宾语或属性,T代表时间。在针对句子进行语义标注、抽取简化的过程中,如果某一句子无法完整抽取(S、O、B),则对该句子进行忽略。
重复上述步骤,对每个段落中的每个句子均进行四元组的抽取,之后将段落每个句子的(S、O、B、T)四元组拼成一张句子图。在这个过程中,对于含有代词例如:这、那、之的句子图,通过将该句子图对应的上下文(前后一到两句)放进BERT模型去计算该代词与其他句子的候选实体的相关度得分,使用相关度得分最高的相关实体替换代词对应的实体。对于每一个含有代词的句子图均重复以上过程,直到每个含有代词的句子图中代词对应的实体,被与其他句子的相关度得分最高的相关试题替换。
随后,将每个段落所有的句子图进行合并,形成段落图。合成段落图之后,利用DFS搜索把段落图展开,即生成事件列表。
随后在步骤S130中,将事件列表里面的事件实体与核心数据库实体嵌入编码。在将两者嵌入编码后,进行事件实体与核心数据库中的实体一一进行相似度排序,这里的相似度排序优选为余弦相似度排序。
随后进入步骤S140,在结束排序后,若经过判断,事件实体与核心数据库实体的最大相似度大于预设第一阈值,则事件实体与核心数据库实体链接成功,执行步骤S150,将该事件实体立即插入到核心数据库中,优选的,插入到核心数据库的更新任务队列中。
若经过判断,事件实体与核心数据库实体的最大相似度大于预设第一阈值,则进入步骤S160,对事件实体进行属性补全工作。
在步骤S160中,进行属性补全的过程中,首先选取与事件实体相似度最高的指定个数的候选核心数据库实体;优选的,指定个数为5个。
随后根据候选核心数据库实体对事件实体进行属性补全,在这个过程中采用贪心策略,即如果补全某属性,能够提高事件实体与候选实体的最大相似度,则进行该属性的补全工作。
针对每一个与核心数据库相似度小于预设第一阈值的事件实体进行上述步骤的循环,直至所有与核心数据库相似度小于预设第一阈值的事件实体均完成属性补全。
当所有与核心数据库实体相似度小于预设第一阈值的事件实体均完成了属性补全工作,进入步骤S170,判断补全后的事件实体与候选核心数据库的多个候选实体的最大相似度,若其最大相似度大于预设第一阈值,则执行步骤S180,将属性补全后的事件实体插入到核心数据库中。若其最大相似度小于预设第一阈值,则执行步骤S190,将事件实体继续放在潜意识模块中。
至此,知识图谱自动校验迭代完成,重复上述所有过程,目标知识图谱会高质量地逐渐自动化扩展。
参见说明书附图2,为本发明公开的基于贪婪实体链接的知识图谱自动校验迭代的流程图,下面对该实施例进行说明:
该实施例的基于贪婪实体链接的知识图谱自动校验迭代的步骤S201-S204与上一实施例中的S110-S140相同,此处不再赘述。
在步骤S240之后,若经过判断,事件实体与核心数据库实体的最大相似度大于预设第一阈值,则执行步骤S205,将事件实体插入核心数据库;若事件实体与核心数据库实体的最大相似度小于预设第一阈值,则执行步骤S206,将小于预设第一阈值的事件实体与外部知识库实体、潜意识模块实体进行实体链接,实现实体链接后,执行步骤S207,分别判断相似度小于预设第一阈值的事件实体与外部知识库实体的相似度、与潜意识模块实体的相似度,是否大于第二阈值。若小于第二阈值,则该实体对知识库拓展意义不大,执行步骤S208,将事件实体继续放在潜意识模块中,等待新数据进入潜意识模块;若大于第二阈值,则执行步骤S209,进行事件实体的属性补全。
优选的,第二阈值为65%。
进行属性补全的步骤S209-S212与步骤前一具体实施例中的S160-S190方法一致,此处不再赘述。
至此,知识图谱自动校验迭代完成,重复上述所有过程,目标知识图谱会高质量地逐渐自动化扩展。
本发明还公开了一种基于贪婪实体链接的知识图谱自动校验迭代的算法,具体如下:
1.通过爬虫引擎爬取垂直领域的外部信息文本。如领域动态、新闻等。得到一个文章列表articles。
2.遍历acticles,对每个article对象实施:
2.1.段落切分:根据文本的换行符将article切分为段落集合P
2.2.对P里每个元素实施句子切分。
2.3.对每个句子进行运行角色语义标注,简化成(S,O,B,T)四元组,S代表主语,O代表关系,B代表宾语或属性,T代表时间。对无法完整抽取(S,O,B)的句子忽略。
2.4.将段落每个句子的(S,O,B,T)四元组拼成一张图。对于含有代词的子图,则通过将该子图对应句子的上下文(前后一到两句)放进BERT模型里去计算代词与其他句子的候选实体的相关度得分。进而指代消解。重复该过程直至指代词全被合并。
2.5.类似步骤2.4合并段落图。
3.利用DFS搜索把图展开得到事件列表E。
4.将E里的实体和核心数据库里的实体进行实体嵌入编码后,实施余弦相似度排序,若相似度大于设定阈值(95%),则与核心数据库实体链接成功。并将该事件数据立即插入到核心数据库的更新队列任务中。
5.将相似度小于设定阈值(95%)的实体对应的事件列表,进入潜意识模块,启动新知识校验步骤。
5.1.选出事件实体与核心数据库相似度最高的top-5的候选列表,定义最大相似度是目标实体与这5个候选实体的最大相似度。
5.2.将事件实体与外部知识库和潜意识模块内部进行实体链接(相似度阈值65%),并根据候选实体对事件实体进行属性补全。这里采用贪心策略。如果补全某属性,能提高与候选实体的最大相似度,则补全或更新该属性。
5.3.重复5.2直至遍历完所有候选实体。此时若事件实体与核心数据库的top-5候选实体的最大相似度大于设定阈值(95%),则进行实体连接并把对应事件数据放进更新队列内。若小于设定阈值(95%)则继续放在潜意识模块。等待新数据进入潜意识模块。
6.重复上述所有过程,目标知识图谱会高质量地逐渐自动化扩展。
参见说明书附图3,为本发明另一实施例的基于贪婪实体链接的知识图谱自动校验迭代的内部模块示意图,包括:
外部信息模块,用于输入外部信息,并对外部信息进行处理,意识模块主要管理核心数据库,包括生产环境里的本体、实体、关系、事件等信息,以及这些信息的语义编码表征;
潜意识模块包含待确定的实体、关系、事件的集合,它们从外部信息源加工得到;
外部知识库模块是外部通用领域或垂直相关领域知识图谱的集合。
下面根据本发明公开的基于贪婪实体链接的知识图谱自动校验迭代模块进行知识图谱扩展说明:
在需要进行知识图谱自动校验迭代时,首先,外部信息进入外部信息模块,在外部信息模块的自然语言处理基础工具集中针对外部信息进行处理,进行分词、命名实体识别、依存句法分析及词性标注,随后进入关系/事件抽取工具集之中,进行半监督、监督、远程监督或无监督的选择。外部信息模块通过处理生成的文本信息,生成事件列表,通过段落的拆分、句子的拆分以及句子(S、O、B、T)四元组的抽取、将句子四元组拼成句子图、将句子图生成段落图,通过段落图展开生成待确定的事件列表。
生成事件列表后,将待确定的事件列表输入意识模块中,意识模块中包括核心数据库,语义编码,在意识模块的语义编码部分中将待确定的事件列表中的实体与核心数据库实体嵌入编码,可选择字符编码、词编码、句子编码、文档编码、实体编码或关系编码,同时可以通过同义词林与核心辞典辅助进行编码嵌入。嵌入编码后,进行待确定的事件列表中的实体与核心数据库实体的余弦相似度排序。
排序后,若待确定的事件实体中的实体与核心数据库实体库中的实体的相似度大于预设第一预设阈值,将该待确定的事件列表中的实体立即插入到核心数据库的实体库中。
若待确定的事件列表中的实体与核心数据库实体库中的实体的置信度小于预设第一预设阈值时,则该待确定事件列表的事件实体输入到潜意识模块中。
首先将事件实体与潜意识模块内的实体进行实体链接,获取事件实体与潜意识模块内实体的置信度,在这个过程中,潜意识模块同时可以将待确定的实体输入外部知识模块进行查询,查询时将事件实体与外部知识模块内的实体进行实体链接,获取事件实体与外部知识模块内实体的相似度,若此时相似度大于事件实体与潜意识模块实体的相似度,则更新该相似度,若小于事件实体与潜意识模块实体的相似度,则不进行相似度的更新。
同理,若外部知识生成的是关系列表,则通过与潜意识模块进行关系融合来实现置信度的确认。其余流程与事件列表保持一致。
优选的,外部知识模块包括:WiKi、或Babel、或ZhiishiMe。
若事件实体在潜意识模块中所获取的置信度大于第二阈值,则确定进行属性补全,若小于第二阈值,则将事件实体依然放入潜意识模块的未登陆词模块中,不进行属性补全,作为下次新知识的对比实体。
优选的,第二阈值为65%。
在进行属性补全时,依然在潜意识模块内部实现属性补全工作。此时属性补全采用贪心策略,即如果补全某属性,能够提高事件实体与候选实体的最大相似度,则进行该属性的补全或者更新工作。
属性补全之后,将潜意识模块中通过属性补全后事件实体与候选核心数据库进行相似度排序,优选的,为余弦相似度排序。
若最大相似度大于预设第一阈值,则将属性补全后的事件实体插入到核心数据库中的实体库中,若补全后的事件实体与候选核心数据库的相似度小于预设第一阈值,则继续放在潜意识模块的中,可以做为潜意识模块的未登录词,等待新知识进入潜意识模块。
优选的,第一阈值为95%。
参见说明书附图4,本发明实施例提供了一种基于贪婪实体链接的知识图谱自动校验迭代装置,包括:
外部信息获取模块310,用于获取外部文本信息;
事件列表生成模块320,用于根据外部文本信息,生成事件列表;
新知识校验模块330,用于将事件列表里的事件实体和核心数据库实体进行实体嵌入编码后,进行事件实体与核心数据库实体的相似度排序,判断事件实体与核心数据库实体的最大相似度是否大于预设第一阈值,如果是,触发新知识扩展模块,否则,触发属性补全模块;
新知识扩展模块340,用于将事件实体插入核心数据库;
属性补全模块350,用于对事件实体进行属性补全,若补全后的事件实体与核心数据库实体的最大相似度大于预设第一阈值,则将属性补全后的事件实体插入核心数据库;
可选地,事件列表生成模块320具体用于:将外部文本切分为段落;将段落切分为句子;获取句子的(S、O、B、T)四元组属性;将句子的(S、O、B、T)四元组属性合并为句子图;对于含有代词的句子图,通过计算代词与其他句子的相关实体的相关度得分,使用相关度得分最高的相关实体替换代词对应的实体;将句子图合并为段落图;通过段落图,生成事件列表。
可选地,该装置还包括:备用新知识校验模块,用于:在事件实体进行属性补全之前将事件实体与指定知识库进行实体链接;获取事件实体与指定知识库实体的相似度;其中,指定知识库包括潜意识模块和外部知识库;确定事件实体与指定知识库实体的相似度大于预设第二阈值。
同时,本发明还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的方法,
本发明还公开了一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述的方法。
应当理解,这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本公开的方法和设备,或者本公开的方法和设备的某些方面或部分可采取嵌入有形媒介,例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被该机器执行时,该机器变成实践本公开的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的该程序代码中的指令,执行本公开的各种方法。
以示例而非限制的方式,计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。
应当理解,为了精简本公开并帮助理解各个公开方面中的一个或多个,在上面对本公开的示例性实施例的描述中,本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,公开方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本公开的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该公开的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本公开,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本公开的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本公开的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本公开的范围,对本公开所做的公开是说明性的,而非限制性的,本公开的范围由所附权利要求书限定。
Claims (10)
1.一种基于贪婪实体链接的知识图谱自动校验迭代的方法,其特征在于,包括:
获取外部文本信息;
根据所述外部文本信息,生成事件列表;
将所述事件列表里的事件实体和核心数据库实体进行实体嵌入编码后,进行所述事件实体与所述核心数据库实体的相似度排序;
若所述事件实体与所述核心数据库实体的最大相似度大于预设第一阈值,则将所述事件实体插入所述核心数据库;
若所述事件实体与所述核心数据库实体的最大相似度小于预设第一阈值,则对所述事件实体进行属性补全,若补全后的所述事件实体与所述核心数据库实体的最大相似度大于预设第一阈值,则将属性补全后的所述事件实体插入所述核心数据库。
2.如权利要求1所述的一种方法,其特征在于,根据所述外部文本信息,生成事件列表包括:
将所述外部文本切分为段落;
将所述段落切分为句子;
获取所述句子的(S、O、B、T)四元组属性;
将所述句子的(S、O、B、T)四元组属性合并为句子图;
将所述句子图合并为段落图;
通过所述段落图,生成所述事件列表。
3.如权利要求1或2所述的一种方法,其特征在于,对所述事件实体进行属性补全包括:
选取与所述事件实体相似度最高的指定个数的候选核心数据库实体;
依次根据所述候选核心数据库实体对所述事件实体进行属性补全;
进行属性补全后的所述事件实体与所述候选核心数据库实体的相似度排序;
若属性补全后的所述事件实体与所述候选核心数据库实体的最大相似度大于预设第一阈值,则将属性补全后的所述事件实体插入所述核心数据库;
若属性补全后的所述事件实体与所述候选核心数据库实体的最大相似度小于预设第一阈值,则将属性补全后的所述事件实体放入潜意识模块。
4.如权利要求3所述的一种方法,其特征在于,在所述事件实体进行属性补全之前,还包括:
将所述事件实体与指定知识库进行实体链接,获取所述事件实体与所述指定知识库实体的相似度;其中,所述指定知识库包括潜意识模块和外部知识库;
确定所述事件实体与所述指定知识库实体的相似度大于预设第二阈值。
5.如权利要求3所述的一种方法,其特征在于,采用贪心策略,根据所述候选核心数据库实体对所述事件实体进行属性补全;
其中,所述贪心策略包括:若补全某属性,能提高所述事件实体与所述候选实体的最大相似度,则进行所述事件实体的属性补全。
6.如权利要求4所述的一种方法,其特征在于,所述外部知识库包括:WiKi、或Babel、或ZhishiMe。
7.如权利要求2所述的一种方法,其特征在于,将所述句子的(S、O、B、T)四元组属性合并为句子图包括:
对于含有代词的句子图,将所述代词与对应的上下文其他句子放入Bert模型;
计算所述代词与对应的上下文其他句子的候选实体的相关度得分;
使用所述相关度得分最高的所述候选实体替换所述代词对应的实体。
8.一种基于贪婪实体链接的知识图谱自动校验迭代的装置,其特征在于,包括:
外部信息获取模块,用于获取外部文本信息;
事件列表生成模块,用于根据所述外部文本信息,生成事件列表;
新知识校验模块,用于将所述事件列表里的事件实体和核心数据库实体进行实体嵌入编码后,进行所述事件实体与所述核心数据库实体的相似度排序,判断所述事件实体与所述核心数据库实体的最大相似度是否大于预设第一阈值,如果是,触发新知识扩展模块,否则,触发属性补全模块;
所述新知识扩展模块,用于将所述事件实体插入所述核心数据库;
所述属性补全模块,用于对所述事件实体进行属性补全,若补全后的所述事件实体与核心数据库实体的最大相似度大于预设第一阈值,则将属性补全后的所述事件实体插入所述核心数据库。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7任一项所述的方法。
10.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010884220.0A CN112100324B (zh) | 2020-08-28 | 2020-08-28 | 一种知识图谱的扩展方法、装置、存储介质和计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010884220.0A CN112100324B (zh) | 2020-08-28 | 2020-08-28 | 一种知识图谱的扩展方法、装置、存储介质和计算设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112100324A true CN112100324A (zh) | 2020-12-18 |
CN112100324B CN112100324B (zh) | 2023-05-05 |
Family
ID=73758194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010884220.0A Active CN112100324B (zh) | 2020-08-28 | 2020-08-28 | 一种知识图谱的扩展方法、装置、存储介质和计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112100324B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113010688A (zh) * | 2021-03-05 | 2021-06-22 | 北京信息科技大学 | 知识图谱构建方法、装置、设备及计算机可读存储介质 |
CN116136866A (zh) * | 2023-04-19 | 2023-05-19 | 中国人民解放军国防科技大学 | 基于知识图谱的中文新闻摘要事实性知识校正方法和装置 |
CN117371534A (zh) * | 2023-12-07 | 2024-01-09 | 同方赛威讯信息技术有限公司 | 一种基于bert的知识图谱构建方法及系统 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030033288A1 (en) * | 2001-08-13 | 2003-02-13 | Xerox Corporation | Document-centric system with auto-completion and auto-correction |
US20030061201A1 (en) * | 2001-08-13 | 2003-03-27 | Xerox Corporation | System for propagating enrichment between documents |
US20130073541A1 (en) * | 2011-09-15 | 2013-03-21 | Microsoft Corporation | Query Completion Based on Location |
US20150347381A1 (en) * | 2014-05-30 | 2015-12-03 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
WO2017041372A1 (zh) * | 2015-09-07 | 2017-03-16 | 百度在线网络技术(北京)有限公司 | 基于人工智能的人机交互方法和系统 |
CN106874378A (zh) * | 2017-01-05 | 2017-06-20 | 北京工商大学 | 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法 |
US20180039889A1 (en) * | 2016-08-05 | 2018-02-08 | Google Inc. | Surfacing unique facts for entities |
WO2018036239A1 (zh) * | 2016-08-24 | 2018-03-01 | 慧科讯业有限公司 | 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统 |
US9965726B1 (en) * | 2015-04-24 | 2018-05-08 | Amazon Technologies, Inc. | Adding to a knowledge base using an ontological analysis of unstructured text |
CN108763333A (zh) * | 2018-05-11 | 2018-11-06 | 北京航空航天大学 | 一种基于社会媒体的事件图谱构建方法 |
CN109726293A (zh) * | 2018-11-14 | 2019-05-07 | 数据地平线(广州)科技有限公司 | 一种因果事件图谱构建方法、系统、装置及存储介质 |
CN109885691A (zh) * | 2019-01-08 | 2019-06-14 | 平安科技(深圳)有限公司 | 知识图谱补全方法、装置、计算机设备及存储介质 |
CN109885698A (zh) * | 2019-02-13 | 2019-06-14 | 北京航空航天大学 | 一种知识图谱构建方法及装置、电子设备 |
CN110727803A (zh) * | 2019-10-10 | 2020-01-24 | 北京明略软件系统有限公司 | 文本事件抽取方法及装置 |
CN110968700A (zh) * | 2019-11-01 | 2020-04-07 | 数地科技(北京)有限公司 | 一种融合多类事理与实体知识的领域事件图谱构建方法和装置 |
-
2020
- 2020-08-28 CN CN202010884220.0A patent/CN112100324B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030033288A1 (en) * | 2001-08-13 | 2003-02-13 | Xerox Corporation | Document-centric system with auto-completion and auto-correction |
US20030061201A1 (en) * | 2001-08-13 | 2003-03-27 | Xerox Corporation | System for propagating enrichment between documents |
US20130073541A1 (en) * | 2011-09-15 | 2013-03-21 | Microsoft Corporation | Query Completion Based on Location |
US20150347381A1 (en) * | 2014-05-30 | 2015-12-03 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9965726B1 (en) * | 2015-04-24 | 2018-05-08 | Amazon Technologies, Inc. | Adding to a knowledge base using an ontological analysis of unstructured text |
WO2017041372A1 (zh) * | 2015-09-07 | 2017-03-16 | 百度在线网络技术(北京)有限公司 | 基于人工智能的人机交互方法和系统 |
US20180039889A1 (en) * | 2016-08-05 | 2018-02-08 | Google Inc. | Surfacing unique facts for entities |
WO2018036239A1 (zh) * | 2016-08-24 | 2018-03-01 | 慧科讯业有限公司 | 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统 |
CN106874378A (zh) * | 2017-01-05 | 2017-06-20 | 北京工商大学 | 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法 |
CN108763333A (zh) * | 2018-05-11 | 2018-11-06 | 北京航空航天大学 | 一种基于社会媒体的事件图谱构建方法 |
CN109726293A (zh) * | 2018-11-14 | 2019-05-07 | 数据地平线(广州)科技有限公司 | 一种因果事件图谱构建方法、系统、装置及存储介质 |
CN109885691A (zh) * | 2019-01-08 | 2019-06-14 | 平安科技(深圳)有限公司 | 知识图谱补全方法、装置、计算机设备及存储介质 |
CN109885698A (zh) * | 2019-02-13 | 2019-06-14 | 北京航空航天大学 | 一种知识图谱构建方法及装置、电子设备 |
CN110727803A (zh) * | 2019-10-10 | 2020-01-24 | 北京明略软件系统有限公司 | 文本事件抽取方法及装置 |
CN110968700A (zh) * | 2019-11-01 | 2020-04-07 | 数地科技(北京)有限公司 | 一种融合多类事理与实体知识的领域事件图谱构建方法和装置 |
Non-Patent Citations (9)
Title |
---|
BAYU DISTIAWAN TRISEDYA等: "Entity Alignment between Knowledge Graphs Using Attribute Embeddings", 《ASSOCIATION FOR THE ADVANCEMENT OF ARTIFICIAL》 * |
CHAITANYA MALAVIYA等: "Commonsense Knowledge Base Completion with Structural and Semantic Context", 《ARXIV》 * |
刘峤等: "基于语义一致性的集成实体链接算法", 《计算机研究与发展》 * |
刘芳等: "以藏品为核心的知识图谱设计与应用", 《数字图书馆论坛》 * |
宋伟;张游杰;: "基于环境信息融合的知识图谱构建方法" * |
曾维新等: "基于重排序的迭代式实体对齐", 《计算机研究与发展》 * |
王仁武;袁毅;袁旭萍;: "基于深度学习与图数据库构建中文商业知识图谱的探索研究" * |
詹威威等: "基于综合影响力模型的改进EvolveKG方法及应用研究", 《计算机应用研究》 * |
谭晓;张志强;: "知识图谱研究进展及其前沿主题分析" * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113010688A (zh) * | 2021-03-05 | 2021-06-22 | 北京信息科技大学 | 知识图谱构建方法、装置、设备及计算机可读存储介质 |
CN116136866A (zh) * | 2023-04-19 | 2023-05-19 | 中国人民解放军国防科技大学 | 基于知识图谱的中文新闻摘要事实性知识校正方法和装置 |
CN117371534A (zh) * | 2023-12-07 | 2024-01-09 | 同方赛威讯信息技术有限公司 | 一种基于bert的知识图谱构建方法及系统 |
CN117371534B (zh) * | 2023-12-07 | 2024-02-27 | 同方赛威讯信息技术有限公司 | 一种基于bert的知识图谱构建方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112100324B (zh) | 2023-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110321432B (zh) | 文本事件信息提取方法、电子装置和非易失性存储介质 | |
CN112100324B (zh) | 一种知识图谱的扩展方法、装置、存储介质和计算设备 | |
CN110532397B (zh) | 基于人工智能的问答方法、装置、计算机设备及存储介质 | |
CN110851559B (zh) | 数据元自动识别方法和识别系统 | |
CN111488468B (zh) | 地理信息知识点抽取方法、装置、存储介质及计算机设备 | |
US20160188569A1 (en) | Generating a Table of Contents for Unformatted Text | |
JP2022073981A (ja) | ソースコード取得 | |
CN110825840B (zh) | 词库扩充方法、装置、设备及存储介质 | |
CN107480197B (zh) | 实体词识别方法及装置 | |
CN110309258B (zh) | 一种输入检查方法、服务器和计算机可读存储介质 | |
CN112364169B (zh) | 基于nlp的wifi识别方法、电子设备和介质 | |
CN113033208A (zh) | 一种基于政务文本数据词性标注的企业主体匹配方法 | |
CN112487154B (zh) | 一种基于自然语言的智能搜索方法 | |
CN114780700A (zh) | 基于机器阅读理解的智能问答方法、装置、设备及介质 | |
CN114154480A (zh) | 信息提取方法、装置、设备和存储介质 | |
CN114691820A (zh) | 一种基于知识图谱的问答实现方法及装置 | |
CN113032371A (zh) | 数据库语法分析方法、装置和计算机设备 | |
CN111930880A (zh) | 一种文本编码检索的方法、装置及介质 | |
CN112434537A (zh) | 翻译文本一致性校验方法、计算设备及存储介质 | |
CN112287077A (zh) | 用于文档的结合rpa和ai的语句提取方法、装置、存储介质及电子设备 | |
CN112686024B (zh) | 句法解析方法及装置、电子设备、存储介质 | |
CN113268566B (zh) | 问答对的质量评价方法、装置、设备及存储介质 | |
CN110287491B (zh) | 事件名生成方法及装置 | |
CN110765239B (zh) | 热词识别方法、装置及存储介质 | |
CN111476037B (zh) | 文本处理方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |