CN114528413B - 众包标注支持的知识图谱更新方法、系统和可读存储介质 - Google Patents

众包标注支持的知识图谱更新方法、系统和可读存储介质 Download PDF

Info

Publication number
CN114528413B
CN114528413B CN202210149195.0A CN202210149195A CN114528413B CN 114528413 B CN114528413 B CN 114528413B CN 202210149195 A CN202210149195 A CN 202210149195A CN 114528413 B CN114528413 B CN 114528413B
Authority
CN
China
Prior art keywords
entity
extraction
result
iteration
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210149195.0A
Other languages
English (en)
Other versions
CN114528413A (zh
Inventor
张广志
于笑博
成立立
杨占军
李奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beiling Rongxin Datalnfo Science and Technology Ltd
Original Assignee
Beiling Rongxin Datalnfo Science and Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beiling Rongxin Datalnfo Science and Technology Ltd filed Critical Beiling Rongxin Datalnfo Science and Technology Ltd
Priority to CN202210149195.0A priority Critical patent/CN114528413B/zh
Publication of CN114528413A publication Critical patent/CN114528413A/zh
Application granted granted Critical
Publication of CN114528413B publication Critical patent/CN114528413B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开的一种众包标注支持的知识图谱更新方法、系统和可读存储介质,其中方法包括:获取目标数据,并对其进行目标作业,获取每一种所述目标作业所得结果对应的标注数据,并基于所述标注数据进行分析迭代,其中,若所述迭代结果不满足对应的停止条件,则继续迭代更新;若所述迭代结果满足对应的所述停止条件,则停止迭代,结束所述知识图谱的更新。本发明提供一种支持众包标注的知识图谱更新方法,能够根据人工标注的结果,对知识图谱中实体、关系以及事件,进行更新,以提高知识图谱质量,丰富知识图谱存量;通过标注的结果进行分析,对知识进行抽取、融合以及推理将所得结果进行迭代更新,直至更新结束。

Description

众包标注支持的知识图谱更新方法、系统和可读存储介质
技术领域
本发明涉及知识图谱技术领域,更具体的,涉及一种众包标注支持的知识图谱更新方法、系统和可读存储介质。
背景技术
知识图谱技术已广泛地应用于搜索查询和自动问答产品中,高质量知识图谱是提高推荐系统和知识模型效果的有效手段。
构建一个知识图谱库,需要若干个环节:知识抽取,知识融合,知识推理。知识图谱库中的元素—实体,关系,事件—可能存在一个或者多个冲突,通过众包标注后分析这些冲突,可进一步提升机器标注准确率,众包标注也可降低专家标注带来的成本压力,加快构建知识图谱库的迭代流程,结合机器学习算法和人工标注的方法,能可靠地提高知识图谱质量和存量。
发明内容
本发明的目的是提供一种众包标注支持的知识图谱更新方法、系统和可读存储介质,提供一种支持众包标注的知识图谱更新方法,能够根据人工标注的结果进行图谱更新,以提高知识图谱质量,丰富知识图谱存量。
本发明第一方面提供了一种众包标注支持的知识图谱更新方法,包括以下步骤:
获取目标数据,并对其进行目标作业,其中,所述目标作业包括知识抽取作业、知识融合作业以及知识推理作业;
获取每一种所述目标作业所得结果对应的标注数据,并基于所述标注数据进行分析迭代,并判断当前迭代结果是否满足对应的停止条件,其中,
若所述迭代结果满足预设的样本阈值,则停止迭代,结束所述知识图谱的更新;
若所述迭代结果满足预设的准确率阈值,则停止迭代,结束所述知识图谱的更新。
本方案中,将预处理数据转化成非结构化数据以得到所述目标数据,其中,包括将网页特殊格式数据转化成对应文本数据。
本方案中,基于所述目标数据进行所述知识抽取作业,具体包括:
基于预设深度学习算法对所述目标数据进行实体抽取得到实体结果;
基于所述实体结果进行实体消歧作业以得到实体链接;
基于预设触发词模板对所述实体结果进行关系提取,得到对应的提取结果;
利用动态池化卷积神经网络模型对所述目标数据进行事件抽取。
本方案中,待所述知识抽取作业完成后,收集所述实体结果、所述实体链接以及所述提取结果对应的所述标注数据。
本方案中,基于所述目标数据进行所述知识融合作业,具体包括:
基于所述知识抽取得到的结果进行分块;
并对分块后的所述实体进行相似度计算;
将相似度计算结果超过预设阈值的链接进行标注,其中,基于所述实体结果计算实体相似度以记录实体对的链接。
本方案中,利用预设规则对分块后的所述实体进行知识推理,并基于支持度以及置信度进行评估。
本发明第二方面还提供一种众包标注支持的知识图谱更新系统,包括存储器和处理器,所述存储器中包括众包标注支持的知识图谱更新方法程序,所述众包标注支持的知识图谱更新方法程序被所述处理器执行时实现如下步骤:
获取目标数据,并对其进行目标作业,其中,所述目标作业包括知识抽取作业、知识融合作业以及知识推理作业;
获取每一种所述目标作业所得结果对应的标注数据,并基于所述标注数据进行分析迭代,并判断当前迭代结果是否满足对应的停止条件,其中,
若所述迭代结果满足预设的样本阈值,则停止迭代,结束所述知识图谱的更新;
若所述迭代结果满足预设的准确率阈值,则停止迭代,结束所述知识图谱的更新。
本方案中,将预处理数据转化成非结构化数据以得到所述目标数据,其中,包括将网页特殊格式数据转化成对应文本数据。
本方案中,基于所述目标数据进行所述知识抽取作业,具体包括:
基于预设深度学习算法对所述目标数据进行实体抽取得到实体结果;
基于所述实体结果进行实体消歧作业以得到实体链接;
基于预设触发词模板对所述实体结果进行关系提取,得到对应的提取结果;
利用动态池化卷积神经网络模型对所述目标数据进行事件抽取。
本方案中,待所述知识抽取作业完成后,收集所述实体结果、所述实体链接以及所述提取结果对应的所述标注数据。
本方案中,基于所述目标数据进行所述知识融合作业,具体包括:
基于所述知识抽取得到的结果进行分块;
并对分块后的所述实体进行相似度计算;
将相似度计算结果超过预设阈值的链接进行标注,其中,基于所述实体结果计算实体相似度以记录实体对的链接。
本方案中,利用预设规则对分块后的所述实体进行知识推理,并基于支持度以及置信度进行评估。
本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括机器的一种众包标注支持的知识图谱更新方法程序,所述众包标注支持的知识图谱更新方法程序被处理器执行时,实现如上述任一项所述的一种众包标注支持的知识图谱更新方法的步骤。
本发明公开的一种众包标注支持的知识图谱更新方法、系统和可读存储介质,能够根据人工标注的结果,对知识图谱中实体、关系以及事件,进行更新,以提高知识图谱质量,丰富知识图谱存量;并且通过标注的结果进行分析,对知识进行抽取、融合以及推理将所得结果进行迭代更新,直至更新结束。
附图说明
图1示出了本发明一种众包标注支持的知识图谱更新方法的流程图;
图2示出了本发明一种众包标注支持的知识图谱更新系统的框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本申请一种众包标注支持的知识图谱更新方法的流程图。
如图1所示,本申请公开了一种众包标注支持的知识图谱更新方法,包括以下步骤:
S102,获取目标数据,并对其进行目标作业,其中,所述目标作业包括知识抽取作业、知识融合作业以及知识推理作业;
S104,获取每一种所述目标作业所得结果对应的标注数据,并基于所述标注数据进行分析迭代;
S106,判断当前迭代结果是否满足对应的停止条件,其中,若所述迭代结果满足预设的样本阈值,则停止迭代,结束所述知识图谱的更新;若所述迭代结果满足预设的准确率阈值,则停止迭代,结束所述知识图谱的更新。
需要说明的是,对每种所述迭代结果进行判断,其中,若所述迭代结果不满足对应的所述停止条件,则继续迭代更新,若所述迭代结果满足对应的所述停止条件,则停止更新,具体地,首先获取所述目标数据,得到非结构化数据,对其进行实体抽取、实体链接、关系抽取、事件抽取以及知识融合与知识推理,并获取每个环节所得结果对应的标注数据进行分析,其中,每一个环节的所述迭代结果满足其对应的所述停止条件时,即退出该环节的更新作业,直至所有的所述迭代结果均满足对应的所述停止条件时停止迭代,结束所述知识图谱的更新。
值得一提的是,所述停止条件包括两个,其一是所述样本阈值,其二是所述准确率阈值,具体地,基于所述标注数据识别到当前标记的样本总量占总样本的第一比例,若所述第一比例高于所述样本阈值,则停止迭代更新,优选地,所述样本阈值可选为“80%”;所述目标作业包括实体抽取、实体链接、关系抽取、事件抽取以及知识融合与知识推理,对于所述目标作业停止更新时,可以基于对应的所述准确率阈值进行判断,优选地,不同的所述目标作业对应的所述准确率阈值可以不同。
值得一提的是,于发明一实施例中,还包括将所述标注数据作为训练集合/标准模版对所述目标作业采用的算法或者模版进行优化,即将所述标注数据作为训练数据,以完成所述知识图谱的算法更新和/或模版集合。
根据本发明实施例,将预处理数据转化成非结构化数据以得到所述目标数据,其中,包括将网页特殊格式数据转化成对应文本数据。
需要说明的是,本实施例中所述目标数据针对非结构化的文本数据,需要把网页数据等所述预处理数据转化成一般文本数据以得到基本语料,其中,本发明使用的所述目标数据并不涉及保存于数据库内的结构化数据,或者百科类的半结构化数据,具体地,把所有类型的数据转成普通的文本数据,例如,当前网页上记载着大量的文本数据,他们都是html形式,需要把网页格式数据转成普通文本,行文标点符号的处理,优选地,可以将保存的数据进入数据库,避免被二次处理。
根据本发明实施例,基于所述目标数据进行所述知识抽取作业,具体包括:
基于预设深度学习算法对所述目标数据进行实体抽取得到实体结果;
基于所述实体结果进行实体消歧作业以得到实体链接;
基于预设触发词模板对所述实体结果进行关系提取,得到对应的提取结果;
利用动态池化卷积神经网络模型对所述目标数据进行事件抽取。
需要说明的是,所述知识抽取作业具体包括实体识别、实体链接、关系抽取以及事件抽取这些子门类,其中,通过深度学习算法(LSTM+CR算法)对所述目标数据进行实体抽取得到所述实体结果,例如使用所述LSTM+CR算法对一段文本内容进行实体抽取,抽取出文本中地名,人名,时间等,比如对于“汤姆出生于A国纽约州”,“汤姆”,“纽约州”则为一个所述实体;再利用Rank SVM算法进行消歧作业,得到唯一的所述实体,比如有两个相似的实体“纽约”和“纽约州”,算法会选择与“指称-实体字典”里某个实体相似度最高的那个实体作为消歧结果,且假设这里“纽约”就是“纽约州”概率最高对应的实体,那么可直接更改该“纽约州”为“纽约”,这样最后就只保留了一个实体了,即“纽约”。
进一步地,所述关系抽取采用基于模版的方法,例如:对于“汤姆的妻子黛西是位儿科医生”,抽取出来的关系:汤姆<妻子>黛西,这里“汤姆”,“黛西”是所述实体,“妻子”是一种关系;所述事件抽取是基于深度学习的算法对事件进行抽取,优选地,可以采用动态多池化卷机神经网络(DMCNN)进行抽取,例如:对于“2016年3月18日早上,汤姆在社交平台上晒出一张跑步经过人民广场的照片,并有五人同行”,抽取出的事件如下:
人物:汤姆 时间:2016年3月18日
事件:跑步 地点:人民广场。
根据本发明实施例,待所述知识抽取作业完成后,收集所述实体结果、所述实体链接以及所述提取结果对应的所述标注数据。
需要说明的是,待所述实体、关系以及事件这些信息被抽取出来后,这些信息以及原始文本载入后台供用户进行标注,进而获取所述知识抽取对应的所述标注数据。
根据本发明实施例,基于所述目标数据进行所述知识融合作业,具体包括:
基于所述知识抽取得到的结果进行分块;
并对分块后的所述实体进行相似度计算;
将相似度计算结果超过预设阈值的链接进行标注,其中,基于所述实体结果计算实体相似度以记录实体对的链接。
需要说明的是,对所述知识抽取得到的结果分块后,基于实体相似度记录实体之间的链接,获取不同块中最强相似度的链接的标注数据,以剔除不合理相似度的链接,其中,当低于预设相似度阈值接都被剔除,或者错误的链接比例低于比例阈值时,完成所述知识融合的更新作业,优选地,所述预设相似度阈值可取为85%,所述比例阈值为2%。
值得一提的是,对所有可能的所述实体对记录进行分块,使得每个块大小均衡,这样做可以减轻之后的计算负担,避免对全部所述实体进行相似度的计算,其中,分块的方法采用哈希函数法,具体可以使用n-grams的哈希函数法;所述相似度计算法为:假设一个实体有n个属性,计算两个实体每一个属性的相似度,得到一个n纬的属性相似度向量,再计算实体相似度,所述相似度可以使用Dice系数,具体计算式如下:
Figure BDA0003510032440000081
其中,S,T分别为两个所述实体。
根据本发明实施例,利用预设规则对分块后的所述实体进行知识推理,并基于支持度以及置信度进行评估。
需要说明的是,知识推理多基于规则的推理,具体地所述规则的形式如下:rule:head←body,其中head为规则头,head根据规则主体推理得到,head为一个二元原子,规则主体由一个或者多个一元或者二元原子构成,二元原子形式示例如下:妻子(X,Y),那么这个原子表示变量X的妻子是变量Y,一元原子形式如下:位置(X),变量X为一个位置实体,经过推理过程后,可以选择支持度和置信度对推理效果进行评估,其中,所述支持度:指的是满足规则主体和规则头的实例的个数,规则的实例化是指将规则中的变量替换成知识图谱中的真实的实体后的结果。优选地,一个规则的支持度越大,说明这个规则的实例在知识图谱中存在的越多。
所述置信度S(rule)的计算公式为:
Figure BDA0003510032440000091
其中,support(rule)是所述支持度,body(rule)指的是满足规则主体的实例的个数,两者的比值为满足规则的实例和只满足规则主体的实例的个数的比值。优选地,一个规则的置信度越高,其质量也就越高。
值得一提的是,所述实体抽取的迭代具体步骤包括:识别当前所述实体的标注准确率,其中,若所述准确率高于预设准确阈值,则停止所述实体抽取对应的迭代更新。
需要说明的是,对于一个文档Di,通过所述LSTM+CRF算法进行实体的抽取,并获取每个所述实体对应的标注结果,基于所述标注结果判断对应所述文档Di的标注准确率,其中,当所述标注准确率高于所述准确阈值,则停止所述LSTM+CRF算法的迭代更新,完成所述实体抽取。优选地,所述准确阈值可选为93%。
值得一提的是,所述实体链接的迭代具体步骤包括:基于Rank SVM模型进行实体消歧作业,当识别到消歧准确率高于预设消歧阈值,则停止所述实体链接的迭代。
需要说明的是,对于提取到所有的所述实体,可能存在一词多义,多词一义的情况,需要对他们进行实体消歧的工作,同一个所述实体只保留一个实体名称,利用所述RankSVM模型进行所述实体消歧作业,当识别到所述消歧准确率高于预设消歧阈值时,即表明当前模型的算法无需更新,则停止所述实体链接的迭代,优选地,所述消歧阈值可取“90%”,进一步地,例如,对于两个相似的实体“纽约”和“纽约州”,基于所述Rank SVM模型选择与“指称-实体字典”里某个实体相似度最高的那个实体作为消歧结果,假设这里“纽约”就是“纽约州”概率最高对应的实体,那么可直接更改该“纽约州”为“纽约”,这样最后就只保留了一个实体了,即“纽约”。
值得一提的是,所述关系抽取的迭代步骤包括:基于提取到的关系标注结果进行识别,若识别到无新添加的所述关系标注结果,则停止所述关系抽取的迭代。
需要说明的是,对于所述文档Di,基于触发词的模版对关系进行提取,例如“X妻子Y”的模式,获取形如“妻子(X,Y)”的关系数据,并存入知识图谱数据库,若提取到新的关系,用户会进行标注,因此,若识别到无新添加的所述关系标注结果,则表明当前所述触发词可以满足所述文档Di内所有的关系提取,因此,停止所述关系抽取的迭代。
值得一提的是,所述事件抽取的迭代具体步骤包括:提取所述事件抽取标注结果,其中,若无新添加的所述事件抽取标准结果,则停止所述事件抽取的迭代。
需要说明的是,基于所述文档Di,抽出若干个事件,每个新抽取的所述事件都会被用户进行标注,当识别到无新添加的所述事件抽取标注结果时,说明当前所述文档Di无新增的所述事件,因此可以停止所述事件抽取的迭代。
图2示出了本发明一种众包标注支持的知识图谱更新系统的框图。
如图2所示,本发明公开了一种众包标注支持的知识图谱更新系统,包括存储器和处理器,所述存储器中包括众包标注支持的知识图谱更新方法程序,所述众包标注支持的知识图谱更新方法程序被所述处理器执行时实现如下步骤:
获取目标数据,并对其进行目标作业,其中,所述目标作业包括知识抽取作业、知识融合作业以及知识推理作业;
获取每一种所述目标作业所得结果对应的标注数据,并基于所述标注数据进行分析迭代,并判断当前迭代结果是否满足对应的停止条件,其中,
若所述迭代结果满足预设的样本阈值,则停止迭代,结束所述知识图谱的更新;
若所述迭代结果满足预设的准确率阈值,则停止迭代,结束所述知识图谱的更新。
需要说明的是,对每种所述迭代结果进行判断,其中,若所述迭代结果不满足对应的所述停止条件,则继续迭代更新,若所述迭代结果满足对应的所述停止条件,则停止更新,具体地,首先获取所述目标数据,得到非结构化数据,对其进行实体抽取、实体链接、关系抽取、事件抽取以及知识融合与知识推理,并获取每个环节所得结果对应的标注数据进行分析,其中,每一个环节的所述迭代结果满足其对应的所述停止条件时,即退出该环节的更新作业,直至所有的所述迭代结果均满足对应的所述停止条件时停止迭代,结束所述知识图谱的更新。
值得一提的是,所述停止条件包括两个,其一是所述样本阈值,其二是所述准确率阈值,具体地,基于所述标注数据识别到当前标记的样本总量占总样本的第一比例,若所述第一比例高于所述样本阈值,则停止迭代更新,优选地,所述样本阈值可选为“80%”;所述目标作业包括实体抽取、实体链接、关系抽取、事件抽取以及知识融合与知识推理,对于所述目标作业停止更新时,可以基于对应的所述准确率阈值进行判断,优选地,不同的所述目标作业对应的所述准确率阈值可以不同。
值得一提的是,于发明一实施例中,还包括将所述标注数据作为训练集合/标准模版对所述目标作业采用的算法或者模版进行优化,即将所述标注数据作为训练数据,以完成所述知识图谱的算法更新和/或模版集合。
根据本发明实施例,将预处理数据转化成非结构化数据以得到所述目标数据,其中,包括将网页特殊格式数据转化成对应文本数据。
需要说明的是,本实施例中所述目标数据针对非结构化的文本数据,需要把网页数据等所述预处理数据转化成一般文本数据以得到基本语料,其中,本发明使用的所述目标数据并不涉及保存于数据库内的结构化数据,或者百科类的半结构化数据,具体地,把所有类型的数据转成普通的文本数据,例如,当前网页上记载着大量的文本数据,他们都是html形式,需要把网页格式数据转成普通文本,行文标点符号的处理,优选地,可以将保存的数据进入数据库,避免被二次处理。
根据本发明实施例,基于所述目标数据进行所述知识抽取作业,具体包括:
基于预设深度学习算法对所述目标数据进行实体抽取得到实体结果;
基于所述实体结果进行实体消歧作业以得到实体链接;
基于预设触发词模板对所述实体结果进行关系提取,得到对应的提取结果;
利用动态池化卷积神经网络模型对所述目标数据进行事件抽取。
需要说明的是,所述知识抽取作业具体包括实体识别、实体链接、关系抽取以及事件抽取这些子门类,其中,通过深度学习算法(LSTM+CR算法)对所述目标数据进行实体抽取得到所述实体结果,例如使用所述LSTM+CR算法对一段文本内容进行实体抽取,抽取出文本中地名,人名,时间等,比如对于“汤姆出生于A国纽约州”,“汤姆”,“纽约州”则为一个所述实体;再利用Rank SVM算法进行消歧作业,得到唯一的所述实体,比如有两个相似的实体“纽约”和“纽约州”,算法会选择与“指称-实体字典”里某个实体相似度最高的那个实体作为消歧结果,且假设这里“纽约”就是“纽约州”概率最高对应的实体,那么可直接更改该“纽约州”为“纽约”,这样最后就只保留了一个实体了,即“纽约”。
进一步地,所述关系抽取采用基于模版的方法,例如:对于“汤姆的妻子黛西是位儿科医生”,抽取出来的关系:汤姆<妻子>黛西,这里“汤姆”,“黛西”是所述实体,“妻子”是一种关系;所述事件抽取是基于深度学习的算法对事件进行抽取,优选地,可以采用动态多池化卷机神经网络(DMCNN)进行抽取,例如:对于“2016年3月18日早上,汤姆在社交平台上晒出一张跑步经过人民广场的照片,并有五人同行”,抽取出的事件如下:
人物:汤姆 时间:2016年3月18日
事件:跑步 地点:人民广场。
根据本发明实施例,待所述知识抽取作业完成后,收集所述实体结果、所述实体链接以及所述提取结果对应的所述标注数据。
需要说明的是,待所述实体、关系以及事件这些信息被抽取出来后,这些信息以及原始文本载入后台供用户进行标注,进而获取所述知识抽取对应的所述标注数据。
根据本发明实施例,基于所述目标数据进行所述知识融合作业,具体包括:
基于所述知识抽取得到的结果进行分块;
并对分块后的所述实体进行相似度计算;
将相似度计算结果超过预设阈值的链接进行标注,其中,基于所述实体结果计算实体相似度以记录实体对的链接。
需要说明的是,对所述知识抽取得到的结果分块后,基于实体相似度记录实体之间的链接,获取不同块中最强相似度的链接的标注数据,以剔除不合理相似度的链接,其中,当低于预设相似度阈值接都被剔除,或者错误的链接比例低于比例阈值时,完成所述知识融合的更新作业,优选地,所述预设相似度阈值可取为85%,所述比例阈值为2%。
值得一提的是,对所有可能的所述实体对记录进行分块,使得每个块大小均衡,这样做可以减轻之后的计算负担,避免对全部所述实体进行相似度的计算,其中,分块的方法采用哈希函数法,具体可以使用n-grams的哈希函数法;所述相似度计算法为:假设一个实体有n个属性,计算两个实体每一个属性的相似度,得到一个n纬的属性相似度向量,再计算实体相似度,所述相似度可以使用Dice系数,具体计算式如下:
Figure BDA0003510032440000151
其中,S,T分别为两个所述实体。
根据本发明实施例,利用预设规则对分块后的所述实体进行知识推理,并基于支持度以及置信度进行评估。
需要说明的是,知识推理多基于规则的推理,具体地所述规则的形式如下:rule:head←body,其中head为规则头,head根据规则主体推理得到,head为一个二元原子,规则主体由一个或者多个一元或者二元原子构成,二元原子形式示例如下:妻子(X,Y),那么这个原子表示变量X的妻子是变量Y,一元原子形式如下:位置(X),变量X为一个位置实体,经过推理过程后,可以选择支持度和置信度对推理效果进行评估,其中,所述支持度:指的是满足规则主体和规则头的实例的个数,规则的实例化是指将规则中的变量替换成知识图谱中的真实的实体后的结果。优选地,一个规则的支持度越大,说明这个规则的实例在知识图谱中存在的越多。
所述置信度S(rule)的计算公式为:
Figure BDA0003510032440000152
其中,support(rule)是所述支持度,body(rule)指的是满足规则主体的实例的个数,两者的比值为满足规则的实例和只满足规则主体的实例的个数的比值。优选地,一个规则的置信度越高,其质量也就越高。
值得一提的是,所述实体抽取的迭代具体步骤包括:识别当前所述实体的标注准确率,其中,若所述准确率高于预设准确阈值,则停止所述实体抽取对应的迭代更新。
需要说明的是,对于一个文档Di,通过所述LSTM+CRF算法进行实体的抽取,并获取每个所述实体对应的标注结果,基于所述标注结果判断对应所述文档Di的标注准确率,其中,当所述标注准确率高于所述准确阈值,则停止所述LSTM+CRF算法的迭代更新,完成所述实体抽取。优选地,所述准确阈值可选为93%。
值得一提的是,所述实体链接的迭代具体步骤包括:基于Rank SVM模型进行实体消歧作业,当识别到消歧准确率高于预设消歧阈值,则停止所述实体链接的迭代。
需要说明的是,对于提取到所有的所述实体,可能存在一词多义,多词一义的情况,需要对他们进行实体消歧的工作,同一个所述实体只保留一个实体名称,利用所述RankSVM模型进行所述实体消歧作业,当识别到所述消歧准确率高于预设消歧阈值时,即表明当前模型的算法无需更新,则停止所述实体链接的迭代,优选地,所述消歧阈值可取“90%”,进一步地,例如,对于两个相似的实体“纽约”和“纽约州”,基于所述Rank SVM模型选择与“指称-实体字典”里某个实体相似度最高的那个实体作为消歧结果,假设这里“纽约”就是“纽约州”概率最高对应的实体,那么可直接更改该“纽约州”为“纽约”,这样最后就只保留了一个实体了,即“纽约”。
值得一提的是,所述关系抽取的迭代步骤包括:基于提取到的关系标注结果进行识别,若识别到无新添加的所述关系标注结果,则停止所述关系抽取的迭代。
需要说明的是,对于所述文档Di,基于触发词的模版对关系进行提取,例如“X妻子Y”的模式,获取形如“妻子(X,Y)”的关系数据,并存入知识图谱数据库,若提取到新的关系,用户会进行标注,因此,若识别到无新添加的所述关系标注结果,则表明当前所述触发词可以满足所述文档Di内所有的关系提取,因此,停止所述关系抽取的迭代。
值得一提的是,所述事件抽取的迭代具体步骤包括:提取所述事件抽取标注结果,其中,若无新添加的所述事件抽取标准结果,则停止所述事件抽取的迭代。
需要说明的是,基于所述文档Di,抽出若干个事件,每个新抽取的所述事件都会被用户进行标注,当识别到无新添加的所述事件抽取标注结果时,说明当前所述文档Di无新增的所述事件,因此可以停止所述事件抽取的迭代。
本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括一种众包标注支持的知识图谱更新方法程序,所述众包标注支持的知识图谱更新方法程序被处理器执行时,实现如上述任一项所述的一种众包标注支持的知识图谱更新方法的步骤。
本发明公开的一种众包标注支持的知识图谱更新方法、系统和可读存储介质,能够根据人工标注的结果,对知识图谱中实体、关系以及事件,进行更新,以提高知识图谱质量,丰富知识图谱存量;并且通过标注的结果进行分析,对知识进行抽取、融合以及推理将所得结果进行迭代更新,直至更新结束。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (5)

1.一种众包标注支持的知识图谱更新方法,其特征在于,包括以下步骤:获取目标数据,并对其进行目标作业,其中,所述目标作业包括知识抽取作业、知识融合作业以及知识推理作业;
获取每一种所述目标作业所得结果对应的标注数据,并基于所述标注数据进行分析迭代,并判断当前迭代结果是否满足对应的停止条件,其中,若所述迭代结果满足预设的样本阈值,则停止迭代,结束所述知识图谱的更新;
若所述迭代结果满足预设的准确率阈值,则停止迭代,结束所述知识图谱的更新;
将预处理数据转化成非结构化数据以得到所述目标数据,其中,包括将网页特殊格式数据转化成对应文本数据;
基于所述目标数据进行所述知识抽取作业,具体包括:基于预设深度学习算法对所述目标数据进行实体抽取得到实体结果;
基于所述实体结果进行实体消歧作业以得到实体链接;
基于预设触发词模板对所述实体结果进行关系提取,得到对应的提取结果;
利用动态池化卷积神经网络模型对所述目标数据进行事件抽取;
待所述知识抽取作业完成后,收集所述实体结果、所述实体链接以及所述提取结果对应的所述标注数据;
其中,实体抽取的迭代具体步骤包括:识别当前所述实体的标注准确率,其中,若所述准确率高于预设准确阈值,则停止所述实体抽取对应的迭代更新;
所述实体链接的迭代具体步骤包括:基于Rank SVM模型进行实体消歧作业,当识别到消歧准确率高于预设消歧阈值,则停止所述实体链接的迭代;
所述关系提取的迭代步骤包括:基于提取到的关系标注结果进行识别,若识别到无新添加的所述关系标注结果,则停止所述关系提取的迭代;
所述事件抽取的迭代具体步骤包括:提取所述事件抽取标注结果,其中,若无新添加的所述事件抽取标注结果,则停止所述事件抽取的迭代。
2.根据权利要求1所述的一种众包标注支持的知识图谱更新方法,其特征在于,基于所述目标数据进行所述知识融合作业,具体包括:基于所述知识抽取得到的结果进行分块;
并对分块后的所述实体进行相似度计算;
将相似度计算结果超过预设阈值的链接进行标注,其中,基于所述实体结果计算实体相似度以记录实体对的链接。
3.根据权利要求2所述的一种众包标注支持的知识图谱更新方法,其特征在于,利用预设规则对分块后的所述实体进行知识推理,并基于支持度以及置信度进行评估。
4.一种众包标注支持的知识图谱更新系统,其特征在于,包括存储器和处理器,所述存储器中包括众包标注支持的知识图谱更新方法程序,所述众包标注支持的知识图谱更新方法程序被所述处理器执行时实现如下步骤:获取目标数据,并对其进行目标作业,其中,所述目标作业包括知识抽取作业、知识融合作业以及知识推理作业;
获取每一种所述目标作业所得结果对应的标注数据,并基于所述标注数据进行分析迭代,并判断当前迭代结果是否满足对应的停止条件,其中,若所述迭代结果满足预设的样本阈值,则停止迭代,结束所述知识图谱的更新;
若所述迭代结果满足预设的准确率阈值,则停止迭代,结束所述知识图谱的更新;
将预处理数据转化成非结构化数据以得到所述目标数据,其中,包括将网页特殊格式数据转化成对应文本数据;
基于所述目标数据进行所述知识抽取作业,具体包括:基于预设深度学习算法对所述目标数据进行实体抽取得到实体结果;
基于所述实体结果进行实体消歧作业以得到实体链接;
基于预设触发词模板对所述实体结果进行关系提取,得到对应的提取结果;
利用动态池化卷积神经网络模型对所述目标数据进行事件抽取;
待所述知识抽取作业完成后,收集所述实体结果、所述实体链接以及所述提取结果对应的所述标注数据;
其中,实体抽取的迭代具体步骤包括:识别当前所述实体的标注准确率,其中,若所述准确率高于预设准确阈值,则停止所述实体抽取对应的迭代更新;
所述实体链接的迭代具体步骤包括:基于Rank SVM模型进行实体消歧作业,当识别到消歧准确率高于预设消歧阈值,则停止所述实体链接的迭代;
所述关系提取的迭代步骤包括:基于提取到的关系标注结果进行识别,若识别到无新添加的所述关系标注结果,则停止所述关系提取的迭代;
所述事件抽取的迭代具体步骤包括:提取所述事件抽取标注结果,其中,若无新添加的所述事件抽取标注结果,则停止所述事件抽取的迭代。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括一种众包标注支持的知识图谱更新方法程序,所述众包标注支持的知识图谱更新方法程序被处理器执行时,实现如权利要求1至3中任一项所述的一种众包标注支持的知识图谱更新方法的步骤。
CN202210149195.0A 2022-02-18 2022-02-18 众包标注支持的知识图谱更新方法、系统和可读存储介质 Active CN114528413B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210149195.0A CN114528413B (zh) 2022-02-18 2022-02-18 众包标注支持的知识图谱更新方法、系统和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210149195.0A CN114528413B (zh) 2022-02-18 2022-02-18 众包标注支持的知识图谱更新方法、系统和可读存储介质

Publications (2)

Publication Number Publication Date
CN114528413A CN114528413A (zh) 2022-05-24
CN114528413B true CN114528413B (zh) 2022-08-12

Family

ID=81622703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210149195.0A Active CN114528413B (zh) 2022-02-18 2022-02-18 众包标注支持的知识图谱更新方法、系统和可读存储介质

Country Status (1)

Country Link
CN (1) CN114528413B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115408534B (zh) * 2022-08-23 2023-12-12 连连银通电子支付有限公司 一种知识图谱更新方法、装置、设备及存储介质
CN115858698B (zh) * 2023-02-22 2023-06-06 北京融信数联科技有限公司 智能体图谱分析方法、系统和可读存储介质
CN118331884A (zh) * 2024-05-11 2024-07-12 广州番禺职业技术学院 一种基于知识图谱的众包测试报告融合方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347894A (zh) * 2019-05-31 2019-10-18 平安科技(深圳)有限公司 基于爬虫的知识图谱处理方法、装置、计算机设备及存储介质
CN112434169A (zh) * 2020-11-13 2021-03-02 北京创业光荣信息科技有限责任公司 一种知识图谱的构建方法及其系统和计算机设备
CN113505244A (zh) * 2021-09-10 2021-10-15 中国人民解放军总医院 基于深度学习的知识图谱构建方法、系统、设备及介质
CN113704499A (zh) * 2020-09-24 2021-11-26 广东昭阳信息技术有限公司 一种准确而高效的智能化教育知识图谱构建方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10078651B2 (en) * 2015-04-27 2018-09-18 Rovi Guides, Inc. Systems and methods for updating a knowledge graph through user input

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347894A (zh) * 2019-05-31 2019-10-18 平安科技(深圳)有限公司 基于爬虫的知识图谱处理方法、装置、计算机设备及存储介质
CN113704499A (zh) * 2020-09-24 2021-11-26 广东昭阳信息技术有限公司 一种准确而高效的智能化教育知识图谱构建方法
CN112434169A (zh) * 2020-11-13 2021-03-02 北京创业光荣信息科技有限责任公司 一种知识图谱的构建方法及其系统和计算机设备
CN113505244A (zh) * 2021-09-10 2021-10-15 中国人民解放军总医院 基于深度学习的知识图谱构建方法、系统、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于众包标注提高教学效果的探索;李正华;《科教导刊(上旬刊)》;20200805;第39-40页 *

Also Published As

Publication number Publication date
CN114528413A (zh) 2022-05-24

Similar Documents

Publication Publication Date Title
CN114528413B (zh) 众包标注支持的知识图谱更新方法、系统和可读存储介质
CN111222305B (zh) 一种信息结构化方法和装置
US20180158078A1 (en) Computer device and method for predicting market demand of commodities
CN110781284B (zh) 基于知识图谱的问答方法、装置和存储介质
US20200364216A1 (en) Method, apparatus and storage medium for updating model parameter
CN114416942A (zh) 一种基于深度学习的自动化问答方法
CN111078837A (zh) 智能问答信息处理方法、电子设备及计算机可读存储介质
CN110321426B (zh) 摘要抽取方法、装置及计算机设备
CN111428503B (zh) 同名人物的识别处理方法及处理装置
CN113868419B (zh) 基于人工智能的文本分类方法、装置、设备及介质
JP2020140692A (ja) 文抽出システム、文抽出方法、及びプログラム
CN111708870A (zh) 基于深度神经网络的问答方法、装置及存储介质
CN117668180A (zh) 文档问答方法、文档问答设备以及可读存储介质
CN107783958B (zh) 一种目标语句识别方法及装置
CN114840642A (zh) 事件抽取方法、装置、设备及存储介质
CN115374259A (zh) 一种问答数据挖掘方法、装置及电子设备
CN110969005B (zh) 一种确定实体语料之间的相似性的方法及装置
CN114372454B (zh) 文本信息抽取方法、模型训练方法、装置及存储介质
CN110232328A (zh) 一种征信报告解析方法、装置及计算机可读存储介质
CN111597336B (zh) 训练文本的处理方法、装置、电子设备及可读存储介质
CN112418875A (zh) 跨平台税务智能客服语料迁移方法及装置
CN111104422A (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN112434126A (zh) 一种信息处理方法、装置、设备和存储介质
CN113095073B (zh) 语料标签生成方法、装置、计算机设备和存储介质
CN110941713A (zh) 基于主题模型的自优化金融资讯版块分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant