CN111428050B - 一种评测知识图谱的方法、装置、计算机存储介质及终端 - Google Patents

一种评测知识图谱的方法、装置、计算机存储介质及终端 Download PDF

Info

Publication number
CN111428050B
CN111428050B CN202010206421.5A CN202010206421A CN111428050B CN 111428050 B CN111428050 B CN 111428050B CN 202010206421 A CN202010206421 A CN 202010206421A CN 111428050 B CN111428050 B CN 111428050B
Authority
CN
China
Prior art keywords
tuple
tuples
machine
standard
elements
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010206421.5A
Other languages
English (en)
Other versions
CN111428050A (zh
Inventor
张�杰
付骁弈
李嘉琛
陈栋
吴信东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN202010206421.5A priority Critical patent/CN111428050B/zh
Publication of CN111428050A publication Critical patent/CN111428050A/zh
Application granted granted Critical
Publication of CN111428050B publication Critical patent/CN111428050B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种评测知识图谱的方法、装置、计算机存储介质及终端,本发明实施例抽取两种或两种以上元素个数不同的元组后,通过机器元组集合和标准元组集合的比对进行知识图谱的质量评测,提升了知识图谱的评测质量。

Description

一种评测知识图谱的方法、装置、计算机存储介质及终端
技术领域
本文涉及但不限于知识图谱技术,尤指一种评测知识图谱的方法、装置、计算机存储介质及终端。
背景技术
在信息时代,很多信息都是在互联网上以文本的方式发布。如何从互联网发布的信息中抽取出知识片段成为一项重要的任务。抽取非结构文本是从互联网中抽取知识片段的一种方法,根据抽取出来的知识片段包含的信息可以构建知识图谱,评价以非结构文本构建的知识图谱的质量,成为本领域技术人员研究的一个课题。
对以非结构化文本构建的知识图谱,相关技术主要通过以下方法进行质量评测:1、构建测试数据集;测试数据集的内容尽可能保持多样,能够反应知识图谱所在应用场景下的数据分布;2、对测试数据集中的每条样本进行人工标注,生成基于三元组的标准图谱;三元组形式为:(主语,谓语,宾语);3、使用待评价的知识图谱构建算法,对测试数据集进行知识片段的抽取后,根据抽取的知识片段构建机器图谱(为区分标准图谱,本文将由知识图谱构建算法构建的知识图谱定义为机器图谱);4、通过机器图谱与标准图谱的比较,确定机器图谱的质量;评测机器图谱质量的指标为F1,其计算公式为:
F1=2*准确率*召回率/(准确率+召回率);
其中,准确率(precision)=机器图谱中的三元组与标准图谱中的三元组的交集的数量/机器图谱中三元组的总数量;召回率(recall)=机器图谱中的三元组与标准图谱中的三元组的交集的数量/标准图谱中三元组的总数量。
相关技术仅以三元组作为机器图谱质量评测的基础参考信息,基础参考信息数据单一,无法全面有效的评测机器图谱的质量;如何提升机器图谱的评测质量,成为一个有待解决的问题。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供一种评测知识图谱的方法、装置、计算机存储介质及终端,能够提升知识图谱的评测质量。
本发明实施例提供了一种评测知识图谱的方法,包括:
通过待评测的机器图谱,按预设的抽取规则从测试数据集中抽取机器元组集合;
比对抽取出的机器元组集合与标准元组集合中的元组,根据比对结果获得对应于各元组的得分信息;
根据获得的得分信息进行机器图谱的质量评测;
其中,所述机器元组集合包括:元素个数不同的两种或两种以上元组;所述标准元组集合包括:从所述测试数据集中确定的所有满足所述抽取规则的元组。
另一方面,本发明实施例还提供一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现上述评测知识图谱的方法。
再一方面,本发明实施例还提供一种终端,包括:存储器和处理器,所述存储器中保存有计算机程序;其中,
处理器被配置为执行存储器中的计算机程序;
所述计算机程序被所述处理器执行时实现如上述评测知识图谱的方法。
还一方面,本发明实施例还提供一种评测知识图谱的装置,包括:抽取单元、比对单元和评测单元;其中,
抽取单元用于:通过待评测的机器图谱,按预设的抽取规则从测试数据集中抽取机器元组集合;
比对单元用于:比对抽取出的机器元组集合与标准元组集合中的元组,根据比对结果获得对应于各元组的得分信息;
评测单元用于:根据获得的得分信息进行机器图谱的质量评测;
其中,所述机器元组集合包括:元素个数不同的两种或两种以上元组;所述标准元组集合包括:从所述测试数据集中确定的所有满足所述抽取规则的元组。
本申请包括:通过待评测的机器图谱,按预设的抽取规则从测试数据集中抽取机器元组集合;比对抽取出的机器元组集合与标准元组集合中的元组,根据比对结果获得对应于各元组的得分信息;根据获得的得分信息进行机器图谱的质量评测;其中,机器元组集合包括:元素个数不同的两种或两种以上元组;标准元组集合包括:从所述测试数据集中确定的所有满足所述抽取规则的元组。本发明实施例抽取两种或两种以上元素个数不同的元组后,通过机器元组集合和标准元组集合的比对进行知识图谱的质量评测,增加了进行知识图谱质量评测的基础信息的全面性,提升了知识图谱的评测质量。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明实施例评测知识图谱的方法的流程图;
图2为本发明实施例评测知识图谱的装置的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1为本发明实施例评测知识图谱的方法的流程图,如图1所示,包括:
步骤101、通过待评测的机器图谱,按预设的抽取规则从测试数据集中抽取机器元组集合;
其中,机器元组集合包括:元素个数不同的两种或两种以上元组;
在一种示例性实施例中,按预设的抽取规则从测试数据集中抽取机器元组集合,包括:
在构建机器图谱的知识图谱构建算法中配置抽取规则;
通过配置完抽取规则的知识图谱构建算法对测试数据集进行元组抽取,以根据抽取出的所有元组组成机器元组集合。
在一种示例性实施例中,抽取规则包括:
配置需抽取的各种类的元组的元素个数和元素组合结构;
以配置的需抽取的元组包含的元素个数由多到少的排序作为抽取顺序,从测试数据集中按照元组的元素组合结构抽取元组;
其中,元素个数不同的元组相交的元素的个数小于:相交的元组中元素个数较少的元组的元素个数与1的差。
需要说明的是,抽取规则一般属于知识图谱构建算法中已有的抽取信息的规则,主要用于提取构建知识图谱的信息;此外,元组包含的元素个数相同时,可按设规则确定各元组的抽取顺序;例如、从元素个数相同的元组中每一次随机选择其中之一后,根据选择的元组的元素组合结构进行元组抽取。
步骤102、比对抽取出的机器元组集合与标准元组集合中的元组,根据比对结果获得对应于各元组的得分信息;
其中,标准元组集合包括:从测试数据集中确定的所有满足抽取规则的元组。
需要说明的是,标准元组集合可以由本领域技术人员基于抽取规则从测试数据集中抽取的元组构成的集合。
步骤103、根据获得的得分信息进行机器图谱的质量评测;
本申请包括:通过待评测的机器图谱,按预设的抽取规则从测试数据集中抽取机器元组集合;比对抽取出的机器元组集合与标准元组集合中的元组,根据比对结果获得对应于各元组的得分信息;根据获得的得分信息进行机器图谱的质量评测;其中,机器元组集合包括:元素个数不同的两种或两种以上元组;标准元组集合包括:从测试数据集中确定的所有满足抽取规则的元组。本发明实施例抽取两种或两种以上元素个数不同的元组后,通过机器元组集合和标准元组集合的比对进行知识图谱的质量评测,提升了知识图谱的评测质量。
在一种示例性实施例中,机器元组集合包括以下元组中的两种或全部:
三元组、二元组和一元组;
其中,三元组包括以下元素组合的元组:实体和关系;二元组包括以下元素中的两种元素组成的元组:实体、关系和属性;一元组由实体组成。
在一种示例性实施例中,三元组可以包括:(实体,关系,实体);二元组可以包括:(实体,关系)、(实体,属性)和(关系,属性)等;机器元组集合中包含的元组种类可以由本领域技术人员根据知识图谱构建算法中的规则进行分析设定。
在一种示例性实施例中,机器元组集合包括三元组、二元组和一元组,根据比对结果获得对应于各元组的得分信息,包括:
按照元素个数从多到少的顺序,每一次从机器元组集合选择一个元组,对当前选择的元组通过以下方式进行分值确定:
比对出当前选择的元组与标准元组集合中的一个元组完全相同时,得分为第一分值;
比对出当前选择的元组与标准元组集合中的所有元组均不完全相同时:如果当前选择的元组为三元组,且该三元组排序在前的两个元素与标准元组集合中的一个二元组中的元素组合均相同时,得分为第二分值;如果当前选择的元组为三元组,且该三元组排序在前的两个元素与标准元组集合中的所有二元组的元素组合结构不完全相同时,如果该三元组的第一或第三个元素为标准元组集合中的一元组中的实体时,得分为第三分值;如果当前选择的元组为二元组,且该二元组中的第一个元素与标准元组集合中包含的一个二元组中包含的第一个元素相同时,得分为第四分值。
在一种示例性实施例中,根据获得的得分信息进行机器图谱的质量评测包括:
为标准元组集合中的每一个元组,按照预设的权重策略分别配置相应的运算权重;
根据分值确定时标准元组集合中用于比对的元组的运算权重及通过分值确定出的得分,计算加权累计积分(WCS);
根据计算出的WCS,确定用于评测机器图谱质量的平均加权累计积分(AWCS)。
需要说明的是,本发明实施例可以由本领域技术人员根据经验分析确定运算权重,例如、通过语法及语义分析,确定元组包含的信息量大小;根据确定的元组包含的信息量大小设置运算权重。或借助已有的文本分析方法,分析确定元组的重要性程度信息。
在一种示例性实施例中,WCS通过以下公式之一计算:
Figure BDA0002421243850000061
Figure BDA0002421243850000062
式中,scorei表示采用标准元组集合中第i个元组进行比对时获得的得分;ranki表示获得scorei时,用于比对的标准元组集合中第i个元组的运算权重;p表示标准元组集合中的元组个数;
在一种示例性实施例中,本发明实施例运算权重大于等于1,可以由本领域技术人员分析设定。
在一种示例性实施例中,AWCS通过以下公式计算:
Figure BDA0002421243850000063
其中,n表示测试数据集中的样本数;所述IWCS表示标准元组集合与机器元组集合中的元组完全相同时WCS的运算得分,即IWCS运算结果为scorei计分为第一分值时的WCS的取值。
假设测试数据集中的一条样本为:约翰两年前买了一辆新的凯迪拉克四轮快速车,两年后它变成了一辆破旧不堪的慢速车。以下通过示例对本发明实施例处理过程进行简要说明:
假设本发明实施例根据抽取规则抽取除的机器元组集合包括:三元组、二元组和一元组;其中,三元组可以包括以下元素组合结构的元组:(实体,关系,实体);二元组可以包括以下一种或一种以上元素组合结构的元组:(实体,关系)、(实体,属性)和(关系,属性)等;一元组包括以实体作为元素的元组;按以下顺序抽取元组:
1、按照三元组的元组组合结构(实体,关系,实体)对样本进行三元组抽取;例如:抽取三元组(约翰,买,快速车);
2、完成样本中三元组抽取后,如果无法构成三元组,则抽取二元组;例如:抽取二元组(快速车,新);
3、如果无法以二元组抽取,则对完成三元组和二元组抽取的样本中的实体,以一元组形式抽取。
抽取元组过程中,元素个数不同的元组相交的元素的个数小于:相交的元组中元素个数较少的元组的元素个数与1的差。
表1为本发明实施例标准元组集合的示例,以人为标注的方式获得,在表1中还配置了各元组的运算权重;
运算权重 元组
1 (约翰,买,快速车)、(快速车,变成,慢速车)
2 (买,两年前)、(快速车,凯迪拉克)
3 (快速车,新)、(快速车,四轮)、(变成,两年后)
表1
本发明实施例在进行比对之前,需要对机器元组集合的元组进行去重处理;去重处理后,按照元素个数从多到少的顺序,每一次从机器元组集合选择一个元组,对当前选择的元组通过以下方式进行分值确定:
机器元组集合中的三元组(如(约翰,买,快速车))如果不存在于标准元组集合中,但其前两项(约翰,买)存在于标准元组集合的二元组中,计第二分值(例如0.5分);
机器元组集合中的三元组(如(约翰,买,快速车))即不存在于标准元组集合中的三元组中,其前两项(约翰,买)也存在于标准元组集合的二元组中,但其第一项(约翰)或第三项(快速车)中的任一项存在与标准元组集合的一元组中,计第三分值(例如0.2分);
机器元组集合中的二元组如果不存在于标准元组集合中,但其第一项存在于标准元组集合的二元组中,计第四分值(例如0.3分);
完成分值确定后,通过以下公式之一计算WCS:
Figure BDA0002421243850000081
Figure BDA0002421243850000082
本发明实施例运算权重越小,其对WCS影响越小;
通过计算获得的WCS,计算AWCS为:
Figure BDA0002421243850000083
由于WCS是一个累加的值,元组数量越多则会越大,因此,本发明实施例根据理想情况(即机器元组集合与标准元组集合完全一致)做归一化处理。理想情况下,加权累计积分IWCS的计算公式与WCS相同,只是计算的对象是标准元组集合。另外,评价指标需要在整个测试数据集的样本取平均值,因此,采用AWCS作为评测知识图谱质量的指标。本发明实施例AWCS的取值范围为[0,1],供技术人员对知识图谱质量进行比对分析。
本发明实施例还提供一种计算机存储介质,计算机存储介质中存储有计算机程序,计算机程序被处理器执行时实现上述评测知识图谱的方法。
本发明实施例还提供一种终端,包括:存储器和处理器,存储器中保存有计算机程序;其中,
处理器被配置为执行存储器中的计算机程序;
计算机程序被处理器执行时实现如上述评测知识图谱的方法。
图2为本发明实施例评测知识图谱的装置的结构框图,如图2所示,包括:抽取单元、比对单元和评测单元;其中,
抽取单元用于:通过待评测的机器图谱,按预设的抽取规则从测试数据集中抽取机器元组集合;
其中,机器元组集合包括:元素个数不同的两种或两种以上元组;
在一种示例性实施例中,抽取单元具体用于:
在构建机器图谱的知识图谱构建算法中配置抽取规则;
通过配置完抽取规则的知识图谱构建算法对测试数据集进行元组抽取,以根据抽取出的所有元组组成机器元组集合。
在一种示例性实施例中,抽取规则包括:
配置需抽取的各种类的元组的元素个数和元素组合结构;
以配置的需抽取的元组包含的元素个数由多到少的排序作为抽取顺序,从测试数据集中按照元组的元素组合结构抽取元组;
其中,元素个数不同的元组相交的元素的个数小于:相交的元组中元素个数较少的元组的元素个数与1的差。
需要说明的是,抽取规则一般属于知识图谱构建算法中已有的抽取信息的规则,主要用于提取构建知识图谱的信息;此外,元组包含的元素个数相同时,可按设规则确定各元组的抽取顺序;例如、从元素个数相同的元组中每一次随机选择其中之一后,根据选择的元组的元素组合结构进行元组抽取。
比对单元用于:比对抽取出的机器元组集合与标准元组集合中的元组,根据比对结果获得对应于各元组的得分信息;
其中,标准元组集合包括:从测试数据集中确定的所有满足抽取规则的元组。
评测单元用于:根据获得的得分信息进行机器图谱的质量评测;
在一种示例性实施例中,机器元组集合包括以下元组中的两种或全部:
三元组、二元组和一元组;
其中,三元组包括以下元素组合的元组:实体和关系;二元组包括以下元素中的两种元素组成的元组:实体、关系和属性;一元组由实体组成。
在一种示例性实施例中,机器元组集合包括三元组、二元组和一元组,根据比对结果获得对应于各元组的得分信息,包括:
按照元素个数从多到少的顺序,每一次从机器元组集合选择一个元组,对当前选择的元组通过以下方式进行分值确定:
比对出当前选择的元组与标准元组集合中的一个元组完全相同时,得分为第一分值;
比对出当前选择的元组与标准元组集合中的所有元组均不完全相同时:如果当前选择的元组为三元组,且该三元组排序在前的两个元素与标准元组集合中的一个二元组中的元素组合均相同时,得分为第二分值;如果当前选择的元组为三元组,且该三元组排序在前的两个元素与标准元组集合中的所有二元组的元素组合结构不完全相同时,如果该三元组的第一或第三个元素为标准元组集合中的一元组中的实体时,得分为第三分值;如果当前选择的元组为二元组,且该二元组中的第一个元素与标准元组集合中包含的一个二元组中包含的第一个元素相同时,得分为第四分值。
在一种示例性实施例中,根据获得的得分信息进行机器图谱的质量评测包括:
为标准元组集合中的每一个元组,按照预设的权重策略分别配置相应的运算权重;
根据分值确定时标准元组集合中用于比对的元组的运算权重及通过分值确定出的得分,计算加权累计积分(WCS);
根据计算出的WCS,确定用于评测机器图谱质量的平均加权累计积分(AWCS)。
需要说明的是,本发明实施例可以由本领域技术人员根据经验分析确定运算权重,例如、通过语法及语义分析,确定元组包含的信息量大小;根据确定的元组包含的信息量大小设置运算权重。或借助已有的文本分析方法,分析确定元组的重要性程度信息。
在一种示例性实施例中,WCS通过以下公式之一计算:
Figure BDA0002421243850000111
Figure BDA0002421243850000112
式中,scorei表示采用标准元组集合中第i个元组进行比对时获得的得分;ranki表示获得scorei时,用于比对的标准元组集合中第i个元组的运算权重;p表示标准元组集合中的元组个数;运算权重大于等于1。
在一种示例性实施例中,AWCS通过以下公式计算:
Figure BDA0002421243850000113
其中,n表示测试数据集中的样本数;IWCS表示标准元组集合与机器元组集合中的元组完全相同时WCS的运算得分,即IWCS运算结果为scorei计分为第一分值时的WCS的取值。
本申请包括:通过待评测的机器图谱,按预设的抽取规则从测试数据集中抽取机器元组集合;比对抽取出的机器元组集合与标准元组集合中的元组,根据比对结果获得对应于各元组的得分信息;根据获得的得分信息进行机器图谱的质量评测;其中,机器元组集合包括:元素个数不同的两种或两种以上元组;标准元组集合包括:从测试数据集中确定的所有满足抽取规则的元组。本发明实施例通过抽取两种或两种以上元组进行知识图谱的质量评测,提升了知识图谱的评测质量。
“本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。”。

Claims (8)

1.一种评测知识图谱的方法,包括:
通过待评测的机器图谱,按预设的抽取规则从测试数据集中抽取机器元组集合,包括:
在构建所述机器图谱的知识图谱构建算法中配置所述抽取规则;
通过配置完所述抽取规则的知识图谱构建算法对所述测试数据集进行元组抽取,以根据抽取出的所有元组组成所述机器元组集合;
其中,所述抽取规则包括:
配置需抽取的各种类的元组的元素个数和元素组合结构;
以配置的需抽取的元组包含的元素个数由多到少的排序作为抽取顺序,从所述测试数据集中按照元组的元素组合结构抽取元组;
其中,元素个数不同的元组相交的元素的个数小于:相交的元组中元素个数较少的元组的元素个数与1的差;
所述机器元组集合包括三元组、二元组和一元组;
比对抽取出的机器元组集合与标准元组集合中的元组,根据比对结果获得对应于各元组的得分信息,包括:
按照元素个数从多到少的顺序,每一次从所述机器元组集合选择一个元组,对当前选择的元组通过以下方式进行分值确定:
比对出当前选择的元组与所述标准元组集合中的一个元组完全相同时,得分为第一分值;
比对出当前选择的元组与所述标准元组集合中的所有元组均不完全相同时:如果当前选择的元组为三元组,且该三元组排序在前的两个元素与所述标准元组集合中的一个二元组中的元素组合均相同时,得分为第二分值;如果当前选择的元组为三元组,且该三元组排序在前的两个元素与所述标准元组集合中的所有二元组的元素组合结构不完全相同时,如果该三元组的第一或第三个元素为所述标准元组集合中的一元组中的实体时,得分为第三分值;如果当前选择的元组为二元组,且该二元组中的第一个元素与所述标准元组集合中包含的一个二元组中包含的第一个元素相同时,得分为第四分值;
根据获得的得分信息进行机器图谱的质量评测;
其中,所述机器元组集合包括:元素个数不同的两种或两种以上元组;所述标准元组集合包括:从所述测试数据集中确定的所有满足所述抽取规则的元组。
2.根据权利要求1所述的方法,其特征在于,所述机器元组集合包括以下元组中的两种或全部:
三元组、二元组和一元组;
其中,所述三元组包括以下元素组合的元组:实体和关系;所述二元组包括以下元素中的两种元素组成的元组:实体、关系和属性;所述一元组由实体组成。
3.根据权利要求1所述的方法,其特征在于,所述根据获得的得分信息进行机器图谱的质量评测包括:
为所述标准元组集合中的每一个元组,按照预设的权重策略分别配置相应的运算权重;
根据分值确定时标准元组集合中用于比对的元组的运算权重及通过所述分值确定出的得分,计算加权累计积分WCS;
根据计算出的所述WCS,确定用于评测机器图谱质量的平均加权累计积分AWCS。
4.根据权利要求3所述的方法,其特征在于,所述WCS通过以下公式之一计算:
Figure FDA0004074699520000021
Figure FDA0004074699520000022
式中,所述scorei表示采用标准元组集合中第i个元组进行比对时获得的得分;ranki表示获得所述scorei时,用于比对的标准元组集合中第i个元组的运算权重;所述p表示标准元组集合中的元组个数;所述运算权重大于或等于1。
5.根据权利要求4所述的方法,其特征在于,所述AWCS通过以下公式计算:
Figure FDA0004074699520000031
其中,所述n表示所述测试数据集中的样本数;所述IWCS表示标准元组集合与机器元组集合中的元组完全相同时WCS的运算得分。
6.一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1~5中任一项所述的评测知识图谱的方法。
7.一种终端,包括:存储器和处理器,所述存储器中保存有计算机程序;其中,
处理器被配置为执行存储器中的计算机程序;
所述计算机程序被所述处理器执行时实现如执行权利要求1~5中任一项所述的评测知识图谱的方法。
8.一种评测知识图谱的装置,包括:抽取单元、比对单元和评测单元;其中,
抽取单元用于:通过待评测的机器图谱,按预设的抽取规则从测试数据集中抽取机器元组集合,包括:
在构建所述机器图谱的知识图谱构建算法中配置所述抽取规则;
通过配置完所述抽取规则的知识图谱构建算法对所述测试数据集进行元组抽取,以根据抽取出的所有元组组成所述机器元组集合;
其中,所述抽取规则包括:
配置需抽取的各种类的元组的元素个数和元素组合结构;
以配置的需抽取的元组包含的元素个数由多到少的排序作为抽取顺序,从所述测试数据集中按照元组的元素组合结构抽取元组;
其中,元素个数不同的元组相交的元素的个数小于:相交的元组中元素个数较少的元组的元素个数与1的差;
所述机器元组集合包括三元组、二元组和一元组;
比对单元用于:比对抽取出的机器元组集合与标准元组集合中的元组,根据比对结果获得对应于各元组的得分信息,包括:
按照元素个数从多到少的顺序,每一次从所述机器元组集合选择一个元组,对当前选择的元组通过以下方式进行分值确定:
比对出当前选择的元组与所述标准元组集合中的一个元组完全相同时,得分为第一分值;
比对出当前选择的元组与所述标准元组集合中的所有元组均不完全相同时:如果当前选择的元组为三元组,且该三元组排序在前的两个元素与所述标准元组集合中的一个二元组中的元素组合均相同时,得分为第二分值;如果当前选择的元组为三元组,且该三元组排序在前的两个元素与所述标准元组集合中的所有二元组的元素组合结构不完全相同时,如果该三元组的第一或第三个元素为所述标准元组集合中的一元组中的实体时,得分为第三分值;如果当前选择的元组为二元组,且该二元组中的第一个元素与所述标准元组集合中包含的一个二元组中包含的第一个元素相同时,得分为第四分值;
评测单元用于:根据获得的得分信息进行机器图谱的质量评测;
其中,所述机器元组集合包括:元素个数不同的两种或两种以上元组;所述标准元组集合包括:从所述测试数据集中确定的所有满足所述抽取规则的元组。
CN202010206421.5A 2020-03-23 2020-03-23 一种评测知识图谱的方法、装置、计算机存储介质及终端 Active CN111428050B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010206421.5A CN111428050B (zh) 2020-03-23 2020-03-23 一种评测知识图谱的方法、装置、计算机存储介质及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010206421.5A CN111428050B (zh) 2020-03-23 2020-03-23 一种评测知识图谱的方法、装置、计算机存储介质及终端

Publications (2)

Publication Number Publication Date
CN111428050A CN111428050A (zh) 2020-07-17
CN111428050B true CN111428050B (zh) 2023-06-02

Family

ID=71549659

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010206421.5A Active CN111428050B (zh) 2020-03-23 2020-03-23 一种评测知识图谱的方法、装置、计算机存储介质及终端

Country Status (1)

Country Link
CN (1) CN111428050B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018040067A1 (zh) * 2016-09-02 2018-03-08 浙江核新同花顺网络信息股份有限公司 用户指导系统及方法
CN107871158A (zh) * 2016-09-26 2018-04-03 清华大学 一种结合序列文本信息的知识图谱表示学习方法及装置
CN109657918A (zh) * 2018-11-19 2019-04-19 平安科技(深圳)有限公司 关联评估对象的风险预警方法、装置和计算机设备
CN109840282A (zh) * 2019-03-01 2019-06-04 东北大学 一种基于模糊理论的知识图谱优化方法
CN110069638A (zh) * 2019-03-12 2019-07-30 北京航空航天大学 一种结合规则和路径的知识图谱组合表示学习方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018040067A1 (zh) * 2016-09-02 2018-03-08 浙江核新同花顺网络信息股份有限公司 用户指导系统及方法
CN107871158A (zh) * 2016-09-26 2018-04-03 清华大学 一种结合序列文本信息的知识图谱表示学习方法及装置
CN109657918A (zh) * 2018-11-19 2019-04-19 平安科技(深圳)有限公司 关联评估对象的风险预警方法、装置和计算机设备
CN109840282A (zh) * 2019-03-01 2019-06-04 东北大学 一种基于模糊理论的知识图谱优化方法
CN110069638A (zh) * 2019-03-12 2019-07-30 北京航空航天大学 一种结合规则和路径的知识图谱组合表示学习方法

Also Published As

Publication number Publication date
CN111428050A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN106919957B (zh) 处理数据的方法及装置
CN110147493B (zh) 活跃因子的确定方法、装置、计算机设备及存储介质
CN108664605B (zh) 一种模型评估方法及系统
CN105787004A (zh) 一种文本分类方法及装置
CN114049016A (zh) 指标相似性判断方法、系统、终端设备及计算机存储介质
CN111428050B (zh) 一种评测知识图谱的方法、装置、计算机存储介质及终端
CN111325255B (zh) 特定人群圈定方法、装置、电子设备及存储介质
CN106874286B (zh) 一种筛选用户特征的方法及装置
CN111737555A (zh) 热点关键词的选取方法、设备和存储介质
CN109543712B (zh) 时态数据集上的实体识别方法
CN110852443A (zh) 特征稳定性检测方法、设备及计算机可读介质
CN113988878B (zh) 一种基于图数据库技术的反欺诈方法及系统
CN112241820A (zh) 资金流动中关键节点的风险识别方法、装置及计算设备
CN115694975A (zh) 一种网络安全态势评估方法、电子设备及存储介质
CN110955760A (zh) 判决结果的评价方法和相关装置
CN105824871B (zh) 一种图片检测方法与设备
CN111899092B (zh) 基于二道模型的业务数据筛选方法及装置
CN112632219B (zh) 一种垃圾短信的拦截方法和拦截装置
CN111881170B (zh) 时效性查询内容字段挖掘方法、装置、设备和存储介质
CN111651466B (zh) 数据采样方法及装置
CN115269677A (zh) 一种多维度数据分析方法、装置、设备及计算机程序产品
CN111737488B (zh) 基于领域实体提取和关联分析的信息溯源方法及装置
Rao et al. Designing of multiple dependent state repetitive sampling plan for type-II generalized half logistic distribution
CN114723516A (zh) 基于成单数据的用户相似度计算方法及系统
CN111507397A (zh) 一种异常数据的分析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant