CN111291192A - 知识图谱中三元组置信度计算方法和装置 - Google Patents

知识图谱中三元组置信度计算方法和装置 Download PDF

Info

Publication number
CN111291192A
CN111291192A CN202010041594.6A CN202010041594A CN111291192A CN 111291192 A CN111291192 A CN 111291192A CN 202010041594 A CN202010041594 A CN 202010041594A CN 111291192 A CN111291192 A CN 111291192A
Authority
CN
China
Prior art keywords
triple
target
determining
preset
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010041594.6A
Other languages
English (en)
Other versions
CN111291192B (zh
Inventor
李舰
李双婕
史亚冰
蒋烨
张扬
朱勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010041594.6A priority Critical patent/CN111291192B/zh
Publication of CN111291192A publication Critical patent/CN111291192A/zh
Application granted granted Critical
Publication of CN111291192B publication Critical patent/CN111291192B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了知识图谱中三元组置信度计算方法和装置,涉及人工智能领域,方法包括:根据知识图谱中待计算的目标三元组,确定待搜索的查询语句;获取与查询语句对应的各网页文本;根据第一主体、第一客体及第一关系,在每个网页文本中出现的顺序,确定目标三元组的各第一特征;利用预设的字符,替换每个网页文本中第一主体、第一客体及第一关系,以根据生成的字符串确定目标三元组的各第二特征;根据目标三元组的各第一特征及各第二个特征,分别与预设的模版空间中各规则模版间的相似度,确定目标三元组的置信度。该方法通过利用预设的模版空间的各规则模版,对三元组置信度进行多维度校验,以此挖掘高质量的三元组,既不受挖掘源限制也无需人工参与。

Description

知识图谱中三元组置信度计算方法和装置
技术领域
本申请涉及计算机技术领域,具体涉及人工智能领域,尤其涉及一种知识图谱中三元组置信度计算方法和装置。
背景技术
知识图谱中的三元组(包括主体、客体、主体与客体之间的关系)在实体问答、实体推荐等各应用场景中有着重要的作用。三元组的准确性直接影响各应用的准确性。目前,为了提高三元组的准确性,通常通过对挖掘源的质量进行控制,或者由人工对全量数据进行标注、挖掘的方法。
但是,由于高质量的挖掘源数量有限,因此限制挖掘源会直接影响知识图谱的覆盖率,而通过人工的方式进行标注、挖掘,标注成本高。
发明内容
本申请提出一种知识图谱中三元组置信度计算方法和装置,用于解决相关技术中,通过控制挖掘源的质量或者人工方式提高三元组的准确性的方法,存在知识图谱覆盖率低、人工标注成本高的问题。
本申请一方面实施例提出了一种知识图谱中三元组置信度计算方法,包括:
根据知识图谱中待计算的目标三元组,确定待搜索的查询语句,其中,目标三元组中包括第一主体、第一客体及第一关系;
获取与所述查询语句对应的各网页文本;
根据所述第一主体、第一客体及第一关系,在每个网页文本中出现的顺序,确定所述目标三元组的各第一特征;
利用预设的字符,替换每个网页文本中第一主体、第一客体及第一关系,以根据生成的字符串确定所述目标三元组的各第二特征;
根据所述目标三元组的各第一特征及各第二个特征,分别与预设的模版空间中各规则模版间的相似度,确定所述目标三元组的置信度。
本申请实施例的知识图谱中三元组置信度计算方法,通过首先根据知识图谱中待计算的目标三元组,确定待搜索的查询语句,其中,目标三元组中包括第一主体、第一客体及第一关系,然后获取与查询语句对应的各网页文本,之后根据第一主体、第一客体及第一关系,在每个网页文本中出现的顺序,确定目标三元组的各第一特征,利用预设的字符,替换每个网页文本中第一主体、第一客体及第一关系,以根据生成的字符串确定目标三元组的各第二特征,再根据目标三元组的各第一特征及各第二个特征,分别与预设的模版空间中各规则模版间的相似度,确定目标三元组的置信度。由此,通过根据网络搜索结果得到的特征,和根据预设的字符替换后生成的字符串得到特征,利用预设的模版空间的各规则模版,对知识图谱中三元组的置信度进行多维度校验,以此可挖掘高质量的三元组,不仅不受挖掘源的限制,提高了知识图谱的覆盖率,而且无需人工参与,降低了三元组的挖掘成本。
本申请另一方面实施例提出了一种知识图谱中三元组置信度计算装置,包括:
第一确定模块,用于根据知识图谱中待计算的目标三元组,确定待搜索的查询语句,其中,目标三元组中包括第一主体、第一客体及第一关系;
第一获取模块,用于获取与所述查询语句对应的各网页文本;
第二确定模块,永不根据所述第一主体、第一客体及第一关系,在每个网页文本中出现的顺序,确定所述目标三元组的各第一特征;
第三确定模块,用于利用预设的字符,替换每个网页文本中第一主体、第一客体及第一关系,以根据生成的字符串确定所述目标三元组的各第二特征;
第四确定模块,用于根据所述目标三元组的各第一特征及各第二个特征,分别与预设的模版空间中各规则模版间的相似度,确定所述目标三元组的置信度。
本申请实施例的知识图谱中三元组置信度计算装置,通过首先根据知识图谱中待计算的目标三元组,确定待搜索的查询语句,其中,目标三元组中包括第一主体、第一客体及第一关系,然后获取与查询语句对应的各网页文本,之后根据第一主体、第一客体及第一关系,在每个网页文本中出现的顺序,确定目标三元组的各第一特征,利用预设的字符,替换每个网页文本中第一主体、第一客体及第一关系,以根据生成的字符串确定目标三元组的各第二特征,再根据目标三元组的各第一特征及各第二个特征,分别与预设的模版空间中各规则模版间的相似度,确定目标三元组的置信度。由此,通过根据网络搜索结果得到的特征,和根据预设的字符替换后生成的字符串得到特征,利用预设的模版空间的各规则模版,对知识图谱中三元组的置信度进行多维度校验,以此可挖掘高质量的三元组,不仅不受挖掘源的限制,提高了知识图谱的覆盖率,而且无需人工参与,降低了三元组的挖掘成本。
本申请另一方面实施例提出了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述一方面实施例所述的知识图谱中三元组置信度计算方法。
本申请另一方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,其上存储有计算机程序,所述计算机指令用于使所述计算机执行上述一方面实施例所述的知识图谱中三元组置信度计算方法。
上述申请中的实施例具有如下有益效果:上述通过根据网络搜索结果得到的特征,和根据预设的字符替换后生成的字符串得到特征,利用预设的模版空间的各规则模版,对知识图谱中三元组的置信度进行多维度校验。因为采用根据网络搜索结果得到的特征,和根据预设的字符替换后生成的字符串得到特征,利用预设的模版空间的各规则模版,计算三元组置信度的技术手段,所以克服了相关技中通过控制挖掘源的质量或者人工方式提高三元组的准确性的方法,存在知识图谱覆盖率低、人工标注成本高的技术问题,进而达到提高了置信度的准确性,以此可挖掘高质量的三元组,不仅不受挖掘源的限制,提高了知识图谱的覆盖率,而且无需人工参与,降低了三元组的挖掘成本。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1为本申请实施例提供的一种知识图谱中三元组置信度计算方法的流程示意图;
图2为本申请实施例提供的另一种知识图谱中三元组置信度计算方法的流程示意图;
图3为本申请实施例提供的另一种知识图谱中三元组置信度计算方法的流程示意图;
图4为本申请实施例提供的另一种知识图谱中三元组置信度计算方法的流程示意图;
图5为本申请实施例提供的另一种知识图谱中三元组置信度计算方法的流程示意图;
图6为本申请实施例提供的另一种知识图谱中三元组置信度计算方法的流程示意图;
图7为本申请实施例提供的一种知识图谱中三元组置信度计算装置的结构示意图;
图8为根据本申请实施例的知识图谱中三元组置信度计算方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
下面参考附图描述本申请实施例的知识图谱中三元组置信度计算方法和装置。
本申请实施例,针对相关技术中,通过控制挖掘源的质量或者人工方式提高三元组的准确性的方法,存在知识图谱覆盖率低、人工标注成本高的问题,提出一种知识图谱中三元组置信度计算方法。
本申请实施例的知识图谱中三元组置信度计算方法,通过根据网络搜索结果得到的特征,和根据预设的字符替换后生成的字符串得到特征,利用预设的模版空间的各规则模版,对知识图谱中三元组的置信度进行多维度校验,以此可挖掘高质量的三元组,不仅不受挖掘源的限制,提高了知识图谱的覆盖率,而且无需人工参与,降低了三元组的挖掘成本。
图1为本申请实施例提供的一种知识图谱中三元组置信度计算方法的流程示意图。
本申请实施例的知识图谱中三元组置信度计算方法,可由本申请实施例提供的三元组置信度计算装置执行,该装置可配置于电子设备中,以实现根据网络搜索结果得到的特征,和根据预设的字符替换后生成的字符串得到的特征,确定知识图谱中目标三元组的置信度。
如图1所示,该知识图谱中三元组置信度计算方法包括:
步骤101,根据知识图谱中待计算的目标三元组,确定待搜索的查询语句,其中,目标三元组中包括第一主体、第一客体及第一关系。
三元组包括主体、客体和主体与客体之间的关系。为了便于描述,本实施例中,知识图谱中目标三元组包括第一主体、第一客体及第一关系,其中,第一关系表示第一主体与第一客体之间的关系。
在具体实现时,待计算的目标三元组可以为符合格式要求的三元组,比如为JSON格式的三元组。
本实施例中,可根据目标三元组,得到待搜索的查询语句。具体地,可以是将目标三元组包括的第一主体、第一客体及第一关系进行拼接,生成查询语句。在拼接时,可以是第一主体、第一客体及第一关系依次进行拼接,也可以是按照第一主体、第一关系和第一客体的关系进行拼接等等。
步骤102,获取与查询语句对应的各网页文本。
在根据目标三元组,确定待搜索的查询语句后,可在搜索引擎中输入查询语句进行搜索,从而获取与查询语句对应的各网页文本。
比如,查询语句为A的妻子B,那么通过搜索引擎可以获取与该查询语句相关的网页。
步骤103,根据第一主体、第一客体及第一关系,在每个网页文本中出现的顺序,确定目标三元组的各第一特征。
由于三元组中主体、客体以及主体与客体之间的关系,出现的顺序不同,对于语义的表达有较大的影响。
因此,本实施例中,可根据第一主体、第一客体及第一关系,在每个网页文本中出现的顺序,确定目标三元组的各第一特征。
具体地,可预先设定第一主体、第一客体及第一关系出现的顺序对应的特征值。针对与查询语句对应的每个网页文本,确定第一主体、第一客体及第一关系出现的顺序,根据出现的顺序,确定目标三元组的第一特征值,从而得到第一特征。
比如,顺序是第一主体、第一客体、第一关系时,第一特征值为1,出现顺序为第一主体、第一关系、第一客体时,第一特征值为2。需要说明的是,出现顺序对应的特征值大小仅是示例,不应当作为本申请实施例的限制。
基于上述方法,根据每个网页中第一主体、第一客体及第一关系出现顺序,可以得到目标三元组的第一特征,因此,得到的目标三元组的第一特征的数量,与查询语句对应的网页文本的数量相同。
步骤104,利用预设的字符,替换每个网页文本中第一主体、第一客体及第一关系,以根据生成的字符串确定目标三元组的各第二特征。
本实施例中,预设的字符可以是*、#等没有实际含义的任意字符。
具体地,可利用预设的字符,替换每个网页文本中句子中的第一主体、第一客体及第一关系,然后将第一主体、第一客体及第一关系被替换后得到的句子,映射生成向量,得到目标三元组的第二特征。可以理解的是,该句子也就是第一主体、第一客体及第一关系所在的句子。
基于上述方法,替换每个网页文本中第一主体、第一客体及第一关系,可以得到目标三元组的第二特征,因此,得到的目标三元组的第二特征的数量,与网页文本中三元组出现的次数相同。
步骤105,根据目标三元组的各第一特征及各第二个特征,分别与预设的模版空间中各规则模版间的相似度,确定目标三元组的置信度。
其中,各规则模板是指特征的集合,可用于对三元组进行多个纬度的校验。
本实施例中,在获取目标三元组的各第一特征和各第二特征后,可计算每个第一特征与每个规则模板之间的相似度,每个第二特征与每个规则模板之间的相似度,然后按照相似度从高到低的顺序,选取预设数量的相似度,之后根据预设数量的相似度,确定目标三元组的置信度。比如,计算预设数量的相似度的平均值,或者进行加权求和等,将计算结果作为目标三元组的置信度。
在计算相似度时,可计算第一特征对应的向量,与规则模板对应的向量之间的距离,将其作为第一特征与规则模板间的相似度。同样地,计算第二特征对应的向量,与规则模板对应的向量之间的距离,将其作为第二特征与规则模板间的相似度。当然也可以利用其他方式计算相似度。
本申请实施例的知识图谱中三元组置信度计算方法,通过根据网络搜索结果得到的特征,和根据预设的字符替换后生成的字符串得到特征,利用预设的模版空间的各规则模版,对知识图谱中三元组的置信度进行多维度校验,以此可挖掘高质量的三元组,不仅不受挖掘源的限制,提高了知识图谱的覆盖率,而且无需人工参与,降低了三元组的挖掘成本。
在实际应用中,上述两个特征可能不会覆盖到每个段落或者存在相似度比较的段落。为了解决该问题,在本申请的一个实施例中,还可根据目标三元组在各网页文本中出现的段落词性信息,确定目标三元组的特征,并将其与各第一特征和各第二特征,共同用于确定目标三元组的置信度。下面结合图2进行说明,图2为本申请实施例提供的另一种知识图谱中三元组置信度计算方法的流程示意图。
如图2所示,该知识图谱中三元组置信度计算方法包括:
步骤201,根据知识图谱中待计算的目标三元组,确定待搜索的查询语句,其中,目标三元组中包括第一主体、第一客体及第一关系。
步骤202,获取与查询语句对应的各网页文本。
步骤203,根据第一主体、第一客体及第一关系,在每个网页文本中出现的顺序,确定目标三元组的各第一特征。
步骤204,利用预设的字符,替换每个网页文本中第一主体、第一客体及第一关系,以根据生成的字符串确定目标三元组的各第二特征。
本实施例中,步骤201-步骤204与上述步骤101-步骤104类似,故在此不再赘述。
步骤205,对目标三元组在各网页文本中出现的段落进行词性分析,确定目标三元组对应的各第三特征。
本实施例中,对于出现目标三元组的每个网页文本,对目标三元组所在段落进行切分,得到各个分词,然后确定目标三元组所在段落包含的各分词的词性,根据各分词的词性,确定目标三元组对应的特征,称为第三特征。由此,对于各网页文本中出现目标三元组的段落,可以得到目标三元组的第三特征。
在根据分词的词性,确定目标三元组对应的特征时,可以是将各词性分别映射为词向量,然后根据各词向量得到第三特征对应的向量。比如将各词向量进行拼接,得到第三特征对应的向量。
本实施例中,通过对目标三元组在各网页文本中出现的段落进行词性分析,得到目标三元组的各第三特征,通过增加一个维度,避免出现第一特征和第二特征两个纬度不能覆盖或相似度较低的段落情况,使得目标三元组的特征更加精准。
步骤206,根据目标三元组的各第一特征、各第二个特征及各第三特征,分别与预设的模版空间中各规则模版间的相似度,确定目标三元组的置信度。
在确定目标三元组的各第一特征、各第二特征和各第三特征后,可计算每个第一特征与每个规则模板之间的相似度,每个第二特征与每个规则模板之间的相似度,以及每个第三特征与每个规则模板之间的相似度,然后按照相似度从高到低的顺序,选取预设数量的相似度,之后根据预设数量的相似度,确定目标三元组的置信度。比如,计算预设数量的相似度的平均值,或者进行加权求和等,将计算结果作为目标三元组的置信度。
本申请实施例的知识图谱中三元组置信度计算方法,在根据各第一特征和各第二特征确定目标三元组的置信度之前,还可对目标三元组在各网页文本中出现的段落进行词性分析,确定目标三元组对应的各第三特征,将各第三特征与各第一特征、各第二特征一同确定目标三元组的置信度,由此通过增加一个维度特征,不仅增加了校验维度,而且避免出现第一特征和第二特征两个纬度不能覆盖或相似度较低的段落情况,从而提高了置信度的准确率,以此可挖掘高质量的三元组,进一步提高了知识图谱的覆盖率。
在本申请的一个实施例中,在根据各第一特征和各第二特征,确定目标三元组的置信度时,还可通过如下方式实现。下面结合图3进行说明,图3为本申请实施例提供的另一种知识图谱中三元组置信度计算方法的流程示意图。
如图3所示,上述根据目标三元组的各第一特征及各第二个特征,分别与预设的模版空间中各规则模版间的相似度,确定目标三元组的置信度,包括:
步骤301,计算目标三元组的每个第一特征分别与预设的模版空间中各第一类规则模版的各第一相似度。
本实施例中,预设的模板空间中得到各规则模板可分为第一类规则模板、第二类规则模板等。其中,第一类规则模板与第一特征对应,第二类规则模板与第二特征对应。
为了减少计算量,本实施例中,在计算第一特征与各规则模板间的相似度时,可计算目标三元组的每个第一特征与分别与各第一类规则模板之间的相似度,称为第一相似度。具体的,可计算第一特征对应的向量,与第一类规则模板对应的向量之间的距离,将其作为两者之间的相似度,当然也可以通过其他方式计算相似度。
步骤302,计算目标三元组的每个第二特征分别与预设的模版空间中各第一二类规则模版的各第二相似度。
本实施例中,可计算目标三元组的每个第二特征与分别与各第二类规则模板之间的相似度,称为第二相似度。具体的,可计算第二特征对应的向量,与第二类规则模板对应的向量之间的距离,将其作为两者之间的相似度,当然也可以通过其他方式计算相似度。
步骤303,按照由高至低的顺序,从各第一相似度中抽取N个第一相似度、从各第二相似度中抽取N个第二相似度。
如果第一类规则模板和第二类规则模板的数量较多,那么得到的第一相似度和第二相似的数量也比较多,如果利用所有相似度计算置信度,计算量比较大。为了减少计算量,本实施例中,可从中抽取值较高的相似度,用于计算置信度。
具体地,在获取各第一相似度和各第二相似度后,可按照相似度由高到低的顺序,从各个第一相似度中抽取N个第一相似度,从各第二相似度中抽取N个第二相似度。其中,N为大于1的正整数。也就是说,从所有第一相似度中,抽取前N个值较高的第一相似度,从所有第二相似度中抽取前N个值较高的第二相似度。
为了保证在两个维度都进行校验,因此,抽取的第一相似度和第二相似度的数量相同。
步骤304,根据N个第一相似度的平均值、N个第二相似度的平均值及预设的权重值,确定目标三元组的置信度。
具体地,在抽取N个第一相似度,和抽取N个第二相似度后,计算N个第一相似度的平均值,以及N个第二相似度的平均值。然后,根据N个第一相似度的平均值、N个第二相似度的平均值及预设的权重值,可对N个第一相似度的平均值,与N个第二相似度的平均值的加权求和,将计算结果作为目标三元组的置信度。
其中,预设的权重值用于指示第一特征和第二特征两个维度的权重大小。比如,第一特征对应的权重为0.6,第二特征对应的权重为0.4,N个第一相似度的平均值为L1,N个第二相似度的平均值为L2,那么目标三元组的置信度为L1*0.6+L1*0.4。
本申请实施例中,在根据目标三元组的各第一特征及各第二个特征,分别与预设的模版空间中各规则模版间的相似度,确定目标三元组的置信度时,通过从各第一相似度中抽取N个第一相似,和从各第二相似度中抽取N个第二相似度,用于计算目标三元组的置信度,提高了计算速度。
可以理解的是,在根据目标三元组的各第一特征、各第二个特征及各第三特征,分别与预设的模版空间中各规则模版间的相似度,确定目标三元组的置信度时,可以采用类似的方式,计算标三元组的每个第二特征分别与预设的模版空间中各第三类规则模版的各第三相似度,按照由高至低的顺序,从各第一相似度中抽取N个第一相似度、从各第二相似度中抽取N个第二相似度、从各第三相似度中抽取N个第三相似度,之后根据N个第一相似度的平均值、N个第二相似度的平均值、N个第三相似度的平均值及预设的权重值,确定目标三元组的置信度。
为了提高置信度的准确率,在本申请的一个实施例中,可利用已知的高质量的三元组,构建预设的模板空间。下面结合图4进行说明,图4为本申请实施例提供的另一种知识图谱中三元组置信度计算方法的流程示意图。
如图4所示,在上述确定目标三元组的置信度之前,该方法还可包括:
步骤401,根据已有知识图谱中的每个参考三元组,生成对应的参考查询语句,其中,每个参考三元组中包括第二主体、第二客体及第二关系。
本实施例中,已有知识图谱包括大量的三元组,这里称为参考三元组。其中,每个参考三元组中包括第二主体、第二客体及第二关系。
具体地,对已有知识图谱中每个参考三元组中的第二主体、第二客体及第二关系进行拼接,生成对应的查询语句,称为参考查询语句。在拼接时,可以是第二主体、第二客体及第二关系依次进行拼接,也可以是按照第二主体、第二关系和第二客体的关系进行拼接等等。
步骤402,获取与每个参考查询语句对应的各参考网页文本。
在根据每个参考三元组获取对应的参考查询语句后,可在搜索引擎中输入参考查询语句进行搜索,从而获取与每个参考查询语句对应的各网页文本。
步骤403,根据每个参考三元组中的第二主体、第二客体及第二关系,在每个参考网页文本中出现的顺序,确定每个参考三元组的各第一类规则模版。
本实施例中,步骤403与上述步骤103类似中获取第一特征的方法类似。根据每个参考三元组中的第二主体、第二客体及第二关系,在每个参考网页文本中出现的顺序,可得到参考三元组的各特征,各特征即为各第一类规则模板。也就是说,每个规则模板其实是参考三元组的特征。
可以理解的是,各第一类规则模板与第一特征对应,可用于对目标三元组的第一特征进行校验。
步骤404,利用预设的字符,替换每个参考网页文本中第一主体、第一客体及第一关系,以根据生成的字符串确定每个参考三元组的各第二类规则模版。
本实施例中,步骤404与上述步骤104类似中获取第二特征的方法类似。利用预设的字符,替换每个参考网页文本中第一主体、第一客体及第一关系,可得到参考三元组的各特征,这里各特征即为各第二类规则模板。也就是说,每个规则模板其实是参考三元组的特征。
可以理解的是,各第二类规则模板与第二特征对应,可用于对目标三元组的第二特征进行校验。
步骤405,利用每个参考三元组的各第一类规则模版及各第二类规则模版,构建预设的模版空间。
本实施例中,在每个参考三元组的各第一类规则模版和各第二类规则模板后,每个参考三元组的各第一类规则模版及各第二类规则模版的集合,构成了预设的模板空间。
本申请实施例的知识图谱中三元组置信度计算方法,在确定目标三元组的置信度之前,通过利用已有知识图谱中的参考三元组,获取参考三元组在网页文本中出现顺序和利用预设的字符替换两个维度的特征,得到与两个维度对应的规则模板,利用规则模板构建得到预设的模板空间,由此,通过基于已知的高质量三元组构建用于挖掘的规则模版,以对待校验的三元组进行多维度校验,来挖掘新的高质量三元组,既不会受挖掘源的限制,又无需人工参与,不仅提高了知识图谱的覆盖率,而且降低了三元组的挖掘成本。
为了提高置信度的准确率,在本申请的一个实施例中,上述构建预设的模板空间后,还可进一步丰富预设的模板空间。
具体地,对每个参考三元组在对应的各参考网页文本中出现的段落进行词性分析,确定每个参考三元组对应的各第三类规则模版。这与上述步骤205确定目标三元组的各第三特征类似,通过对参考三元组出现在参考网页文本中出现的段落进行词性分析,得到的参考三元组的各特征,各特征即为各第三类规则模板。
在确定每个参考三元组对应的各第三类规则模版后,可将每个参考三元组对应的各第三类规则模版,添加到基于第一类规则模板和第二类规则模板构建的模板空间中,以实现对预设的模板空间进行更新。
可以理解的是,第三类规则模板与第三特征对应,可用于对目标三元组的第三特征进行校验。
本申请实施例中,在构建所述预设的模版空间之后,通过每个参考三元组在对应的各参考网页文本中出现的段落进行词性分析,确定每个参考三元组对应的各第三类规则模版,以用于更新预设的模板空间,由此,可以丰富预设的模板空间中的规则模板类型。并且,如果要进行其他维度的验证,可得到相应的规则模板,预设的模板空间具有良好的扩展性。
在实际应用中,构建的模板空间中规则模板可能效果并不理想,由此得到的目标三元组的置信度准确率较低。基于此,在上述构建预设的模版空间后,还可规则模板进行有效性验证。下面结合图5进行说明,图5为本申请实施例提供的另一种知识图谱中三元组置信度计算方法的流程示意图。
如图5所示,上述构建所述预设的模版空间之后,还可包括:
步骤501,利用预设的三元组样本,对预设的模版空间中各类规则模版进行校验,确定每个规则模版对正样本和负样本的区分性。
本实施例中,可利用多个三元组样本进行校验。具体地,获取三元组样本生成的查询语句,根据查询语句获取对应的网页文本,根据三元组样本中主体、客体和关系在各网页文本中出现顺序,确定三元组样本的各第一特征。
并利用预设的字符,替换各网页文本中三元组样本的主体、客体和关系,得到三元组样本的各第二特征。
然后,计算三元组样本的每个第一特征与各第一类规则模板间的相似度,确定每个第一类规则模板对应的相似度,并计算每个第一类规则模板对应的相似度的平均值,根据该平均值确定该第一类规则模板对正样本和负样本的区分性。具体地,可根据平均值是否小于第一阈值,或大于第二阈值,确定规则模板对正样本和负样本的区分性,若平均值小于第一阈值或大于第二阈值,说明确定规则模板能够区分正样本和负样本,否则,规则模板不能够区分正样本和负样本。
比如,置信度的范围为[-1,1],如果某规则模板对应的相似度的平均值小于-0.9,说明三元组样本为负样本,该规则模板能区分正样本和负样本。若相似度大于0.95,说明三元组为正样本,该规则模板能区分正样本和负样本。如相似度的平均值为0.6,说明该规则模板不能区分三元组样本为正样本还是负样本。
类似地,可利用三元组样本的第二特征,可确定每个第二类规则模板的对正样本和负正样本的区分性。
步骤502,根据每个规则模版对正样本和负样本的区分性,对预设的模版空间进行裁剪。
本实施例中,可根据每个规则模板对正样本和负样本的区分性,将预设的模版空间中不能区分正样本和负样本的规则模板筛除,保留能够区分正样本和负样本的规则模板,实现对预设的模板空间进行裁剪。
本申请实施例的知识图谱中三元组置信度计算方法,在构建预设的模版空间之后,通过利用预设的三元组样本,对预设的模版空间中各类规则模版进行校验,确定每个规则模版对正样本和负样本的区分性,并根据每个规则模版对正样本和负样本的区分性,对预设的模板空间进行裁剪,由此,通过对预设的模板空间中的各规则模板进行有效性验证,筛除不能有效区分正样本和负样本的规则模板,提高了预设的模板空间的质量,利用该预设的模板空间确定置信度,可以提高置信度的准确率,有利于挖掘高质量的三元组。
在本申请的一个实施例中,在利用预设的三元组样本,对预设的模版空间中各类规则模版进行校验,确定每个规则模版对正样本和负样本的区分性之前,可先得到三元组正样本和三元负样本,然后利用三元正样本和三元负样本对规则模板进行校验,以提高验证的准确性。下面结合图6进行说明,图6为本申请实施例提供的另一种知识图谱中三元组置信度计算方法的流程示意图。
如图6所示,上述利用预设的三元组样本,对预设的模版空间中各类规则模版进行校验,确定每个规则模版对正样本和负样本的区分性之前,还可包括:
步骤601,从预设的知识图谱中的每个关系数据集中进行随机采样,生成三元组正样本,其中,每个三元组正样本中包括第三主体、第三关系及第三客体约束条件。
本实施例中,关系数据集是指具有相同关系的主体-客体对。比如,预设的知识图谱中一共有100种关系,每种关系对应多个主体-客体对,那么每种关系对应主体-客体对集合为关系数据集,那么该知识图谱共有100个关系数据集。
由于每种关系对应的主体-客体对的数量可能不同,比如,有的关系对应的主体-客体对可能有上千个,而有的关系可能对应的主体-客体对只有一百个左右。为了保证对每个关系都进行采样,因此,对每个关系数据集进行随机采样,得到主体-客体对,结合关系数据集对应的关系,生成三元组正样本。
其中,每个三元组正样本中包括第三主体、第三关系及第三客体约束条件。其中,第三客体约束条件是指第三客体要满足的条件。
步骤602,根据每个三元组正样本第三主体和第三关系构成的查询语句,获取负样本候选集。
在确定三元组正样本后,基于三元组正样本得到负样本候选集。具体地,对每个三元组正样本包含的第三主体和第三关系进行拼接,得到查询语句。然后,根据查询语句在搜索引擎中进行搜索,获取该查询语句对应的搜索结果。
之后,从搜索结果中确定出实体,根据第三主体、第三关系以及确定的实体,生成负样本候选集。其中,负样本候选集中包含多对三元组。
步骤603,根据第三客体约束条件,从负样本候选集中抽取三元组负样本。
在获取负样本候选集后,根据第三客体约束条件,从负样本候选集中抽取满足第三约束条件的客体对应的三元组,作为三元组负样本。
在得到三元组正样本和三元组负样本后,可利用三元组正样本和三元组负样本,对预设的模版空间中各类规则模版进行校验,根据预测三元组样本为正样本或负样本,是否与三元组样本身的正样本属性或负样本属性一致,确定每个规则模版对正样本和负样本的区分性,进而对预设的模版空间进行裁剪。
比如,利用三元组正样本进行校验,若某规则模板预测该三元组为正样本,说明预测准确,该规则模板能够区分三元组为正样本还负样本,如果预测三元组为负样本,说明预测不准确,该规则模板不能区分三元组为正样本还负样本。
本申请实施例的知识图谱中三元组置信度计算方法,通过预设的知识图谱中每种关系数据集进行随机抽样,得到三元组正样本,然后基于三元组正样本得到三元组负样本,利用三元组正样本及三元组负样本,对预设的模版空间中各类规则模版进行校验,由此,对每种关系数据进行抽样,以及利用三元组正样本及三元组负样本进行校验,可以提高预设的模板空间的准确性。
为了实现上述实施例,本申请实施例还提出一种知识图谱中三元组置信度计算装置。图7为本申请实施例提供的一种知识图谱中三元组置信度计算装置的结构示意图。
如图7所示,该知识图谱中三元组置信度计算装置700包括:第一确定模块710、第一获取模块720、第二确定模块730、第三确定模块740和第四确定模块750。
第一确定模块710,用于根据知识图谱中待计算的目标三元组,确定待搜索的查询语句,其中,目标三元组中包括第一主体、第一客体及第一关系;
第一获取模块720,用于获取与查询语句对应的各网页文本;
第二确定模块730,永不根据第一主体、第一客体及第一关系,在每个网页文本中出现的顺序,确定目标三元组的各第一特征;
第三确定模块740,用于利用预设的字符,替换每个网页文本中第一主体、第一客体及第一关系,以根据生成的字符串确定目标三元组的各第二特征;
第四确定模块750,用于根据目标三元组的各第一特征及各第二个特征,分别与预设的模版空间中各规则模版间的相似度,确定目标三元组的置信度。
在本申请实施例一种可能的实现方式中,该装置还可包括:
第五确定模块,用于对目标三元组在各网页文本中出现的段落进行词性分析,确定目标三元组对应的各第三特征;
上述第四确定模块750,具体用于:
根据目标三元组的各第一特征、各第二个特征及各第三特征,分别与预设的模版空间中各规则模版间的相似度,确定目标三元组的置信度。
在本申请实施例一种可能的实现方式中,上述第一确定模块710,具体用于:
将第一主体、第一客体及第一关系进行拼接,生成查询语句。
在本申请实施例一种可能的实现方式中,上述第四确定模块750,具体用于:
计算目标三元组的每个第一特征分别与预设的模版空间中各第一类规则模版的各第一相似度;
计算目标三元组的每个第二特征分别与预设的模版空间中各第二类规则模版的各第二相似度;
按照由高至低的顺序,从各第一相似度中抽取N个第一相似度、从各第二相似度中抽取N个第二相似度,N为大于1的正整数;
根据N个第一相似度的平均值、N个第二相似度的平均值及预设的权重值,确定目标三元组的置信度。
在本申请实施例一种可能的实现方式中,该装置还可包括:
第一生成模块,用于根据已有知识图谱中的每个参考三元组,生成对应的参考查询语句,其中,每个参考三元组中包括第二主体、第二客体及第二关系;
第二获取模块,用于获取与每个参考查询语句对应的各参考网页文本;
第六确定模块,用于根据每个参考三元组中的第二主体、第二客体及第二关系,在每个参考网页文本中出现的顺序,确定每个参考三元组的各第一类规则模版;
第七确定模块,用于利用预设的字符,替换每个参考网页文本中第一主体、第一客体及第一关系,以根据生成的字符串确定每个参考三元组的各第二类规则模版;
构建模块,用于利用每个参考三元组的各第一类规则模版及各第二类规则模版,构建预设的模版空间。
在本申请实施例一种可能的实现方式中,该装置还可包括:
第八确定模块,用于对每个参考三元组在对应的各参考网页文本中出现的段落进行词性分析,确定每个参考三元组对应的各第三类规则模版;
更新模块,用于利用每个参考三元组对应的各第三类规则模版,对预设的模版空间进行更新。
在本申请实施例一种可能的实现方式中,该装置还可包括:
第九确定模块,用于利用预设的三元组样本,对预设的模版空间中各类规则模版进行校验,确定每个规则模版对正样本和负样本的区分性;
裁剪模块,用于根据每个规则模版对正样本和负样本的区分性,对预设的模版空间进行裁剪。
在本申请实施例一种可能的实现方式中,该装置还可包括:
第二生成模块,用于从预设的知识图谱中的每个关系数据集中进行随机采样,生成三元组正样本,其中,每个三元组正样本中包括第三主体、第三关系及第三客体约束条件;
第三获取模块,用于根据每个三元组正样本第三主体和第三关系构成的查询语句,获取负样本候选集;
抽取模块,用于根据第三客体约束条件,从负样本候选集中抽取三元组负样本。
需要说明的是,前述知识图谱中三元组置信度计算方法实施例的解释说明,也适用于该实施例的知识图谱中三元组置信度计算装置,故在此不再赘述。
本申请实施例的知识图谱中三元组置信度计算装置,通过首先根据待计算的目标三元组,确定待搜索的查询语句,其中,目标三元组中包括第一主体、第一客体及第一关系,然后获取与查询语句对应的各网页文本,之后根据第一主体、第一客体及第一关系,在每个网页文本中出现的顺序,确定目标三元组的各第一特征,利用预设的字符,替换每个网页文本中第一主体、第一客体及第一关系,以根据生成的字符串确定目标三元组的各第二特征,再根据目标三元组的各第一特征及各第二个特征,分别与预设的模版空间中各规则模版间的相似度,确定目标三元组的置信度。由此,通过根据网络搜索结果得到的特征,和根据预设的字符替换后生成的字符串得到特征,利用预设的模版空间的各规则模版,对知识图谱中三元组的置信度进行多维度校验,以此可挖掘高质量的三元组,不仅不受挖掘源的限制,提高了知识图谱的覆盖率,而且无需人工参与,降低了三元组的挖掘成本。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图8所示,是根据本申请实施例的知识图谱中三元组置信度计算方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图8所示,该电子设备包括:一个或多个处理器801、存储器802,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GU I的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。
存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的知识图谱中三元组置信度计算方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的知识图谱中三元组置信度计算方法。
存储器802作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的知识图谱中三元组置信度计算方法对应的程序指令/模块(例如,附图7所示的第一确定模块710、第一获取模块720、第二确定模块730、第三确定模块740和第四确定模块750。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的知识图谱中三元组置信度计算方法。
存储器802可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据知识图谱中三元组置信度计算电子设备的使用所创建的数据等。此外,存储器802可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器802可选包括相对于处理器801远程设置的存储器,这些远程存储器可以通过网络连接至知识图谱中三元组置信度计算方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
知识图谱中三元组置信度计算方法的电子设备还可以包括:输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接,图8中以通过总线连接为例。
输入装置803可接收输入的数字或字符信息,以及产生与知识图谱中三元组置信度计算方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用AS I C(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,通过根据网络搜索结果得到的特征,和根据预设的字符替换后生成的字符串得到特征,利用预设的模版空间的各规则模版,对知识图谱中三元组的置信度进行多维度校验,以此可挖掘高质量的三元组,不仅不受挖掘源的限制,提高了知识图谱的覆盖率,而且无需人工参与,降低了三元组的挖掘成本。
在本说明书的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (18)

1.一种知识图谱中三元组置信度计算方法,其特征在于,包括:
根据知识图谱中待计算的目标三元组,确定待搜索的查询语句,其中,目标三元组中包括第一主体、第一客体及第一关系;
获取与所述查询语句对应的各网页文本;
根据所述第一主体、第一客体及第一关系,在每个网页文本中出现的顺序,确定所述目标三元组的各第一特征;
利用预设的字符,替换每个网页文本中第一主体、第一客体及第一关系,以根据生成的字符串确定所述目标三元组的各第二特征;
根据所述目标三元组的各第一特征及各第二个特征,分别与预设的模版空间中各规则模版间的相似度,确定所述目标三元组的置信度。
2.如权利要求1所述的方法,其特征在于,所述确定所述目标三元组的置信度之前,还包括:
对所述目标三元组在各网页文本中出现的段落进行词性分析,确定所述目标三元组对应的各第三特征;
确定所述目标三元组的置信度,包括:
根据所述目标三元组的各第一特征、各第二个特征及各第三特征,分别与预设的模版空间中各规则模版间的相似度,确定所述目标三元组的置信度。
3.如权利要求1所述的方法,其特征在于,所述根据知识图谱中待计算的目标三元组,确定待搜索的查询语句,包括:
将所述第一主体、第一客体及第一关系进行拼接,生成所述查询语句。
4.如权利要求1所述的方法,其特征在于,所述确定所述目标三元组的置信度,包括:
计算所述目标三元组的每个第一特征分别与预设的模版空间中各第一类规则模版的各第一相似度;
计算所述目标三元组的每个第二特征分别与预设的模版空间中各第二类规则模版的各第二相似度;
按照由高至低的顺序,从所述各第一相似度中抽取N个第一相似度、从所述各第二相似度中抽取N个第二相似度,N为大于1的正整数;
根据所述N个第一相似度的平均值、所述N个第二相似度的平均值及预设的权重值,确定所述目标三元组的置信度。
5.如权利要求1-4任一所述的方法,其特征在于,所述确定所述目标三元组的置信度之前,还包括:
根据已有知识图谱中的每个参考三元组,生成对应的参考查询语句,其中,每个参考三元组中包括第二主体、第二客体及第二关系;
获取与每个参考查询语句对应的各参考网页文本;
根据每个参考三元组中的第二主体、第二客体及第二关系,在每个参考网页文本中出现的顺序,确定每个参考三元组的各第一类规则模版;
利用预设的字符,替换每个参考网页文本中第一主体、第一客体及第一关系,以根据生成的字符串确定每个参考三元组的各第二类规则模版;
利用每个参考三元组的各第一类规则模版及各第二类规则模版,构建所述预设的模版空间。
6.如权利要求5所述的方法,其特征在于,所述构建所述预设的模版空间之后,还包括:
对每个参考三元组在对应的各参考网页文本中出现的段落进行词性分析,确定每个参考三元组对应的各第三类规则模版;
利用每个参考三元组对应的各第三类规则模版,对所述预设的模版空间进行更新。
7.如权利要求5所述的方法,其特征在于,所述构建所述预设的模版空间之后,还包括:
利用预设的三元组样本,对所述预设的模版空间中各类规则模版进行校验,确定每个规则模版对正样本和负样本的区分性;
根据每个规则模版对正样本和负样本的区分性,对所述预设的模版空间进行裁剪。
8.如权利要求7所述的方法,其特征在于,所述利用预设的三元组样本,对所述预设的模版空间中各类规则模版进行校验之前,还包括:
从所述预设的知识图谱中的每个关系数据集中进行随机采样,生成三元组正样本,其中,每个三元组正样本中包括第三主体、第三关系及第三客体约束条件;
根据每个三元组正样本第三主体和第三关系构成的查询语句,获取负样本候选集;
根据所述第三客体约束条件,从所述负样本候选集中抽取三元组负样本。
9.一种知识图谱中三元组置信度计算装置,其特征在于,包括:
第一确定模块,用于根据知识图谱中待计算的目标三元组,确定待搜索的查询语句,其中,目标三元组中包括第一主体、第一客体及第一关系;
第一获取模块,用于获取与所述查询语句对应的各网页文本;
第二确定模块,永不根据所述第一主体、第一客体及第一关系,在每个网页文本中出现的顺序,确定所述目标三元组的各第一特征;
第三确定模块,用于利用预设的字符,替换每个网页文本中第一主体、第一客体及第一关系,以根据生成的字符串确定所述目标三元组的各第二特征;
第四确定模块,用于根据所述目标三元组的各第一特征及各第二个特征,分别与预设的模版空间中各规则模版间的相似度,确定所述目标三元组的置信度。
10.如权利要求9所述的装置,其特征在于,还包括:
第五确定模块,用于对所述目标三元组在各网页文本中出现的段落进行词性分析,确定所述目标三元组对应的各第三特征;
所述第四确定模块,具体用于:
根据所述目标三元组的各第一特征、各第二个特征及各第三特征,分别与预设的模版空间中各规则模版间的相似度,确定所述目标三元组的置信度。
11.如权利要求9所述的装置,其特征在于,所述第一确定模块,具体用于:
将所述第一主体、第一客体及第一关系进行拼接,生成所述查询语句。
12.如权利要求9所述的装置,其特征在于,所述第四确定模块,具体用于:
计算所述目标三元组的每个第一特征分别与预设的模版空间中各第一类规则模版的各第一相似度;
计算所述目标三元组的每个第二特征分别与预设的模版空间中各第二类规则模版的各第二相似度;
按照由高至低的顺序,从所述各第一相似度中抽取N个第一相似度、从所述各第二相似度中抽取N个第二相似度,N为大于1的正整数;
根据所述N个第一相似度的平均值、所述N个第二相似度的平均值及预设的权重值,确定所述目标三元组的置信度。
13.如权利要求9-12任一所述的装置,其特征在于,还包括:
第一生成模块,用于根据已有知识图谱中的每个参考三元组,生成对应的参考查询语句,其中,每个参考三元组中包括第二主体、第二客体及第二关系;
第二获取模块,用于获取与每个参考查询语句对应的各参考网页文本;
第六确定模块,用于根据每个参考三元组中的第二主体、第二客体及第二关系,在每个参考网页文本中出现的顺序,确定每个参考三元组的各第一类规则模版;
第七确定模块,用于利用预设的字符,替换每个参考网页文本中第一主体、第一客体及第一关系,以根据生成的字符串确定每个参考三元组的各第二类规则模版;
构建模块,用于利用每个参考三元组的各第一类规则模版及各第二类规则模版,构建所述预设的模版空间。
14.如权利要求13所述的装置,其特征在于,还包括:
第八确定模块,用于对每个参考三元组在对应的各参考网页文本中出现的段落进行词性分析,确定每个参考三元组对应的各第三类规则模版;
更新模块,用于利用每个参考三元组对应的各第三类规则模版,对所述预设的模版空间进行更新。
15.如权利要求13所述的装置,其特征在于,还包括:
第九确定模块,用于利用预设的三元组样本,对所述预设的模版空间中各类规则模版进行校验,确定每个规则模版对正样本和负样本的区分性;
裁剪模块,用于根据每个规则模版对正样本和负样本的区分性,对所述预设的模版空间进行裁剪。
16.如权利要求15所述的装置,其特征在于,还包括:
第二生成模块,用于从所述预设的知识图谱中的每个关系数据集中进行随机采样,生成三元组正样本,其中,每个三元组正样本中包括第三主体、第三关系及第三客体约束条件;
第三获取模块,用于根据每个三元组正样本第三主体和第三关系构成的查询语句,获取负样本候选集;
抽取模块,用于根据所述第三客体约束条件,从所述负样本候选集中抽取三元组负样本。
17.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的知识图谱中三元组置信度计算方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的知识图谱中三元组置信度计算方法。
CN202010041594.6A 2020-01-15 2020-01-15 知识图谱中三元组置信度计算方法和装置 Active CN111291192B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010041594.6A CN111291192B (zh) 2020-01-15 2020-01-15 知识图谱中三元组置信度计算方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010041594.6A CN111291192B (zh) 2020-01-15 2020-01-15 知识图谱中三元组置信度计算方法和装置

Publications (2)

Publication Number Publication Date
CN111291192A true CN111291192A (zh) 2020-06-16
CN111291192B CN111291192B (zh) 2023-08-25

Family

ID=71026570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010041594.6A Active CN111291192B (zh) 2020-01-15 2020-01-15 知识图谱中三元组置信度计算方法和装置

Country Status (1)

Country Link
CN (1) CN111291192B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967601A (zh) * 2020-06-30 2020-11-20 北京百度网讯科技有限公司 事件关系的生成方法、事件关系规则的生成方法和装置
CN113127648A (zh) * 2021-04-25 2021-07-16 北京百度网讯科技有限公司 数据验证方法和装置、电子设备、计算机可读介质
CN117520483A (zh) * 2024-01-04 2024-02-06 北京奇虎科技有限公司 基于大模型的信息校验方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180082183A1 (en) * 2011-02-22 2018-03-22 Thomson Reuters Global Resources Machine learning-based relationship association and related discovery and search engines
CN108021595A (zh) * 2016-10-28 2018-05-11 北大方正集团有限公司 检验知识库三元组的方法及装置
CN108804521A (zh) * 2018-04-27 2018-11-13 南京柯基数据科技有限公司 一种基于知识图谱的问答方法及农业百科问答系统
US20190122111A1 (en) * 2017-10-24 2019-04-25 Nec Laboratories America, Inc. Adaptive Convolutional Neural Knowledge Graph Learning System Leveraging Entity Descriptions
US20190213260A1 (en) * 2018-01-10 2019-07-11 International Business Machines Corporation Machine Learning Modification and Natural Language Processing
WO2019160096A1 (ja) * 2018-02-16 2019-08-22 日本電信電話株式会社 関係性推定モデル学習装置、方法、及びプログラム
CN110569335A (zh) * 2018-03-23 2019-12-13 百度在线网络技术(北京)有限公司 基于人工智能的三元组校验方法、装置及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180082183A1 (en) * 2011-02-22 2018-03-22 Thomson Reuters Global Resources Machine learning-based relationship association and related discovery and search engines
CN108021595A (zh) * 2016-10-28 2018-05-11 北大方正集团有限公司 检验知识库三元组的方法及装置
US20190122111A1 (en) * 2017-10-24 2019-04-25 Nec Laboratories America, Inc. Adaptive Convolutional Neural Knowledge Graph Learning System Leveraging Entity Descriptions
US20190213260A1 (en) * 2018-01-10 2019-07-11 International Business Machines Corporation Machine Learning Modification and Natural Language Processing
WO2019160096A1 (ja) * 2018-02-16 2019-08-22 日本電信電話株式会社 関係性推定モデル学習装置、方法、及びプログラム
CN110569335A (zh) * 2018-03-23 2019-12-13 百度在线网络技术(北京)有限公司 基于人工智能的三元组校验方法、装置及存储介质
CN108804521A (zh) * 2018-04-27 2018-11-13 南京柯基数据科技有限公司 一种基于知识图谱的问答方法及农业百科问答系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙僖: "垂直领域知识图谱构建的关键技术研究" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967601A (zh) * 2020-06-30 2020-11-20 北京百度网讯科技有限公司 事件关系的生成方法、事件关系规则的生成方法和装置
CN111967601B (zh) * 2020-06-30 2024-02-20 北京百度网讯科技有限公司 事件关系的生成方法、事件关系规则的生成方法和装置
CN113127648A (zh) * 2021-04-25 2021-07-16 北京百度网讯科技有限公司 数据验证方法和装置、电子设备、计算机可读介质
CN117520483A (zh) * 2024-01-04 2024-02-06 北京奇虎科技有限公司 基于大模型的信息校验方法及装置

Also Published As

Publication number Publication date
CN111291192B (zh) 2023-08-25

Similar Documents

Publication Publication Date Title
KR102532396B1 (ko) 데이터 세트 처리 방법, 장치, 전자 기기 및 저장 매체
CN111460083B (zh) 文档标题树的构建方法、装置、电子设备及存储介质
CN111783451A (zh) 用于增强文本样本的方法和装置
CN111967262A (zh) 实体标签的确定方法和装置
CN111753914A (zh) 模型优化方法和装置、电子设备及存储介质
CN111274407B (zh) 知识图谱中三元组置信度计算方法和装置
CN111291192B (zh) 知识图谱中三元组置信度计算方法和装置
CN111339759A (zh) 领域要素识别模型训练方法、装置及电子设备
US20220129448A1 (en) Intelligent dialogue method and apparatus, and storage medium
CN112163405A (zh) 问题的生成方法和装置
US20210209482A1 (en) Method and apparatus for verifying accuracy of judgment result, electronic device and medium
CN112528001A (zh) 一种信息查询方法、装置及电子设备
CN111831814A (zh) 摘要生成模型的预训练方法、装置、电子设备和存储介质
CN113836925A (zh) 预训练语言模型的训练方法、装置、电子设备及存储介质
CN111090991A (zh) 场景纠错方法、装置、电子设备和存储介质
CN111079945A (zh) 端到端模型的训练方法及装置
CN112380847A (zh) 兴趣点处理方法、装置、电子设备及存储介质
CN112380855A (zh) 确定语句通顺度的方法、确定概率预测模型的方法和装置
CN112084150A (zh) 模型训练、数据检索方法,装置,设备以及存储介质
CN111753029A (zh) 实体关系抽取方法、装置
US20210216710A1 (en) Method and apparatus for performing word segmentation on text, device, and medium
CN111310481B (zh) 语音翻译方法、装置、计算机设备和存储介质
JP7242797B2 (ja) 語句処理方法、機器及び記憶媒体
CN113204613B (zh) 地址生成方法、装置、设备和存储介质
CN112329453B (zh) 样本章节的生成方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant