CN114511085A - 实体属性值的识别方法、装置、设备、介质及程序产品 - Google Patents
实体属性值的识别方法、装置、设备、介质及程序产品 Download PDFInfo
- Publication number
- CN114511085A CN114511085A CN202210411595.4A CN202210411595A CN114511085A CN 114511085 A CN114511085 A CN 114511085A CN 202210411595 A CN202210411595 A CN 202210411595A CN 114511085 A CN114511085 A CN 114511085A
- Authority
- CN
- China
- Prior art keywords
- sample
- entity
- weight
- triples
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/027—Frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种实体属性值的识别方法、装置、设备、介质及程序产品;可以应用于人工智能领域的游戏技术;方法包括:获取第一知识图谱;基于每个三元组的权重,确定每个实体属性分别在所对应的多个来源上的权重,接着确定每个实体属性所对应的多个来源的来源优先级排序;获取多个待识别三元组;从每个实体属性所对应的多个来源的来源优先级排序中,获取待识别实体属性对应的不同来源的来源优先级排序;基于待识别实体属性对应的不同来源的来源优先级排序,确定待识别实体属性的每个属性值的最高优先级来源,并将出自最高优先级来源的属性值,确定为待识别实体属性的目标属性值。通过本申请能够准确识别出待识别实体属性的属性值。
Description
技术领域
本申请涉及人工智能技术,尤其涉及一种实体属性值的识别方法、装置、设备、介质及程序产品。
背景技术
人工智能(Artificial Intelligence,AI)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
随着人工智能的飞速发展,知识图谱(Knowledge Graph,KG)以其强大的数据描述能力,受到了广泛关注。为了构建准确的知识图谱,需要准确确定出实体的每个实体属性对应的属性值。
相关技术中,通常是基于人工设定的实体属性对应的来源优先级顺序,从实体属性的多个候选属性值中确定出目标属性值。然而,用于构建知识图谱的实体属性和属性值的来源数量巨大,相关技术缺乏节约计算资源且准确的识别方案。
发明内容
本申请实施例提供一种实体属性值的识别方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够准确识别出待识别实体属性的属性值。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种实体属性值的识别方法,包括:
获取第一知识图谱;其中,所述第一知识图谱包括多个三元组以及对应的权重,每个所述三元组包括实体、实体属性和属性值;
基于每个所述三元组的权重,确定每个所述实体属性分别在所对应的多个来源上的权重;其中,每个所述实体属性所对应的多个来源是所述实体属性的不同所述属性值的来源;
基于每个所述实体属性在所对应的多个来源上的权重,确定每个所述实体属性所对应的多个来源的来源优先级排序;
获取多个待识别三元组;其中,所述多个待识别三元组包括相同的待识别实体和待识别实体属性,且包括对应不同来源的属性值;
从每个所述实体属性所对应的多个来源的来源优先级排序中,获取所述待识别实体属性对应的不同来源的来源优先级排序;
基于所述待识别实体属性对应的不同来源的来源优先级排序,确定所述待识别实体属性的每个所述属性值的最高优先级来源,并将出自所述最高优先级来源的所述属性值,确定为所述待识别实体属性的目标属性值。
本申请实施例提供一种实体属性值的识别装置,包括:
第一获取模块,用于获取第一知识图谱;其中,所述第一知识图谱包括多个三元组以及对应的权重,每个所述三元组包括实体、实体属性和属性值;
第一确定模块,用于基于每个所述三元组的权重,确定每个所述实体属性分别在所对应的多个来源上的权重;其中,每个所述实体属性所对应的多个来源是所述实体属性的不同所述属性值的来源;
第二确定模块,用于基于每个所述实体属性在所对应的多个来源上的权重,确定每个所述实体属性所对应的多个来源的来源优先级排序;
第二获取模块,用于获取多个待识别三元组;其中,所述多个待识别三元组包括相同的待识别实体和待识别实体属性,且包括对应不同来源的属性值;
第三获取模块,用于从每个所述实体属性所对应的多个来源的来源优先级排序中,获取所述待识别实体属性对应的不同来源的来源优先级排序;
第三确定模块,用于基于所述待识别实体属性对应的不同来源的来源优先级排序,确定所述待识别实体属性的每个所述属性值的最高优先级来源,并将出自所述最高优先级来源的所述属性值,确定为所述待识别实体属性的目标属性值。
本申请实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的实体属性值的识别方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于被处理器执行时,实现本申请实施例提供的实体属性值的识别方法。
本申请实施例提供一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行本申请实施例上述的实体属性值的识别方法。
本申请实施例具有以下有益效果:
基于第一知识图谱挖掘出实体属性在不同来源上的权重,由于实体属性在不同来源上的权重能够准确反映出出自不同来源的属性值的可靠性,因此,通过基于实体属性在不同来源上的权重确定出的来源优先级排序,可以准确筛选来自可靠来源的属性值,与相关技术基于经验规则来筛选属性值的方案相比,能够准确衡量出自不同来源的属性值的可靠性,避免规则带来的主观判断的影响,从而使得识别出的属性值的准确性更高;同时,利用第一知识图谱是基于三元组实现的这一易于进行数据计算的特点,显著节约了在识别属性值过程中的计算量,节约了计算资源。
附图说明
图1是本申请实施例提供的实体属性值的识别系统100的架构示意图;
图2是本申请实施例提供的服务器200的结构示意图;
图3A是本申请实施例提供的实体属性值的识别方法中步骤101-106的流程示意图;
图3B是本申请实施例提供的实体属性值的识别方法中步骤1011-1015的流程示意图;
图3C是本申请实施例提供的实体属性值的识别方法中步骤10131-10132的流程示意图;
图3D是本申请实施例提供的实体属性值的识别方法中步骤10151-10152的流程示意图;
图3E是本申请实施例提供的实体属性值的识别方法中步骤1021-1023和步骤1031-1032的流程示意图;
图3F是本申请实施例提供的实体属性值的识别方法中步骤107-111的流程示意图;
图4A是本申请实施例提供的第二知识图谱的结构示意图;
图4B是本申请实施例提供的第一传播图的结构示意图;
图5是本申请实施例提供的实体属性值的识别方法中步骤501-507的流程示意图;
图6是本申请实施例提供的从游戏网站中获取样本三元组的示意图;
图7是本申请实施例提供的第二知识图谱的原理示意图;
图8是本申请实施例提供的第一传播图的原理示意图;
图9是本申请实施例提供的实体信息展示页面的示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
可以理解的是,在本申请实施例中,涉及到用户信息等相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)实体:指现实世界中客观存在的并可以相互区分的对象或事物。
2)游戏实体:指某个游戏对象。
3)实体属性:指对实体的某个维度的刻画,例如游戏实体的开发商、发行时间等维度。
4)属性值:指实体对象在实体属性上的确切取值,例如游戏实体A的开发商是a公司。
5)三元组:指形如(h,r,t)的结构,其中,h表示实体,r表示实体属性,t表示属性值。例如(游戏实体A,开发商,a公司)表示一个三元组,表示游戏实体A的开发商是a公司。
6)来源:指属性值的不同来源。
7)实体对齐:是指对于异构数据源知识库中的各个实体,找出属于现实世界中的同一实体。常见的实体对齐方式包括实体消歧和共指消歧,其中,实体消歧表示从实体具有的多个语义中识别出正确的语义;共指消歧表示准确确定出指代词对应的实体。
8)标签传播算法:主要原理为使用已标记节点的标签信息预测未标记节点的标签信息。利用样本数据间的关系建立关系完全图模型,在图中,节点包括已标注节点和未标注节点,其边表示两个节点之间的权重,将节点的标签信息按边的权重传递给其他节点。在本申请实施例中,节点的标签信息表示节点的权重。标签数据就像是一个源头,可以对无标签数据进行标注。
9)权重,即置信度:表示指标的相对重要程度,在本申请实施例中,三元组的权重可以认为是三元组成立的可靠程度。
10)知识图谱,也称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
本申请实施例提供一种实体属性值的识别方法、装置、电子设备、计算机可读存储介质以及计算机程序产品,能够提高确定出的待识别实体属性的属性值的准确率。下面说明本申请实施例提供的用于进行实体属性值的确定的电子设备的示例性应用,本申请实施例提供的进行实体属性值的确定的电子设备可以实施为笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备),游戏机,车载终端,车载游戏机等各种类型的用户终端,也可以实施为服务器。下面,将说明电子设备实施为服务器时的示例性应用。
本申请实施例提供的实体属性值的识别方法可以由终端和服务器协同完成,也可以由终端或服务器独立完成。参见图1,图1是本申请实施例提供的实体属性值的识别系统100的架构示意图,包括服务器200、终端400。终端400通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。
作为本申请应用于应用展示以支持相关人员查找的场景的示例,开发人员通过操作终端400的人机交互界面确定出游戏实体对应的多个待识别三元组,终端400将多个待识别三元组通过网络300发送给服务器200。服务器200根据终端400发送的多个待识别三元组,从每个实体属性对应的来源优先级排序中,确定出待识别三元组中的待识别实体属性对应的来源优先级排序,并根据待识别实体属性对应的来源优先级排序,确定待识别实体属性的每个属性值的最高优先级来源,并将出自最高优先级来源的属性值确定为目标属性值,并向终端400返回包括目标属性值的目标三元组。终端400接收到服务器200返回的游戏实体的目标三元组之后,可以在人机交互界面展示游戏实体的准确的详细信息,例如展示游戏的发行时间、开发商、发行商、游戏类别等信息,以供开发人员查询。
作为本申请应用于智能推荐场景的示例,开发人员通过操作终端400的人机交互界面确定出多个待识别三元组,终端400将多个待识别三元组通过网络300发送给服务器200。服务器200根据终端400发送的多个待识别三元组,从每个实体属性对应的来源优先级排序中,确定出待识别三元组中的待识别实体属性对应的来源优先级排序,并根据待识别实体属性对应的来源优先级排序,确定待识别实体属性的每个属性值的最高优先级来源,并将出自最高优先级来源的属性值确定为目标属性值,并将包括目标属性值的待识别三元组确定为目标三元组,在通过同样的方式确定出多个目标三元组之后,服务器200根据多个目标三元组构建知识图谱,并通过知识图谱的特征表示学习技术,将目标三元组中的目标实体表示为实体特征向量,然后在推荐系统中基于实体特征向量进行学习,学习到更新后的对象特征向量和实体特征向量,从而基于更新后的对象特征向量和实体特征向量确定对应的推荐信息。例如在目标实体为游戏实体的情况下,在推荐系统中基于游戏实体特征向量进行学习,并基于更新后的对象特征向量和游戏实体特征向量,确定出向用户推荐的游戏信息,并将确定出的游戏推荐信息发送给终端400,终端400在接收到游戏推荐信息后,在对应的游戏场景中向用户推送游戏推荐信息。
作为本申请应用于新闻客户端聚合新闻摘要场景的示例,开发人员通过操作终端400的人机交互界面(例如,新闻客户端界面)选择新闻素材,终端400将新闻素材通过网络300发送给服务器200。服务器200根据终端400发送的新闻素材,首先从新闻素材中提取出多组待识别三元组,接着从每个实体属性对应的来源优先级排序中,确定出每组待识别三元组中的待识别实体属性对应的来源优先级排序,并根据待识别实体属性对应的来源优先级排序,确定待识别实体属性的每个属性值的最高优先级来源,并将出自最高优先级来源的属性值确定为目标属性值,并确定出包括目标属性值的待识别三元组为目标三元组,目标三元组为对应的新闻素材的新闻摘要,在确定出多个目标三元组之后,服务器200将多个目标三元组发送给终端400,终端400接收到服务器200返回的多个目标三元组之后,可以在人机交互界面生成当前的新闻素材的新闻摘要。
作为本申请应用于智能问答场景的示例,开发人员通过操作终端400的人机交互界面获取特定领域(例如医学领域)的多个文本,终端400将多个文本通过网络300发送给服务器200。服务器200根据终端400发送的多个文本,从多个文本中提取出多组待识别三元组,接着从每个实体属性对应的来源优先级排序中,确定出每组待识别三元组中的待识别实体属性对应的来源优先级排序,并根据待识别实体属性对应的来源优先级排序,确定待识别实体属性的每个属性值的最高优先级来源,并将出自最高优先级来源的属性值确定为目标属性值,并将包括目标属性值的待识别三元组确定为目标三元组,在通过同样的方式确定出多个目标三元组之后,服务器200根据多个目标三元组构建特定领域的知识图谱。在构建出特定领域的知识图谱之后,用户通过操作终端的400的人机交互界面(例如智能问答客户端界面)输入问题文本,终端400将用户输入的问题文本发送给服务器,服务器200从问题文本中提取出待识别实体和待识别实体属性,并从已经构建的特定领域的知识图谱中,查询到与待识别实体和待识别实体属性对应的属性值,服务器200基于查询到的属性值生成问题答复信息,并发送给终端400,终端400接收到问题答复信息后,在人机交互界面展示问题答复信息。例如,用户通过操作终端400的医学智能问答客户端界面,输入问题文本“颈椎病的常见的治疗方式有哪些”,终端400将这一条问题文本发送给服务器200,服务器200从中提取出待识别实体为颈椎病,待识别实体属性为治疗方式,然后服务器200从已构建的医学领域的知识图谱中获取到(颈椎病,治疗方式,物理疗法运动疗法药物疗法)这样一个三元组,并基于这个三元组对应的属性值“物理疗法运动疗法药物疗法”,生成问题答复信息“颈椎病的常见的治疗方式包括物理疗法、运动疗法和药物疗法”,并将这一问题答复信息发送给终端400,以供终端400在医学智能问答客户端界面展示这条问题答复信息。
在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、游戏机、车载终端、车载游戏机等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
下面,参见图2,图2是本申请实施例提供的服务器200的结构示意图,图2所示的服务器200包括:至少一个处理器210、存储器230、至少一个网络接口220。服务器200中的各个组件通过总线系统240耦合在一起。可理解,总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统240。
处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
存储器230可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器230可选地包括在物理位置上远离处理器210的一个或多个存储设备。
存储器230包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器230旨在包括任意适合类型的存储器。
在一些实施例中,存储器230能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统231,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。
网络通信模块232,用于经由一个或多个(有线或无线)网络接口220到达其他计算设备,示例性的网络接口220包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等。
在一些实施例中,本申请实施例提供的实体属性值的识别装置可以采用软件方式实现,图2示出了存储在存储器230中的实体属性值的识别装置233,其可以是程序和插件等形式的软件,包括以下软件模块:第一获取模块2331、第一确定模块2332、第二确定模块2333、第二获取模块2334、第三获取模块2335和第三确定模块2336,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。
下面将结合本申请实施例提供的电子设备的示例性应用和实施,说明本申请实施例提供的实体属性值的识别方法。可以理解地,下述的方法可以由上文所述的终端400或服务器200单独执行或协同执行。
参见图3A,图3A是本申请实施例提供的实体属性值的识别方法中步骤101-106的流程示意图,将结合图3A示出的步骤进行说明。
在步骤101中,获取第一知识图谱。
作为示例,首先获取第一知识图谱。第一知识图谱包括多个三元组以及对应的权重,每个三元组包括实体、实体属性和属性值。
参见图3B,图3B是本申请实施例提供的实体属性值的识别方法中步骤1011-1015的流程示意图。基于图3A,图3B示出的步骤101可以通过步骤1011-步骤1015实现。下面将结合图3B示出的步骤1011-步骤1015进行说明。
在步骤1011中,从样本文本中获取多个样本三元组。
作为示例,可以基于样本文本确定出多个样本三元组。
在一些实施例中,从样本文本中获取多个样本三元组,通过以下方式实现:对样本文本进行关键词抽取处理,得到多个关键词对;其中,每个关键词对包括一个实体关键词和一个属性值关键词;针对每个关键词对执行以下处理:对关键词对进行关系分类处理,确定关键词对中的实体关键词和属性值关键词之间的关系,将关系确定为实体属性关键词;将实体属性关键词、关键词对包括的实体关键词和属性值关键词进行组合,得到样本三元组。
作为示例,可以通过自然语言处理技术获取多个样本三元组。在通过自然语言处理技术获取多个样本三元组时,需要获取大量的样本文本,并对获取到的样本文本进行关键词抽取处理,得到多个关键词对,其中,每个关键词对包括实体关键词和属性值关键词。
例如,对样本文本“游戏A是在2015年发行的”进行关键词抽取处理,可以获得关键词对(游戏A,2015年),其中,游戏A表示实体关键词,2015年表示属性值关键词。
在得到多个关键词对之后,对每个关键词对进行关系分类处理,获得每个关键词对中的实体关键词与属性值关键词之间的关系,并将获得的关系确定为实体属性关键词。然后基于关键词对和实体属性关键词,构建样本三元组。
继续上述示例,对关键词对(游戏A,2015年)进行关系分类处理,得到这两个关键词之间的关系为“发行时间”,因此,基于发行时间和(游戏A,2015年)构建出样本三元组(游戏A,发行时间,2015年)。
再例如,对样本文本“新生儿肺炎主要是由于B组链球菌造成的”进行关键词抽取处理,可以获得关键词对(新生儿肺炎,B组链球菌),其中,新生儿肺炎表示实体关键词,B组链球菌表示属性值关键词。对关键词对(新生儿肺炎,B组链球菌)进行关系分类处理,得到这两个关键词之间的关系为“病原”,因此,基于病原和(新生儿肺炎,B组链球菌)构建出样本三元组(新生儿肺炎,病原,B组链球菌)。
在一些实施例中,还可以通过爬虫技术从多个网站中爬取样本三元组。例如,可以从游戏网站的游戏页面中爬取样本三元组,从而爬取到(游戏A,发行商,公司x)、(游戏A,发行日期,2021年9月3日)等样本三元组。
通过上述方式获取样本三元组,可以获取大量的样本三元组,便于基于大量的样本三元组构建初始的知识图谱。
在步骤1012中,按照以下方式构建第二知识图谱:生成与多个样本三元组分别对应的节点;在满足第一条件的任意两个样本三元组之间,生成第二知识图谱中的第一种边;在满足第二条件的任意两个样本三元组之间,生成第二知识图谱中的第二种边。
作为示例,在得到多个样本三元组之后,基于样本三元组构建第二知识图谱。
作为示例,参见图4A,图4A是本申请实施例提供的第二知识图谱的结构示意图。如图4A所示,以样本三元组的数量为6为例,每个样本三元组对应生成第二知识图谱中的一个节点,因此生成6个节点。
在满足第一条件的任意两个样本三元组之间,生成第二知识图谱中的第一种边,其中,第一条件为任意两个样本三元组包括的样本实体属性的属性值的来源相同。图4A所示的节点1、节点3和节点6对应的样本三元组包括的样本实体属性的属性值的来源相同,所以,节点1、节点3和节点6中的任意两个节点对应的样本三元组满足第一条件,所以,在节点1、节点3和节点6之间生成第二知识图谱中的第一种边;图4A所示的节点2、节点4和节点5对应的样本三元组包括的样本实体属性的属性值的来源相同,所以,节点2、节点4和节点5中的任意两个节点对应的样本三元组同样满足第一条件,所以,同样在节点2、节点4和节点5之间生成第二知识图谱中的第一种边。
在满足第二条件的任意两个样本三元组之间,生成第二知识图谱中的第二种边,其中,第二条件为任意两个样本三元组包括的样本实体和样本实体属性相同。由于图4A所示的节点1与节点2对应的样本三元组所包括的样本实体和样本实体属性相同(均包括流感和病原),所以,节点1对应的样本三元组与节点2对应的样本三元组满足第二条件,所以,在节点1与节点2之间生成第二知识图谱中的第二种边;同样地,在节点3与节点4(均包括流感和症状)之间生成第二知识图谱中的第二种边;在节点5与节点6(均包括流感和发病时间)之间生成第二知识图谱中的第二种边,从而基于这6个样本三元组构建出第二知识图谱。
在步骤1013中,确定多个样本三元组对应的权重,并确定第一种边以及第二种边分别对应的权重。
作为示例,在构建出第二知识图谱之后,确定第二知识图谱中的每个样本三元组对应的权重、第一种边对应的权重和第二种边对应的权重。
在一些实施例中,在将多个样本三元组中的种子三元组的权重确定为第一权重之前,将在第二知识图谱中出现的次数大于数量阈值的样本实体,确定为种子实体;从包括每个种子实体的多个样本三元组中,获取一个样本三元组,并将获取的样本三元组确定为种子实体对应的种子三元组;获取每个种子三元组对应的多个标注权重,并将多个标注权重的平均值确定为种子三元组对应的权重。
作为示例,在确定第二知识图谱中的每个样本三元组的权重之前,首先确定在第二知识图谱中出现的次数大于数量阈值的样本实体,可以认为样本实体在第二知识图谱中的出现次数与样本实体的重要程度呈正相关,因此,将出现次数大于数量阈值的样本实体确定为种子实体。
例如,假设第二知识图谱中存在500个出现次数大于数量阈值的样本实体,那么,将这500个样本实体确定为种子实体。
在确定出种子实体之后,每个种子实体可能对应有多个样本三元组,为了便于进行权重标注处理,作为示例,从包括每个种子实体的多个样本三元组中,随机获取一个样本三元组,并将获取的这一个样本三元组确定为种子实体对应的种子三元组。
在确定出每个种子实体对应的种子三元组之后,获取每个种子三元组对应的多个标注权重,并将多个标注权重的平均值确定为种子三元组对应的权重。例如,获得每个种子三元组对应的3个标注权重,并将这3个标注权重的平均值确定为种子三元组对应的权重。
作为示例,种子三元组对应的权重可以通过人工标注的方式得出,例如,可以通过多人对同一个种子三元组的权重进行标注,然后对得到的多个标注权重取平均值,并将平均值确定为该种子三元组对应的权重。作为示例,在进行人工标注时,如果认为种子三元组语意正确,可以将该种子三元组的权重标记为1;如果认为该种子三元组的语意错误,可以将该种子三元组的权重标记为-1;如果认为该种子三元组的语意无法确定(例如,即使通过访问搜索引擎、游戏网站也无法确定种子三元组的语意),可以将该种子三元组的权重标记为0;最后将多人针对同一个种子三元组的标注权重进行求和,然后取平均值,将平均值作为该种子三元组的权重。
通过将在第二知识图谱中的出现次数大于数量阈值的样本实体确定为种子实体,由于出现次数与样本实体的重要性呈正相关,因此,通过上述方式确定出的种子实体是重要程度较高的样本实体;确定种子实体对应的种子三元组,并通过对种子实体对应的多个标注权重取平均的方式来确定每个种子三元组的权重,可以使得确定出的种子三元组的权重落在一个合理范围内。
在一些实施例中,确定多个样本三元组对应的权重,通过以下方式实现:将多个样本三元组中的种子三元组的权重确定为第一权重;其中,种子三元组的权重是标注的权重,且第一权重落入第一取值范围,第一取值范围为由第一阈值和第二阈值构成的闭区间,且第一阈值小于第二阈值;将多个样本三元组中的非种子三元组的权重确定为第二权重;其中,非种子三元组的权重是标注的权重,且第二权重的取值为第一取值范围的中间值。
作为示例,在确定出种子三元组之后,将种子三元组的权重确定为第一权重,第一权重是标注的权重。作为示例,响应于针对种子三元组的权重标注操作,接收多人针对同一个种子三元组的标注的权重,计算多人对同一个种子三元组的标注权重的平均值,并将计算出的平均值确定为该种子三元组的第一权重。人员是根据经验标注权重的,三元组成立的可靠程度越高,则对应的权重越大。并且,为了保证人员标注的权重的取值规范性,标注的权重的取值都应落入统一设定的取值范围(如,第一取值范围),第一取值范围是由第一阈值和第二阈值组成的闭区间,其中,第一阈值小于第二阈值。例如,可以将第一阈值设置为-1,第二阈值设置为1,这样,第一权重落入的第一取值范围为[-1,1]。
第二知识图谱中除了包括一部分种子三元组之外,还包括大量的非种子三元组,将每个非种子三元组的权重确定为第二权重。其中,非种子三元组的权重也是标注的权重,且第二权重的取值为第一取值范围的中间值。通过将非种子三元组的权重设置为第一取值范围的中间值,可以使得标注的各个样本三元组的权重分布更加均匀,基于均匀分布的样本三元组的权重进行第一传播图的迭代更新处理,能够使得样本三元组的迭代更新后的权重更加合理。继续上述示例,在第一权重落入的第一取值范围为[-1,1]的情况下,第二权重的取值可以为0。
通过分别将种子三元组和非种子三元组确定为不同的权重,由于种子三元组和非种子三元组对应的样本实体的重要程度不同,因此,种子三元组和非种子三元组对应的重要程度也不同,因此上述方式可以根据样本三元组的重要程度对应设置权重,从而提高了每个样本三元组对应的权重的合理性。
在一些实施例中,将多个样本三元组中的种子三元组的权重确定为第一权重,通过以下方式实现:确定第二知识图谱中的第一数量的样本三元组的权重;确定第二知识图谱中的第一种边和第二种边分别对应的权重;第一种边是满足第一条件的任意两个样本三元组之间的边;第二种边是满足第二条件的任意两个样本三元组之间的边;在第二知识图谱中增加第一数量的样本三元组对应的权重、第一种边对应的权重、以及第二种边对应的权重,得到第二传播图;基于第二传播图中的第一数量的样本三元组对应的权重、第一种边对应的权重、以及第二种边对应的权重,对第二传播图中的每个样本三元组的权重进行迭代更新处理,得到第二迭代更新处理结果;其中,第二迭代更新处理结果包括:每个样本三元组的迭代更新后的权重;将迭代更新后的权重大于权重阈值的样本三元组确定为种子三元组;将种子三元组的权重确定为第一权重。
作为示例,还可以基于其他方式(例如,基于投票的方式或基于人工设定的优先级的方式)获得带噪声的标注数据,并将带噪声的标注数据作为样本三元组的权重。例如,首先,响应于人员针对样本三元组的数量设定操作,接收样本三元组的设定数量(即,第一数量);响应于针对第一数量的样本三元组的权重标注操作,接收针对第一数量的样本三元组中的每个样本三元组的标注权重;然后,分别确定第二知识图谱中的第一种边和第二种边分别对应的权重。其中,第一种边是满足第一条件的任意两个样本三元组之间的边,即,第一种边连接的任意两个样本三元组包括的样本实体属性的属性值的来源相同;第二种边是满足第二条件的任意两个样本三元组之间的边,即,第二种边连接的任意两个样本三元组包括的样本实体和样本实体属性相同。
在确定出第一数量的样本三元组的权重、第一种边对应的权重和第二种边对应的权重之后,在第二知识图谱中增加第一数量的样本三元组对应的权重、第一种边对应的权重、以及第二种边对应的权重,得到第二传播图。需要说明的是,第二传播图的图结构和第二知识图谱对应的图结构是相同的,相对于第二知识图谱,第二传播图中增加了节点的权重和边的权重。
在得到第二传播图之后,基于第二传播图中的第一数量的样本三元组对应的权重、第一种边对应的权重、以及第二种边对应的权重,对第二传播图中的每个样本三元组的权重进行迭代更新处理,得到第二迭代更新处理结果,第二迭代更新处理结果包括每个样本三元组的迭代更新后的权重;然后将迭代更新后的权重大于权重阈值的样本三元组确定为种子三元组,并将种子三元组的权重确定为第一权重。
作为示例,迭代更新后的权重大于权重阈值的样本三元组对应的可靠程度较高,因此,将这样的样本三元组作为种子三元组,并将这样的样本三元组的迭代更新后的权重,作为该种子三元组的第一权重。因此,通过这种方式确定出的种子三元组的权重更加合理。
参见图3C,图3C是本申请实施例提供的实体属性值的识别方法中步骤10131-10132的流程示意图。基于图3B,图3C示出的步骤1013可以通过步骤10131-步骤10132实现。下面将结合图3C示出的步骤10131-步骤10132进行说明。
在步骤10131中,将满足第一条件的任意两个样本三元组之间的第一种边的权重,确定为第三权重。
作为示例,由于第一种边连接的任意两个样本三元组满足第一条件,即,第一种边连接的是包括的样本实体属性的属性值的来源相同的任意两个样本三元组,可以认为第一种边连接的任意两个样本三元组之间存在微弱的正相关性,因此,可以将第一种边对应的权重确定为第三权重,且第三权重落入第二取值范围,第二取值范围为由第二权重和第二阈值构成的开区间,且第二权重小于第二阈值。
例如,在第二权重的取值为0、第二阈值的取值为1的情况下,第三权重落入的第二取值范围为(0,1)。例如,第三权重可以为一略大于0的值,例如可以取0.01。
在步骤10132中,基于启发式规则,确定满足第二条件的任意两个样本三元组之间的第二种边的权重。
作为示例,在任意两个样本三元组满足第二条件的情况下,即,在任意两个样本三元组所包括的样本实体和样本实体属性相同的情况下,通过启发规则确定连接这样的两个样本三元组之间的第二种边的权重。
通过对应设置第一种边和第二种边分别对应的权重,可以有针对性地确定不同的边的权重,使得确定出的边的权重更加合理。
参见图3C,图3C示出的步骤10132可以通过步骤101321-步骤101322实现。下面将结合图3C示出的步骤101321-步骤101322进行说明。
在步骤101321中,在任意两个样本三元组,通过第一方式确定任意两个样本三元组之间的第二种边的权重。
作为示例,如果第二种边连接的任意两个样本三元组包括的样本实体属性为类别型样本实体属性,例如,开发商、发行商等,则通过第一方式确定任意两个样本三元组之间的第二种边的权重。
在一些实施例中,通过第一方式确定任意两个样本三元组之间的第二种边的权重,通过以下方式实现:确定任意两个样本三元组包括的两个样本实体属性的属性值之间的编辑距离、以及两个样本实体属性的属性值之间的字符长度最大值;确定编辑距离与第三阈值的乘积,并确定乘积与字符长度最大值的比值;其中,第三阈值大于第二阈值;将1减去比值得到的差值,确定为任意两个样本三元组之间的归一化编辑距离;将任意两个样本三元组之间的归一化编辑距离,确定为任意两个样本三元组之间的第二种边的权重。
作为示例,在通过第一方式确定第二种边的权重时,首先确定第二种边连接的任意两个样本三元组包括的两个属性值之间的编辑距离。在本申请实施例中,编辑距离表示从一个样本三元组(例如,样本三元组1)的属性值1,转换为另一个样本三元组(例如,样本三元组2)的属性值2的最少操作次数,其中的操作包括插入、删除和替换三种操作。例如,样本三元组1包括的属性值1为ddl,样本三元组2包括的属性值为de,那么,样本三元组1包括的属性值1和样本三元组2包括的属性值2之间的编辑距离为2,即ddl->dd(删除)->de(替换)。
在确定出第二种边连接的任意两个样本三元组包括的两个属性值之间的编辑距离之后,确定第二种边连接的任意两个样本三元组包括的两个属性值之间的字符长度最大值。继续上述示例,由于样本三元组1包括的属性值1为ddl,字符长度为3,而样本三元组2包括的属性值为de,字符长度为2,那么属性值1与属性值2之间的字符长度最大值为3。
作为示例,在确定出第二种边连接的任意两个样本三元组包括的两个属性值之间的编辑距离和字符长度最大值之后,通过以下公式计算这两个样本三元组之间的归一化编辑距离:
L=1-[编辑距离*第三阈值/maxlength(属性值1,属性值2)] 公式1
其中,L表示任意两个样本三元组之间的归一化编辑距离,第三阈值大于第二阈值,例如,在第二阈值的取值为1的情况下,第三阈值的取值可以为2;maxlength(属性值1,属性值2)表示任意两个样本三元组包括的两个属性值之间的字符长度最大值。
继续上述示例,在样本三元组1包括的属性值1与样本三元组2包括的属性值2之间的编辑距离为2、字符长度最大值为3的情况下,通过上述公式1计算得出这两个样本三元组之间的归一化编辑距离为1-(2*2/3)也就是-0.33。
需要说明的是,归一化编辑距离的取值可以为正数或负数,在两个样本三元组之间的属性值越接近的情况下,归一化编辑距离的取值越大,为正数的可能性也越大;在两个样本三元组之间的属性值越不接近的情况下,归一化编辑距离的取值越小,为负数的可能性更大。
在确定出任意两个样本三元组之间的归一化编辑距离之后,将确定得出的归一化编辑距离作为连接这两个样本三元组的第二种边的权重。
通过将两个样本三元组之间的归一化编辑距离确定为第二种边的权重,由于归一化编辑距离能够非常直观地反映第二种边连接的两个样本三元组包括的属性值之间的接近程度,因此,通过这种方式确定出的第二种边的权重与样本三元组包括的属性值的情况更加匹配。
在步骤101322中,在任意两个样本三元组包括的样本实体属性为数值型样本实体属性的情况下,通过第二方式确定任意两个样本三元组之间的第二种边的权重。
作为示例,如果任意两个样本三元组包括的样本实体属性为数值型样本实体属性,例如发行时间,则通过第二方式确定任意两个样本三元组之间的第二种边的权重。
通过根据第二种边连接的任意两个样本三元组包括的样本实体属性的种类的不同,采取不同的方式分别确定第二种边的权重,能够更加有针对性地确定第二种边的权重,从而使得确定出的第二种边的权重更加准确。
在一些实施例中,通过第二方式确定任意两个样本三元组之间的第二种边的权重,通过以下方式实现:在任意两个样本三元组包括的两个样本实体属性的属性值相同的情况下,确定任意两个样本三元组之间的第二种边的权重为第四权重;其中,第四权重的取值为第二阈值;在任意两个样本三元组包括的两个样本实体属性的属性值不相同的情况下,确定任意两个样本三元组之间的第二种边的权重为第五权重;其中,第五权重的取值为第一阈值。
作为示例,由于在通过第二方式确定第二种边的权重时,第二种边连接的任意两个样本三元组包括的样本实体属性为数值型样本实体属性,那么,在这两个样本三元组包括的两个属性值相同的情况下,确定这两个样本三元组之间的第二种边的权重为第四权重,其中,第四权重的取值为第二阈值。例如,在第二阈值取值为1的情况下,第四权重的取值为1。
而在这两个样本三元组包括的两个属性值不相同的情况下,确定这两个样本三元组之间的第二种边的权重为第五权重,第五权重的取值为第一阈值。例如,在第一阈值取值为-1的情况下,第五权重的取值为-1。
由于在通过第二方式确定第二种边的权重时,第二种边连接的任意两个样本三元组包括的样本实体和样本实体属性相同,在这种情况下,如果这两个样本三元组包括的属性值也相同,那么这两个样本三元组实际上为相同的两个样本三元组,所以,将连接两个相同的样本三元组之间的第二种边的权重设置为一个较大的值(即第二阈值);而如果这两个样本三元组包括的属性值并不相同,那么这两个样本三元组不相同,所以,将连接不相同的两个样本三元组之间的第二种边的权重设置为一个较小的值(即第一阈值,且第一阈值小于第二阈值)。因此通过这种方式确定出的第二种边的权重更加合理。
在步骤1014中,在第二知识图谱中增加多个样本三元组、第一种边以及第二种边分别对应的权重,得到第一传播图。
作为示例,在确定出第二知识图谱中的多个样本三元组对应的权重、第一种边对应的权重、以及第二种边对应的权重之后,在第二知识图谱中增加多个样本三元组对应的权重、第一种边对应的权重、以及第二种边对应的权重,得到第一传播图。
值得说明的是,第一传播图的图结构和第二知识图谱对应的图结构是相同的,相对于第二知识图谱,第一传播图中增加了节点的权重和边的权重。
作为示例,参见图4B,图4B是本申请实施例提供的第一传播图的结构示意图。图4B示出的第一传播图是在图4A示出的第二知识图谱中增加节点权重和边权重之后得到的。
如图4B所示,图4B中的节点6为种子三元组,通过人工标注的方式得到的权重为1;节点1-5为非种子三元组,作为示例,节点1-5对应的权重均为0。
图4B中的节点2、节点4以及节点5之间的边为第一种边,所以第一种边的权重可以为0.01,同样地,节点1、节点3以及节点6之间的边为第一种边,所以第一种边的权重为0.01。
图4B中第二种边连接的节点1和节点2包括的样本实体属性为类别型样本实体属性,因此,节点1与节点2之间的第二种边的权重是基于归一化编辑距离确定出的,由于节点1对应的样本三元组包括的属性值1(即,流感病毒)与节点2对应的样本三元组包括的属性值2(即链球菌)之间的编辑距离为4,即从流感病毒到链球菌需要进行1次删除操作和3次替换操作,且流感病毒与链球菌之间的字符长度的最大值为4,因此,基于上述公式1可以计算得出节点1对应的样本三元组与节点2对应的样本三元组之间的归一化编辑距离为1-(4*2/4),也就是-1,所以,节点1与节点2之间的第二种边的权重为-1。同样地,节点3与节点4之间的第二种边的权重也是基于归一化编辑距离确定出的。由于第二种边连接的节点5和节点6包括的样本实体属性为数值型样本实体属性,且节点5包括的属性值1~2月与节点6包括的属性值6~8月不相同,因此可以将节点5与节点6之间第二种边的权重设置为-1。
在步骤1015中,对第一传播图进行迭代更新处理,基于得到的第一迭代更新处理结果生成第一知识图谱。
作为示例,在得到第一传播图之后,对第一传播图进行迭代更新处理,得到第一迭代更新处理结果,然后基于第一迭代更新处理结果生成第一知识图谱。其中,第一迭代更新处理结果包括:每个样本三元组的迭代更新后的权重。
作为示例,可以采用标签传播算法对第一传播图进行迭代更新处理,标签传播算法的原理为,利用第一传播图中的节点与节点之间相互传递的信息,来迭代更新第一传播图中的每个节点的权重。在经过多次迭代更新后,第一传播图中的所有节点的权重趋于稳定。
作为示例,第一传播图的迭代更新处理过程可以通过转移矩阵法或梯度下降法实现。
作为示例,在使用转移矩阵法实现第一传播图的迭代更新处理时,首先使用第一传播图的度矩阵和邻接矩阵确定转移矩阵;接着,对转移矩阵进行分解,将分解后的转移矩阵与自身相乘尽可能多的次数,得到稳定的转移矩阵;然后,基于稳定的转移矩阵确定种子三元组对应的权重向量,以及非种子三元组对应的权重向量;最后,基于种子三元组对应的权重向量、以及稳定的转移矩阵,确定出非种子三元组对应的权重,从而得到第一传播图中的每个样本三元组(即,节点)对应的迭代更新后的权重。
作为示例,在使用梯度下降法实现第一传播图的迭代更新处理时,可以将第一传播图的标签传播问题抽象成以下公式:
其中,表示第一传播图中的所有节点的权重之和的最小值函数;为节点i和节点j之间的边的权重,在迭代更新处理过程中是固定的;表示节点i的权重,表示节点j的权重,节点i和节点j在第一传播图中是邻居节点,的值会随着迭代更新处理的进行而发生改变。其中,i和j的取值范围为1-I,I为第一传播图中的节点总数。
作为示例,在上述公式3的计算出的结果达到最小时,可以认为迭代更新处理过程结束,此时,第一传播图中的所有节点的权重达到收敛。
在第一传播图中的所有节点的权重达到收敛时,获得每个节点(即每个样本三元组)的收敛的迭代更新后的权重,并基于每个样本三元组的迭代更新后的权重构建第一知识图谱。
参见图3D,图3D是本申请实施例提供的实体属性值的识别方法中步骤10151-10152的流程示意图。基于图3B,图3D中的步骤1015中的对第一传播图进行迭代更新处理,可以通过步骤10151和步骤10152实现,下面将结合图3D对步骤10151和步骤10152进行说明。
在步骤10151中,确定样本三元组在第一传播图中对应的多个邻居样本三元组,并确定每个邻居样本三元组对应的权重乘积。
作为示例,在每次迭代更新处理过程中,首先确定样本三元组在第一传播图中对应的多个邻居样本三元组,并确定每个邻居样本三元组对应的权重乘积。其中,邻居样本三元组在第一传播图中与样本三元组通过边直接连接。
作为示例,每个邻居样本三元组对应的权重乘积为该邻居样本三元组的权重、与该邻居样本三元组与样本三元组之间的边的权重的乘积;其中,在该邻居样本三元组与样本三元组满足第一条件的情况下,即,在该邻居样本三元组与样本三元组所包括的样本实体属性的属性值的来源相同的情况下,上述边的权重为第一种边对应的权重;在该邻居样本三元组与样本三元组满足第二条件的情况下,即,在该邻居样本三元组与样本三元组所包括的样本实体和样本实体属性相同的情况下,上述边的权重为第二种边对应的权重。
在步骤10152中,将多个邻居样本三元组对应的权重乘积的加和,确定为样本三元组的迭代更新后的权重。
作为示例,在确定出该样本三元组对应的每个邻居样本三元组的权重乘积之后,将多个邻居样本三元组的权重乘积进行求和,将求和结果作为该样本三元组在这次迭代更新处理后的权重。
作为示例,参见图4B,图4B中的节点6的邻居节点包括节点1、节点3和节点5,在一次迭代更新过程中,节点6的迭代更新后的权重=邻居节点1的权重*节点1-6之间的边的权重+邻居节点3的权重*节点3-6之间的边的权重+邻居节点5的权重*节点5-6之间的边的权重,即0*0.01+0.01*0+0*(-1),所以,在这次迭代更新过程结束之后,节点6的迭代更新后的权重为0。
通过在每次迭代更新过程中基于邻居节点的权重来更新样本三元组的权重,可以使得迭代更新后的样本三元组的权重更加准确。
在一些实施例中,基于得到的第一迭代更新处理结果,生成第一知识图谱,通过以下方式实现:在包括相同的样本实体和样本实体属性的多个样本三元组中,将迭代更新后的权重最大的样本三元组,确定为样本实体对应的第一目标三元组;基于第一传播图包括的每个样本实体对应的第一目标三元组、以及每个第一目标三元组对应的权重,生成第一知识图谱。
需要说明的是,在步骤1011中从样本文本中获取样本三元组时,可能会得到多个互相矛盾的样本三元组,例如(游戏AA,开发商,公司a)和(游戏AA,开发商,公司b)。并且,这多个互相矛盾的样本三元组均会用于构建第二知识图谱,而第一传播图是基于第二知识图谱得到的,因此,第一传播图中包括多个互相矛盾的样本三元组,而在对第一传播图进行迭代更新处理后,可以从这多个互相矛盾的样本三元组中确定出准确的样本三元组。
作为示例,可以通过以下方式从多个互相矛盾的样本三元组中确定出准确的样本三元组:针对第一传播图中的、包括相同的样本实体和样本实体属性的多个样本三元组,将迭代更新后的权重最大的样本三元组,确定为该样本实体对应的第一目标三元组。由于第一目标三元组的权重最大,因此将第一目标三元组作为样本实体准确对应的三元组。
在通过同样的处理方式确定出第一传播图中的每个样本实体对应的第一目标三元组之后,基于每个第一目标三元组以及每个第一目标三元组对应的权重,生成第一知识图谱。
例如,从所有包括实体“游戏AA”和实体属性“开发商”的样本三元组中,选择迭代更新后的权重最大的样本三元组,作为实体“游戏AA”对应的第一目标三元组,也就是实体“游戏AA”准确对应的三元组。如,第一传播图中有2个样本三元组包括实体“游戏AA”和实体属性“开发商”,这2个样本三元组分别为(游戏AA,开发商,公司a)和(游戏AA,开发商,公司b),由于样本三元组(游戏AA,开发商,公司a)的迭代更新后的权重为-0.3,而样本三元组(游戏AA,开发商,公司b)的迭代更新后的权重为0.8,那么,将迭代更新后的权重最大的(游戏AA,开发商,公司b)确定为实体“游戏AA”对应的第一目标三元组。
作为示例,按照以下方式构建第一知识图谱:生成与每个第一目标三元组分别对应的节点;在所包括的实体属性的属性值的来源相同的任意两个第一目标三元组之间,生成第一种边;在所包括的实体相同的任意两个第一目标三元组之间,生成第二种边。
通过基于样本三元组的迭代更新后的权重,从包括相同的样本实体和样本实体属性的多个样本三元组中确定出第一目标三元组,并基于多个第一目标三元组构建第一知识图谱,由于每个第一目标三元组均为从多个互相矛盾的样本三元组中确定出准确的样本三元组,因此,通过这种方式确定出的第一知识图谱的精度更高。
在步骤102中,基于每个三元组的权重,确定每个实体属性分别在所对应的多个来源上的权重。
作为示例,在获取第一知识图谱之后,获取第一知识图谱中每个三元组的权重,并基于每个三元组的权重,确定每个实体属性分别在所对应的多个来源上的权重。其中,每个实体属性所对应的多个来源是实体属性的不同属性值的来源。
参见图3E,图3E是本申请实施例提供的实体属性值的识别方法中步骤1021-1023和步骤1031-1032的流程示意图。基于图3A,图3E示出的步骤102可以通过步骤1021-步骤1023实现。下面将结合图3E示出的步骤1021-步骤1023进行说明。
在步骤1021中,确定第一知识图谱中的第一三元组。
作为示例,在确定每个实体属性在所对应的来源上的权重时,遍历每个实体属性,并遍历当前遍历到的实体属性所对应的每个来源,并将包括当前遍历到的实体属性的三元组确定为第一三元组。
在步骤1022中,确定第二三元组,并确定第二三元组的第二数量。
作为示例,第二三元组包括当前遍历到的实体属性,且对应的属性值出自当前遍历到的来源,也就是说,将对应的属性值出自当前遍历到的来源的第一三元组,确定为第二三元组,并确定第二知识图谱中的第二三元组的数量为第二数量。
在步骤1023中,将每个第二三元组的权重之和与第二数量的比值,确定为当前遍历到的实体属性在当前遍历到的来源上的权重。
作为示例,在确定出所有第二三元组之后,将所有的第二三元组的权重进行求和处理,并将得到的求和处理结果与第二三元组对应的第二数量的比值,确定为当前遍历到的实体属性在当前遍历到的来源上的权重。
其中,表示实体属性p在来源上的权重,如表示实体属性p在来源上的权重,实体属性p可以表示当前遍历到的实体属性,来源表示当前遍历到的实体属性的属性值出自的当前遍历到的来源;表示实体m的实体属性p在来源上的权重,如表示实体m的实体属性p在来源上的权重。其中,来源ϵ{实体属性p所对应的来源集合},n的取值为1-N,N表示实体属性p所对应的来源的总数量;属性pϵ{第一知识图谱包括的实体属性集合};m的取值范围为[1,M],M表示包括实体属性p、且实体属性p的属性值出自来源的三元组的总数(即上文的第二三元组对应的第二数量)。
由于当前遍历到的实体属性在当前遍历到的来源上的权重,为包括当前遍历到的实体属性、且对应的属性值出自当前遍历到的来源的多个三元组的权重的平均值,因此,通过这种方式确定出的当前遍历到的实体属性在当前遍历到的来源上的权重更加准确。
在步骤103中,基于每个实体属性在所对应的多个来源上的权重,确定每个实体属性所对应的多个来源的来源优先级排序。
作为示例,在确定出每个实体属性分别在所对应的多个来源上的权重之后,基于每个实体属性分别在所对应的多个来源上的权重,确定每个实体属性所对应的多个来源的来源优先级排序。
参见图3E,图3E示出的步骤103可以通过步骤1031-步骤1032实现。下面将结合图3E示出的步骤1031-步骤1032进行说明。
在步骤1031中,针对实体属性所对应的多个来源,确定实体属性在每个来源上的权重。
作为示例,在确定一个实体属性(例如第一实体属性)所对应的多个来源的来源优先级排序时,首先针对第一实体属性所对应的多个来源,确定第一实体属性在每个来源上的权重。
在步骤1032中,对实体属性在多个来源上的权重进行降序排序处理,得到实体属性在多个来源上的来源优先级排序。
作为示例,在确定第一实体属性在每个来源上的权重之后,对第一实体属性在多个来源上的权重进行降序排序处理,从而基于降序排序处理结果确定第一实体属性在多个来源上的来源优先级排序。
例如,第一知识图谱中存在2个包括实体属性1且实体属性1的属性值出自来源A、来源B和来源C的三元组,这两个三元组分别为三元组1和三元组2,其中,三元组1中的实体属性1在来源A上的权重为0.5、在来源B的权重为0.4、在来源C上的权重为0.1,三元组2中的实体属性1在来源A上的权重为0.4、在来源B的权重为0.4、在来源C上的权重为0.2,那么,根据上述公式4,可以得出实体属性1在来源A上的权重为(0.5+0.4)/2,即0.45;实体属性1在来源B上的权重为(0.4+0.4)/2,即0.4;实体属性1在来源C上的权重为(0.1+0.2)/2,即0.15。那么对实体属性1在这三个来源上的权重进行降序排序,可以得到来源A(0.45)>来源B(0.4)>来源C(0.15),所以,实体属性1所对应的这三个来源的来源优先级排序为来源A>来源B>来源C。
通过基于每个实体属性在多个来源上的权重的降序排序处理结果,确定实体属性在多个来源上的来源优先级,也就是说,如果实体属性在某个来源上的权重越大,则该来源对应的来源优先级越高,因此,通过这种方式能够准确确定出每个实体属性对应的来源优先级排序。
在步骤104中,获取多个待识别三元组。
作为示例,在确定出第一知识图谱中的每个实体属性所对应的多个来源的来源优先级排序之后,可以获取多个待识别三元组,确定待识别三元组中的待识别实体属性对应的目标属性值。其中,多个待识别三元组包括相同的待识别实体和待识别实体属性,且包括对应不同来源的属性值。
在步骤105中,从每个实体属性所对应的多个来源的来源优先级排序中,获取待识别实体属性对应的不同来源的来源优先级排序。
作为示例,在获取多个待识别三元组之后,根据待识别三元组包括的待识别实体属性,从每个实体属性所对应的多个来源的来源优先级排序中,获取待识别实体属性对应的不同来源的来源优先级排序。
在步骤106中,基于待识别实体属性对应的不同来源的来源优先级排序,确定待识别实体属性的每个属性值的最高优先级来源,并将出自最高优先级来源的属性值,确定为待识别实体属性的目标属性值。
作为示例,在获取到待识别实体属性对应的不同来源的来源优先级排序之后,由于存在多个待识别三元组,所以待识别实体属性对应多个属性值,而每个属性值对应不同的来源,因此,根据获得的该来源优先级排序,确定待识别实体属性的多个属性值对应的多个来源中的最高优先级来源,并将出自最高优先级来源的属性值,确定为待识别实体属性的目标属性值。
作为示例,假设在第一知识图谱中,实体属性1所对应的多个来源的来源优先级排序为来源A>来源B>来源C;假设存在两个待识别三元组,分别是(游戏实体1,实体属性1,属性值1)和(游戏实体1,实体属性1,属性值2),其中,属性值1出自来源A,属性值2出自来源C;获取实体属性1对应的来源优先级排序来源A>来源B>来源C,根据该来源优先级排序,由于来源A的优先级排序高于来源C的优先级排序,那么,将出自来源A的属性值1确定为待识别三元组中的待识别实体属性1的目标属性值。
参见图3F,图3F是本申请实施例提供的实体属性值的识别方法中步骤107-111的流程示意图。基于图3A,图3A示出的步骤106之后还可以包括步骤107-步骤111。下面将结合图3F示出的步骤107-步骤111进行说明。
在步骤107中,将包括目标属性值的待识别三元组确定为第二目标三元组。
作为示例,在确定出待识别三元组中的待识别实体属性对应的目标属性值之后,将包括目标属性值的待识别三元组确定为第二目标三元组。
在步骤108中,将第二目标三元组作为新节点加入第一知识图谱,并与第一知识图谱中包括的第三三元组连接,得到第三知识图谱。
作为示例,在得到第二目标三元组之后,将第二目标三元组作为新节点加入第一知识图谱中,并且,在第一知识图谱中,将第二目标三元组与第三三元组相连,从而得到第三知识图谱。其中,第三三元组包括的实体与第二目标三元组包括的实体相同,或包括的实体属性的属性值的来源与第二目标三元组包括的实体属性的属性值的来源相同。
通过将待识别三元组对应的第二目标三元组加入第一知识图谱中,得到第三知识图谱,可以对第一知识图谱进行扩充,从而得到一个覆盖范围更广的第三知识图谱。
在步骤109中,在离线状态下,确定第三知识图谱中的多个三元组、第一种边以及第二种边分别对应的权重。
作为示例,在得到第三知识图谱之后,可以在离线状态下,确定第三知识图谱中的多个三元组对应的权重、第一种边对应的权重、以及第二种边对应的权重。其中,离线状态是未开始响应针对待识别三元组的识别请求的状态。相对应的,在线状态是开始响应针对待识别三元组的识别请求的状态。
作为示例,第三知识图谱中的、原属于第一知识图谱的三元组的权重,即为第一知识图谱包括的对应的三元组的权重,而第三知识图谱中的、不属于第一知识图谱的三元组的权重,可以通过人工标注的方式确定出。
而第三知识图谱中的第一种边和第二种边的权重的确定方式,与上文的步骤1013中第一种边与第二种边的权重的确定方式相似,在此不再赘述。
其中,第一种边是满足第一条件的任意两个三元组之间的边,即,第一种边连接的任意两个三元组包括的实体属性的属性值的来源相同;第二种边是满足第三条件的任意两个三元组之间的边,即,第二种边连接的任意两个三元组包括的实体相同。
在步骤110中,在第三知识图谱中增加多个三元组、第一种边以及第二种边分别对应的权重,得到第三传播图。
作为示例,在得到第三知识图谱中的多个三元组对应的权重、第一种边对应的权重、以及第二种边对应的权重之后,在第三知识图谱中增加多个三元组对应的权重、第一种边对应的权重、以及第二种边对应的权重,得到第三传播图。
在步骤111中,对第三传播图进行迭代更新处理,基于得到的第三迭代更新处理结果,生成更新后的第一知识图谱。
作为示例,在得到第三传播图之后,对第三传播图进行迭代更新处理,得到第三迭代更新处理结果,第三迭代更新处理结果包括:每个三元组的迭代更新后的权重。然后基于第三迭代更新处理结果,生成更新后的第一知识图谱。
需要说明的是,对第三传播图进行迭代更新处理的方式与上文中步骤1015中对第一传播图进行迭代更新处理的方式类似,在此不再赘述。
需要说明的是,由于在生成更新后的第一知识图谱的过程中,需要基于包括多个三元组的第三知识图谱生成第三传播图,再对第三传播图进行迭代更新处理,因此,生成更新后的第一知识图谱的计算量非常巨大,需要在离线状态下进行计算。并且,这里的离线状态与在线状态是相对的,在离线状态下对第三传播图进行迭代更新处理,得到第三迭代更新处理结果,可以实现在未上线的情况下,基于第三传播图中的迭代更新后的三元组的权重,对三元组的属性值进行识别处理(即,针对包括相同的实体和实体属性的多个三元组,从中选择迭代更新后的权重最大的三元组,并将迭代更新后的权重最大的三元组包括的属性值,作为目标属性值)。而在线状态可以实现在上线的情况下,根据基于第一知识图谱确定出的每个实体属性对应的来源优先级排序,进行属性值的识别处理。
此外,可以周期性地执行上述步骤109-步骤110,从而周期性得获得更新后的第一知识图谱。
通过在离线状态下对第一知识图谱进行更新,可以避免第一知识图谱的更新过程占用线上的计算资源,从而节约了线上的计算资源的占用;并且通过对第一知识图谱进行更新,便于基于更新后的准确的第一知识图谱进行待识别实体属性的属性值的确定。
相关技术中存在两种常见的属性值确定方式,即基于投票的方式和基于人工设定的优先级的方式。
在基于投票的方式中,每个来源持有一票,通过统计待识别实体属性的属性值得到的来源的得票数,将得票数最多的属性值确定为待识别实体属性的目标属性值。
例如,存在三个来源,分别是来源A、来源B和来源C,每个来源持有一票。两个待识别三元组分别为(实体1,实体属性1,属性值aa)和(实体1,实体属性1,属性值ab),其中,属性值aa出自来源A和来源C,相当于属性aa的得票数为2;属性值ab出自来源B,相当于属性ab的得票数为1,那么得票数较高的属性值aa作为待识别实体属性1的目标属性值。
在基于人工设定的优先级的方式中,通过人工设定不同的实体属性对应的来源优先级排序,在确定待识别三元组中待识别实体属性对应的目标属性值时,选择出自较高的优先级的来源的属性值作为目标属性值。
例如,实体属性1对应的来源优先级排序为来源A>来源B,两个待识别三元组分别为(实体1,实体属性1,属性值aa)和(实体1,实体属性1,属性值ab),其中,属性值aa出自来源A,属性值ab出自来源B。由于来源A的优先级高于来源B,那么将出自来源优先级较高的来源A的属性值aa,作为待识别实体属性1的目标属性值。
然而,基于投票的方式存在以下问题:在不同的属性值出现相同的得票数时,没有有效的方式确定出更合适的目标属性值。此外,不同的来源之间存在数据抄袭(Copy)现象,在人为将数据信息录入来源中时,可能会参考其他来源的数据信息,可能会出现某个来源1的信息是完全复制另一个来源2的信息得到的,在这种情况下,基于投票的方式会放大来源2的权重,而来源1的数据信息应当是无效的,不应当统计出自来源1的得票数。
基于人工设定的优先级的方式中,不同的实体属性对应的来源优先级排序是不同的,由于实体属性的数量非常多(例如一个游戏实体对应有55个不同的实体属性),人为针对每个实体属性对应设置合适的来源优先级排序极其困难,进行来源优先级排序的相关人员需要为特定领域的专业人员,且需要充分了解每个来源的数据质量;此外,来源的数量是变化的,在出现新的来源时,需要将新出现的来源插入原有的来源优先级排序中,因此,人工设定的来源优先级排序的维护成本较高。
也就是说,利用相关技术中的实体属性值的识别方式确定出的待识别实体属性的属性值的准确性较低,并且在实体属性值的识别过程中需要消耗大量的计算资源。
而本申请实施例提供的实体属性值的识别方法,由于第一知识图谱中集成了三元组的权重,从而可以基于第一知识图谱挖掘出实体属性在不同来源上的权重,由于实体属性在不同来源上的权重能够准确反映出出自不同来源的属性值的可靠性,因此,通过基于实体属性在不同来源上的权重确定出的来源优先级排序,可以准确筛选出出自可靠来源的属性值,与相关技术基于经验规则来筛选属性值的方案相比,能够准确衡量出自不同来源的属性值的可靠性,避免规则带来的主观判断的影响,从而使得识别出的属性值的准确性更高;同时,利用第一知识图谱是基于三元组实现的这一易于进行数据计算的特点,显著节约了在识别属性值过程中的计算量,节约了计算资源。
下面,将以实体为游戏实体为例,说明本申请实施例在一个实际的实体属性值的识别应用场景中的示例性应用。
本申请实施例可具有如下应用场景,例如,开发人员通过操作终端的人机交互界面确定出游戏实体的多个待识别三元组,终端将多个待识别三元组通过网络发送给服务器。服务器根据终端发送的多个待识别三元组,从每个实体属性对应的来源优先级排序中,确定出待识别三元组中的待识别实体属性对应的来源优先级排序,并根据待识别实体属性对应的来源优先级排序,确定待识别实体属性的每个属性值的最高优先级来源,并将出自最高优先级来源的属性值确定为目标属性值,并向终端返回包括目标属性值的目标三元组。终端接收到服务器返回的游戏实体的目标三元组之后,可以在人机交互界面展示游戏实体的准确的详细信息,例如展示游戏的发行时间、开发商、发行商、游戏类别等信息,以供开发人员查询。
作为示例,在识别待识别三元组中的待识别实体属性的目标属性值之前,需要先构建第一知识图谱,并基于第一知识图谱确定每个实体属性对应的来源优先级排序。
参见图5,图5是本申请实施例提供的实体属性值的识别方法中步骤501-507的流程示意图。下面将结合图5对步骤501-步骤507进行说明。
在步骤501中,获取样本三元组。
作为示例,首先获取多个样本三元组。
作为示例,可以通过自然语言处理技术获得多个样本三元组。在通过自然语言处理技术获取样本三元组时,首先需要获取大量的样本文本,并对获取到的样本文本进行关键词抽取处理,得到多个关键词对,其中,每个关键词对包括实体关键词和属性值关键词。
例如,对文本“游戏A是在2015年发行的”进行关键词抽取处理,可以获得关键词对(游戏A,2015年),其中,游戏A表示实体关键词,2015年表示属性值关键词。
在得到多个关键词对之后,对每个关键词对进行关系分类处理,获得每个关键词对中的实体关键词与属性值关键词之间的关系,并将获得的关系确定为实体属性关键词。然后基于关键词对和实体属性关键词,构建样本三元组。
继续上述示例,对关键词对(游戏A,2015年)进行关系分类处理,得到这两个关键词之间的关系为“发行日期”,因此,基于发行日期和(游戏A,2015年)构建出样本三元组(游戏A,发行时间,2015年)。
在一些实施例中,可以使用爬虫技术从多个游戏网站中爬取样本三元组。参见图6,图6是本申请实施例提供的从游戏网站中获取样本三元组的示意图。图6中的601表示游戏实体;602表示实体属性为发行日期,实体属性值为2021年9月3日;603表示实体属性为发行商,实体属性值为公司x;那么基于对601和602的爬取结果,可以获得(游戏A,发行日期,2021年9月3日)这样一个样本三元组;基于对601和603的爬取结果,可以获得(游戏A,发行商,公司x)这样一个样本三元组。
作为示例,在获得大量的样本三元组之后,基于样本三元组构建第二知识图谱。
作为示例,参见图7,图7是本申请实施例提供的第二知识图谱的原理示意图。如图7所示,以样本三元组的数量为6为例,服务器针对每个样本三元组,生成第二知识图谱中的一个对应的节点,因此生成了6个节点。服务器在所包括的样本实体属性的属性值的来源相同(即,满足第一条件)的任意两个样本三元组之间,生成第二知识图谱中的第一种边,图7所示的节点1、节点3和节点6包括的样本实体属性的属性值的来源相同,那么服务器在节点1、节点3和节点6之间生成第二知识图谱中的第一种边;图7所示的节点2、节点4和节点5包括的样本实体属性的属性值的来源相同,那么服务器同样在节点2、节点4和节点5之间生成第二知识图谱中的第一种边。
由于图7所示的节点1与节点2所包括的样本实体和样本实体属性相同,即,节点1对应的样本三元组与节点2对应的样本三元组满足第二条件,所以,服务器在节点1与节点2之间生成第二知识图谱中的第二种边;同样地,服务器在节点3与节点4之间生成第二知识图谱中的第二种边;服务器在节点5与节点6之间生成第二知识图谱中的第二种边,从而基于这6个样本三元组构建出第二知识图谱。
在步骤502中,确定样本三元组的权重。
作为示例,在得到第二知识图谱后,确定第二知识图谱中每个样本三元组(即,每个节点)的权重,以及第一种边和第二种边分别对应的权重。
作为示例,可以通过人工标注的方式确定样本三元组的权重。人工标注表示通过人工操作的方式对样本三元组进行权重标注。由于人工成本较高,可以通过人工标注的方式仅对少量样本三元组(例如500个)的权重进行标注。由于需要标注的游戏领域的样本三元组的标注难度较大,因此,本申请实施例可以使用多人众包同时标注(即,分布式标注)取平均的方法确定样本三元组的权重。
作为示例,可以通过人工标注的方式仅对第二知识图谱中的种子三元组的权重进行标注。种子三元组可以通过以下方式确定出:从第二知识图谱中确定出现次数最多的500个样本实体,将这500个样本实体确定为种子实体;接着从每个种子实体对应的多个样本三元组中,随机获取一个样本三元组作为该种子实体对应的种子三元组;然后通过多人(例如,3人)分别对种子三元组的权重进行标注,例如,如果认为种子三元组语意正确,可以将该种子三元组的权重标记为1;如果认为该种子三元组的语意错误,可以将该种子三元组的权重标记为-1;如果认为该种子三元组的语意无法确定(例如,即使通过访问搜索引擎、游戏网站也无法确定种子三元组的语意),可以将该种子三元组的权重标记为0;最后将多人针对同一个种子三元组的标注权重进行求和,然后取平均值,将平均值作为该种子三元组的权重。
作为示例,还可以通过以下方式确定种子三元的权重:基于传统的规则(例如投票规则或优先级规则)获得带噪声的标注数据,并将带噪声的标注数据作为样本三元组的权重,例如,基于投票规则或优先级规则确定第二知识图谱中的第一数量的样本三元组的权重,并确定第二知识图谱中的第一种边和第二种边分别对应的权重,在第二知识图谱中增加第一数量的样本三元组对应的权重、第一种边对应的权重、以及第二种边对应的权重,得到第二传播图;基于第二传播图中的第一数量的样本三元组对应的权重、第一种边对应的权重、以及第二种边对应的权重,对第二传播图中的每个样本三元组的权重进行迭代更新处理,得到第二迭代更新处理结果,其中,第二迭代更新处理结果包括:每个样本三元组的迭代更新后的权重;将迭代更新后的权重大于权重阈值的样本三元组确定为种子三元组;最后将种子三元组的权重确定为第一权重。
作为示例,对于第二知识图谱中的非种子三元组,可以将非种子三元组的权重统一标注为0。
作为示例,通过以下方式确定第二知识图谱中的第一种边对应的权重:由于第一种边是满足第一条件的任意两个样本三元组之间的边,即,第一种边为包括的样本实体属性的属性值的来源相同的任意两个样本三元组之间的边,可以认为第一种边连接的任意两个样本三元组之间存在微弱的正相关性,因此,可以将第一种边对应的权重设置一略大于0的值,例如取0.01。
作为示例,通过启发式规则确定第二知识图谱中的第二种边对应的权重:在第二种边连接的任意两个样本三元组包括的样本实体属性为类别型样本实体属性(例如,发行商、开放商)的情况下,基于归一化编辑距离确定第二种边的权重。
作为示例,在两个样本三元组包括的样本实体和样本实体属性相同(即,满足第二条件)、且包括的样本实体属性为类别型样本实体属性时,这样的两个样本三元组之间的归一化编辑距离的计算公式如下:
归一化编辑距离=1-[编辑距离*2/maxlength(属性值1,属性值2)] 公式5
其中,编辑距离表示第二种边连接的这样的两个样本三元组之间的编辑距离,在本申请实施例中,编辑距离表示从一个样本三元组(例如,样本三元组1)的属性值1转换为另一个样本三元组(例如,样本三元组2)的属性值2的最少操作次数,其中的操作包括插入、删除和替换三种操作。例如,样本三元组1包括的属性值1为ddl,样本三元组2包括的属性值为de,那么,样本三元组1和样本三元组2之间的编辑距离为2,即ddl->dd(删除)->de(替换);maxlength(属性值1,属性值2)表示属性值1和属性值2之间的字符长度最大值,例如,样本三元组1包括的属性值1为ddl,样本三元组2包括的属性值为de,那么maxlength(属性值1,属性值2)的值为3,在这种情况下,样本三元组1与样本三元组2之间的归一化编辑距离为1-(2*2/3)也就是-0.33。
通过上述公式5计算得出样本三元组1与样本三元组2之间的归一化编辑距离之后,将归一化编辑距离作为连接样本三元组1与样本三元组2的第二种边的权重。
作为示例,在两个样本三元组包括的样本实体和样本实体属性相同(即,满足第二条件)、且包括的样本实体属性为数值型样本实体属性(例如,发行时间)时,如果这两个样本三元组包括的数值型样本实体属性的属性值相同,则确定连接这两个样本三元组之间的第二种边的权重为1;如果这两个样本三元组包括的数值型样本实体属性的属性值不相同,则确定连接这两个样本三元组之间的第二种边的权重为-1。
在步骤503中,构建第一传播图。
作为示例,在确定出第二知识图谱中的多个样本三元组的权重、第一种边的权重以及第二种边的权重之后,在第二知识图谱中增加多个样本三元组对应的权重、第一种边对应的权重、以及第二种边对应的权重,从而得到第一传播图。
参见图8,图8是本申请实施例提供的第一传播图的原理示意图。图8示出的第一传播图是在图7示出的第二知识图谱中增加节点权重和边权重之后得到的。
图8中的节点6为种子三元组,通过人工标注的方式得到的权重为1;节点1-5为非种子三元组,因此,节点1-5对应的权重均为0。
图8中的节点2、节点4以及节点5之间的边为第一种边,所以第一种边的权重为0.01,同样地,节点1、节点3以及节点6之间的边为第一种边,所以第一种边的权重为0.01。
图8中的节点1与节点2之间的第二种边的权重是基于归一化编辑距离确定出的,同样地,节点3与节点4之间的第二种边的权重也是基于归一化编辑距离确定出的。由于第二种边连接的节点5和节点6包括的样本实体属性为数值型样本实体属性,且节点5包括的属性值2018.8.1与节点6包括的属性值2014.3.15不相同,因此可以将节点5与节点6之间第二种边的权重设置为-1。
在步骤504中,对第一传播图进行迭代更新处理。
作为示例,在得到第一传播图之后,对第一传播图进行迭代更新处理,得到第一迭代更新处理结果,然后基于第一迭代更新处理结果生成第一知识图谱。其中,第一迭代更新处理结果包括:每个样本三元组的迭代更新后的权重。
作为示例,可以采用标签传播算法对第一传播图进行迭代更新处理,标签传播算法的原理为,利用第一传播图中的节点与节点之间相互传递的信息,来迭代更新第一传播图中的每个节点的权重。在经过多次迭代更新后,第一传播图中的所有节点的权重趋于稳定。
作为示例,在一次迭代更新过程中,第一传播图中的每个节点的权重更新过程为:确定某个节点和该节点对应的邻居节点,将该节点的每个邻居节点的权重,按照邻居节点与该节点之间的边的权重传递给该节点。作为示例,节点之间相互传递的信息,即为将每个邻居节点的权重按照边的权重计算出的传递值。
例如,参见图8,图8中的节点6的邻居节点包括节点1、节点3和节点5,在一次迭代更新过程中,节点6的迭代更新后的权重=邻居节点1的权重*节点1-6之间的边的权重+邻居节点3的权重*节点3-6之间的边的权重+邻居节点5的权重*节点5-6之间的边的权重,即0*0.01+0.01*0+0*(-1),所以,在这次迭代更新过程结束之后,节点6的迭代更新后的权重为0。
作为示例,第一传播图的迭代更新处理过程可以通过转移矩阵法或梯度下降法实现。
作为示例,在使用梯度下降法实现第一传播图的迭代更新处理时,可以将第一传播图的标签传播问题抽象成以下公式:
其中,表示第一传播图中的所有节点的权重之和的最小值函数;为节点i和节点j之间的边的权重,在迭代更新处理过程中是固定的;表示节点i的权重,表示节点j的权重,节点i和节点j在第一传播图中是邻居节点,的值会随着迭代更新处理的进行而发生改变。其中,i和j的取值范围为1-I,I为第一传播图中的节点总数。
作为示例,在上述公式7的计算出的结果达到最小时,可以认为迭代更新处理过程结束,此时,第一传播图中的所有节点的权重达到收敛。
在步骤5041中,进行离线属性值识别。
作为示例,在第一传播图中的所有节点的权重达到收敛时,获得每个节点(即每个样本三元组)的收敛的迭代更新后的权重,并基于每个节点的迭代更新后的权重进行属性值的识别。
作为示例,针对第一传播图中的、包括相同的样本实体和样本实体属性的多个样本三元组,将迭代更新后的权重最大的样本三元组,确定为该样本实体对应的第一目标三元组。由于第一目标三元组的权重最大,因此将第一目标三元组作为样本实体准确对应的三元组。
例如,从所有包括实体“游戏AA”和实体属性“开发商”的样本三元组中,选择迭代更新后的权重最大的样本三元组,作为实体“游戏AA”对应的第一目标三元组,也就是实体“游戏AA”准确对应的三元组。如,第一传播图中有2个样本三元组包括实体“游戏AA”和实体属性“开发商”,这2个样本三元组分别为(游戏AA,开发商,公司a)和(游戏AA,开发商,公司b),由于样本三元组(游戏AA,开发商,公司a)的迭代更新后的权重为-0.3,而样本三元组(游戏AA,开发商,公司b)的迭代更新后的权重为0.8,那么,将迭代更新后的权重最大的(游戏AA,开发商,公司b)确定为实体“游戏AA”对应的第一目标三元组。
在通过同样的处理方式确定出第一传播图中的每个样本实体对应的第一目标三元组之后,基于每个第一目标三元组以及每个第一目标三元组对应的权重,生成第一知识图谱。
作为示例,按照以下方式构建第一知识图谱:生成第一知识图谱中的与每个第一目标三元组分别对应的节点;在所包括的实体属性的属性值的来源相同的任意两个第一目标三元组之间,生成第一知识图谱中的第一种边;在所包括的实体相同的任意两个第一目标三元组之间,生成第一知识图谱中的第二种边。
作为示例,在得到第一知识图谱之后,可以基于第一知识图谱进行游戏推荐。例如,通过知识图谱的特征表示学习技术,将第一知识图谱中的游戏实体表示为游戏实体特征向量,并在推荐系统中基于游戏实体特征向量进行学习,学习到更新后的对象特征向量和游戏实体特征向量,从而基于更新后的对象特征向量和游戏实体特征向量,针对用户推荐对应的游戏,例如可以针对用户投放对应的游戏推荐广告。
例如,在用户下载了游戏A的情况下,由于第一知识图谱中包括多个游戏实体的多个维度的实体属性的属性值,因此可以基于第一知识图谱确定出游戏A的发行商/游戏类型/发型时间等实体属性的具体属性值,那么可以给该用户推荐和游戏A的发行商相同的游戏B,或者给该用户推荐和游戏A的游戏类型相同的游戏C,或者给该用户推荐和游戏A的发行时间相近的游戏D。
需要说明的是,由于在构建第一知识图谱的过程中,需要基于包括多个样本三元组的第二知识图谱生成第一传播图,再对第一传播图进行迭代更新处理,因此,构建第一知识图谱的计算量非常巨大,通常需要在离线状态下进行计算。而在很多应用场景下,需要实时确定待识别实体属性对应的目标属性值,因此,需要设计一个能够对实时数据流进行快速准确处理的方案。
在步骤505中,生成来源优先级排序。
作为示例,在得到第一知识图谱之后,可以确定出第一知识图谱中的每个实体属性所对应的多个来源的来源优先级排序,从而可以基于来源优先级排序对实时数据流进行属性值的确定。
作为示例,通过以下方式确定第一知识图谱中的每个实体属性所对应的来源优先级排序:基于第一知识图谱中的每个三元组的权重,确定每个实体属性分别在所对应的多个来源上的权重;基于每个实体属性在所对应的多个来源上的权重,确定每个实体属性所对应的多个来源的来源优先级排序;其中,每个实体属性所对应的多个来源是实体属性的不同属性值的来源。
作为示例,遍历每个实体属性,并遍历当前遍历到的实体属性所对应的每个来源,执行以下处理:确定第一知识图谱中的第一三元组;其中,第一三元组包括当前遍历到的实体属性;确定第二三元组,并确定第二三元组的第二数量;其中,第二三元组包括当前遍历到的实体属性,且对应的属性值出自当前遍历到的来源;将每个第二三元组的权重之和与第二数量的比值,确定为当前遍历到的实体属性在当前遍历到的来源上的权重。
其中,表示实体属性p在来源上的权重,如表示实体属性p在来源上的权重,实体属性p可以表示当前遍历到的实体属性,来源表示当前遍历到的实体属性的属性值出自的当前遍历到的来源;表示实体m的实体属性p在来源上的权重,如表示实体m的实体属性p在来源上的权重。其中,来源ϵ{实体属性p所对应的来源集合},n的取值为1-N,N表示实体属性p所对应的来源的总数量;属性pϵ{第一知识图谱包括的实体属性集合};m的取值范围为[1,M],M表示包括实体属性p、且实体属性p的属性值出自来源的三元组的总数(即上文的第二数量)。
作为示例,确定出当前遍历到的实体属性在所对应的多个来源上的权重之后,对当前遍历到的实体属性在多个来源上的权重进行降序排序处理,得到当前遍历到的实体属性在多个来源上的来源优先级排序。作为示例,降序排序中处于头部的来源对应的优先级排序较高,降序排序中处于尾部的来源对应的优先级排序较低。
例如,第一知识图谱中存在2个包括实体属性1且实体属性1的属性值出自来源A、来源B和来源C的三元组,这两个三元组分别为三元组1和三元组2,其中,三元组1中的实体属性1在来源A上的权重为0.5、在来源B的权重为0.4、在来源C上的权重为0.1,三元组2中的实体属性1在来源A上的权重为0.4、在来源B的权重为0.4、在来源C上的权重为0.2,那么,根据上述公式4,可以得出实体属性1在来源A上的权重为(0.5+0.4)/2,即0.45;实体属性1在来源B上的权重为(0.4+0.4)/2,即0.4;实体属性1在来源C上的权重为(0.1+0.2)/2,即0.15。那么对实体属性1在这三个来源上的权重进行降序排序,可以得到来源A(0.45)>来源B(0.4)>来源C(0.15),所以,实体属性1所对应的这三个来源的来源优先级排序为来源A>来源B>来源C。
通过同样的方式确定出第一知识图谱中的每个实体属性所对应的多个来源的来源优先级排序。
在步骤506中,进行实时属性值识别。
作为示例,在确定出第一知识图谱中的每个实体属性所对应的多个来源的来源优先级排序之后,对于实时获得的待识别三元组,可以基于确定出的来源优先级排序,对待识别三元组中的待识别实体属性的属性值进行确定。
例如,在第一知识图谱中,实体属性1所对应的多个来源的来源优先级排序为来源A>来源B>来源C;假设存在两个待识别三元组,分别是(游戏实体1,实体属性1,属性值1)和(游戏实体1,实体属性1,属性值2),其中,属性值1出自来源A,属性值2出自来源C;获取实体属性1对应的来源优先级排序来源A>来源B>来源C,根据该来源优先级排序,由于来源A的优先级排序高于来源C的优先级排序,那么,将出自来源A的属性值1确定为待识别三元组中的待识别实体属性1的目标属性值。
作为示例,在得到多个待识别三元组中的待识别实体属性对应的目标属性值之后,将包括目标属性值的待识别三元组确定为目标三元组,从而可以基于目标三元组在终端的展示界面展示目标三元组对应的实体信息,从而方便开发人员查询。
作为示例,参见图9,图9是本申请实施例提供的实体信息展示页面的示意图。如图9所示,901表示实体为游戏AA;902表示实体属性为发行商、属性值为公司x,以及实体属性为开发商、属性值为公司x;903表示实体属性为上线时间、属性值为2014.04.03,以及实体属性为标签、属性值为多人。除了展示目标三元组对应的信息之外,还可以展示实体属性所对应的多个来源,如图9中实体属性所对应的来源包括来源1-5。
在步骤507中,周期性离线更新第一知识图谱。
作为示例,在将来源优先级最高的待识别实体属性对应的属性值确定为待识别实体属性的目标属性值之后,将包括目标属性值的待识别三元组确定为第二目标三元组,并将第二目标三元组作为新节点加入第一知识图谱,并与第一知识图谱中包括的第三三元组连接,得到第三知识图谱;其中,第三三元组包括的实体与第二目标三元组包括的实体相同,或包括的实体属性的属性值的来源与第二目标三元组包括的实体属性的属性值的来源相同。
作为示例,在得到第三知识图谱之后,可以在离线状态下,确定第三知识图谱中的多个三元组对应的权重、第一种边对应的权重以及第二种边对应的权重;其中,第一种边是满足第一条件的任意两个三元组之间的边,即,第一种边连接的任意两个三元组包括的实体属性的属性值的来源相同;第二种边是满足第三条件的任意两个三元组之间的边,即,第二种边连接的任意两个三元组包括的实体相同;在第三知识图谱中增加多个三元组对应的权重、第一种边对应的权重、以及第二种边对应的权重,得到第三传播图;并周期性地(如每隔一天)对第三传播图进行迭代更新处理,基于得到的第三迭代更新处理结果,生成更新后的第一知识图谱;其中,第三迭代更新处理结果包括每个三元组的迭代更新后的权重。其中,对第三传播图的迭代更新处理方式与对第一传播图的迭代更新处理方式相同。
作为示例,实验结果表明,离线状态的属性值的识别方法的效果,优于实时状态的属性值的识别方法的效果,因此,可以每隔一段时间获得第三知识图谱,并基于第三知识图谱构建第三传播图,对第三传播图进行迭代更新处理,并基于得到的第三迭代更新处理结果,生成更新后的第一知识图谱。
在本申请实施例中,由于第一知识图谱中集成了三元组的权重,从而可以基于第一知识图谱挖掘出实体属性在不同来源上的权重,由于实体属性在不同来源上的权重能够准确反映出出自不同来源的属性值的可靠性,因此,通过基于实体属性在不同来源上的权重确定出的来源优先级排序,可以准确筛选出出自可靠来源的属性值,与相关技术基于经验规则来筛选属性值的方案相比,能够准确衡量出自不同来源的属性值的可靠性,避免规则带来的主观判断的影响,从而使得识别出的属性值的准确性更高;同时,利用第一知识图谱是基于三元组实现的这一易于进行数据计算的特点,显著节约了在识别属性值过程中的计算量,节约了计算资源。与传统的基于规则的属性确定方式相比,本申请实施例提供的方式的准确率提升了约25.8%。
下面继续说明本申请实施例提供的实体属性值的识别装置233的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器230的实体属性值的识别装置233中的软件模块可以包括:第一获取模块2331,用于获取第一知识图谱;其中,第一知识图谱包括多个三元组以及对应的权重,每个三元组包括实体、实体属性和属性值;第一确定模块2332,用于基于每个三元组的权重,确定每个实体属性分别在所对应的多个来源上的权重;其中,每个实体属性所对应的多个来源是实体属性的不同属性值的来源;第二确定模块2333,用于基于每个实体属性在所对应的多个来源上的权重,确定每个实体属性所对应的多个来源的来源优先级排序;第二获取模块2334,用于获取多个待识别三元组;其中,多个待识别三元组包括相同的待识别实体和待识别实体属性,且包括对应不同来源的属性值;第三获取模块2335,用于从每个实体属性所对应的多个来源的来源优先级排序中,获取待识别实体属性对应的不同来源的来源优先级排序;第三确定模块2336,用于基于待识别实体属性对应的不同来源的来源优先级排序,确定待识别实体属性的每个属性值的最高优先级来源,并将出自最高优先级来源的属性值,确定为待识别实体属性的目标属性值。
上述方案中,第一获取模块2331,用于从样本文本中获取多个样本三元组;按照以下方式构建第二知识图谱:按照以下方式构建第二知识图谱:生成与多个样本三元组分别对应的节点;在满足第一条件的任意两个样本三元组之间,生成第二知识图谱中的第一种边,其中,第一条件为任意两个样本三元组包括的样本实体属性的属性值的来源相同;在满足第二条件的任意两个样本三元组之间,生成第二知识图谱中的第二种边,其中,第二条件为任意两个样本三元组包括的样本实体和样本实体属性相同;确定多个样本三元组对应的权重,并确定第一种边以及第二种边分别对应的权重;在第二知识图谱中增加多个样本三元组、第一种边以及第二种边分别对应的权重,得到第一传播图;对第一传播图进行迭代更新处理,基于得到的第一迭代更新处理结果生成第一知识图谱;其中,第一迭代更新处理结果包括:每个样本三元组的迭代更新后的权重。
上述方案中,上述装置还包括第四确定模块,用于将多个样本三元组中的种子三元组的权重确定为第一权重;其中,种子三元组的权重是标注的权重,且第一权重落入第一取值范围,第一取值范围为由第一阈值和第二阈值构成的闭区间,且第一阈值小于第二阈值;将多个样本三元组中的非种子三元组的权重确定为第二权重;其中,非种子三元组的权重是标注的权重,且第二权重的取值为第一权重的取值范围的中间值。
上述方案中,第四确定模块,用于确定第二知识图谱中的第一数量的样本三元组的权重;确定第二知识图谱中的第一种边和第二种边分别对应的权重;其中,第一种边是满足第一条件的任意两个样本三元组之间的边;第二种边是满足第二条件的任意两个样本三元组之间的边;在第二知识图谱中增加第一数量的样本三元组、第一种边以及第二种边分别对应的权重,得到第二传播图;基于第二传播图中的第一数量的样本三元组、第一种边以及第二种边分别对应的权重,对第二传播图中的每个样本三元组的权重进行迭代更新处理,得到第二迭代更新处理结果;其中,第二迭代更新处理结果包括:每个样本三元组的迭代更新后的权重;将迭代更新后的权重大于权重阈值的样本三元组确定为种子三元组;将种子三元组的权重确定为第一权重。
上述方案中,第四确定模块,用于将在第二知识图谱中出现的次数大于数量阈值的样本实体,确定为种子实体;从包括每个种子实体的多个样本三元组中,获取一个样本三元组,并将获取的样本三元组确定为种子实体对应的种子三元组;获取每个种子三元组对应的多个标注权重,并将多个标注权重的平均值确定为种子三元组对应的权重。
上述方案中,第四确定模块,用于将满足第一条件的任意两个样本三元组之间的第一种边的权重,确定为第三权重;其中,第三权重落入第二取值范围,第二取值范围为由第二权重和第二阈值构成的开区间,且第二权重小于第二阈值;基于启发式规则,确定满足第二条件的任意两个样本三元组之间的第二种边的权重。
上述方案中,第四确定模块,用于在任意两个样本三元组包括的样本实体属性为类别型样本实体属性的情况下,通过第一方式确定任意两个样本三元组之间的第二种边的权重;在任意两个样本三元组包括的样本实体属性为数值型样本实体属性的情况下,通过第二方式确定任意两个样本三元组之间的第二种边的权重。
上述方案中,第四确定模块,用于确定任意两个样本三元组包括的两个样本实体属性的属性值之间的编辑距离、以及两个样本实体属性的属性值之间的字符长度最大值;确定编辑距离与第三阈值的乘积,并确定乘积与字符长度最大值的比值;其中,第三阈值大于第二阈值;将1减去比值得到的差值,确定为任意两个样本三元组之间的归一化编辑距离;将任意两个样本三元组之间的归一化编辑距离,确定为任意两个样本三元组之间的第二种边的权重。
上述方案中,第四确定模块,用于在任意两个样本三元组包括的两个样本实体属性的属性值相同的情况下,确定任意两个样本三元组之间的第二种边的权重为第四权重;其中,第四权重的取值为第二阈值;在任意两个样本三元组包括的两个样本实体属性的属性值不相同的情况下,确定任意两个样本三元组之间的第二种边的权重为第五权重;其中,第五权重的取值为第一阈值。
上述方案中,上述装置还包括迭代更新模块,用于在每次迭代更新处理时通过以下方式,确定每个样本三元组的迭代更新后的权重:确定样本三元组在第一传播图中对应的多个邻居样本三元组,并确定每个邻居样本三元组对应的权重乘积;其中,每个邻居样本三元组对应的权重乘积是对以下元素进行相乘得到:邻居样本三元组的权重,邻居样本三元组与样本三元组之间的边的权重;在邻居样本三元组与样本三元组满足第一条件的情况下,边的权重为第一种边对应的权重;在邻居样本三元组与样本三元组满足第二条件的情况下,边的权重为第二种边对应的权重;将多个邻居样本三元组对应的权重乘积的加和,确定为样本三元组的迭代更新后的权重。
上述方案中,上述装置还包括生成模块,用于在包括相同的样本实体和样本实体属性的多个样本三元组中,将迭代更新后的权重最大的样本三元组,确定为样本实体对应的第一目标三元组;基于第一传播图包括的每个样本实体对应的第一目标三元组、以及每个第一目标三元组对应的权重,生成第一知识图谱。
上述方案中,第一获取模块2331,用于对样本文本进行关键词抽取处理,得到多个关键词对;其中,每个关键词对包括一个实体关键词和一个属性值关键词;针对每个关键词对执行以下处理:对关键词对进行关系分类处理,确定关键词对中的实体关键词和属性值关键词之间的关系,将关系确定为实体属性关键词;将实体属性关键词、关键词对包括的实体关键词和属性值关键词进行组合,得到样本三元组。
上述方案中,第一确定模块2332,用于遍历每个实体属性,并遍历当前遍历到的实体属性所对应的每个来源,执行以下处理:确定第一知识图谱中的第一三元组;其中,第一三元组包括当前遍历到的实体属性;确定第二三元组,并确定第二三元组的第二数量;其中,第二三元组包括当前遍历到的实体属性,且对应的属性值出自当前遍历到的来源;将每个第二三元组的权重之和与第二数量的比值,确定为当前遍历到的实体属性在当前遍历到的来源上的权重。
上述方案中,第二确定模块2333,用于针对每个实体属性执行以下处理:针对实体属性所对应的多个来源,确定实体属性在每个来源上的权重;对实体属性在多个来源上的权重进行降序排序处理,得到实体属性在多个来源上的来源优先级排序。
上述方案中,上述装置还包括第五确定模块,用于将包括目标属性值的待识别三元组确定为第二目标三元组;将第二目标三元组作为新节点加入第一知识图谱,并与第一知识图谱中包括的第三三元组连接,得到第三知识图谱;其中,第三三元组包括的实体与第二目标三元组包括的实体相同,或包括的实体属性的属性值的来源与第二目标三元组包括的实体属性的属性值的来源相同。
上述方案中,上述迭代更新模块,用于在离线状态下,确定第三知识图谱中的多个三元组、第一种边以及第二种边分别对应的权重;其中,离线状态是未开始响应针对待识别三元组的识别请求的状态;其中,第一种边是满足第一条件的任意两个三元组之间的边,第一条件为任意两个三元组包括的实体属性的属性值的来源相同;第二种边是满足第三条件的任意两个三元组之间的边,第三条件为任意两个三元组包括的实体相同;在第三知识图谱中增加多个三元组、第一种边以及第二种边分别对应的权重,得到第三传播图;对第三传播图进行迭代更新处理,基于得到的第三迭代更新处理结果,生成更新后的第一知识图谱;其中,第三迭代更新处理结果包括:每个三元组的迭代更新后的权重。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的实体属性值的识别方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的实体属性值的识别方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上所述,本申请实施例由于第一知识图谱中集成了三元组的权重,从而可以基于第一知识图谱挖掘出实体属性在不同来源上的权重,由于实体属性在不同来源上的权重能够准确反映出出自不同来源的属性值的可靠性,因此,通过基于实体属性在不同来源上的权重确定出的来源优先级排序,可以准确筛选出出自可靠来源的属性值,与相关技术基于经验规则来筛选属性值的方案相比,能够准确衡量出自不同来源的属性值的可靠性,避免规则带来的主观判断的影响,从而使得识别出的属性值的准确性更高;同时,利用第一知识图谱是基于三元组实现的这一易于进行数据计算的特点,显著节约了在识别属性值过程中的计算量,节约了计算资源。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。
Claims (20)
1.一种实体属性值的识别方法,其特征在于,所述方法包括:
获取第一知识图谱;其中,所述第一知识图谱包括多个三元组以及对应的权重,每个所述三元组包括实体、实体属性和属性值;
基于每个所述三元组的权重,确定每个所述实体属性分别在所对应的多个来源上的权重;其中,每个所述实体属性所对应的多个来源是所述实体属性的不同所述属性值的来源;
基于每个所述实体属性在所对应的多个来源上的权重,确定每个所述实体属性所对应的多个来源的来源优先级排序;
获取多个待识别三元组;其中,所述多个待识别三元组包括相同的待识别实体和待识别实体属性,且包括对应不同来源的属性值;
从每个所述实体属性所对应的多个来源的来源优先级排序中,获取所述待识别实体属性对应的不同来源的来源优先级排序;
基于所述待识别实体属性对应的不同来源的来源优先级排序,确定所述待识别实体属性的每个所述属性值的最高优先级来源,并将出自所述最高优先级来源的所述属性值,确定为所述待识别实体属性的目标属性值。
2.根据权利要求1所述的方法,其特征在于,
所述获取第一知识图谱,包括:
从样本文本中获取多个样本三元组;
按照以下方式构建第二知识图谱:生成与所述多个样本三元组分别对应的节点;在满足第一条件的任意两个所述样本三元组之间,生成所述第二知识图谱中的第一种边,其中,所述第一条件为任意两个所述样本三元组包括的样本实体属性的属性值的来源相同;在满足第二条件的任意两个所述样本三元组之间,生成所述第二知识图谱中的第二种边,其中,所述第二条件为任意两个所述样本三元组包括的样本实体和样本实体属性相同;
确定所述多个样本三元组对应的权重,并确定所述第一种边以及所述第二种边分别对应的权重;
在所述第二知识图谱中增加所述多个样本三元组、所述第一种边以及所述第二种边分别对应的权重,得到第一传播图;
对所述第一传播图进行迭代更新处理,基于得到的第一迭代更新处理结果生成所述第一知识图谱;其中,所述第一迭代更新处理结果包括:每个所述样本三元组的迭代更新后的权重。
3.根据权利要求2所述的方法,其特征在于,
所述确定所述多个样本三元组对应的权重,包括:
将所述多个样本三元组中的种子三元组的权重确定为第一权重;其中,所述种子三元组的权重是标注的权重,且所述第一权重落入第一取值范围,所述第一取值范围为由第一阈值和第二阈值构成的闭区间,且所述第一阈值小于所述第二阈值;
将所述多个样本三元组中的非种子三元组的权重确定为第二权重;其中,所述非种子三元组的权重是标注的权重,且所述第二权重的取值为所述第一取值范围的中间值。
4.根据权利要求3所述的方法,其特征在于,
所述将所述多个样本三元组中的种子三元组的权重确定为第一权重,包括:
确定所述第二知识图谱中的第一数量的样本三元组的权重;
确定所述第二知识图谱中的所述第一种边和所述第二种边分别对应的权重;
其中,所述第一种边是满足所述第一条件的任意两个所述样本三元组之间的边;所述第二种边是满足所述第二条件的任意两个所述样本三元组之间的边;
在所述第二知识图谱中增加所述第一数量的样本三元组、所述第一种边以及所述第二种边分别对应的权重,得到第二传播图;
基于所述第二传播图中的所述第一数量的样本三元组、所述第一种边以及所述第二种边分别对应的权重,对所述第二传播图中的每个所述样本三元组的权重进行迭代更新处理,得到第二迭代更新处理结果;其中,所述第二迭代更新处理结果包括:每个所述样本三元组的迭代更新后的权重;
将所述迭代更新后的权重大于权重阈值的所述样本三元组确定为种子三元组;
将所述种子三元组的权重确定为第一权重。
5.根据权利要求3所述的方法,其特征在于,
在所述将所述多个样本三元组中的种子三元组的权重确定为第一权重之前,所述方法还包括:
将在所述第二知识图谱中出现的次数大于数量阈值的样本实体,确定为种子实体;
从包括每个所述种子实体的所述多个样本三元组中,获取一个所述样本三元组,并将获取的所述样本三元组确定为所述种子实体对应的种子三元组;
获取每个所述种子三元组对应的多个标注权重,并将所述多个标注权重的平均值确定为所述种子三元组对应的权重。
6.根据权利要求3所述的方法,其特征在于,
所述确定所述第一种边以及所述第二种边分别对应的权重,包括:
将满足所述第一条件的任意两个所述样本三元组之间的所述第一种边的权重,确定为第三权重;其中,所述第三权重落入第二取值范围,所述第二取值范围为由所述第二权重和所述第二阈值构成的开区间,且所述第二权重小于所述第二阈值;
基于启发式规则,确定满足所述第二条件的任意两个所述样本三元组之间的所述第二种边的权重。
7.根据权利要求6所述的方法,其特征在于,
所述基于启发式规则,确定满足所述第二条件的任意两个所述样本三元组之间的所述第二种边的权重,包括:
在任意两个所述样本三元组包括的所述样本实体属性为类别型样本实体属性的情况下,通过第一方式确定任意两个所述样本三元组之间的所述第二种边的权重;
在任意两个所述样本三元组包括的所述样本实体属性为数值型样本实体属性的情况下,通过第二方式确定任意两个所述样本三元组之间的所述第二种边的权重。
8.根据权利要求7所述的方法,其特征在于,
所述通过第一方式确定任意两个所述样本三元组之间的所述第二种边的权重,包括:
确定任意两个所述样本三元组包括的两个样本实体属性的属性值之间的编辑距离、以及两个所述样本实体属性的属性值之间的字符长度最大值;
确定所述编辑距离与第三阈值的乘积,并确定所述乘积与所述字符长度最大值的比值;其中,所述第三阈值大于所述第二阈值;
将1减去所述比值得到的差值,确定为任意两个所述样本三元组之间的归一化编辑距离;
将任意两个所述样本三元组之间的所述归一化编辑距离,确定为任意两个所述样本三元组之间的所述第二种边的权重。
9.根据权利要求7所述的方法,其特征在于,
所述通过第二方式确定任意两个所述样本三元组之间的所述第二种边的权重,包括:
在任意两个所述样本三元组包括的两个样本实体属性的属性值相同的情况下,确定任意两个所述样本三元组之间的所述第二种边的权重为第四权重;其中,所述第四权重的取值为所述第二阈值;
在任意两个所述样本三元组包括的两个所述样本实体属性的属性值不相同的情况下,确定任意两个所述样本三元组之间的所述第二种边的权重为第五权重;其中,所述第五权重的取值为所述第一阈值。
10.根据权利要求2所述的方法,其特征在于,
所述对所述第一传播图进行迭代更新处理,包括:
在每次迭代更新处理时通过以下方式,确定每个所述样本三元组的迭代更新后的权重:
确定所述样本三元组在所述第一传播图中对应的多个邻居样本三元组,并确定每个所述邻居样本三元组对应的权重乘积;
其中,每个所述邻居样本三元组对应的权重乘积是对以下元素进行相乘得到:所述邻居样本三元组的权重,所述邻居样本三元组与所述样本三元组之间的边的权重;在所述邻居样本三元组与所述样本三元组满足所述第一条件的情况下,所述边的权重为所述第一种边对应的权重,在所述邻居样本三元组与所述样本三元组满足所述第二条件的情况下,所述边的权重为所述第二种边对应的权重;
将多个所述邻居样本三元组对应的权重乘积的加和,确定为所述样本三元组的迭代更新后的权重。
11.根据权利要求2所述的方法,其特征在于,
所述基于得到的第一迭代更新处理结果,生成所述第一知识图谱,包括:
在包括相同的样本实体和样本实体属性的所述多个样本三元组中,将迭代更新后的权重最大的所述样本三元组,确定为所述样本实体对应的第一目标三元组;
基于所述第一传播图包括的每个所述样本实体对应的所述第一目标三元组、以及每个所述第一目标三元组对应的权重,生成所述第一知识图谱。
12.根据权利要求2所述的方法,其特征在于,
所述从样本文本中获取多个样本三元组,包括:
对所述样本文本进行关键词抽取处理,得到多个关键词对;其中,每个所述关键词对包括一个实体关键词和一个属性值关键词;
针对每个所述关键词对执行以下处理:
对所述关键词对进行关系分类处理,确定所述关键词对中的所述实体关键词和所述属性值关键词之间的关系,将所述关系确定为实体属性关键词;
将所述实体属性关键词、所述关键词对包括的所述实体关键词和所述属性值关键词进行组合,得到样本三元组。
13.根据权利要求1所述的方法,其特征在于,
所述基于每个所述三元组的权重,确定每个所述实体属性分别在所对应的多个来源上的权重,包括:
遍历每个所述实体属性,并遍历当前遍历到的所述实体属性所对应的每个来源,执行以下处理:
确定所述第一知识图谱中的第一三元组;其中,所述第一三元组包括当前遍历到的所述实体属性;
确定第二三元组,并确定所述第二三元组的第二数量;其中,所述第二三元组包括当前遍历到的所述实体属性,且对应的属性值出自当前遍历到的所述来源;
将每个所述第二三元组的权重之和与所述第二数量的比值,确定为当前遍历到的所述实体属性在当前遍历到的所述来源上的权重。
14.根据权利要求1所述的方法,其特征在于,
所述基于每个所述实体属性在所对应的多个来源上的权重,确定每个所述实体属性所对应的多个来源的来源优先级排序,包括:
针对每个所述实体属性执行以下处理:
针对所述实体属性所对应的多个来源,确定所述实体属性在每个所述来源上的权重;
对所述实体属性在所述多个来源上的权重进行降序排序处理,得到所述实体属性在所述多个来源上的来源优先级排序。
15.根据权利要求1所述的方法,其特征在于,
在所述将出自所述最高优先级来源的所述属性值,确定为所述待识别实体属性的目标属性值之后,所述方法还包括:
将包括所述目标属性值的所述待识别三元组确定为第二目标三元组;
将所述第二目标三元组作为新节点加入所述第一知识图谱,并与所述第一知识图谱中包括的第三三元组连接,得到第三知识图谱;
其中,所述第三三元组包括的实体与所述第二目标三元组包括的实体相同,或包括的实体属性的属性值的来源与所述第二目标三元组包括的实体属性的属性值的来源相同。
16.根据权利要求15所述的方法,其特征在于,
在所述得到第三知识图谱之后,所述方法还包括:
在离线状态下,确定所述第三知识图谱中的多个三元组、第一种边以及第二种边分别对应的权重;其中,所述离线状态是未开始响应针对所述待识别三元组的识别请求的状态;
其中,所述第一种边是满足第一条件的任意两个所述三元组之间的边,所述第一条件为任意两个所述三元组包括的实体属性的属性值的来源相同;所述第二种边是满足第三条件的任意两个所述三元组之间的边,所述第三条件为任意两个所述三元组包括的实体相同;
在所述第三知识图谱中增加所述多个三元组、所述第一种边以及所述第二种边分别对应的权重,得到第三传播图;
对所述第三传播图进行迭代更新处理,基于得到的第三迭代更新处理结果,生成更新后的所述第一知识图谱;其中,所述第三迭代更新处理结果包括:每个所述三元组的迭代更新后的权重。
17.一种实体属性值的识别装置,其特征在于,所述装置包括:
第一获取模块,用于获取第一知识图谱;其中,所述第一知识图谱包括多个三元组以及对应的权重,每个所述三元组包括实体、实体属性和属性值;
第一确定模块,用于基于每个所述三元组的权重,确定每个所述实体属性分别在所对应的多个来源上的权重;其中,每个所述实体属性所对应的多个来源是所述实体属性的不同所述属性值的来源;
第二确定模块,用于基于每个所述实体属性在所对应的多个来源上的权重,确定每个所述实体属性所对应的多个来源的来源优先级排序;
第二获取模块,用于获取多个待识别三元组;其中,所述多个待识别三元组包括相同的待识别实体和待识别实体属性,且包括对应不同来源的属性值;
第三获取模块,用于从每个所述实体属性所对应的多个来源的来源优先级排序中,获取所述待识别实体属性对应的不同来源的来源优先级排序;
第三确定模块,用于基于所述待识别实体属性对应的不同来源的来源优先级排序,确定所述待识别实体属性的每个所述属性值的最高优先级来源,并将出自所述最高优先级来源的所述属性值,确定为所述待识别实体属性的目标属性值。
18.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至16任一项所述的实体属性值的识别方法。
19.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被处理器执行时实现权利要求1至16任一项所述的实体属性值的识别方法。
20.一种计算机程序产品,包括计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时实现权利要求1至16任一项所述的实体属性值的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210411595.4A CN114511085A (zh) | 2022-04-19 | 2022-04-19 | 实体属性值的识别方法、装置、设备、介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210411595.4A CN114511085A (zh) | 2022-04-19 | 2022-04-19 | 实体属性值的识别方法、装置、设备、介质及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114511085A true CN114511085A (zh) | 2022-05-17 |
Family
ID=81555187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210411595.4A Pending CN114511085A (zh) | 2022-04-19 | 2022-04-19 | 实体属性值的识别方法、装置、设备、介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114511085A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115048387A (zh) * | 2022-06-30 | 2022-09-13 | 支付宝(杭州)信息技术有限公司 | 一种图数据处理方法和系统 |
CN116910277A (zh) * | 2023-09-13 | 2023-10-20 | 之江实验室 | 知识图谱构建方法、资源查找方法、计算机设备和介质 |
-
2022
- 2022-04-19 CN CN202210411595.4A patent/CN114511085A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115048387A (zh) * | 2022-06-30 | 2022-09-13 | 支付宝(杭州)信息技术有限公司 | 一种图数据处理方法和系统 |
CN116910277A (zh) * | 2023-09-13 | 2023-10-20 | 之江实验室 | 知识图谱构建方法、资源查找方法、计算机设备和介质 |
CN116910277B (zh) * | 2023-09-13 | 2024-02-27 | 之江实验室 | 知识图谱构建方法、资源查找方法、计算机设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102564144B1 (ko) | 텍스트 관련도를 확정하기 위한 방법, 장치, 기기 및 매체 | |
US11580104B2 (en) | Method, apparatus, device, and storage medium for intention recommendation | |
US10725836B2 (en) | Intent-based organisation of APIs | |
CN110609902B (zh) | 一种基于融合知识图谱的文本处理方法及装置 | |
CN111444428A (zh) | 基于人工智能的信息推荐方法、装置、电子设备及存储介质 | |
CN110968695A (zh) | 基于弱监督技术主动学习的智能标注方法、装置及平台 | |
CN110515986B (zh) | 一种社交网络图的处理方法、装置及存储介质 | |
CN114511085A (zh) | 实体属性值的识别方法、装置、设备、介质及程序产品 | |
WO2021155691A1 (zh) | 用户画像生成方法、装置、存储介质及设备 | |
Amjad et al. | Data mining techniques to analyze the impact of social media on academic performance of high school students | |
CN116601626A (zh) | 个人知识图谱构建方法、装置及相关设备 | |
CN114330703A (zh) | 搜索模型的更新方法、装置、设备及计算机可读存储介质 | |
CN113254630A (zh) | 一种面向全球综合观测成果的领域知识图谱推荐方法 | |
WO2015084757A1 (en) | Systems and methods for processing data stored in a database | |
CN115659008A (zh) | 大数据信息反馈的信息推送系统、方法、电子设备及介质 | |
CN113157871B (zh) | 应用人工智能的新闻舆情文本处理方法、服务器及介质 | |
CN110737779A (zh) | 知识图谱的构建方法、装置、存储介质和电子设备 | |
CN112100493B (zh) | 文档排序方法、装置、设备及存储介质 | |
CN113704420A (zh) | 文本中的角色识别方法、装置、电子设备及存储介质 | |
CN111858962A (zh) | 数据处理方法、装置及计算机可读存储介质 | |
CN113704422A (zh) | 一种文本推荐方法、装置、计算机设备和存储介质 | |
CN111310016B (zh) | 标签挖掘方法、装置、服务器和存储介质 | |
Leifeld et al. | Package ‘btergm’ | |
CN111476037B (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
CN113505889A (zh) | 图谱化知识库的处理方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40070940 Country of ref document: HK |