CN109960722A

CN109960722A - 一种信息处理方法及装置

Info

Publication number: CN109960722A
Application number: CN201910254427.7A
Authority: CN
Inventors: 刘欣然; 胡长建; 缪庆亮
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2019-03-31
Filing date: 2019-03-31
Publication date: 2019-07-02
Anticipated expiration: 2039-03-31
Also published as: CN109960722B

Abstract

本申请公开了一种信息处理方法及装置，所述方法及装置在获得针对目标实体的属性查询指令，并响应于该指令获取所述目标实体的属性时，在所获取的目标实体的属性中至少包括自动为所述目标实体扩展出的属性，从而最终反馈的属性信息也至少包括自动为所述目标实体扩展出的属性。相比于传统基于人工的属性标注方式，本申请由于可自动对实体进行属性扩展，从而，为知识图谱的实体属性标注工作提供了便利，且属性扩展/标注的效率相比于人工方式也较高，相对应地，可实现高效地对知识图谱的知识结构进行完善与优化，为智能搜索/智能查询/机器人聊天等应用提供了更为全面的实体属性信息。

Description

一种信息处理方法及装置

技术领域

本申请属于人工智能技术领域，尤其涉及一种信息处理方法及装置。

背景技术

知识图谱是人工智能技术的重要组成部分，它是具有语义处理与信息互联互通能力的结构化语义知识库，用于以符号形式描述物理世界中的概念及其相互关系，其基本组成单位包括实体-属性(或关系)-实体三元组，实体之间通过属性(或关系)相互联结，构成网状的知识结构。

知识图谱通常在智能搜索、机器人聊天、智能问答以及智能推荐方面有着广泛的应用。开放的知识图谱经过知识获取，已包含有千万级的实体和属性(或关系)，但仍存在知识结构不完备的问题，需对知识图谱进行信息补全和优化。然而，在实际大规模的知识图谱构建工作中，传统基于人工的属性标注方式显然存在标注的数据量大、效率低等问题，这相应导致知识图谱的属性标注工作具备较高的难度，无法为智能搜索/智能查询/机器人聊天等应用提供较全面的实体属性信息。

发明内容

有鉴于此，本申请的目的在于提供一种信息处理方法及装置，以通过对实体进行自动化的属性扩展，为智能搜索/智能查询/机器人聊天等应用提供更全面的实体属性信息。

为此，本申请公开如下技术方案：

一种信息处理方法，包括：

获取针对目标实体的属性查询指令；

获取所述目标实体的属性，所述目标实体的属性至少包括为所述目标实体扩展出的属性；

反馈所获取的所述目标实体的属性。

上述方法，优选的，为所述目标实体扩展属性，包括：

获取所述目标实体的语义环境信息；

基于所述语义环境信息，为所述目标实体扩展属性。

上述方法，优选的，所述获取所述目标实体的语义环境信息，包括：

获取包括所述目标实体的三元组序列；所述三元组序列包括至少一个实体-属性-实体三元组；

提取所述三元组序列中的各个实体，得到实体序列，提取所述三元组序列中的各个属性，得到属性序列；将所述实体序列中除所述目标实体之外的其它实体以及所述属性序列中的各个属性作为所述目标实体的语义环境信息。

上述方法，优选的，所述基于所述语义环境信息，为所述目标实体扩展属性，包括：

利用预先训练的第一预测模型，基于所述实体序列中除所述目标实体之外的其它实体以及所述属性序列中的各个属性，预测所述目标实体的属性，得到所述目标实体的候选属性集合；

从所述候选属性集合中选取出符合第一置信度条件的至少一个目标属性作为所述目标实体的属性。

上述方法，优选的，在所述从所述候选属性集合中选取出符合第一置信度条件的至少一个目标属性之后，还包括：

若所述目标实体具备类别信息，则基于所述类别信息对所述至少一个目标属性进行筛选处理，并基于筛选处理结果获得所述目标实体的属性；

若所述目标实体不具备类别信息，则利用预先训练的第二预测模型，基于所述至少一个目标属性，预测所述目标实体的类别信息。

上述方法，优选的，所述基于目标实体的类别信息对所述至少一个目标属性进行筛选处理，并基于筛选处理结果获得所述目标实体的属性，包括：

从所述至少一个目标属性中筛选出符合所述类别信息的属性，作为所述目标实体的必有属性；

从所述至少一个目标属性的不符合所述类别信息的属性中选取出符合第二置信度条件的属性，作为所述目标实体的潜在属性。

上述方法，优选的，所述从所述至少一个目标属性中筛选出符合所述类别信息的属性，包括：

基于预先创建的类别与属性的对应关系信息集合，确定所述目标实体的类别信息对应的属性空间，所述属性空间包括至少一个属性；

从所述至少一个目标属性中筛选出包括在所述属性空间中的属性，作为所述目标实体的必有属性。

上述方法，优选的，还包括：

向预先创建的类别与属性的对应关系信息集合中添加所述目标实体的类别信息与所述潜在属性的对应关系信息，或者添加预测出的类别信息与目标实体的属性的对应关系信息。

一种信息处理装置，包括：

存储器，用于至少存储一组指令集；

处理器，用于调用并执行所述存储器中的所述指令集，通过执行所述指令集进行以下操作：

获取针对目标实体的属性查询指令；

获取所述目标实体的属性，所述目标实体的属性至少包括系统为所述目标实体扩展出的属性；

反馈所获取的所述目标实体的属性。

上述装置，优选的，所述处理器为所述目标实体扩展属性，具体包括：

获取所述目标实体的语义环境信息；

基于所述语义环境信息，为所述目标实体扩展属性。

根据以上方案可知，本申请提供的信息处理方法及装置，在获得针对目标实体的属性查询指令，并响应于该指令获取所述目标实体的属性时，在所获取的目标实体的属性中至少包括自动为所述目标实体扩展出的属性，从而最终反馈的属性信息也至少包括自动为所述目标实体扩展出的属性。相比于传统基于人工的属性标注方式，本申请由于可自动对实体进行属性扩展，从而，为知识图谱的实体属性标注工作提供了便利，且属性扩展/标注的效率相比于人工方式也较高，相对应地，可实现高效地对知识图谱的知识结构进行完善与优化，为智能搜索/智能查询/机器人聊天等应用提供了更为全面的实体属性信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本申请实施例一提供的信息处理方法的流程示意图；

图2是本申请实施例二提供的为实体扩展属性的处理流程示意图；

图3是本申请实施例二提供的基于知识图谱/知识库构建第一预测模型、进而利用第一预测模型对知识图谱/知识库进行信息补全与优化的处理逻辑示意图；

图4是本申请实施例三提供的为实体扩展属性的处理流程示意图；

图5是本申请实施例三提供的对目标实体进行属性预测及筛选的一个示例图；

图6是本申请实施例三提供的基于知识图谱/知识库构建第一预测模型、第二预测属性进而利用第一预测模型、第二预测模型对知识图谱/知识库进行信息补全与优化的处理逻辑示意图；

图7是本申请实施例三提供的训练第二预测模型并利用训练出的第二预测模型对目标实体的层级化类别信息进行预测的一个示例图；

图8是本申请实施例三提供的实体类别信息的层级化概率分布示意图；

图9是本申请实施例四提供的为实体扩展属性的处理流程示意图；

图10是本申请实施例五提供的信息处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请公开了一种信息处理方法及装置，该方法及装置能够通过对实体进行自动化的属性扩展，来完善与优化知识图谱/知识库的知识结构，进而为智能搜索/智能查询/机器人聊天等应用提供更全面的实体属性信息。

该方法及装置可应用于个人计算机、智能手机、平板电脑等终端设备中，或者还可以应用于网络端/云端服务器中，或者还可以将该方法及装置的部分处理逻辑部署在终端设备中，而处理逻辑中的另外部分则部署在网络端/云端服务器中，即通过用户终端设备与网络端/云端服务器的协同处理来实现本申请的信息处理方法及装置的整个处理逻辑。由于知识图谱/知识库的信息结构较为庞大，通常情况下，会将知识图谱/知识库部署在用于提供相应信息服务的网络端/云端服务器中，因此，本申请中，优选地，至少将上述信息处理方法及装置中对知识图谱/知识库进行操作的相关处理逻辑(如对知识图谱/知识库中的实体属性进行自动扩展、在知识图谱/知识库中搜索目标实体对应的属性等)部署在服务器端，而其他的部分则可基于实际需求部署在终端与服务器端中的任一端，以下将通过具体实施例对本申请的信息处理方法及装置进行详细说明。

实施例一

参考图1，是本申请提供的一种信息处理方法实施例一的流程图，在本实施例中，如图1所示，该信息处理方法可以包括以下步骤：

步骤101、获取针对目标实体的属性查询指令。

所述属性查询指令，可以是但不限于在智能搜索、机器人聊天、智能问答或智能推荐等应用场景中，所触发的针对目标实体的属性查询指令。

具体地，可以是但不限于在上述应用场景中，由用户基于其实际的信息获取需求、以文字录入方式或语音方式所触发的针对目标实体的属性查询指令，如由用户触发的查询“教师”、“演员”、“飞行员”等目标实体具备哪些属性的指令等；或者还可以是但不限于在上述应用场景中，由用于提供信息服务的服务端(如网络提供的、或安装并运行于用户终端设备上的智能会话系统等)为了生成所需答案/会话信息而自动触发的针对某目标实体的属性查询指令，如智能会话系统针对用户提出的“智能手机A与智能手机B相比有哪些优缺点？”这一问题，往往会自动触发针对智能手机A、B的属性查询指令，以获知其分别具备哪些方面的属性(如屏幕尺寸、颜色、内存大小、功能种类、处理器类型、性能等等)，进而基于属性比对来生成针对上述问题的答案信息。

在用户或用于提供信息服务的服务端触发针对目标实体的属性查询指令后，于终端设备或服务器等本申请方法的执行主体来说，相应地会获得所述属性查询指令。

步骤102、获取所述目标实体的属性，所述目标实体的属性至少包括为所述目标实体扩展出的属性。

在获得针对目标实体的属性查询指令后，为了响应该指令，可从知识图谱或知识库中搜索/查询对应于该目标实体的各个属性。本申请在响应于该属性查询指令，从知识图谱或知识库中获取对应于所述目标实体的属性时，所获取的属性中至少包括自动为所述目标实体扩展出的属性。

其中，可选地，作为一种可能的实施方式，所获取的目标实体的属性可以仅包括自动为该目标实体扩展出的属性。

作为另一种可能的实施方式，所获取的目标实体的属性包括两部分：一部分是知识图谱或知识库中原本对应于该目标实体的属性(通常为人工标注的属性)，另一部分是自动为目标实体扩展出的属性。

需要说明的是，自动为目标实体扩展出的属性，可以是在获得上述属性查询指令时，基于实时的属性扩展处理实时为目标实体扩展出的属性，和/或在获得上述属性查询指令之前，基于条件触发在符合设定的条件(如定时在每天/每周中服务器的非处理高峰时段触发对实体属性的自动扩展处理)时为目标实体扩展出的属性，本实施例对此不作限定。

步骤103、反馈所获取的所述目标实体的属性。

在通过搜索/查询知识图谱或知识库，获得对应于所述目标实体的属性后，可将所述目标实体的属性反馈至请求方，如反馈至终端设备或者反馈至用于提供信息服务的服务端等，以便于用户通过其终端界面上展示的反馈信息获知目标实体具备哪些属性，或者便于服务端基于所反馈的属性信息进一步执行后续处理，如基于所反馈的属性信息进一步生成所需的答案/会话信息等。

其中，所反馈的属性信息中同样至少包括自动为目标实体扩展出的属性。

根据以上方案可知，本实施例提供的信息处理方法，在获得针对目标实体的属性查询指令，并响应于该指令获取所述目标实体的属性时，在所获取的目标实体的属性中至少包括自动为所述目标实体扩展出的属性，从而最终反馈的属性信息也至少包括自动为所述目标实体扩展出的属性。相比于传统基于人工的属性标注方式，本申请由于可自动对实体进行属性扩展，从而，为知识图谱的实体属性标注工作提供了便利，且属性扩展/标注的效率相比于人工方式也较高，相对应地，可实现高效地对知识图谱的知识结构进行完善与优化，为智能搜索/智能查询/机器人聊天等应用提供了更为全面的实体属性信息。

实施例二

本申请主要基于实体在其所处的信息环境(如知识图谱或知识库等)中的语义环境信息，来自动对实体进行属性扩展，接下来将详细阐述自动扩展实体属性的实现过程。

参考图2，具体可通过以下的处理过程实现对实体的属性进行扩展：

步骤201、获取包括所述目标实体的三元组序列；所述三元组序列包括至少一个实体-属性-实体三元组。

对于已有的包括一系列“实体-属性-实体”三元组的知识图谱G＝{Triple＝(E_head，Rel，E_tail)}，其中，Triple表示三元组，E_head表示三元组中的头部实体，E_tail表示三元组中的尾部实体，Rel表示联结E_head与E_tail的属性，可以定义实体E的信息结构为：E_info＝{Seq_E，Ont_E，Rel_E}，其中，Seq_E＝{包含实体E的三元组序列}，Ont_E＝实体E在实体本体中的层级分类，Rel_E＝{实体E具有的属性}。

示例性地，以某一人物实体“梁xx”为例，则其实体的信息结构可以表示为：梁xx_info＝{Seq_梁xx,Ont_梁xx,Rel_梁xx}，其中：

Seq_梁xx＝{

梁xx-[性别]-男性，

梁xx-[配偶]-刘xx-[出生地]-苏州-[所属国家]-中国，

梁xx-[出生地]-香港-[所属国家]-中国，

梁xx-[主演]-无间道-[类型]-警匪片，

……}，

Ont_梁xx＝人物/文化娱乐/演员，

Rel_梁xx＝{性别，出生地，配偶，主演，民族，星座，毕业院校……}。

虽然知识图谱中的三元组序列一般已经包含了实体的一部分属性特征(一般是人工标注的属性)，但由于知识图谱的不完全性以及开放世界假设，实体E(例如知识图谱中的一些信息较为稀疏的实体等)的很多其他属性往往并没有在知识图谱G所包含的自身实体E中体现出来，而很可能表现在了其他与E相似的实体上，如上述的人物实体“梁xx”已具备了性别，出生地，配偶，主演，民族，星座，毕业院校等属性，而人物实体“张xx”在具备了“梁xx”所具备的上述属性后，还具备“经济公司”等“梁xx”所不具备的属性，那么“梁xx”由于具备多个与“张xx”相同的属性，两者较为相似，从而其很可能也具备“经济公司”这些属性，只是在知识图谱中未将这些属性标注出来，鉴于此，挖掘这些相类似实体中的属性可以较为准确的对知识图谱中属性稀疏的实体进行有针对性的属性补全和优化。

相对应地，本实施例的主要目的即在于基于知识图谱/知识库所提供的大数据(往往提供有与目标实体相类似的一系列其他实体)，利用目标实体在其所处信息环境(如知识图谱或知识库等)中的语义环境信息，来对目标实体的实体属性进行扩展，以优化或补全目标实体的信息结构。

如上文所述，知识图谱的基本组成单位包括“实体-属性-实体”三元组，实体之间通过属性相互联结，构成网状的知识结构，也即，知识图谱中的三元组利用属性联系不同的实体，那么，相对应地，在同一三元组或同一三元组序列中的各个实体通常会基于属性的联结作用而具备一定的关联性，从而，一系列相关实体组成的三元组序列可以为该序列中的实体提供较丰富的上下文信息，能够加强对实体的语义环境构建，鉴于此特点，本实施例接下来将主要从知识图谱中包括目标实体的三元组序列中来提取目标实体的语义环境信息。

以目标实体为上述示例中的人物实体“梁xx”为例，在该示例中，包括该目标实体的三元组序列共有4个，具体为：

梁xx-[性别]-男性，

梁xx-[配偶]-刘xx-[出生地]-苏州-[所属国家]-中国，

梁xx-[出生地]-香港-[所属国家]-中国，

梁xx-[主演]-无间道-[类型]-警匪片。

上述的三元组序列为该目标实体“梁xx”提供了较丰富的上下文信息，从而，可基于这些三元组序列提取该目标实体的语义环境信息。

步骤202、提取所述三元组序列中的各个实体，得到实体序列，提取所述三元组序列中的各个属性，得到属性序列；将所述实体序列中除所述目标实体之外的其它实体以及所述属性序列中的各个属性作为所述目标实体的语义环境信息。

仍以上述的目标实体“梁xx”为例，针对包含该目标实体的上述4个三元组序列，在对各个三元组序列进行实体序列提取及属性序列提取后，所得到的各个三元组序列的实体序列及属性序列分别为：

[梁xx，男性]，[性别]；

[梁xx，刘xx，苏州，中国]，[配偶，出生地，所属国家]；

[梁xx，香港，中国]，[出生地，所属国家]；

[梁xx，无间道，警匪片]，[主演，类型]。

具体可将上述各个三元组序列对应的实体序列中除所述目标实体“梁xx”之外的其它实体以及对应的属性序列中的各个属性，作为所述目标实体“梁xx”的语义环境信息。

步骤203、利用预先训练的第一预测模型，基于所述实体序列中除所述目标实体之外的其它实体以及所述属性序列中的各个属性，预测所述目标实体的属性，得到所述目标实体的候选属性集合。

为了能够基于知识图谱/知识库所提供的大数据(往往提供有与目标实体相类似的一系列其他实体)，利用目标实体在其所处信息环境(如知识图谱或知识库等)中的语义环境信息，来对目标实体的实体属性进行扩展，以进一步优化或补全目标实体的信息结构，本实施例预先基于知识图谱或知识库中的数据信息训练了一能够对实体进行属性预测的第一预测模型。

其中，该第一预测模型的训练数据可以但不限于通过对知识图谱或知识库中的信息经过筛选、归纳和抽取来获得，所筛选、归纳和抽取的作为训练数据的信息具体可以包括属性及分类类别等信息标注较为全面的实体信息，且所抽取的信息可采用三元组序列的形式表示。

在获得上述训练数据后，可进一步基于相应的结构学习算法或网络模型，来学习训练数据的三元组序列的序列特征，进而训练得到一具备实体属性预测功能的第一预测模型。所述结构学习算法包括但不限于隐马尔科夫模型(HMM，Hidden Markov Model)、条件随机场(CRF，conditional random field algorithm)、结构感知器或结构型支持向量机等算法，所述网络模型包括但不限于循环神经网络(RNN，Recurrent Neural Network)、长短期记忆网络(LSTM，Long Short-Term Memory)等网络模型，实际实施本申请时，可以选择上述结构学习算法或网络模型中的任意之一来训练上述的第一预测模型。

具体地，作为训练数据的每个所述三元组序列，可表示为一对相匹配的实体序列与属性序列，其中，实体序列可表示为E＝[E₁，...，E_n]，n表示实体序列中实体的数量，对应的属性序列可表示为R＝[R₁，...,R_n-1，END]，在进行模型训练时，可将每对相匹配的实体序列与属性序列作所述结构学习算法或网络模型的输入，结构学习算法或网络模型基于输入的实体序列与属性序列，不断学习三元组序列的序列特征，比如汇总、学习三元组序列中不同实体的不同属性特征(如不同的实体分别具备哪些/哪些方面的属性)等，最终得到具备实体属性预测功能的第一预测模型。

在完成训练所述第一预测模型的基础上，当存在针对目标实体的属性扩展需求时，可利用该第一预测模型以所述目标实体以及所述目标实体的语义环境信息为输入，来预测该目标实体的属性。

更具体地，在向第一预测模型输入所述目标实体以及所述目标实体的语义环境信息时，可采用与训练该模型时的训练数据相同的信息输入形式，即，将包含目标实体的三元组序列所对应的实体序列与属性序列一并输入上述的第一预测模型，由该第一预测模型基于该输入的实体序列与属性序列所提供的语义环境信息，并利用预先学习的不同实体的不同属性特征，对目标实体的属性进行预测。

示例性地，在训练第一预测模型时，学习到实体“张xx”除了具备性别、出生地，配偶，主演、民族、星座、毕业院校等属性(图中未示出)，还具备经纪公司、作曲、编曲等属性，从而，在利用该第一预测模型对目标实体“梁xx”进行属性预测以扩展其属性时，由于基于输入信息可以获知“梁xx”具备与“张xx”相同的性别、出生地，配偶，主演、民族、星座、毕业院校等属性，从而可推测“梁xx”与“张xx”为相似实体，进而可预测出“梁xx”还可能具备经纪公司、作曲、编曲这些属性，从而最终可得出实体“梁xx”的包括经纪公司、作曲、编曲这些属性的候选属性集合。

进一步地，在进行预测时，可以具体给出每个所预测出的候选属性的置信度，比如实体“梁xx”由于其原有属性中具备“演员”这一属性，从而，其具备“经纪公司”的置信度较高(与“演员”属性间存在关联)，而具备“作曲”、“编曲”这些属性的置信度则相对较低。

参考图3，图3示出了基于知识图谱/知识库构建第一预测模型、进而利用第一预测模型对知识图谱/知识库进行信息补全与优化的处理逻辑示意图。

在具体实施本申请时，可将基于上述第一预测模型的属性预测问题转换为序列信息标注问题，而针对目标实体的属性预测任务则相应转换为以下任务：给定一个实体序列及该实体序列对应的属性序列，得到其中某个实体可能具有的属性。从宏观角度来说，相当于对该实体所在的实体序列进行了扩展式的属性标注(相应得到一扩展属性序列，该扩展属性序列包括原有输入的属性序列与所扩展/预测出的属性)。具体实施中，可以但不限于将第一预测模型的输出设计为包括：该扩展属性序列以及扩展属性序列对应的置信度，其中，扩展属性序列对应的置信度同样可作为所扩展/预测出的属性的置信度。

在本实施例中，在向第一预测模型输入目标实体所在的实体序列与相匹配的属性序列时，示例性地将实体序列中的最后一个实体作为待预测/标注的实体，从而，针对待预测/标注的目标实体为上述的“梁xx”的情况，具体可通过将其所在的实体序列中的各个实体进行逆向排序，来得到该目标实体对应的待输入第一预测模型的实体序列，相对应地，同样需对相匹配的属性序列中的各个属性进行逆序排序，来得到待输入第一预测模型的属性序列。

以第一预测模型为基于HMM训练的模型为例，出现属性序列R的概率P(R)为：

其中，P(R_i+1|R_i)表示出现序列R_i的情况下出现序列R_i+1的条件概率。

在给定输入E(实体序列)的情况下产生属性序列R的概率为P(E|R)：

其中，P(E_i|R_i)表示给定输入E_i的情况下产生序列R_i的概率，式(1)(2)中的n表示实体序列E中实体的数量。

序列E被标注为属性序列R的概率P(E，R)为：

对于实体E_m的属性预测过程可表示为，给定长度为m的实体序列E及相匹配的长度为m-1的属性序列R，其中，E_m为序列末尾待标注属性的实体，则E_m的各个候选属性R_{Candidate_m}为第一预测模型输出的各个扩展属性序列中的末尾属性R_m：

R_{candidata_m}＝{R_m∈Rextended]RankP(E，Rextended}}(m≥2) (4)

其中，R_extended表示扩展属性序列，所述RankP(E，R_extended)表示实体序列E对应的按置信度排序后的各扩展属性序列。

步骤204、从所述候选属性集合中选取出符合第一置信度条件的至少一个目标属性作为所述目标实体的属性。

在获得目标实体的各个候选属性从而得到其候选属性集合后，可进一步从候选属性集合中选取出置信度较高的一个或多个候选属性作为目标属性，最终将该目标属性作为所述目标实体的属性。

其中，所述第一置信度条件可以为：为置信度最大的前k(大于等于1的整数)个候选属性。基于该条件，可对各候选属性按置信度进行降序/升序排序，并从排序序列的头部/尾端依次选取出k个候选属性作为目标实体的属性，在该情况下，最终所得的所述目标实体的各个属性可以表示为：

或者，可选地，所述第一置信度条件还可以为：候选属性对应的置信度大于预定的置信度阈值。基于该条件，可从各候选属性中选取出置信度大于该阈值的各个候选属性作为目标实体的属性。

具体应用本申请时，所述第一置信度条件的设定并不限于以上的几种情形，可由技术人员依实际情况而设，本实施例对此不作限定。

基于本实施例方案，可依据目标实体的语义环境信息自动对目标实体的属性进预测、扩展，为知识图谱的实体属性标注工作提供了便利，且属性扩展/标注的效率相比于人工方式也较高，可实现高效地对知识图谱的知识结构进行完善，为智能搜索/智能查询/机器人聊天等应用提供了更为全面的实体属性信息。

实施例三

在本申请实施例三中，参考图4示出的对目标实体进行属性预测的流程示意图，在从所述候选属性集合中选取出符合第一置信度条件的至少一个目标属性之后，目标实体的属性预测处理过程还可以包括：

步骤205、若所述目标实体具备类别信息，则基于所述类别信息对所述至少一个目标属性进行筛选处理，并基于筛选处理结果获得所述目标实体的属性。

在实际大规模知识图谱的构建工作中，实体本身的特征和类别通常会对实体的属性产生一定的限制，例如“梁xx”作为类别“人物”的实体，其可以具有“性别”、“出生日期”…这些属性，而不会具有“分辨率”、“处理器类型”等属性，“梁xx”作为“人物”类别中的“演员”这一子类别，其可以具有“代表作”、“参演的影视剧”、“经纪公司”这些属性，而不会具备“作曲”、“编曲”这些属性。

鉴于此，在为目标实体预测属性的过程中，当从所述候选属性集合中选取出符合第一置信度条件的至少一个目标属性后，若目标实体具备类别信息，则本实施例进一步基于“实体类别可以对实体属性产生限制作用”的这一特点，利用目标实体的类别信息对所述至少一个目标属性进行筛选处理，并基于筛选处理结果获得所述目标实体的属性。

具体地，本申请预先基于知识图谱或知识库建立了类别与属性的对应关系信息集合(知识图谱或知识库往往已包含有千万级的实体及其属性/类别，而仅存在部分实体的属性/类别未标注或较为稀疏)，示例性地，本实施例采用“本体类别属性库”的形式来构建该集合，以使得后续能够基于该本体类别属性库，实现利用目标实体的类别对其属性进行筛选。该本体类别属性库中包括知识图谱或知识库中的各个实体与其类别及属性的对应关系信息，其中，在构建该本体类别属性库时，由于该本体类别属性库具体应用于实体属性的筛选中以使得为实体预测出可信度较高的属性，从而，优选地，对于出现概率较低不满足条件(相对应地参考价值也较低)的属性可不对其进行入库。

在构建上述的本体类别属性库的基础上，当从目标实体的候选属性集合中选取出符合第一置信度条件的至少一个目标属性后，本实施例进一步基于目标实体的类别信息对所述至少一个目标属性进行筛选。

需要说明的是，在对目标实体进行属性预测及基于类别的属性筛选时，本申请将预测出的属性进一步划分为与实体类别相关的必有属性以及暗示实体具体子类别的潜在属性。

其中，目标实体的与实体类别相关的必有属性，是指存在于所述目标实体的类别信息在所述本体类别属性库中对应的属性空间中的属性，从而，基于所述本体类别属性库筛选得到的目标实体的各个属性可作为为目标实体的必有属性。

目标实体的潜在属性，是指不符合目标实体类别信息(也即不存在于目标实体的类别信息在所述本体类别属性库中对应的属性空间)、且符合第二置信度条件的属性，所述第二置信度条件可以是能够表示置信度较高的条件，例如不低于预定的第二置信度阈值或者在按置信度降序排序时属于置信度排名前p(不小于1的整数)的属性等，因此，对于所述至少一个目标属性中不符合目标实体类别信息的各个属性，可进一步按其对应的置信度信息筛选出符合所述第二置信度条件的属性作为目标实体的潜在属性。

而对于所述至少一个目标属性中既不不符合目标实体类别信息、又不符合所述第二置信度条件的属性则过滤掉，不作为所述目标实体的属性。

具体地，本实施例将所述本体类别属性库中与所述目标实体的类别信息相对应的全部属性，作为目标实体的类别信息的属性空间，并从目标实体的至少一个目标属性中筛选出包括在所述属性空间中的属性，作为所述目标实体的必有属性R_{filter_m}：

R_{filter_m}＝R_{goel_m}∩{Rel_E1∪Rel_E2∪…} (6)

其中，E₁，E₂，…∈{E|Ont_E＝Ont_m}，即E₁，E₂，…为本体类别属性库中所对应的类别与目标实体的类别相同的实体。

在此基础上，可进一步从所述至少一个目标属性的不符合目标实体类别信息的其他属性R_{others_m}＝R_{cgeal_m}-R_{goal_m}∩{Rel_e1∪Rel_e2∪…}中选取出符合第二置信度条件的属性作为目标实体的潜在属性。

参阅图5，图5给出了对目标实体进行属性预测及筛选的一个示例。在该示例中，为实体“梁xx”预测出的必有属性包括：民族、星座及毕业院校，潜在属性包括：经济公司，而“作曲”及“编曲”这两个属性则最终被过滤掉。

步骤206、若所述目标实体不具备类别信息，则利用预先训练的第二预测模型，基于所述至少一个目标属性，预测所述目标实体的类别信息。

若所述目标实体不具备类别信息，则直接将预测出的所述至少一个目标属性作为目标实体的属性，此种情况下，由于已预测出目标实体的属性，对目标实体的属性进行了扩展、补全，从而可反过来利用目标实体的属性来预测其类别，以实现对该目标实体在知识图谱中的类别信息进行标注、补全。

本实施例针对基于属性的实体类别预测，预先训练了一第二预测模型，该第二预测模型同样可基于上文所述的结构学习算法或网络模型通过相应的数据学习过程进行训练。

参考图6，图6示出了基于知识图谱/知识库构建第一预测模型、第二预测属性进而利用第一预测模型、第二预测模型对知识图谱/知识库进行信息补全与优化的处理逻辑示意图。

具体地，可基于知识图谱或知识库获得多个实体中每个实体的描述信息，每个实体的描述信息优选地可以包括实体的全部属性以及实体的层级化类别标注信息，实体的层级化类别标注信息进一步包括实体所属的类别以及子类别的相关信息，示例性地，比如实体“张xx”所属的层级化类别信息可能为：人物/文化娱乐/演员(或者还可以包括对应于层级化类别的层级化概率信息)，在该层级化类别信息中，“人物”为“梁xx”所属的总的类别，“文化娱乐”属于“人物”中的一个子类别，而“演员”进一步属于“文化娱乐”的子类别，对应于所述“人物”类别，实体“张xx”可能具备“性别”、“年龄”、“出生日期”等属性，对应于所述“演员”类别，实体“张xx”可能具备“代表作”、“出演过的影视剧”等属性；在获得大数据量的实体描述信息后，可将实体在其描述信息中所具有的属性集合和层级化类别信息将作为训练数据进行第二预测模型的训练，以不断学习实体属性的层级化类别特征。

在完成该第二预测模型的训练后，当利用该第二预测模型对缺乏类别信息的所述目标实体进行类别预测时，可将目标实体具备的属性集合(可以包括目标实体的原有属性及扩展出的属性)作为分类的特征来输入该模型，第二预测模型会基于所输入的属性信息，对目标实体所属的类别及子类别等进行预测，最终得到目标实体的层级化类别信息，从而可完成目标实体在知识图谱中的层级化类别信息标注。

参阅图7，图7给出了训练第二预测模型并利用训练出的第二预测模型对目标实体的层级化类别信息进行预测的一个示例。

所预测出的层级化类别信息具体可以表现为类别信息的层次化的概率分布，参阅图8，图8示出了针对“梁xx”预测出的其类别信息的层级化概率分布示意图。

另外，对于知识图谱中已有较高层级类别信息的实体，还可以在对其进行属性预测的基础上，基于预测出的潜在属性对其进行子类别的进一步预测。

本实施例在目标实体具备类别信息的情况下，进一步利用目标实体的类别信息对预测出的属性进行筛选，可提升为目标实体所扩展出的属性的准确度及参考价值；而在目标实体不具备类别信息的情况下，基于预测出的属性进一步预测目标实体的层级化类别信息，可完善和补全目标实体在知识图谱或知识库中的类别信息标注。基于本实施例方案，对于知识库中具有较少三元组或属性/类别信息较为稀疏的实体，可通过对其预测其他可能存在的属性和/或类别，来加强其与知识图谱或知识库中其他实体之间的联系。

实施例四

参考图9示出的对目标实体进行属性预测的流程示意图，在预测出所述目标实体的属性或类别信息之后，还可以执行以下处理：

步骤207、向预先创建的类别与属性的对应关系信息集合中添加所述目标实体的类别信息与所述潜在属性的对应关系信息，或者添加预测出的类别信息与目标实体的属性的对应关系信息。

如上文所述，所述类别与属性的对应关系信息集合，具体可以采用本体属性类别库的形式实现。

在预测出所述目标实体的潜在属性之后，由于其潜在属性未包含在所述本体属性类别库中，从而，还可以将所述目标实体的类别信息与所述潜在属性的对应关系添加至所述本体属性类别库中。

除此之外，对于基于属性为目标实体预测类别的情形，还可以将预测出的类别信息与实体的属性的对应关系添加至所述本体属性类别库中。

本实施例通过将预测出的目标实体的属性或类别信息添加至所述本体属性类别库中，进一步完善、优化了所述本体属性类别库的信息，实现了该本体属性类别库与添加有预测出的属性或类别信息的知识图谱信息的同步。

实施例五

对应于上述的信息处理方法，本申请还公开了一种信息处理装置，参考图10示出的信息处理装置的结构示意图，该装置包括：

存储器1001，用于至少存储一组指令集；

处理器1002，用于调用并执行所述存储器中的所述指令集，通过执行所述指令集进行以下操作：

获取针对目标实体的属性查询指令；

反馈所获取的所述目标实体的属性。

根据以上方案可知，本实施例提供的信息处理装置，在获得针对目标实体的属性查询指令，并响应于该指令获取所述目标实体的属性时，在所获取的目标实体的属性中至少包括自动为所述目标实体扩展出的属性，从而最终反馈的属性信息也至少包括自动为所述目标实体扩展出的属性。相比于传统基于人工的属性标注方式，本申请由于可自动对实体进行属性扩展，从而，为知识图谱的实体属性标注工作提供了便利，且属性扩展/标注的效率相比于人工方式也较高，相对应地，可实现高效地对知识图谱的知识结构进行完善与优化，为智能搜索/智能查询/机器人聊天等应用提供了更为全面的实体属性信息。

实施例六

本申请主要基于实体在其所处的信息环境(如知识图谱或知识库等)中的语义环境信息，来自动对实体进行属性扩展，接下来本实施例将详细阐述所述信息处理装置中的处理器1002自动扩展实体属性的实现过程，具体地，所述处理器1002可通过执行以下处理实现对实体的属性进行扩展：

提取所述三元组序列中的各个实体，得到实体序列，提取所述三元组序列中的各个属性，得到属性序列；将所述实体序列中除所述目标实体之外的其它实体以及所述属性序列中的各个属性作为所述目标实体的语义环境信息；

Seq_梁xx＝{

梁xx-[性别]-男性，

梁xx-[配偶]-刘xx-[出生地]-苏州-[所属国家]-中国，

梁xx-[出生地]-香港-[所属国家]-中国，

梁xx-[主演]-无间道-[类型]-警匪片，

……}，

Ont_梁xx＝人物/文化娱乐/演员，

梁xx-[性别]-男性，

梁xx-[配偶]-刘xx-[出生地]-苏州-[所属国家]-中国，

梁xx-[出生地]-香港-[所属国家]-中国，

梁xx-[主演]-无间道-[类型]-警匪片。

[梁xx，男性]，[性别]；

[梁xx，刘xx，苏州，中国]，[配偶，出生地，所属国家]；

[梁xx，香港，中国]，[出生地，所属国家]；

[梁xx，无间道，警匪片]，[主演，类型]。

示例性地，在训练第一预测模型时，可以学习到实体“张xx”除了具备性别、出生地，配偶，主演、民族、星座、毕业院校等属性(图中未示出)，还具备经纪公司、作曲、编曲等属性，从而，在利用该第一预测模型对目标实体“梁xx”进行属性预测以扩展其属性时，由于基于输入信息可以获知“梁xx”具备与“张xx”相同的性别、出生地，配偶，主演、民族、星座、毕业院校等属性，从而可推测“梁xx”与“张xx”为相似实体，进而可预测出“梁xx”还可能具备经纪公司、作曲、编曲这些属性，从而最终可得出实体“梁xx”的包括经纪公司、作曲、编曲这些属性的候选属性集合。

序列E被标注为属性序列R的概率P(E，R)为：

R_{candidate_m}＝{R_m∈Rextended]RankP(E，Rextended)}(m≥2) (4)

实施例七

在本申请实施例七中，所述信息处理装置中的处理器1002，在从所述候选属性集合中选取出符合第一置信度条件的至少一个目标属性之后，还可以执行以下处理：

R_{filter_m}＝R_{goel_m}∩{Rel_E1∪Rel_E2∪…} (6)

在此基础上，可进一步从所述至少一个目标属性的不符合目标实体类别信息的其他属性R_{others_m}＝R_{cgoal_m}-R_{goal_m}∩{Rel_e1∪Rel_e2∪…}中选取出符合第二置信度条件的属性作为目标实体的潜在属性。

所预测出的层级化类别信息具体可以表现为类别信息的层次化的概率分布，参阅图9，图9示出了针对“梁xx”预测出的其类别信息的层次化概率分布示意图。

实施例八

本实施例中，在预测出所述目标实体的属性或类别信息之后，所述处理器1002还可以执行以下处理：

综上所述，本申请方案相比于现有技术，具备以下优势：

1)利用从大规模知识图谱/知识库中抽取出的序列信息，针对知识图谱/知识库中信息较为稀疏的实体，可基于其语义环境信息预测其可能存在的属性或类别，进一步地基于预测出的属性或类别，结合知识图谱/知识库的知识表示或其他知识获取途径，可以挖掘出更多潜在的三元组，从而能够对知识图谱/知识库的知识结构进行有效补全和扩充；

2)通过对知识图谱的序列化信息抽取，实现了将知识图谱的计算复杂度较高的图结构模型，转化为了一系列包含丰富知识和语义信息的序列，为知识图谱的信息抽取及后续处理提供了方便；

3)扩充了知识图谱信息补全的任务范围，从传统的给定“实体-属性-实体”三元组中的两个要素，补全属性或头尾实体之一的补全任务，扩展为了给定实体基于其语义环境信息预测其可能具有的属性；

4)将实体类别信息表现为层级化的概率分布，利于推理和计算的同时，也更加贴近人类对真实世界的理解。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

为了描述的方便，描述以上系统或装置时以功能分为各种模块或单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

最后，还需要说明的是，在本文中，诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种信息处理方法，包括：

获取针对目标实体的属性查询指令；

反馈所获取的所述目标实体的属性。

2.根据权利要求1所述的方法，其中，为所述目标实体扩展属性，包括：

获取所述目标实体的语义环境信息；

基于所述语义环境信息，为所述目标实体扩展属性。

3.根据权利要求2所述的方法，所述获取所述目标实体的语义环境信息，包括：

4.根据权利要求3所述的方法，所述基于所述语义环境信息，为所述目标实体扩展属性，包括：

5.根据权利要求4所述的方法，在所述从所述候选属性集合中选取出符合第一置信度条件的至少一个目标属性之后，还包括：

6.根据权利要求5所述的方法，所述基于目标实体的类别信息对所述至少一个目标属性进行筛选处理，并基于筛选处理结果获得所述目标实体的属性，包括：

7.根据权利要求6所述的方法，所述从所述至少一个目标属性中筛选出符合所述类别信息的属性，包括：

8.根据权利要求6或7所述的方法，还包括：

9.一种信息处理装置，包括：

存储器，用于至少存储一组指令集；

获取针对目标实体的属性查询指令；

反馈所获取的所述目标实体的属性。

10.根据权利要求9所述的装置，所述处理器为所述目标实体扩展属性，具体包括：

获取所述目标实体的语义环境信息；

基于所述语义环境信息，为所述目标实体扩展属性。