CN112966823A

CN112966823A - 一种基于知识图谱推理的场所识别方法

Info

Publication number: CN112966823A
Application number: CN202011556111.2A
Authority: CN
Inventors: 李新德; 李沛; 孙长银
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2021-06-15
Anticipated expiration: 2040-12-24
Also published as: US20220215175A1; WO2022134167A1; CN112966823B

Abstract

本发明公开了一种基于知识图谱推理的场所识别方法，在给出场所领域知识图谱构建方法的基础上，提出了一种基于知识图谱推理且可融合多种异类环境信息的一般化场所识别方法,步骤如下：(1)从各类异源信息中提取构成场所的主要物体、产生的事件、空间结构等主要线索，并将这些线索以自然语言文字进行描述；(2)利用自然语言处理方法对上述描述进行筛选，形成场所描述实体；(3)结合上述描述实体在实际环境中的发生频率，组建场所领域知识图谱；(4)运用深度神经网络实现基于知识图谱的推理分类，给出最终识别结果；本发明通过使用知识图谱推理方法，提升了场所识别准确率，并极大提升了场所识别过程中的语义可解释性。

Description

一种基于知识图谱推理的场所识别方法

技术领域

本发明涉及一种基于知识图谱推理的场所识别方法，属于人工智能与知识图谱技术领域。

背景技术

场所感知是指利用视觉、声音、距离、自然语言等环境信息，通过人工智能方法自动地对其进行处理和分析，并判断和识别出环境所带有的特定场所语义(如厨房、街道等)。场所感知不仅有助于对环境信息的整体语义内容的理解，还能为与场所有关的人机交互任务提供依据，因此场所识别对智能设备自动理解环境，提高人机交互智能化水平起着重要的作用。

现有的场所识别技术大多以图像或距离(如红外线、超声波等)作为识别线索，通过海量样本对深度神经网络模型进行学习训练，从而使网络模型能够给出环境信息对应的场所类别。这类方法的缺点主要包括：1.需要根据不同的信息源类型设计不同的模型方法，无法将异类信息进行整合，缺乏统一化推理，进而使识别正确率得不到保障；2.由于深度神经网络属于端到端模型(End-to-End Model,EEM)，因此缺乏推理过程的中间结果，丢失大量与场所理解任务有关的语义线索。

另一方面，知识图谱是一种可以显示地揭示知识之间关系的语义网络，可以对各类事物及其相互关系进行形式化描述，该技术有助于相关领域内的知识被创建、共享、更新、推理等操作，并且能够有效地被人们直接理解。但是，目前的知识图谱都是不同的应用者基于自己的应用领域独立构建，其中针对场所领域的知识图谱构建和推理方法还处于缺失状态。因此，迫切的需要一种新的技术方案解决上述技术问题。

发明内容

为了克服背景技术中存在的不足或缺失，本发明提供一种基于知识图谱推理的场所识别方法，结合知识图谱技术融合多种场所环境信息，可以有效解决基于单一信息的识别方法识别率低下的问题，同时可以加强推理结果的语义丰富性，有助于完善人机交互和其他与场所相关的智能任务。

为实现上述目的，本发明采用的技术方案如下：一种基于知识图谱推理的场所识别方法，包括以下步骤：

步骤1)基础语义数据获取：

基础语义数据主要为描述特定场所内包含的物品、发生的事件以及与场所相关的特殊语义概念，获取途径包括两项内容：在场所知识图谱构建与推理模型训练过程中，对场所环境采集到的各类信息，包括图像、声音、距离、语音等，进行人工自然语言描述标注，从而获取基础语义数据以及所对应的场所类别，另一方面，在场所识别及其推理过程中，上述语义信息将根据异源信息种类，结合现有语义生成模型自动生成；

步骤2)场所描述实体生成：

利用文本分词、停用词去除、实体抽取、词形还原以及人工筛选等自然语言处理方法，对上述基础语义数据进行预处理，筛选后的自然语言文本即场所知识图谱中的描述实体；

步骤3)场所知识图谱构建：

结合上述场所描述实体在实际应用环境下的发生频次进行统计，获得每个描述实体在每个特定场所内的频次，并进行归一化处理得到概率值，形成以“描述实体-场所类别-概率值”为基本三元组结构的知识图谱；

步骤4)场所知识图谱推理：

利用深度神经网络(Deep Neural Network,DNN)学习所述知识图谱，其目标任务为根据知识图谱三元组集合进行训练，使其具备能够根据“描述实体-概率值”知识集合推理出“场所类别”的功能；在实施推理过程中，需从场所信息源中根据步骤1)和步骤2)自动提取描述实体，进一步与步骤3)中的知识图谱进行实体匹配，匹配后的知识集合将结合训练完善的深度神经网络进行推理，实现场所识别。

优选地，所述步骤1)中的基础语义数据获取，包括以下步骤：

1-1)实际应用环境下，场所信息由智能设备通过传感器采集，原始信息以图像、视频、声音、距离等方式表示，首先需要通过人工标注方式对上述信息进行自然语言描述，描述内容包括信息中所包含的事物名称、发生的事件、人类行为或状态等语义概念，从而形成基础语义数据；

1-2)在推理过程中，基础语义数据将由现有的语义生成网络根据特定信息类型自动生成，该网络的训练数据由步骤1-1)提供。

优选地，所述步骤2)中的场所描述实体生成，包括以下步骤：

获取所述步骤1)中的基础语义数据后，需结合自然语义处理方法进行预处理：首先对语义数据进行分词操作，即得到最小语义概念的词语单元；其次根据停用词表进行词语删除；进一步对筛选后的词语单元进行实体抽取，抽取原则为：对于事物名称、事件、动作或状态，保留最小语义概念的词语单元，该类单元通常具有名词或动词属性，且能够影响对场所类别的判断；最后，对抽取到的实体进行词形还原，对动词时态和人称和名词复数进行单词还原。经过上述步骤，可形成描述实体词典，该词典可被保存、新增、删除和修改。

优选地，所述步骤3)中的场所知识图谱构建，包括以下步骤：

首先根据步骤2)中得到的描述实体词典，对其在实际应用环境下的出现次数进行样本统计，令n_i，j表示词典中第i个描述实体在所有第j类场所的样本中出现的次数，并令m_j表示第j类场所的样本总数，则描述实体频率值f_i，j的计算公式为：f_i，j＝n_i，j/m_j，若统计过程中第i个描述实体并未出现在第j类场所样本中，则给予频率f_i，j极小值，即f_i，j＝σ(σ＜10^-3)；对同一类场所下的所有描述实体的频率值进行归一化，即

其中函数F(·)表示归一化方法，最终得到实体的出现概率值p_i，j。优选地，可以通过

使得

求出概率值。至此可构建场所知识图谱，其三元组基本结构为“描述实体-场所类别-概率值”，具体表现为：第i个描述实体-第j类场所类别-出现概率p_i，j；此外，概率值p_i，j＜10^-2的三元组将不被记录在知识图谱中，相应步骤2)中的描述实体词典也将同步做出修改或删除；此外，对步骤2)中的描述实体词典新增两项实体，分别为“占位符”和“未知符”，前者不含有任何语义概念，仅作推理模型中的数据补零操作，后者为步骤1)中获取的语义数据，而且未被保存于步骤2)中的描述实体词典，表示该实体概念未知。

优选地，所述步骤4)中的场所知识图谱推理，包括以下步骤：

4-1)在训练过程中，将实体词典和场所类别组成新的词典，以独热码向量表示，并以样本的“描述实体-概率值”集合为输入，“场所类别”为输出设计深度神经网络推理模型；

4-2)在推理过程中，将步骤2)中获取的样本“描述实体”集合与步骤3)构建的知识图谱进行实体匹配，从而得到“描述实体-概率值”集合，输入步骤4-1)中训练完善的推理模型，最终获取场所类别知识。

优选地，所述描述实体词典包括以下2个集合，即对象集和动作状态集。对象集中的元素为现实存在的物体所对应的单词，动作状态集中的元素为人类与物体或人类之间的互动动作、人类的某种状态或产生的事件所对应的单词，除此之外的语义单词将不被纳入描述实体词典。

优选地，所述深度神经网络推理模型具有以下结构或步骤：

优选地，神经网络结构至少包含：嵌入向量全连接层，用于实现独热码到密集向量的映射；递归神经网络或其变体结构，用于实现“描述实体-概率值”集合的集成融合；softmax层，用于求出场所类别的分类概率。用于特征提取、维度增减、非线性映射等的其他功能结构虽未说明，但仍为本发明的权利要求范围内。

再优选地，对于优化该推理模型的训练过程至少包含：交叉熵损失函数，用于实现提升模型分类性能；三元组损失函数，用于提升描述实体的向量表示能力，使其属于同类场所的描述实体词嵌入向量的欧氏距离尽可能接近，属于不同类场所的描述实体词嵌入向量的欧式距离尽可能远离。

相对于现有技术，本发明的优点如下：本发明提供了一种基于知识图谱推理的场所识别方法，首先给出了场所知识图谱的构建方法，解决了当前缺乏用于场所识别与理解领域的知识图谱的问题；其次，能够很好地解决目前场所识别方法中识别准确率低，语义可解释性差，无法实现推理过程可视化，缺乏对多源异类信息的综合性推理等问题；进一步地，该场所领域知识图谱可为智能机器人的任务规划与分解、人机交互、语音理解等智能任务提供工程基础。本发明提供的方法步骤简单，易于实现，并且可以达到很好的场所识别效果。

附图说明

图1为本发明一种基于知识图谱推理的场所识别方法的框架示意图；

图2为本发明用于知识图谱推理的深度神经网络模型图；

图3为本发明可视化场所知识图谱(部分)的示意图。

具体实施方式

为使本发明更显而易懂，兹以优选实施例，并配合附图作详细说明。本发明附图仅用于示例性说明，不能理解为对本发明的限制，对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

实施例1：一种基于知识图谱推理的场所识别方法，包括以下步骤：

步骤1)基础语义数据获取，

基础语义数据主要为描述特定场所内包含的物品、发生的事件以及与场所相关的特殊语义概念，获取途径包括两项内容：在场所知识图谱构建与推理模型训练过程中，对场所环境采集到的各类信息，包括图像、声音、距离、语音等，进行人工自然语言描述标注，从而获取基础语义数据以及所对应的场所类别。另一方面，在场所识别及其推理过程中，上述语义信息将根据异源信息种类，结合现有语义生成模型自动生成；

步骤2)场所描述实体生成，

步骤3)场所知识图谱构建，

步骤4)场所知识图谱推理：

利用深度神经网络(Deep Neural Network，DNN)学习所述知识图谱，其目标任务为根据知识图谱三元组集合进行训练，使其具备能够根据“描述实体-概率值”知识集合推理出“场所类别”的功能；在实施推理过程中，需从场所信息源中根据步骤1)和步骤2)自动提取描述实体，进一步与步骤3)中的知识图谱进行实体匹配，匹配后的知识集合将结合训练完善的深度神经网络进行推理，实现场所识别。

所述步骤1)中的基础语义数据获取，包括以下步骤：

所述步骤2)中的场所描述实体生成，包括以下步骤：

所述步骤3)中的场所知识图谱构建，包括以下步骤：

使得

求出概率值。至此可构建场所知识图谱，其三元组基本结构为“描述实体-场所类别-概率值”，具体表现为：第i个描述实体-第j类场所类别-出现概率p_i,j；此外，概率值p_i,j＜10^-2的三元组将不被记录在知识图谱中，相应步骤2)中的描述实体词典也将同步做出修改或删除；此外，对步骤2)中的描述实体词典新增两项实体，分别为“占位符”和“未知符”，前者不含有任何语义概念，仅作推理模型中的数据补零操作，后者为步骤1)中获取的语义数据，而且未被保存于步骤2)中的描述实体词典，表示该实体概念未知。

所述步骤4)中的场所知识图谱推理，包括以下步骤：

具体实施例：本发明提出的一种基于知识图谱推理的场所识别方法的框架如图1所示，分别包含训练过程与推理过程。如图1所示，训练过程主要包含以下4个步骤：

1)从多类异源场所信息中由人工标注方式获取基础语义数据，主要为以自然语言描述的场所信息所涵盖的事物语义，并以此为数据样本，设计语义生成模型；

2)利用自然语言处理方法对基础语义数据进行预处理和筛选，获取场所的描述实体知识；

3)通过在实际应用环境下的样本统计，获取描述实体相对应的发生概率，由此构成“描述实体-场所类别-概率值”为基本三元组结构的场所知识图谱；

4)结合场所知识图谱，设计以“描述实体-概率值”集合为输入，“场所类别”为输出的深度神经网络推理模型，进行样本学习与网络参数训练。

在训练过程结束的基础上，推理过程主要包含以下4个步骤

1)从多类异源场所信息中由语义生成模型生成基础语义数据；

3)将描述实体与场所知识图谱进行匹配，获取样本信息的“描述实体-概率值”集合；

4)将“描述实体-概率值”集合输入推理模型，从而得到“场所类别”信息。

具体实施例1实验过程与结果

下面结合具体实验及附图对本发明所述一种基于知识图谱推理的场所识别方法的实施过程作进一步说明，本实施例仅对本发明做优选示例说明，不能理解为对本发明的限制。

本发明实验采用的场所信息数据来自于J.Xiao等(SUN dataset.https://vision.cs.princeton.edu/projects/2010/SUN/,2020-11-25.对应的文献为Xiao J,HaysJ,Ehinger K A,et al.SUN database:Large-scale scene recognition from abbey tozoo[C]//Computer Vision&Pattern Recognition.IEEE,2010.)建立的大型场景图像数据库，该数据库包含397类共约10万张RGB图像，每一个场景至少包含100张图片样本，并且约有1.6万张图像已通过人工标注方式，以英文单词标注出其中包含的主要物体。实验方法：本实验筛选了其中14类室内场所图像加以实验验证，具体场所类型及其样本数量可参阅表1。由于各类样本数量不尽相同，因此从每一类场所样本中随机选取测试样本，且占该类场所样本总和的10％，剩余则作为训练样本。为了评估本发明提出算法的有效性，该部分实验以识别率作为评估手段，识别率计算方法：A＝n_r/N×100％，其中，A表示识别率，n_r表示测试样本中正确识别个数，N表示总测试样本个数。

1.实验过程

1.1基础语义数据获取

由于所选数据集中的图片已包含通过人工标注方式获得的自然语言描述，因此本实验中的基础语义将从原有数据中直接提取。另一方面，在实际应用本发明时，由于推理过程中的待测样本不含有自然语言描述，则需要设计额外的语义生成模块，例如目标检测、图像描述、语义分割等，而这部分技术不在本发明的限制范围内。因此本实验过程不对语义生成技术进行介绍，此类技术被认为是该技术领域的科研技术人员熟知的范畴。为简明扼要地介绍本发明原理，在测试过程中，仍然使用数据集原有的自然语言描述作为基础语义数据进行推理。此外，本实验选用图像作为信息种类，仅作参考说明，其他信息类型可根据发明说明操作执行。

令一张训练图片样本I由n条基础语义描述d_i(i＝1,2,...,n)和场所标签l组成，表示为集合形式,即I＝{(d_i,l)|d_i∈D,l∈L,i＝1,2,...,n}，其中D表示人类描述场所的自然语言知识，L表示该知识图谱能够识别的全部场所类型。该集合将作为基础语义数据参与下面的推理过程。

1.2场所描述实体生成

将基础语义数据通过自然语言处理方法进行预处理，下面结合具体实例说明具体步骤，如下：

1)首先，将基础语义描述根据人类语义知识进行分词，即

其中

为能表示某概念的最小语义单元。例如某张图片样本的自然语言描述为“一个人正在吃那个红色的苹果”，则经过该分词步骤后将得到集合{一个，人，正在，吃，那个，红色的，苹果}；

2)其次，根据停用词表进行单词删除，去除对描述样本无意义的单词；结合上一步骤中的实例，由于{那个}在本例中对于描述样本并无意义，因此可以去除；

3)最后利用实体抽取技术进行词性标注，并保留描述物体、事件、动作等最小语义概念的词语单元，该类单元通常具有名词或动词属性，且能够影响对场所类别的判断。至此可形成场所描述实体

结合实例，最终保留的场所描述实体为{人，吃，苹果}。

1.3场所知识图谱构建

结合1.2节中得到的场所描述实体集合，需根据以下步骤进一步构建场所知识图谱：

1)将全部样本的描述实体集合去重后组成描述实体词典，该词典应可被保存、修改、删除和新增，是知识图谱中知识的基本要素；此外，描述实体词典需新增两项实体，分别为“占位符”和“未知符”，前者本质不含有任何语义概念，仅作推理模型中的数据补零操作，后者为未被保存与描述实体词典中的单元，表示该实体概念未知。

2)将词典中的单元根据其在实际应用环境下的出现次数进行统计。令n_i,j表示词典中第i个描述实体在所有第j类场所的样本中出现的次数，并令m_j表示第j类场所的样本总数，则描述实体频率值f_i,j的计算公式为：f_i,j＝n_i,j/m_j。若统计过程中第i个描述实体并未出现在第j类场所样本中，则给予频率f_i,j极小值，即f_i,j＝σ(σ＜10^-3)；

3)对同一类场所下的所有描述实体的频率值进行归一化，即

使得

则得到实体的出现概率值p_i,j；

4)构建场所知识图谱，其三元组基本结构为“描述实体-场所类别-概率值”，具体表现为：第i个描述实体-第j类场所类别-出现概率p_i,j；此外，概率值p_i,j＜10^-2的三元组将不被记录在知识图谱中，即实际应用下该描述实体出现的可能性极低，可予以删除。则描述实体词典也将同步做出相应修改或删除。

1.4场所知识图谱推理

推理过程分为两部分，分别为推理模型训练过程和推理模型测试过程，该推理模型的基本结构如图2所示，值得注意的是，该神经网络模型仅为本发明的实验优选结果，不应视为对本发明的限制，其他推理模型或方法也应视为本发明涵盖范畴。

该神经网络由输入层、词嵌入单元、双向门控网络层、全连接层、融合层与分类层组成。其中输入层为知识图谱中的描述实体与概率值p_i,j，描述实体和场所类别由独热码向量w_i表示，该向量中对应于实体词典的位置为1其他位置为0。词嵌入单元为一个全连接层组成的查找表，可将独热码向量映射为一个稠密实数向量，称为嵌入向量。该全连接层的输入维度为词典容量，输出维度由人工设定且小于词典容量，本实验中词典容量为412，嵌入向量维度为256。双向门控循环单元(Bi-Gated Recurrent Unit,Bi-GRU)有两个，其一接收概率值，另一个接收描述实体的稠密向量，该门控单元的隐层维度由人工设置，本试验中分别取32和256。此外，Bi-GRU使用动态循环神经网络结构，最大可接受长度由人工确定，本实验选为20。Bi-GRU的最后一个隐层状态将传递给一个全连接层，其输出维度均为14，对应于本实验中所选场所类别数量。融合层选用按向量对应位元素相乘的方法，将上述输出融合为一个向量，并用一个全连接层进行数据微调。最后输入softmax分类层，获得对应于各个场所类别的置信度。

训练过程中，每个训练样本通过1.1节与1.2节的操作后会得到一个至少包含一条三元组知识的集合，进一步将描述实体通过最大可接受长度的删减和补零操作，以及将场所类别标签表示为独热码向量后形成训练数据集。训练过程采用最小化交叉熵损失函数与三元组损失函数的方式，并采用Adam优化器优化，学习律初始值为0.002，并实施余弦衰减法对学习律进行衰减，整个训练过程持续200个周期后停止。

在测试过程中，待推理样本同样经过与上述相同的操作，仅不包含场所类别标签，送入推理模型后可得到该样本对所有场所类别的置信度向量，取其中置信度最大值所对应的场所类别即为推理结果。

2.实验结果

本实验结果按照第1节实验流程说明执行，实验环境为搭载在Intel i5-4590 CPU以及12GB RAM的Windows系统，神经网络结构采用TensorFlow 1.15函数库编写，代码采用Python语言编写。本实验选取14类场所进行实验，实验结果如表1所示，通过对识别率的分析比较可以看出，本发明所述方法能够有效实现场所识别，同时由于构建了场所知识图谱，各个场所的语义要素也可以直接获取，便于人们更直观的理解场所构成，如图3所示为场所知识图谱的部分可视化结果，其中概率值表现在连接边中，图中为展示简洁已省去。

表1 14类场所样本分布与识别率结果

场所类别	训练样本	测试样本	识别正确	识别率
					航站楼	114	13	12	92.31％
画室	95	11	9	81.82％
					浴室	652	73	72	98.63％
卧室	1402	156	137	87.82％
					会议室	193	22	15	68.18％
走廊	123	14	14	100.00％
					餐厅	470	53	43	81.13％
游戏室	95	11	7	63.64％
					宾馆客房	206	23	18	78.26％
厨房	735	82	75	91.46％
					客厅	900	101	90	89.11％
台球室	121	14	13	92.86％
					街道	266	30	30	100.00％
等候室	96	11	10	90.91％
					总计	5468	614	545	-
平均值	-	-	-	88.76％

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于知识图谱推理的场所识别方法，其特征在于，包括以下步骤：

步骤1)基础语义数据获取：

步骤2)场所描述实体生成：

步骤3)场所知识图谱构建：

步骤4)场所知识图谱推理：

2.根据权利要求1所述的一种基于知识图谱推理的场所识别方法，其特征在于，所述步骤1)中的基础语义数据获取，包括以下步骤：

3.根据权利要求1所述的一种基于知识图谱推理的场所识别方法，其特征在于，所述步骤2)中的场所描述实体生成，包括以下步骤：

4.根据权利要求1所述的一种基于知识图谱推理的场所识别方法，其特征在于，所述步骤3)中的场所知识图谱构建，包括以下步骤：

首先根据步骤2)中得到的描述实体词典，对其在实际应用环境下的出现次数进行样本统计，令n_i,j表示词典中第i个描述实体在所有第j类场所的样本中出现的次数，并令m_j表示第j类场所的样本总数，则描述实体频率值f_i,j的计算公式为：f_i,j＝n_i,j/m_j，若统计过程中第i个描述实体并未出现在第j类场所样本中，则给予频率f_i,j极小值，即f_i,j＝σ(σ＜10^-3)；对同一类场所下的所有描述实体的频率值进行归一化，即

其中函数F(·)表示归一化方法，最终得到实体的出现概率值p_i,j；通过

使得

求出概率值；至此可构建场所知识图谱，其三元组基本结构为“描述实体-场所类别-概率值”，具体表现为：第i个描述实体-第j类场所类别-出现概率p_i,j；此外，概率值p_i,j＜10^-2的三元组将不被记录在知识图谱中，相应步骤2)中的描述实体词典也将同步做出修改或删除；此外，对步骤2)中的描述实体词典新增两项实体，分别为“占位符”和“未知符”，前者不含有任何语义概念，仅作推理模型中的数据补零操作，后者为步骤1)中获取的语义数据，而且未被保存于步骤2)中的描述实体词典，表示该实体概念未知。

5.根据权利要求1所述的一种基于知识图谱推理的场所识别方法，其特征在于，所述步骤4)中的场所知识图谱推理，包括以下步骤：

6.根据权利要求3所述的一种基于知识图谱推理的场所识别方法，其特征在于，所述描述实体词典包括以下2个集合，即对象集和动作状态集,对象集中的元素为现实存在的物体所对应的单词，动作状态集中的元素为人类与物体或人类之间的互动动作、人类的某种状态或产生的事件所对应的单词，除此之外的语义单词将不被纳入描述实体词典。

7.根据权利要求5所述的一种基于知识图谱推理的场所识别方法，其特征在于，所述深度神经网络推理模型具有以下结构或步骤：

神经网络结构至少包含：嵌入向量全连接层，用于实现独热码到密集向量的映射；递归神经网络或其变体结构，用于实现“描述实体-概率值”集合的集成融合；softmax层，用于求出场所类别的分类概率。