CN113536945A

CN113536945A - 一种面向盲人的物体寻找系统及方法

Info

Publication number: CN113536945A
Application number: CN202110684533.6A
Authority: CN
Inventors: 刘华平; 王晨旭; 郭迪; 袁小虎
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-06-21
Filing date: 2021-06-21
Publication date: 2021-10-22
Anticipated expiration: 2041-06-21
Also published as: CN113536945B

Abstract

本发明属于图像处理技术领域，特别涉及一种面向盲人的物体寻找系统及方法。本明的目的是为克服已有技术的不足之处，提出一种面向盲人的物体寻找系统及方法。本发明能够将目标检测技术、场景图生成技术与知识图谱技术结合起来，为盲人提供所需要寻找的物体的详细信息，包括其在视野中的相对位置及其在场景图中的相对位置，并在未找到目标时在知识图谱中主动查找相似的替代品，尽可能满足用户的真实需求。本发明从盲人用户的现实需求出发，解决寻找一类物品的问题，可以部署于盲人视觉辅助眼镜、服务机器人等诸多设备。

Description

一种面向盲人的物体寻找系统及方法

技术领域

本发明属于图像处理技术领域，特别涉及一种面向盲人的物体寻找系统及方法。

背景技术

视觉是人类获取周围环境信息的重要方式。对于视力障碍人士而言，视觉信息的缺失为生活带来了诸多不便。过去，视障人士通常采用导盲杖、导盲犬等替代方式获取环境信息。随着机器学习与计算机视觉技术的发展，使用计算机视觉技术来为盲人提供视觉信息并辅助盲人的日常生活逐渐成为可能。例如图像描述生成技术可以辅助盲人认知所处的环境、目标识别与目标检测技术可以帮助盲人发现周围的物体、人脸识别技术可以告知盲人熟人的到来、光学文本识别技术可以帮助盲人阅读书报。

然而，这些技术通常面向某一特定功能，从技术角度出发解决某一方面某一时刻的问题，而非从盲人的真实需求角度出发去满足盲人现实生活中的需要。因此，这些技术难以应用于盲人的日常生活。例如，盲人想要一个饮水的容器时，需要连续多次主动使用目标检测技术来查询当前视野中的物体，而即使检测到了合适的目标也难以确定其具体位置。尽管人工智能相关算法日趋成熟，盲人的现实需求仍难以得到满足。

目前的视障辅助产品大多仅仅集成了多个相关的算法，相当于为盲人提供了一个工具包，但这样的工具包仍然不能很好的解决盲人在日常生活中的需求。

发明内容

本发明的目的是提出一种面向盲人的物体寻找系统和方法，将目标检测技术、场景图生成技术与知识图谱技术结合起来，为盲人提供所需要寻找的物体的详细信息，以尽可能满足用户的真实需求。

本发明提出的面向盲人的物体寻找系统，包括：客户端、服务器端以及通信模块；其中，

所述的客户端部署于移动设备上，用于图像采集、音频采集和音频播放；客户端持续采集图像数据并通过通信模块上传至服务器，在用户主动要求时采集音频数据进行语音识别并将识别出的文本数据上传至服务器，并在接收到服务器端文字反馈时将其转化为音频播放；

所述的服务器端，用于搭载多模态推理系统及其所需的预训练的神经网络模型，客户端与服务器端通过通信模块进行信息传递；服务器端持续接收图像数据并调用预训练的神经网络模型进行推理，并根据接收到的文本信息和神经网络的推理结果来更新系统状态，并依据当前系统状态决定给予客户端的反馈信息；

所述的通信模块，用于在不同类型设备间以预设协议实现文字、视频数据的传输。

本发明提出的面向盲人的物体寻找方法，包括以下步骤：

(1)选定一个目标检测数据集，采用由该数据集训练的目标检测模型D；

将该目标检测模型D能够检测到的目标集合记为可检测物体；

(2)对步骤(1)的目标检测模型D中的可检测物体进行标定，得到一个可检测物体的常识知识图谱KG，KG＝(E，R，T，X)，其中，E为实体集合，该实体集合包含所有可识别物体，R为实体之间的关系集合，T为知识图谱中的三元组集合，三元组表示实体之间的关系，三元组的格式为(h，r，t)，h为三元组的头部实体，r为关系类型，t为三元组的尾部实体；X∈R^|E|×d为实体的嵌入向量矩阵，其中d为嵌入向量的维度，X_i表示第i个实体的嵌入向量；

(3)采用一个场景图谱生成模型SGG；

(4)初始化场景图谱为空，初始化物体寻找状态为无目标状态，初始化待汇报文字信息为空；

(5)等待由盲人所持设备传来的图像信息或文字信息；

(6)收到步骤(5)的信息时，对信息类型进行判断：若接收到的信息为图像信息，则执行步骤(7)，若接收到的信息为文字信息，则执行步骤(8)；

(7)将步骤(6)接收的图像信息输入步骤(1)的目标检测模型，得到目标检测结果，将该目标检测结果输入步骤(3)的场景图谱生成模型，得到一个新的场景图谱，进行步骤(9)；

(8)根据设定的规则，将步骤(6)接收的文字信息解析为指令，并根据物体寻找状态和指令进行以下判断：

若当前物体寻找状态处于无目标状态，且指令为设置目标，则进行步骤(8-1)；

若当前物体寻找状态处于待确认指令状态，且指令为确认/否认，则进行步骤(8-2)；

若当前物体寻找状态处于有目标状态，且指令为停止，则进行步骤(8-3)；

若当前物体寻找状态处于有目标状态，且指令为汇报文字信息，则进行步骤(10)；

(8-1)使当前物体寻找状态转变为待确认状态，并将指令中的目标设为待确认目标，返回步骤(5)；

(8-2)若指令为确认，则使当前物体寻找状态转变为搜寻目标状态，将待确认目标设为搜寻目标，并从步骤(2)的常识知识图谱中检索搜寻目标实体的近似实体；

若指令为否认，则使当前物体寻找状态恢复为进入待确认状态前的原状态，返回步骤(5)；

(8-3)使当前物体寻找状态转变为无目标状态，返回步骤(5)；

(9)当前物体寻找状态为有目标状态时，根据当前盲人所持设备传来的图像、步骤(1)的目标检测模型以及步骤(7)的场景图谱，生成待汇报文字信息，具体步骤如下：

(9-1)若当前盲人所持设备传来的图像的目标检测结果中存在要寻找的物体，则根据该物体在场景图谱中的相对关系和该物体在图像中的相对位置，产生相应的汇报物体位置的文字信息；跳转步骤(10)；

(9-2)若当前盲人所持设备传来的图像的目标检测结果中不存在要寻找的物体，而步骤(7)的场景图谱中存在该类物体，则产生提示用户曾经看到过该类物体的文字信息；

(9-3)若当前盲人所持设备传来的图像的目标检测结果中不存在要寻找的物体，且步骤(7)的场景图谱中也不存在该类物体，但步骤(7)的场景图谱中或当前盲人所持设备传来的图像的目标检测结果中存在步骤(8-2)的近似实体，则产生询问用户是否将寻找目标转变为找到的近似实体的文字信息；

(9-4)若当前盲人所持设备传来的图像的目标检测结果中不存在要寻找的物体或步骤(8-2)的近似实体，且步骤(7)的场景图谱中也不存在要寻找的物体或步骤(8-2) 的近似实体，则提示用户未找到目标的文字信息；

(9-5)记录步骤(9-1)至步骤(9-4)所产生的文字信息作为汇报内容，并返回步骤(6)；

(10)将生成的文字信息通过通信模块传输到客户端；若传输的文字信息为询问用户是否将寻找目标转变为找到的近似实体的文字信息，则将当前状态转变为待确认状态，将找到的近似实体设为待确认目标，跳转步骤(5)；若汇报物体位置的文字信息，则通过通信模块传输到客户端，完成盲人的物体寻找过程。

本发明提出的一种面向盲人的物体寻找系统及方法，其优点是：

本发明面向盲人的物体寻找系统及方法，将目标检测技术、场景图生成技术与知识图谱技术结合起来，从盲人的现实生活需求出发，为盲人提供所需要寻找的物体的详细信息，包括其在视野中的相对位置及其在场景图中的相对位置，从场景图谱及当前视野中提供信息帮助盲人寻找物体，并在未找到目标时在知识图谱中主动查找相似的替代品，尽可能满足用户的真实需求。本发明的系统可部署于智能眼镜等可穿戴设备或其他盲人辅助设备，为盲人解决生活中的实际问题。本发明也可用于机器人领域，帮助机器人执行物体寻找任务。

附图说明

图1是本发明提出的面向盲人的物体寻找系统的结构框图。

图2是本发明提出的面向盲人的物体寻找方法的流程框图。

具体实施方式

本发明提出的面向盲人的物体寻找系统，其结构框图如图1所示，包括：客户端、服务器端以及通信模块；其中，

本发明提出的面向盲人的物体寻找方法，其流程框图如图2所示，包括以下步骤：

(1)选定一个目标检测数据集，采用由该数据集训练的目标检测模型D；目标检测模型D能够识别和定位图像中的目标物体，目标检测模型的输入为一个任意图像，输出为一组目标检测结果，表达式如下：

D(I)＝{o₁，…，o_n}

式中，I为输入的图像，o₁，…，o_n为目标检测结果，每个检测结果都是一个六元组，内容为检测出的目标名称、检测的置信度以及被检测出的物体包围盒的4个顶点；n为该图像中检测出的目标数量；将该目标检测模型D能够检测到的目标集合记为可检测物体；

(2)对步骤(1)的目标检测模型D中的可检测物体进行标定，得到一个可检测物体的常识知识图谱KG，KG＝(E，R，T，X)，其中，E为实体集合，该实体集合包含所有可识别物体，R为实体之间的关系集合，T为知识图谱中的三元组集合，三元组表示实体之间的关系，三元组的格式为(h，r，t)，h为三元组的头部实体，r为关系类型，t为三元组的尾部实体；X∈R^|E|×d为实体的嵌入向量矩阵，其中d为嵌入向量的维度，X_i表示第i个实体的嵌入向量；嵌入向量是指将每个实体视为高维空间中的一个点，则这个点的位置可以用一个向量来表示，将该向量称为“嵌入向量”。

(3)采用一个场景图谱生成模型SGG；场景图谱生成模型SGG能够通过图像数据序列及相应的目标检测结果{I₁，I₂，…}迭代式的产生场景图谱。表达式如下：

SGG(SG_t-1，I_t,D(I_t))＝SG_t

其中I_t为场景图谱生成模型收到的第t张图片，SG_t为处理第t张图片后获得的场景图谱。

(5)等待由盲人所持设备传来的图像信息或文字信息；

(8-2)若指令为确认，则使当前物体寻找状态转变为搜寻目标状态，将待确认目标设为搜寻目标，并从步骤(2)的常识知识图谱中检索搜寻目标实体的近似实体(即可能是搜寻目标实体的替代品的实体)；

(8-3)使当前物体寻找状态转变为无目标状态，返回步骤(5)；

上述面向盲人的物体寻找方法，其中步骤(8-2)中从常识知识图谱中检索搜寻目标实体的近似实体检索算法的具体步骤如下：

(1)将近似实体检索算法记为RE，该算法的输入为一个知识图谱与一个目标实体，输出为一个近似实体序列，算法的表达式如下：

RE(KG,e)＝{a₁,…,a_m}

式中，KG为标定的知识图谱，该知识图谱的形式为KG＝(E,R,T,X)，e为被确认为搜寻目标的实体，a₁,…,a_m为e在知识图谱KG中的近似实体；

(2)定义知识图谱上实体e的邻居如下：

式中，N_e表示实体e的邻居集合，r是知识图谱中的一种关系类型，v是知识图谱中的实体，

为“存在”运算符,∨为“或”运算符；

(3)定义一个备选实体集合A，表达式如下：

其中，∧为“与”运算符；

(4)最后根据实体嵌入向量的来源选择一个实体相似度评价算法s，对步骤(3)的备选实体集合A按备选实体与目标实体的相似度从大到小排序得到近似实体序列，表达式如下：

{a_j|j＝1,…,|A|}

该实体序列满足条件：

式中a_j,a_k均为实体集合A中的实体，且为e的近似实体。

下面结合具体实施例对本发明进一步详细说明如下。

本发明提出的物体寻找系统，包括：客户端、服务器端以及通信模块；其中客户端部署于移动设备上，具有图像采集、音频采集和音频播放的能力；服务器端搭载多模态推理系统及其所需的预训练的神经网络模型；客户端与服务器端通过通信模块进行信息传递。

所述客户端持续采集图像数据并通过通信模块上传至服务器，在用户主动要求时采集音频数据进行语音识别并将识别出的文本数据上传至服务器，并在接收到服务器端文字反馈时将其转化为音频播放。本实施例采用搭载了安卓操作系统的MADGAZEX5智能眼镜，使用百度语音识别API进行语音转文字，使用安卓系统自带的文字转语音引擎进行语音合成。

所述通信模块，能够在不同类型设备间以预设协议实现文字、视频数据的传输。本实施例采用Mqtt协议及服务器作为文字和控制信息的通信模块，采用RTSP协议及服务器作为视频数据的通信模块。

所述服务器端主要包含一个推理程序，该程序能够持续接收图像数据并调用预训练的神经网络模型进行推理，并根据接收到的文本信息和神经网络的推理结果来更新系统状态，并依据当前系统状态决定给予客户端的反馈信息。

该推理程序主要使用一种面向盲人的物体寻找方法，该方法包括以下步骤：

(1)选定一个目标检测数据集(本实施例中使用MSCOCO公开数据集作为目标检测数据集)，采用由该数据集训练的目标检测模型D(本实施例中采用在MSCOCO数据集上训练的YOLOv5m模型)；将该目标检测模型D能够检测到的目标集合记为可检测物体(本实施例中，可检测物体为MSCOCO数据集中标注的80类物体)；

(2)对步骤(1)的目标检测模型D中的可检测物体进行标定，得到一个可检测物体的常识知识图谱KG，KG＝(E,R,T,X)，其中，E为实体集合，该实体集合包含所有可识别物体，R为实体之间的关系集合，T为知识图谱中的三元组集合，三元组表示实体之间的关系，三元组的格式为(h,r,t)，h为三元组的头部实体，r为关系类型，t为三元组的尾部实体；X∈R^|E|×d为实体的嵌入向量矩阵，其中d为嵌入向量的维度，X_i表示第i个实体的嵌入向量(本实施例中，使用GLOVE模型在Wikipedia数据集上训练得到的词向量转化为实体的嵌入向量)；

(3)采用一个场景图谱生成模型SGG(本实施例中采用SG-CAP模型)；

(5)等待由盲人所持设备传来的图像信息或文字信息；

(8-3)使当前物体寻找状态转变为无目标状态，返回步骤(5)；

在上述面向盲人的物体寻找方法中，其中步骤(8-2)中从常识知识图谱中检索搜寻目标实体的近似实体检索算法的具体步骤如下：

RE(KG,e)＝{a₁,…,a_m}

(2)定义知识图谱上实体e的邻居如下：

为“存在”运算符,∨为“或”运算符；

(3)定义一个备选实体集合A，表达式如下：

其中，∧为“与”运算符；

(4)最后根据实体嵌入向量的来源选择一个实体相似度评价算法s(本实施例中，使用两实体的向量点积作为实体相似度评价算法)，对步骤(3)的备选实体集合A按备选实体与目标实体的相似度从大到小排序得到近似实体序列，表达式如下：

{a_j|j＝1,…,|A|}

该实体序列满足条件：

式中a_j,a_k均为实体集合A中的实体，且为e的近似实体。