CN113536945A - 一种面向盲人的物体寻找系统及方法 - Google Patents

一种面向盲人的物体寻找系统及方法 Download PDF

Info

Publication number
CN113536945A
CN113536945A CN202110684533.6A CN202110684533A CN113536945A CN 113536945 A CN113536945 A CN 113536945A CN 202110684533 A CN202110684533 A CN 202110684533A CN 113536945 A CN113536945 A CN 113536945A
Authority
CN
China
Prior art keywords
entity
target
state
information
searching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110684533.6A
Other languages
English (en)
Other versions
CN113536945B (zh
Inventor
刘华平
王晨旭
郭迪
袁小虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202110684533.6A priority Critical patent/CN113536945B/zh
Publication of CN113536945A publication Critical patent/CN113536945A/zh
Application granted granted Critical
Publication of CN113536945B publication Critical patent/CN113536945B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于图像处理技术领域,特别涉及一种面向盲人的物体寻找系统及方法。本明的目的是为克服已有技术的不足之处,提出一种面向盲人的物体寻找系统及方法。本发明能够将目标检测技术、场景图生成技术与知识图谱技术结合起来,为盲人提供所需要寻找的物体的详细信息,包括其在视野中的相对位置及其在场景图中的相对位置,并在未找到目标时在知识图谱中主动查找相似的替代品,尽可能满足用户的真实需求。本发明从盲人用户的现实需求出发,解决寻找一类物品的问题,可以部署于盲人视觉辅助眼镜、服务机器人等诸多设备。

Description

一种面向盲人的物体寻找系统及方法
技术领域
本发明属于图像处理技术领域,特别涉及一种面向盲人的物体寻找系统及方法。
背景技术
视觉是人类获取周围环境信息的重要方式。对于视力障碍人士而言,视觉信息的缺失为生活带来了诸多不便。过去,视障人士通常采用导盲杖、导盲犬等替代方式获取环境信息。随着机器学习与计算机视觉技术的发展,使用计算机视觉技术来为盲人提供视觉信息并辅助盲人的日常生活逐渐成为可能。例如图像描述生成技术可以辅助盲人认知所处的环境、目标识别与目标检测技术可以帮助盲人发现周围的物体、人脸识别技术可以告知盲人熟人的到来、光学文本识别技术可以帮助盲人阅读书报。
然而,这些技术通常面向某一特定功能,从技术角度出发解决某一方面某一时刻的问题,而非从盲人的真实需求角度出发去满足盲人现实生活中的需要。因此,这些技术难以应用于盲人的日常生活。例如,盲人想要一个饮水的容器时,需要连续多次主动使用目标检测技术来查询当前视野中的物体,而即使检测到了合适的目标也难以确定其具体位置。尽管人工智能相关算法日趋成熟,盲人的现实需求仍难以得到满足。
目前的视障辅助产品大多仅仅集成了多个相关的算法,相当于为盲人提供了一个工具包,但这样的工具包仍然不能很好的解决盲人在日常生活中的需求。
发明内容
本发明的目的是提出一种面向盲人的物体寻找系统和方法,将目标检测技术、场景图生成技术与知识图谱技术结合起来,为盲人提供所需要寻找的物体的详细信息,以尽可能满足用户的真实需求。
本发明提出的面向盲人的物体寻找系统,包括:客户端、服务器端以及通信模块;其中,
所述的客户端部署于移动设备上,用于图像采集、音频采集和音频播放;客户端持续采集图像数据并通过通信模块上传至服务器,在用户主动要求时采集音频数据进行语音识别并将识别出的文本数据上传至服务器,并在接收到服务器端文字反馈时将其转化为音频播放;
所述的服务器端,用于搭载多模态推理系统及其所需的预训练的神经网络模型,客户端与服务器端通过通信模块进行信息传递;服务器端持续接收图像数据并调用预训练的神经网络模型进行推理,并根据接收到的文本信息和神经网络的推理结果来更新系统状态,并依据当前系统状态决定给予客户端的反馈信息;
所述的通信模块,用于在不同类型设备间以预设协议实现文字、视频数据的传输。
本发明提出的面向盲人的物体寻找方法,包括以下步骤:
(1)选定一个目标检测数据集,采用由该数据集训练的目标检测模型D;
将该目标检测模型D能够检测到的目标集合记为可检测物体;
(2)对步骤(1)的目标检测模型D中的可检测物体进行标定,得到一个可检测物体的常识知识图谱KG,KG=(E,R,T,X),其中,E为实体集合,该实体集合包含所有可识别物体,R为实体之间的关系集合,T为知识图谱中的三元组集合,三元组表示实体之间的关系,三元组的格式为(h,r,t),h为三元组的头部实体,r为关系类型,t为三元组的尾部实体;X∈R|E|×d为实体的嵌入向量矩阵,其中d为嵌入向量的维度,Xi表示第i个实体的嵌入向量;
(3)采用一个场景图谱生成模型SGG;
(4)初始化场景图谱为空,初始化物体寻找状态为无目标状态,初始化待汇报文字信息为空;
(5)等待由盲人所持设备传来的图像信息或文字信息;
(6)收到步骤(5)的信息时,对信息类型进行判断:若接收到的信息为图像信息,则执行步骤(7),若接收到的信息为文字信息,则执行步骤(8);
(7)将步骤(6)接收的图像信息输入步骤(1)的目标检测模型,得到目标检测结果,将该目标检测结果输入步骤(3)的场景图谱生成模型,得到一个新的场景图谱,进行步骤(9);
(8)根据设定的规则,将步骤(6)接收的文字信息解析为指令,并根据物体寻找状态和指令进行以下判断:
若当前物体寻找状态处于无目标状态,且指令为设置目标,则进行步骤(8-1);
若当前物体寻找状态处于待确认指令状态,且指令为确认/否认,则进行步骤(8-2);
若当前物体寻找状态处于有目标状态,且指令为停止,则进行步骤(8-3);
若当前物体寻找状态处于有目标状态,且指令为汇报文字信息,则进行步骤(10);
(8-1)使当前物体寻找状态转变为待确认状态,并将指令中的目标设为待确认目标,返回步骤(5);
(8-2)若指令为确认,则使当前物体寻找状态转变为搜寻目标状态,将待确认目标设为搜寻目标,并从步骤(2)的常识知识图谱中检索搜寻目标实体的近似实体;
若指令为否认,则使当前物体寻找状态恢复为进入待确认状态前的原状态,返回步骤(5);
(8-3)使当前物体寻找状态转变为无目标状态,返回步骤(5);
(9)当前物体寻找状态为有目标状态时,根据当前盲人所持设备传来的图像、步骤(1)的目标检测模型以及步骤(7)的场景图谱,生成待汇报文字信息,具体步骤如下:
(9-1)若当前盲人所持设备传来的图像的目标检测结果中存在要寻找的物体,则根据该物体在场景图谱中的相对关系和该物体在图像中的相对位置,产生相应的汇报物体位置的文字信息;跳转步骤(10);
(9-2)若当前盲人所持设备传来的图像的目标检测结果中不存在要寻找的物体,而步骤(7)的场景图谱中存在该类物体,则产生提示用户曾经看到过该类物体的文字信息;
(9-3)若当前盲人所持设备传来的图像的目标检测结果中不存在要寻找的物体,且步骤(7)的场景图谱中也不存在该类物体,但步骤(7)的场景图谱中或当前盲人所持设备传来的图像的目标检测结果中存在步骤(8-2)的近似实体,则产生询问用户是否将寻找目标转变为找到的近似实体的文字信息;
(9-4)若当前盲人所持设备传来的图像的目标检测结果中不存在要寻找的物体或步骤(8-2)的近似实体,且步骤(7)的场景图谱中也不存在要寻找的物体或步骤(8-2) 的近似实体,则提示用户未找到目标的文字信息;
(9-5)记录步骤(9-1)至步骤(9-4)所产生的文字信息作为汇报内容,并返回步骤(6);
(10)将生成的文字信息通过通信模块传输到客户端;若传输的文字信息为询问用户是否将寻找目标转变为找到的近似实体的文字信息,则将当前状态转变为待确认状态,将找到的近似实体设为待确认目标,跳转步骤(5);若汇报物体位置的文字信息,则通过通信模块传输到客户端,完成盲人的物体寻找过程。
本发明提出的一种面向盲人的物体寻找系统及方法,其优点是:
本发明面向盲人的物体寻找系统及方法,将目标检测技术、场景图生成技术与知识图谱技术结合起来,从盲人的现实生活需求出发,为盲人提供所需要寻找的物体的详细信息,包括其在视野中的相对位置及其在场景图中的相对位置,从场景图谱及当前视野中提供信息帮助盲人寻找物体,并在未找到目标时在知识图谱中主动查找相似的替代品,尽可能满足用户的真实需求。本发明的系统可部署于智能眼镜等可穿戴设备或其他盲人辅助设备,为盲人解决生活中的实际问题。本发明也可用于机器人领域,帮助机器人执行物体寻找任务。
附图说明
图1是本发明提出的面向盲人的物体寻找系统的结构框图。
图2是本发明提出的面向盲人的物体寻找方法的流程框图。
具体实施方式
本发明提出的面向盲人的物体寻找系统,其结构框图如图1所示,包括:客户端、服务器端以及通信模块;其中,
所述的客户端部署于移动设备上,用于图像采集、音频采集和音频播放;客户端持续采集图像数据并通过通信模块上传至服务器,在用户主动要求时采集音频数据进行语音识别并将识别出的文本数据上传至服务器,并在接收到服务器端文字反馈时将其转化为音频播放;
所述的服务器端,用于搭载多模态推理系统及其所需的预训练的神经网络模型,客户端与服务器端通过通信模块进行信息传递;服务器端持续接收图像数据并调用预训练的神经网络模型进行推理,并根据接收到的文本信息和神经网络的推理结果来更新系统状态,并依据当前系统状态决定给予客户端的反馈信息;
所述的通信模块,用于在不同类型设备间以预设协议实现文字、视频数据的传输。
本发明提出的面向盲人的物体寻找方法,其流程框图如图2所示,包括以下步骤:
(1)选定一个目标检测数据集,采用由该数据集训练的目标检测模型D;目标检测模型D能够识别和定位图像中的目标物体,目标检测模型的输入为一个任意图像,输出为一组目标检测结果,表达式如下:
D(I)={o1,…,on}
式中,I为输入的图像,o1,…,on为目标检测结果,每个检测结果都是一个六元组,内容为检测出的目标名称、检测的置信度以及被检测出的物体包围盒的4个顶点;n为该图像中检测出的目标数量;将该目标检测模型D能够检测到的目标集合记为可检测物体;
(2)对步骤(1)的目标检测模型D中的可检测物体进行标定,得到一个可检测物体的常识知识图谱KG,KG=(E,R,T,X),其中,E为实体集合,该实体集合包含所有可识别物体,R为实体之间的关系集合,T为知识图谱中的三元组集合,三元组表示实体之间的关系,三元组的格式为(h,r,t),h为三元组的头部实体,r为关系类型,t为三元组的尾部实体;X∈R|E|×d为实体的嵌入向量矩阵,其中d为嵌入向量的维度,Xi表示第i个实体的嵌入向量;嵌入向量是指将每个实体视为高维空间中的一个点,则这个点的位置可以用一个向量来表示,将该向量称为“嵌入向量”。
(3)采用一个场景图谱生成模型SGG;场景图谱生成模型SGG能够通过图像数据序列及相应的目标检测结果{I1,I2,…}迭代式的产生场景图谱。表达式如下:
SGG(SGt-1,It,D(It))=SGt
其中It为场景图谱生成模型收到的第t张图片,SGt为处理第t张图片后获得的场景图谱。
(4)初始化场景图谱为空,初始化物体寻找状态为无目标状态,初始化待汇报文字信息为空;
(5)等待由盲人所持设备传来的图像信息或文字信息;
(6)收到步骤(5)的信息时,对信息类型进行判断:若接收到的信息为图像信息,则执行步骤(7),若接收到的信息为文字信息,则执行步骤(8);
(7)将步骤(6)接收的图像信息输入步骤(1)的目标检测模型,得到目标检测结果,将该目标检测结果输入步骤(3)的场景图谱生成模型,得到一个新的场景图谱,进行步骤(9);
(8)根据设定的规则,将步骤(6)接收的文字信息解析为指令,并根据物体寻找状态和指令进行以下判断:
若当前物体寻找状态处于无目标状态,且指令为设置目标,则进行步骤(8-1);
若当前物体寻找状态处于待确认指令状态,且指令为确认/否认,则进行步骤(8-2);
若当前物体寻找状态处于有目标状态,且指令为停止,则进行步骤(8-3);
若当前物体寻找状态处于有目标状态,且指令为汇报文字信息,则进行步骤(10);
(8-1)使当前物体寻找状态转变为待确认状态,并将指令中的目标设为待确认目标,返回步骤(5);
(8-2)若指令为确认,则使当前物体寻找状态转变为搜寻目标状态,将待确认目标设为搜寻目标,并从步骤(2)的常识知识图谱中检索搜寻目标实体的近似实体(即可能是搜寻目标实体的替代品的实体);
若指令为否认,则使当前物体寻找状态恢复为进入待确认状态前的原状态,返回步骤(5);
(8-3)使当前物体寻找状态转变为无目标状态,返回步骤(5);
(9)当前物体寻找状态为有目标状态时,根据当前盲人所持设备传来的图像、步骤(1)的目标检测模型以及步骤(7)的场景图谱,生成待汇报文字信息,具体步骤如下:
(9-1)若当前盲人所持设备传来的图像的目标检测结果中存在要寻找的物体,则根据该物体在场景图谱中的相对关系和该物体在图像中的相对位置,产生相应的汇报物体位置的文字信息;跳转步骤(10);
(9-2)若当前盲人所持设备传来的图像的目标检测结果中不存在要寻找的物体,而步骤(7)的场景图谱中存在该类物体,则产生提示用户曾经看到过该类物体的文字信息;
(9-3)若当前盲人所持设备传来的图像的目标检测结果中不存在要寻找的物体,且步骤(7)的场景图谱中也不存在该类物体,但步骤(7)的场景图谱中或当前盲人所持设备传来的图像的目标检测结果中存在步骤(8-2)的近似实体,则产生询问用户是否将寻找目标转变为找到的近似实体的文字信息;
(9-4)若当前盲人所持设备传来的图像的目标检测结果中不存在要寻找的物体或步骤(8-2)的近似实体,且步骤(7)的场景图谱中也不存在要寻找的物体或步骤(8-2) 的近似实体,则提示用户未找到目标的文字信息;
(9-5)记录步骤(9-1)至步骤(9-4)所产生的文字信息作为汇报内容,并返回步骤(6);
(10)将生成的文字信息通过通信模块传输到客户端;若传输的文字信息为询问用户是否将寻找目标转变为找到的近似实体的文字信息,则将当前状态转变为待确认状态,将找到的近似实体设为待确认目标,跳转步骤(5);若汇报物体位置的文字信息,则通过通信模块传输到客户端,完成盲人的物体寻找过程。
上述面向盲人的物体寻找方法,其中步骤(8-2)中从常识知识图谱中检索搜寻目标实体的近似实体检索算法的具体步骤如下:
(1)将近似实体检索算法记为RE,该算法的输入为一个知识图谱与一个目标实体,输出为一个近似实体序列,算法的表达式如下:
RE(KG,e)={a1,…,am}
式中,KG为标定的知识图谱,该知识图谱的形式为KG=(E,R,T,X),e为被确认为搜寻目标的实体,a1,…,am为e在知识图谱KG中的近似实体;
(2)定义知识图谱上实体e的邻居如下:
Figure BDA0003124125670000061
式中,Ne表示实体e的邻居集合,r是知识图谱中的一种关系类型,v是知识图谱中的实体,
Figure BDA0003124125670000064
为“存在”运算符,∨为“或”运算符;
(3)定义一个备选实体集合A,表达式如下:
Figure BDA0003124125670000062
其中,∧为“与”运算符;
(4)最后根据实体嵌入向量的来源选择一个实体相似度评价算法s,对步骤(3)的备选实体集合A按备选实体与目标实体的相似度从大到小排序得到近似实体序列,表达式如下:
{aj|j=1,…,|A|}
该实体序列满足条件:
Figure BDA0003124125670000063
式中aj,ak均为实体集合A中的实体,且为e的近似实体。
下面结合具体实施例对本发明进一步详细说明如下。
本发明提出的物体寻找系统,包括:客户端、服务器端以及通信模块;其中客户端部署于移动设备上,具有图像采集、音频采集和音频播放的能力;服务器端搭载多模态推理系统及其所需的预训练的神经网络模型;客户端与服务器端通过通信模块进行信息传递。
所述客户端持续采集图像数据并通过通信模块上传至服务器,在用户主动要求时采集音频数据进行语音识别并将识别出的文本数据上传至服务器,并在接收到服务器端文字反馈时将其转化为音频播放。本实施例采用搭载了安卓操作系统的MADGAZEX5智能眼镜,使用百度语音识别API进行语音转文字,使用安卓系统自带的文字转语音引擎进行语音合成。
所述通信模块,能够在不同类型设备间以预设协议实现文字、视频数据的传输。本实施例采用Mqtt协议及服务器作为文字和控制信息的通信模块,采用RTSP协议及服务器作为视频数据的通信模块。
所述服务器端主要包含一个推理程序,该程序能够持续接收图像数据并调用预训练的神经网络模型进行推理,并根据接收到的文本信息和神经网络的推理结果来更新系统状态,并依据当前系统状态决定给予客户端的反馈信息。
该推理程序主要使用一种面向盲人的物体寻找方法,该方法包括以下步骤:
(1)选定一个目标检测数据集(本实施例中使用MSCOCO公开数据集作为目标检测数据集),采用由该数据集训练的目标检测模型D(本实施例中采用在MSCOCO数据集上训练的YOLOv5m模型);将该目标检测模型D能够检测到的目标集合记为可检测物体(本实施例中,可检测物体为MSCOCO数据集中标注的80类物体);
(2)对步骤(1)的目标检测模型D中的可检测物体进行标定,得到一个可检测物体的常识知识图谱KG,KG=(E,R,T,X),其中,E为实体集合,该实体集合包含所有可识别物体,R为实体之间的关系集合,T为知识图谱中的三元组集合,三元组表示实体之间的关系,三元组的格式为(h,r,t),h为三元组的头部实体,r为关系类型,t为三元组的尾部实体;X∈R|E|×d为实体的嵌入向量矩阵,其中d为嵌入向量的维度,Xi表示第i个实体的嵌入向量(本实施例中,使用GLOVE模型在Wikipedia数据集上训练得到的词向量转化为实体的嵌入向量);
(3)采用一个场景图谱生成模型SGG(本实施例中采用SG-CAP模型);
(4)初始化场景图谱为空,初始化物体寻找状态为无目标状态,初始化待汇报文字信息为空;
(5)等待由盲人所持设备传来的图像信息或文字信息;
(6)收到步骤(5)的信息时,对信息类型进行判断:若接收到的信息为图像信息,则执行步骤(7),若接收到的信息为文字信息,则执行步骤(8);
(7)将步骤(6)接收的图像信息输入步骤(1)的目标检测模型,得到目标检测结果,将该目标检测结果输入步骤(3)的场景图谱生成模型,得到一个新的场景图谱,进行步骤(9);
(8)根据设定的规则,将步骤(6)接收的文字信息解析为指令,并根据物体寻找状态和指令进行以下判断:
若当前物体寻找状态处于无目标状态,且指令为设置目标,则进行步骤(8-1);
若当前物体寻找状态处于待确认指令状态,且指令为确认/否认,则进行步骤(8-2);
若当前物体寻找状态处于有目标状态,且指令为停止,则进行步骤(8-3);
若当前物体寻找状态处于有目标状态,且指令为汇报文字信息,则进行步骤(10);
(8-1)使当前物体寻找状态转变为待确认状态,并将指令中的目标设为待确认目标,返回步骤(5);
(8-2)若指令为确认,则使当前物体寻找状态转变为搜寻目标状态,将待确认目标设为搜寻目标,并从步骤(2)的常识知识图谱中检索搜寻目标实体的近似实体;
若指令为否认,则使当前物体寻找状态恢复为进入待确认状态前的原状态,返回步骤(5);
(8-3)使当前物体寻找状态转变为无目标状态,返回步骤(5);
(9)当前物体寻找状态为有目标状态时,根据当前盲人所持设备传来的图像、步骤(1)的目标检测模型以及步骤(7)的场景图谱,生成待汇报文字信息,具体步骤如下:
(9-1)若当前盲人所持设备传来的图像的目标检测结果中存在要寻找的物体,则根据该物体在场景图谱中的相对关系和该物体在图像中的相对位置,产生相应的汇报物体位置的文字信息;跳转步骤(10);
(9-2)若当前盲人所持设备传来的图像的目标检测结果中不存在要寻找的物体,而步骤(7)的场景图谱中存在该类物体,则产生提示用户曾经看到过该类物体的文字信息;
(9-3)若当前盲人所持设备传来的图像的目标检测结果中不存在要寻找的物体,且步骤(7)的场景图谱中也不存在该类物体,但步骤(7)的场景图谱中或当前盲人所持设备传来的图像的目标检测结果中存在步骤(8-2)的近似实体,则产生询问用户是否将寻找目标转变为找到的近似实体的文字信息;
(9-4)若当前盲人所持设备传来的图像的目标检测结果中不存在要寻找的物体或步骤(8-2)的近似实体,且步骤(7)的场景图谱中也不存在要寻找的物体或步骤(8-2) 的近似实体,则提示用户未找到目标的文字信息;
(9-5)记录步骤(9-1)至步骤(9-4)所产生的文字信息作为汇报内容,并返回步骤(6);
(10)将生成的文字信息通过通信模块传输到客户端;若传输的文字信息为询问用户是否将寻找目标转变为找到的近似实体的文字信息,则将当前状态转变为待确认状态,将找到的近似实体设为待确认目标,跳转步骤(5);若汇报物体位置的文字信息,则通过通信模块传输到客户端,完成盲人的物体寻找过程。
在上述面向盲人的物体寻找方法中,其中步骤(8-2)中从常识知识图谱中检索搜寻目标实体的近似实体检索算法的具体步骤如下:
(1)将近似实体检索算法记为RE,该算法的输入为一个知识图谱与一个目标实体,输出为一个近似实体序列,算法的表达式如下:
RE(KG,e)={a1,…,am}
式中,KG为标定的知识图谱,该知识图谱的形式为KG=(E,R,T,X),e为被确认为搜寻目标的实体,a1,…,am为e在知识图谱KG中的近似实体;
(2)定义知识图谱上实体e的邻居如下:
Figure BDA0003124125670000091
式中,Ne表示实体e的邻居集合,r是知识图谱中的一种关系类型,v是知识图谱中的实体,
Figure BDA0003124125670000094
为“存在”运算符,∨为“或”运算符;
(3)定义一个备选实体集合A,表达式如下:
Figure BDA0003124125670000092
其中,∧为“与”运算符;
(4)最后根据实体嵌入向量的来源选择一个实体相似度评价算法s(本实施例中,使用两实体的向量点积作为实体相似度评价算法),对步骤(3)的备选实体集合A按备选实体与目标实体的相似度从大到小排序得到近似实体序列,表达式如下:
{aj|j=1,…,|A|}
该实体序列满足条件:
Figure BDA0003124125670000093
式中aj,ak均为实体集合A中的实体,且为e的近似实体。

Claims (3)

1.一种面向盲人的物体寻找系统,其特征在于,该系统包括:客户端、服务器端以及通信模块;其中,
所述的客户端部署于移动设备上,用于图像采集、音频采集和音频播放;客户端持续采集图像数据并通过通信模块上传至服务器,在用户主动要求时采集音频数据进行语音识别并将识别出的文本数据上传至服务器,并在接收到服务器端文字反馈时将其转化为音频播放;
所述的服务器端,用于搭载多模态推理系统及其所需的预训练的神经网络模型,客户端与服务器端通过通信模块进行信息传递;服务器端持续接收图像数据并调用预训练的神经网络模型进行推理,并根据接收到的文本信息和神经网络的推理结果来更新系统状态,并依据当前系统状态决定给予客户端的反馈信息;
所述的通信模块,用于在不同类型设备间以预设协议实现文字、视频数据的传输。
2.一种面向盲人的物体寻找方法,其特征在于,该方法包括以下步骤:
(1)选定一个目标检测数据集,采用由该数据集训练的目标检测模型D;将该目标检测模型D能够检测到的目标集合记为可检测物体;
(2)对步骤(1)的目标检测模型D中的可检测物体进行标定,得到一个可检测物体的常识知识图谱KG,KG=(E,R,T,X),其中,E为实体集合,该实体集合包含所有可识别物体,R为实体之间的关系集合,T为知识图谱中的三元组集合,三元组表示实体之间的关系,三元组的格式为(h,r,t),h为三元组的头部实体,r为关系类型,t为三元组的尾部实体;x∈R|E|×d为实体的嵌入向量矩阵,其中d为嵌入向量的维度,Xi表示第i个实体的嵌入向量;
(3)采用一个场景图谱生成模型SGG;
(4)初始化场景图谱为空,初始化物体寻找状态为无目标状态,初始化待汇报文字信息为空;
(5)等待由盲人所持设备传来的图像信息或文字信息;
(6)收到步骤(5)的信息时,对信息类型进行判断:若接收到的信息为图像信息,则执行步骤(7),若接收到的信息为文字信息,则执行步骤(8);
(7)将步骤(6)接收的图像信息输入步骤(1)的目标检测模型,得到目标检测结果,将该目标检测结果输入步骤(3)的场景图谱生成模型,得到一个新的场景图谱,进行步骤(9);
(8)根据设定的规则,将步骤(6)接收的文字信息解析为指令,并根据物体寻找状态和指令进行以下判断:
若当前物体寻找状态处于无目标状态,且指令为设置目标,则进行步骤(8-1);
若当前物体寻找状态处于待确认指令状态,且指令为确认/否认,则进行步骤(8-2);
若当前物体寻找状态处于有目标状态,且指令为停止,则进行步骤(8-3);
若当前物体寻找状态处于有目标状态,且指令为汇报文字信息,则进行步骤(10);
(8-1)使当前物体寻找状态转变为待确认状态,并将指令中的目标设为待确认目标,返回步骤(5);
(8-2)若指令为确认,则使当前物体寻找状态转变为搜寻目标状态,将待确认目标设为搜寻目标,并从步骤(2)的常识知识图谱中检索搜寻目标实体的近似实体;
若指令为否认,则使当前物体寻找状态恢复为进入待确认状态前的原状态,返回步骤(5);
(8-3)使当前物体寻找状态转变为无目标状态,返回步骤(5);
(9)当前物体寻找状态为有目标状态时,根据当前盲人所持设备传来的图像、步骤(1)的目标检测模型以及步骤(7)的场景图谱,生成待汇报文字信息,具体步骤如下:
(9-1)若当前盲人所持设备传来的图像的目标检测结果中存在要寻找的物体,则根据该物体在场景图谱中的相对关系和该物体在图像中的相对位置,产生相应的汇报物体位置的文字信息;跳转步骤(10);
(9-2)若当前盲人所持设备传来的图像的目标检测结果中不存在要寻找的物体,而步骤(7)的场景图谱中存在该类物体,则产生提示用户曾经看到过该类物体的文字信息;
(9-3)若当前盲人所持设备传来的图像的目标检测结果中不存在要寻找的物体,且步骤(7)的场景图谱中也不存在该类物体,但步骤(7)的场景图谱中或当前盲人所持设备传来的图像的目标检测结果中存在步骤(8-2)的近似实体,则产生询问用户是否将寻找目标转变为找到的近似实体的文字信息;
(9-4)若当前盲人所持设备传来的图像的目标检测结果中不存在要寻找的物体或步骤(8-2)的近似实体,且步骤(7)的场景图谱中也不存在要寻找的物体或步骤(8-2)的近似实体,则提示用户未找到目标的文字信息;
(9-5)记录步骤(9-1)至步骤(9-4)所产生的文字信息作为汇报内容,并返回步骤(6);
(10)将生成的文字信息通过通信模块传输到客户端;若传输的文字信息为询问用户是否将寻找目标转变为找到的近似实体的文字信息,则将当前状态转变为待确认状态,将找到的近似实体设为待确认目标,跳转步骤(5);若汇报物体位置的文字信息,则通过通信模块传输到客户端,完成盲人的物体寻找过程。
3.如权利要求2的面向盲人的物体寻找方法,其特征在于所述的步骤(8-2)中从常识知识图谱中检索搜寻目标实体的近似实体检索算法的具体步骤如下:
(1)将近似实体检索算法记为RE,该算法的输入为一个知识图谱与一个目标实体,输出为一个近似实体序列,算法的表达式如下:
RE(KG,e)={a1,...,am}
式中,KG为标定的知识图谱,该知识图谱的形式为KG=(E,R,T,X),e为被确认为搜寻目标的实体,a1,...,am为e在知识图谱KG中的近似实体;
(2)定义知识图谱上实体e的邻居如下:
Figure FDA0003124125660000031
式中,Ne表示实体e的邻居集合,r是知识图谱中的一种关系类型,v是知识图谱中的实体,
Figure FDA0003124125660000034
为“存在”运算符,∨为“或”运算符;
(3)定义一个备选实体集合A,表达式如下:
Figure FDA0003124125660000032
其中,∧为“与”运算符;
(4)最后根据实体嵌入向量的来源选择一个实体相似度评价算法s,对步骤(3)的备选实体集合A按备选实体与目标实体的相似度从大到小排序得到近似实体序列,表达式如下:
{aj|j=1,...,|A|}
该实体序列满足条件:
Figure FDA0003124125660000033
式中aj,ak均为实体集合A中的实体,且为e的近似实体。
CN202110684533.6A 2021-06-21 2021-06-21 一种面向盲人的物体寻找系统及方法 Active CN113536945B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110684533.6A CN113536945B (zh) 2021-06-21 2021-06-21 一种面向盲人的物体寻找系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110684533.6A CN113536945B (zh) 2021-06-21 2021-06-21 一种面向盲人的物体寻找系统及方法

Publications (2)

Publication Number Publication Date
CN113536945A true CN113536945A (zh) 2021-10-22
CN113536945B CN113536945B (zh) 2024-04-12

Family

ID=78096334

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110684533.6A Active CN113536945B (zh) 2021-06-21 2021-06-21 一种面向盲人的物体寻找系统及方法

Country Status (1)

Country Link
CN (1) CN113536945B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008172750A (ja) * 2006-08-08 2008-07-24 Accenture Global Services Gmbh モバイルの音声コンテンツ配信システム
CN107977625A (zh) * 2017-11-30 2018-05-01 速感科技(北京)有限公司 一种可寻物的智能可移动设备及智能寻物方法
WO2019161559A1 (zh) * 2018-02-26 2019-08-29 深圳前海达闼云端智能科技有限公司 一种图像采集方法、系统、电子设备及计算机程序产品
CN110538051A (zh) * 2019-08-27 2019-12-06 华南理工大学 一种自动寻路的盲人智能辅助装置及其方法
CN111098301A (zh) * 2019-12-20 2020-05-05 西南交通大学 一种基于场景知识图谱任务型机器人的控制方法
CN112207821A (zh) * 2020-09-21 2021-01-12 大连遨游智能科技有限公司 视觉机器人的目标搜寻方法及机器人
CN112873211A (zh) * 2021-02-24 2021-06-01 清华大学 一种机器人人机交互方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008172750A (ja) * 2006-08-08 2008-07-24 Accenture Global Services Gmbh モバイルの音声コンテンツ配信システム
CN107977625A (zh) * 2017-11-30 2018-05-01 速感科技(北京)有限公司 一种可寻物的智能可移动设备及智能寻物方法
WO2019161559A1 (zh) * 2018-02-26 2019-08-29 深圳前海达闼云端智能科技有限公司 一种图像采集方法、系统、电子设备及计算机程序产品
CN110538051A (zh) * 2019-08-27 2019-12-06 华南理工大学 一种自动寻路的盲人智能辅助装置及其方法
CN111098301A (zh) * 2019-12-20 2020-05-05 西南交通大学 一种基于场景知识图谱任务型机器人的控制方法
CN112207821A (zh) * 2020-09-21 2021-01-12 大连遨游智能科技有限公司 视觉机器人的目标搜寻方法及机器人
CN112873211A (zh) * 2021-02-24 2021-06-01 清华大学 一种机器人人机交互方法

Also Published As

Publication number Publication date
CN113536945B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
US20210193110A1 (en) Artificial intelligence apparatus for generating text or speech having content-based style and method for the same
WO2020130747A1 (ko) 스타일 변환을 위한 영상 처리 장치 및 방법
KR20180054407A (ko) 로봇 시스템
CN111145257B (zh) 物品抓取方法、系统及物品抓取机器人
WO2023101679A1 (en) Text-image cross-modal retrieval based on virtual word expansion
CN117079299B (zh) 数据处理方法、装置、电子设备及存储介质
CN113642536B (zh) 数据处理方法、计算机设备以及可读存储介质
KR20210081103A (ko) 복수의 언어를 포함하는 음성을 인식하는 인공 지능 장치 및 그 방법
KR101862545B1 (ko) 로봇을 이용한 구조구난 서비스 제공방법 및 시스템
CN116958767B (zh) 基于多模态技术的智能合约安全分析方法及系统
CN113536945A (zh) 一种面向盲人的物体寻找系统及方法
WO2020141907A1 (ko) 키워드에 기초하여 이미지를 생성하는 이미지 생성 장치 및 이미지 생성 방법
CN110674265B (zh) 面向非结构化信息的特征判别与信息推荐系统
CN117077081A (zh) 人体指向预测方法、装置、机器人及存储介质
Yakoobi et al. Deep learning-based solution for differently-abled persons in the society
KR20210048271A (ko) 복수 객체에 대한 자동 오디오 포커싱 방법 및 장치
Ambawane et al. Smart e-stick for visually impaired using video intelligence api
Pushpalatha et al. Sign Language Converter Using Feature Extractor and PoseNet
CN114708429A (zh) 图像处理方法、装置、计算机设备及计算机可读存储介质
Mahboob et al. Sentences Prediction Based on Automatic Lip-Reading Detection with Deep Learning Convolutional Neural Networks Using Video-Based Features
Shendge et al. Smart Navigation for Visually Impaired people using Artificial Intelligence
KR102470959B1 (ko) 건설현장사진 촬영의도 자동인식 및 포토메시징 기술기반의 건설현장 관리시스템 및 관리방법
US20240160929A1 (en) Device for training and managing a visual scene graph model and control method thereof
WO2022182169A1 (en) Method and device for handwritten input recognition
KR102675910B1 (ko) 자율 주행 기반의 안내 로봇 시스템 및 그 제어 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant