CN117236433A

CN117236433A - 辅助盲人生活的智能通信感知方法、系统、设备及介质

Info

Publication number: CN117236433A
Application number: CN202311507254.8A
Authority: CN
Inventors: 郭帅帅; 陈儒骁
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2023-11-14
Filing date: 2023-11-14
Publication date: 2023-12-15
Anticipated expiration: 2043-11-14
Also published as: CN117236433B

Abstract

本发明涉及辅助盲人生活的智能通信感知方法、系统、设备及介质，属于人工智能技术领域。包括：发送者和接收者分别执行如下步骤：在图像中构建以结点和边为单位的认知图谱，并通过图卷积神经网络GCN进行整合，得到结点特征向量；将注意力机制引入图卷积神经网络GCN输出的结点选择，为每个结点特征向量分配权重，得到图特征向量；接收者接收发送者得到的图特征向量，并将该图特征向量与自身产生的图特征向量结合得到预测结果；离散的通信协议转化为一串二进制信号，向盲人描述人工智能提取到的视觉图谱。本发明将图像转化为视觉认知图谱后再进行训练，并引入注意力机制寻找有意义的信息，表现出来更强的鲁棒性和泛化能力以及潜在的实用价值。

Description

辅助盲人生活的智能通信感知方法、系统、设备及介质

技术领域

本发明涉及辅助盲人生活的智能通信感知方法、系统、设备及介质，属于人工智能技术领域。

背景技术

据世界卫生组织统计，截至 2021 年，全球约有 2.2 亿人患有失明或视力障碍，约占世界总人口的 3%。他们缺乏人类基本能力因此难以独自处理简单的生活任务如出行、用餐、洗浴等，这使得照顾他们的医护人员需要全天候陪伴，消耗人力，且牺牲了盲人的隐私和自尊。以往的研究试图为盲人配备摄像头，通过计算机将捕捉到的视觉信息翻译成自然语言，然后再呈现给盲人。然而，自然语言的传输效率不足以满足实时、高度互动的真实世界场景。我们认识到，通过身体接触，导盲犬可以高效地与盲人交流。例如，导盲犬轻轻拽一下绳子或轻点一下尾巴，就能向盲人传递特定信息，而盲人也能准确无误地理解信息。为了复制这种高效率，本发明致力于建造一个佩戴在手腕和脚踝上的智能震动系统，它能够像导盲犬一样，高效地为视障人士提供日常生活中的环境信息，使他们能够像明眼人一样无障碍地生活。

本发明智能通信感知方法的构建以智现通信（emergent communication）框架为基础。智能通信框架利用路易斯信号博弈（Lewis signaling game）模型来模拟通信的过程，同时结合图像信息进行深度学习训练。具体来说，系统中有一个发送者（speaker）和接收者（receiver），发送者了解环境的所有信息，接收者了解环境的部分信息。发送者可以向接收者发送一组固定格式的信号，接收者可以观察到发送的信号，并必须根据该信号和自身掌握的部分环境信息采取某种行动。通过让发送者从一个离散的语言空间中选择信号，并让接收者根据信号来做出相应的行动，模型可以在训练过程中逐渐学习建立起有效的离散通讯协议。该离散通讯协议可以用震动信号来转化为二进制信号，用于为盲人提供环境信息。在现有的智现通信框架中，上述环境信息是一组图像，其中包含一个目标图像和若干个干扰图像，发送者已知哪些图像是目标图像，哪些是干扰图像，但接收者并不了解这些具体信息。训练的目标是接收者能够通过发送者的离散消息和图像信息把目标图像从干扰图像中选择出来。发送者和接收者分别由一个卷积神经网络（CNN）和一个循环神经网络（RNN）神经网络构成，其中前者用于提取图像特征信息，后者用于对图像信息进行编码产生离散消息或者解码。在成熟的智现通信框架中，发送者可以通过离散的消息描述图像的抽象信息，而不需要传递完整的图像数据，这在适用的场景可以给通信效率带来数量级上的提升。但是，该框架对图像提取特征的过程缺乏针对性和目的性，最后可能提取到的只是如颜色、灰度、纹理等低级图像特征，而丧失了图像中物体的语义信息以及物体间的空间相对关系。如果发送者和接收者之间传递的消息仅能描述上述低级特征，模型将丧失认知抽象环境的能力，将影响模型的进一步开发利用。

发明内容

针对现有技术的不足，本发明提供了一种辅助盲人生活的智能通信感知方法、系统与设备。本发明认为从图像中提取认知图谱再进行训练与人类大脑认知新环境的方法类似。当人类从客观世界接收视觉信息时，更倾向于有重点有目的的提取信息，而不是将视线内所有信息都给予考虑。因此，不同于对整个图像不加区分的提取特征，本发明将图像转化为图像认知图谱后再进行训练，并引入注意力机制寻找有意义的信息。具体来说，本发明先用目标识别算法分割一切（segment anything）从图像中提取N个物体所在的部分，再用CNN神经网络分别提取它们的特征，以此作为认知图谱（cognitive graph）的N个结点（node）特征向量。接着，计算每个提取出的物体的中心坐标与其余物体的中心坐标的欧式距离，将距离该物体最近的M个物体相互连接作为认知图谱的边（edge）。然后，将认知图谱的结点和边信息作为图卷积神经网络（GCN）的输入，输出的图特征向量将代替传统智现通信中CNN神经网络的输出。由上述模型训练得到的离散通信协议将能够描述视觉信息所包含的认知图谱，帮助盲人认知客观世界。

术语解释：

分割一切（segment anything）模型：是目前引起了广泛关注的图像分割模型，具有高精度和零样本迁移的特性。该模型通过将图像嵌入和提示嵌入输入到经过修改的Transformer解码器中，从而生成一个输出掩码，用于图像分割任务。具体来说，它由一个图像编码器（image encoder），一个指令编码器（prompt encoder）和一个掩码解码器（maskdecoder）构成，其核心是掩码解码器。图像编码器和指令编码器提取图像和指令的嵌入向量并将其输入掩码解码器中，掩码解码器会更新所有嵌入向量：

自注意力（Self-Attention）：在提示嵌入上进行自注意力计算。

跨注意力（Cross-Attention）：将提示嵌入作为查询，从图像嵌入获取注意力。

MLP更新：对每个提示进行点对点的多层感知器（MLP）更新，并将输出标记映射到动态线性分类器。动态线性分类器计算每个图像位置的掩码前景概率，即像素属于前景对象的概率。

本发明的技术方案为：

一种辅助盲人生活的智能通信感知方法，包括：

信号博弈中的发送者和接收者分别执行如下步骤：在图像中构建以结点和边为单位的认知图谱，并通过图卷积神经网络GCN进行整合，得到结点特征向量；将注意力机制引入图卷积神经网络GCN输出的结点选择，为每个结点特征向量分配权重，得到图特征向量；

接收者接收发送者得到的图特征向量，并将该图特征向量与自身产生的图特征向量结合得到预测结果；

离散的通信协议转化为一串二进制信号，向盲人描述人工智能提取到的视觉图谱。

根据本发明优选的，发送者将得到的图特征向量输入RNN编码器，得到一个离散的消息序列；接收者将发送者产生的消息序列通过一个RNN解码器，得到消息序列的图特征向量。

根据本发明优选的，在图像中构建以结点和边为单位的认知图谱，包括：

使用分割一切模型从干扰图像和目标图像中分别提取N个物体作为认知图谱的初始结点；将N个物体所包含的图像调整大小后通过一个CNN神经网络得到N个结点特征向量；

找出与每个物体欧式距离最近的若干个物体，相互连接作为认知图谱的边；构建得到以结点和边为单位的认知图谱。

根据本发明优选的，CNN神经网络包括卷积层、池化层、激活函数和全连接层；

根据本发明优选的，将N个物体所包含的图像调整大小后通过一个CNN神经网络得到N个结点特征向量，包括：

先将分割一切模型得到的N个物体所包含的图像通过双线性插值法将其调整为固定大小；

图像输入CNN神经网络从而逐渐转化为图像的特征向量；CNN神经网络包括卷积层、池化层、激活函数和全连接层；具体包括：

卷积层操作为：在图像上滑动一个小窗口（卷积核），并通过计算窗口内像素矩阵与卷积核的点积作为窗口内图像的特征；

池化层操作为：采用最大池化，缩小卷积层输出结果的特征向量维度，同时强化特征；

激活函数Relu用于将特征向量中小于0的数转化为0，其他数保持不变；f（x）=max（0，x）；

全连接层用于通过复杂非线性变换将上一层特征映射成当前层的特征，最终得到N个结点特征向量。

进一步优选的，双线性插值法，包括：

假设有一个大小为M×N的图像I，将其调整为P×Q大小的图像I’：将调整前的图像I划分成4个小区域，分别是（x，y），（x+1，y），（x，y+1）和（x+1，y+1）；

采用这4个小区域的加权平均值来估计调整后的像素值；按式（1）调整：

（1）

其中，表示在调整后的图像中的坐标，x，y是调整前图像中的坐标，/>分别表示x’和y’小数部分。

根据本发明优选的，找出与每个物体欧式距离最近的若干个物体，相互连接作为认知图谱的边；构建得到以结点和边为单位的认知图谱，包括：

对于得到的N个结点特征向量表示为V={v₁，v₂，……v_N},对于每个结点v_i，寻找此结点的k个近邻结点表示为M（v_i），为所有v_j∈M（v_i）添加一条从v_j指向v_i的边e_ji，将所有边e_ji的集合记为E,用一个邻接矩阵A表示，邻接矩阵A的大小是N×N；对于每对顶点i和j，矩阵中的A_ij表示从顶点i到顶点j是否存在一条边，如果存在边，则A_ij的值为1，如果不存在边，则A_ij的值为0；近邻结点的选择依据各结点中心的欧氏距离:对于图像中两个结点的中心坐标P₁（x₁，y₁）和P₂（x₂，y₂），它们之间的欧式距离d可以表示为；这样，就把从一张图像中提取的认知图谱描述为一个有向图（Directed Graph），表示为G=（V，E）；其中，G表示认知图谱，V，E分别表示认知图谱的结点和边。

根据本发明优选的，认知图谱通过两层图卷积神经网络GCN进行整合，得到结点特征向量；包括：

开始时，使用N个物体经过CNN得到的图像特征向量代表每个结点的初始特征；

接着，图卷积神经网络GCN依次执行以下步骤：

信息共享：根据各结点的连接关系将当前结点的信息传递给相邻结点；

聚合更新：每个结点将其相邻节点的信息以及自身的信息聚合在一起，并用这些聚合的信息来更新自身；

学习权重：给不同结点之间的连接分配不同的权重；如式（2）所示：

（2）

其中，表示第/>层结点特征向量构成的矩阵；/>，A为邻接矩阵，/>为单位矩阵，/>为/>的度矩阵，是一个N×N对角矩阵(diagonal matrix)，对角线上的值表示当前结点边的个数，/>表示第/>层的可学习权重矩阵；

在图卷积神经网络GCN的训练过程中，每个结点特征向量不断更新，训练结束后，计算结点特征向量的加权求和值作为整个认知图谱的特征向量。

根据本发明优选的，将注意力机制引入图卷积神经网络GCN输出的结点选择，为每个结点特征向量分配权重，得到图特征向量，包括：

首先，让N个结点特征向量分别通过一个线性变换层得到N个分数s₁,s₂，…s_N；

然后，使用归一化指数函数（softmax）将N个分数压缩到（0,1）之间，得到N个和为1的权重W₁，W₂，…W_N；

最后，使用得到权重进行加权求和得到认知图谱的全局特征向量即图特征向量。

进一步优选的，归一化指数函数为：。

根据本发明优选的，发送者将得到的图特征向量输入RNN编码器，得到一个离散的消息序列；包括：

图特征向量经过发送者的RNN编码器产生一个离散的消息序列，该消息长度为l,词汇量大小为V；

RNN编码器包括一个单层门控循环单元（Gated recurrent unit），其网络结构由式（3）、式（4）、式（5）、式（6）表示：

（3）

（4）

（5）

（6）

其中，x_t是输入的认知图谱特征向量，h_t是输出的隐藏层特征向量，是候选激活向量，z_t是门向量，r_t是复位门向量，W，U，b是可学习的权重矩阵和偏差，/>代表点积运算。所述门控循环单元将重复执行T次，每次的输出h_t将成为下一次循环的输入x_t，以最后一次循环输出的隐藏层特征向量作为RNN编码器的输出。

进一步优选的，通过Gumbel-SoftMax函数将RNN编码器输出的具有离散概率分布的向量映射成一个连续的、可微的近似分布，从而方便梯度计算，Gumbel-SoftMax函数的数学表达如下：

对于离散随机变量z服从多项式分布（Multinomial Distribution）：，其中/>是类别k的概率；Gumbel-SoftMax 函数将z转化成连续变量y，使得y服从类别概率的连续分布：Gumbel-SoftMax函数如式（7）所示：

（7）

其中，g_i是独立同分布的Gumbel（Gumbel(0,1)Gumbel(0,1)）随机变量；是一个称为 temperature的正数，控制离散分布与连续分布之间的平滑程度；使用/>= 1的直通式Gumbel-Softmax；这样，门控循环单元的输出向量通过Gumbel-SoftMax函数就得到一个长度为V的概率分布向量，代表选择每个词汇的概率大小；再将该概率分布向量中的最大值置为1，其余值置0，即得到一个单热向量（one-hot）代表选定词汇表中的一个字符。

根据本发明优选的，接收者将发送者产生的消息序列通过一个RNN解码器，得到消息序列的图特征向量，包括：

听者的RNN解码器包括一个嵌入层（Embedding）和一个单层门控循环单元，将发送者产生的消息序列映射为连续向量；假设有一个词汇表包含V个字符，每个字符被编码为一个唯一的整数，即v={1,2，…,V}；嵌入层的输入为个长为V的单热向量vec，每个向量为1的值代表词汇表中一个字符i∈v，嵌入层的输出为一个实数向量/>，其中，d是嵌入的维度；嵌入矩阵用/>表示，其中，E的第i行对应着词汇表中第i个字符的嵌入向量,使用vec×E得到当前消息对应的嵌入向量x_m，其形状为（/> ,d）；循环执行/>次式（3）、式（4）、式（5）、式（6），执行输出的隐藏层特征向量h_m作为RNN解码器的解码结果。

听者的RNN解码器输出的特征向量，接收者执行的图卷积神经网络GCN输出的特征向量包含一个目标项和四个干扰项的图特征向量；得到5个分数代表预测结果，表示为一个向量，随后将向量与真实的单热标签向量的二元交叉熵作为损失函数进行反向传播训练。

进一步优选的，二元交叉熵数学表达如式（8）所示：

（8）。

根据本发明优选的，离散的通信协议转化为一串二进制信号，向盲人描述人工智能提取到的视觉图谱；包括：

给定一个长度为,词汇量为V的离散消息，先将其转化为二进制，即为/>=2^X，则只需要/>个表示0/1的传感器即表示该消息代表的信息；通过在盲人佩戴的震动传感器，通过震动与否表示0和1，再设置V和/>的大小使得x为整数，将该段离散消息完全表达给盲人。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现辅助盲人生活的智能通信感知方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现辅助盲人生活的智能通信感知方法的步骤。

一种辅助盲人生活的智能通信感知系统，包括：

图特征向量构建模块，被配置为：信号博弈中的发送者和接收者分别执行如下步骤：在图像中构建以结点和边为单位的认知图谱，并通过图卷积神经网络GCN进行整合，得到结点特征向量；将注意力机制引入图卷积神经网络GCN输出的结点选择，为每个结点特征向量分配权重，得到图特征向量；

结果预测模块，被配置为：接收者接收发送者得到的图特征向量，并将该图特征向量与自身产生的图特征向量结合得到预测结果；

视觉图谱提取模块，被配置为：离散的通信协议转化为一串二进制信号，向盲人描述人工智能提取到的视觉图谱。

本发明的有益效果为：

针对目前通过自然语言辅助盲人生活的设备效率低下以及以传统路易斯信号博弈为基础的涌现学习框架对图像提取特征的过程缺乏针对性和目的性的特点，本发明提供了一种辅助盲人生活的智能通信感知方法、系统与设备。实验过程使用生成式人工智能（generative AI）生成的近万张图片作为数据集，设置词汇量V=80，消息长度l=8，训练初始状态使用的CNN为传统训练方法的训练结果，并使其冻结且不再更新。实验分析了测试集与训练集损失函数的值以及预测的精确度，结果表明在相同数据集下，本发明训练方法比传统方法拥有更强的泛化能力和鲁棒性。

附图说明

图1是本发明辅助盲人生活的智能通信感知方法实现框架示意图；

图2是本发明辅助盲人生活的智能通信感知方法中训练过程的算法流程图；

图3是本发明训练过程中精确率大小随迭代次数变化示意图；

图4是本发明训练过程中损失函数随迭代次数变化示意图；

图5是本发明与传统智现通信框架测试集精确度随迭代次数变化对比示意图；

图6是本发明与传统智现通信框架测试集损失函数随迭代次数变化对比示意图。

具体实施方式

下面结合说明书附图和实施例对本发明予以进一步说明，但不限于此。

实施例1

一种辅助盲人生活的智能通信感知方法，如图1所示，包括：

离散的通信协议转化为一串二进制信号，通过在盲人身上佩戴的震动设备向盲人描述人工智能提取到的视觉图谱。帮助盲人认识客观世界。

实施例2

根据实施例1所述的一种辅助盲人生活的智能通信感知方法，其区别在于：

发送者将得到的图特征向量输入RNN编码器，得到一个离散的消息序列；接收者将发送者产生的消息序列通过一个RNN解码器，得到消息序列的图特征向量。

使用图像分割算法、CNN神经网络和欧式距离在图像中构建以结点和边为单位的认知图谱，包括：

CNN神经网络包括卷积层、池化层、激活函数和全连接层；

将N个物体所包含的图像调整大小后通过一个CNN神经网络得到N个结点特征向量，包括：

对于分割一切模型得到的多个物体，将使用CNN神经网络提取其特征。使用CNN网络的前提是输入图像的尺寸相同，因此，先将分割一切模型得到的N个物体所包含的图像通过双线性插值法将其调整为固定的224×224大小；

池化层操作为：采用最大池化，缩小卷积层输出结果的特征向量维度，同时强化特征；比如将一张224×224的输出分成56×56个4×4小窗口，再从每个4×4小窗口中选择最大值代替原来的4×4小窗口从而将输出变为56×56维度。

为了增强CNN神经网络的非线性建模能力，在池化层后面增加一个激活函数Relu，激活函数Relu用于将特征向量中小于0的数转化为0，其他数保持不变；f（x）=max（0，x）；

全连接层用于通过复杂非线性变换将上一层特征映射成当前层的特征，最终得到N个结点特征向量。全连接层将CNN神经网络的输出特征向量维度与下面将提到的RNN输出维度统一，方便下一步操作。

双线性插值法，包括：

（1）

找出与每个物体欧式距离最近的若干个物体，相互连接作为认知图谱的边；构建得到以结点和边为单位的认知图谱，包括：

对于得到的N个结点特征向量表示为V={v₁，v₂，……v_N},对于每个结点v_i，寻找此结点的k个近邻结点表示为M（v_i），为所有v_j∈M（v_i）添加一条从v_j指向v_i的边e_ji，将所有边e_ji的集合记为E,用一个邻接矩阵A表示，邻接矩阵A的大小是N×N；对于每对顶点i和j，矩阵中的A_ij表示从顶点i到顶点j是否存在一条边，如果存在边，则A_ij的值为1，如果不存在边，则A_ij的值为0；近邻结点的选择依据各结点中心的欧氏距离:对于图像中两个结点的中心坐标P₁（x₁，y₁）和P₂（x₂，y₂）它们之间的欧式距离d可以表示为/>；这样，就把从一张图像中提取的认知图谱描述为一个有向图（Directed Graph），表示为G=（V，E）；其中，G表示认知图谱，V，E分别表示认知图谱的结点和边。

认知图谱通过两层图卷积神经网络GCN进行整合，得到结点特征向量；包括：

图像特征向量是指N个物体分别经过CNN得到的代表图像信息的特征向量（imagefeature vector）。也指认知图谱中的N个结点{v₁，v₂，……v_N}的N个特征向量。在GCN的训练过程中，每个结点的特征向量不断更新，训练结束后计算结点特征向量的加权求和值作为整个认知图谱的特征向量。

接着，图卷积神经网络GCN依次执行以下步骤：

学习权重：在这个过程中，模型会学会如何给不同结点之间的连接分配不同的权重；也就是学会了合理地利用图的结构信息。认知图谱的边代表图像中各物体的空间位置关系，经过一个图卷积神经网络GCN，任一结点就获得它周围所有结点的信息，如果经过多层的GCN，每一层都进一步扩展每个结点的信息范围，结点将能够了解到更多其他结点的信息。具体来说，如式（2）所示：

（2）

其中，表示第/>层结点特征向量构成的矩阵；/>，A为邻接矩阵，/>为单位矩阵，加上单位矩阵的目的是保证每个节点至少会和自身连接。/>为/>的度矩阵，是一个N×N对角矩阵(diagonal matrix)，对角线上的值表示当前结点边的个数，/>表示第/>层的可学习权重矩阵；

结点指通过分割一切模型得到的N个物体，初始的结点特征向量指的是N个物体经过CNN得到的代表图像信息的N个特征向量。在图卷积神经网络GCN的训练过程中，每个结点特征向量不断更新，训练结束后，计算结点特征向量的加权求和值作为整个认知图谱的特征向量。图3是本发明训练过程中精确率大小随迭代次数变化示意图；图4是本发明训练过程中损失函数随迭代次数变化示意图；实验分析了测试集与训练集损失函数的值以及预测的精确度，结果表明在相同数据集下，本发明训练方法比传统方法拥有更强的泛化能力和鲁棒性。

本发明使用的图卷积神经网络GCN是现有的GCN网络架构。GCN网络的每一次更新就是进行一次式（2）的计算得到新的图特征向量构成的矩阵，并根据损失函数不断更新其中的权重矩阵/>。

图卷积神经网络GCN提取的特征是一个N×512维的矩阵，包含N个结点的特征向量。为模拟人脑图片中关注重点的机制，本发明引入了注意力机制计算每个结点的权重，最后进行加权求和得到一个1×512维的向量作为整个认知图谱的特征向量。将注意力机制引入图卷积神经网络GCN输出的结点选择，为每个结点特征向量分配权重，得到图特征向量，包括：

首先，让N个结点的512维特征向量分别通过一个线性变换层得到N个分数s₁,s₂，…s_N；

归一化指数函数为：。

发送者将得到的图特征向量输入RNN编码器，得到一个离散的消息序列；包括：

图特征向量经过发送者的RNN编码器产生一个离散的消息序列，该消息长度为,词汇量大小为V；也即该消息包含/>个字符，每个字符都是从一个大小为V的词汇表中选择的；

RNN编码器包括一个单层门控循环单元（Gated recurrent unit），是一种特殊的RNN结构。其网络结构由式（3）、式（4）、式（5）、式（6）表示：

（3）

（4）

（5）

（6）

其中，x_t是输入的认知图谱特征向量，h_t是输出的隐藏层特征向量，是候选激活向量，z_t是门向量，r_t是复位门向量，W，U，b是可学习的权重矩阵和偏差，/>代表点积运算。门控循环单元将重复执行/>次，每次的输出h_t将成为下一次循环的输入x_t。

门控循环单元每次的输出隐藏层向量经过一个全连接层映射为一个长度为V的向量，这个输出特征向量将用于在给定的词汇表中采样单个词汇。一般来说，从词汇表中选取一个字符的过程为离散分类分布中的数据采样，这个过程是不可微的，这意味着反向传播将不起作用，这一问题可以通过Gumbel-SoftMax 函数来解决。Gumbel-Softmax 分布是一种近似于分类分布样本的连续分布，也可用于反向传播。

通过Gumbel-SoftMax 函数将RNN编码器输出的具有离散概率分布的向量映射成一个连续的、可微的近似分布，从而方便梯度计算，Gumbel-SoftMax 函数的数学表达如下：

对于离散随机变量z服从多项式分布（Multinomial Distribution）：，其中/>是类别k的概率；Gumbel-SoftMax 函数将z转化成连续变量y，使得y服从类别概率的连续分布：Gumbel-SoftMax 函数如式（7）所示：

（7）

其中，g_i是独立同分布的Gumbel（Gumbel(0,1)Gumbel(0,1)）随机变量；是一个称为 temperature 的正数，控制离散分布与连续分布之间的平滑程度；为了保持反向可微分性，使用/>= 1的直通式 Gumbel-Softmax；这样，门控循环单元的输出向量通过Gumbel-SoftMax函数就得到一个长度为V的概率分布向量，代表选择每个词汇的概率大小；再将该概率分布向量中的最大值置为1，其余值置0，即得到一个单热向量（one-hot）代表选定词汇表中的一个字符。

接收者将发送者产生的消息序列通过一个RNN解码器，得到消息序列的图特征向量，包括：

听者的RNN解码器包括一个嵌入层（Embedding）和一个单层门控循环单元，将发送者产生的消息序列映射为512维的连续向量；假设有一个词汇表包含V个字符，每个字符被编码为一个唯一的整数，即v={1,2，…,V}；嵌入层的输入为个长为V的单热向量vec，每个向量为1的值代表词汇表中一个字符i∈v，嵌入层的输出为一个实数向量/>，其中，d是嵌入的维度；嵌入矩阵用/>表示，其中，E的第i行对应着词汇表中第i个字符的嵌入向量,使用vec×E得到当前消息对应的嵌入向量x_m，其形状为（/> ,d）；通过训练，嵌入矩阵的各行会在训练过程中被调整以便最好地适应模型任务。嵌入层输出的嵌入向量x_m将作为门控循环单元的输入，并循环执行/>次式（3）、式（4）、式（5）、式（6），执行输出的隐藏层特征向量h_m作为RNN解码器的解码结果。

接收者和发送者会分别生成一个图特征向量（graph vector），生成图特征向量的网络结构相同，如图2所示，都是通过一个CNN和一个GCN生成的。对于生成的图特征向量，发送者使用RNN编码器对其进行编码生成一段离散的消息，而接收者通过RNN解码器首先提取该段离散消息的特征向量。该消息的特征向量再与接收者生成的图特征向量进行点积运算，得到每张图像的预测分数。

听者的RNN解码器输出的特征向量维度为mvec=（1,512），接收者执行的图卷积神经网络GCN输出的特征向量包含一个目标项和四个干扰项的图特征向量，其维度为gvec=（5,512）；

mvec=【a₁，a₂，…a₅₁₂】分别与gvec的每一行特征向量gvec_i=【b₁，b₂，…b₅₁₂】，执行点积运算：

mvecgvec_i= a₁/>b₁+ a₂/>b₂+…+ a₅₁₂/>b₅₁₂，得到5个分数代表预测结果，表示为一个向量

scores=【p（y₁），p（y₂），…，p（y₅₁₂）】，随后将求解scores向量与真实的单热标签向量

realvec=【y₁，y₂，…，y₅】的二元交叉熵作为损失函数进行反向传播训练。

二元交叉熵数学表达如式（8）所示：

（8）。

离散的通信协议转化为一串二进制信号，通过在盲人身上佩戴的震动设备向盲人描述人工智能提取到的视觉图谱；包括：

给定一个长度为,词汇量为V的离散消息，其所有可能的形式有/>种,先将其转化为二进制，即为/>=2^X，则只需要/>个表示0/1的传感器即表示该消息代表的信息；通过在盲人手腕、脚腕等部位佩戴的震动传感器，通过震动与否表示0和1，再设置V和/>的大小使得x为整数，将该段离散消息完全表达给盲人。经过训练后产生的这段离散消息能够描述一种认知图谱，这种认知图谱是通过模仿人脑提取环境视觉信息的过程生成的。本发明通过震动传感器的震动把这种认知图谱描述给盲人为其提供额外的环境信息，从而帮助盲人认知客观世界。

图5是本发明与传统智现通信框架测试集精确度随迭代次数变化对比示意图；图6是本发明与传统智现通信框架测试集损失函数随迭代次数变化对比示意图；

实施例3

根据实施例2所述的一种辅助盲人生活的智能通信感知方法，其区别在于：

由于盲人在用餐过程中仅能依赖于触觉、听觉和嗅觉来感知食物、餐具和用餐环境，他们在识别食物、使用餐具、防止食物滴落溅出和阅读菜单时都有可能遇到问题，十分依赖他人帮助。

本发明可以使用餐桌布局及部分周围环境的图片作为训练数据集，从而产生可以辅助盲人用餐的智能感知系统。具体来说，给定一张餐桌布局图片，分割一切模型首先会将图中可能包含重要信息的物体提取出来如餐具、食物、饮料、餐桌边缘等作为N个结点。N个结点表示为V={v₁，v₂，……v_N}，对于每个结点v_i，寻找此结点的K个近邻结点表示为M（v_i），为所有v_j∈M（v_i）添加一条从v_j指向v_i的边e_ji，将所有边e_ji的集合记为E,用一个邻接矩阵A表示，这样，就可以把从一张餐桌图像中提取的认知图谱描述为一个有向图，表示为G=（V，E）。其中，G表示认知图谱，V，E分别表示认知图谱的结点和边。该有向图在通过图卷积网络和注意力机制后可以转化为包含视觉图谱所有信息的特征向量，该特征向量再通过RNN编码器即可转化为一个长度为,词汇量为V的离散消息序列。则盲人只需要佩戴/>个震动传感器就可以收到智能系统所传递的所有信息。对于盲人而言，震动传感器可以把从摄像头获取的视觉认知图谱信息提供给盲人，补充盲人通过触觉、听觉等感官获得的不完整认知图谱。

实施例4

盲人在出行过程中仅能依赖于触觉、听觉和来感知道路环境，可能使用导盲杖、盲道等工具出行，但随着社会发展，道路状况越来越复杂，盲道也常被不合理占用，盲人几乎不可能独自出行，十分依赖他人帮助。本发明可以使用真实道路环境的图片或预先处理过的地图图片作为训练数据集，从而产生可以辅助盲人用餐的智能感知系统。具体来说，对于真实道路环境的图片，分割一切模型首先会将图中可能包含重要信息的物体如障碍物、红绿灯、道路等作为N个结点，表示为V={v₁，v₂，……v_N}，对于每个结点v_i，寻找此结点的K个近邻结点表示为M（v_i），为所有v_j∈M（v_i）添加一条从v_j指向v_i的边e_ji，将所有边e_ji的集合记为E,用一个邻接矩阵A表示，这样，就可以把从一张路况图像中提取的认知图谱描述为一个有向图，表示为G=（V，E）。其中，G表示认知图谱，V，E分别表示认知图谱的结点和边。该有向图在通过图卷积网络和注意力机制后可以转化为包含视觉图谱所有信息的特征向量，该特征向量再通过RNN编码器即可转化为一个长度为,词汇量为V的离散消息序列。则盲人只需要佩戴/>个震动传感器就可以收到智能系统所传递的所有信息。对于盲人而言，此场景下的震动传感器类似于电子导盲犬，可以把从摄像头获取的视觉认知图谱信息提供给盲人，补充盲人通过触觉、听觉等感官获得的不完整认知图谱，帮助盲人躲避障碍物，并在正确的道路上行走。对于预先处理过的地图图片，可以把地图中的建筑物作为认知图谱的结点，道路作为连接结点的边，使用由此构建的认知图谱进行训练，未来可以用于为盲人提供导航服务。

实施例5

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现实施例1-4任一所述的辅助盲人生活的智能通信感知方法的步骤。

实施例6

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现实施例1-4任一所述的辅助盲人生活的智能通信感知方法的步骤。

实施例7

一种辅助盲人生活的智能通信感知系统，包括：

Claims

1.一种辅助盲人生活的智能通信感知方法，其特征在于，包括：

2.根据权利要求1所述的一种辅助盲人生活的智能通信感知方法，其特征在于，发送者将得到的图特征向量输入RNN编码器，得到一个离散的消息序列；接收者将发送者产生的消息序列通过一个RNN解码器，得到消息序列的图特征向量。

3.根据权利要求1所述的一种辅助盲人生活的智能通信感知方法，其特征在于，在图像中构建以结点和边为单位的认知图谱，包括：

4.根据权利要求3所述的一种辅助盲人生活的智能通信感知方法，其特征在于，CNN神经网络包括卷积层、池化层、激活函数和全连接层；

卷积层操作为：在图像上滑动一个小窗口，并通过计算窗口内像素矩阵与卷积核的点积作为窗口内图像的特征；

5.根据权利要求1所述的一种辅助盲人生活的智能通信感知方法，其特征在于，认知图谱通过两层图卷积神经网络GCN进行整合，得到结点特征向量；包括：

接着，图卷积神经网络GCN依次执行以下步骤：

（2）

其中，表示第/>层结点特征向量构成的矩阵；/>，A为邻接矩阵，/>为单位矩阵，/>为/>的度矩阵，是一个N×N对角矩阵，对角线上的值表示当前结点边的个数，/>表示第/>层的可学习权重矩阵；在图卷积神经网络GCN的训练过程中，每个结点特征向量不断更新，训练结束后，计算结点特征向量的加权求和值作为整个认知图谱的特征向量。

6.根据权利要求1所述的一种辅助盲人生活的智能通信感知方法，其特征在于，将注意力机制引入图卷积神经网络GCN输出的结点选择，为每个结点特征向量分配权重，得到图特征向量，包括：

然后，使用归一化指数函数将N个分数压缩到（0,1）之间，得到N个和为1的权重W₁，W₂，…W_N；

最后，使用得到权重进行加权求和得到认知图谱的全局特征向量即图特征向量；

发送者将得到的图特征向量输入RNN编码器，得到一个离散的消息序列；

通过Gumbel-SoftMax 函数实现反向传播。

7.根据权利要求1-6任一所述的一种辅助盲人生活的智能通信感知方法，其特征在于，接收者将发送者产生的消息序列通过一个RNN解码器，得到消息序列的图特征向量，包括：

听者的RNN解码器包括一个嵌入层和一个单层门控循环单元，将发送者产生的消息序列映射为连续向量；假设有一个词汇表包含V个字符，每个字符被编码为一个唯一的整数，即v={1,2，…,V}；嵌入层的输入为个长为V的单热向量vec，每个向量为1的值代表词汇表中一个字符i∈v，嵌入层的输出为一个实数向量/>，其中，d是嵌入的维度；嵌入矩阵用/>表示，其中，E的第i行对应着词汇表中第i个字符的嵌入向量,使用vec×E得到当前消息对应的嵌入向量x_m，其形状为（/> ,d）；循环执行/>次式（3）、式（4）、式（5）、式（6），执行输出的隐藏层特征向量h_m作为RNN解码器的解码结果；

听者的RNN解码器输出的特征向量，接收者执行的图卷积神经网络GCN输出的特征向量包含一个目标项和四个干扰项的图特征向量；得到分数代表预测结果，表示为一个向量，随后将向量与真实的单热标签向量的二元交叉熵作为损失函数进行反向传播训练。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行计算机程序时实现权利要求1-7任一所述辅助盲人生活的智能通信感知方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一所述辅助盲人生活的智能通信感知方法的步骤。

10.一种辅助盲人生活的智能通信感知系统，其特征在于包括：