CN117236433A - 辅助盲人生活的智能通信感知方法、系统、设备及介质 - Google Patents
辅助盲人生活的智能通信感知方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN117236433A CN117236433A CN202311507254.8A CN202311507254A CN117236433A CN 117236433 A CN117236433 A CN 117236433A CN 202311507254 A CN202311507254 A CN 202311507254A CN 117236433 A CN117236433 A CN 117236433A
- Authority
- CN
- China
- Prior art keywords
- feature vector
- node
- image
- graph
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 230000006854 communication Effects 0.000 title claims abstract description 54
- 238000004891 communication Methods 0.000 title claims abstract description 53
- 230000008447 perception Effects 0.000 title claims description 20
- 239000013598 vector Substances 0.000 claims abstract description 207
- 230000001149 cognitive effect Effects 0.000 claims abstract description 65
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 48
- 230000000007 visual effect Effects 0.000 claims abstract description 20
- 230000007246 mechanism Effects 0.000 claims abstract description 16
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 12
- 239000010410 layer Substances 0.000 claims description 69
- 238000013528 artificial neural network Methods 0.000 claims description 37
- 230000006870 function Effects 0.000 claims description 37
- 239000011159 matrix material Substances 0.000 claims description 36
- 238000012549 training Methods 0.000 claims description 33
- 230000008569 process Effects 0.000 claims description 19
- 238000011176 pooling Methods 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 239000002356 single layer Substances 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims description 2
- 230000019771 cognition Effects 0.000 abstract description 8
- 238000009826 distribution Methods 0.000 description 20
- 238000012360 testing method Methods 0.000 description 8
- 239000000047 product Substances 0.000 description 6
- 230000007613 environmental effect Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000003709 image segmentation Methods 0.000 description 3
- 210000003423 ankle Anatomy 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 230000001953 sensory effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 210000000707 wrist Anatomy 0.000 description 2
- 241001270131 Agaricus moelleri Species 0.000 description 1
- 201000004569 Blindness Diseases 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000003287 bathing Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000013361 beverage Nutrition 0.000 description 1
- 229910002056 binary alloy Inorganic materials 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Image Analysis (AREA)
Abstract
本发明涉及辅助盲人生活的智能通信感知方法、系统、设备及介质,属于人工智能技术领域。包括:发送者和接收者分别执行如下步骤:在图像中构建以结点和边为单位的认知图谱,并通过图卷积神经网络GCN进行整合,得到结点特征向量;将注意力机制引入图卷积神经网络GCN输出的结点选择,为每个结点特征向量分配权重,得到图特征向量;接收者接收发送者得到的图特征向量,并将该图特征向量与自身产生的图特征向量结合得到预测结果;离散的通信协议转化为一串二进制信号,向盲人描述人工智能提取到的视觉图谱。本发明将图像转化为视觉认知图谱后再进行训练,并引入注意力机制寻找有意义的信息,表现出来更强的鲁棒性和泛化能力以及潜在的实用价值。
Description
技术领域
本发明涉及辅助盲人生活的智能通信感知方法、系统、设备及介质,属于人工智能技术领域。
背景技术
据世界卫生组织统计,截至 2021 年,全球约有 2.2 亿人患有失明或视力障碍,约占世界总人口的 3%。他们缺乏人类基本能力因此难以独自处理简单的生活任务如出行、用餐、洗浴等,这使得照顾他们的医护人员需要全天候陪伴,消耗人力,且牺牲了盲人的隐私和自尊。以往的研究试图为盲人配备摄像头,通过计算机将捕捉到的视觉信息翻译成自然语言,然后再呈现给盲人。然而,自然语言的传输效率不足以满足实时、高度互动的真实世界场景。我们认识到,通过身体接触,导盲犬可以高效地与盲人交流。例如,导盲犬轻轻拽一下绳子或轻点一下尾巴,就能向盲人传递特定信息,而盲人也能准确无误地理解信息。为了复制这种高效率,本发明致力于建造一个佩戴在手腕和脚踝上的智能震动系统,它能够像导盲犬一样,高效地为视障人士提供日常生活中的环境信息,使他们能够像明眼人一样无障碍地生活。
本发明智能通信感知方法的构建以智现通信(emergent communication)框架为基础。智能通信框架利用路易斯信号博弈(Lewis signaling game)模型来模拟通信的过程,同时结合图像信息进行深度学习训练。具体来说,系统中有一个发送者(speaker)和接收者(receiver),发送者了解环境的所有信息,接收者了解环境的部分信息。发送者可以向接收者发送一组固定格式的信号,接收者可以观察到发送的信号,并必须根据该信号和自身掌握的部分环境信息采取某种行动。通过让发送者从一个离散的语言空间中选择信号,并让接收者根据信号来做出相应的行动,模型可以在训练过程中逐渐学习建立起有效的离散通讯协议。该离散通讯协议可以用震动信号来转化为二进制信号,用于为盲人提供环境信息。在现有的智现通信框架中,上述环境信息是一组图像,其中包含一个目标图像和若干个干扰图像,发送者已知哪些图像是目标图像,哪些是干扰图像,但接收者并不了解这些具体信息。训练的目标是接收者能够通过发送者的离散消息和图像信息把目标图像从干扰图像中选择出来。发送者和接收者分别由一个卷积神经网络(CNN)和一个循环神经网络(RNN)神经网络构成,其中前者用于提取图像特征信息,后者用于对图像信息进行编码产生离散消息或者解码。在成熟的智现通信框架中,发送者可以通过离散的消息描述图像的抽象信息,而不需要传递完整的图像数据,这在适用的场景可以给通信效率带来数量级上的提升。但是,该框架对图像提取特征的过程缺乏针对性和目的性,最后可能提取到的只是如颜色、灰度、纹理等低级图像特征,而丧失了图像中物体的语义信息以及物体间的空间相对关系。如果发送者和接收者之间传递的消息仅能描述上述低级特征,模型将丧失认知抽象环境的能力,将影响模型的进一步开发利用。
发明内容
针对现有技术的不足,本发明提供了一种辅助盲人生活的智能通信感知方法、系统与设备。本发明认为从图像中提取认知图谱再进行训练与人类大脑认知新环境的方法类似。当人类从客观世界接收视觉信息时,更倾向于有重点有目的的提取信息,而不是将视线内所有信息都给予考虑。因此,不同于对整个图像不加区分的提取特征,本发明将图像转化为图像认知图谱后再进行训练,并引入注意力机制寻找有意义的信息。具体来说,本发明先用目标识别算法分割一切(segment anything)从图像中提取N个物体所在的部分,再用CNN神经网络分别提取它们的特征,以此作为认知图谱(cognitive graph)的N个结点(node)特征向量。接着,计算每个提取出的物体的中心坐标与其余物体的中心坐标的欧式距离,将距离该物体最近的M个物体相互连接作为认知图谱的边(edge)。然后,将认知图谱的结点和边信息作为图卷积神经网络(GCN)的输入,输出的图特征向量将代替传统智现通信中CNN神经网络的输出。由上述模型训练得到的离散通信协议将能够描述视觉信息所包含的认知图谱,帮助盲人认知客观世界。
术语解释:
分割一切(segment anything)模型:是目前引起了广泛关注的图像分割模型,具有高精度和零样本迁移的特性。该模型通过将图像嵌入和提示嵌入输入到经过修改的Transformer解码器中,从而生成一个输出掩码,用于图像分割任务。具体来说,它由一个图像编码器(image encoder),一个指令编码器(prompt encoder)和一个掩码解码器(maskdecoder)构成,其核心是掩码解码器。图像编码器和指令编码器提取图像和指令的嵌入向量并将其输入掩码解码器中,掩码解码器会更新所有嵌入向量:
自注意力(Self-Attention):在提示嵌入上进行自注意力计算。
跨注意力(Cross-Attention):将提示嵌入作为查询,从图像嵌入获取注意力。
MLP更新:对每个提示进行点对点的多层感知器(MLP)更新,并将输出标记映射到动态线性分类器。动态线性分类器计算每个图像位置的掩码前景概率,即像素属于前景对象的概率。
本发明的技术方案为:
一种辅助盲人生活的智能通信感知方法,包括:
信号博弈中的发送者和接收者分别执行如下步骤:在图像中构建以结点和边为单位的认知图谱,并通过图卷积神经网络GCN进行整合,得到结点特征向量;将注意力机制引入图卷积神经网络GCN输出的结点选择,为每个结点特征向量分配权重,得到图特征向量;
接收者接收发送者得到的图特征向量,并将该图特征向量与自身产生的图特征向量结合得到预测结果;
离散的通信协议转化为一串二进制信号,向盲人描述人工智能提取到的视觉图谱。
根据本发明优选的,发送者将得到的图特征向量输入RNN编码器,得到一个离散的消息序列;接收者将发送者产生的消息序列通过一个RNN解码器,得到消息序列的图特征向量。
根据本发明优选的,在图像中构建以结点和边为单位的认知图谱,包括:
使用分割一切模型从干扰图像和目标图像中分别提取N个物体作为认知图谱的初始结点; 将N个物体所包含的图像调整大小后通过一个CNN神经网络得到N个结点特征向量;
找出与每个物体欧式距离最近的若干个物体,相互连接作为认知图谱的边;构建得到以结点和边为单位的认知图谱。
根据本发明优选的,CNN神经网络包括卷积层、池化层、激活函数和全连接层;
根据本发明优选的,将N个物体所包含的图像调整大小后通过一个CNN神经网络得到N个结点特征向量,包括:
先将分割一切模型得到的N个物体所包含的图像通过双线性插值法将其调整为固定大小;
图像输入CNN神经网络从而逐渐转化为图像的特征向量;CNN神经网络包括卷积层、池化层、激活函数和全连接层;具体包括:
卷积层操作为:在图像上滑动一个小窗口(卷积核),并通过计算窗口内像素矩阵与卷积核的点积作为窗口内图像的特征;
池化层操作为:采用最大池化,缩小卷积层输出结果的特征向量维度,同时强化特征;
激活函数Relu用于将特征向量中小于0的数转化为0,其他数保持不变;f(x)=max(0,x);
全连接层用于通过复杂非线性变换将上一层特征映射成当前层的特征,最终得到N个结点特征向量。
进一步优选的,双线性插值法,包括:
假设有一个大小为M×N的图像I,将其调整为P×Q大小的图像I’:将调整前的图像I划分成4个小区域,分别是(x,y),(x+1,y),(x,y+1)和(x+1,y+1);
采用这4个小区域的加权平均值来估计调整后的像素值;按式(1)调整:
(1)
其中,表示在调整后的图像中的坐标,x,y是调整前图像中的坐标,/>分别表示x’和y’小数部分。
根据本发明优选的,找出与每个物体欧式距离最近的若干个物体,相互连接作为认知图谱的边;构建得到以结点和边为单位的认知图谱,包括:
对于得到的N个结点特征向量表示为V={v1,v2,……vN},对于每个结点vi,寻找此结点的k个近邻结点表示为M(vi),为所有vj∈M(vi)添加一条从vj指向vi的边eji,将所有边eji的集合记为E,用一个邻接矩阵A表示,邻接矩阵A的大小是N×N;对于每对顶点i和j,矩阵中的Aij表示从顶点i到顶点j是否存在一条边,如果存在边,则Aij的值为1,如果不存在边,则Aij的值为0;近邻结点的选择依据各结点中心的欧氏距离:对于图像中两个结点的中心坐标P1(x1,y1)和P2(x2,y2),它们之间的欧式距离d可以表示为;这样,就把从一张图像中提取的认知图谱描述为一个有向图(Directed Graph),表示为G=(V,E);其中,G表示认知图谱,V,E分别表示认知图谱的结点和边。
根据本发明优选的,认知图谱通过两层图卷积神经网络GCN进行整合,得到结点特征向量;包括:
开始时,使用N个物体经过CNN得到的图像特征向量代表每个结点的初始特征;
接着,图卷积神经网络GCN依次执行以下步骤:
信息共享:根据各结点的连接关系将当前结点的信息传递给相邻结点;
聚合更新:每个结点将其相邻节点的信息以及自身的信息聚合在一起,并用这些聚合的信息来更新自身;
学习权重:给不同结点之间的连接分配不同的权重;如式(2)所示:
(2)
其中,表示第/>层结点特征向量构成的矩阵;/>,A为邻接矩阵,/>为单位矩阵,/>为/>的度矩阵,是一个N×N对角矩阵(diagonal matrix),对角线上的值表示当前结点边的个数,/>表示第/>层的可学习权重矩阵;
在图卷积神经网络GCN的训练过程中,每个结点特征向量不断更新,训练结束后,计算结点特征向量的加权求和值作为整个认知图谱的特征向量。
根据本发明优选的,将注意力机制引入图卷积神经网络GCN输出的结点选择,为每个结点特征向量分配权重,得到图特征向量,包括:
首先,让N个结点特征向量分别通过一个线性变换层得到N个分数s1,s2,…sN;
然后,使用归一化指数函数(softmax)将N个分数压缩到(0,1)之间,得到N个和为1的权重W1,W2,…WN;
最后,使用得到权重进行加权求和得到认知图谱的全局特征向量即图特征向量。
进一步优选的,归一化指数函数为:。
根据本发明优选的,发送者将得到的图特征向量输入RNN编码器,得到一个离散的消息序列;包括:
图特征向量经过发送者的RNN编码器产生一个离散的消息序列,该消息长度为l,词汇量大小为V;
RNN编码器包括一个单层门控循环单元(Gated recurrent unit),其网络结构由式(3)、式(4)、式(5)、式(6)表示:
(3)
(4)
(5)
(6)
其中,xt是输入的认知图谱特征向量,ht是输出的隐藏层特征向量,是候选激活向量,zt是门向量,rt是复位门向量,W,U,b是可学习的权重矩阵和偏差,/>代表点积运算。所述门控循环单元将重复执行T次,每次的输出ht将成为下一次循环的输入xt,以最后一次循环输出的隐藏层特征向量作为RNN编码器的输出。
进一步优选的,通过Gumbel-SoftMax函数将RNN编码器输出的具有离散概率分布的向量映射成一个连续的、可微的近似分布,从而方便梯度计算,Gumbel-SoftMax函数的数学表达如下:
对于离散随机变量z服从多项式分布(Multinomial Distribution):,其中/>是类别k的概率;Gumbel-SoftMax 函数将z转化成连续变量y,使得y服从类别概率的连续分布:Gumbel-SoftMax函数如式(7)所示:
(7)
其中,gi是独立同分布的Gumbel(Gumbel(0,1)Gumbel(0,1))随机变量;是一个称为 temperature的正数,控制离散分布与连续分布之间的平滑程度;使用/>= 1的直通式Gumbel-Softmax;这样,门控循环单元的输出向量通过Gumbel-SoftMax函数就得到一个长度为V的概率分布向量,代表选择每个词汇的概率大小;再将该概率分布向量中的最大值置为1,其余值置0,即得到一个单热向量(one-hot)代表选定词汇表中的一个字符。
根据本发明优选的,接收者将发送者产生的消息序列通过一个RNN解码器,得到消息序列的图特征向量,包括:
听者的RNN解码器包括一个嵌入层(Embedding)和一个单层门控循环单元,将发送者产生的消息序列映射为连续向量;假设有一个词汇表包含V个字符,每个字符被编码为一个唯一的整数,即v={1,2,…,V};嵌入层的输入为个长为V的单热向量vec,每个向量为1的值代表词汇表中一个字符i∈v,嵌入层的输出为一个实数向量/>,其中,d是嵌入的维度;嵌入矩阵用/>表示,其中,E的第i行对应着词汇表中第i个字符的嵌入向量,使用vec×E得到当前消息对应的嵌入向量xm,其形状为(/> ,d);循环执行/>次式(3)、式(4)、式(5)、式(6),执行输出的隐藏层特征向量hm作为RNN解码器的解码结果。
听者的RNN解码器输出的特征向量,接收者执行的图卷积神经网络GCN输出的特征向量包含一个目标项和四个干扰项的图特征向量;得到5个分数代表预测结果,表示为一个向量,随后将向量与真实的单热标签向量的二元交叉熵作为损失函数进行反向传播训练。
进一步优选的,二元交叉熵数学表达如式(8)所示:
(8)。
根据本发明优选的,离散的通信协议转化为一串二进制信号,向盲人描述人工智能提取到的视觉图谱;包括:
给定一个长度为,词汇量为V的离散消息,先将其转化为二进制,即为/>=2X,则只需要/>个表示0/1的传感器即表示该消息代表的信息;通过在盲人佩戴的震动传感器,通过震动与否表示0和1,再设置V和/>的大小使得x为整数,将该段离散消息完全表达给盲人。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现辅助盲人生活的智能通信感知方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现辅助盲人生活的智能通信感知方法的步骤。
一种辅助盲人生活的智能通信感知系统,包括:
图特征向量构建模块,被配置为:信号博弈中的发送者和接收者分别执行如下步骤:在图像中构建以结点和边为单位的认知图谱,并通过图卷积神经网络GCN进行整合,得到结点特征向量;将注意力机制引入图卷积神经网络GCN输出的结点选择,为每个结点特征向量分配权重,得到图特征向量;
结果预测模块,被配置为:接收者接收发送者得到的图特征向量,并将该图特征向量与自身产生的图特征向量结合得到预测结果;
视觉图谱提取模块,被配置为:离散的通信协议转化为一串二进制信号,向盲人描述人工智能提取到的视觉图谱。
本发明的有益效果为:
针对目前通过自然语言辅助盲人生活的设备效率低下以及以传统路易斯信号博弈为基础的涌现学习框架对图像提取特征的过程缺乏针对性和目的性的特点,本发明提供了一种辅助盲人生活的智能通信感知方法、系统与设备。实验过程使用生成式人工智能(generative AI)生成的近万张图片作为数据集,设置词汇量V=80,消息长度l=8,训练初始状态使用的CNN为传统训练方法的训练结果,并使其冻结且不再更新。实验分析了测试集与训练集损失函数的值以及预测的精确度,结果表明在相同数据集下,本发明训练方法比传统方法拥有更强的泛化能力和鲁棒性。
附图说明
图1是本发明辅助盲人生活的智能通信感知方法实现框架示意图;
图2是本发明辅助盲人生活的智能通信感知方法中训练过程的算法流程图;
图3是本发明训练过程中精确率大小随迭代次数变化示意图;
图4是本发明训练过程中损失函数随迭代次数变化示意图;
图5是本发明与传统智现通信框架测试集精确度随迭代次数变化对比示意图;
图6是本发明与传统智现通信框架测试集损失函数随迭代次数变化对比示意图。
具体实施方式
下面结合说明书附图和实施例对本发明予以进一步说明,但不限于此。
实施例1
一种辅助盲人生活的智能通信感知方法,如图1所示,包括:
信号博弈中的发送者和接收者分别执行如下步骤:在图像中构建以结点和边为单位的认知图谱,并通过图卷积神经网络GCN进行整合,得到结点特征向量;将注意力机制引入图卷积神经网络GCN输出的结点选择,为每个结点特征向量分配权重,得到图特征向量;
接收者接收发送者得到的图特征向量,并将该图特征向量与自身产生的图特征向量结合得到预测结果;
离散的通信协议转化为一串二进制信号,通过在盲人身上佩戴的震动设备向盲人描述人工智能提取到的视觉图谱。帮助盲人认识客观世界。
实施例2
根据实施例1所述的一种辅助盲人生活的智能通信感知方法,其区别在于:
发送者将得到的图特征向量输入RNN编码器,得到一个离散的消息序列;接收者将发送者产生的消息序列通过一个RNN解码器,得到消息序列的图特征向量。
使用图像分割算法、CNN神经网络和欧式距离在图像中构建以结点和边为单位的认知图谱,包括:
使用分割一切模型从干扰图像和目标图像中分别提取N个物体作为认知图谱的初始结点; 将N个物体所包含的图像调整大小后通过一个CNN神经网络得到N个结点特征向量;
找出与每个物体欧式距离最近的若干个物体,相互连接作为认知图谱的边;构建得到以结点和边为单位的认知图谱。
CNN神经网络包括卷积层、池化层、激活函数和全连接层;
将N个物体所包含的图像调整大小后通过一个CNN神经网络得到N个结点特征向量,包括:
对于分割一切模型得到的多个物体,将使用CNN神经网络提取其特征。使用CNN网络的前提是输入图像的尺寸相同,因此,先将分割一切模型得到的N个物体所包含的图像通过双线性插值法将其调整为固定的224×224大小;
图像输入CNN神经网络从而逐渐转化为图像的特征向量;CNN神经网络包括卷积层、池化层、激活函数和全连接层;具体包括:
卷积层操作为:在图像上滑动一个小窗口(卷积核),并通过计算窗口内像素矩阵与卷积核的点积作为窗口内图像的特征;
池化层操作为:采用最大池化,缩小卷积层输出结果的特征向量维度,同时强化特征;比如将一张224×224的输出分成56×56个4×4小窗口,再从每个4×4小窗口中选择最大值代替原来的4×4小窗口从而将输出变为56×56维度。
为了增强CNN神经网络的非线性建模能力,在池化层后面增加一个激活函数Relu,激活函数Relu用于将特征向量中小于0的数转化为0,其他数保持不变;f(x)=max(0,x);
全连接层用于通过复杂非线性变换将上一层特征映射成当前层的特征,最终得到N个结点特征向量。全连接层将CNN神经网络的输出特征向量维度与下面将提到的RNN输出维度统一,方便下一步操作。
双线性插值法,包括:
假设有一个大小为M×N的图像I,将其调整为P×Q大小的图像I’:将调整前的图像I划分成4个小区域,分别是(x,y),(x+1,y),(x,y+1)和(x+1,y+1);
采用这4个小区域的加权平均值来估计调整后的像素值;按式(1)调整:
(1)
其中,表示在调整后的图像中的坐标,x,y是调整前图像中的坐标,/>分别表示x’和y’小数部分。
找出与每个物体欧式距离最近的若干个物体,相互连接作为认知图谱的边;构建得到以结点和边为单位的认知图谱,包括:
对于得到的N个结点特征向量表示为V={v1,v2,……vN},对于每个结点vi,寻找此结点的k个近邻结点表示为M(vi),为所有vj∈M(vi)添加一条从vj指向vi的边eji,将所有边eji的集合记为E,用一个邻接矩阵A表示,邻接矩阵A的大小是N×N;对于每对顶点i和j,矩阵中的Aij表示从顶点i到顶点j是否存在一条边,如果存在边,则Aij的值为1,如果不存在边,则Aij的值为0;近邻结点的选择依据各结点中心的欧氏距离:对于图像中两个结点的中心坐标P1(x1,y1)和P2(x2,y2)它们之间的欧式距离d可以表示为/>;这样,就把从一张图像中提取的认知图谱描述为一个有向图(Directed Graph),表示为G=(V,E);其中,G表示认知图谱,V,E分别表示认知图谱的结点和边。
认知图谱通过两层图卷积神经网络GCN进行整合,得到结点特征向量;包括:
开始时,使用N个物体经过CNN得到的图像特征向量代表每个结点的初始特征;
图像特征向量是指N个物体分别经过CNN得到的代表图像信息的特征向量(imagefeature vector)。也指认知图谱中的N个结点{v1,v2,……vN}的N个特征向量。在GCN的训练过程中,每个结点的特征向量不断更新,训练结束后计算结点特征向量的加权求和值作为整个认知图谱的特征向量。
接着,图卷积神经网络GCN依次执行以下步骤:
信息共享:根据各结点的连接关系将当前结点的信息传递给相邻结点;
聚合更新:每个结点将其相邻节点的信息以及自身的信息聚合在一起,并用这些聚合的信息来更新自身;
学习权重:在这个过程中,模型会学会如何给不同结点之间的连接分配不同的权重;也就是学会了合理地利用图的结构信息。认知图谱的边代表图像中各物体的空间位置关系,经过一个图卷积神经网络GCN,任一结点就获得它周围所有结点的信息,如果经过多层的GCN,每一层都进一步扩展每个结点的信息范围,结点将能够了解到更多其他结点的信息。具体来说,如式(2)所示:
(2)
其中,表示第/>层结点特征向量构成的矩阵;/>,A为邻接矩阵,/>为单位矩阵,加上单位矩阵的目的是保证每个节点至少会和自身连接。/>为/>的度矩阵,是一个N×N对角矩阵(diagonal matrix),对角线上的值表示当前结点边的个数,/>表示第/>层的可学习权重矩阵;
结点指通过分割一切模型得到的N个物体,初始的结点特征向量指的是N个物体经过CNN得到的代表图像信息的N个特征向量。在图卷积神经网络GCN的训练过程中,每个结点特征向量不断更新,训练结束后,计算结点特征向量的加权求和值作为整个认知图谱的特征向量。图3是本发明训练过程中精确率大小随迭代次数变化示意图;图4是本发明训练过程中损失函数随迭代次数变化示意图;实验分析了测试集与训练集损失函数的值以及预测的精确度,结果表明在相同数据集下,本发明训练方法比传统方法拥有更强的泛化能力和鲁棒性。
本发明使用的图卷积神经网络GCN是现有的GCN网络架构。GCN网络的每一次更新就是进行一次式(2)的计算得到新的图特征向量构成的矩阵,并根据损失函数不断更新其中的权重矩阵/>。
图卷积神经网络GCN提取的特征是一个N×512维的矩阵,包含N个结点的特征向量。为模拟人脑图片中关注重点的机制,本发明引入了注意力机制计算每个结点的权重,最后进行加权求和得到一个1×512维的向量作为整个认知图谱的特征向量。将注意力机制引入图卷积神经网络GCN输出的结点选择,为每个结点特征向量分配权重,得到图特征向量,包括:
首先,让N个结点的512维特征向量分别通过一个线性变换层得到N个分数s1,s2,…sN;
然后,使用归一化指数函数(softmax)将N个分数压缩到(0,1)之间,得到N个和为1的权重W1,W2,…WN;
最后,使用得到权重进行加权求和得到认知图谱的全局特征向量即图特征向量。
归一化指数函数为:。
发送者将得到的图特征向量输入RNN编码器,得到一个离散的消息序列;包括:
图特征向量经过发送者的RNN编码器产生一个离散的消息序列,该消息长度为,词汇量大小为V;也即该消息包含/>个字符,每个字符都是从一个大小为V的词汇表中选择的;
RNN编码器包括一个单层门控循环单元(Gated recurrent unit),是一种特殊的RNN结构。其网络结构由式(3)、式(4)、式(5)、式(6)表示:
(3)
(4)
(5)
(6)
其中,xt是输入的认知图谱特征向量,ht是输出的隐藏层特征向量,是候选激活向量,zt是门向量,rt是复位门向量,W,U,b是可学习的权重矩阵和偏差,/>代表点积运算。门控循环单元将重复执行/>次,每次的输出ht将成为下一次循环的输入xt。
门控循环单元每次的输出隐藏层向量经过一个全连接层映射为一个长度为V的向量,这个输出特征向量将用于在给定的词汇表中采样单个词汇。一般来说,从词汇表中选取一个字符的过程为离散分类分布中的数据采样,这个过程是不可微的,这意味着反向传播将不起作用,这一问题可以通过Gumbel-SoftMax 函数来解决。Gumbel-Softmax 分布是一种近似于分类分布样本的连续分布,也可用于反向传播。
通过Gumbel-SoftMax 函数将RNN编码器输出的具有离散概率分布的向量映射成一个连续的、可微的近似分布,从而方便梯度计算,Gumbel-SoftMax 函数的数学表达如下:
对于离散随机变量z服从多项式分布(Multinomial Distribution):,其中/>是类别k的概率;Gumbel-SoftMax 函数将z转化成连续变量y,使得y服从类别概率的连续分布:Gumbel-SoftMax 函数如式(7)所示:
(7)
其中,gi是独立同分布的Gumbel(Gumbel(0,1)Gumbel(0,1))随机变量;是一个称为 temperature 的正数,控制离散分布与连续分布之间的平滑程度;为了保持反向可微分性,使用/>= 1的直通式 Gumbel-Softmax;这样,门控循环单元的输出向量通过Gumbel-SoftMax函数就得到一个长度为V的概率分布向量,代表选择每个词汇的概率大小;再将该概率分布向量中的最大值置为1,其余值置0,即得到一个单热向量(one-hot)代表选定词汇表中的一个字符。
接收者将发送者产生的消息序列通过一个RNN解码器,得到消息序列的图特征向量,包括:
听者的RNN解码器包括一个嵌入层(Embedding)和一个单层门控循环单元,将发送者产生的消息序列映射为512维的连续向量;假设有一个词汇表包含V个字符,每个字符被编码为一个唯一的整数,即v={1,2,…,V};嵌入层的输入为个长为V的单热向量vec,每个向量为1的值代表词汇表中一个字符i∈v,嵌入层的输出为一个实数向量/>,其中,d是嵌入的维度;嵌入矩阵用/>表示,其中,E的第i行对应着词汇表中第i个字符的嵌入向量,使用vec×E得到当前消息对应的嵌入向量xm,其形状为(/> ,d);通过训练,嵌入矩阵的各行会在训练过程中被调整以便最好地适应模型任务。嵌入层输出的嵌入向量xm将作为门控循环单元的输入,并循环执行/>次式(3)、式(4)、式(5)、式(6),执行输出的隐藏层特征向量hm作为RNN解码器的解码结果。
接收者和发送者会分别生成一个图特征向量(graph vector),生成图特征向量的网络结构相同,如图2所示,都是通过一个CNN和一个GCN生成的。对于生成的图特征向量,发送者使用RNN编码器对其进行编码生成一段离散的消息,而接收者通过RNN解码器首先提取该段离散消息的特征向量。该消息的特征向量再与接收者生成的图特征向量进行点积运算,得到每张图像的预测分数。
听者的RNN解码器输出的特征向量维度为mvec=(1,512),接收者执行的图卷积神经网络GCN输出的特征向量包含一个目标项和四个干扰项的图特征向量,其维度为gvec=(5,512);
mvec=【a1,a2,…a512】分别与gvec的每一行特征向量gveci=【b1,b2,…b512】,执行点积运算:
mvecgveci= a1/>b1+ a2/>b2+…+ a512/>b512,得到5个分数代表预测结果,表示为一个向量
scores=【p(y1),p(y2),…,p(y512)】,随后将求解scores向量与真实的单热标签向量
realvec=【y1,y2,…,y5】的二元交叉熵作为损失函数进行反向传播训练。
二元交叉熵数学表达如式(8)所示:
(8)。
离散的通信协议转化为一串二进制信号,通过在盲人身上佩戴的震动设备向盲人描述人工智能提取到的视觉图谱;包括:
给定一个长度为,词汇量为V的离散消息,其所有可能的形式有/>种,先将其转化为二进制,即为/>=2X,则只需要/>个表示0/1的传感器即表示该消息代表的信息;通过在盲人手腕、脚腕等部位佩戴的震动传感器,通过震动与否表示0和1,再设置V和/>的大小使得x为整数,将该段离散消息完全表达给盲人。经过训练后产生的这段离散消息能够描述一种认知图谱,这种认知图谱是通过模仿人脑提取环境视觉信息的过程生成的。本发明通过震动传感器的震动把这种认知图谱描述给盲人为其提供额外的环境信息,从而帮助盲人认知客观世界。
图5是本发明与传统智现通信框架测试集精确度随迭代次数变化对比示意图;图6是本发明与传统智现通信框架测试集损失函数随迭代次数变化对比示意图;
实施例3
根据实施例2所述的一种辅助盲人生活的智能通信感知方法,其区别在于:
由于盲人在用餐过程中仅能依赖于触觉、听觉和嗅觉来感知食物、餐具和用餐环境,他们在识别食物、使用餐具、防止食物滴落溅出和阅读菜单时都有可能遇到问题,十分依赖他人帮助。
本发明可以使用餐桌布局及部分周围环境的图片作为训练数据集,从而产生可以辅助盲人用餐的智能感知系统。具体来说,给定一张餐桌布局图片,分割一切模型首先会将图中可能包含重要信息的物体提取出来如餐具、食物、饮料、餐桌边缘等作为N个结点。N个结点表示为V={v1,v2,……vN},对于每个结点vi,寻找此结点的K个近邻结点表示为M(vi),为所有vj∈M(vi)添加一条从vj指向vi的边eji,将所有边eji的集合记为E,用一个邻接矩阵A表示,这样,就可以把从一张餐桌图像中提取的认知图谱描述为一个有向图,表示为G=(V,E)。其中,G表示认知图谱,V,E分别表示认知图谱的结点和边。该有向图在通过图卷积网络和注意力机制后可以转化为包含视觉图谱所有信息的特征向量,该特征向量再通过RNN编码器即可转化为一个长度为,词汇量为V的离散消息序列。则盲人只需要佩戴/>个震动传感器就可以收到智能系统所传递的所有信息。对于盲人而言,震动传感器可以把从摄像头获取的视觉认知图谱信息提供给盲人,补充盲人通过触觉、听觉等感官获得的不完整认知图谱。
实施例4
根据实施例2所述的一种辅助盲人生活的智能通信感知方法,其区别在于:
盲人在出行过程中仅能依赖于触觉、听觉和来感知道路环境,可能使用导盲杖、盲道等工具出行,但随着社会发展,道路状况越来越复杂,盲道也常被不合理占用,盲人几乎不可能独自出行,十分依赖他人帮助。本发明可以使用真实道路环境的图片或预先处理过的地图图片作为训练数据集,从而产生可以辅助盲人用餐的智能感知系统。具体来说,对于真实道路环境的图片,分割一切模型首先会将图中可能包含重要信息的物体如障碍物、红绿灯、道路等作为N个结点,表示为V={v1,v2,……vN},对于每个结点vi,寻找此结点的K个近邻结点表示为M(vi),为所有vj∈M(vi)添加一条从vj指向vi的边eji,将所有边eji的集合记为E,用一个邻接矩阵A表示,这样,就可以把从一张路况图像中提取的认知图谱描述为一个有向图,表示为G=(V,E)。其中,G表示认知图谱,V,E分别表示认知图谱的结点和边。该有向图在通过图卷积网络和注意力机制后可以转化为包含视觉图谱所有信息的特征向量,该特征向量再通过RNN编码器即可转化为一个长度为,词汇量为V的离散消息序列。则盲人只需要佩戴/>个震动传感器就可以收到智能系统所传递的所有信息。对于盲人而言,此场景下的震动传感器类似于电子导盲犬,可以把从摄像头获取的视觉认知图谱信息提供给盲人,补充盲人通过触觉、听觉等感官获得的不完整认知图谱,帮助盲人躲避障碍物,并在正确的道路上行走。对于预先处理过的地图图片,可以把地图中的建筑物作为认知图谱的结点,道路作为连接结点的边,使用由此构建的认知图谱进行训练,未来可以用于为盲人提供导航服务。
实施例5
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现实施例1-4任一所述的辅助盲人生活的智能通信感知方法的步骤。
实施例6
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现实施例1-4任一所述的辅助盲人生活的智能通信感知方法的步骤。
实施例7
一种辅助盲人生活的智能通信感知系统,包括:
图特征向量构建模块,被配置为:信号博弈中的发送者和接收者分别执行如下步骤:在图像中构建以结点和边为单位的认知图谱,并通过图卷积神经网络GCN进行整合,得到结点特征向量;将注意力机制引入图卷积神经网络GCN输出的结点选择,为每个结点特征向量分配权重,得到图特征向量;
结果预测模块,被配置为:接收者接收发送者得到的图特征向量,并将该图特征向量与自身产生的图特征向量结合得到预测结果;
视觉图谱提取模块,被配置为:离散的通信协议转化为一串二进制信号,向盲人描述人工智能提取到的视觉图谱。
Claims (10)
1.一种辅助盲人生活的智能通信感知方法,其特征在于,包括:
信号博弈中的发送者和接收者分别执行如下步骤:在图像中构建以结点和边为单位的认知图谱,并通过图卷积神经网络GCN进行整合,得到结点特征向量;将注意力机制引入图卷积神经网络GCN输出的结点选择,为每个结点特征向量分配权重,得到图特征向量;
接收者接收发送者得到的图特征向量,并将该图特征向量与自身产生的图特征向量结合得到预测结果;
离散的通信协议转化为一串二进制信号,向盲人描述人工智能提取到的视觉图谱。
2.根据权利要求1所述的一种辅助盲人生活的智能通信感知方法,其特征在于,发送者将得到的图特征向量输入RNN编码器,得到一个离散的消息序列;接收者将发送者产生的消息序列通过一个RNN解码器,得到消息序列的图特征向量。
3.根据权利要求1所述的一种辅助盲人生活的智能通信感知方法,其特征在于,在图像中构建以结点和边为单位的认知图谱,包括:
使用分割一切模型从干扰图像和目标图像中分别提取N个物体作为认知图谱的初始结点; 将N个物体所包含的图像调整大小后通过一个CNN神经网络得到N个结点特征向量;
找出与每个物体欧式距离最近的若干个物体,相互连接作为认知图谱的边;构建得到以结点和边为单位的认知图谱。
4.根据权利要求3所述的一种辅助盲人生活的智能通信感知方法,其特征在于,CNN神经网络包括卷积层、池化层、激活函数和全连接层;
将N个物体所包含的图像调整大小后通过一个CNN神经网络得到N个结点特征向量,包括:
先将分割一切模型得到的N个物体所包含的图像通过双线性插值法将其调整为固定大小;
图像输入CNN神经网络从而逐渐转化为图像的特征向量;CNN神经网络包括卷积层、池化层、激活函数和全连接层;具体包括:
卷积层操作为:在图像上滑动一个小窗口,并通过计算窗口内像素矩阵与卷积核的点积作为窗口内图像的特征;
池化层操作为:采用最大池化,缩小卷积层输出结果的特征向量维度,同时强化特征;
激活函数Relu用于将特征向量中小于0的数转化为0,其他数保持不变;f(x)=max(0,x);
全连接层用于通过复杂非线性变换将上一层特征映射成当前层的特征,最终得到N个结点特征向量。
5.根据权利要求1所述的一种辅助盲人生活的智能通信感知方法,其特征在于,认知图谱通过两层图卷积神经网络GCN进行整合,得到结点特征向量;包括:
开始时,使用N个物体经过CNN得到的图像特征向量代表每个结点的初始特征;
接着,图卷积神经网络GCN依次执行以下步骤:
信息共享:根据各结点的连接关系将当前结点的信息传递给相邻结点;
聚合更新:每个结点将其相邻节点的信息以及自身的信息聚合在一起,并用这些聚合的信息来更新自身;
学习权重:给不同结点之间的连接分配不同的权重;如式(2)所示:
(2)
其中,表示第/>层结点特征向量构成的矩阵;/>,A为邻接矩阵,/>为单位矩阵,/>为/>的度矩阵,是一个N×N对角矩阵,对角线上的值表示当前结点边的个数,/>表示第/>层的可学习权重矩阵;在图卷积神经网络GCN的训练过程中,每个结点特征向量不断更新,训练结束后,计算结点特征向量的加权求和值作为整个认知图谱的特征向量。
6.根据权利要求1所述的一种辅助盲人生活的智能通信感知方法,其特征在于,将注意力机制引入图卷积神经网络GCN输出的结点选择,为每个结点特征向量分配权重,得到图特征向量,包括:
首先,让N个结点特征向量分别通过一个线性变换层得到N个分数s1,s2,…sN;
然后,使用归一化指数函数将N个分数压缩到(0,1)之间,得到N个和为1的权重W1,W2,…WN;
最后,使用得到权重进行加权求和得到认知图谱的全局特征向量即图特征向量;
发送者将得到的图特征向量输入RNN编码器,得到一个离散的消息序列;
通过Gumbel-SoftMax 函数实现反向传播。
7.根据权利要求1-6任一所述的一种辅助盲人生活的智能通信感知方法,其特征在于,接收者将发送者产生的消息序列通过一个RNN解码器,得到消息序列的图特征向量,包括:
听者的RNN解码器包括一个嵌入层和一个单层门控循环单元,将发送者产生的消息序列映射为连续向量;假设有一个词汇表包含V个字符,每个字符被编码为一个唯一的整数,即v={1,2,…,V};嵌入层的输入为个长为V的单热向量vec,每个向量为1的值代表词汇表中一个字符i∈v,嵌入层的输出为一个实数向量/>,其中,d是嵌入的维度;嵌入矩阵用/>表示,其中,E的第i行对应着词汇表中第i个字符的嵌入向量,使用vec×E得到当前消息对应的嵌入向量xm,其形状为(/> ,d);循环执行/>次式(3)、式(4)、式(5)、式(6),执行输出的隐藏层特征向量hm作为RNN解码器的解码结果;
听者的RNN解码器输出的特征向量,接收者执行的图卷积神经网络GCN输出的特征向量包含一个目标项和四个干扰项的图特征向量;得到分数代表预测结果,表示为一个向量,随后将向量与真实的单热标签向量的二元交叉熵作为损失函数进行反向传播训练。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行计算机程序时实现权利要求1-7任一所述辅助盲人生活的智能通信感知方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一所述辅助盲人生活的智能通信感知方法的步骤。
10.一种辅助盲人生活的智能通信感知系统,其特征在于包括:
图特征向量构建模块,被配置为:信号博弈中的发送者和接收者分别执行如下步骤:在图像中构建以结点和边为单位的认知图谱,并通过图卷积神经网络GCN进行整合,得到结点特征向量;将注意力机制引入图卷积神经网络GCN输出的结点选择,为每个结点特征向量分配权重,得到图特征向量;
结果预测模块,被配置为:接收者接收发送者得到的图特征向量,并将该图特征向量与自身产生的图特征向量结合得到预测结果;
视觉图谱提取模块,被配置为:离散的通信协议转化为一串二进制信号,向盲人描述人工智能提取到的视觉图谱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311507254.8A CN117236433B (zh) | 2023-11-14 | 2023-11-14 | 辅助盲人生活的智能通信感知方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311507254.8A CN117236433B (zh) | 2023-11-14 | 2023-11-14 | 辅助盲人生活的智能通信感知方法、系统、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117236433A true CN117236433A (zh) | 2023-12-15 |
CN117236433B CN117236433B (zh) | 2024-02-02 |
Family
ID=89093358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311507254.8A Active CN117236433B (zh) | 2023-11-14 | 2023-11-14 | 辅助盲人生活的智能通信感知方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117236433B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222770A (zh) * | 2019-06-10 | 2019-09-10 | 成都澳海川科技有限公司 | 一种基于组合关系注意力网络的视觉问答方法 |
US20200043467A1 (en) * | 2018-07-31 | 2020-02-06 | Tencent Technology (Shenzhen) Company Limited | Monaural multi-talker speech recognition with attention mechanism and gated convolutional networks |
CN111563533A (zh) * | 2020-04-08 | 2020-08-21 | 华南理工大学 | 基于图卷积神经网络融合多种人脑图谱的受试者分类方法 |
CN111680695A (zh) * | 2020-06-08 | 2020-09-18 | 河南工业大学 | 一种基于反向注意力模型的语义分割方法 |
CN112543936A (zh) * | 2020-10-29 | 2021-03-23 | 香港应用科技研究院有限公司 | 用于动作识别的动作结构自注意力图卷积网络 |
CN113657425A (zh) * | 2021-06-28 | 2021-11-16 | 华南师范大学 | 基于多尺度与跨模态注意力机制的多标签图像分类方法 |
CN113852492A (zh) * | 2021-09-01 | 2021-12-28 | 南京信息工程大学 | 基于注意力机制和图卷积神经网络的网络流量预测方法 |
CN114111764A (zh) * | 2021-08-21 | 2022-03-01 | 西北工业大学 | 一种导航知识图谱构建及推理应用方法 |
CN114399250A (zh) * | 2021-12-30 | 2022-04-26 | 淮阴工学院 | 基于认知图谱的冷链多温混配选温方法及装置 |
CN114398491A (zh) * | 2021-12-21 | 2022-04-26 | 成都量子矩阵科技有限公司 | 一种基于知识图谱的语义分割图像实体关系推理方法 |
US20220138536A1 (en) * | 2020-10-29 | 2022-05-05 | Hong Kong Applied Science And Technology Research Institute Co., Ltd | Actional-structural self-attention graph convolutional network for action recognition |
CN114485666A (zh) * | 2022-01-10 | 2022-05-13 | 北京科技大学顺德研究生院 | 基于物体关联关系认知推理的盲人辅助导航方法及装置 |
CN117011658A (zh) * | 2023-08-02 | 2023-11-07 | 广东电网有限责任公司广州供电局 | 图像处理方法、装置、设备、存储介质和计算机程序产品 |
-
2023
- 2023-11-14 CN CN202311507254.8A patent/CN117236433B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200043467A1 (en) * | 2018-07-31 | 2020-02-06 | Tencent Technology (Shenzhen) Company Limited | Monaural multi-talker speech recognition with attention mechanism and gated convolutional networks |
CN110222770A (zh) * | 2019-06-10 | 2019-09-10 | 成都澳海川科技有限公司 | 一种基于组合关系注意力网络的视觉问答方法 |
CN111563533A (zh) * | 2020-04-08 | 2020-08-21 | 华南理工大学 | 基于图卷积神经网络融合多种人脑图谱的受试者分类方法 |
CN111680695A (zh) * | 2020-06-08 | 2020-09-18 | 河南工业大学 | 一种基于反向注意力模型的语义分割方法 |
US20220138536A1 (en) * | 2020-10-29 | 2022-05-05 | Hong Kong Applied Science And Technology Research Institute Co., Ltd | Actional-structural self-attention graph convolutional network for action recognition |
CN112543936A (zh) * | 2020-10-29 | 2021-03-23 | 香港应用科技研究院有限公司 | 用于动作识别的动作结构自注意力图卷积网络 |
CN113657425A (zh) * | 2021-06-28 | 2021-11-16 | 华南师范大学 | 基于多尺度与跨模态注意力机制的多标签图像分类方法 |
CN114111764A (zh) * | 2021-08-21 | 2022-03-01 | 西北工业大学 | 一种导航知识图谱构建及推理应用方法 |
CN113852492A (zh) * | 2021-09-01 | 2021-12-28 | 南京信息工程大学 | 基于注意力机制和图卷积神经网络的网络流量预测方法 |
CN114398491A (zh) * | 2021-12-21 | 2022-04-26 | 成都量子矩阵科技有限公司 | 一种基于知识图谱的语义分割图像实体关系推理方法 |
CN114399250A (zh) * | 2021-12-30 | 2022-04-26 | 淮阴工学院 | 基于认知图谱的冷链多温混配选温方法及装置 |
CN114485666A (zh) * | 2022-01-10 | 2022-05-13 | 北京科技大学顺德研究生院 | 基于物体关联关系认知推理的盲人辅助导航方法及装置 |
CN117011658A (zh) * | 2023-08-02 | 2023-11-07 | 广东电网有限责任公司广州供电局 | 图像处理方法、装置、设备、存储介质和计算机程序产品 |
Non-Patent Citations (2)
Title |
---|
SHU-AN LIU 等: "A Graph Neural Network with Multiple Auxiliary Tasks for Accurate Single Cell Classification", 《SPML \'23: PROCEEDINGS OF THE 2023 6TH INTERNATIONAL CONFERENCE ON SIGNAL PROCESSING AND MACHINE LEARNING》, pages 124 * |
朱志平 等: "基于场景图感知的跨模态图像描述模型", 《计算机应用》, pages 1 - 8 * |
Also Published As
Publication number | Publication date |
---|---|
CN117236433B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110458844B (zh) | 一种低光照场景的语义分割方法 | |
Soo Kim et al. | Interpretable 3d human action analysis with temporal convolutional networks | |
WO2022252272A1 (zh) | 一种基于迁移学习的改进vgg16网络猪的身份识别方法 | |
CN111814661B (zh) | 基于残差-循环神经网络的人体行为识别方法 | |
CN112488210A (zh) | 一种基于图卷积神经网络的三维点云自动分类方法 | |
CN111507378A (zh) | 训练图像处理模型的方法和装置 | |
CN110414432A (zh) | 对象识别模型的训练方法、对象识别方法及相应的装置 | |
CN107609460A (zh) | 一种融合时空双重网络流和attention机制的人体行为识别方法 | |
CN107818302A (zh) | 基于卷积神经网络的非刚性多尺度物体检测方法 | |
CN112949647B (zh) | 三维场景描述方法、装置、电子设备和存储介质 | |
CN111666919B (zh) | 一种对象识别方法、装置、计算机设备和存储介质 | |
CN104463191A (zh) | 一种基于注意机制的机器人视觉处理方法 | |
KR102517513B1 (ko) | 인공지능 기반 수목 데이터 관리 시스템 및 수목 데이터 관리 방법 | |
WO2021073311A1 (zh) | 图像识别方法、装置、计算机可读存储介质及芯片 | |
CN114049381A (zh) | 一种融合多层语义信息的孪生交叉目标跟踪方法 | |
CN109711356B (zh) | 一种表情识别方法和系统 | |
CN106909938A (zh) | 基于深度学习网络的视角无关性行为识别方法 | |
CN106980830A (zh) | 一种基于深度卷积网络自亲缘关系识别方法与装置 | |
CN110334656A (zh) | 基于信源概率加权的多源遥感图像水体提取方法及装置 | |
CN108875555B (zh) | 基于神经网络的视频兴趣区域和显著目标提取与定位系统 | |
CN110335299A (zh) | 一种基于对抗网络的单目深度估计系统实现方法 | |
Ansar et al. | Robust hand gesture tracking and recognition for healthcare via Recurent neural network | |
CN115222896A (zh) | 三维重建方法、装置、电子设备及计算机可读存储介质 | |
CN112990154B (zh) | 一种数据处理方法、计算机设备以及可读存储介质 | |
CN117115911A (zh) | 一种基于注意力机制的超图学习动作识别系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |