CN116978011A - 一种用于智能目标识别的图像语义通信方法及系统 - Google Patents

一种用于智能目标识别的图像语义通信方法及系统 Download PDF

Info

Publication number
CN116978011A
CN116978011A CN202311065226.5A CN202311065226A CN116978011A CN 116978011 A CN116978011 A CN 116978011A CN 202311065226 A CN202311065226 A CN 202311065226A CN 116978011 A CN116978011 A CN 116978011A
Authority
CN
China
Prior art keywords
semantic
image
features
target
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311065226.5A
Other languages
English (en)
Other versions
CN116978011B (zh
Inventor
曾青青
赵小蕾
张俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xinhua College
Original Assignee
Guangzhou Xinhua College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xinhua College filed Critical Guangzhou Xinhua College
Priority to CN202311065226.5A priority Critical patent/CN116978011B/zh
Publication of CN116978011A publication Critical patent/CN116978011A/zh
Application granted granted Critical
Publication of CN116978011B publication Critical patent/CN116978011B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种用于智能目标识别的图像语义通信方法及系统,包括,获取待检测图像数据集,进行归一化处理;基于图卷积神经网络获取目标识别的语义提取偏好,构建多语义特征模型,结合语义提取偏好提取不同图像语义特征;将不同图像语义特征进行上下文融合,获取上下文图像语义特征,得到图像语义向量;对图像语义向量进行解码,获取解码后图像语义向量进行图像重建,生成目标图像数据进行目标识别。本发明通过挖掘图像不同图像语义特征及上下文图像语义特征表征图像语义向量,实现语义的可靠恢复,提高了语义恢复的准确性;并且利用图卷积神经网络构建编码及解码网络,在有限带宽条件下具有较好的鲁棒性。

Description

一种用于智能目标识别的图像语义通信方法及系统
技术领域
本发明涉及语义通信技术领域,更具体的,涉及一种用于智能目标识别的图像语义通信方法及系统。
背景技术
语义通信是一种可将用户的需求和信息含义融入通信过程中的全新架构,可以通过探索语义信息来显着提高传输效率。而近年来人工智能技术不断发展,在算法、算力、数据方面的巨大进步,使得其能够进行提取图像、文本、语音等语义信息的精准高效提取,使语义通信在工程层面成为可能。由于语义通信放松了对信息传输的无差错要求,避免了冗余数据的传输。因此在传输等量的源信息时,传输的数据量会更小,但传输精度不会降低,系统可以获得更高的效率。
在目标识别场景中,图像采集端如无人机等遇到信号较弱的情况或者进入信号弱的区域时,将难以进行检测图片的正常回传,降低了目标识别的质量。传统的通信方法传输比特流的信息冗余度较大且目标识别易受信道条件影响,而现有的语义通信框架是基于集中式训练的端到端的框架,由于缺乏对图像上下文特征的挖掘,接收端恢复的图像会识别会存在偏差,并且很多移动端设备无法承担相当的计算量,通过云计算中心来处理复杂的语义编解码的话计算时延则无法保证,一些实时性的任务需求便无法满足。因此,如何在减少通信资源占用的同时,使得图像信息进行高质量传输是需要解决的问题之一。
发明内容
为了解决上述技术问题,本发明提出了一种用于智能目标识别的图像语义通信方法及系统。
本发明第一方面提供了一种用于智能目标识别的图像语义通信方法,包括:
获取待检测图像数据集,将所述待检测图像数据集中的待检测图像数据进行归一化处理;
基于图卷积神经网络获取目标识别的语义提取偏好,构建多语义特征模型,将归一化处理的待检测图像数据作为模型输入,结合所述语义提取偏好提取不同图像语义特征;
将不同图像语义特征进行上下文融合,赋予不同权重信息,获取上下文图像语义特征,根据不同图像语义特征及上下文图像语义特征表征待检测图像的图像语义向量;
对所述图像语义向量进行解码,获取解码后图像语义向量进行图像重建,生成目标图像数据进行目标识别。
本方案中,将所述待检测图像数据集中的待检测图像数据进行归一化处理,具体为:
获取用于目标识别的待检测图像数据集,将待检测图像数据中的像素坐标进行坐标中心化处理,将坐标中心化后待检测图像数据利用矩阵变换进行归一化处理,映射到区间[0,1];
根据待检测图像数据的检测时间戳基于预设时间步长构建待检测图像数据序列,读取待检测图像数据序列对应归一化数据的平均值,根据所述平均值生成待检测图像数据序列的初始权重信息;
基于所述初始权重信息设置数据标签,利用数据标签对待检测图像数据序列进行标注,更新所述待检测图像数据集。
本方案中,基于图卷积神经网络获取目标识别的语义提取偏好,具体为:
获取待识别目标的目标特征,根据所述目标特征利用大数据方法进行检索,获取目标特征对应的历史识别数据,提取历史识别数据中的历史检测图像,通过所述历史识别数据及历史检测图像构建训练数据集;
通过所述训练数据集对图卷积神经网络进行训练,将所述训练数据集中的历史识别数据作为实体节点进行图表示,获取历史检测图像对应的语义特征,将所述语义特征作为实体节点的附加描述节点;
获取历史识别数据节点的邻接矩阵,基于邻接矩阵进行邻居聚合获取历史识别数据节点的向量化表示,将所述向量化表示通过向量拼接进行特征拟合,获取目标识别的语义提取偏好。
本方案中,构建多语义特征模型,将归一化处理的待检测图像数据作为模型输入,结合所述语义提取偏好提取不同图像语义特征,具体为:
构建多语义特征模型,根据所述语义提取偏好分析语义特征的模态信息及种类信息,通过所述模态信息及种类信息设置对应数量的图像语义特征提取分支;
在各图像语义特征提取分支中设置对应的特征提取模块,将归一化处理后的待检测图像序列导入所述多语义特征模型,并引入多头注意力机制设置不同提取分支的自注意力权重;
获取待检测图像序列的初始权重,结合所述自注意力权重对获取的图像语义特征进行加权,表征不同图像语义特征的重要程度;
将不同图像语义特征导入全连接层进行维度整合,利用编码器模块将维度整合后的图像语义特征进行特征编码。
本方案中,将不同图像语义特征进行上下文融合,赋予不同权重信息,获取上下文图像语义特征,具体为:
获取特征编码后的不同图像语义特征,生成待检测图像序列对应的图像语义特征序列,计算各图像语义特征序列中不同特征之间的曼哈顿距离,根据所述曼哈顿距离表征特征之间的相似度;
预设相似度阈值区间,根据所述相似度筛选落入相似度阈值区间中的图像语义特征,将筛选的图像语义特征进行上下文融合;
根据所述相似度设置上下文融合图像语义特征的相对注意力,赋予不同的相对注意力权重,利用所述相对注意力权重进行加权生成上下文图像语义特征,并获取对应的编码输出。
本方案中,对所述图像语义向量进行解码,获取解码后图像语义向量进行图像重建,生成目标图像数据进行目标识别,具体为:
通过门控单元将不同图像语义特征的编码输出及上下文图像语义特征的编码输出设置门控权重,进行特征编码融合获取图像语义向量;
当接收端接收到带检测图像数据集的图像语义向量时,利用参数共享读取训练好图卷积神经网络进行图像语义推理,获取图像语义向量对应的目标特征;
根据上采样将所述目标特征进行特征升维,将相同维度的目标特征进行级联,并利用残差网络对级联后的目标特征进行处理,获取待检测图像数据重建后的目标图像数据;
根据所述目标图像数据进行待检测目标的识别。
本发明第二方面还提供了一种用于智能目标识别的图像语义通信系统,该系统包括:存储器、处理器,所述存储器中包括用于智能目标识别的图像语义通信方法程序,所述用于智能目标识别的图像语义通信方法程序被所述处理器执行时实现如下步骤:
获取待检测图像数据集,将所述待检测图像数据集中的待检测图像数据进行归一化处理;
基于图卷积神经网络获取目标识别的语义提取偏好,构建多语义特征模型,将归一化处理的待检测图像数据作为模型输入,结合所述语义提取偏好提取不同图像语义特征;
将不同图像语义特征进行上下文融合,赋予不同权重信息,获取上下文图像语义特征,根据不同图像语义特征及上下文图像语义特征表征待检测图像的图像语义向量;
对所述图像语义向量进行解码,获取解码后图像语义向量进行图像重建,生成目标图像数据进行目标识别。
本发明公开了一种用于智能目标识别的图像语义通信方法及系统,包括,获取待检测图像数据集,进行归一化处理;基于图卷积神经网络获取目标识别的语义提取偏好,构建多语义特征模型,将归一化处理的待检测图像数据作为模型输入,结合语义提取偏好提取不同图像语义特征;将不同图像语义特征进行上下文融合,获取上下文图像语义特征,得到图像语义向量;对图像语义向量进行解码,获取解码后图像语义向量进行图像重建,生成目标图像数据进行目标识别。本发明通过挖掘图像不同图像语义特征及上下文图像语义特征表征图像语义向量,实现语义的可靠恢复,提高了语义恢复的准确性;并且利用图卷积神经网络构建编码及解码网络,在有限带宽条件下具有较好的鲁棒性。
附图说明
图1示出了本发明一种用于智能目标识别的图像语义通信方法的流程图;
图2示出了本发明基于图卷积神经网络获取目标识别的语义提取偏好的流程图;
图3示出了本发明获取解码后图像语义向量进行图像重建的流程图;
图4示出了本发明一种用于智能目标识别的图像语义通信系统的框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本发明一种用于智能目标识别的图像语义通信方法的流程图。
如图1所示,本发明第一方面提供了一种用于智能目标识别的图像语义通信方法,包括:
S102,获取待检测图像数据集,将所述待检测图像数据集中的待检测图像数据进行归一化处理;
S104,基于图卷积神经网络获取目标识别的语义提取偏好,构建多语义特征模型,将归一化处理的待检测图像数据作为模型输入,结合所述语义提取偏好提取不同图像语义特征;
S106,将不同图像语义特征进行上下文融合,赋予不同权重信息,获取上下文图像语义特征,根据不同图像语义特征及上下文图像语义特征表征待检测图像的图像语义向量;
S108,对所述图像语义向量进行解码,获取解码后图像语义向量进行图像重建,生成目标图像数据进行目标识别。
需要说明的是,语义通信系统包括发射端、接收端及无线信道三个部分,发射端获取用于目标识别的待检测图像数据集,将待检测图像数据中的像素坐标进行坐标中心化处理,将坐标中心化后待检测图像数据利用矩阵变换进行归一化处理,映射到区间[0,1];根据待检测图像数据的检测时间戳基于预设时间步长构建待检测图像数据序列,读取待检测图像数据序列对应归一化数据的平均值,根据所述平均值生成待检测图像数据序列的初始权重信息;基于所述初始权重信息设置数据标签,利用数据标签对待检测图像数据序列进行标注,更新所述待检测图像数据集。
图2示出了本发明基于图卷积神经网络获取目标识别的语义提取偏好的流程图。
根据本发明实施例,基于图卷积神经网络获取目标识别的语义提取偏好,具体为:
S202,获取待识别目标的目标特征,根据所述目标特征利用大数据方法进行检索,获取目标特征对应的历史识别数据,提取历史识别数据中的历史检测图像,通过所述历史识别数据及历史检测图像构建训练数据集;
S204,通过所述训练数据集对图卷积神经网络进行训练,将所述训练数据集中的历史识别数据作为实体节点进行图表示,获取历史检测图像对应的语义特征,将所述语义特征作为实体节点的附加描述节点;
S206,获取历史识别数据节点的邻接矩阵,基于邻接矩阵进行邻居聚合获取历史识别数据节点的向量化表示,将所述向量化表示通过向量拼接进行特征拟合,获取目标识别的语义提取偏好。
需要说明的是,根据目标识别的历史识别数据获取待识别目标的目标特征,基于目标特征提取用于目标识别的语义提取偏好,对图像语义特征进行筛选,选取具有相同语义提取偏好的历史识别数据进行聚合,生成目标识别的语义提取偏好。
构建多语义特征模型,根据所述语义提取偏好分析语义特征的模态信息及种类信息,通过所述模态信息及种类信息设置对应数量的图像语义特征提取分支,所述图像语义特征提取分支包括图像文本语义特征、图像分割语义特征及图像多尺度特征等;在各图像语义特征提取分支中设置对应的特征提取模块,将归一化处理后的待检测图像序列导入所述多语义特征模型,通过ResNet网络、LSTM网络及多尺度提取网络等方法进行实现,并引入多头注意力机制设置不同提取分支的自注意力权重;获取待检测图像序列的初始权重,结合所述自注意力权重对获取的图像语义特征进行加权,表征不同图像语义特征的重要程度;将不同图像语义特征导入全连接层进行维度整合,利用编码器模块将维度整合后的图像语义特征进行特征编码。
需要说明的是,获取特征编码后的不同图像语义特征,生成待检测图像序列对应的图像语义特征序列,计算各图像语义特征序列中不同特征之间的曼哈顿距离,根据所述曼哈顿距离表征特征之间的相似度;预设相似度阈值区间,根据所述相似度筛选落入相似度阈值区间中的图像语义特征,将筛选的图像语义特征进行上下文融合;根据所述相似度设置上下文融合图像语义特征的相对注意力,赋予不同的相对注意力权重,利用所述相对注意力权重进行加权生成上下文图像语义特征,并获取对应的编码输出。
图3示出了本发明获取解码后图像语义向量进行图像重建的流程图。
根据本发明实施例,对所述图像语义向量进行解码,获取解码后图像语义向量进行图像重建,生成目标图像数据进行目标识别,具体为:
S302,通过门控单元将不同图像语义特征的编码输出及上下文图像语义特征的编码输出设置门控权重,进行特征编码融合获取图像语义向量;
S304,当接收端接收到带检测图像数据集的图像语义向量时,利用参数共享读取训练好图卷积神经网络进行图像语义推理,获取图像语义向量对应的目标特征;
S306,根据上采样将所述目标特征进行特征升维,将相同维度的目标特征进行级联,并利用残差网络对级联后的目标特征进行处理,获取待检测图像数据重建后的目标图像数据;
S308,根据所述目标图像数据进行待检测目标的识别。
需要说明的是,利用门控单元融合不同图像语义特征的编码输出及上下文图像语义特征的编码输出,其中门控权重通过可学习的线性层获取,将编码输出导入信道编码层,其中包含多个线性层,将语义特征映射为通信符号。通过图卷积神经网络及语义提取偏好捕捉图像语义向量的特征信息及结构信息,对邻接信息进行聚合,并通过Softmax函数进行归一化,获取对应目标特征实体的概率,选取概率最高的目标特征,实现语义信息的推理,通过图卷积神经网络的参数共享实现语义推理,满足实时性的任务需求。根据上采样将所述目标特征进行特征升维,上采样包括卷积层及像素上采样构成,残差网络由反卷积层和PRe LU激活函数构成。
根据本发明实施例,构建目标识别知识库,具体为:
构建目标识别知识库,将目标识别的目标特征及背景分割特征存入所述目标识别知识库,并在目标识别知识库中标注对应的语义提取偏好;
获取当前待检测图像数据集,提取待检测目标特征,在所述目标识别知识库利用相似度计算获取符合预设相似度标准的历史目标识别数据,提取对应的语义提取偏好及背景分割特征;
根据所述语义提取偏好及背景分割特征对所述待检测图像数据集进行特征编码,获取编码输出,并获取编码输出的权重信息,表征重要程度;
根据当前信道响应获取信道反馈信息,提取信道带宽,通过所述信道带宽对不同子信道进行优先级设置,根据子信道优先级与所述加权后的编码输出进行匹配,将重要的编码输出匹配优先级高的子信道。
图4示出了本发明一种用于智能目标识别的图像语义通信系统的框图。
本发明第二方面还提供了一种用于智能目标识别的图像语义通信系统4,该系统包括:存储器41、处理器42,所述存储器中包括用于智能目标识别的图像语义通信方法程序,所述用于智能目标识别的图像语义通信方法程序被所述处理器执行时实现如下步骤:
获取待检测图像数据集,将所述待检测图像数据集中的待检测图像数据进行归一化处理;
基于图卷积神经网络获取目标识别的语义提取偏好,构建多语义特征模型,将归一化处理的待检测图像数据作为模型输入,结合所述语义提取偏好提取不同图像语义特征;
将不同图像语义特征进行上下文融合,赋予不同权重信息,获取上下文图像语义特征,根据不同图像语义特征及上下文图像语义特征表征待检测图像的图像语义向量;
对所述图像语义向量进行解码,获取解码后图像语义向量进行图像重建,生成目标图像数据进行目标识别。
需要说明的是,语义通信系统包括发射端、接收端及无线信道三个部分,发射端获取用于目标识别的待检测图像数据集,将待检测图像数据中的像素坐标进行坐标中心化处理,将坐标中心化后待检测图像数据利用矩阵变换进行归一化处理,映射到区间[0,1];根据待检测图像数据的检测时间戳基于预设时间步长构建待检测图像数据序列,读取待检测图像数据序列对应归一化数据的平均值,根据所述平均值生成待检测图像数据序列的初始权重信息;基于所述初始权重信息设置数据标签,利用数据标签对待检测图像数据序列进行标注,更新所述待检测图像数据集。
根据本发明实施例,基于图卷积神经网络获取目标识别的语义提取偏好,具体为:
获取待识别目标的目标特征,根据所述目标特征利用大数据方法进行检索,获取目标特征对应的历史识别数据,提取历史识别数据中的历史检测图像,通过所述历史识别数据及历史检测图像构建训练数据集;
通过所述训练数据集对图卷积神经网络进行训练,将所述训练数据集中的历史识别数据作为实体节点进行图表示,获取历史检测图像对应的语义特征,将所述语义特征作为实体节点的附加描述节点;
获取历史识别数据节点的邻接矩阵,基于邻接矩阵进行邻居聚合获取历史识别数据节点的向量化表示,将所述向量化表示通过向量拼接进行特征拟合,获取目标识别的语义提取偏好。
需要说明的是,根据目标识别的历史识别数据获取待识别目标的目标特征,基于目标特征提取用于目标识别的语义提取偏好,对图像语义特征进行筛选,选取具有相同语义提取偏好的历史识别数据进行聚合,生成目标识别的语义提取偏好。
构建多语义特征模型,根据所述语义提取偏好分析语义特征的模态信息及种类信息,通过所述模态信息及种类信息设置对应数量的图像语义特征提取分支,所述图像语义特征提取分支包括图像文本语义特征、图像分割语义特征及图像多尺度特征等;在各图像语义特征提取分支中设置对应的特征提取模块,将归一化处理后的待检测图像序列导入所述多语义特征模型,通过ResNet网络、LSTM网络及多尺度提取网络等方法进行实现,并引入多头注意力机制设置不同提取分支的自注意力权重;获取待检测图像序列的初始权重,结合所述自注意力权重对获取的图像语义特征进行加权,表征不同图像语义特征的重要程度;将不同图像语义特征导入全连接层进行维度整合,利用编码器模块将维度整合后的图像语义特征进行特征编码。
需要说明的是,获取特征编码后的不同图像语义特征,生成待检测图像序列对应的图像语义特征序列,计算各图像语义特征序列中不同特征之间的曼哈顿距离,根据所述曼哈顿距离表征特征之间的相似度;预设相似度阈值区间,根据所述相似度筛选落入相似度阈值区间中的图像语义特征,将筛选的图像语义特征进行上下文融合;根据所述相似度设置上下文融合图像语义特征的相对注意力,赋予不同的相对注意力权重,利用所述相对注意力权重进行加权生成上下文图像语义特征,并获取对应的编码输出。
根据本发明实施例,对所述图像语义向量进行解码,获取解码后图像语义向量进行图像重建,生成目标图像数据进行目标识别,具体为:
通过门控单元将不同图像语义特征的编码输出及上下文图像语义特征的编码输出设置门控权重,进行特征编码融合获取图像语义向量;
当接收端接收到带检测图像数据集的图像语义向量时,利用参数共享读取训练好图卷积神经网络进行图像语义推理,获取图像语义向量对应的目标特征;
根据上采样将所述目标特征进行特征升维,将相同维度的目标特征进行级联,并利用残差网络对级联后的目标特征进行处理,获取待检测图像数据重建后的目标图像数据;
根据所述目标图像数据进行待检测目标的识别。
需要说明的是,利用门控单元融合不同图像语义特征的编码输出及上下文图像语义特征的编码输出,其中门控权重通过可学习的线性层获取,将编码输出导入信道编码层,其中包含多个线性层,将语义特征映射为通信符号。通过图卷积神经网络及语义提取偏好捕捉图像语义向量的特征信息及结构信息,对邻接信息进行聚合,并通过Softmax函数进行归一化,获取对应目标特征实体的概率,选取概率最高的目标特征,实现语义信息的推理。根据上采样将所述目标特征进行特征升维,上采样包括卷积层及像素上采样构成,残差网络由反卷积层和PRe LU激活函数构成。
本发明第三方面还提供一种计算机可读存储介质,所述计算机可读存储介质中包括用于智能目标识别的图像语义通信方法程序,所述用于智能目标识别的图像语义通信方法程序被处理器执行时,实现如上述任一项所述的用于智能目标识别的图像语义通信方法的步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种用于智能目标识别的图像语义通信方法,其特征在于,包括以下步骤:
获取待检测图像数据集,将所述待检测图像数据集中的待检测图像数据进行归一化处理;
基于图卷积神经网络获取目标识别的语义提取偏好,构建多语义特征模型,将归一化处理的待检测图像数据作为模型输入,结合所述语义提取偏好提取不同图像语义特征;
将不同图像语义特征进行上下文融合,赋予不同权重信息,获取上下文图像语义特征,根据不同图像语义特征及上下文图像语义特征表征待检测图像的图像语义向量;
对所述图像语义向量进行解码,获取解码后图像语义向量进行图像重建,生成目标图像数据进行目标识别。
2.根据权利要求1所述的一种用于智能目标识别的图像语义通信方法,其特征在于,将所述待检测图像数据集中的待检测图像数据进行归一化处理,具体为:
获取用于目标识别的待检测图像数据集,将待检测图像数据中的像素坐标进行坐标中心化处理,将坐标中心化后待检测图像数据利用矩阵变换进行归一化处理,映射到区间[0,1];
根据待检测图像数据的检测时间戳基于预设时间步长构建待检测图像数据序列,读取待检测图像数据序列对应归一化数据的平均值,根据所述平均值生成待检测图像数据序列的初始权重信息;
基于所述初始权重信息设置数据标签,利用数据标签对待检测图像数据序列进行标注,更新所述待检测图像数据集。
3.根据权利要求1所述的一种用于智能目标识别的图像语义通信方法,其特征在于,基于图卷积神经网络获取目标识别的语义提取偏好,具体为:
获取待识别目标的目标特征,根据所述目标特征利用大数据方法进行检索,获取目标特征对应的历史识别数据,提取历史识别数据中的历史检测图像,通过所述历史识别数据及历史检测图像构建训练数据集;
通过所述训练数据集对图卷积神经网络进行训练,将所述训练数据集中的历史识别数据作为实体节点进行图表示,获取历史检测图像对应的语义特征,将所述语义特征作为实体节点的附加描述节点;
获取历史识别数据节点的邻接矩阵,基于邻接矩阵进行邻居聚合获取历史识别数据节点的向量化表示,将所述向量化表示通过向量拼接进行特征拟合,获取目标识别的语义提取偏好。
4.根据权利要求1所述的一种用于智能目标识别的图像语义通信方法,其特征在于,构建多语义特征模型,将归一化处理的待检测图像数据作为模型输入,结合所述语义提取偏好提取不同图像语义特征,具体为:
构建多语义特征模型,根据所述语义提取偏好分析语义特征的模态信息及种类信息,通过所述模态信息及种类信息设置对应数量的图像语义特征提取分支;
在各图像语义特征提取分支中设置对应的特征提取模块,将归一化处理后的待检测图像序列导入所述多语义特征模型,并引入多头注意力机制设置不同提取分支的自注意力权重;
获取待检测图像序列的初始权重,结合所述自注意力权重对获取的图像语义特征进行加权,表征不同图像语义特征的重要程度;
将不同图像语义特征导入全连接层进行维度整合,利用编码器模块将维度整合后的图像语义特征进行特征编码。
5.根据权利要求1所述的一种用于智能目标识别的图像语义通信方法,其特征在于,将不同图像语义特征进行上下文融合,赋予不同权重信息,获取上下文图像语义特征,具体为:
获取特征编码后的不同图像语义特征,生成待检测图像序列对应的图像语义特征序列,计算各图像语义特征序列中不同特征之间的曼哈顿距离,根据所述曼哈顿距离表征特征之间的相似度;
预设相似度阈值区间,根据所述相似度筛选落入相似度阈值区间中的图像语义特征,将筛选的图像语义特征进行上下文融合;
根据所述相似度设置上下文融合图像语义特征的相对注意力,赋予不同的相对注意力权重,利用所述相对注意力权重进行加权生成上下文图像语义特征,并获取对应的编码输出。
6.根据权利要求1所述的一种用于智能目标识别的图像语义通信方法,其特征在于,对所述图像语义向量进行解码,获取解码后图像语义向量进行图像重建,生成目标图像数据进行目标识别,具体为:
通过门控单元将不同图像语义特征的编码输出及上下文图像语义特征的编码输出设置门控权重,进行特征编码融合获取图像语义向量;
当接收端接收到带检测图像数据集的图像语义向量时,利用参数共享读取训练好图卷积神经网络进行图像语义推理,获取图像语义向量对应的目标特征;
根据上采样将所述目标特征进行特征升维,将相同维度的目标特征进行级联,并利用残差网络对级联后的目标特征进行处理,获取待检测图像数据重建后的目标图像数据;
根据所述目标图像数据进行待检测目标的识别。
7.一种用于智能目标识别的图像语义通信系统,其特征在于,该系统包括:存储器、处理器,所述存储器中包括用于智能目标识别的图像语义通信方法程序,所述用于智能目标识别的图像语义通信方法程序被所述处理器执行时实现如下步骤:
获取待检测图像数据集,将所述待检测图像数据集中的待检测图像数据进行归一化处理;
基于图卷积神经网络获取目标识别的语义提取偏好,构建多语义特征模型,将归一化处理的待检测图像数据作为模型输入,结合所述语义提取偏好提取不同图像语义特征;
将不同图像语义特征进行上下文融合,赋予不同权重信息,获取上下文图像语义特征,根据不同图像语义特征及上下文图像语义特征表征待检测图像的图像语义向量;
对所述图像语义向量进行解码,获取解码后图像语义向量进行图像重建,生成目标图像数据进行目标识别。
8.根据权利要求7所述的一种用于智能目标识别的图像语义通信系统,其特征在于,基于图卷积神经网络获取目标识别的语义提取偏好,具体为:
获取待识别目标的目标特征,根据所述目标特征利用大数据方法进行检索,获取目标特征对应的历史识别数据,提取历史识别数据中的历史检测图像,通过所述历史识别数据及历史检测图像构建训练数据集;
通过所述训练数据集对图卷积神经网络进行训练,将所述训练数据集中的历史识别数据作为实体节点进行图表示,获取历史检测图像对应的语义特征,将所述语义特征作为实体节点的附加描述节点;
获取历史识别数据节点的邻接矩阵,基于邻接矩阵进行邻居聚合获取历史识别数据节点的向量化表示,将所述向量化表示通过向量拼接进行特征拟合,获取目标识别的语义提取偏好。
9.根据权利要求7所述的一种用于智能目标识别的图像语义通信系统,其特征在于,将不同图像语义特征进行上下文融合,赋予不同权重信息,获取上下文图像语义特征,具体为:
获取特征编码后的不同图像语义特征,生成待检测图像序列对应的图像语义特征序列,计算各图像语义特征序列中不同特征之间的曼哈顿距离,根据所述曼哈顿距离表征特征之间的相似度;
预设相似度阈值区间,根据所述相似度筛选落入相似度阈值区间中的图像语义特征,将筛选的图像语义特征进行上下文融合;
根据所述相似度设置上下文融合图像语义特征的相对注意力,赋予不同的相对注意力权重,利用所述相对注意力权重进行加权生成上下文图像语义特征,并获取对应的编码输出。
10.根据权利要求7所述的一种用于智能目标识别的图像语义通信系统,其特征在于,对所述图像语义向量进行解码,获取解码后图像语义向量进行图像重建,生成目标图像数据进行目标识别,具体为:
通过门控单元将不同图像语义特征的编码输出及上下文图像语义特征的编码输出设置门控权重,进行特征编码融合获取图像语义向量;
当接收端接收到带检测图像数据集的图像语义向量时,利用参数共享读取训练好图卷积神经网络进行图像语义推理,获取图像语义向量对应的目标特征;
根据上采样将所述目标特征进行特征升维,将相同维度的目标特征进行级联,并利用残差网络对级联后的目标特征进行处理,获取待检测图像数据重建后的目标图像数据;
根据所述目标图像数据进行待检测目标的识别。
CN202311065226.5A 2023-08-23 2023-08-23 一种用于智能目标识别的图像语义通信方法及系统 Active CN116978011B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311065226.5A CN116978011B (zh) 2023-08-23 2023-08-23 一种用于智能目标识别的图像语义通信方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311065226.5A CN116978011B (zh) 2023-08-23 2023-08-23 一种用于智能目标识别的图像语义通信方法及系统

Publications (2)

Publication Number Publication Date
CN116978011A true CN116978011A (zh) 2023-10-31
CN116978011B CN116978011B (zh) 2024-03-15

Family

ID=88476678

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311065226.5A Active CN116978011B (zh) 2023-08-23 2023-08-23 一种用于智能目标识别的图像语义通信方法及系统

Country Status (1)

Country Link
CN (1) CN116978011B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117274564A (zh) * 2023-11-20 2023-12-22 民航成都电子技术有限责任公司 基于图文语义差异的机场跑道异物检测方法及系统
CN117271831A (zh) * 2023-11-17 2023-12-22 深圳市致尚信息技术有限公司 一种基于多属性学习的体育视频智能分类方法及系统

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059698A (zh) * 2019-04-30 2019-07-26 福州大学 用于街景理解的基于边缘稠密重建的语义分割方法及系统
CN110059768A (zh) * 2019-04-30 2019-07-26 福州大学 用于街景理解的融合点与区域特征的语义分割方法及系统
US20200082219A1 (en) * 2018-09-07 2020-03-12 Toyota Research Institute, Inc. Fusing predictions for end-to-end panoptic segmentation
US20200364863A1 (en) * 2018-05-14 2020-11-19 Tencent Technology (Shenzhen) Company Limited Object recognition method and device, and storage medium
US20210264227A1 (en) * 2019-03-13 2021-08-26 Tencent Technology (Shenzhen) Comapany Limited Method for locating image region, model training method, and related apparatus
CN113343707A (zh) * 2021-06-04 2021-09-03 北京邮电大学 一种基于鲁棒性表征学习的场景文本识别方法
US20220108546A1 (en) * 2019-06-17 2022-04-07 Huawei Technologies Co., Ltd. Object detection method and apparatus, and computer storage medium
CN114372986A (zh) * 2021-12-30 2022-04-19 深圳大学 注意力引导多模态特征融合的图像语义分割方法及装置
CN114677507A (zh) * 2022-03-11 2022-06-28 吉林化工学院 一种基于双向注意力网络的街景图像分割方法及系统
CN114780777A (zh) * 2022-04-06 2022-07-22 中国科学院上海高等研究院 基于语义增强的跨模态检索方法及装置、存储介质和终端
CN115423938A (zh) * 2022-08-17 2022-12-02 江西科骏实业有限公司 一种基于语义识别的三维模型重建方法及系统
CN115690002A (zh) * 2022-10-11 2023-02-03 河海大学 一种基于Transformer和密集特征融合的遥感图像变化检测方法及系统
CN116012662A (zh) * 2022-11-21 2023-04-25 浙江大华技术股份有限公司 特征编解码方法、编解码器的训练方法、设备和介质
WO2023087525A1 (zh) * 2021-11-19 2023-05-25 中国华能集团清洁能源技术研究院有限公司 多模态深度学习的发电设备异常一体化识别方法及设备
CN116320538A (zh) * 2023-02-13 2023-06-23 北京邮电大学 变电站巡检图像的语义通信传输方法及系统

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200364863A1 (en) * 2018-05-14 2020-11-19 Tencent Technology (Shenzhen) Company Limited Object recognition method and device, and storage medium
US20200082219A1 (en) * 2018-09-07 2020-03-12 Toyota Research Institute, Inc. Fusing predictions for end-to-end panoptic segmentation
US20210264227A1 (en) * 2019-03-13 2021-08-26 Tencent Technology (Shenzhen) Comapany Limited Method for locating image region, model training method, and related apparatus
CN110059698A (zh) * 2019-04-30 2019-07-26 福州大学 用于街景理解的基于边缘稠密重建的语义分割方法及系统
CN110059768A (zh) * 2019-04-30 2019-07-26 福州大学 用于街景理解的融合点与区域特征的语义分割方法及系统
US20220108546A1 (en) * 2019-06-17 2022-04-07 Huawei Technologies Co., Ltd. Object detection method and apparatus, and computer storage medium
CN113343707A (zh) * 2021-06-04 2021-09-03 北京邮电大学 一种基于鲁棒性表征学习的场景文本识别方法
WO2023087525A1 (zh) * 2021-11-19 2023-05-25 中国华能集团清洁能源技术研究院有限公司 多模态深度学习的发电设备异常一体化识别方法及设备
CN114372986A (zh) * 2021-12-30 2022-04-19 深圳大学 注意力引导多模态特征融合的图像语义分割方法及装置
CN114677507A (zh) * 2022-03-11 2022-06-28 吉林化工学院 一种基于双向注意力网络的街景图像分割方法及系统
CN114780777A (zh) * 2022-04-06 2022-07-22 中国科学院上海高等研究院 基于语义增强的跨模态检索方法及装置、存储介质和终端
CN115423938A (zh) * 2022-08-17 2022-12-02 江西科骏实业有限公司 一种基于语义识别的三维模型重建方法及系统
CN115690002A (zh) * 2022-10-11 2023-02-03 河海大学 一种基于Transformer和密集特征融合的遥感图像变化检测方法及系统
CN116012662A (zh) * 2022-11-21 2023-04-25 浙江大华技术股份有限公司 特征编解码方法、编解码器的训练方法、设备和介质
CN116320538A (zh) * 2023-02-13 2023-06-23 北京邮电大学 变电站巡检图像的语义通信传输方法及系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
HAIYAN LI, ET.AL: "Semantic prior-driven fused contextual transformation network for image inpainting", 《JOURNAL OF VISUAL COMMUNICATION AND IMAGE REPRESENTATION》, vol. 91, 1 February 2023 (2023-02-01), pages 1 - 10 *
XIAOLEI ZHAO, ET.AL: "Feature retrieving for human action recognition by mixed scale deep feature combined with attention model", 《INTERNATIONAL CONFERENCE ON COMPUTER AND COMMUNICATION SYSTEMS (ICCCS)》, 16 June 2020 (2020-06-16), pages 235 - 239 *
XIAOLEI ZHAO, ET.AL: "Resilient watermarking algorithm to printing andscanning combining local feature regions and DWT-SVD", 《PROCEEDINGS OF THE 2022 4TH INTERNATIONAL CONFERENCE ON ROBOTICS, INTELLIGENT CONTROL AND ARTIFICIAL INTELLIGENCE》, 31 December 2022 (2022-12-31), pages 1191 - 1195 *
吴倩等: "融合多标签和双注意力机制的图像语义理解模型", 智能计算机与应用, vol. 10, no. 1, 31 January 2020 (2020-01-31), pages 12 - 21 *
熊伟;蔡咪;吕亚飞;裴家正;: "基于神经网络的遥感图像海陆语义分割方法", 《计算机工程与应用》, vol. 56, no. 15, 31 August 2020 (2020-08-31), pages 221 - 227 *
谭吉川: "基于深度学习的图像压缩技术研究", 《中国优秀硕士学位论文全文数据库(基础科学辑)》, no. 2, 15 February 2023 (2023-02-15), pages 138 - 2130 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117271831A (zh) * 2023-11-17 2023-12-22 深圳市致尚信息技术有限公司 一种基于多属性学习的体育视频智能分类方法及系统
CN117271831B (zh) * 2023-11-17 2024-03-29 深圳市致尚信息技术有限公司 一种基于多属性学习的体育视频智能分类方法及系统
CN117274564A (zh) * 2023-11-20 2023-12-22 民航成都电子技术有限责任公司 基于图文语义差异的机场跑道异物检测方法及系统
CN117274564B (zh) * 2023-11-20 2024-03-15 民航成都电子技术有限责任公司 基于图文语义差异的机场跑道异物检测方法及系统

Also Published As

Publication number Publication date
CN116978011B (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
CN116978011B (zh) 一种用于智能目标识别的图像语义通信方法及系统
CN109711463B (zh) 基于注意力的重要对象检测方法
CN112396613B (zh) 图像分割方法、装置、计算机设备及存储介质
CN111382555B (zh) 数据处理方法、介质、装置和计算设备
CN113313022B (zh) 文字识别模型的训练方法和识别图像中文字的方法
CN109697451B (zh) 相似图像聚类方法及装置、存储介质、电子设备
CN110084172B (zh) 文字识别方法、装置和电子设备
CN112418292B (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
WO2023273628A1 (zh) 一种视频循环识别方法、装置、计算机设备及存储介质
CN110070914B (zh) 一种基因序列识别方法、系统和计算机可读存储介质
CN112801063B (zh) 神经网络系统和基于神经网络系统的图像人群计数方法
CN114529903A (zh) 文本细化网络
WO2023173552A1 (zh) 目标检测模型的建立方法、应用方法、设备、装置及介质
CN114998583A (zh) 图像处理方法、图像处理装置、设备及存储介质
CN111582284B (zh) 用于图像识别的隐私保护方法、装置和电子设备
CN111506691B (zh) 一种基于深度匹配模型的轨迹匹配方法和系统
CN115687701A (zh) 文本处理方法
CN113221628A (zh) 基于人体骨架点云交互学习的视频暴力识别方法、系统及介质
CN112784838A (zh) 一种基于局部敏感哈希网络的汉明ocr识别方法
CN111008276A (zh) 一种完整实体关系抽取方法及装置
CN112749560A (zh) 地址文本处理方法、装置、设备及计算机存储介质
CN116721315B (zh) 活体检测模型的训练方法、装置、介质及电子设备
CN116503420B (zh) 一种基于联邦学习的图像分割方法及相关设备
RU2773420C1 (ru) Способ обработки изображений, способ и устройство обучения
CN115471765B (zh) 一种航拍图像的语义分割方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant