CN116978011B - 一种用于智能目标识别的图像语义通信方法及系统 - Google Patents
一种用于智能目标识别的图像语义通信方法及系统 Download PDFInfo
- Publication number
- CN116978011B CN116978011B CN202311065226.5A CN202311065226A CN116978011B CN 116978011 B CN116978011 B CN 116978011B CN 202311065226 A CN202311065226 A CN 202311065226A CN 116978011 B CN116978011 B CN 116978011B
- Authority
- CN
- China
- Prior art keywords
- semantic
- image
- features
- detected
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000006854 communication Effects 0.000 title claims abstract description 41
- 238000004891 communication Methods 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 73
- 239000013598 vector Substances 0.000 claims abstract description 60
- 230000004927 fusion Effects 0.000 claims abstract description 26
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000010606 normalization Methods 0.000 claims abstract description 20
- 238000013528 artificial neural network Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims description 25
- 238000001514 detection method Methods 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 14
- 230000010354 integration Effects 0.000 claims description 10
- 230000002776 aggregation Effects 0.000 claims description 7
- 238000004220 aggregation Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 2
- 238000011084 recovery Methods 0.000 abstract description 4
- 238000005065 mining Methods 0.000 abstract description 3
- 230000005540 biological transmission Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种用于智能目标识别的图像语义通信方法及系统,包括,获取待检测图像数据集,进行归一化处理;基于图卷积神经网络获取目标识别的语义提取偏好,构建多语义特征模型,结合语义提取偏好提取不同图像语义特征;将不同图像语义特征进行上下文融合,获取上下文图像语义特征,得到图像语义向量;对图像语义向量进行解码,获取解码后图像语义向量进行图像重建,生成目标图像数据进行目标识别。本发明通过挖掘图像不同图像语义特征及上下文图像语义特征表征图像语义向量,实现语义的可靠恢复,提高了语义恢复的准确性;并且利用图卷积神经网络构建编码及解码网络,在有限带宽条件下具有较好的鲁棒性。
Description
技术领域
本发明涉及语义通信技术领域,更具体的,涉及一种用于智能目标识别的图像语义通信方法及系统。
背景技术
语义通信是一种可将用户的需求和信息含义融入通信过程中的全新架构,可以通过探索语义信息来显着提高传输效率。而近年来人工智能技术不断发展,在算法、算力、数据方面的巨大进步,使得其能够进行提取图像、文本、语音等语义信息的精准高效提取,使语义通信在工程层面成为可能。由于语义通信放松了对信息传输的无差错要求,避免了冗余数据的传输。因此在传输等量的源信息时,传输的数据量会更小,但传输精度不会降低,系统可以获得更高的效率。
在目标识别场景中,图像采集端如无人机等遇到信号较弱的情况或者进入信号弱的区域时,将难以进行检测图片的正常回传,降低了目标识别的质量。传统的通信方法传输比特流的信息冗余度较大且目标识别易受信道条件影响,而现有的语义通信框架是基于集中式训练的端到端的框架,由于缺乏对图像上下文特征的挖掘,接收端恢复的图像会识别会存在偏差,并且很多移动端设备无法承担相当的计算量,通过云计算中心来处理复杂的语义编解码的话计算时延则无法保证,一些实时性的任务需求便无法满足。因此,如何在减少通信资源占用的同时,使得图像信息进行高质量传输是需要解决的问题之一。
发明内容
为了解决上述技术问题,本发明提出了一种用于智能目标识别的图像语义通信方法及系统。
本发明第一方面提供了一种用于智能目标识别的图像语义通信方法,包括:
获取待检测图像数据集,将所述待检测图像数据集中的待检测图像数据进行归一化处理;
基于图卷积神经网络获取目标识别的语义提取偏好,构建多语义特征模型,将归一化处理的待检测图像数据作为模型输入,结合所述语义提取偏好提取不同图像语义特征;
将不同图像语义特征进行上下文融合,赋予不同权重信息,获取上下文图像语义特征,根据不同图像语义特征及上下文图像语义特征表征待检测图像的图像语义向量;
对所述图像语义向量进行解码,获取解码后图像语义向量进行图像重建,生成目标图像数据进行目标识别。
本方案中,将所述待检测图像数据集中的待检测图像数据进行归一化处理,具体为:
获取用于目标识别的待检测图像数据集,将待检测图像数据中的像素坐标进行坐标中心化处理,将坐标中心化后待检测图像数据利用矩阵变换进行归一化处理,映射到区间[0,1];
根据待检测图像数据的检测时间戳基于预设时间步长构建待检测图像数据序列,读取待检测图像数据序列对应归一化数据的平均值,根据所述平均值生成待检测图像数据序列的初始权重信息;
基于所述初始权重信息设置数据标签,利用数据标签对待检测图像数据序列进行标注,更新所述待检测图像数据集。
本方案中,基于图卷积神经网络获取目标识别的语义提取偏好,具体为:
获取待识别目标的目标特征,根据所述目标特征利用大数据方法进行检索,获取目标特征对应的历史识别数据,提取历史识别数据中的历史检测图像,通过所述历史识别数据及历史检测图像构建训练数据集;
通过所述训练数据集对图卷积神经网络进行训练,将所述训练数据集中的历史识别数据作为实体节点进行图表示,获取历史检测图像对应的语义特征,将所述语义特征作为实体节点的附加描述节点;
获取历史识别数据节点的邻接矩阵,基于邻接矩阵进行邻居聚合获取历史识别数据节点的向量化表示,将所述向量化表示通过向量拼接进行特征拟合,获取目标识别的语义提取偏好。
本方案中,构建多语义特征模型,将归一化处理的待检测图像数据作为模型输入,结合所述语义提取偏好提取不同图像语义特征,具体为:
构建多语义特征模型,根据所述语义提取偏好分析语义特征的模态信息及种类信息,通过所述模态信息及种类信息设置对应数量的图像语义特征提取分支;
在各图像语义特征提取分支中设置对应的特征提取模块,将归一化处理后的待检测图像序列导入所述多语义特征模型,并引入多头注意力机制设置不同提取分支的自注意力权重;
获取待检测图像序列的初始权重,结合所述自注意力权重对获取的图像语义特征进行加权,表征不同图像语义特征的重要程度;
将不同图像语义特征导入全连接层进行维度整合,利用编码器模块将维度整合后的图像语义特征进行特征编码。
本方案中,将不同图像语义特征进行上下文融合,赋予不同权重信息,获取上下文图像语义特征,具体为:
获取特征编码后的不同图像语义特征,生成待检测图像序列对应的图像语义特征序列,计算各图像语义特征序列中不同特征之间的曼哈顿距离,根据所述曼哈顿距离表征特征之间的相似度;
预设相似度阈值区间,根据所述相似度筛选落入相似度阈值区间中的图像语义特征,将筛选的图像语义特征进行上下文融合;
根据所述相似度设置上下文融合图像语义特征的相对注意力,赋予不同的相对注意力权重,利用所述相对注意力权重进行加权生成上下文图像语义特征,并获取对应的编码输出。
本方案中,对所述图像语义向量进行解码,获取解码后图像语义向量进行图像重建,生成目标图像数据进行目标识别,具体为:
通过门控单元将不同图像语义特征的编码输出及上下文图像语义特征的编码输出设置门控权重,进行特征编码融合获取图像语义向量;
当接收端接收到带检测图像数据集的图像语义向量时,利用参数共享读取训练好图卷积神经网络进行图像语义推理,获取图像语义向量对应的目标特征;
根据上采样将所述目标特征进行特征升维,将相同维度的目标特征进行级联,并利用残差网络对级联后的目标特征进行处理,获取待检测图像数据重建后的目标图像数据;
根据所述目标图像数据进行待检测目标的识别。
本发明第二方面还提供了一种用于智能目标识别的图像语义通信系统,该系统包括:存储器、处理器,所述存储器中包括用于智能目标识别的图像语义通信方法程序,所述用于智能目标识别的图像语义通信方法程序被所述处理器执行时实现如下步骤:
获取待检测图像数据集,将所述待检测图像数据集中的待检测图像数据进行归一化处理;
基于图卷积神经网络获取目标识别的语义提取偏好,构建多语义特征模型,将归一化处理的待检测图像数据作为模型输入,结合所述语义提取偏好提取不同图像语义特征;
将不同图像语义特征进行上下文融合,赋予不同权重信息,获取上下文图像语义特征,根据不同图像语义特征及上下文图像语义特征表征待检测图像的图像语义向量;
对所述图像语义向量进行解码,获取解码后图像语义向量进行图像重建,生成目标图像数据进行目标识别。
本发明公开了一种用于智能目标识别的图像语义通信方法及系统,包括,获取待检测图像数据集,进行归一化处理;基于图卷积神经网络获取目标识别的语义提取偏好,构建多语义特征模型,将归一化处理的待检测图像数据作为模型输入,结合语义提取偏好提取不同图像语义特征;将不同图像语义特征进行上下文融合,获取上下文图像语义特征,得到图像语义向量;对图像语义向量进行解码,获取解码后图像语义向量进行图像重建,生成目标图像数据进行目标识别。本发明通过挖掘图像不同图像语义特征及上下文图像语义特征表征图像语义向量,实现语义的可靠恢复,提高了语义恢复的准确性;并且利用图卷积神经网络构建编码及解码网络,在有限带宽条件下具有较好的鲁棒性。
附图说明
图1示出了本发明一种用于智能目标识别的图像语义通信方法的流程图;
图2示出了本发明基于图卷积神经网络获取目标识别的语义提取偏好的流程图;
图3示出了本发明获取解码后图像语义向量进行图像重建的流程图;
图4示出了本发明一种用于智能目标识别的图像语义通信系统的框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本发明一种用于智能目标识别的图像语义通信方法的流程图。
如图1所示,本发明第一方面提供了一种用于智能目标识别的图像语义通信方法,包括:
S102,获取待检测图像数据集,将所述待检测图像数据集中的待检测图像数据进行归一化处理;
S104,基于图卷积神经网络获取目标识别的语义提取偏好,构建多语义特征模型,将归一化处理的待检测图像数据作为模型输入,结合所述语义提取偏好提取不同图像语义特征;
S106,将不同图像语义特征进行上下文融合,赋予不同权重信息,获取上下文图像语义特征,根据不同图像语义特征及上下文图像语义特征表征待检测图像的图像语义向量;
S108,对所述图像语义向量进行解码,获取解码后图像语义向量进行图像重建,生成目标图像数据进行目标识别。
需要说明的是,语义通信系统包括发射端、接收端及无线信道三个部分,发射端获取用于目标识别的待检测图像数据集,将待检测图像数据中的像素坐标进行坐标中心化处理,将坐标中心化后待检测图像数据利用矩阵变换进行归一化处理,映射到区间[0,1];根据待检测图像数据的检测时间戳基于预设时间步长构建待检测图像数据序列,读取待检测图像数据序列对应归一化数据的平均值,根据所述平均值生成待检测图像数据序列的初始权重信息;基于所述初始权重信息设置数据标签,利用数据标签对待检测图像数据序列进行标注,更新所述待检测图像数据集。
图2示出了本发明基于图卷积神经网络获取目标识别的语义提取偏好的流程图。
根据本发明实施例,基于图卷积神经网络获取目标识别的语义提取偏好,具体为:
S202,获取待识别目标的目标特征,根据所述目标特征利用大数据方法进行检索,获取目标特征对应的历史识别数据,提取历史识别数据中的历史检测图像,通过所述历史识别数据及历史检测图像构建训练数据集;
S204,通过所述训练数据集对图卷积神经网络进行训练,将所述训练数据集中的历史识别数据作为实体节点进行图表示,获取历史检测图像对应的语义特征,将所述语义特征作为实体节点的附加描述节点;
S206,获取历史识别数据节点的邻接矩阵,基于邻接矩阵进行邻居聚合获取历史识别数据节点的向量化表示,将所述向量化表示通过向量拼接进行特征拟合,获取目标识别的语义提取偏好。
需要说明的是,根据目标识别的历史识别数据获取待识别目标的目标特征,基于目标特征提取用于目标识别的语义提取偏好,对图像语义特征进行筛选,选取具有相同语义提取偏好的历史识别数据进行聚合,生成目标识别的语义提取偏好。
构建多语义特征模型,根据所述语义提取偏好分析语义特征的模态信息及种类信息,通过所述模态信息及种类信息设置对应数量的图像语义特征提取分支,所述图像语义特征提取分支包括图像文本语义特征、图像分割语义特征及图像多尺度特征等;在各图像语义特征提取分支中设置对应的特征提取模块,将归一化处理后的待检测图像序列导入所述多语义特征模型,通过ResNet网络、LSTM网络及多尺度提取网络等方法进行实现,并引入多头注意力机制设置不同提取分支的自注意力权重;获取待检测图像序列的初始权重,结合所述自注意力权重对获取的图像语义特征进行加权,表征不同图像语义特征的重要程度;将不同图像语义特征导入全连接层进行维度整合,利用编码器模块将维度整合后的图像语义特征进行特征编码。
需要说明的是,获取特征编码后的不同图像语义特征,生成待检测图像序列对应的图像语义特征序列,计算各图像语义特征序列中不同特征之间的曼哈顿距离,根据所述曼哈顿距离表征特征之间的相似度;预设相似度阈值区间,根据所述相似度筛选落入相似度阈值区间中的图像语义特征,将筛选的图像语义特征进行上下文融合;根据所述相似度设置上下文融合图像语义特征的相对注意力,赋予不同的相对注意力权重,利用所述相对注意力权重进行加权生成上下文图像语义特征,并获取对应的编码输出。
图3示出了本发明获取解码后图像语义向量进行图像重建的流程图。
根据本发明实施例,对所述图像语义向量进行解码,获取解码后图像语义向量进行图像重建,生成目标图像数据进行目标识别,具体为:
S302,通过门控单元将不同图像语义特征的编码输出及上下文图像语义特征的编码输出设置门控权重,进行特征编码融合获取图像语义向量;
S304,当接收端接收到带检测图像数据集的图像语义向量时,利用参数共享读取训练好图卷积神经网络进行图像语义推理,获取图像语义向量对应的目标特征;
S306,根据上采样将所述目标特征进行特征升维,将相同维度的目标特征进行级联,并利用残差网络对级联后的目标特征进行处理,获取待检测图像数据重建后的目标图像数据;
S308,根据所述目标图像数据进行待检测目标的识别。
需要说明的是,利用门控单元融合不同图像语义特征的编码输出及上下文图像语义特征的编码输出,其中门控权重通过可学习的线性层获取,将编码输出导入信道编码层,其中包含多个线性层,将语义特征映射为通信符号。通过图卷积神经网络及语义提取偏好捕捉图像语义向量的特征信息及结构信息,对邻接信息进行聚合,并通过Softmax函数进行归一化,获取对应目标特征实体的概率,选取概率最高的目标特征,实现语义信息的推理,通过图卷积神经网络的参数共享实现语义推理,满足实时性的任务需求。根据上采样将所述目标特征进行特征升维,上采样包括卷积层及像素上采样构成,残差网络由反卷积层和PRe LU激活函数构成。
根据本发明实施例,构建目标识别知识库,具体为:
构建目标识别知识库,将目标识别的目标特征及背景分割特征存入所述目标识别知识库,并在目标识别知识库中标注对应的语义提取偏好;
获取当前待检测图像数据集,提取待检测目标特征,在所述目标识别知识库利用相似度计算获取符合预设相似度标准的历史目标识别数据,提取对应的语义提取偏好及背景分割特征;
根据所述语义提取偏好及背景分割特征对所述待检测图像数据集进行特征编码,获取编码输出,并获取编码输出的权重信息,表征重要程度;
根据当前信道响应获取信道反馈信息,提取信道带宽,通过所述信道带宽对不同子信道进行优先级设置,根据子信道优先级与所述加权后的编码输出进行匹配,将重要的编码输出匹配优先级高的子信道。
图4示出了本发明一种用于智能目标识别的图像语义通信系统的框图。
本发明第二方面还提供了一种用于智能目标识别的图像语义通信系统4,该系统包括:存储器41、处理器42,所述存储器中包括用于智能目标识别的图像语义通信方法程序,所述用于智能目标识别的图像语义通信方法程序被所述处理器执行时实现如下步骤:
获取待检测图像数据集,将所述待检测图像数据集中的待检测图像数据进行归一化处理;
基于图卷积神经网络获取目标识别的语义提取偏好,构建多语义特征模型,将归一化处理的待检测图像数据作为模型输入,结合所述语义提取偏好提取不同图像语义特征;
将不同图像语义特征进行上下文融合,赋予不同权重信息,获取上下文图像语义特征,根据不同图像语义特征及上下文图像语义特征表征待检测图像的图像语义向量;
对所述图像语义向量进行解码,获取解码后图像语义向量进行图像重建,生成目标图像数据进行目标识别。
需要说明的是,语义通信系统包括发射端、接收端及无线信道三个部分,发射端获取用于目标识别的待检测图像数据集,将待检测图像数据中的像素坐标进行坐标中心化处理,将坐标中心化后待检测图像数据利用矩阵变换进行归一化处理,映射到区间[0,1];根据待检测图像数据的检测时间戳基于预设时间步长构建待检测图像数据序列,读取待检测图像数据序列对应归一化数据的平均值,根据所述平均值生成待检测图像数据序列的初始权重信息;基于所述初始权重信息设置数据标签,利用数据标签对待检测图像数据序列进行标注,更新所述待检测图像数据集。
根据本发明实施例,基于图卷积神经网络获取目标识别的语义提取偏好,具体为:
获取待识别目标的目标特征,根据所述目标特征利用大数据方法进行检索,获取目标特征对应的历史识别数据,提取历史识别数据中的历史检测图像,通过所述历史识别数据及历史检测图像构建训练数据集;
通过所述训练数据集对图卷积神经网络进行训练,将所述训练数据集中的历史识别数据作为实体节点进行图表示,获取历史检测图像对应的语义特征,将所述语义特征作为实体节点的附加描述节点;
获取历史识别数据节点的邻接矩阵,基于邻接矩阵进行邻居聚合获取历史识别数据节点的向量化表示,将所述向量化表示通过向量拼接进行特征拟合,获取目标识别的语义提取偏好。
需要说明的是,根据目标识别的历史识别数据获取待识别目标的目标特征,基于目标特征提取用于目标识别的语义提取偏好,对图像语义特征进行筛选,选取具有相同语义提取偏好的历史识别数据进行聚合,生成目标识别的语义提取偏好。
构建多语义特征模型,根据所述语义提取偏好分析语义特征的模态信息及种类信息,通过所述模态信息及种类信息设置对应数量的图像语义特征提取分支,所述图像语义特征提取分支包括图像文本语义特征、图像分割语义特征及图像多尺度特征等;在各图像语义特征提取分支中设置对应的特征提取模块,将归一化处理后的待检测图像序列导入所述多语义特征模型,通过ResNet网络、LSTM网络及多尺度提取网络等方法进行实现,并引入多头注意力机制设置不同提取分支的自注意力权重;获取待检测图像序列的初始权重,结合所述自注意力权重对获取的图像语义特征进行加权,表征不同图像语义特征的重要程度;将不同图像语义特征导入全连接层进行维度整合,利用编码器模块将维度整合后的图像语义特征进行特征编码。
需要说明的是,获取特征编码后的不同图像语义特征,生成待检测图像序列对应的图像语义特征序列,计算各图像语义特征序列中不同特征之间的曼哈顿距离,根据所述曼哈顿距离表征特征之间的相似度;预设相似度阈值区间,根据所述相似度筛选落入相似度阈值区间中的图像语义特征,将筛选的图像语义特征进行上下文融合;根据所述相似度设置上下文融合图像语义特征的相对注意力,赋予不同的相对注意力权重,利用所述相对注意力权重进行加权生成上下文图像语义特征,并获取对应的编码输出。
根据本发明实施例,对所述图像语义向量进行解码,获取解码后图像语义向量进行图像重建,生成目标图像数据进行目标识别,具体为:
通过门控单元将不同图像语义特征的编码输出及上下文图像语义特征的编码输出设置门控权重,进行特征编码融合获取图像语义向量;
当接收端接收到带检测图像数据集的图像语义向量时,利用参数共享读取训练好图卷积神经网络进行图像语义推理,获取图像语义向量对应的目标特征;
根据上采样将所述目标特征进行特征升维,将相同维度的目标特征进行级联,并利用残差网络对级联后的目标特征进行处理,获取待检测图像数据重建后的目标图像数据;
根据所述目标图像数据进行待检测目标的识别。
需要说明的是,利用门控单元融合不同图像语义特征的编码输出及上下文图像语义特征的编码输出,其中门控权重通过可学习的线性层获取,将编码输出导入信道编码层,其中包含多个线性层,将语义特征映射为通信符号。通过图卷积神经网络及语义提取偏好捕捉图像语义向量的特征信息及结构信息,对邻接信息进行聚合,并通过Softmax函数进行归一化,获取对应目标特征实体的概率,选取概率最高的目标特征,实现语义信息的推理。根据上采样将所述目标特征进行特征升维,上采样包括卷积层及像素上采样构成,残差网络由反卷积层和PRe LU激活函数构成。
本发明第三方面还提供一种计算机可读存储介质,所述计算机可读存储介质中包括用于智能目标识别的图像语义通信方法程序,所述用于智能目标识别的图像语义通信方法程序被处理器执行时,实现如上述任一项所述的用于智能目标识别的图像语义通信方法的步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (5)
1.一种用于智能目标识别的图像语义通信方法,其特征在于,包括以下步骤:
获取待检测图像数据集,将所述待检测图像数据集中的待检测图像数据进行归一化处理;
基于图卷积神经网络获取目标识别的语义提取偏好,构建多语义特征模型,将归一化处理的待检测图像数据作为模型输入,结合所述语义提取偏好提取不同图像语义特征;
将不同图像语义特征进行上下文融合,赋予不同权重信息,获取上下文图像语义特征,根据不同图像语义特征及上下文图像语义特征表征待检测图像的图像语义向量;
对所述图像语义向量进行解码,获取解码后图像语义向量进行图像重建,生成目标图像数据进行目标识别;
基于图卷积神经网络获取目标识别的语义提取偏好,具体为:
获取待识别目标的目标特征,根据所述目标特征利用大数据方法进行检索,获取目标特征对应的历史识别数据,提取历史识别数据中的历史检测图像,通过所述历史识别数据及历史检测图像构建训练数据集;
通过所述训练数据集对图卷积神经网络进行训练,将所述训练数据集中的历史识别数据作为实体节点进行图表示,获取历史检测图像对应的语义特征,将所述语义特征作为实体节点的附加描述节点;
获取历史识别数据节点的邻接矩阵,基于邻接矩阵进行邻居聚合获取历史识别数据节点的向量化表示,将所述向量化表示通过向量拼接进行特征组合,获取目标识别的语义提取偏好;
构建多语义特征模型,将归一化处理的待检测图像数据作为模型输入,结合所述语义提取偏好提取不同图像语义特征,具体为:
构建多语义特征模型,根据所述语义提取偏好分析语义特征的模态信息及种类信息,通过所述模态信息及种类信息设置对应数量的图像语义特征提取分支;
在各图像语义特征提取分支中设置对应的特征提取模块,将归一化处理后的待检测图像序列导入所述多语义特征模型,并引入多头注意力机制设置不同提取分支的自注意力权重;
获取待检测图像序列的初始权重,结合所述自注意力权重对获取的图像语义特征进行加权,表征不同图像语义特征的重要程度;
将不同图像语义特征导入全连接层进行维度整合,利用编码器模块将维度整合后的图像语义特征进行特征编码;
将不同图像语义特征进行上下文融合,赋予不同权重信息,获取上下文图像语义特征,具体为:
获取特征编码后的不同图像语义特征,生成待检测图像序列对应的图像语义特征序列,计算各图像语义特征序列中不同特征之间的曼哈顿距离,根据所述曼哈顿距离表征特征之间的相似度;
预设相似度阈值区间,根据所述相似度筛选落入相似度阈值区间中的图像语义特征,将筛选的图像语义特征进行上下文融合;
根据所述相似度设置上下文融合图像语义特征的相对注意力,赋予不同的相对注意力权重,利用所述相对注意力权重进行加权生成上下文图像语义特征,并获取对应的编码输出。
2.根据权利要求1所述的一种用于智能目标识别的图像语义通信方法,其特征在于,将所述待检测图像数据集中的待检测图像数据进行归一化处理,具体为:
获取用于目标识别的待检测图像数据集,将待检测图像数据中的像素坐标进行坐标中心化处理,将坐标中心化后待检测图像数据利用矩阵变换进行归一化处理,映射到区间[0,1];
根据待检测图像数据的检测时间戳基于预设时间步长构建待检测图像数据序列,读取待检测图像数据序列对应归一化数据的平均值,根据所述平均值生成待检测图像数据序列的初始权重信息;
基于所述初始权重信息设置数据标签,利用数据标签对待检测图像数据序列进行标注,更新所述待检测图像数据集。
3.根据权利要求1所述的一种用于智能目标识别的图像语义通信方法,其特征在于,对所述图像语义向量进行解码,获取解码后图像语义向量进行图像重建,生成目标图像数据进行目标识别,具体为:
通过门控单元将不同图像语义特征的编码输出及上下文图像语义特征的编码输出设置门控权重,进行特征编码融合获取图像语义向量;
当接收端接收到待检测图像数据集的图像语义向量时,利用参数共享读取训练好的图卷积神经网络进行图像语义推理,获取图像语义向量对应的目标特征;
根据上采样将所述目标特征进行特征升维,将相同维度的目标特征进行级联,并利用残差网络对级联后的目标特征进行处理,获取待检测图像数据重建后的目标图像数据;
根据所述目标图像数据进行待检测目标的识别。
4.一种用于智能目标识别的图像语义通信系统,其特征在于,该系统包括:存储器、处理器,所述存储器中包括用于智能目标识别的图像语义通信方法程序,所述用于智能目标识别的图像语义通信方法程序被所述处理器执行时实现如下步骤:
获取待检测图像数据集,将所述待检测图像数据集中的待检测图像数据进行归一化处理;
基于图卷积神经网络获取目标识别的语义提取偏好,构建多语义特征模型,将归一化处理的待检测图像数据作为模型输入,结合所述语义提取偏好提取不同图像语义特征;
将不同图像语义特征进行上下文融合,赋予不同权重信息,获取上下文图像语义特征,根据不同图像语义特征及上下文图像语义特征表征待检测图像的图像语义向量;
对所述图像语义向量进行解码,获取解码后图像语义向量进行图像重建,生成目标图像数据进行目标识别;
基于图卷积神经网络获取目标识别的语义提取偏好,具体为:
获取待识别目标的目标特征,根据所述目标特征利用大数据方法进行检索,获取目标特征对应的历史识别数据,提取历史识别数据中的历史检测图像,通过所述历史识别数据及历史检测图像构建训练数据集;
通过所述训练数据集对图卷积神经网络进行训练,将所述训练数据集中的历史识别数据作为实体节点进行图表示,获取历史检测图像对应的语义特征,将所述语义特征作为实体节点的附加描述节点;
获取历史识别数据节点的邻接矩阵,基于邻接矩阵进行邻居聚合获取历史识别数据节点的向量化表示,将所述向量化表示通过向量拼接进行特征组合,获取目标识别的语义提取偏好;
构建多语义特征模型,将归一化处理的待检测图像数据作为模型输入,结合所述语义提取偏好提取不同图像语义特征,具体为:
构建多语义特征模型,根据所述语义提取偏好分析语义特征的模态信息及种类信息,通过所述模态信息及种类信息设置对应数量的图像语义特征提取分支;
在各图像语义特征提取分支中设置对应的特征提取模块,将归一化处理后的待检测图像序列导入所述多语义特征模型,并引入多头注意力机制设置不同提取分支的自注意力权重;
获取待检测图像序列的初始权重,结合所述自注意力权重对获取的图像语义特征进行加权,表征不同图像语义特征的重要程度;
将不同图像语义特征导入全连接层进行维度整合,利用编码器模块将维度整合后的图像语义特征进行特征编码;
将不同图像语义特征进行上下文融合,赋予不同权重信息,获取上下文图像语义特征,具体为:
获取特征编码后的不同图像语义特征,生成待检测图像序列对应的图像语义特征序列,计算各图像语义特征序列中不同特征之间的曼哈顿距离,根据所述曼哈顿距离表征特征之间的相似度;
预设相似度阈值区间,根据所述相似度筛选落入相似度阈值区间中的图像语义特征,将筛选的图像语义特征进行上下文融合;
根据所述相似度设置上下文融合图像语义特征的相对注意力,赋予不同的相对注意力权重,利用所述相对注意力权重进行加权生成上下文图像语义特征,并获取对应的编码输出。
5.根据权利要求4所述的一种用于智能目标识别的图像语义通信系统,其特征在于,对所述图像语义向量进行解码,获取解码后图像语义向量进行图像重建,生成目标图像数据进行目标识别,具体为:
通过门控单元将不同图像语义特征的编码输出及上下文图像语义特征的编码输出设置门控权重,进行特征编码融合获取图像语义向量;
当接收端接收到待检测图像数据集的图像语义向量时,利用参数共享读取训练好图卷积神经网络进行图像语义推理,获取图像语义向量对应的目标特征;
根据上采样将所述目标特征进行特征升维,将相同维度的目标特征进行级联,并利用残差网络对级联后的目标特征进行处理,获取待检测图像数据重建后的目标图像数据;
根据所述目标图像数据进行待检测目标的识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311065226.5A CN116978011B (zh) | 2023-08-23 | 2023-08-23 | 一种用于智能目标识别的图像语义通信方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311065226.5A CN116978011B (zh) | 2023-08-23 | 2023-08-23 | 一种用于智能目标识别的图像语义通信方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116978011A CN116978011A (zh) | 2023-10-31 |
CN116978011B true CN116978011B (zh) | 2024-03-15 |
Family
ID=88476678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311065226.5A Active CN116978011B (zh) | 2023-08-23 | 2023-08-23 | 一种用于智能目标识别的图像语义通信方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116978011B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117271831B (zh) * | 2023-11-17 | 2024-03-29 | 深圳市致尚信息技术有限公司 | 一种基于多属性学习的体育视频智能分类方法及系统 |
CN117274564B (zh) * | 2023-11-20 | 2024-03-15 | 民航成都电子技术有限责任公司 | 基于图文语义差异的机场跑道异物检测方法及系统 |
CN117880770A (zh) * | 2023-12-25 | 2024-04-12 | 荆州双宇星晨装饰有限公司 | 一种ar摄像头结合物联网系统的远程定位方法 |
CN118338005A (zh) * | 2024-06-17 | 2024-07-12 | 清华大学 | 具有多尺度视觉变换器的鲁棒图像语义通信系统及方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059768A (zh) * | 2019-04-30 | 2019-07-26 | 福州大学 | 用于街景理解的融合点与区域特征的语义分割方法及系统 |
CN110059698A (zh) * | 2019-04-30 | 2019-07-26 | 福州大学 | 用于街景理解的基于边缘稠密重建的语义分割方法及系统 |
CN113343707A (zh) * | 2021-06-04 | 2021-09-03 | 北京邮电大学 | 一种基于鲁棒性表征学习的场景文本识别方法 |
CN114372986A (zh) * | 2021-12-30 | 2022-04-19 | 深圳大学 | 注意力引导多模态特征融合的图像语义分割方法及装置 |
CN114677507A (zh) * | 2022-03-11 | 2022-06-28 | 吉林化工学院 | 一种基于双向注意力网络的街景图像分割方法及系统 |
CN114780777A (zh) * | 2022-04-06 | 2022-07-22 | 中国科学院上海高等研究院 | 基于语义增强的跨模态检索方法及装置、存储介质和终端 |
CN115423938A (zh) * | 2022-08-17 | 2022-12-02 | 江西科骏实业有限公司 | 一种基于语义识别的三维模型重建方法及系统 |
CN115690002A (zh) * | 2022-10-11 | 2023-02-03 | 河海大学 | 一种基于Transformer和密集特征融合的遥感图像变化检测方法及系统 |
CN116012662A (zh) * | 2022-11-21 | 2023-04-25 | 浙江大华技术股份有限公司 | 特征编解码方法、编解码器的训练方法、设备和介质 |
WO2023087525A1 (zh) * | 2021-11-19 | 2023-05-25 | 中国华能集团清洁能源技术研究院有限公司 | 多模态深度学习的发电设备异常一体化识别方法及设备 |
CN116320538A (zh) * | 2023-02-13 | 2023-06-23 | 北京邮电大学 | 变电站巡检图像的语义通信传输方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110163834B (zh) * | 2018-05-14 | 2023-08-25 | 腾讯科技(深圳)有限公司 | 对象识别方法和装置及存储介质 |
US10796201B2 (en) * | 2018-09-07 | 2020-10-06 | Toyota Research Institute, Inc. | Fusing predictions for end-to-end panoptic segmentation |
CN109903314A (zh) * | 2019-03-13 | 2019-06-18 | 腾讯科技(深圳)有限公司 | 一种图像区域定位的方法、模型训练的方法及相关装置 |
CN110378381B (zh) * | 2019-06-17 | 2024-01-19 | 华为技术有限公司 | 物体检测方法、装置和计算机存储介质 |
-
2023
- 2023-08-23 CN CN202311065226.5A patent/CN116978011B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059768A (zh) * | 2019-04-30 | 2019-07-26 | 福州大学 | 用于街景理解的融合点与区域特征的语义分割方法及系统 |
CN110059698A (zh) * | 2019-04-30 | 2019-07-26 | 福州大学 | 用于街景理解的基于边缘稠密重建的语义分割方法及系统 |
CN113343707A (zh) * | 2021-06-04 | 2021-09-03 | 北京邮电大学 | 一种基于鲁棒性表征学习的场景文本识别方法 |
WO2023087525A1 (zh) * | 2021-11-19 | 2023-05-25 | 中国华能集团清洁能源技术研究院有限公司 | 多模态深度学习的发电设备异常一体化识别方法及设备 |
CN114372986A (zh) * | 2021-12-30 | 2022-04-19 | 深圳大学 | 注意力引导多模态特征融合的图像语义分割方法及装置 |
CN114677507A (zh) * | 2022-03-11 | 2022-06-28 | 吉林化工学院 | 一种基于双向注意力网络的街景图像分割方法及系统 |
CN114780777A (zh) * | 2022-04-06 | 2022-07-22 | 中国科学院上海高等研究院 | 基于语义增强的跨模态检索方法及装置、存储介质和终端 |
CN115423938A (zh) * | 2022-08-17 | 2022-12-02 | 江西科骏实业有限公司 | 一种基于语义识别的三维模型重建方法及系统 |
CN115690002A (zh) * | 2022-10-11 | 2023-02-03 | 河海大学 | 一种基于Transformer和密集特征融合的遥感图像变化检测方法及系统 |
CN116012662A (zh) * | 2022-11-21 | 2023-04-25 | 浙江大华技术股份有限公司 | 特征编解码方法、编解码器的训练方法、设备和介质 |
CN116320538A (zh) * | 2023-02-13 | 2023-06-23 | 北京邮电大学 | 变电站巡检图像的语义通信传输方法及系统 |
Non-Patent Citations (6)
Title |
---|
Feature retrieving for human action recognition by mixed scale deep feature combined with attention model;Xiaolei Zhao, et.al;《International Conference on Computer and Communication Systems (ICCCS)》;20200616;第235-239页 * |
Semantic prior-driven fused contextual transformation network for image inpainting;Haiyan Li, et.al;《Journal of visual communication and image representation》;20230201;第91卷;第1-10页 * |
Xiaolei Zhao, et.al.Resilient watermarking algorithm to printing andscanning combining local feature regions and DWT-SVD.《Proceedings of the 2022 4th international conference on robotics, intelligent control and artificial intelligence》.2022,第1191-1195页. * |
基于深度学习的图像压缩技术研究;谭吉川;《中国优秀硕士学位论文全文数据库(基础科学辑)》;20230215(第2期);第I138-2130页 * |
熊伟 ; 蔡咪 ; 吕亚飞 ; 裴家正 ; .基于神经网络的遥感图像海陆语义分割方法.《计算机工程与应用》.2020,56(15),第221-227页. * |
融合多标签和双注意力机制的图像语义理解模型;吴倩等;智能计算机与应用;20200131;10(1);第12-21页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116978011A (zh) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116978011B (zh) | 一种用于智能目标识别的图像语义通信方法及系统 | |
CN112396613B (zh) | 图像分割方法、装置、计算机设备及存储介质 | |
CN112418292B (zh) | 一种图像质量评价的方法、装置、计算机设备及存储介质 | |
CN113313022B (zh) | 文字识别模型的训练方法和识别图像中文字的方法 | |
CN109697451B (zh) | 相似图像聚类方法及装置、存储介质、电子设备 | |
CN109711463A (zh) | 基于注意力的重要对象检测方法 | |
CN111382555B (zh) | 数据处理方法、介质、装置和计算设备 | |
CN110084172B (zh) | 文字识别方法、装置和电子设备 | |
WO2023273628A1 (zh) | 一种视频循环识别方法、装置、计算机设备及存储介质 | |
CN110070914B (zh) | 一种基因序列识别方法、系统和计算机可读存储介质 | |
WO2023173552A1 (zh) | 目标检测模型的建立方法、应用方法、设备、装置及介质 | |
CN114529903A (zh) | 文本细化网络 | |
CN114998583B (zh) | 图像处理方法、图像处理装置、设备及存储介质 | |
CN113283514B (zh) | 一种基于深度学习的未知类别分类方法、装置及介质 | |
CN111582284B (zh) | 用于图像识别的隐私保护方法、装置和电子设备 | |
CN116503420B (zh) | 一种基于联邦学习的图像分割方法及相关设备 | |
CN115905702A (zh) | 基于用户需求分析的数据推荐方法及系统 | |
CN111506691B (zh) | 一种基于深度匹配模型的轨迹匹配方法和系统 | |
CN115687701A (zh) | 文本处理方法 | |
CN112749560A (zh) | 地址文本处理方法、装置、设备及计算机存储介质 | |
CN116721315B (zh) | 活体检测模型的训练方法、装置、介质及电子设备 | |
RU2773420C1 (ru) | Способ обработки изображений, способ и устройство обучения | |
CN115471765B (zh) | 一种航拍图像的语义分割方法、装置、设备及存储介质 | |
CN115102852B (zh) | 物联网业务开通方法、装置、电子设备及计算机介质 | |
CN118155270B (zh) | 模型训练方法、人脸识别方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |