CN117197737A - 一种土地用途的检测方法、装置、设备及存储介质 - Google Patents

一种土地用途的检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117197737A
CN117197737A CN202311158378.XA CN202311158378A CN117197737A CN 117197737 A CN117197737 A CN 117197737A CN 202311158378 A CN202311158378 A CN 202311158378A CN 117197737 A CN117197737 A CN 117197737A
Authority
CN
China
Prior art keywords
layer
image
phrase
feature matrix
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311158378.XA
Other languages
English (en)
Other versions
CN117197737B (zh
Inventor
甘兵
张茂华
廖瑞毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital Guangdong Network Construction Co Ltd
Original Assignee
Digital Guangdong Network Construction Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Guangdong Network Construction Co Ltd filed Critical Digital Guangdong Network Construction Co Ltd
Priority to CN202311158378.XA priority Critical patent/CN117197737B/zh
Publication of CN117197737A publication Critical patent/CN117197737A/zh
Application granted granted Critical
Publication of CN117197737B publication Critical patent/CN117197737B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种土地用途的检测方法、装置、设备及存储介质。该方法包括获取待检测土地区域的当前待检测图像;将当前待检测图像的图像块矩阵和预设检测编码序列经过图像嵌入层的编码层得到第一图像特征矩阵;将第一图像特征矩阵和预设检测编码序列经过图像嵌入层的检测层网络得到第二图像特征矩阵;利用短语嵌入层对包括多种土地异常用途标签的预构建标签短语进行特征提取,得到短语特征矩阵;根据第二图像特征矩阵和短语特征矩阵,通过联合处理层对预构建标签短语内土地异常用途标签与当前待检测图像进行对齐处理,确定对当前待检测图像的检测结果。本发明的技术方案提升检测模型的灵活扩展性,并深层次检测土地用途以提高检测准确性。

Description

一种土地用途的检测方法、装置、设备及存储介质
技术领域
本发明涉及深度学习技术领域,尤其涉及一种土地用途的检测方法、装置、设备及存储介质。
背景技术
在监测违法土地用途的政务项目行业内,为了在自然资源测绘院监测新添加识别私自改变土地用途等违法行为时,现有土地用途违法私改检测识别算法,如faster R-CNN,yolo,mask R-CNN等只是简单在识别目标做标定,没有理解具体的识别目标深层次本身含义;如仅需检测出私自改变土地用途等违法行为时,传统图像检测识别算法需在模型之上添加工程化的方法,无法把该行为扩展融入至土地用途违法私改模型中;现有监测违法土地用途违法私改识别算法需要使用新的图片或视频样本重新进行昂贵的标注数据集以及重新训练等问题。
发明内容
本发明提供了一种土地用途的检测方法、装置、设备及存储介质,以提升检测模型的灵活扩展性,并深层次检测土地用途以提高检测准确性。
根据本发明的一方面,提供了一种土地用途的检测方法,该方法包括:
获取待检测土地区域的当前待检测图像,并将所述当前待检测图像输入预训练的检测网络;其中,所述预训练的检测网络包括图像嵌入层、短语嵌入层和联合处理层;所述图像嵌入层包括编码层和检测层网络;
将所述当前待检测图像的图像块矩阵和预设检测编码序列输入所述编码层进行一次特征融合学习,获取第一图像特征矩阵;
将所述第一图像特征矩阵和所述预设检测编码序列输入所述检测层网络进行二次特征融合学习,获取第二图像特征矩阵;
利用所述短语嵌入层对预构建标签短语进行特征提取,得到短语特征矩阵;其中,所述预构建标签短语包括多种土地异常用途标签;
根据所述第二图像特征矩阵和所述短语特征矩阵,通过所述联合处理层对所述预构建标签短语内土地异常用途标签与所述当前待检测图像进行对齐处理,确定对所述当前待检测图像的检测结果。
根据本发明的另一方面,提供了一种土地用途的检测装置,该装置包括:
检测图像输入模块,用于获取待检测土地区域的当前待检测图像,并将所述当前待检测图像输入预训练的检测网络;其中,所述预训练的检测网络包括图像嵌入层、短语嵌入层和联合处理层;所述图像嵌入层包括编码层和检测层网络;
第一图像特征矩阵获取模块,用于将所述当前待检测图像的图像块矩阵和预设检测编码序列输入所述编码层进行一次特征融合学习,获取第一图像特征矩阵;
第二图像特征矩阵获取模块,用于将所述第一图像特征矩阵和所述预设检测编码序列输入所述检测层网络进行二次特征融合学习,获取第二图像特征矩阵;
短语特征矩阵获取模块,用于利用所述短语嵌入层对预构建标签短语进行特征提取,得到短语特征矩阵;其中,所述预构建标签短语包括多种土地异常用途标签;
检测结果确定模块,用于根据所述第二图像特征矩阵和所述短语特征矩阵,通过所述联合处理层对所述预构建标签短语内土地异常用途标签与所述当前待检测图像进行对齐处理,确定对所述当前待检测图像的检测结果。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的土地用途的检测方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的土地用途的检测方法。
本发明实施例的技术方案,通过获取待检测土地区域的当前待检测图像,并将当前待检测图像输入预训练的包括图像嵌入层、短语嵌入层和联合处理层的检测网络;将当前待检测图像的图像块矩阵和预设检测编码序列输入图像嵌入层的编码层进行一次特征融合学习,获取第一图像特征矩阵;将第一图像特征矩阵和预设检测编码序列输入图像嵌入层的检测层网络进行二次特征融合学习,获取第二图像特征矩阵;利用短语嵌入层对包括多种土地异常用途标签的预构建标签短语进行特征提取,得到短语特征矩阵;根据第二图像特征矩阵和短语特征矩阵,通过联合处理层对预构建标签短语内土地异常用途标签与当前待检测图像进行对齐处理,确定对当前待检测图像的检测结果,解决了现有检测模型没有理解具体的识别目标深层次本身含义、无法把行为扩展融入至土地用途违法私改模型中、及需要使用新的图片或视频样本重新进行昂贵的标注数据集以及重新训练等问题,提升检测模型的灵活扩展性,并深层次检测土地用途以提高检测准确性。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a为本发明实施例一提供的一种土地用途的检测方法的流程图;
图1b为本发明实施例一提供的一种预训练检测网络的结构示意图;
图1c为本发明实施例一提供的一种检测层网络的结构示意图;
图1d为本发明实施例一提供的土地用途的检测方法的应用示例图;
图2为本发明实施例二提供的一种土地用途的检测装置的结构示意图;
图3是实现本发明实施例的土地用途的检测方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1a为本发明实施例一提供的一种土地用途的检测方法的流程图,本实施例可适用于对土地用途进行检测核查的情况,该方法可以由土地用途的检测装置来执行,该土地用途的检测装置可以采用硬件和/或软件的形式实现,该土地用途的检测装置可配置于智能分析算法平台中。如图1a所示,该方法包括:
S110、获取待检测土地区域的当前待检测图像,并将当前待检测图像输入预训练的检测网络;其中,预训练的检测网络包括图像嵌入层、短语嵌入层和联合处理层;图像嵌入层包括编码层和检测层网络。
其中,预训练的检测网络可以通过以下步骤获取:
步骤1、数据集构建:采用现有更多的数据集(土地区域图片的集合)。
步骤2、样本构建:将原有在土地区域图片上打标的标签转化为短语。即构建土地区域图片和构建短语作为一个训练样本,构建方式是土地区域图片+短语;其中短语构建方式为将多个标签用###连接,并在短语前加“OBJDECT:”来构建短语,例如有3个土地异常用途标签,构建的短语是“OBJDECT:###违法耕地建房###活动板房###简易棚”。这样设置的优点在于无论是已有土地异常用途标签还是新添其它各土地异常用途标签,都可通过步骤2的样本构建的方式来构建样本,使检测网络更加灵活并且可以很容易的将检测网络迁移。
步骤3、监控图像编码:如图1b所示的图像embedding部分,首先将土地区域图片进行patch分片,流经前馈层Feed-Forward layer输出的token(特征编码序列),流经构建6层的Transformer层,接着输出的token经过如图1c所示的DectionBlock Layer Network循环处理3次,为了能循环处理,这里token每次经过DectionBlock Layer Network的输入输出和每一层的输入输出通过后面接前馈全连接层处理,通过控制前馈全连接层来保证每层的输入输出一致。
重叠6层Transformer层用于提取深层图片特征;其中每一层结构处理逻辑为,首先根据图片的patch获取到的特征图流经多头注意力处理(多头即多组线性变换层,这里使用了一组线性变化层,即三个变换张量对Wq、Wv及Wk分别进行线性变换,这些变换不会改变原有张量的尺寸,因此每个变换矩阵都是方阵,这样便于GPU加速),使其图片各个patch进行全局的交互,获取图片全局信息;接着经过标准规范层和残差网络层处理用于更好的特征提取和便于训练的收敛。
本步骤的输入为原始的土地区域图片的Pacth embeddings+可学习的DectectionBlock。Dectection Block流经前馈层Feed-Forward layer输出的Dectection Tokens,通过Transformer层的注意力机制自学习来学习那部分patch隶属那部分DectectionTokens。
通过添加可学习的Dectection Token;基于预测结果和真实结果计算损失值,通过更新这里使用的一组线性变化层,即三个变换张量对Wq、Wv及Wk分别进行线性变换;即计算损失函数值来控制,反向传播至可学习的Dectection Token来更新参数来达到patch隶属的那部分检测特征模块的参数。
步骤4、短语编码:如图1b所示的短语embedding部分,将短语进行分词,得到多个单词;embedding是按每个单词来进行作为一个token;除此之外还有存在一些而外提示词prom tokens,如“OBJDECT:”,“###”等,或是语言中的特殊token;如[MASK]、[NoObj]等;这一步骤的短语编码用BEAT来进行编码,如A=Bertencode(短语)。
检测网络的预训练过程为:经过六层Transformer层之后,学习部分patch隶属那部分Dectection Tokens,完成了L0层次的融合。接着通过计算单元Dectection Block的Adapter来完成Dectection Tokens,将图像pacth token分配到各个Dectection token上,融合成L1级具有高层语义信息的tocken信息,即Dectection tocken(如维度100×512,L1级融合tocken信息)。
检测网络中间的融合层训练目标是为了使图像特征embedding和短语特征embedding进一步交互,使其最终的图像-短语联合特征空间训练得更好(即联合特征空间中相似的图像-短语联合特征embedding就会分布的更近,不相似的就会分布的更远),图像特征和短语特征被训练的出来后这样就更强、更有内聚性。
步骤5、损失定义:损失函数定义为定位损失LOSSlocation+对齐损失LOSSalign组成,如LOSStotal=LOSSlcation+LOSSalign,其中对齐损失的标签是短语与图像的每个regin的对齐;如下公式1、公式2和公式3所示:
I=Transformencode(图像)公式1
A=Bertencode(短语)公式2
SCOREalign=AIT公式3
其中,公式1表示图像编码器对土地区域图片进行编码之后得到M个reginembeddings,I∈RM*D,D表示embeddings的维度,即将每张样本的土地区域图片作为输入,经过6层Transform编码得到每张图片的特征I;同理多张即矩阵;公式2表示短语编码器对短语分词后再进行编码之后得到短语N个embeddings,A∈RN*D;公式3表示得到图像特征编码和短语特征编码后进行乘法运算得到align(对齐)的分数SCORE∈RN*M
当前待检测图像可以由设置于待检测土地区域的摄像头获取。本实施例中,可以利用基于上述步骤1-步骤5得到的预训练的检测网络对当前待检测图像进行检测。
S120、将当前待检测图像的图像块矩阵和预设检测编码序列输入编码层进行一次特征融合学习,获取第一图像特征矩阵。
可选的,在将当前待检测图像的图像块矩阵和预设检测编码序列输入编码层进行一次特征融合学习之前,还可以包括:对当前待检测图像进行分片处理,得到多个分片图像;根据多个分片图像得到图像块矩阵。
其中,分片图像可以相当于上述步骤3中的patch分片。图像块矩阵可以指上述步骤3中patch分片后流经前馈层Feed-Forward layer输出的token(特征编码序列)。
如图1b所示左侧的图像embedding部分,编码层为第一预设数量(例如6层)的重复结构;每个编码层包括第一单元层(Norm→Multi-Head-Attention→Norm)和第二单元层(Norm→Feed-Forward→Norm);第一单元层的结构依次为第一标准规范层(Norm)、多头注意力层(Multi-Head-Attention)和第二标准规范层(Norm);第二单元层的结构依次为第三标准规范层(Norm)、前馈层(Feed-Forward)和第四标准规范层(Norm)。
相应的,将当前待检测图像的图像块矩阵和预设检测编码序列输入编码层进行一次特征融合学习,获取第一图像特征矩阵,可以包括:
将图像块矩阵和预设检测编码序列作为第一连接项,并将第一连接项输入第一个编码层,依次经过第一个编码层内第一单元层的第一标准规范层、多头注意力层和第二标准规范层处理,得到第二连接项;对第一连接项和第二连接项进行求和处理,得到第一处理结果;将第一处理结果依次经过第二单元层的第三标准规范层、前馈层和第四标准规范层处理,得到第三连接项;对第一处理结果和第三连接项进行求和处理,得到第二处理结果;将第二处理结果输入下一个编码层,执行依次经过第一个编码层内第一单元层的第一标准规范层、多头注意力层和第二标准规范层处理的操作,直至全部编码层处理完毕,获取第一图像特征矩阵。
示例性的,第一连接项为transformer层的输入,即当前待检测图像的patch矩阵(M*D)+可学习的Dectection Token(Dectection Token矩阵(N*D),将M*D的patch矩阵和N*D的Dectection Token矩阵,经过第一单元层的Norm→Multi-Head-Attention→Norm后得到第二连接项,将第一连接项和第二连接项相加得第一处理结果;再将第一处理结果经第二单元层的Norm→Feed-Forward→Norm处理后得到第三连接项,将第一处理结果和第三连接项相加得第二处理结果。将第二处理结果输入下一个编码层,重复执行上述操作直至6层编码层处理结束,得到(M+N)*D矩阵。
S130、将第一图像特征矩阵和预设检测编码序列输入检测层网络进行二次特征融合学习,获取第二图像特征矩阵。
可选的,将第一图像特征矩阵和预设检测编码序列输入检测层网络进行二次特征融合学习,获取第二图像特征矩阵,包括:利用检测层网络内线性变换层的变换张量,与第一图像特征矩阵和预设检测编码序列相乘,得到变换后图像特征矩阵;将变换后图像特征矩阵与预设检测编码序列相加,得到第二图像特征矩阵。
参考图1c,Wv、Wk和Wq即三个变换张量,对Wv、Wk和Wq分别进行线性变换;通过这一组线性变化层分布与N*D的Dectection Tocken矩阵和M*D的patch矩阵进行矩阵相乘得到N*M的相似度矩阵,再利用参数Wo处理相似度矩阵得到N*M的变换后图像特征矩阵;将预设检测编码序列与变换后图像特征矩阵相加,代表把patch矩阵融合合并到DectectionTocken矩阵(融合合并计算策略是把与Dectection Tocken得分最高的patch关联矩阵相加);最终dectionBlock layer network输出为与Dectection Tocken矩阵大小相同的;即N*D。
S140、利用短语嵌入层对预构建标签短语进行特征提取,得到短语特征矩阵;其中,预构建标签短语包括多种土地异常用途标签。
参考图1b右侧的短语embedding部分,短语嵌入层为第二预设数量(例如12层)的重复结构,每个短语嵌入层包括第三单元层和第四单元层;第三单元层的结构与第一单元层相同;第四单元层的结构与第二单元层相同。
相应的,利用短语嵌入层对预构建标签短语进行特征提取,得到短语特征矩阵,可以包括:将预构建标签短语对应的短语矩阵作为第四连接项,并将第四连接项输入第一个短语嵌入层,依次经过第一个短语嵌入层内第三单元层的第一标准规范层、多头注意力层和第二标准规范层处理,得到第五连接项;对第四连接项和第五连接项进行求和处理,得到第三处理结果;将第三处理结果依次经过第四单元层的第三标准规范层、前馈层和第四标准规范层处理,得到第六连接项;对第三处理结果和第六连接项进行求和处理,得到第四处理结果;将第四处理结果输入下一个短语嵌入层,执行依次经过第一个短语嵌入层内第三单元层的第一标准规范层、多头注意力层和第二标准规范层处理的操作,直至全部短语嵌入层处理完毕,获取短语特征矩阵。
示例性的,图1b右侧的短语embedding部分输入是T*D的短语矩阵,经12层的Norm→Multi-Head-Attention→Norm,及Norm→Feed-Forward→Norm处理后,输出为N*D的短语特征矩阵。
S150、根据第二图像特征矩阵和短语特征矩阵,通过联合处理层对预构建标签短语内土地异常用途标签与当前待检测图像进行对齐处理,确定对当前待检测图像的检测结果。
可选的,根据第二图像特征矩阵和短语特征矩阵,通过联合处理层对预构建标签短语内土地异常用途标签与当前待检测图像进行对齐处理,确定对当前待检测图像的检测结果,可以包括:通过联合处理层,将第二图像特征矩阵进行转置处理,得到转置后第二图像特征矩阵;将转置后第二图像特征矩阵和短语特征矩阵相乘,以对预构建标签短语内土地异常用途标签与当前待检测图像进行对齐处理,得到对齐分数;根据对齐分数,确定对当前待检测图像的检测结果。
参考公式3,可以将图像embeding层输出的I(即第二图像特征矩阵)经过转置得IT;与短语embeding层计算输出得到的A(即短语特征矩阵)进行相乘计算score,从而确定对当前待检测图像的检测结果。
可选的,在输出对当前待检测图像的检测结果之后,还可以包括:从检测结果中获取目标土地异常用途类型;根据目标土地异常用途类型,生成预警信息并展示给监测人员以及时管理。
参考图1d,摄像头监测待监测土地区域的视频及图像,将图片流推送给部署有预训练的检测网络的智能分析中心算法平台,分析并识别土地异常用途的检测结果,再将检测结果推送给物联感知及业务系统进行预警管理及核查处置。
本发明实施例的技术方案,通过获取待检测土地区域的当前待检测图像,并将当前待检测图像输入预训练的包括图像嵌入层、短语嵌入层和联合处理层的检测网络;将当前待检测图像的图像块矩阵和预设检测编码序列输入图像嵌入层的编码层进行一次特征融合学习,获取第一图像特征矩阵;将第一图像特征矩阵和预设检测编码序列输入图像嵌入层的检测层网络进行二次特征融合学习,获取第二图像特征矩阵;利用短语嵌入层对包括多种土地异常用途标签的预构建标签短语进行特征提取,得到短语特征矩阵;根据第二图像特征矩阵和短语特征矩阵,通过联合处理层对预构建标签短语内土地异常用途标签与当前待检测图像进行对齐处理,确定对当前待检测图像的检测结果,解决了现有检测模型没有理解具体的识别目标深层次本身含义、无法把行为扩展融入至土地用途违法私改模型中、及需要使用新的图片或视频样本重新进行昂贵的标注数据集以及重新训练等问题,提升检测模型的灵活扩展性,并深层次检测土地用途以提高检测准确性。
实施例二
图2为本发明实施例二提供的一种土地用途的检测装置的结构示意图。如图2所示,该装置包括:检测图像输入模块210、第一图像特征矩阵获取模块220、第二图像特征矩阵获取模块230、短语特征矩阵获取模块240和检测结果确定模块250。其中:
检测图像输入模块210,用于获取待检测土地区域的当前待检测图像,并将所述当前待检测图像输入预训练的检测网络;其中,所述预训练的检测网络包括图像嵌入层、短语嵌入层和联合处理层;所述图像嵌入层包括编码层和检测层网络;
第一图像特征矩阵获取模块220,用于将所述当前待检测图像的图像块矩阵和预设检测编码序列输入所述编码层进行一次特征融合学习,获取第一图像特征矩阵;
第二图像特征矩阵获取模块230,用于将所述第一图像特征矩阵和所述预设检测编码序列输入所述检测层网络进行二次特征融合学习,获取第二图像特征矩阵;
短语特征矩阵获取模块240,用于利用所述短语嵌入层对预构建标签短语进行特征提取,得到短语特征矩阵;其中,所述预构建标签短语包括多种土地异常用途标签;
检测结果确定模块250,用于根据所述第二图像特征矩阵和所述短语特征矩阵,通过所述联合处理层对所述预构建标签短语内土地异常用途标签与所述当前待检测图像进行对齐处理,确定对所述当前待检测图像的检测结果。
本发明实施例的技术方案,通过获取待检测土地区域的当前待检测图像,并将当前待检测图像输入预训练的包括图像嵌入层、短语嵌入层和联合处理层的检测网络;将当前待检测图像的图像块矩阵和预设检测编码序列输入图像嵌入层的编码层进行一次特征融合学习,获取第一图像特征矩阵;将第一图像特征矩阵和预设检测编码序列输入图像嵌入层的检测层网络进行二次特征融合学习,获取第二图像特征矩阵;利用短语嵌入层对包括多种土地异常用途标签的预构建标签短语进行特征提取,得到短语特征矩阵;根据第二图像特征矩阵和短语特征矩阵,通过联合处理层对预构建标签短语内土地异常用途标签与当前待检测图像进行对齐处理,确定对当前待检测图像的检测结果,解决了现有检测模型没有理解具体的识别目标深层次本身含义、无法把行为扩展融入至土地用途违法私改模型中、及需要使用新的图片或视频样本重新进行昂贵的标注数据集以及重新训练等问题,提升检测模型的灵活扩展性,并深层次检测土地用途以提高检测准确性。
可选的,所述土地用途的检测装置,还包括图像块矩阵获取模块,用于在将所述当前待检测图像的图像块矩阵和预设检测编码序列输入所述编码层进行一次特征融合学习之前:
对所述当前待检测图像进行分片处理,得到多个分片图像;
根据所述多个分片图像得到所述图像块矩阵。
可选的,所述编码层为第一预设数量的重复结构;每个编码层包括第一单元层和第二单元层;所述第一单元层的结构依次为第一标准规范层、多头注意力层和第二标准规范层;所述第二单元层的结构依次为第三标准规范层、前馈层和第四标准规范层;
相应的,第一图像特征矩阵获取模块220,具体可以用于:
将所述图像块矩阵和所述预设检测编码序列作为第一连接项,并将所述第一连接项输入第一个编码层,依次经过第一个编码层内第一单元层的所述第一标准规范层、所述多头注意力层和所述第二标准规范层处理,得到第二连接项;
对所述第一连接项和第二连接项进行求和处理,得到第一处理结果;
将所述第一处理结果依次经过所述第二单元层的所述第三标准规范层、所述前馈层和所述第四标准规范层处理,得到第三连接项;
对所述第一处理结果和所述第三连接项进行求和处理,得到第二处理结果;
将所述第二处理结果输入下一个编码层,执行依次经过第一个编码层内第一单元层的所述第一标准规范层、所述多头注意力层和所述第二标准规范层处理的操作,直至全部编码层处理完毕,获取所述第一图像特征矩阵。
可选的,第二图像特征矩阵获取模块230,具体可以用于:
利用所述检测层网络内线性变换层的变换张量,与所述第一图像特征矩阵和所述预设检测编码序列相乘,得到变换后图像特征矩阵;
将所述变换后图像特征矩阵与所述预设检测编码序列相加,得到所述第二图像特征矩阵。
可选的,所述短语嵌入层为第二预设数量的重复结构,每个短语嵌入层包括第三单元层和第四单元层;所述第三单元层的结构与所述第一单元层相同;所述第四单元层的结构与所述第二单元层相同;
相应的,短语特征矩阵获取模块240,具体可以用于:
将所述预构建标签短语对应的短语矩阵作为第四连接项,并将所述第四连接项输入第一个短语嵌入层,依次经过第一个短语嵌入层内第三单元层的所述第一标准规范层、所述多头注意力层和所述第二标准规范层处理,得到第五连接项;
对所述第四连接项和第五连接项进行求和处理,得到第三处理结果;
将所述第三处理结果依次经过所述第四单元层的所述第三标准规范层、所述前馈层和所述第四标准规范层处理,得到第六连接项;
对所述第三处理结果和所述第六连接项进行求和处理,得到第四处理结果;
将所述第四处理结果输入下一个短语嵌入层,执行依次经过第一个短语嵌入层内第三单元层的所述第一标准规范层、所述多头注意力层和所述第二标准规范层处理的操作,直至全部短语嵌入层处理完毕,获取所述短语特征矩阵。
可选的,检测结果确定模块250,具体可以用于:
通过所述联合处理层,将所述第二图像特征矩阵进行转置处理,得到转置后第二图像特征矩阵;
将所述转置后第二图像特征矩阵和所述短语特征矩阵相乘,以对所述预构建标签短语内土地异常用途标签与所述当前待检测图像进行对齐处理,得到对齐分数;
根据所述对齐分数,确定对所述当前待检测图像的检测结果。
可选的,所述土地用途的检测装置,还包括预警信息展示模块,用于在输出对所述当前待检测图像的检测结果之后:
从所述检测结果中获取目标土地异常用途类型;
根据所述目标土地异常用途类型,生成预警信息并展示给监测人员以及时管理。
本发明实施例所提供的土地用途的检测装置可执行本发明任意实施例所提供的土地用途的检测方法,具备执行方法相应的功能模块和有益效果。
本申请技术方案中对数据的获取、存储、使用、处理等均符合法律法规的相关规定。
实施例三
图3示出了可以用来实施本发明的实施例的电子设备300的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图3所示,电子设备300包括至少一个处理器301,以及与至少一个处理器301通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器301可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元308加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 303中,还可存储电子设备300操作所需的各种程序和数据。处理器301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
电子设备300中的多个部件连接至I/O接口305,包括:输入单元306,例如键盘、鼠标等;输出单元307,例如各种类型的显示器、扬声器等;存储单元308,例如磁盘、光盘等;以及通信单元309,例如网卡、调制解调器、无线通信收发机等。通信单元309允许电子设备300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器301可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器301执行上文所描述的各个方法和处理,例如土地用途的检测方法。
在一些实施例中,土地用途的检测方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元308。在一些实施例中,计算机程序的部分或者全部可以经由ROM 302和/或通信单元309而被载入和/或安装到电子设备300上。当计算机程序加载到RAM 303并由处理器301执行时,可以执行上文描述的土地用途的检测方法的一个或多个步骤。备选地,在其他实施例中,处理器301可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行土地用途的检测方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种土地用途的检测方法,其特征在于,包括:
获取待检测土地区域的当前待检测图像,并将所述当前待检测图像输入预训练的检测网络;其中,所述预训练的检测网络包括图像嵌入层、短语嵌入层和联合处理层;所述图像嵌入层包括编码层和检测层网络;
将所述当前待检测图像的图像块矩阵和预设检测编码序列输入所述编码层进行一次特征融合学习,获取第一图像特征矩阵;
将所述第一图像特征矩阵和所述预设检测编码序列输入所述检测层网络进行二次特征融合学习,获取第二图像特征矩阵;
利用所述短语嵌入层对预构建标签短语进行特征提取,得到短语特征矩阵;其中,所述预构建标签短语包括多种土地异常用途标签;
根据所述第二图像特征矩阵和所述短语特征矩阵,通过所述联合处理层对所述预构建标签短语内土地异常用途标签与所述当前待检测图像进行对齐处理,确定对所述当前待检测图像的检测结果。
2.根据权利要求1所述的方法,其特征在于,在将所述当前待检测图像的图像块矩阵和预设检测编码序列输入所述编码层进行一次特征融合学习之前,还包括:
对所述当前待检测图像进行分片处理,得到多个分片图像;
根据所述多个分片图像得到所述图像块矩阵。
3.根据权利要求1所述的方法,其特征在于,所述编码层为第一预设数量的重复结构;每个编码层包括第一单元层和第二单元层;所述第一单元层的结构依次为第一标准规范层、多头注意力层和第二标准规范层;所述第二单元层的结构依次为第三标准规范层、前馈层和第四标准规范层;
将所述当前待检测图像的图像块矩阵和预设检测编码序列输入所述编码层进行一次特征融合学习,获取第一图像特征矩阵,包括:
将所述图像块矩阵和所述预设检测编码序列作为第一连接项,并将所述第一连接项输入第一个编码层,依次经过第一个编码层内第一单元层的所述第一标准规范层、所述多头注意力层和所述第二标准规范层处理,得到第二连接项;
对所述第一连接项和第二连接项进行求和处理,得到第一处理结果;
将所述第一处理结果依次经过所述第二单元层的所述第三标准规范层、所述前馈层和所述第四标准规范层处理,得到第三连接项;
对所述第一处理结果和所述第三连接项进行求和处理,得到第二处理结果;
将所述第二处理结果输入下一个编码层,执行依次经过第一个编码层内第一单元层的所述第一标准规范层、所述多头注意力层和所述第二标准规范层处理的操作,直至全部编码层处理完毕,获取所述第一图像特征矩阵。
4.根据权利要求1所述的方法,其特征在于,将所述第一图像特征矩阵和所述预设检测编码序列输入所述检测层网络进行二次特征融合学习,获取第二图像特征矩阵,包括:
利用所述检测层网络内线性变换层的变换张量,与所述第一图像特征矩阵和所述预设检测编码序列相乘,得到变换后图像特征矩阵;
将所述变换后图像特征矩阵与所述预设检测编码序列相加,得到所述第二图像特征矩阵。
5.根据权利要求3所述的方法,其特征在于,所述短语嵌入层为第二预设数量的重复结构,每个短语嵌入层包括第三单元层和第四单元层;所述第三单元层的结构与所述第一单元层相同;所述第四单元层的结构与所述第二单元层相同;
利用所述短语嵌入层对预构建标签短语进行特征提取,得到短语特征矩阵,包括:
将所述预构建标签短语对应的短语矩阵作为第四连接项,并将所述第四连接项输入第一个短语嵌入层,依次经过第一个短语嵌入层内第三单元层的所述第一标准规范层、所述多头注意力层和所述第二标准规范层处理,得到第五连接项;
对所述第四连接项和第五连接项进行求和处理,得到第三处理结果;
将所述第三处理结果依次经过所述第四单元层的所述第三标准规范层、所述前馈层和所述第四标准规范层处理,得到第六连接项;
对所述第三处理结果和所述第六连接项进行求和处理,得到第四处理结果;
将所述第四处理结果输入下一个短语嵌入层,执行依次经过第一个短语嵌入层内第三单元层的所述第一标准规范层、所述多头注意力层和所述第二标准规范层处理的操作,直至全部短语嵌入层处理完毕,获取所述短语特征矩。
6.根据权利要求1所述的方法,其特征在于,根据所述第二图像特征矩阵和所述短语特征矩阵,通过所述联合处理层对所述预构建标签短语内土地异常用途标签与所述当前待检测图像进行对齐处理,确定对所述当前待检测图像的检测结果,包括:
通过所述联合处理层,将所述第二图像特征矩阵进行转置处理,得到转置后第二图像特征矩阵;
将所述转置后第二图像特征矩阵和所述短语特征矩阵相乘,以对所述预构建标签短语内土地异常用途标签与所述当前待检测图像进行对齐处理,得到对齐分数;
根据所述对齐分数,确定对所述当前待检测图像的检测结果。
7.根据权利要求1所述的方法,其特征在于,在输出对所述当前待检测图像的检测结果之后,还包括:
从所述检测结果中获取目标土地异常用途类型;
根据所述目标土地异常用途类型,生成预警信息并展示给监测人员以及时管理。
8.一种土地用途的检测装置,其特征在于,包括:
检测图像输入模块,用于获取待检测土地区域的当前待检测图像,并将所述当前待检测图像输入预训练的检测网络;其中,所述预训练的检测网络包括图像嵌入层、短语嵌入层和联合处理层;所述图像嵌入层包括编码层和检测层网络;
第一图像特征矩阵获取模块,用于将所述当前待检测图像的图像块矩阵和预设检测编码序列输入所述编码层进行一次特征融合学习,获取第一图像特征矩阵;
第二图像特征矩阵获取模块,用于将所述第一图像特征矩阵和所述预设检测编码序列输入所述检测层网络进行二次特征融合学习,获取第二图像特征矩阵;
短语特征矩阵获取模块,用于利用所述短语嵌入层对预构建标签短语进行特征提取,得到短语特征矩阵;其中,所述预构建标签短语包括多种土地异常用途标签;
检测结果确定模块,用于根据所述第二图像特征矩阵和所述短语特征矩阵,通过所述联合处理层对所述预构建标签短语内土地异常用途标签与所述当前待检测图像进行对齐处理,确定对所述当前待检测图像的检测结果。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的土地用途的检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的土地用途的检测方法。
CN202311158378.XA 2023-09-08 2023-09-08 一种土地用途的检测方法、装置、设备及存储介质 Active CN117197737B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311158378.XA CN117197737B (zh) 2023-09-08 2023-09-08 一种土地用途的检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311158378.XA CN117197737B (zh) 2023-09-08 2023-09-08 一种土地用途的检测方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN117197737A true CN117197737A (zh) 2023-12-08
CN117197737B CN117197737B (zh) 2024-05-28

Family

ID=89004742

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311158378.XA Active CN117197737B (zh) 2023-09-08 2023-09-08 一种土地用途的检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117197737B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140054690A (ko) * 2012-10-29 2014-05-09 서울여자대학교 산학협력단 T2강조 mr 영상과 확산강조 mr 영상의 융합 시스템 및 그 방법
CN111460991A (zh) * 2020-03-31 2020-07-28 科大讯飞股份有限公司 异常检测方法、相关设备及可读存储介质
CN113255829A (zh) * 2021-06-17 2021-08-13 中国科学院自动化研究所 基于深度学习的零样本图像目标检测方法和装置
US20210264203A1 (en) * 2018-11-16 2021-08-26 Google Llc Multimodal Image Classifier using Textual and Visual Embeddings
CN115457529A (zh) * 2022-08-30 2022-12-09 阿里巴巴达摩院(杭州)科技有限公司 实体交互检测方法、建立实体交互检测模型的方法及装置
WO2023276810A1 (ja) * 2021-06-29 2023-01-05 富士フイルム株式会社 疾患ラベル作成装置、方法及びプログラム並びに学習装置及び疾患検出モデル
WO2023015941A1 (zh) * 2021-08-13 2023-02-16 北京百度网讯科技有限公司 文本检测模型的训练方法和检测文本方法、装置和设备
US20230106873A1 (en) * 2022-03-10 2023-04-06 Beijing Baidu Netcom Science Technology Co., Ltd. Text extraction method, text extraction model training method, electronic device and storage medium
CN115982350A (zh) * 2022-12-07 2023-04-18 南京大学 基于多模态Transformer的虚假新闻检测方法
CN115984868A (zh) * 2022-12-26 2023-04-18 抖音视界有限公司 文本处理方法、装置、介质及设备
CN116030390A (zh) * 2023-01-03 2023-04-28 京北方信息技术股份有限公司 视频中异常行为的智能检测方法、装置、设备及存储介质
CN116129101A (zh) * 2023-03-20 2023-05-16 北京百度网讯科技有限公司 目标检测方法、装置、电子设备及存储介质
US20230196558A1 (en) * 2021-12-16 2023-06-22 Fulian Precision Electronics (Tianjin) Co., Ltd. Medicine image recognition method, electronic device and readable storage medium
CN116522212A (zh) * 2023-07-05 2023-08-01 清华大学 基于图像文本融合的谎言检测方法、装置、设备及介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140054690A (ko) * 2012-10-29 2014-05-09 서울여자대학교 산학협력단 T2강조 mr 영상과 확산강조 mr 영상의 융합 시스템 및 그 방법
US20210264203A1 (en) * 2018-11-16 2021-08-26 Google Llc Multimodal Image Classifier using Textual and Visual Embeddings
CN111460991A (zh) * 2020-03-31 2020-07-28 科大讯飞股份有限公司 异常检测方法、相关设备及可读存储介质
CN113255829A (zh) * 2021-06-17 2021-08-13 中国科学院自动化研究所 基于深度学习的零样本图像目标检测方法和装置
WO2023276810A1 (ja) * 2021-06-29 2023-01-05 富士フイルム株式会社 疾患ラベル作成装置、方法及びプログラム並びに学習装置及び疾患検出モデル
WO2023015941A1 (zh) * 2021-08-13 2023-02-16 北京百度网讯科技有限公司 文本检测模型的训练方法和检测文本方法、装置和设备
US20230196558A1 (en) * 2021-12-16 2023-06-22 Fulian Precision Electronics (Tianjin) Co., Ltd. Medicine image recognition method, electronic device and readable storage medium
US20230106873A1 (en) * 2022-03-10 2023-04-06 Beijing Baidu Netcom Science Technology Co., Ltd. Text extraction method, text extraction model training method, electronic device and storage medium
CN115457529A (zh) * 2022-08-30 2022-12-09 阿里巴巴达摩院(杭州)科技有限公司 实体交互检测方法、建立实体交互检测模型的方法及装置
CN115982350A (zh) * 2022-12-07 2023-04-18 南京大学 基于多模态Transformer的虚假新闻检测方法
CN115984868A (zh) * 2022-12-26 2023-04-18 抖音视界有限公司 文本处理方法、装置、介质及设备
CN116030390A (zh) * 2023-01-03 2023-04-28 京北方信息技术股份有限公司 视频中异常行为的智能检测方法、装置、设备及存储介质
CN116129101A (zh) * 2023-03-20 2023-05-16 北京百度网讯科技有限公司 目标检测方法、装置、电子设备及存储介质
CN116522212A (zh) * 2023-07-05 2023-08-01 清华大学 基于图像文本融合的谎言检测方法、装置、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHIH-HUI HO 等: "YORO - Lightweight End to End Visual Grounding", 《ARXIV.ORG》, 15 November 2022 (2022-11-15), pages 1 - 28 *
曾显珣: "数据融合下的移动通信流量模式应用研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 01, 15 January 2020 (2020-01-15), pages 139 - 42 *

Also Published As

Publication number Publication date
CN117197737B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
CN113011420B (zh) 字符识别方法、模型训练方法、相关装置及电子设备
CN113392253B (zh) 视觉问答模型训练及视觉问答方法、装置、设备及介质
CN112784778A (zh) 生成模型并识别年龄和性别的方法、装置、设备和介质
CN113361578A (zh) 图像处理模型的训练方法、装置、电子设备及存储介质
CN114818708B (zh) 关键信息抽取方法、模型训练方法、相关装置及电子设备
CN113642583B (zh) 用于文本检测的深度学习模型训练方法及文本检测方法
CN113553412A (zh) 问答处理方法、装置、电子设备和存储介质
CN112559885A (zh) 地图兴趣点的训练模型确定方法、装置及电子设备
CN117253112A (zh) 结构健康诊断大模型视觉语言跨模态学习方法
US20220374678A1 (en) Method for determining pre-training model, electronic device and storage medium
CN114022887B (zh) 文本识别模型训练及文本识别方法、装置、电子设备
CN116152833B (zh) 基于图像的表格还原模型的训练方法及表格还原方法
CN115293149A (zh) 一种实体关系识别方法、装置、设备及存储介质
CN113177449A (zh) 人脸识别的方法、装置、计算机设备及存储介质
CN113901909A (zh) 基于视频的目标检测方法、装置、电子设备和存储介质
CN113592932A (zh) 深度补全网络的训练方法、装置、电子设备及存储介质
CN115761839A (zh) 人脸活体检测模型的训练方法、人脸活体检测方法及装置
CN114715145A (zh) 一种轨迹预测方法、装置、设备及自动驾驶车辆
Kunlamai et al. Improving visual question answering for bridge inspection by pre‐training with external data of image–text pairs
CN114663733A (zh) 多模态特征的融合方法、装置、设备、介质及产品
CN116468985B (zh) 模型训练方法、质量检测方法、装置、电子设备及介质
CN112507705A (zh) 一种位置编码的生成方法、装置及电子设备
CN117197737B (zh) 一种土地用途的检测方法、装置、设备及存储介质
CN114937277B (zh) 基于图像的文本获取方法、装置、电子设备及存储介质
CN112560848B (zh) 兴趣点poi预训练模型的训练方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant