CN116958585A - 图像处理方法、装置、电子设备及存储介质 - Google Patents
图像处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116958585A CN116958585A CN202310288239.2A CN202310288239A CN116958585A CN 116958585 A CN116958585 A CN 116958585A CN 202310288239 A CN202310288239 A CN 202310288239A CN 116958585 A CN116958585 A CN 116958585A
- Authority
- CN
- China
- Prior art keywords
- image
- feature
- complex
- characteristic
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 title claims abstract description 30
- 238000003672 processing method Methods 0.000 title claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 213
- 238000001514 detection method Methods 0.000 claims abstract description 149
- 238000000034 method Methods 0.000 claims abstract description 71
- 238000011176 pooling Methods 0.000 claims abstract description 56
- 230000009466 transformation Effects 0.000 claims abstract description 35
- 239000013598 vector Substances 0.000 claims description 45
- 238000010586 diagram Methods 0.000 claims description 44
- 230000008569 process Effects 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 9
- 230000005764 inhibitory process Effects 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 2
- 230000000875 corresponding effect Effects 0.000 description 129
- 230000006870 function Effects 0.000 description 32
- 238000007667 floating Methods 0.000 description 30
- 238000000605 extraction Methods 0.000 description 19
- 238000012512 characterization method Methods 0.000 description 17
- 238000005516 engineering process Methods 0.000 description 15
- 238000013473 artificial intelligence Methods 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000013139 quantization Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000586 desensitisation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000010287 polarization Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种图像处理方法、装置、电子设备及存储介质,该方法包括:对图像的特征进行抽取,并对抽取的特征进行复数域变换,得到特征图;在所述特征图中确定图像检测区域对应的特征区域,所述图像检测区域为针对所述图像进行处理的目标区域;对所述图像检测区域对应的特征区域进行特征池化处理,得到所述图像的图像特征。本申请实施例的技术方案能准确获取的表征图像信息的图像表征,图像处理效率高。
Description
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种图像处理方法、装置、电子设备及存储介质。
背景技术
图像处理所得到的图像特征可应用于图像检索、图像分类等多个领域,现有的图像处理大多将整张图像作为目标,得到整体图像的表征后进行图像应用,但随着多媒体的发展,用户生成内容(UGC)增多,UGC图像中多包含有用户的个性化创作,该个性化创作将严重影响现有图像处理方案的性能,得到的图像表征中包含有个性化创作内容对应的表征,在应用时,该个性化创作内容对应的表征会影响图像应用,如可能检索到与个性化创作相似的图像,从而导致无法准确检索出与图像的感兴趣区域相似的图像,图像检索准确率降低;或是将图像划分为与个性化创作内容对应的图像类别中,导致图像分类失败等问题。
由此可知,现有的图像处理方案所得到的图像表征准确率低,同时,该个性化创作内容会增大图像处理的时间,导致图像处理效率低。
发明内容
为解决上述技术问题,本申请的实施例提供了一种图像处理方法及装置、电子设备、计算机可读存储介质、计算机程序产品。
根据本申请实施例的一个方面,提供了一种图像处理方法,包括:对图像的特征进行抽取,并对抽取的特征进行复数域变换,得到特征图;在所述特征图中确定图像检测区域对应的特征区域,所述图像检测区域为针对所述图像进行处理的目标区域;对所述图像检测区域对应的特征区域进行特征池化处理,得到所述图像的图像特征。
根据本申请实施例的一个方面,提供了一种图像处理装置,包括:特征获取模块,配置为对图像的特征进行抽取,并对抽取的特征进行复数域变换,得到特征图;区域检测模块,配置为在所述特征图中确定图像检测区域对应的特征区域,所述图像检测区域为针对所述图像进行处理的目标区域;图像特征获取模块,配置为对所述图像检测区域对应的特征区域进行特征池化处理,得到所述图像的图像特征。
在一实施例中,特征获取模块包括:复数特征获取单元,配置为将抽取得到的特征作为信号波形,基于傅里叶变换将所述信号波形从实数空间变换至复数域,得到复数特征;特征获取单元,配置为基于所述复数特征进行相位扰动处理,并将进行相位扰动处理后的复数特征进行傅里叶反变换,得到所述特征图。
在一实施例中,所述复数特征为复数,特征获取单元包括:缩放子单元,配置为对所述信号波形的相位特征进行缩放处理;目标相位特征获取子单元,配置为将进行缩放处理后的相位特征与所述相位特征进行相加,得到目标相位特征;特征获取子单元,配置为基于所述目标相位特征进行傅里叶反变换,得到所述特征图。
在一实施例中,区域检测模块包括:待检测框获取单元,配置为基于所述特征图生成多个待检测框;目标检测框获取单元,配置为对所述多个待检测框分别进行非极大值抑制处理,得到目标检测框;区域检测单元,配置为将所述目标检测框在所述特征图中对应的特征区域作为所述图像检测区域对应的特征区域。
在一实施例中,图像特征获取模块包括:高维特征获取单元,配置为对所述图像检测区域对应的特征区域进行复数域变换,得到高维特征图;图像特征获取单元,配置为分别对所述高维特征图以及所述图像检测区域对应的特征区域进行特征池化处理,得到所述图像的图像特征。
在一实施例中,图像特征获取单元包括:特征向量获取子单元,配置为分别对进行特征池化处理后的高维特征图以及进行特征池化处理后的图像检测区域对应的特征区域进行全连接处理,对应得到高维特征向量以及区域特征向量;第一图像特征获取子单元,配置为将所述高维特征向量以及所述区域特征向量进行特征融合,得到所述图像特征。
在一实施例中,图像特征获取单元包括:复数特征获取子单元,配置为对所述高维特征图以及所述图像检测区域对应的特征区域分别进行卷积处理,以根据得到的卷积处理结果获取实部特征和虚部特征;第二复数域的特征图获取子单元,配置为将所述实部特征和所述虚部特征进行复数卷积操作,得到所述图像在复数域的特征图;第二图像特征获取子单元,配置为将所述图像在复数域的特征图转换为实数特征,得到所述图像特征。
在一实施例中,图像特征获取单元包括:通道特征获取子单元,配置为对所述图像的图像通道特征进行重新组合,得到所述图像的实部通道特征和所述图像的虚部通道特征;通道复数特征获取子单元,配置为将所述高维特征图以及所述图像检测区域对应的特征区域中与所述图像的实部通道特征相对应的特征作为实部特征,并将所述高维特征图以及所述图像检测区域对应的特征区域中与所述图像的虚部通道特征相对应的特征作为虚部特征;第三复数域的特征图获取子单元,配置为将所述实部特征和所述虚部特征进行复数卷积操作,得到所述图像在复数域的特征图;第三图像特征获取子单元,配置为将所述图像在复数域的特征图转换为实数特征,得到所述图像特征。
在一实施例中,第三复数域的特征图获取子单元以及第二复数域的特征图获取子单元均包括:复数域的信号波形获取板块,配置为将所述实部特征作为复数域的实部,并将所述虚部特征作为复数域的虚部,得到所述图像在复数域的信号波形;复数域的特征图获取板块,配置为对所述图像在复数域的信号波形进行卷积操作,得到所述图像在复数域的特征图。
在一实施例中,第三图像特征获取子单元以及第二图像特征获取子单元均包括:特征池化板块,配置为对所述图像在复数域的特征图进行池化处理,得到所述图像在复数域的池化特征图;复数参数获取板块,配置为基于所述图像在复数域的池化特征图,获取复数幅度和复数相位;特征向量获取板块,配置为将预设的类中心特征作为标签,分别对所述复数幅度与复数相位进行监督回归处理,所述类中心特征包括对训练图像样本的特征进行正交二值化处理所得到的特征向量;图像特征获取板块,配置为将进行监督回归处理后的复数幅度与进行监督回归处理后的复数相位转换为实数,以得到所述图像特征。
在一实施例中,图像特征获取板块包括:监督学习子板块,配置为基于所述进行监督回归处理后的复数幅度与所述进行监督回归处理后的复数相位所构建的波形图,获取监督学习后的实部特征以及监督学习后的虚部特征;获取子板块,配置为对所述督学习后的实部特征以及监督学习后的虚部特征进行拼接,得到复数特征向量;图像特征获取子板块,配置为对所述复数特征向量进行全连接处理,得到所述图像特征。
在一实施例中,图像在复数域的特征向量包括波形图;复数参数获取板块包括:复数参数获取子板块,配置为将所述图像在复数域的池化特征图的幅度作为所述复数幅度,并将所述图像在复数域的池化特征图的相位作为复数相位。
根据本申请实施例的一个方面,提供了一种电子设备,包括一个或多个处理器;存储装置,用于存储一个或多个计算机程序,当所述一个或多个计算机程序被所述一个或多个处理器执行时,使得所述电子设备实现如上所述的图像处理方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行如上所述的图像处理方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实施例中提供的图像处理方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上所述的图像处理方法中的步骤。
在本申请的实施例所提供的技术方案中,在图像处理时,一方面,通过引入复数域的特征,能够提高特征图中包含的图像信息的丰富度,从而提升图像处理所得到图像特征的准确度,另一方面,还通过在对图像的特征进行复数域变换后,确定针对图像进行处理的目标区域,该目标区域视为图像中个性化创作内容少的图像应用的感兴趣区域,基于此目标区域进行图像处理能够减少图像中个性化创作对图像处理结果的影响,进一步提升了图像特征的准确率,并且能减少图像处理时对个性化创作内容分析的时间,保证图像处理的高效性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本申请的一示例性实施例示出的现有哈希算法的误差示意图;
图2是本申请涉及的一种实施环境的示意图;
图3是本申请的一示例性实施例示出的图像处理方法的流程图;
图4是本申请的一示例性实施例示出的图像处理网络的结构示意图;
图5是基于图3的实施例所示出的一种图像处理方法的流程图;
图6是本申请的一示例性实施例示出的复数域变换的流程示意图;
图7是基于图3的实施例所示出的另一种图像处理方法的流程图;
图8是基于图3的实施例所示出的另一种图像处理方法的流程图;
图9是基于图8的实施例所示出的一种图像处理方法的流程图;
图10是本申请的一示例性实施例示出的特征生成网络的结构示意图;
图11是基于图8的实施例所示出的另一种图像处理方法的流程图;
图12是本申请的一示例性实施例示出的特征生成网络的结构示意图;
图13是本申请的一示例性实施例示出的复数模块的结构示意图;
图14是本申请的一示例性实施例示出的幅度和相位回归的流程示意图;
图15是本申请的另一示例性实施例示出的图像处理网络的结构示意图;
图16是根据一示例性实施例示出的一种图像处理装置的结构示意图;
图17示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
还需要说明的是:在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
可以理解的是,在本申请的具体实施方式中,涉及到图像、图像上的个性化创作内容等信息,当本申请以上实施例将该信息运用到具体产品或技术中时,需要获得用户许可或者同意,或执行过相关数据的退敏过滤处理,且相关信息的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
技术词语说明:
UGC:全称User-generated content,即用户将自己原创的内容通过互联网平台进行展示或者提供给其他用户。
FFT:快速傅里叶变换。
Hash:哈希,即对浮点表征进行量化,通常为二值化。
检测:通过模型预测主体区域,得到主体区域的矩形框。
mAP:平均精度(mean Average Precision)。
浮点表征:又称浮点特征,即对图像或文字进行特征提取,所得到的特征一般为浮点类的特征,因此称为浮点表征,在图像处理领域,可将浮点表征视为图像信息。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、定位和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
图像处理是基于人工智能以及计算机视觉技术所引申出的技术方案,随着短视频在社交媒体平台上的爆炸增长,用户生成内容(UGC)呈现指数型增长。UGC,指用户可以将自己的个性化创作内容通过网络平台展示,这些内容包括但不限于图片、视频、音频等素材。为了吸引更多用户关注,创作者通常会在已有素材上添加适量的个性化元素(此处可称为artifact),如模板、自定义内容和其它一些二创操作等。
然而,当前的技术方案将整张图作为目标,得到整体的表征后进行图像应用(如图像检索应用、图像分类应用等),这些个性化元素将严重影响现有检索系统的性能。因此,针对UGC内容的图像检索需求随之而生。此外,随着需要处理的数据的增多,需要的存储量和检索时长成倍增加,各大媒体平台对检索的性能和效率存在不同需求。
图像检索(Image Retrieval,IR)是计算机视觉的经典任务,旨在依据给定的查询图像,在图像库中查找相关的图像。现有的图像检索主要采用两阶段范式:首先使用全局特征进行粗搜索,然后通过局部特征匹配进行验证,全局特征包含高级语义信息,局部特征包含特定图像区域的判别几何信息。
早期的图像应用通常首先提取手工局部特征,比如SIFT(Scale-invariantFeatureTransform,尺度不变特征变换)、SURF(一种高效的方式完成特征的提取和描述的算法)等,然后利用BoW(图像应用区域的建模方法)或者Fisher vectors(图像应用领域内基于核函数的判别式分类器)方式将局部特征聚合。随着深度学习的发展,越来越多的工作利用深度模型提取局部和全局特征用以代替传统的手工特征。然而,这类方法依然采用两阶段范式,最近的方法,如DELG(基于深度局部和全局特征处理的神经网络)、DOLG(基于局部与全局特征深度正交融合的神经网络)等,试图融合局部和全局特征,采用一阶段范式完成图像应用。
该一阶段范式和两阶段范式的图像处理方案虽然考虑了全局或者局部特征,但是并没有考虑存在artifact的场景,而artifact的存在会影响对图像特征分析的判断,导致图像处理所得到的结果与待处理图像之间的差别过大,图像应用效果差。
哈希算法被广泛运用于存储和检索效率要求比较高的场景中,如可应用在大量图像应用请求的场景中,哈希算法通常设计一个哈希层插入到深度网络中,允许同时优化模型参数和哈希特征。哈希的核心是使学习到的二值化特征具有类间区分性和最小化量化误差。但是,由于符号函数(sign)的不可导性,最新的哈希方法通常采用一种近似做法。比如,HashNet(哈希网络)运用tanh(函数)代替sign(函数)以保持连续性;DCH(一种哈希网络模型)利用柯西分布来最小化量化误差;CSQ(中心相似性量化)、HMOM(生成哈希标签的工具)利用哈达玛矩阵预先生成正交的hash标签,然后利用交叉熵优化;OrthoHash(正交哈希模型)使用单一损失函数来最大化连续码与二进制目标之间的余弦相似度;DHD(神经网络)引入自蒸馏训练和基于代理的学习方式。
而现有的哈希算法得到的哈希码由于量化误差的存在,浮点表征一点微小的变动就可能就会导致巨大的错误。如图1所示,即使两个浮点表征非常相似,但用符号函数将浮点特征二值化以后可能会带来巨大的差异。造成该问题的根本原因是利用符号函数二值化存在数值的突变,因此,哈希算法在应用于图像应用领域时,同样存在结果不准确,效率差等问题。
首先请参阅图2,图2是本申请涉及的一种实施环境的示意图。该实施环境包括终端100和服务器端200,终端100和服务器端200之间通过有线或者无线网络进行通信。
当然,图2中的服务器端200的数量仅是示例性的,在其他实施例中还可以是其他数量的服务器端200,本实施例中,终端100可用于确定需进行图像处理的图像,该图像处理的目的为得到准确表征该图像信息的图像特征,以此,可通过该图像特征进行相关应用,如在图像集中检索出与该需进行图像处理的图像相似或相同类别的目标图像,图像集中包括广量的图像;或是对该需进行图像处理的图像进行分类等应用方式。
终端100还将该图像发送至服务器端200,以使服务器端200基于图像进行图像处理,得到图像处理结果,服务器端200还将图像处理结果返回至终端100,通过终端100自带的可视化模块进行展示。
示例性的,终端100在得到图像后,终端100将图像发送至服务器端200,服务器端200对图像的特征进行抽取,并对抽取的特征进行复数域变换,得到特征图;在所述特征图中确定图像检测区域对应的特征区域,所述图像检测区域为针对所述图像进行检索的目标区域;对所述图像检测区域对应的特征区域进行特征池化处理,得到所述图像的图像特征最后,将图像特征返回至终端100,以通过终端100自带的可视化模块进行展示。
当然,在一些实施例中,也可直接通过终端100进行图像处理,即,终端100不将图像发送至服务器端200,而是通过终端100自带的服务系统进行图像处理,得到图像处理结果。
其中,终端100可以是手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等,本处不进行限制。服务器端200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,其中多个服务器可组成一区块链,而服务器为区块链上的节点,服务器端200还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器,本处也不对此进行限制。
应当说明的是,本实施例只是为了便于理解本申请的思想而提出的一种示例性实施环境,不能认为是提供给了对本申请的使用范围的任何限制。
图3是根据一示例性实施例示出的一种图像处理方法的流程图,该图像处理方法可应用于图2中的实施环境,并由图2中的服务器端200具体执行,应该理解的是,该方法也可以是用于其他的示例性实施环境,并由其它实施环境中的设备具体执行,本实施例不对该方法所适用的实施环境进行限制。
在一示例性实施例中,该方法可以包括步骤S310至步骤S350,详细介绍如下:
步骤S310:对图像的特征进行抽取,并对抽取的特征进行复数域变换,得到特征图。
本实施例中,图像处理可基于图4所示的图像处理网络中完成,具体地,但需对图像进行检索时,可通过图像处理网络提取该图像的特征,后续则可基于该图像特征进行相关的图像应用。
如图4所示,该图像处理网络包括骨干网络以及特征生成网络,具体地,在骨干网络中,存在多个特征提取层,每个特征提取层后接有一个傅里叶变换层,即在骨干网络中,针对每一层来说,先对进入该层的数据通过该层的特征提取层进行特征抽取,而后对抽取的特征在该层的傅里叶变换层中进行复数域变换得到特征图。
针对骨干网络中的第一层来说,图像进入该骨干网络,第一层中的特征提取层对图像进行特征抽取,而第一层的傅里叶变换层对抽取的特征进行复数域变换得到第一层输出的特征图,后续的层数中执行相应的特征抽取以及复数域变换操作。
本实施例中,该骨干网络可以以ResNet50(能有效解决深度网络退化问题的一种结构)为基础,则每一层为res层,也可以以ResNet(残差网络)、Transformer(第一个完全依赖于自注意力机制来计算其输入和输出的表示的转换模型)等网络结构为基础,此处不进行具体限制。
步骤S330:在特征图中确定图像检测区域对应的特征区域。
本实施例中,该进行图像处理的图像可以是视频中的某一帧图像,也可以为普通的图像,该图像的主体内容为用户生成内容(UCG),当然,该图像中还可以包含有用户添加的个性化元素(artifact),在图像处理时,图像中可能存在的个性化元素为图像处理时的干扰项,即在图像处理完成后,可能得到个性化元素对应的表征,该个性化元素对应的表征与图像特征混合在一起,导致图像应用的准确率低,效率低。
以此,还可在特征图中确定图像检测区域对应的特征区域,图像检测区域为针对图像进行处理的目标区域,,在应用时,应针对该图像的目标区域开展应用工作,如图像检索时,应检索与目标区域相似的目标图像,图像分类时,应基于目标区域确定图像的目标类别,即该目标区域可以视为排除个性化元素(artifact)干扰的区域,即UCG内容所在的区域。
本实施例中,确定图像检测区域对应的特征区域的过程在骨干网络中实现,如在网络的某一层输出特征图后,将该特征图输入至区域建议网络(Region Proposalnetwork,简称RPN)以获取图像检测区域对应的特征区域。
而后,该图像检测区域对应的特征区域还可以进入骨干网络中的下一层,基于进行特征抽取以及复数域变换,当然,在骨干网络中图像检测区域对应的特征区域进行相关处理的每一层中,均只对该特征图中图像检测区域对应的特征区域进行处理,而不同特征图中的其他特征区域进行处理。
在一些实施例中,骨干网络中可设置一层由特征提取层与傅里叶变换层组合的结构对图像检测区域对应的特征区域进行相关处理,当然也可以设置多层,依次进行相关处理。
步骤S350:对图像检测区域对应的特征区域进行特征池化处理,得到图像的图像特征。
本实施例中,骨干网络所输出的数据可进入特征生成网络中进行相应的处理。
具体地,图像检测区域对应的特征区域进入特征生成网络中进行相关处理,而由于在骨干网络还存在对图像检测区域对应的特征区域进行特征抽取以及复数域变换处理的过程,该过程可以得到语义更丰富、更能代表图像检测区域对应的特征区域的内容的数据,因此,骨干网络中最后一层输出的特征数据也将进入特征生成网络中进行处理。
输入特征生成网络的特征数据在该特征生成网络中进行特征池化处理,以得到用于表征图像中目标区域的特征。
在一实施例中,如需对图像进行图像检索,则可基于该图像特征在图像集中确定与图像相似的目标图像。具体地,图像集中的多个图像,分别通过步骤S310至步骤S350的方式,得到图像集中各个图像的图像特征,此处为区分,图像集中各图像的图像特征成为预设图像特征,后续,则可计算各预设图像特征与需进行图像检索的图像对应图像特征之间的相似度,通过相似度的数值大小来确定目标图像特征,如将相似度数值大于某一阈值的预设图像特征对应的图像作为目标图像。
在另一实施例中,如需对图像进行分类,则可进入该图像特征,通过不同的分类方式,得到图像的目标类别,如二分类,或是通过比较已经确定类别的图像的特征与该图像特征之间的相似度,来确定图像的目标类别,当然已经确定类别的图像的特征也可通过步骤S310至步骤S350的方式获取。
当然,此处所示出的图像检索和图像分类仅为示例性的分类方式,在实施例中,还可基于图像特征进行其他的图像应用。
本实施例中,在图像处理时,引入复数域,在复数域内进行图像特征的分析,从而提高图像中特征信息的丰富度,另一方面,还在复数域变换后,确定图像进行处理的目标区域,该目标区域视为图像中个性化创作少的图像处理的感兴趣区域,从而减少图像中个性化创作对图像的影响,以获取能准确表征图像信息的图像特征,从而提高基于图像特征进行图像应用的准确率,并且能减少图像处理时对个性化创作内容分析的时间,保证图像处理的高效性。
图5是基于图3的实施例所示出的一种图像处理方法的流程图,在一示例性实施例中,图3中的步骤S310对图像的特征进行抽取,并对抽取的特征进行复数域变换,得到特征图的过程可以包括步骤S510至步骤S530,详细介绍如下:
步骤S510:将抽取得到的特征作为信号波形,基于傅里叶变换将信号波形从实数空间变换至复数域,得到复数特征。
本实施例中,在图4中的傅里叶变换层中进行复数域变换,复数域变换的流程图可参考图6,具体地,将同一层的特征提取层所抽取得到的特征作为输入,可将抽取得到的特征作为信号波形,用Si表示,此时,则可通过傅里叶变换(FFT)将该信号波形从实数空间变换到复数域,得到复数特征,得到的复数域的复数特征Si表达公式可参考下式:
其中,j表示虚数单元,且满足j2=-1,t表示时刻,w表示信号波形的角速度。
该Si中,振幅表示波的最大强度,相位表示特定的时刻在波形循环中的位置。
步骤S530:基于复数特征进行相位扰动处理,并将进行相位扰动处理后的复数特征进行傅里叶反变换,得到特征图。
本实施例中,由于复数特征Si(jw)为复数,复数存在虚部与实部,由此可得到复数特征的幅度特征(Amplitude)与相位特征(Phase),即可视为复数特征包括幅度特征(Amplitude)与相位特征(Phase),具体地,假设复数特征Si(jw)的实部和虚部分别是和/>则复数特征Si(jw)可表示为:
由此,可通过复数特征Si(jw)的实部和虚部所得到的复数特征的幅度特征(|Si(jW)|)与相位特征(θi)为:
随后,可在每层的傅里叶变换层的每个小批次里面进行相位扰动处理,即对信号波形的相位特征进行缩放处理,然后随机打乱进行缩放处理的相位特征,并将打乱后的经过缩放处理后的相位特征与相位特征进行相加(图6中的mixing),得到目标相位特征:
其中,B表示最小批次大小,λ表示权重值,θk表示随机打乱进行缩放处理的相位特征。
在以上过程中,不会改变信号波形的幅度特征,以及,基于该目标相位特征,可得到更像处理后的信号波形:
而后,则对基于目标相位特征得到的信号波形进行傅里叶反变换,将信号从复数域变换回时域,得到特征图:
此时,所得到的特征图为实数域的特征图。
本实施例中,引入复数特征,将图像的特征由实域转换为复数域,从而提高图像特征的丰富度,保证后续基于图像特征进行图像处理时,应用的准确性。
图7是基于图3的实施例所示出的另一种图像处理方法的流程图,在一示例性实施例中,图3中的步骤S330在特征图中确定图像检测区域对应的特征区域的过程可以包括步骤S710至步骤S750,详细介绍如下:
步骤S710:基于特征图生成多个待检测框。
本实施例中,在骨干网络的前几层可得到1024通道的特征图,所得到的特征图,利用区域建议网络(Region Proposal network,简称RPN)生成待检测框,该待检测框可以视为在图像上所圈出的一些区域,每一个待检测框可视为在图像上所选择的一个区域。
本实施例中,RPN的训练优化遵循标准的FasterRCNN(一种目标检测模型)操作,当然也可以使用其他的检测器来进行训练,此处不进行具体限制,最终的预测输出包括两个损失函数:待检测框回归损失Lreg和正负样本分类损失Lcls:
其中,Np表示正样本的数量,ri表示第i个正样本的计算的回归量,表示GT(Ground Truth,相当于待检测物体的标签label,也就是作为标准答案的框)的回归量,Lloc表示平滑绝对损失函数(Smooth L1 loss),将RPN所得到的多个待检测框的一部分视为正样本,另一部分视为负样本。
其中,N表示样本的数量,pi表示第i个样本的类别,ci表示GT标签。
步骤S730:对多个待检测框分别进行非极大值抑制处理,得到目标检测框。
而后,对多个待检测框经过非极大值抑制(NMS)后保留相对可靠的建议框,即得到目标检测框,该目标检测框对应在图像中所圈出的区域为针对该图像进行检索的目标区域,即该目标区域为图像处理的感兴趣区域,在进行图像处理后,所得到的图像特征为该感兴趣区域的特征信息,在进行图像应用时,也是基于该感兴趣区域进行图像的应用,如图像检索所得到的目标图像与图像的目标区域的内容相似或相同类别。
步骤S750:将目标检测框在特征图中对应的特征区域作为图像检测区域对应的特征区域。
然后将目标检测框在特征图中对应的特征区域作为图像检测区域对应的特征区域,并将该特征区域内的特征,输入至骨干网络中的下一层,进行相应处理,当然,在特征区域进入下一层之前,可先利用ROI-Align((ROI Align是在一种区域特征聚集方式,很好地解决了ROI Pooling感兴趣区域池化操作中两次量化造成的区域不匹配问题))将特征区域池化为1024*14*14维度,以解决区域不匹配问题,从而提高图像的目标区域特征提取的准确性。
如图4中,骨干网络包括n+1层网络层,每个网络层包括特征提取层和傅里叶变换层,第n层输出的特征图到达RPN进行区域网络建议处理,得到目标检测框,以此,通过第n层输出的特征图和目标检测框可确定图像检测区域对应的特征区域,该图像检测区域对应的特征区域到达第n+1层继续进行相应的处理,后续该图像检测区域对应的特征区域和第n+1层的输出共同输入至特征生成网络进行相应的处理。
当然,图4中示出了在获取图像检测区域对应的特征区域后仅通过一层网络层结构,在其他实施例中,第n层后可连接多个网络层,即图像检测区域对应的特征区域可通过多个网络层继续进行相应处理,直到最后一层的输出和图像检测区域对应的特征区域共同输入至特征生成网络。
本实施例中,引入待检测框,以此准确定位图像中的感兴趣的目标区域,减少图像中个性化创作的影响,提高表征图像信息的图像特征的准确率,提高后续图像应用的精确度。
图8是基于图3的实施例所示出的另一种图像处理方法的流程图,在一示例性实施例中,图3中的步骤S350对图像检测区域对应的特征区域进行特征池化处理,得到图像的图像特征的过程可以包括步骤S810至步骤S830,详细介绍如下:
步骤S810:对图像检测区域对应的特征区域进行复数域变换,得到高维特征图。
本实施例中,在得到图像检测区域对应的特征区域后,为了得到更丰富的图像目标区域的信息,还对图像检测区域对应的特征区域进行特征提取以及复数域变换处理,即还将图像检测区域对应的特征区域输入至骨干网络的至少一层结构中进行特征提取以及复数域变换处理,得到更高维的高维特征图,如将图像检测区域对应的特征区域输入至骨干网络的下一层,下一层输出2048维高维特征图。
步骤S830:分别对高维特征图以及图像检测区域对应的特征区域进行特征池化处理,得到图像的图像特征。
本实施例中,在得到高维特征图后,则可在图像处理网络中的特征生成网络中进行特征池化处理,得到图像的图像特征。
为提高图像特征的准确率,将高维特征图和图像检测区域对应的特征区域共同输入至特征生成网络中进行特征池化处理,以得到更具鉴别性的全局特征。
本实施例中,该特征生成网络所得到的图像特征可以是浮点特征,也可以是哈希特征,当是浮点特征时,则可直接对高维特征图和图像检测区域对应的特征区域进行特征池化等相关处理,如进行特征池化,而后进行全连接处理,最终得到图像特征;而当需得到哈希特征中,在对高维特征图和图像检测区域对应的特征区域进行特征池化等相关处理外,还进行哈希映射,以得到哈希特征,当然,在其他实施例中,还可以是其他属性的图像特征,此处不进行具体限制。
本实施例中,通过骨干网络中的两个网络层所输出的特征图进行图像特征提取,一个特征图为进行目标区域确定所得到的图像检测区域对应的特征区域,以此,准确的对图像中的感兴趣区域进行分析,提高获取图像特征的准确率以及效率。
图9是基于图8的实施例所示出的一种图像处理方法的流程图,在一示例性实施例中,图8中的步骤S830分别对高维特征图以及图像检测区域对应的特征区域进行特征池化处理,得到图像的图像特征的过程可以包括步骤S910至步骤S930,详细介绍如下:
步骤S910:分别对进行特征池化处理后的高维特征图以及进行特征池化处理后的图像检测区域对应的特征区域进行全连接处理,对应得到高维特征向量以及区域特征向量。
本实施例中,图像特征为浮点特征,则该特征生成网络的结构可参考图10,该特征生成网络包括浮点池化层(pooling)、全连接层(fc)以及特征融合层(concat)。
具体地,在浮点池化层中,分别对高维特征图以及图像检测区域对应的特征区域进行特征池化处理,对应得到进行特征池化处理后的高维特征图以及进行特征池化处理后的图像检测区域,该进行特征池化处理后的高维特征图以及进行特征池化处理后的图像检测区域为特征向量。
然后在全连层中,分别对进行特征池化处理后的高维特征图以及进行特征池化处理后的图像检测区域对应的特征区域进行全连接处理,对应得到高维特征向量以及区域特征向量。
步骤S930:将高维特征向量以及区域特征向量进行特征融合,得到图像特征。
最后,在特征融合层中将高维特征向量以及区域特征向量进行特征融合,得到图像特征,而后则可基于该图像特征进行图像应用,得到目标图像或是目标类别。
本实施例中,对生成浮点特征的特征生成网络的训练可使用OIM损失函数作为最后的分类损失函数,如下表示:
其中,T表示控制概率分布的温度参数,C表示类别数量,表示第i类的中心特征,ffloat为浮点特征。
本实施例中,通过提取图像的浮点特征,来表征图像的具体含义,以此,后续则可通过该浮点特征进行相似度计算,确定与浮点特征相似度高的目标图像。
图11是基于图8的实施例所示出的另一种图像处理方法的流程图,在一示例性实施例中,图8中的步骤S830分别对高维特征图以及图像检测区域对应的特征区域进行特征池化处理,得到图像的图像特征的过程可以包括步骤S1110至步骤S1150,详细介绍如下:
步骤S1110:对高维特征图以及图像检测区域对应的特征区域分别进行卷积处理,以根据得到的卷积处理结果获取实部特征和虚部特征。
本实施例中,所得到的图像特征为哈希特征,得到哈希特征的步骤可视为将高维特征图以及图像检测区域对应的特征区域进行降维,即分别映射到128维度,然后将2个128维度特征拼接后映射到指定的哈希表征维度,如64维等。
则该生成哈希特征的特征生成网络的结构可参考图12,其包括依次链接的预处理模块、复数模块、哈希池化层、幅度和相位回归层以及哈希层,在预处理模块中,得到实部特征以及虚部特征。
具体地,本实施例中在得到哈希特征时,对进入特征生成网络的数据同样进行复数域的转换,通过得到的实部特征以及虚部特征构建在复数域的特征数据。
在一实施例中,可在预处理模块中基于CDS(相关双采样)通过重新组合图像的R、G、B通道得到实部特征以及虚部特征,具体为,对图像的图像通道特征进行重新组合,得到图像的实部通道特征和图像的虚部通道特征;将高维特征图以及图像检测区域对应的特征区域中与图像的实部通道特征相对应的特征作为实部特征,并将高维特征图以及图像检测区域对应的特征区域中与图像的虚部通道特征相对应的特征作为虚部特征。
当然,该实部特征以及虚部特征可以视为高维特征图的实部特征和虚部特征,图像检测区域对应的特征区域的实部特征和虚部特征,即两者各自拥有实部特征以及虚部特征,也可将高维特征图的实部特征和图像检测区域对应的特征区域的实部特征统一视为图像的实部特征,将高维特征图的虚部特征和图像检测区域对应的特征区域的虚部特征统一视为图像的虚部特征。
在一些实施例中还可在预处理模块中设置两个1*1的卷积分别对高维特征图以及图像检测区域对应的特征区域进行处理,直接得到实部特征和虚部特征。
当然,由于是对高维特征图以及图像检测区域对应的特征区域分别进行处理,因此在得到实部特征和虚部特征后,会相应得到高维特征图的实部特征和虚部特征,并得到图像检测区域对应的特征区域的实部特征和虚部特征。
在另一些实施例中,也可将高维特征图以及图像检测区域做统一进行卷积处理,将高维特征图以及图像检测区域分别卷积得到的特征进行划分,即得到高维特征图以及图像检测区域共有的实部特征和虚部特征。
当然,以上为示例性的提出两种获取实部特征和虚部特征的方法,在其他实施例中,还可通过其他方式,得到实部特征和虚部特征,此处不进行具体限制。
不论是针对CDS所得到的实部特征以及虚部特征,还是针对两个1*1的卷积所得到的实部特征以及虚部特征,均可通过随机对CDS或1*1的卷积所得到的特征进行分类,分为实部类和虚部类,对应类别的特征即为实部特征以及虚部特征,当然,也可直接针对高维特征图以及图像检测区域对应的特征区域的卷积结果或CDS处理结果获取实部特征以及虚部特征,如将图像检测区域对应的特征区域的卷积结果或CDS处理结果作为实部特征,则将高维特征图卷积结果或CDS处理结果作为虚部征。
步骤S1130:将实部特征和虚部特征进行复数卷积操作,得到图像在复数域的特征图。
在复数模块中,对实部特征和虚部特征进行复数卷积操作,本实施例中,特征生成网络中设置有多个复数模块,通过多个复数模块进行复数卷积操作,具体地,高维特征图的实部特征和虚部特征进行复数卷积操作,并对图像检测区域对应的特征区域的实部特征和虚部特征进行复数卷积操作,相应得到高维特征图在复数域的特征图以及图像检测区域对应的特征区域在复数域的特征图。
将高维特征图在复数域的特征图以及图像检测区域对应的特征区域在复数域的特征图作为图像在复数域的特征图。
而若是将高维特征图的实部特征和图像检测区域对应的特征区域的实部特征统一视为图像的实部特征,将高维特征图的虚部特征和图像检测区域对应的特征区域的虚部特征统一视为图像的虚部特征,或是高维特征图对应的卷积或CDS结果作为实部特征,图像检测区域对应的特征区域对应的卷积或CDS结果作为虚部特征,即高维特征图和图像检测区域对应的特征区域两者仅存在一个实部特征和虚部特征,则在对实部特征和虚部特征进行池化处理时,直接对图像的虚部特征和图像的实部特征进行复数卷积操作,而不单独针对高维特征图和图像检测区域对应的特征区域的实部特征和虚部特征分别进行复数卷积操作,直接得到图像在复数域的特征图。
在一具体实施例中,复数模块的结构图可参考图13,其均包括一个复数卷积函数和一个复数激活函数(ReLU)。
具体地,将实部特征作为复数域的实部,并将虚部特征作为复数域的虚部,得到图像在复数域的信号波形,当然,如果是将高维特征图的实部特征和图像检测区域对应的特征区域,则可得到将高维特征图的实部特征在复数域的信号波形和图像检测区域对应的特征区域在复数域的信号波形。
假定图像在复数域的信号波形为f=x+jy,复数卷积参数为W=A+jB,则复数卷积函数和一个复数激活函数可表示为如下:
CConv=(A·x-B·y)+j(A·y-B·x)
CReLU=ReLU(x)+jReLU(y)
其中,CConv为复数卷积函数,CReLU为复数激活函数,x、y分别为图像在复数域的信号波形的实部和虚部,A、B分别为复数卷积参数的实部和虚部,j为虚数单位。
通过复数卷积函数以及复数激活函数对图像在复数域的信号波形进行卷积操作,得到图像在复数域的特征图。
步骤S1150:将图像在复数域的特征图转换为实数特征,得到图像特征。
本实施例中,在哈希池化层对图像在复数域的特征图进行池化处理,如图像在复数域的特征图包括高维特征图在复数域的特征图以及图像检测区域对应的特征区域在复数域的特征图,因此,可得到池化处理后的高维特征图在复数域的特征图以及池化处理后的图像检测区域对应的特征区域在复数域的特征图,即得到高维特征图在复数域的池化特征图以及图像检测区域对应的特征区域在复数域的池化特征图,将高维特征图在复数域的池化特征图以及图像检测区域对应的特征区域在复数域的池化特征图作为图像在复数域的池化特征图。
若高维特征图和图像检测区域对应的特征区域两者仅存在一个实部特征和虚部特征,则仅存在图像在复数域的特征图,可直接对该图像在复数域的特征图进行池化处理,得到图像在复数域的池化特征图。
本实施例中,图像在复数域的池化特征图应为一个信号波形图,如图5所示,可通过该图像在复数域的池化特征图到复数幅度和复数相位,具体地,将图像在复数域的池化特征图的幅度作为复数幅度,并将图像在复数域的池化特征图的相位作为复数相位。
该复数幅度和复数相位后续则到达幅度和相位回归层,进行幅度和相位回归处理(Regression)。
在一具体实施例中,幅度和相位回归层进行幅度和相位回归的示意图可参考图14,哈希算法中的二值量化操作可以等价于优化幅度到1,相位优化为0或π,将图像在复数域的特征池化图作为信号波形解耦为幅度和相位,获取复数幅度和复数相位,然后分开优化他们。
具体地,将预设的类中心特征作为标签,分别对复数幅度与复数相位进行监督回归处理,类中心特征包括对训练图像样本的特征进行正交二值化处理所得到的特征向量;将进行监督回归处理后的复数幅度与进行监督回归处理后的复数相位转换为实数,以得到图像特征。
在一实施例中,多个预设的类中心特征构建为一个可学习的哈希中心(learnablecenters)M∈RC×K,其中C和K分别表示类别数和特征维度,哈希中心矩阵M可以利用正交的二值码初始化,如伯努利或者哈达玛矩阵。
本实施例中,利用伯努利或哈达玛矩阵将训练图像样本的特征生成二值化向量,这类向量相互间保持正交关系,可将该类二值化向量可以视为类中心特征,从而可利用这些类中心特征构建哈希中心,该哈希中心中的类中心特征则作为标签用以监督训练复数幅度与复数相位。
具体地,对于哈希中心的二值化向量而言,一个K×K的哈达玛矩阵需满足以下几个条件:其一,是一个平方矩阵并且任何两行都相互正交,即/>任意两行的海明距离满足:
其二,K是2的幂次倍,即K=2n,一般来说和自定义的哈希码的维度一致,构建的每一行可作为哈希中心,当整体类别数目C<=K时,可以只将选择对应的行作为对应类别的哈希中心;当K<C<=2K时,可以用两个哈达玛矩阵联合起来得到H2K=[HK,-K]Y去构建哈希中心。
在此时,对复数幅度和复数相位进行监督回归处理所使用的损失函数可以为:
若[k]≥0则
其中,|fhash[k]|和θ[k]分别表示第k个点的复数幅度和复数相位,||·||1表示归一化,表示相位的GT,m[k]表示从哈希中心选出来对应类别的哈希码,即类中心特征。
在复数幅度和复数相位进行监督回归处理后,由于图像应用时需要实数的表征,复数的特征需要转化为实数,且由于知道进行监督回归处理后的复数幅度与进行监督回归处理后的复数相位,根据图5所示,可基于该进行监督回归处理后的复数幅度与进行监督回归处理后的复数相位获取对应的波形图。由于该监督回归处理后的波形图为复数域的波形图,因此,可得到对应的监督学习后的实部特征以及监督学习后的虚部特征监督学习后的实部特征以及监督学习后的虚部特征进行拼接,得到复数特征向量。
然后通过对复数特征向量进行全连接处理,得到可进行哈希转换的复数特征向量fout,后续则将fout输入至哈希层中,将fout映射到所需哈希码的同一维度,得到图像特征。
具体地,该fout可表示为:
其中,cat为特征拼接,分别为督学习后的实部特征以及监督学习后的虚部特征,FC为全连接处理,BN为批标准化(Batch Normalization)。
在一些实施例中,为了优化fout,可针对fout进行收敛,具体地,在fout后,哈希层之前,构建一个可学习的缓存单元V∈RC×K,并把该课学习的缓存单元作为分类器,该缓存单元中的特征数据可视为哈希中心的类中心特征进行对应实数转换过程所得到的,该实数转换过程与fout的获取过程类似,即通过类中心特征,获取对应的督学习后的实部特征以及监督学习后的虚部特征,对督学习后的实部特征以及监督学习后的虚部特征进行特征拼接、全连接处理、标准化操作等过程,得到缓存单元中的数据。
然后fout可通过基于类别的交叉熵函数进行优化,在该缓存单元中,可使用的损失函数Lce为:
其中,为缓存单元中第i个类别的数据,/>为缓存单元中的某一特征数据的转置,T为转置。
后续fout进入哈希层中,进行哈希映射,得到哈希表征,即得到哈希表征类别的图像特征。
根据以上介绍的二值化向量,即类中心特征形式,对需得到哈希表征的图像特征所对应的特征生成网络进行训练所使用的损失函数为Lhash,该Lhash也可视为对哈希表征类别对应的图像特征进行收敛的损失函数:
其中,E表示统计平均处理,fhash表示哈希表征对应的图像特征,为哈希中心中的矩阵转置,/>为哈希中心中某一类别的类中心特征所构成矩阵的转置。
本实施例中,通过设置预处理模块,将图像的实数值特征分为实部特征以及虚部特征,以此通过实部特征和虚部特征将实数特征转换为复数域的特征进行相应处理,同时在复数模块中对复数域的特征进行卷积以及语义提取,提高复数域的特征的丰富度;同时,设置幅度和相位回归层将复数域的特征所表征的信号波形分解为幅度和相位,分别对幅度和相位进行回归学习,提高哈希特征的准确率,得到能更准确表征图像含义的图像特征,从而提高图像处理效率。
在一具体实施例中,进行图像处理的图像处理网络的结构可参考图15,即包括骨干网络以及特征生成网络,特征生成网络可分为两个分支,即一个分支为生成浮点特征类别图像特征的特征生成网络,即浮点支路;另一个分支为生成哈希特征类别图像特征的特征生成网络,即哈希支路,如图3至图14所示,该图像处理网络的最终的损失函数可表示为:
L=Lreg+Lcls+Lfloat+Lhash。
本实施例中,在对图像处理网络进行训练时,由于检查到浮点支路和哈希支路如果合并到一起训练会影响各自支路的性能,因此,两个分支的特征生成网络分开进行训练优化。
除此之外,将基于骨干网络中的某层输出以及该层输出经RPN网络所得到的图像检测区域对应的特征区域,和骨干网络最后一层的输出融合在一起进入特征生成网络,以图像检测区域对应的特征区域更好的表征图像的感兴趣区域,以骨干网络最后一层的输出表征图像感兴趣区域的图像信息,从而通过特征生成网络得到更能表达图像的特征的信息,即得到精准的图像特征,从而提高以及该图像特征进行如图像检索、图像分类等应用的准确性。
在实际应用时,可选择性的使用两个分支生成对应类别的图像特征,也可同时使用两个分支,生成两种类别的图像特征,以通过该多种类别的图像特征共同进行图像的相关应用。
基于图3至图15所示出的图像处理方案以及相关图像处理网络结构,本实施例中,在ImageArtifact-s数据集上进行图像处理方案的评价,具体地,使用本实施例中得到哈希类别图像特征的图像处理网络进行图像特征提取,以及使用本实施例中得到浮点类别图像特征的图像处理网络进行图像特征提取,以基于提取的图像特征进行图像应用。
此外,还使用几个对照模型针对ImageArtifact-s数据集进行图像特征提取,以进行图像应用,为遵循哈希算法测试的标准设定,哈希类别图像特征的图像处理网络分别测试了维度为16bits(比特),32bits和64bits时的结果,得到如表1所示的结果:
表1
表1中,R1为召回指标,mAPf和mAPh分别为衡量浮点特征和哈希特征对应支路的图像处理网络在所有类别上的好坏指标,HashNet为2017年王等人提出的哈希网络结构,DSDH为2017年李等人提出的深度监督离散哈希网络结构,GreedyHash为2018年苏等人提出的快速优化准确哈希编码的网络模型,DPN为2020年李等人提出的用于精确二进制哈希码监督学习的深度极化网络,CSQ为2022年袁等人提出的中心相似度量化用于高效图像和视频检索网络结构。
由表1可知,本实施例中所提出的图像处理网络,不论是在哈希分支还是在浮点分支,得到的指标数值均比其他网络模型的指标数值更高,即本实施例中的图像处理网络在通过哈希分支或浮点分支提取图像特征的效果上均比其他网络模型的结构更优,证明本实施例中所提出的图像处理网络在图像处理领域的准确性。
此外,还对ImageArtifact-L数据集上评价图像处理网络中浮点支的效果,得到如表2所示的结果:
模型 | mAPf | R1 |
Res50-k | 29.01 | 55.64 |
DELG | 39.90 | 66.10 |
DOLG | 33.75 | 58.91 |
图像处理网络 | 53.03 | 66.92 |
表2
表2中,Res50-k为2016年何等人提出的图像识别的深度残差学习网络结构,DELG为2020年曹等人提出的统一图像搜索的深度局部和全局特征的网络结构,DOLG为2021年李等人提出的局部与全局特征深度正交融合的阶段图像处理网络结构。
本实施例中的网络处理结构,在浮点分支与其他图像处理方式不同的是,其他网络处理将局部和全局的特征进行聚合,而在浮点分支只使用了全局表征,但由表2可知,本实施例中的图像处理网络在获取浮点类别的图像特征时,具有巨大的优势,相较于其他模型,图像处理所得到的图像特征的准确率更高。
本实施例所提出的图像处理网络时一种集检测、浮点表征和哈希表征的端到端框架,通过对图像主体区域的检测去除artifact的影响,进而得到主体部分的浮点和哈希表征,满足各媒体平台多样化的需求,该网络将深度学习得到的特征视为信号波形,在复数域对波形进行优化,处理复数特征,别于现有哈希为离散化的二分类学习,而本方案对信号波形进行连续值回归学习,将以往的实数值特征转换到复数域进行处理,提高图像处理的有效性。
图16是根据一示例性实施例示出的一种图像处理装置的结构示意图。如图16所示,在一示例性实施例中,该图像处理装置包括:特征获取模块1610,配置为对图像的特征进行抽取,并对抽取的特征进行复数域变换,得到特征图;区域检测模块1630,配置为在特征图中确定图像检测区域对应的特征区域,图像检测区域为针对图像进行处理的目标区域;图像特征获取模块1650,配置为对图像检测区域对应的特征区域进行特征池化处理,得到图像的图像特征。
本实施例中的图像处理装置可准确获取的表征图像信息的图像表征,图像处理效率高。
在一实施例中,特征获取模块包括:复数特征获取单元,配置为将抽取得到的特征作为信号波形,基于傅里叶变换将信号波形从实数空间变换至复数域,得到复数特征;特征获取单元,配置为基于复数特征进行相位扰动处理,并将进行相位扰动处理后的复数特征进行傅里叶反变换,得到特征图。
在一实施例中,复数特征为复数,特征获取单元包括:缩放子单元,配置为对信号波形的相位特征进行缩放处理;目标相位特征获取子单元,配置为将进行缩放处理后的相位特征与相位特征进行相加,得到目标相位特征;特征获取子单元,配置为基于目标相位特征进行傅里叶反变换,得到特征图。
在一实施例中,区域检测模块包括:待检测框获取单元,配置为基于特征图生成多个待检测框;目标检测框获取单元,配置为对多个待检测框分别进行非极大值抑制处理,得到目标检测框;区域检测单元,配置为将目标检测框在特征图中对应的特征区域作为图像检测区域对应的特征区域。
在一实施例中,图像特征获取模块包括:高维特征获取单元,配置为对图像检测区域对应的特征区域进行复数域变换,得到高维特征图;图像特征获取单元,配置为分别对高维特征图以及图像检测区域对应的特征区域进行特征池化处理,得到图像的图像特征。
在一实施例中,图像特征获取单元包括:特征向量获取子单元,配置为分别对进行特征池化处理后的高维特征图以及进行特征池化处理后的图像检测区域对应的特征区域进行全连接处理,对应得到高维特征向量以及区域特征向量;第一图像特征获取子单元,配置为将高维特征向量以及区域特征向量进行特征融合,得到图像特征。
在一实施例中,图像特征获取单元包括:复数特征获取子单元,配置为对高维特征图以及图像检测区域对应的特征区域分别进行卷积处理,以根据得到的卷积处理结果获取实部特征和虚部特征;第二复数域的特征图获取子单元,配置为将实部特征和虚部特征进行复数卷积操作,得到图像在复数域的特征图;第二图像特征获取子单元,配置为将图像在复数域的特征图转换为实数特征,得到图像特征。
在一实施例中,图像特征获取单元包括:通道特征获取子单元,配置为对图像的图像通道特征进行重新组合,得到图像的实部通道特征和图像的虚部通道特征;通道复数特征获取子单元,配置为将高维特征图以及图像检测区域对应的特征区域中与图像的实部通道特征相对应的特征作为实部特征,并将高维特征图以及图像检测区域对应的特征区域中与图像的虚部通道特征相对应的特征作为虚部特征;第三复数域的特征图获取子单元,配置为将实部特征和虚部特征进行复数卷积操作,得到图像在复数域的特征图;第三图像特征获取子单元,配置为将图像在复数域的特征图转换为实数特征,得到图像特征。
在一实施例中,第三复数域的特征图获取子单元以及第二复数域的特征图获取子单元均包括:复数域的信号波形获取板块,配置为将实部特征作为复数域的实部,并将虚部特征作为复数域的虚部,得到图像在复数域的信号波形;复数域的特征图获取板块,配置为对图像在复数域的信号波形进行卷积操作,得到图像在复数域的特征图。
在一实施例中,第三图像特征获取子单元以及第二图像特征获取子单元均包括:特征池化板块,配置为对图像在复数域的特征图进行池化处理,得到图像在复数域的池化特征图;复数参数获取板块,配置为基于图像在复数域的池化特征图,获取复数幅度和复数相位;特征向量获取板块,配置为将预设的类中心特征作为标签,分别对复数幅度与复数相位进行监督回归处理,类中心特征包括对训练图像样本的特征进行正交二值化处理所得到的特征向量;图像特征获取板块,配置为将进行监督回归处理后的复数幅度与进行监督回归处理后的复数相位转换为实数,以得到图像特征。
在一实施例中,图像特征获取板块包括:监督学习子板块,配置为基于进行监督回归处理后的复数幅度与进行监督回归处理后的复数相位所构建的波形图,获取监督学习后的实部特征以及监督学习后的虚部特征;获取子板块,配置为对督学习后的实部特征以及监督学习后的虚部特征进行拼接,得到复数特征向量;图像特征获取子板块,配置为对复数特征向量进行全连接处理,得到图像特征。
在一实施例中,图像在复数域的特征向量包括波形图;复数参数获取板块包括:复数参数获取子板块,配置为将图像在复数域的池化特征图的幅度作为复数幅度,并将图像在复数域的池化特征图的相位作为复数相位。
需要说明的是,上述实施例所提供的图像处理装置与上述实施例所提供的图像处理方法属于同一构思,其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。
本申请的实施例还提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得电子设备实现上述各个实施例中提供的图像处理方法。
图17示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图17示出的电子设备的计算机系统1100仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图17所示,计算机系统1100包括中央处理单元(Central Processing Unit,CPU)1101,其可以根据存储在只读存储器(Read-Only Memory,ROM)1102中的程序或者从存储部分1108加载到随机访问存储器(Random Access Memory,RAM)1103中的程序而执行各种适当的动作和处理,例如执行上述实施例中的方法。在RAM 1103中,还存储有系统操作所需的各种程序和数据。CPU 1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(Input/Output,I/O)接口1105也连接至总线1104。
以下部件连接至I/O接口1105:包括键盘、鼠标等的输入部分1106;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1107;包括硬盘等的存储部分1108;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1110上,以便于从其上读出的计算机程序根据需要被安装入存储部分1108。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分1109从网络上被下载和安装,和/或从可拆卸介质1111被安装。在该计算机程序被中央处理单元(CPU)1101执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
本申请的另一方面还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前的图像处理方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中。
本申请的另一方面还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各个实施例中提供的图像处理方法。
上述内容,仅为本申请的较佳示例性实施例,并非用于限制本申请的实施方案,本领域普通技术人员根据本申请的主要构思和精神,可以十分方便地进行相应的变通或修改,故本申请的保护范围应以权利要求书所要求的保护范围为准。
Claims (16)
1.一种图像处理方法,其特征在于,包括:
对图像的特征进行抽取,并对抽取的特征进行复数域变换,得到特征图;
在所述特征图中确定图像检测区域对应的特征区域,所述图像检测区域为针对所述图像进行处理的目标区域;
对所述图像检测区域对应的特征区域进行特征池化处理,得到所述图像的图像特征。
2.根据权利要求1所述的方法,其特征在于,所述对图像的特征进行抽取,并对抽取的特征进行复数域变换,得到特征图,包括:
将抽取得到的特征作为信号波形,基于傅里叶变换将所述信号波形从实数空间变换至复数域,得到复数特征;
基于所述复数特征进行相位扰动处理,并将进行相位扰动处理后的复数特征进行傅里叶反变换,得到所述特征图。
3.根据权利要求2所述的方法,其特征在于,所述复数特征为复数,所述复数特征包括相位特征;所述基于所述复数特征进行相位扰动处理,并将进行相位扰动处理的复数特征进行傅里叶反变换,得到所述特征图,包括:
对所述信号波形的相位特征进行缩放处理;
将进行缩放处理后的相位特征与所述相位特征进行相加,得到目标相位特征;
基于所述目标相位特征进行傅里叶反变换,得到所述特征图。
4.根据权利要求1所述的方法,其特征在于,所述在所述特征图中确定图像检测区域对应的特征区域,包括:
基于所述特征图生成多个待检测框;
对所述多个待检测框分别进行非极大值抑制处理,得到目标检测框;
将所述目标检测框在所述特征图中对应的特征区域作为所述图像检测区域对应的特征区域。
5.根据权利要求1所述的方法,其特征在于,所述对所述图像检测区域对应的特征区域进行特征池化处理,得到所述图像的图像特征,包括:
对所述图像检测区域对应的特征区域进行复数域变换,得到高维特征图;
分别对所述高维特征图以及所述图像检测区域对应的特征区域进行特征池化处理,得到所述图像的图像特征。
6.根据权利要求5所述的方法,其特征在于,所述分别对所述高维特征图以及所述图像检测区域对应的特征区域进行特征池化处理,得到所述图像的图像特征,包括:
分别对进行特征池化处理后的高维特征图以及进行特征池化处理后的图像检测区域对应的特征区域进行全连接处理,对应得到高维特征向量以及区域特征向量;
将所述高维特征向量以及所述区域特征向量进行特征融合,得到所述图像特征。
7.根据权利要求5所述的方法,其特征在于,所述分别对所述高维特征图以及所述图像检测区域对应的特征区域进行特征池化处理,得到所述图像的图像特征,包括:
对所述高维特征图以及所述图像检测区域对应的特征区域分别进行卷积处理,以根据得到的卷积处理结果获取实部特征和虚部特征;
将所述实部特征和所述虚部特征进行复数卷积操作,得到所述图像在复数域的特征图;
将所述图像在复数域的特征图转换为实数特征,得到所述图像特征。
8.根据权利要求5所述的方法,其特征在于,所述分别对所述高维特征图以及所述图像检测区域对应的特征区域进行特征池化处理,得到所述图像的图像特征,包括:
对所述图像的图像通道特征进行重新组合,得到所述图像的实部通道特征和所述图像的虚部通道特征;
将所述高维特征图以及所述图像检测区域对应的特征区域中与所述图像的实部通道特征相对应的特征作为实部特征,并将所述高维特征图以及所述图像检测区域对应的特征区域中与所述图像的虚部通道特征相对应的特征作为虚部特征;
将所述实部特征和所述虚部特征进行复数卷积操作,得到所述图像在复数域的特征图;
将所述图像在复数域的特征图转换为实数特征,得到所述图像特征。
9.根据权利要求7或8所述的方法,其特征在于,所述将所述实部特征和所述虚部特征进行复数卷积操作,得到所述图像在复数域的特征图,包括:
将所述实部特征作为复数域的实部,并将所述虚部特征作为复数域的虚部,得到所述图像在复数域的信号波形;
对所述图像在复数域的信号波形进行卷积操作,得到所述图像在复数域的特征图。
10.根据权利要求7或8所述的方法,其特征在于,所述将所述图像在复数域的特征图转换为实数特征,得到所述图像特征,包括:
对所述图像在复数域的特征图进行池化处理,得到所述图像在复数域的池化特征图;
基于所述图像在复数域的池化特征图,获取复数幅度和复数相位;
将预设的类中心特征作为标签,分别对所述复数幅度与复数相位进行监督回归处理,所述类中心特征包括对训练图像样本的特征进行正交二值化处理所得到的特征向量;
将进行监督回归处理后的复数幅度与进行监督回归处理后的复数相位转换为实数,以得到所述图像特征。
11.根据权利要求10所述的方法,其特征在于,所述将所述监督回归处理后的复数幅度与目标复数相位转换为实数,得到所述图像特征,包括:
基于所述进行监督回归处理后的复数幅度与所述进行监督回归处理后的复数相位所构建的波形图,获取监督学习后的实部特征以及监督学习后的虚部特征;
对所述督学习后的实部特征以及监督学习后的虚部特征进行拼接,得到复数特征向量;
对所述复数特征向量进行全连接处理,得到所述图像特征。
12.根据权利要求10所述的方法,其特征在于,所述图像在复数域的特征向量包括波形图;所述基于所述图像在复数域的特征池化特征图,获取复数幅度和复数相位,包括:
将所述图像在复数域的池化特征图的幅度作为所述复数幅度,并将所述图像在复数域的池化特征图的相位作为复数相位。
13.一种图像处理装置,其特征在于,包括:
特征获取模块,配置为对图像的特征进行抽取,并对抽取的特征进行复数域变换,得到特征图;
区域检测模块,配置为在所述特征图中确定图像检测区域对应的特征区域,所述图像检测区域为针对所述图像进行处理的目标区域;
图像特征获取模块,配置为对所述图像检测区域对应的特征区域进行特征池化处理,得到所述图像的图像特征。
14.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个计算机程序,当所述一个或多个计算机程序被所述一个或多个处理器执行时,使得所述电子设备实现如权利要求1至12中的任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1至12中的任一项所述的方法。
16.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310288239.2A CN116958585A (zh) | 2023-03-15 | 2023-03-15 | 图像处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310288239.2A CN116958585A (zh) | 2023-03-15 | 2023-03-15 | 图像处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116958585A true CN116958585A (zh) | 2023-10-27 |
Family
ID=88457104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310288239.2A Pending CN116958585A (zh) | 2023-03-15 | 2023-03-15 | 图像处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116958585A (zh) |
-
2023
- 2023-03-15 CN CN202310288239.2A patent/CN116958585A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444340B (zh) | 文本分类方法、装置、设备及存储介质 | |
CN108694225B (zh) | 一种图像搜索方法、特征向量的生成方法、装置及电子设备 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN111046275B (zh) | 基于人工智能的用户标签确定方法及装置、存储介质 | |
CN116795973B (zh) | 基于人工智能的文本处理方法及装置、电子设备、介质 | |
CN111582409A (zh) | 图像标签分类网络的训练方法、图像标签分类方法及设备 | |
US11948078B2 (en) | Joint representation learning from images and text | |
CN112395487A (zh) | 信息推荐方法、装置、计算机可读存储介质及电子设备 | |
CN116662488A (zh) | 业务文档检索方法、装置、设备及存储介质 | |
CN111930981A (zh) | 一种草图检索的数据处理方法 | |
CN113392191B (zh) | 一种基于多维度语义联合学习的文本匹配方法和装置 | |
CN114330483A (zh) | 数据处理方法及模型训练方法、装置、设备、存储介质 | |
CN112348001A (zh) | 表情识别模型的训练方法、识别方法、装置、设备及介质 | |
CN117033626A (zh) | 一种文本审核方法、装置、设备及存储介质 | |
CN112861474B (zh) | 一种信息标注方法、装置、设备及计算机可读存储介质 | |
CN115759254A (zh) | 基于知识增强生成式语言模型的问答方法、系统及介质 | |
CN116958585A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN114692715A (zh) | 一种样本标注方法及装置 | |
Luo et al. | A text detection and recognition algorithm for english teaching based on deep learning | |
CN116150428B (zh) | 视频标签获取方法、装置、电子设备及存储介质 | |
Liang et al. | AMEMD-FSL: fuse attention mechanism and earth mover’s distance metric network to deep learning for few-shot image recognition | |
CN117711001B (zh) | 图像处理方法、装置、设备和介质 | |
CN117272937B (zh) | 文本编码模型训练方法、装置、设备及存储介质 | |
US20240185629A1 (en) | Method, electronic device and computer program product for data processing | |
Zhang et al. | Visual retrieval of digital media image features based on active noise control |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |