CN116681957A - 一种基于人工智能的图像识别方法及计算机设备 - Google Patents
一种基于人工智能的图像识别方法及计算机设备 Download PDFInfo
- Publication number
- CN116681957A CN116681957A CN202310969603.1A CN202310969603A CN116681957A CN 116681957 A CN116681957 A CN 116681957A CN 202310969603 A CN202310969603 A CN 202310969603A CN 116681957 A CN116681957 A CN 116681957A
- Authority
- CN
- China
- Prior art keywords
- image
- target
- vector
- preset
- target image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 18
- 239000013598 vector Substances 0.000 claims abstract description 301
- 238000001514 detection method Methods 0.000 claims abstract description 111
- 238000012545 processing Methods 0.000 claims abstract description 45
- 230000000875 corresponding effect Effects 0.000 claims description 182
- 238000013507 mapping Methods 0.000 claims description 139
- 238000000605 extraction Methods 0.000 claims description 103
- 238000012512 characterization method Methods 0.000 claims description 75
- 238000013528 artificial neural network Methods 0.000 claims description 69
- 230000006870 function Effects 0.000 claims description 49
- 238000005259 measurement Methods 0.000 claims description 27
- 230000015654 memory Effects 0.000 claims description 26
- 238000001914 filtration Methods 0.000 claims description 19
- 238000005065 mining Methods 0.000 claims description 19
- 238000006243 chemical reaction Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 16
- 230000011218 segmentation Effects 0.000 claims description 15
- 230000006978 adaptation Effects 0.000 claims description 5
- 230000002596 correlated effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 8
- 230000005291 magnetic effect Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000032683 aging Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- KLDZYURQCUYZBL-UHFFFAOYSA-N 2-[3-[(2-hydroxyphenyl)methylideneamino]propyliminomethyl]phenol Chemical compound OC1=CC=CC=C1C=NCCCN=CC1=CC=CC=C1O KLDZYURQCUYZBL-UHFFFAOYSA-N 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 1
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000005294 ferromagnetic effect Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明实施例提供了一种基于人工智能的图像识别方法以及计算机设备,在提取目标图像对应的识别对象时,先对目标图像进行目标检测处理,基于目标检测处理得到的第一检测结果确定是否包含预设目标对象类型,以判断是否再继续对目标图像进行处理,如果确定目标图像没有预设目标对象类型时,不再进行识别对象的确定,缓解硬件计算开销。如果检测到目标图像包含预设目标对象类型时,获取目标图像对应的图像区块语义表征向量,以精准表征每一对象在所在图像区块环境区块的语义,帮助基于图像区块语义表征向量精确地识别得到目标图像中包括的目标对象,帮助分割得到的目标对象的可靠度。
Description
技术领域
本申请涉及但不限于人工智能、图像处理技术领域,尤其涉及一种基于人工智能的图像识别方法及计算机设备。
背景技术
图像识别是人工智能的重要应用方向,且应用非常广泛,尤其是对象识别方面。对象识别是指通过计算机视觉技术,将图像中的物体或特定的目标识别出来并进行分类。例如在目标检测、人脸识别、图像分类、场景理解等方面,都需要借助人工智能手段对图像的对象进行识别。目前,随着数字化时代的到来,图像数据呈现爆发式增长,对于大规模数据的高效处理和存储成为挑战。同时,大规模数据也需要更强大的计算能力和算法优化,现实场景中不同类别的对象数量分布可能不均衡,某些类别的样本数量较少,这会导致神经网络算法对少数类别的识别能力较弱,容易出现误判。因此,需要一种可以节约计算消耗,高效准确的图像识别方法。
发明内容
有鉴于此,本申请实施例至少提供一种基于人工智能的图像识别方法及计算机设备,以改善上述问题。
本申请实施例的技术方案是这样实现的:
一方面,本申请实施例提供一种基于人工智能的图像识别方法,应用于计算机设备,所述方法包括:
获取目标图像;对所述目标图像进行目标检测处理,确定所述目标图像的第一检测结果;其中,所述第一检测结果用于表征所述目标图像是否包含预设目标对象类型;如果检测到所述目标图像包含预设目标对象类型,则确定所述目标图像的图像区块语义表征向量;其中,所述图像区块语义表征向量用于表征所述目标图像包括的对象在所述目标图像的图像区块环境区块中对应的图像特征信息;所述图像区块环境区块为所述目标图像中与所述对象邻接的其他对象;基于所述图像区块语义表征向量,确定所述目标图像包含的目标对象;确定所述目标对象为目标图像对应的识别对象,分割所述识别对象。
在一些实施例中,对所述目标图像进行目标检测处理,确定所述目标图像的第一检测结果,包括:
通过图像目标识别网络中的预设嵌入映射算子,对所述目标图像进行表征向量抽取操作,得到所述目标图像的图像整体语义表征向量,其中,所述图像整体语义表征向量为基于所述目标图像中包括的所有对象所得到的;通过所述图像目标识别网络中的第一预设分类映射算子,对所述图像整体语义表征向量进行检测结果映射处理,确定所述第一检测结果。
在一些实施例中,通过图像目标识别网络中的预设嵌入映射算子,对所述目标图像进行表征向量抽取操作,得到所述目标图像的图像整体语义表征向量,包括:
对所述目标图像进行矢量转换操作,得到所述目标图像对应的初始图像张量,其中,所述目标图像包含第一标记信息和第二标记信息;所述第一标记信息为所述目标图像中包括的语义分割结果的起始像素处分配的标记信息;所述第二标记信息为所述目标图像中包括的语义分割结果的结束像素处分配的标记信息;所述初始图像张量中包括所述目标图像中包括的对象的矢量表征信息、第一标记信息的矢量表征信息以及第二标记信息的矢量表征信息;将所述初始图像张量加载到所述预设嵌入映射算子中,得到所述初始图像张量中包含的矢量表征信息对应的语义表征向量;所述预设嵌入映射算子用于确定输入的矢量表征信息对应的语义表征向量;确定所述第一标记信息的矢量表征信息对应的语义表征向量为所述目标图像的图像整体语义表征向量;所述通过所述图像目标识别网络中的第一预设分类映射算子,对所述图像整体语义表征向量进行检测结果映射处理,确定所述第一检测结果,包括:
通过所述第一预设分类映射算子,对所述图像整体语义表征向量进行处理,得到第一置信度,所述第一置信度表征目标图像在包含预设目标对象类型下的置信度和目标图像在不包含预设目标对象类型下的置信度;基于所述第一置信度确定所述目标图像的第一检测结果。
在一些实施例中,所述预设嵌入映射算子用于通过联合投影内部聚焦策略对所述目标图像进行表征向量挖掘;所述确定所述目标图像的图像区块语义表征向量,包括:
通过所述图像目标识别网络中的预设线性滤波算子,对所述图像整体语义表征向量进行抽取,得到所述目标图像的图像区块语义表征向量;所述基于所述图像区块语义表征向量,确定所述目标图像包含的目标对象,包括:通过所述图像目标识别网络中的第二预设分类映射算子,对所述图像区块语义表征向量进行检测结果映射处理,得到第二检测结果;其中,所述第二检测结果中包括所述目标图像中包括的对象对应的检测结果指示信息,所述检测结果指示信息用于表征所述对象是否为目标对象;确定指示对象为目标对象的检测结果指示信息对应的对象为所述目标图像对应的目标对象。
在一些实施例中,所述方法还包括:
如果检测到所述目标图像包含预设目标对象类型,则确定预设参考对象集合中的识别对象与所述目标图像之间的图像内容共性度量结果;在所述预设参考对象集合中,确定图像内容共性度量结果大于预设结果的识别对象,为所述目标图像对应的识别对象;所述目标图像的第一检测结果为通过图像目标识别网络中的第一预设分类映射算子和所述目标图像的图像整体语义表征向量获取得到;所述图像整体语义表征向量为通过图像目标识别网络中的预设嵌入映射算子,对所述目标图像中包括的所有对象的进行表征向量抽取操作获取得到;所述确定预设参考对象集合中的识别对象与所述目标图像之间的图像内容共性度量结果,包括:
通过所述预设嵌入映射算子,对所述预设参考对象集合中的识别对象进行表征向量挖掘,得到目标对象类型表征向量;基于所述目标对象类型表征向量和所述图像整体语义表征向量,确定所述图像内容共性度量结果;所述分割所述识别对象,包括:
获取所述识别对象对应的第一提取系数、所述识别对象中的像素密度和所述目标图像的产生时刻;其中,所述第一提取系数用于表征所确定的识别对象和目标图像的协调适配程度;基于所述第一提取系数,所述识别对象中的像素密度和所述目标图像的产生时刻,确定所述识别对象对应的优先级结果;所述优先级结果用于表征所述识别对象的提取顺序;基于所述优先级结果,分割所述识别对象。
在一些实施例中,所述获取所述识别对象对应的第一提取系数,包括:
如果检测到所述识别对象为基于所述目标图像包含的目标对象得到,则基于所述识别对象中的目标对象对应的第二置信度、所述识别对象中的目标对象的个数和第一预设偏心变量,确定所述第一提取系数;所述第二置信度用于表征对象为目标对象的可能性;如果检测到所述识别对象为位于所述预设参考对象集合中,则基于所述识别对象对应的图像内容共性度量结果和第二预设偏心变量,确定所述第一提取系数;其中,所述第一预设偏心变量大于所述第二预设偏心变量;所述基于所述第一提取系数,所述识别对象中的像素密度和所述目标图像的产生时刻,确定所述识别对象对应的优先级结果,包括:
基于所述目标图像的产生时刻,确定第二提取系数;其中,所述第二提取系数和所述产生时刻正向关联;基于所述识别对象中的像素密度,确定第三提取系数,其中,所述第三提取系数和所述像素密度符合高斯分布;基于所述第一提取系数、所述第二提取系数和所述第三提取系数,确定所述识别对象对应的优先级结果。
在一些实施例中,所述图像目标识别网络的调试过程包括:
获取图像样本;其中,所述图像样本包含第一注释标记和第二注释标记,所述第一注释标记用于表征所述图像样本是否包含预设目标对象类型,所述第二注释标记用于表征所述图像样本中包括的对象是否为目标对象;基于所述图像样本,对基础神经网络进行调试,得到图像目标识别网络;其中,所述图像目标识别网络用于对目标图像进行目标检测,如果检测到所述目标图像包含预设目标对象类型,则确定所述目标图像的图像区块语义表征向量,并基于所述图像区块语义表征向量,确定所述目标图像包含的目标对象;所述图像区块语义表征向量用于表征所述目标图像包括的对象在所述目标图像的图像区块环境区块中对应的图像特征信息;所述图像区块环境区块为所述目标图像中与所述对象邻接的其他对象。
在一些实施例中,基于所述图像样本,对基础神经网络进行调试,得到图像目标识别网络,包括:
将所述图像样本加载到所述基础神经网络,得到第一调试输出信息和第二调试输出信息;其中,第一调试输出信息用于表征所述基础神经网络所确定的所述图像样本是否包含预设目标对象类型;所述第二调试输出信息用于表征所述基础神经网络所确定的所述图像样本中的对象是否为目标对象;基于所述第一调试输出信息和所述第一注释标记,确定第一误差函数;基于所述第二调试输出信息和所述第二注释标记,确定第二误差函数;基于所述第一误差函数和所述第二误差函数,对所述基础神经网络进行网络内部配置变量优化,得到所述图像目标识别网络;其中,将所述图像样本加载到所述基础神经网络,得到第一调试输出信息和第二调试输出信息,包括:
通过所述基础神经网络的基础嵌入映射算子,对所述图像样本进行表征向量抽取操作,得到所述图像样本的图像整体语义表征向量;其中,所述图像整体语义表征向量为基于所述图像样本中包括的所有对象所得到的;通过所述基础神经网络中的第一基础分类映射算子,对所述图像整体语义表征向量进行检测结果映射处理,确定所述第一调试输出信息;通过所述基础神经网络中的基础线性滤波算子,对所述图像样本的图像整体语义表征向量进行抽取,得到所述图像样本的图像区块语义表征向量;通过所述基础神经网络中的第二基础分类映射算子,对所述图像样本的图像区块语义表征向量进行检测结果映射处理,得到第二调试输出信息;其中,所述第二调试输出信息中包括所述图像样本中包括的对象对应的检测结果指示信息,所述检测结果指示信息用于表征所述对象是否为目标对象。
在一些实施例中,通过所述基础神经网络的基础嵌入映射算子,对所述图像样本进行表征向量抽取操作,得到所述图像样本的图像整体语义表征向量,包括:
对所述图像样本进行矢量转换操作,得到所述图像样本对应的样本图像张量;其中,所述图像样本包含第三标记信息和第四标记信息;所述第三标记信息为所述图像样本中包括的语义分割结果的起始像素处分配的标记信息;所述第四标记信息为所述图像样本中包括的语义分割结果的结束像素处分配的标记信息;所述样本图像张量中包括所述图像样本中包括的对象的矢量表征信息、第三标记信息的矢量表征信息以及第四标记信息的矢量表征信息;将所述样本图像张量加载到所述基础神经网络的基础嵌入映射算子中,得到所述样本图像张量中包含的矢量表征信息对应的语义表征向量;所述基础嵌入映射算子用于确定输入的矢量表征信息对应的语义表征向量;确定所述第三标记信息的矢量表征信息对应的语义表征向量为所述图像样本的图像整体语义表征向量;所述通过所述基础神经网络中的第一基础分类映射算子,对所述图像整体语义表征向量进行检测结果映射处理,确定所述第一调试输出信息,包括:
通过所述基础神经网络中的第一基础分类映射算子,对所述图像整体语义表征向量进行处理,得到第三置信度,所述第三置信度表征图像样本在包含预设目标对象类型下的置信度和图像样本在不包含预设目标对象类型下的置信度;基于所述第三置信度,确定所述图像样本的第一调试输出信息;所述基础神经网络中的基础嵌入映射算子用于通过联合投影内部聚焦策略对所述图像样本进行表征向量挖掘;所述基于所述第一误差函数和所述第二误差函数,对所述基础神经网络进行网络内部配置变量优化,得到所述图像目标识别网络,包括:
对所述第一误差函数和所述第二误差函数进行相加,得到总误差函数;基于所述总误差函数,对所述基础神经网络的网络内部配置变量进行优化,得到所述图像目标识别网络。
另一方面,本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以上所述方法中的步骤。
本申请的有益效果至少包括:
本申请实施例在提取目标图像对应的识别对象时,先对目标图像进行目标检测处理,基于目标检测处理得到的第一检测结果确定是否包含预设目标对象类型,以判断是否再继续对目标图像进行处理,如果确定目标图像没有预设目标对象类型时,不再进行识别对象的确定,缓解硬件计算开销。如果检测到目标图像包含预设目标对象类型时,获取目标图像对应的图像区块语义表征向量,以精准表征每一对象在所在图像区块环境区块的语义,帮助基于图像区块语义表征向量精确地识别得到目标图像中包括的目标对象,帮助分割得到的目标对象的可靠度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请的技术方案。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。
图1为本申请实施例提供的一种基于人工智能的图像识别方法的实现流程示意图。
图2为本申请实施例提供的一种图像识别装置的组成结构示意图。
图3为本申请实施例提供的一种计算机设备的硬件实体示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面结合附图和实施例对本申请的技术方案进一步详细阐述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。所涉及的术语“第一/第二/第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一/第二/第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请的目的,不是旨在限制本申请。
本申请实施例提供一种基于人工智能的图像识别方法,该方法可以由计算机设备的处理器执行。其中,计算机设备可以指的是服务器、笔记本电脑、平板电脑、台式计算机、智能电视、移动设备(例如移动电话、便携式视频播放器、个人数字助理、专用消息设备、便携式游戏设备)等具备数据处理能力的设备。
图1为本申请实施例提供的一种基于人工智能的图像识别方法的实现流程示意图,如图1所示,该方法包括如下步骤110至步骤150:
步骤110,获取目标图像。
本申请实施例中,目标图像为拟进行目标对象类型识别的图像,其可以是采集的目标区域的图像或从目标区域对应的监控视频中截取的视频帧;目标对象类型是一个种类的目标对象,例如在安防监测中,具有预设危险行为动作的人物、具有预设灾害情况的区域等,还可以是具有特定种类的目标,例如动物品种、交通工具种类等。换言之,本申请实施例提供的方法可以应用在多场景中,识别不同场景的目标对象,对于不同的场景和不同的需求,可以通过训练对应领域知识特征的样本图像,以得到能够识别对应目标对象的神经网络,即图像目标识别网络。本申请将在后续的内容中对该图像目标识别网络的执行原理、训练过程、简单结构进行介绍。
步骤120,对目标图像进行目标检测处理,确定目标图像的第一检测结果。
其中,第一检测结果用于表征目标图像是否包含预设目标对象类型。可以理解,第一检测结果为一个分类结果,例如是通过二分类的分类器进行分类得到的结果,即包含或不包含目标对象类型。例如,本申请实施例中的第一检测结果用于表征目标图像是否包含预设目标对象类型,即目标图像中是否包含识别对象,如果第一检测结果指示目标图像包含预设目标对象类型,那么代表目标图像中具有识别对象;如果第一检测结果指示目标图像不包含预设目标对象类型,则确定目标图像没有识别对象。
步骤130,如果检测到目标图像包含预设目标对象类型,则确定目标图像的图像区块语义表征向量。
其中,图像区块语义表征向量用于表征目标图像包括的对象在目标图像的图像区块环境区块中对应的图像特征信息,图像区块为图像的局部区域,环境区块为对应区块的周围的区域,换言之,图像区块语义表征向量用于表征上述对象在目标图像的局部的上下文区域中的图像特征。一个图像里面包含多个对象,例如多个人物、车辆、植物等图像元素,图像区块环境区块即目标图像中与对象邻接的其他对象。例如,如果检测到目标图像中存在识别对象,即目标图像包含预设目标对象类型时,可以提取目标图像对应的图像区块语义表征向量。其中,目标图像对应的图像区块语义表征向量可用于表征目标图像中的每一个对象对应的图像特征信息,同时每一对象对应的图像特征信息为通过与该对象邻接的对象,也即该对象在目标图像中对应的图像区块环境区块的特征获得。也就是说,在目标图像的图像区块语义表征向量时,每一对象都只顾及与该对象邻接的其他对象的特征,获得整个目标图像对应的图像区块语义表征向量。
步骤140,基于图像区块语义表征向量确定目标图像包含的目标对象。
例如,在得到目标图像对应的图像区块语义表征向量之后,可以基于所得到的图像区块语义表征向量,确定目标图像中包括的目标对象。
作为一种实施方式,在基于目标图像对应的图像区块语义表征向量,确定中包括的目标对象时,可以基于已知技术实现,以基于图像区块语义表征向量,确定目标图像中的对象是否为目标对象。
步骤150,确定目标对象为目标图像对应的识别对象,分割识别对象。
例如,在得到目标图像中包括的目标对象时,可以将目标对象分割出来,也即提取出来。基于上述步骤110~150,本申请实施例在提取目标图像对应的识别对象时,先对目标图像进行目标检测处理,基于目标检测处理得到的第一检测结果确定是否包含预设目标对象类型,以判断是否再继续对目标图像进行处理,如果确定目标图像没有预设目标对象类型时,不再进行识别对象的确定,缓解硬件计算开销。如果检测到目标图像包含预设目标对象类型时,获取目标图像对应的图像区块语义表征向量,以精准表征每一对象在所在图像区块环境区块的语义,帮助基于图像区块语义表征向量精确地识别得到目标图像中包括的目标对象,帮助分割得到的目标对象的可靠度。
作为另一个实施例,本申请还提供一种基于人工智能的图像识别方法,包括以下步骤:
步骤210,获取目标图像。
具体可以参考步骤110。
步骤220,通过图像目标识别网络中的预设嵌入映射算子,对目标图像进行表征向量抽取操作,得到目标图像的图像整体语义表征向量。
其中,图像整体语义表征向量为基于目标图像中包括的所有对象得到,也就是全局特征信息。例如,本申请实施例中的图像目标识别网络为调试完成的用于确定目标图像对应的识别对象的神经网络。其中,该图像目标识别网络中包括有预设嵌入映射算子,该嵌入映射算子为一个编码器(Encoder)。在获取目标图像之后,通过图像目标识别网络中的预设嵌入映射算子对目标图像进行图像整体语义表征向量的提取,本申请实施例中的图像整体语义表征向量基于目标图像中包括的所有对象学习获得,可以用于表征目标图像对应的全局语义表征向量。
作为一种实施方式,步骤220具体包括:
步骤221:对目标图像进行矢量转换操作,得到目标图像对应的初始图像张量。
其中,目标图像包含第一标记信息和第二标记信息;第一标记信息为目标图像中包括的语义分割结果的起始像素处分配的标记信息;第二标记信息为目标图像中包括的语义分割结果的结束像素处分配的标记信息;初始图像张量中包括目标图像中包括的对象的矢量表征信息、第一标记信息的矢量表征信息以及第二标记信息的矢量表征信息。
例如,本申请实施例中,提取目标图像对应的图像整体语义表征向量时,先对目标图像进行矢量转换操作,也就是将目标图像中的像素对象转换成矢量,以便计算机设备能够识别目标图像对应的信息,矢量转换的方式可以是one-hot编码。在对目标图像进行矢量转换操作时,对目标图像中包括的对象进行矢量转换操作,得到对象对应的矢量表征信息,且对目标图像中的起始像素处设置的第一标记信息,以及目标图像中的结束像素处设置的第二标记信息进行矢量转换操作,得到第一标记信息对应的矢量表征信息和第二标记信息对应的矢量表征信息,如此获得目标图像对应的初始图像张量。
例如,在获取到目标图像时,会对目标图像进行图像分割,得到目标图像中包括的对象。然后对目标图像中包括的对象的起始像素和结束像素进行标记信息分配,标记信息的形式可以是任意的数值。
步骤222,将初始图像张量加载到预设嵌入映射算子中,得到初始图像张量中包含的矢量表征信息对应的语义表征向量。
预设嵌入映射算子用于确定输入的矢量表征信息对应的语义表征向量。例如,在得到初始图像张量之后,将初始图像张量加载到预设嵌入映射算子中,得到预设嵌入映射算子输出的初始图像张量中各矢量表征信息对应的语义表征向量。换言之,初始图像张量中包括的每一矢量表征信息在经预设嵌入映射算子处理后得到阈值一一映射的语义表征向量。
步骤223:确定第一标记信息的矢量表征信息对应的语义表征向量为目标图像的图像整体语义表征向量。
例如,将第一标记信息的矢量表征信息对应的语义表征向量作为目标图像的图像整体语义表征向量,以确定目标图像的第一检测结果。可以理解的是,本申请实施例中,通过对目标图像进行矢量转换操作,确定目标图像对应的初始图像张量,计算机设备能准确检测目标图像对应的对象,同时提升目标图像对应的图像整体语义表征向量提取的精度。
步骤230,通过图像目标识别网络中的第一预设分类映射算子,对图像整体语义表征向量进行检测结果映射处理,确定第一检测结果。
其中,第一检测结果用于表征目标图像是否包含预设目标对象类型。例如,在获取到目标图像对应的图像整体语义表征向量时,将获得的图像整体语义表征向量加载到图像目标识别网络中包括的第一预设分类映射算子中,在第一预设分类映射算子对图像整体语义表征向量进行处理,得到目标图像对应的第一检测结果。分类映射算子可以理解成一个分类器,具有全连接(FC)结构,图像整体语义表征向量映射到一个特征向量,完成分类映射。
通过预设嵌入映射算子提取目标图像对应的图像整体语义表征向量,还可以通过图像目标识别网络中的第一预设分类映射算子与得到的图像整体语义表征向量,确定目标图像是否包含预设目标对象类型,提高了第一检测结果的精度。
作为一种实施方式,步骤230具体包括:
步骤231:通过第一预设分类映射算子,对图像整体语义表征向量进行处理,得到第一置信度,第一置信度表征目标图像在包含预设目标对象类型下的置信度和目标图像在不包含预设目标对象类型下的置信度。
步骤232:基于第一置信度,确定目标图像的第一检测结果。
例如,本申请实施例中,在第一预设分类映射算子对图像整体语义表征向量进行处理时,第一预设分类映射算子先预测目标图像在预设目标对象类型下对应的置信度和目标图像没有预设目标对象类型的置信度,即第一置信度。在得到第一置信度后,通过比较第一置信度中包括的目标图像包含预设目标对象类型的置信度和目标图像没有预设目标对象类型的置信度,进而得到目标图像的第一检测结果。本申请实施例中,第一预设分类映射算子可用于基于图像整体语义表征向量,预测目标图像在包含目标对象类型的置信度和没有目标对象类型的置信度,以通过置信度的比较,得到目标图像对应的第一检测结果。
作为一种实施方式,预设嵌入映射算子用于通过联合投影内部聚焦策略对目标图像进行表征向量挖掘。联合投影内部聚焦策略是在多个不同的投影空间中建立不同的投影信息,将输入信息进行不同的投影,得到多输出矢量后进行拼接,如此自动学习和计算输入信息对输出信息的贡献大小的策略。联合投影内部聚焦策略具体可以为多头内部注意力机制构建的策略。
例如,预设嵌入映射算子可以通过联合投影内部聚焦策略提取目标图像对应的图像整体语义表征向量,也就是在每一投影空间对应的内部注意力变量下对目标图像中的各个对象进行表征向量挖掘时,融合该目标图像中包括的所有对象的信息,得到对应注意力变量的抽取结果,然后将多个内部注意力变量对应的抽取结果进行拼接,得到预设嵌入映射算子的输出。此外,在预设嵌入映射算子中可以包括多个嵌入映射算子,每一嵌入映射算子通过前一嵌入映射算子对应的输出进行重复,将最后一嵌入映射算子的输出作为预设嵌入映射算子的输出。本申请实施例中基于联合投影内部聚焦策略对输入的目标图像进行图像整体语义表征向量的抽取,提高了获得的图像整体语义表征向量的精度。
步骤240,如果检测到目标图像包含预设目标对象类型,则通过图像目标识别网络中的预设线性滤波算子,对图像整体语义表征向量进行抽取,得到目标图像的图像区块语义表征向量。
其中,图像区块语义表征向量用于表征目标图像包括的对象在目标图像的图像区块环境区块中对应的图像特征信息;图像区块环境区块为目标图像中与对象邻接的其他对象。线性滤波算子可以为卷积矩阵构建的卷积网络单元。
例如,本申请实施例中,当确定出目标图像包含预设目标对象类型需要进行图像区块语义表征向量提取时,依据将得到的图像整体语义表征向量加载到调试完成的图像目标识别网络中包括的预设线性滤波算子,以通过预设线性滤波算子,对图像整体语义表征向量进行处理,确定得到目标图像对应的图像区块语义表征向量。此外,在基于图像整体语义表征向量确定图像区块语义表征向量时,可基于预设线性滤波算子结合对象的临接对象对应的图像整体语义表征向量进行线性滤波,得到目标图像对应的图像区块语义表征向量。本申请实施例中,在图像目标识别网络中设置预设线性滤波算子,以通过得到的图像整体语义表征向量,确定目标图像对应的图像区块语义表征向量,提高了确定的目标对象的精度。
步骤250,通过图像目标识别网络中的第二预设分类映射算子,对图像区块语义表征向量进行检测结果映射处理,得到第二检测结果。
其中,第二检测结果中包括目标图像中包括的对象对应的检测结果指示信息,检测结果指示信息用于表征对象是否为目标对象。例如,本申请实施例中,调试完成的图像目标识别网络还包括第二预设分类映射算子,第二预设分类映射算子接收目标图像对应的图像区块语义表征向量,对目标图像对应的图像区块语义表征向量进行检测结果映射处理,得到目标图像中包括的每一对象对应的检测结果指示信息的值。其中,检测结果指示信息用于表征其对应的对象是否为目标对象。例如,当检测结果指示信息为1时,代表该对象为目标对象,同时为该目标图像中的第一个目标对象;检测结果指示信息为2时,代表该对象为目标对象,同时为该目标图像中的其他目标对象;检测结果指示信息为0时,代表该对象不是目标对象。
步骤260,确定指示对象为目标对象的检测结果指示信息对应的对象,为目标图像对应的目标对象。
例如,在得到目标图像中各个对象对应的检测结果指示信息之后,将指示对象为目标对象的检测结果指示信息对应的对象作为该目标图像对应的识别对象。
本申请实施例中,可以通过图像目标识别网络中的第二预设分类映射算子,以及结合标记在目标图像中提取目标对象,以确定得到目标图像对应的识别对象。
步骤270,确定目标对象为目标图像对应的识别对象,分割识别对象。
本申请实施例中,采用预设嵌入映射算子提取目标图像对应的图像整体语义表征向量,同时通过图像目标识别网络中的第一预设分类映射算子与得到的图像整体语义表征向量,确定目标图像是否包含预设目标对象类型,提升了获得的第一检测结果的精度。此外,通过对目标图像进行矢量转换操作,确定目标图像对应的初始图像张量,计算机设备可以准确识别目标图像对应的对象,提高了目标图像对应的图像整体语义表征向量提取的精度。图像目标识别网络还包含第一预设分类映射算子,用于基于图像整体语义表征向量预测目标图像在包含目标对象类型下的置信度和没有语义信息的置信度,基于此,采用置信度比较,得到目标图像对应的第一检测结果。
本申请实施例中,图像目标识别网络具体可以包括由多个编码器构成的预设嵌入映射算子、第一预设分类映射算子、预设线性滤波算子和第二预设分类映射算子。其中,预设嵌入映射算子用于提取目标图像对应的图像整体语义表征向量;第一预设分类映射算子用于通过所得到的图像整体语义表征向量,确定目标图像是否包含预设目标对象类型。预设线性滤波算子用于在确定目标图像包含预设目标对象类型后通过得到的图像整体语义表征向量确定目标图像的图像区块语义表征向量。第二预设分类映射算子用于通过所得到的图像区块语义表征向量,确定目标图像中包括的目标对象。
在又一种实施例中,本申请提供的基于人工智能的图像识别方法可以包括以下步骤:
步骤310,获取目标图像。
步骤320,对目标图像进行目标检测处理,确定目标图像的第一检测结果。
其中,第一检测结果用于表征目标图像是否包含预设目标对象类型。
步骤330,如果检测到目标图像包含预设目标对象类型,则确定预设参考对象集合中的识别对象与目标图像之间的图像内容共性度量结果。
例如,本申请实施例中,在确定目标图像包含预设目标对象类型时,那么代表此时目标图像中包含识别对象,为获取和目标图像相关的其余识别对象,在预设参考对象集合中进行选取。其中,预设参考对象集合中预设一个或多个识别对象。在预设参考对象集合中确定与目标图像相关的识别对象时,确定预设参考对象集合中的识别对象和目标图像之间的图像内容共性度量结果,也就是分别对应的语义表征向量之间的相似情况。作为一种实施方式,如果目标图像的第一检测结果为通过图像目标识别网络中的第一预设分类映射算子和目标图像的图像整体语义表征向量得到;图像整体语义表征向量为通过图像目标识别网络中的预设嵌入映射算子,对目标图像中包括的所有对象的进行表征向量抽取操作得到,那么步骤330中确定预设参考对象集合中的识别对象与目标图像之间的图像内容共性度量结果,可以包括:
步骤331,通过预设嵌入映射算子,对预设参考对象集合中的识别对象进行表征向量挖掘,得到目标对象类型表征向量。
步骤332,基于目标对象类型表征向量和图像整体语义表征向量,确定图像内容共性度量结果。
例如,本申请实施例中,如果步骤320在确定第一检测结果时,为通过图像目标识别网络中包括的预设嵌入映射算子进行目标图像的图像整体语义表征向量信息提取后,又通过图像目标识别网络中的第一预设分类映射算子进行检测结果映射得到,那么在确定预设参考对象集合中的识别对象和目标图像的图像内容共性度量结果时,可基于图像目标识别网络中调试完成的预设嵌入映射算子对预设参考对象集合中的识别对象,进行表征向量抽取操作,得到预设参考对象集合中的识别对象对应的目标对象类型表征向量;然后在将预设参考对象集合中的识别对象对应的目标对象类型表征向量和目标图像对应的图像整体语义表征向量进行相似性分析,得到图像内容共性度量结果。作为一种实施方式,在确定图像内容共性度量结果时,可以基于距离计算方法(例如欧式距离、余弦距离)来确定目标对象类型表征向量和图像整体语义表征向量二者之间的图像内容共性度量结果。
本申请实施例中,依据图像目标识别网络中的预设嵌入映射算子对预设参考对象集合中的识别对象进行表征向量挖掘,能提高图像目标识别网络的神经网络的使用效果,不用在采用其他表征向量挖掘网络进行识别对象的表征向量挖掘,如此缓解计算机设备中的神经网络的计算资源消耗。
步骤340,在预设参考对象集合中,确定图像内容共性度量结果大于预设结果的识别对象,为目标图像对应的识别对象。
例如,在得到目标图像与预设参考对象集合中的识别对象之间的图像内容共性度量结果后,将图像内容共性度量结果大于预设结果的预设参考对象集合中的识别对象作为目标图像对应的识别对象。本申请实施例中,通过将目标图像和预设参考对象集合中的识别对象进行图像内容共性度量结果确定的处理,可以帮助在预设参考对象集合中择取与目标图像对应的图像内容共性度量结果较高的识别对象,提高获取目标图像的识别对象的召回率。
步骤350,确定目标图像的图像区块语义表征向量;其中,图像区块语义表征向量用于表征目标图像包括的对象在目标图像的图像区块环境区块中对应的图像特征信息;图像区块环境区块为目标图像中与对象邻接的其他对象。
步骤360,基于图像区块语义表征向量,确定目标图像包含的目标对象;并确定目标对象为目标图像对应的识别对象。
步骤370,获取识别对象对应的第一提取系数、识别对象中的像素密度和目标图像的产生时刻。
其中,第一提取系数用于表征所确定的识别对象和目标图像的协调适配程度,提取系数越高,协调适配程度越高,越适合被提取。
例如,本申请实施例中,当基于预设参考对象集合和对目标图像对应的目标对象的提取,获得多个目标图像对应的识别对象时,可以对多个识别对象进行优先级确定,按照优先级进行识别对象的分割。在对多个识别对象进行优先级确定的过程中,可以先确定目标图像对应的识别对象对应的第一提取系数、识别对象中包括的像素的像素密度和目标图像对应的产生时刻。其中,第一提取系数可以用于表征获取到的识别对象和目标图像的协调适配程度,即获取到的识别对象能精确反应目标图像的预设目标对象类型的程度,目标图像的产生时刻为采集该目标图像的时刻。作为一种实施方式,识别对象对应的第一提取系数可以基于识别对象的获取源进行确定,比如当识别对象为通过目标图像中的目标对象分割得到时,对应的第一提取系数大于基于预设参考对象集合获取的识别对象的第一提取系数。
作为一种实施方式,步骤370中,获取识别对象对应的第一提取系数,包括:
步骤371,如果检测到识别对象为基于目标图像包含的目标对象所得到的,则基于识别对象中的目标对象对应的第二置信度、识别对象中的目标对象的个数和第一预设偏心变量,确定第一提取系数;第二置信度用于表征对象为目标对象的可能性。
步骤372,如果检测到识别对象为位于预设参考对象集合中,则基于识别对象对应的图像内容共性度量结果和第二预设偏心变量,确定第一提取系数。其中,第一预设偏心变量大于第二预设偏心变量。偏心变量为参与加权计算时的权值,可以调节对应数据的数值。
例如,本申请实施例中在获取第一提取系数时,先确定目标图像对应的识别对象的获取源,如果检测到识别对象是基于目标图像确定的目标对象得到,则基于在确定目标对象时得到的第二置信度、识别对象中包括的目标对象的个数和第一预设偏心变量确定第一提取系数。其中,第二置信度用于表示目标图像中的各个对象为目标对象的可能性。
例如,基于第一偏心变量、识别对象中的目标对象的个数以及第二置信度,确定第一提取系数时,将识别对象中包括的各个目标对象对应被确定为目标对象的置信度进行相加,再基于目标对象的个数对相加值进行均值计算,得到均值结果,再将均值结果和第一偏心变量进行加权(均值结果乘以第一偏心变量)得到第一提取系数。如果检测到识别对象为预设参考对象集合中的识别对象,即为基于预设参考对象集合中包括的识别对象得到的,则结合确定的识别对象和目标图像间的图像内容共性度量结果和第二预设偏心变量,确定第一提取系数,也就是将第二预设偏心变量和图像内容共性度量结果的积确定为第一提取系数。其中,第一预设偏心变量大于第二预设偏心变量,相较于通过预设参考对象集合得到的识别对象,基于目标图像中包括的目标对象生成的识别对象与目标图像的相关性更强。
本申请实施例中,结合识别对象的获取源以及被确定为目标图像对应的识别对象时对应的图像内容共性度量结果或者第二置信度,预设的第一预设偏心变量或者第二偏心变量,如此确定识别对象对应的第一提取系数,令获得的优先级信息和目标图像之间的相关性更强,分割得到更吻合目标图像的预设目标对象类型的识别对象。
步骤380,基于第一提取系数,识别对象中的像素密度和目标图像的产生时刻,确定识别对象对应的优先级结果。
上述优先级结果用于表征识别对象的提取顺序,优先级越高,越先被提取。
例如,在获得第一提取系数,结合识别对象中的像素密度和目标图像的产生时刻,确定识别对象对应的优先级结果,其中,识别对象对应的优先级结果用于表征该识别对象的提取顺序,也就是从以上对象的像素密度表现出的识别对象的图像核心情况,目标图像的产生时刻所表现的识别对象的时效情况和第一提取系数表现的识别对象和目标图像的相关度,对识别对象进行评价分析,得到识别对象的优先级结果。
作为一种实施方式,在基于第一提取系数、像素密度和产生时刻,确定优先级结果时,也可以基于调试完成的评价网络,将第一提取系数、像素密度和产生时刻作为评价网络的输入数据,输出优先级结果。
作为一种实施方式,步骤380包括:
步骤381,基于目标图像的产生时刻,确定第二提取系数。
其中,第二提取系数和产生时刻正向关联。
步骤382,基于识别对象中的像素密度,确定第三提取系数。
其中,第三提取系数和像素密度符合高斯分布。
步骤383,基于第一提取系数、第二提取系数和第三提取系数,确定识别对象对应的优先级结果。
例如,本申请实施例中,在确定优先级结果时,基于目标图像的产生时刻和第二提取系数之间的正关联关系,确定第二提取系数的数值。目标图像对应的产生时刻和当前时刻月近,时效越好,对应的第二提取系数的数值越大,还可以基于像素密度和第三提取系数之间的对应关系,确定第三提取系数的值,第三提取系数和像素密度符合高斯分布,也就是说,如果像素密度小于预设值,像素密度越大,第三提取系数越大,如果像素密度大于预设值,像素密度越大,第三提取系数越小。如果识别对象中包括的像素密度较少,识别对象可能精度不够,但是如果识别对象中包括的像素密度太多,识别对象又可能包括噪音,可以将第三提取系数和像素密度之间的关系按照高斯分布进行对应。
获得第一提取系数、第二提取系数以及第三提取系数后,基于这三个提取系数,确定识别对象对应的优先级结果。比如对第一提取系数、第二提取系数以及第三提取系数进行加权求和,得到优先级结果。
按照以上方式,能结合不同维度的提取系数对识别对象的提取顺序进行分析,获得更精准的识别对象。
步骤390,基于优先级结果分割识别对象。
例如,获得优先级结果后,基于优先级结果对应的大小,对识别对象进行分割,例如优先级结果越大,识别对象的分割优先级越高。
本申请实施例中,将目标图像和预设参考对象集合中的识别对象进行图像内容共性度量结果分析,帮助在预设参考对象集合中择取与目标图像对应的图像内容共性度量结果较高的识别对象,增加了获取的目标图像的识别对象。此外,通过图像目标识别网络中的预设嵌入映射算子,对预设参考对象集合中的识别对象进行表征向量挖掘,提高了图像目标识别网络的神经网络的效果最大化,不用再采取其他表征向量挖掘网络进行识别对象的表征向量挖掘,缓解计算机设备的神经网络的使用算力预留。同时在分割识别对象时,采用结合识别对象对应的第一提取系数、识别对象对应的像素密度以及识别对象对应的目标图像的产生时刻,对识别对象进行分析,使得优先级结果更精准,有助于分割出更吻合的识别对象。
下面介绍图像目标识别网络的调试过程,具体可以包括以下步骤:
步骤410,获取图像样本。
其中,图像样本包含第一注释标记和第二注释标记,第一注释标记用于表征图像样本是否包含预设目标对象类型,第二注释标记用于表征图像样本中包括的对象是否为目标对象。
本申请实施例中,在构建图像目标识别网络时,获取图像样本,图像样本包含第一注释标记和第二注释标记。也就是说,图像样本为事先注释好的图像,第一注释标记用于表征图像样本是否包含预设目标对象类型,举例而言,第一注释标记可以为Y,此时表示包含预设目标对象类型,如果第一注释标记为N,表示没有预设目标对象类型。还可以通过第二注释标记指示图像样本中的目标对象,比如,第二注释标记包括有每一对象对应的分数,如果对象对应的值为第一分数时,表示不是目标对象;如果对象对应的分数为第二分数时,表示是目标对象。
步骤420,基于图像样本,对基础神经网络进行调试,得到图像目标识别网络。
其中,图像目标识别网络用于对目标图像进行目标检测,如果检测到目标图像包含预设目标对象类型,则确定目标图像的图像区块语义表征向量,并基于图像区块语义表征向量,确定目标图像包含的目标对象;图像区块语义表征向量用于表征目标图像包括的对象在目标图像的图像区块环境区块中对应的图像特征信息;图像区块环境区块为目标图像中与对象邻接的其他对象。
在其他实施例中,对图像目标识别网络进行调试时,还可以是基于以下步骤实现的:
步骤610,获取图像样本。
其中,图像样本包含第一注释标记和第二注释标记,第一注释标记用于表征图像样本是否包含预设目标对象类型,第二注释标记用于表征图像样本中包括的对象是否为目标对象。
步骤620,将图像样本加载到基础神经网络,得到第一调试输出信息和第二调试输出信息。
第一调试输出信息用于表征基础神经网络确定的图像样本是否包含预设目标对象类型;第二调试输出信息用于表征基础神经网络确定的图像样本中的对象是否为目标对象。
步骤620具体可以包括以下步骤:
步骤621,通过基础神经网络的基础嵌入映射算子,对图像样本进行表征向量抽取操作,得到图像样本的图像整体语义表征向量。
其中,图像整体语义表征向量为基于图像样本中包括的所有对象得到。
例如,本申请实施例中的基础神经网络包括基础嵌入映射算子、第一基础分类映射算子、基础线性滤波算子以及第二基础分类映射算子。其中,基础嵌入映射算子用于获取图像样本,对结合图像样本中包括的所有对象进行图像整体语义表征向量的抽取。如果基础神经网络调试完成,得到的基础嵌入映射算子就被确定为图像目标识别网络中的预设嵌入映射算子,第一基础分类映射算子就被确定为图像目标识别网络中的第一预设分类映射算子,基础线性滤波算子就被确定为图像目标识别网络中的预设线性滤波算子,第二基础分类映射算子就被确定为图像目标识别网络中的第二预设分类映射算子。
作为一种实施方式,步骤621具体可以包括:对图像样本进行矢量转换操作,得到图像样本对应的样本图像张量,其中,图像样本包含第三标记信息和第四标记信息;第三标记信息为图像样本中包括的语义分割结果的起始像素处分配的标记信息;第四标记信息为图像样本中包括的语义分割结果的结束像素处分配的标记信息;样本图像张量中包括图像样本中包括的对象的矢量表征信息、第三标记信息的矢量表征信息以及第四标记信息的矢量表征信息;将样本图像张量加载到基础神经网络的基础嵌入映射算子中,得到样本图像张量中包含的矢量表征信息对应的语义表征向量;基础嵌入映射算子用于确定输入的矢量表征信息对应的语义表征向量;确定第三标记信息的矢量表征信息对应的语义表征向量为图像样本的图像整体语义表征向量。
例如,本申请实施例中,提取图像样本对应的图像整体语义表征向量时,先对图像样本进行矢量转换操作,在对图像样本进行矢量转换操作时,对图像样本中包括的对象进行矢量转换操作,得到对象对应的矢量表征信息,同时对目标图像中的起始像素处设置的第三标记信息,以及目标图像中的结束像素处设置的第四标记信息进行矢量转换操作,得到第三标记信息对应的矢量表征信息和第四标记信息对应的矢量表征信息,得到图像样本对应的样本图像张量。获得样本图像张量后,将样本图像张量加载到基础嵌入映射算子,得到基础嵌入映射算子输出的样本图像张量中各矢量表征信息对应的语义表征向量。即,样本图像张量中包括的每一矢量表征信息在经过基础嵌入映射算子处理后,得到一一映射的语义表征向量。然后将第三标记信息的矢量表征信息对应的语义表征向量确定为图像样本的图像整体语义表征向量,方便确定图像样本的第一调试输出信息。
作为一种实施方式,基础神经网络中的基础嵌入映射算子用于通过联合投影内部聚焦策略对图像样本进行表征向量挖掘。
例如,本申请实施例中,基础神经网络中的基础嵌入映射算子在进行表征向量挖掘时,依据联合投影内部聚焦策略对图像样本进行表征向量挖掘,在多个不同的维度确定图像样本的图像整体语义表征向量,提高表征向量挖掘的精度。
步骤622,通过基础神经网络中的第一基础分类映射算子,对图像整体语义表征向量进行检测结果映射处理,确定第一调试输出信息。
例如,本申请实施例中,基础神经网络中包括的第一基础分类映射算子,用于通过基础嵌入映射算子所输出的图像样本的图像整体语义表征向量,确定图像样本是否包含预设目标对象类型,即第一调试输出信息。
作为一种实施方式,步骤622可以包括:通过基础神经网络中的第一基础分类映射算子,对图像整体语义表征向量进行处理,得到第三置信度,第三置信度表征图像样本在包含预设目标对象类型下的置信度和图像样本在不包含预设目标对象类型下的置信度;基于第三置信度,确定图像样本的第一调试输出信息。
例如,本申请实施例中,在第一基础分类映射算子对基础嵌入映射算子输出的图像样本对应的图像整体语义表征向量进行处理的过程,预测图像样本在预设目标对象类型下对应的置信度和目标图像没有预设目标对象类型的置信度,即第三置信度。得到第三置信度后,基于对比第三置信度中包括的图像样本包含预设目标对象类型的置信度和图像样本没有预设目标对象类型的置信度,得到图像样本的第一调试输出信息。
步骤623,通过基础神经网络中的基础线性滤波算子,对图像样本的图像整体语义表征向量进行抽取,得到图像样本的图像区块语义表征向量。
例如,本申请实施例中,基础神经网络中包括的基础线性滤波算子,用于通过基础嵌入映射算子所输出的图像样本的图像整体语义表征向量,确定图像样本的图像区块语义表征向量,同时在基础线性滤波算子基于图像整体语义表征向量确定图像区块语义表征向量时,由基础线性滤波算子结合当前对象的邻接对象对应的图像整体语义表征向量进行线性滤波,得到图像样本对应的图像区块语义表征向量。
步骤634,通过基础神经网络中的第二基础分类映射算子,对图像样本的图像区块语义表征向量进行检测结果映射处理,得到第二调试输出信息。
其中,第二调试输出信息包括图像样本中包括的对象对应的检测结果指示信息,检测结果指示信息用于表征对象是否为目标对象。
例如,本申请实施例中的第二基础分类映射算子用于通过基础线性滤波算子对应的输出的图像区块语义表征向量,对图像样本进行检测结果映射,也就是预测图像样本中每一对象对应的检测结果指示信息,以基于检测结果指示信息指示得到对应的对象是否为目标对象。
步骤630,基于第一调试输出信息和第一注释标记,确定第一误差函数。
例如,获得基础神经网络输出的第一调试输出信息后,基于第一调试输出信息和图像样本对应的第一注释标记,确定第一误差函数(例如为对数似然函数或交叉熵函数)。
步骤640,基于第二调试输出信息和第二注释标记,确定第二误差函数。
例如,获得基础神经网络输出的第二调试输出信息后,基于第二调试输出信息和图像样本对应的第二注释标记,确定第二误差函数(例如为对数似然函数或交叉熵函数)。
步骤650,基于第一误差函数和第二误差函数对基础神经网络进行网络内部配置变量优化,得到图像目标识别网络。
其中,图像目标识别网络用于对目标图像进行目标检测,如果检测到目标图像包含预设目标对象类型,则确定目标图像的图像区块语义表征向量,以及基于图像区块语义表征向量,确定目标图像包含的目标对象;图像区块语义表征向量用于表征目标图像包括的对象在目标图像的图像区块环境区块中对应的图像特征信息;图像区块环境区块为目标图像中与对象邻接的其他对象。
例如,在第一误差函数和第二误差函数后,基于得到的第一误差函数和第二误差函数对基础神经网络中的网络内部配置变量进行优化,例如,若第一误差函数表征基础神经网络得到的目标检测结果不精确,则可对基础神经网络中用于进行目标检测的网络内部配置变量进行优化。若第二误差函数表征基础神经网络得到的目标对象的结果不精确,对基础神经网络中用于进行目标检测的参变量和用于目标对象预测的网络内部配置变量进行优化。
本申请实施例在对网络进行调试时,结合目标检测对应的第一误差函数和目标对象预设结果对应的第二误差函数,对基础神经网络中的网络内部配置变量进行优化,得到的图像目标识别网络具有更高的精度。
作为一种实施方式,步骤650具体可以包括:
步骤651,对第一误差函数和第二误差函数进行相加,得到总误差函数。
步骤652,基于总误差函数,对基础神经网络的网络内部配置变量进行优化,得到图像目标识别网络。
例如,本申请实施例中,网络内部配置变量在优化时,先将第一误差函数和第二误差函数进行加权求和,得到总误差函数。
基于前述的实施例,本申请实施例提供一种图像识别装置,该装置所包括的各单元、以及各单元所包括的各模块,可以通过计算机设备中的处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为中央处理器(Central ProcessingUnit,CPU)、微处理器(Microprocessor Unit,MPU)、数字信号处理器(Digital SignalProcessor,DSP)或现场可编程门阵列(Field Programmable Gate Array,FPGA)等。
图2为本申请实施例提供的一种图像识别装置的组成结构示意图,如图2所示,图像识别装置200包括:
图像获取模块210,用于获取目标图像;
目标检测模块220,用于对所述目标图像进行目标检测处理,确定所述目标图像的第一检测结果;其中,所述第一检测结果用于表征所述目标图像是否包含预设目标对象类型;
特征提取模块230,用于在检测到所述目标图像包含预设目标对象类型时,确定所述目标图像的图像区块语义表征向量;其中,所述图像区块语义表征向量用于表征所述目标图像包括的对象在所述目标图像的图像区块环境区块中对应的图像特征信息;所述图像区块环境区块为所述目标图像中与所述对象邻接的其他对象;
对象确定模块240,用于基于所述图像区块语义表征向量,确定所述目标图像包含的目标对象;
对象分割模块250,用于确定所述目标对象为目标图像对应的识别对象,分割所述识别对象。
以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。在一些实施例中,本申请实施例提供的装置具有的功能或包含的模块可以用于执行上述方法实施例描述的方法,对于本申请装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
需要说明的是,本申请实施例中,如果以软件功能模块的形式实现上述的基于人工智能的图像识别方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件、软件或固件,或者硬件、软件、固件三者之间的任意结合。
本申请实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法中的部分或全部步骤。
本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。所述计算机可读存储介质可以是瞬时性的,也可以是非瞬时性的。
本申请实施例提供一种计算机程序,包括计算机可读代码,在所述计算机可读代码在计算机设备中运行的情况下,所述计算机设备中的处理器执行用于实现上述方法中的部分或全部步骤。
本申请实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序被计算机读取并执行时,实现上述方法中的部分或全部步骤。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一些实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一些实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
这里需要指出的是:上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考。以上设备、存储介质、计算机程序及计算机程序产品实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请设备、存储介质、计算机程序及计算机程序产品实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
图3为本申请实施例提供的一种计算机设备的硬件实体示意图,如图3所示,该计算机设备1000的硬件实体包括:处理器1001和存储器1002,其中,存储器1002存储有可在处理器1001上运行的计算机程序,处理器1001执行程序时实现上述任一实施例的方法中的步骤。
存储器1002存储有可在处理器上运行的计算机程序,存储器1002配置为存储由处理器1001可执行的指令和应用,还可以缓存待处理器1001以及计算机设备1000中各模块待处理或已经处理的数据(例如,图像数据、音频数据、语音通信数据和视频通信数据),可以通过闪存(FLASH)或随机访问存储器(Random Access Memory,RAM)实现。
处理器1001执行程序时实现上述任一项的基于人工智能的图像识别方法的步骤。处理器1001通常控制计算机设备1000的总体操作。
本申请实施例提供一种计算机存储介质,计算机存储介质存储有一个或者多个程序,该一个或者多个程序可被一个或者多个处理器执行,以实现如上任一实施例的基于人工智能的图像识别方法的步骤。
这里需要指出的是:以上存储介质和设备实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请存储介质和设备实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。上述处理器可以为目标用途集成电路(Application Specific Integrated Circuit,ASIC)、数字信号处理器(DigitalSignal Processor,DSP)、数字信号处理装置(Digital Signal Processing Device,DSPD)、可编程逻辑装置(Programmable Logic Device,PLD)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)、中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器中的至少一种。可以理解地,实现上述处理器功能的电子器件还可以为其它,本申请实施例不作具体限定。
上述计算机存储介质/存储器可以是只读存储器(Read Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory,FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory,CD-ROM)等存储器;也可以是包括上述存储器之一或任意组合的各种终端,如移动电话、计算机、平板设备、个人数字助理等。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各步骤/过程的序号的大小并不意味着执行顺序的先后,各步骤/过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。
Claims (10)
1.一种基于人工智能的图像识别方法,其特征在于,应用于计算机设备,所述方法包括:
获取目标图像;对所述目标图像进行目标检测处理,确定所述目标图像的第一检测结果;其中,所述第一检测结果用于表征所述目标图像是否包含预设目标对象类型;
如果检测到所述目标图像包含预设目标对象类型,则确定所述目标图像的图像区块语义表征向量;其中,所述图像区块语义表征向量用于表征所述目标图像包括的对象在所述目标图像的图像区块环境区块中对应的图像特征信息;所述图像区块环境区块为所述目标图像中与所述对象邻接的其他对象;
基于所述图像区块语义表征向量,确定所述目标图像包含的目标对象;
确定所述目标对象为目标图像对应的识别对象,分割所述识别对象。
2.如权利要求1所述的方法,其特征在于,对所述目标图像进行目标检测处理,确定所述目标图像的第一检测结果,包括:
通过图像目标识别网络中的预设嵌入映射算子,对所述目标图像进行表征向量抽取操作,得到所述目标图像的图像整体语义表征向量,其中,所述图像整体语义表征向量为基于所述目标图像中包括的所有对象所得到的;
通过所述图像目标识别网络中的第一预设分类映射算子,对所述图像整体语义表征向量进行检测结果映射处理,确定所述第一检测结果。
3.如权利要求2所述的方法,其特征在于,通过图像目标识别网络中的预设嵌入映射算子,对所述目标图像进行表征向量抽取操作,得到所述目标图像的图像整体语义表征向量,包括:
对所述目标图像进行矢量转换操作,得到所述目标图像对应的初始图像张量,其中,所述目标图像包含第一标记信息和第二标记信息;
所述第一标记信息为所述目标图像中包括的语义分割结果的起始像素处分配的标记信息;所述第二标记信息为所述目标图像中包括的语义分割结果的结束像素处分配的标记信息;所述初始图像张量中包括所述目标图像中包括的对象的矢量表征信息、第一标记信息的矢量表征信息以及第二标记信息的矢量表征信息;
将所述初始图像张量加载到所述预设嵌入映射算子中,得到所述初始图像张量中包含的矢量表征信息对应的语义表征向量;所述预设嵌入映射算子用于确定输入的矢量表征信息对应的语义表征向量;
确定所述第一标记信息的矢量表征信息对应的语义表征向量为所述目标图像的图像整体语义表征向量;
所述通过所述图像目标识别网络中的第一预设分类映射算子,对所述图像整体语义表征向量进行检测结果映射处理,确定所述第一检测结果,包括:
通过所述第一预设分类映射算子,对所述图像整体语义表征向量进行处理,得到第一置信度,所述第一置信度表征目标图像在包含预设目标对象类型下的置信度和目标图像在不包含预设目标对象类型下的置信度;
基于所述第一置信度确定所述目标图像的第一检测结果。
4.如权利要求3所述的方法,其特征在于,所述预设嵌入映射算子用于通过联合投影内部聚焦策略对所述目标图像进行表征向量挖掘;
所述确定所述目标图像的图像区块语义表征向量,包括:
通过所述图像目标识别网络中的预设线性滤波算子,对所述图像整体语义表征向量进行抽取,得到所述目标图像的图像区块语义表征向量;
所述基于所述图像区块语义表征向量,确定所述目标图像包含的目标对象,包括:通过所述图像目标识别网络中的第二预设分类映射算子,对所述图像区块语义表征向量进行检测结果映射处理,得到第二检测结果;其中,所述第二检测结果中包括所述目标图像中包括的对象对应的检测结果指示信息,所述检测结果指示信息用于表征所述对象是否为目标对象;
确定指示对象为目标对象的检测结果指示信息对应的对象为所述目标图像对应的目标对象。
5.如权利要求1~4任一项所述的方法,其特征在于,所述方法还包括:
如果检测到所述目标图像包含预设目标对象类型,则确定预设参考对象集合中的识别对象与所述目标图像之间的图像内容共性度量结果;
在所述预设参考对象集合中,确定图像内容共性度量结果大于预设结果的识别对象,为所述目标图像对应的识别对象;
所述目标图像的第一检测结果为通过图像目标识别网络中的第一预设分类映射算子和所述目标图像的图像整体语义表征向量获取得到;所述图像整体语义表征向量为通过图像目标识别网络中的预设嵌入映射算子,对所述目标图像中包括的所有对象的进行表征向量抽取操作获取得到;
所述确定预设参考对象集合中的识别对象与所述目标图像之间的图像内容共性度量结果,包括:
通过所述预设嵌入映射算子,对所述预设参考对象集合中的识别对象进行表征向量挖掘,得到目标对象类型表征向量;
基于所述目标对象类型表征向量和所述图像整体语义表征向量,确定所述图像内容共性度量结果;
所述分割所述识别对象,包括:
获取所述识别对象对应的第一提取系数、所述识别对象中的像素密度和所述目标图像的产生时刻;其中,所述第一提取系数用于表征所确定的识别对象和目标图像的协调适配程度;
基于所述第一提取系数,所述识别对象中的像素密度和所述目标图像的产生时刻,确定所述识别对象对应的优先级结果;所述优先级结果用于表征所述识别对象的提取顺序;
基于所述优先级结果,分割所述识别对象。
6.如权利要求5所述的方法,其特征在于,所述获取所述识别对象对应的第一提取系数,包括:
如果检测到所述识别对象为基于所述目标图像包含的目标对象得到,则基于所述识别对象中的目标对象对应的第二置信度、所述识别对象中的目标对象的个数和第一预设偏心变量,确定所述第一提取系数;所述第二置信度用于表征对象为目标对象的可能性;
如果检测到所述识别对象为位于所述预设参考对象集合中,则基于所述识别对象对应的图像内容共性度量结果和第二预设偏心变量,确定所述第一提取系数;其中,所述第一预设偏心变量大于所述第二预设偏心变量;
所述基于所述第一提取系数,所述识别对象中的像素密度和所述目标图像的产生时刻,确定所述识别对象对应的优先级结果,包括:
基于所述目标图像的产生时刻,确定第二提取系数;其中,所述第二提取系数和所述产生时刻正向关联;
基于所述识别对象中的像素密度,确定第三提取系数,其中,所述第三提取系数和所述像素密度符合高斯分布;
基于所述第一提取系数、所述第二提取系数和所述第三提取系数,确定所述识别对象对应的优先级结果。
7.如权利要求5所述的方法,其特征在于,所述图像目标识别网络的调试过程包括:
获取图像样本;其中,所述图像样本包含第一注释标记和第二注释标记,所述第一注释标记用于表征所述图像样本是否包含预设目标对象类型,所述第二注释标记用于表征所述图像样本中包括的对象是否为目标对象;
基于所述图像样本,对基础神经网络进行调试,得到图像目标识别网络;其中,所述图像目标识别网络用于对目标图像进行目标检测,如果检测到所述目标图像包含预设目标对象类型,则确定所述目标图像的图像区块语义表征向量,并基于所述图像区块语义表征向量,确定所述目标图像包含的目标对象;所述图像区块语义表征向量用于表征所述目标图像包括的对象在所述目标图像的图像区块环境区块中对应的图像特征信息;所述图像区块环境区块为所述目标图像中与所述对象邻接的其他对象。
8.如权利要求7所述的方法,其特征在于,基于所述图像样本,对基础神经网络进行调试,得到图像目标识别网络,包括:
将所述图像样本加载到所述基础神经网络,得到第一调试输出信息和第二调试输出信息;其中,第一调试输出信息用于表征所述基础神经网络所确定的所述图像样本是否包含预设目标对象类型;所述第二调试输出信息用于表征所述基础神经网络所确定的所述图像样本中的对象是否为目标对象;
基于所述第一调试输出信息和所述第一注释标记,确定第一误差函数;
基于所述第二调试输出信息和所述第二注释标记,确定第二误差函数;
基于所述第一误差函数和所述第二误差函数,对所述基础神经网络进行网络内部配置变量优化,得到所述图像目标识别网络;
其中,将所述图像样本加载到所述基础神经网络,得到第一调试输出信息和第二调试输出信息,包括:
通过所述基础神经网络的基础嵌入映射算子,对所述图像样本进行表征向量抽取操作,得到所述图像样本的图像整体语义表征向量;其中,所述图像整体语义表征向量为基于所述图像样本中包括的所有对象所得到的;
通过所述基础神经网络中的第一基础分类映射算子,对所述图像整体语义表征向量进行检测结果映射处理,确定所述第一调试输出信息;
通过所述基础神经网络中的基础线性滤波算子,对所述图像样本的图像整体语义表征向量进行抽取,得到所述图像样本的图像区块语义表征向量;
通过所述基础神经网络中的第二基础分类映射算子,对所述图像样本的图像区块语义表征向量进行检测结果映射处理,得到第二调试输出信息;其中,所述第二调试输出信息中包括所述图像样本中包括的对象对应的检测结果指示信息,所述检测结果指示信息用于表征所述对象是否为目标对象。
9.如权利要求8所述的方法,其特征在于,通过所述基础神经网络的基础嵌入映射算子,对所述图像样本进行表征向量抽取操作,得到所述图像样本的图像整体语义表征向量,包括:
对所述图像样本进行矢量转换操作,得到所述图像样本对应的样本图像张量;其中,所述图像样本包含第三标记信息和第四标记信息;所述第三标记信息为所述图像样本中包括的语义分割结果的起始像素处分配的标记信息;所述第四标记信息为所述图像样本中包括的语义分割结果的结束像素处分配的标记信息;所述样本图像张量中包括所述图像样本中包括的对象的矢量表征信息、第三标记信息的矢量表征信息以及第四标记信息的矢量表征信息;
将所述样本图像张量加载到所述基础神经网络的基础嵌入映射算子中,得到所述样本图像张量中包含的矢量表征信息对应的语义表征向量;所述基础嵌入映射算子用于确定输入的矢量表征信息对应的语义表征向量;
确定所述第三标记信息的矢量表征信息对应的语义表征向量为所述图像样本的图像整体语义表征向量;
所述通过所述基础神经网络中的第一基础分类映射算子,对所述图像整体语义表征向量进行检测结果映射处理,确定所述第一调试输出信息,包括:
通过所述基础神经网络中的第一基础分类映射算子,对所述图像整体语义表征向量进行处理,得到第三置信度,所述第三置信度表征图像样本在包含预设目标对象类型下的置信度和图像样本在不包含预设目标对象类型下的置信度;
基于所述第三置信度,确定所述图像样本的第一调试输出信息;
所述基础神经网络中的基础嵌入映射算子用于通过联合投影内部聚焦策略对所述图像样本进行表征向量挖掘;
所述基于所述第一误差函数和所述第二误差函数,对所述基础神经网络进行网络内部配置变量优化,得到所述图像目标识别网络,包括:
对所述第一误差函数和所述第二误差函数进行相加,得到总误差函数;
基于所述总误差函数,对所述基础神经网络的网络内部配置变量进行优化,得到所述图像目标识别网络。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至9任一项所述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310969603.1A CN116681957B (zh) | 2023-08-03 | 2023-08-03 | 一种基于人工智能的图像识别方法及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310969603.1A CN116681957B (zh) | 2023-08-03 | 2023-08-03 | 一种基于人工智能的图像识别方法及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116681957A true CN116681957A (zh) | 2023-09-01 |
CN116681957B CN116681957B (zh) | 2023-10-17 |
Family
ID=87784091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310969603.1A Active CN116681957B (zh) | 2023-08-03 | 2023-08-03 | 一种基于人工智能的图像识别方法及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116681957B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117455910A (zh) * | 2023-12-22 | 2024-01-26 | 广州金和精密机电设备有限公司 | 一种基于机器视觉的卷线识别方法及卷线设备 |
CN117690164A (zh) * | 2024-01-30 | 2024-03-12 | 成都欣纳科技有限公司 | 基于边缘计算的机场飞鸟识别驱赶方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110302118A1 (en) * | 2010-06-02 | 2011-12-08 | Nec Laboratories America, Inc. | Feature set embedding for incomplete data |
US9262406B1 (en) * | 2014-05-07 | 2016-02-16 | Google Inc. | Semantic frame identification with distributed word representations |
CN111008947A (zh) * | 2019-12-09 | 2020-04-14 | Oppo广东移动通信有限公司 | 图像处理方法和装置、终端设备及存储介质 |
CN113299346A (zh) * | 2021-04-01 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 分类模型训练和分类方法、装置、计算机设备和存储介质 |
CN114120090A (zh) * | 2021-11-25 | 2022-03-01 | 众安在线财产保险股份有限公司 | 图像处理方法、装置、设备及存储介质 |
CN114266889A (zh) * | 2020-09-15 | 2022-04-01 | 新加坡依图有限责任公司(私有) | 图像识别方法及其装置、可读介质和电子设备 |
CN114648760A (zh) * | 2022-01-19 | 2022-06-21 | 美的集团(上海)有限公司 | 图像分割方法、图像分割装置、电子设备和存储介质 |
US11527085B1 (en) * | 2021-12-16 | 2022-12-13 | Motional Ad Llc | Multi-modal segmentation network for enhanced semantic labeling in mapping |
-
2023
- 2023-08-03 CN CN202310969603.1A patent/CN116681957B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110302118A1 (en) * | 2010-06-02 | 2011-12-08 | Nec Laboratories America, Inc. | Feature set embedding for incomplete data |
US9262406B1 (en) * | 2014-05-07 | 2016-02-16 | Google Inc. | Semantic frame identification with distributed word representations |
CN111008947A (zh) * | 2019-12-09 | 2020-04-14 | Oppo广东移动通信有限公司 | 图像处理方法和装置、终端设备及存储介质 |
CN114266889A (zh) * | 2020-09-15 | 2022-04-01 | 新加坡依图有限责任公司(私有) | 图像识别方法及其装置、可读介质和电子设备 |
CN113299346A (zh) * | 2021-04-01 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 分类模型训练和分类方法、装置、计算机设备和存储介质 |
CN114120090A (zh) * | 2021-11-25 | 2022-03-01 | 众安在线财产保险股份有限公司 | 图像处理方法、装置、设备及存储介质 |
US11527085B1 (en) * | 2021-12-16 | 2022-12-13 | Motional Ad Llc | Multi-modal segmentation network for enhanced semantic labeling in mapping |
CN114648760A (zh) * | 2022-01-19 | 2022-06-21 | 美的集团(上海)有限公司 | 图像分割方法、图像分割装置、电子设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
尤洪峰 等: "基于Word Embedding的遥感影像检测分割", 电子学报, no. 01, pages 78 - 86 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117455910A (zh) * | 2023-12-22 | 2024-01-26 | 广州金和精密机电设备有限公司 | 一种基于机器视觉的卷线识别方法及卷线设备 |
CN117455910B (zh) * | 2023-12-22 | 2024-03-26 | 广州金和精密机电设备有限公司 | 一种基于机器视觉的卷线识别方法及卷线设备 |
CN117690164A (zh) * | 2024-01-30 | 2024-03-12 | 成都欣纳科技有限公司 | 基于边缘计算的机场飞鸟识别驱赶方法及系统 |
CN117690164B (zh) * | 2024-01-30 | 2024-04-30 | 成都欣纳科技有限公司 | 基于边缘计算的机场飞鸟识别驱赶方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116681957B (zh) | 2023-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Actionformer: Localizing moments of actions with transformers | |
CN116681957B (zh) | 一种基于人工智能的图像识别方法及计算机设备 | |
CN112016500A (zh) | 基于多尺度时间信息融合的群体异常行为识别方法及系统 | |
CN111680753A (zh) | 一种数据标注方法、装置、电子设备及存储介质 | |
CN112149754A (zh) | 一种信息的分类方法、装置、设备及存储介质 | |
CN117409419A (zh) | 图像检测方法、设备及存储介质 | |
CN114429577B (zh) | 一种基于高置信标注策略的旗帜检测方法及系统及设备 | |
CN110490058B (zh) | 行人检测模型的训练方法、装置、系统和计算机可读介质 | |
CN113435499B (zh) | 标签分类方法、装置、电子设备和存储介质 | |
CN114359618A (zh) | 神经网络模型的训练方法、电子设备及计算机程序产品 | |
CN116363538B (zh) | 一种基于无人机的桥梁检测方法及系统 | |
CN113239883A (zh) | 分类模型的训练方法、装置、电子设备以及存储介质 | |
CN116860964A (zh) | 基于医疗管理标签的用户画像分析方法、装置及服务器 | |
CN114254588B (zh) | 数据标签处理方法和装置 | |
CN113255766B (zh) | 一种图像分类方法、装置、设备和存储介质 | |
CN112784691B (zh) | 一种目标检测模型训练方法、目标检测方法和装置 | |
CN117523218A (zh) | 标签生成、图像分类模型的训练、图像分类方法及装置 | |
CN116777814A (zh) | 图像处理方法、装置、计算机设备、存储介质及程序产品 | |
CN113139561B (zh) | 一种垃圾分类方法、装置、终端设备及存储介质 | |
CN112651996A (zh) | 目标检测跟踪方法、装置、电子设备和存储介质 | |
CN111881855A (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN116052220B (zh) | 行人重识别方法、装置、设备及介质 | |
CN111860573B (zh) | 模型训练方法、图像类别检测方法、装置和电子设备 | |
CN111625672B (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN116612466B (zh) | 基于人工智能的内容识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |