CN113361524B - 图像处理方法及装置 - Google Patents
图像处理方法及装置 Download PDFInfo
- Publication number
- CN113361524B CN113361524B CN202110727040.6A CN202110727040A CN113361524B CN 113361524 B CN113361524 B CN 113361524B CN 202110727040 A CN202110727040 A CN 202110727040A CN 113361524 B CN113361524 B CN 113361524B
- Authority
- CN
- China
- Prior art keywords
- model
- sub
- image
- convolution layer
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 25
- 238000001514 detection method Methods 0.000 claims abstract description 129
- 238000012545 processing Methods 0.000 claims abstract description 107
- 230000011218 segmentation Effects 0.000 claims description 93
- 238000000034 method Methods 0.000 claims description 86
- 238000012549 training Methods 0.000 claims description 32
- 238000003860 storage Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 abstract description 32
- 238000005516 engineering process Methods 0.000 abstract description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 28
- 238000004590 computer program Methods 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 239000003550 marker Substances 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000004913 activation Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000005111 flow chemistry technique Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了一种图像处理方法及装置,涉及数据处理领域中的人工智能技术。具体实现方案为:确定对第一图像进行处理的第一模型,第一模型包括网络层、串联的N个卷积层、区域检测子模型和每个卷积层对应的子模型,N个卷积层和网络层串联连接,每个卷积层与对应的子模型连接,网络层与区域检测子模型连接。将第一图像输入至第一模型,以获取每个卷积层对应的子模型输出的图像识别信息、以及区域检测子模型输出的在第一图像中识别得到的目标区域。根据每个卷积层对应的子模型输出的图像识别信息和目标区域,确定目标区域的指示参数。根据指示参数,输出目标区域。通过将不同的模型组合为单一的第一模型,从而可以有效提升招牌提取的处理效率。
Description
技术领域
本公开涉及数据处理领域中的人工智能技术,尤其涉及一种图像处理方法及装置。
背景技术
随着地图相关技术的不断发展,目前在地图中通常会对兴趣点(Point ofInterest,POI)进行标识。
为了提升POI的处理效率,目前可以基于POI自动化作业流程,实现对图片中的POI的自动提取,其中,POI自动化作业是一种流式处理流程,作业的初始步骤是招牌提取,其可以包括串行执行的场景分类、招牌检测、招牌分类等流程,这些流程之间是串行执行的。
然而,这种串行执行的实现方式,会导致整体的执行效率受到其中的单一流程的限制,从而会导致招牌提取的效率低下。
发明内容
本公开提供了一种图像处理方法及装置。
根据本公开的第一方面,提供了一种图像处理方法,包括:
确定对第一图像进行处理的第一模型,所述第一模型包括网络层、串联的N个卷积层、区域检测子模型和每个卷积层对应的子模型,所述N个卷积层和所述网络层串联连接,每个卷积层与对应的子模型连接,所述网络层与所述区域检测子模型连接,所述N为大于或等于1的整数;
将所述第一图像输入至所述第一模型,以获取每个卷积层对应的子模型输出的图像识别信息、以及所述区域检测子模型输出的在所述第一图像中识别得到的目标区域;
根据每个卷积层对应的子模型输出的图像识别信息和所述目标区域,确定所述目标区域的指示参数,其中,所述指示参数用于指示是否输出所述目标区域;
根据所述指示参数,输出所述目标区域。
根据本公开的第二方面,提供了一种模型训练方法,包括:
获取初始模型,所述初始模型包括的网络层、串联的N个卷积层、区域检测子模型和每个卷积层对应的子模型,所述N个卷积层和所述网络层串联连接,每个卷积层与对应的子模型连接,所述网络层与所述区域检测子模型连接,所述N为大于或等于1的整数;
通过所述初始模型对样本图像进行处理,得到每个卷积层对应的子模型输出的第一图像识别信息、以及所述区域检测子模型输出的在所述样本图像中识别得到的第一区域;
根据第i个卷积层对应的子模型的标记图像识别信息、以及所述第i个卷积层对应的子模型输出的第一图像识别信息,对所述第i个卷积层对应的子模型的模型参数、以及前i个卷积层的模型参数进行更新处理,所述i为1、2、……、N;
根据所述区域检测子模型对应的标记区域和所述第一区域,对所述区域检测子模型、所述N个卷积层以及所述网络层的模型参数进行更新处理。
根据本公开的第三方面,提供了一种图像处理装置,包括:
确定模块,用于确定对第一图像进行处理的第一模型,所述第一模型包括网络层、串联的N个卷积层、区域检测子模型和每个卷积层对应的子模型,所述N个卷积层和所述网络层串联连接,每个卷积层与对应的子模型连接,所述网络层与所述区域检测子模型连接,所述N为大于或等于1的整数;
获取模块,用于将所述第一图像输入至所述第一模型,以获取每个卷积层对应的子模型输出的图像识别信息、以及所述区域检测子模型输出的在所述第一图像中识别得到的目标区域;
处理模块,用于根据每个卷积层对应的子模型输出的图像识别信息和所述目标区域,确定所述目标区域的指示参数,其中,所述指示参数用于指示是否输出所述目标区域;
输出模块,用于根据所述指示参数,输出所述目标区域。
根据本公开的第四方面,提供了一种模型训练装置,包括:
获取模块,用于获取初始模型,所述初始模型包括的网络层、串联的N个卷积层、区域检测子模型和每个卷积层对应的子模型,所述N个卷积层和所述网络层串联连接,每个卷积层与对应的子模型连接,所述网络层与所述区域检测子模型连接,所述N为大于或等于1的整数;
处理模块,用于通过所述初始模型对样本图像进行处理,得到每个卷积层对应的子模型输出的第一图像识别信息、以及所述区域检测子模型输出的在所述样本图像中识别得到的第一区域;
更新模块,用于根据第i个卷积层对应的子模型的标记图像识别信息、以及所述第i个卷积层对应的子模型输出的第一图像识别信息,对所述第i个卷积层对应的子模型的模型参数、以及前i个卷积层的模型参数进行更新处理,所述i为1、2、……、N;
所述更新模块,还用于根据所述区域检测子模型对应的标记区域和所述第一区域,对所述区域检测子模型、所述N个卷积层以及所述网络层的模型参数进行更新处理。
根据本公开的第五方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面或者第二方面所述的方法。
根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行第一方面或者第二方面所述的方法。
根据本公开的第七方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面或者第二方面所述的方法。
根据本公开的技术提升了招牌提取的处理效率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1为本公开实施例提供的招牌区域的实现示意图;
图2为本公开实施例提供的相关技术中招牌提取的实现流程图;
图3为本公开实施例提供的图像处理方法的流程图;
图4为本公开实施例提供的图像处理方法的流程图二;
图5为本公开实施例提供的第一模型的结构示意图
图6为本公开实施例提供的确定指示参数的实现示意图
图7为本公开实施例提供的模型训练方法的流程图;
图8为本公开实施例提供的模型训练方法的流程图二;
图9为本公开实施例的图像处理装置的结构示意图;
图10为本公开实施例的模型训练装置的结构示意图;
图11是用来实现本公开实施例的图像处理方法和模型训练方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
为了更好的理解本公开的技术方案,下面对本公开所涉及的相关技术进行进一步的详细介绍。
随着地图相关技术的不断发展,目前在地图中进行POI的标注已经成为了地图信息非常重要的一部分,其中,在地理信息系统中,一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站等。
可以理解的是,要实现在地图中对POI进行标注,首先需要基于现实场景对POI信息进行确定,在一种可能的实现方式中,例如可以由人工进行外出采集POI信息,之后将采集的POI信息标注在地图中,但是人工采集的效率是非常低下的。
为了提升对POI的处理效率,在另一种可能的实现方式中,还可以基于图片进行POI的自动提取,例如可以基于POI自动化作业流程对图片进行处理,从而输出图片中所包括的POI信息,这样可以有效的提升POI的处理效率。
其中,POI自动化作业流程是一种流式处理流程,POI自动化作业的初始步骤就是招牌提取,可以理解的是,招牌提取就是将图片中的招牌区域检测出来,其中,招牌区域可以是POI的招牌在图片中的区域。
例如可以结合图1理解本公开中的招牌区域,图1为本公开实施例提供的招牌区域的实现示意图。
如图1所示,假设当前存在一张图片,在这张图片中包括xx学校,则在这张图片中包括“xx学校”的名称的区域就可以理解为招牌区域,也就是图1中的101所示的区域,在实际实现过程中,图片中的招牌区域的具体实现可以根据实际需求进行选择,只要招牌区域可以实现对兴趣点的名称的标识即可。
下面可以结合图2对招牌提取的处理过程进行介绍,图2为本公开实施例提供的相关技术中招牌提取的实现流程图。
如图2所示,在招牌提取的处理过程中,可以包括场景分类、招牌检测、招牌分类等流程。
其中,场景分类任务是首先判断图片中有无招牌,以降低招牌检测任务的规模复杂度。
以及,招牌检测即检测图像中的招牌区域,但这些检测出的区域可能含有大量的非招牌、模糊、遮挡等情况而无法提取出其中的POI信息,因此使用招牌分类模型过滤这些负样本。
上述介绍的招牌提取的处理过程中的各个流程之间是串行执行的,这些串行的流程最大的问题便是整体的效率受其中单一模块的限制,并且串行执行会提高处理时间,消耗额外计算资源,从而降低了招牌提取的处理效率。
同时,在串行执行的各个处理流程中,因为各个流程是无法保证其处理正确率为100%的,那么各个流程之间的错误就会向后传递,从而导致最终输出结果的准确性降低,比如说在图2所示的各个流程中,其中的场景分类的处理正确率为94%,场景分类的输出结果作为招牌检测输入数据,那么场景分类的输出结果的错误就会传递到招牌检测的流程中,之后的各个流程类似,因此这种串行执行的处理方式,会导致招牌提取的准确性降低。
针对现有技术中的问题,本公开提出了如下技术构思:因为不同的任务所需的特征层表达不同,那么可以使用图像不同层级的特征表达来对应处理不同的任务,通过不同任务之间共享卷积层特征,从而可以实现将流式的串行任务转换为单一的模型,在该单一的模型中,因为特征是共享的,因此各个环节可以并行执行,从而可以有效避免串行执行的处理方式导致的处理效率低下和准确性降低的问题。
在上述介绍内容的基础上,下面结合具体的实施例对本公开提供的图像处理方法进行介绍。值得说明的是,本公开中各实施例的执行主体可以为服务器、处理器、微处理器等具有数据处理功能的设备,本实施例对具体的执行主体不做限制,其可以根据实际需求进行选择,只要是具备数据处理功能的设备即可。
下面首先结合图3进行介绍,图3为本公开实施例提供的图像处理方法的流程图。
如图3所示,该方法包括:
S301、确定对第一图像进行处理的第一模型,第一模型包括网络层、串联的N个卷积层、区域检测子模型和每个卷积层对应的子模型,N个卷积层和网络层串联连接,每个卷积层与对应的子模型连接,网络层与区域检测子模型连接,N为大于或等于1的整数。
在本实施例中,第一图像为需要进行处理的图像,在第一图像中有可能包括招牌区域,也有可能不包括招牌区域,当前正是要对第一图像进行处理,因此第一图像的具体实现可以根据实际需求进行选择。
以及,本实施例中的第一模型是用于对第一图像进行处理的模型,例如可以将第一图像输入第一模型,以使得第一模型输出针对第一图像检测到的招牌区域。
在一种可能的实现方式中,在第一模型中可以包括网络层和串联的N个卷积层,其中,N个卷积层和网络层可以串联连接,例如图像可以首先输入第一个卷积层,第一个卷积层对图像进行处理,提取图像特征,之后第二个卷积层以第一个卷积层的提取的图像特征作为输入,继续进行图像特征的提取,在N个卷积层之后,网络层继续进行图像特征的提取,因此本实施例中的网络层和卷积层都可以用于提取图像特征。
在本实施例中,N为大于或等于1的整数,N的取值可以根据实际需求进行选择,也就是说卷积层的数量可以根据实际需求进行选择,本实施例对此不做特别限制。
以及,在第一模型中还可以包括区域检测子模型和每个卷积层对应的子模型,其中,区域检测子模型和网络层连接,用于根据网络层中的图像特征进行区域检测,其中,区域检测子模型是用于进行区域检测的模型,其中的区域检测可以理解为目标检测,目标检测技术是一项基本的计算机视觉任务。其主要目的是检测图片中目标所在的位置,并为该位置的目标分配一个类别标签。因此,区域检测的实现方式可以根据实际需求进行选择,本实施例对此不做限制。
以及,本实施例中的每个卷积层与对应的子模型连接,在一种可能的实现方式中,例如可以存在两个卷积层,分别是第一卷积层和第二卷积层,例如第一卷积层可以和纹理分割子模型连接,其中,纹理分割子模型可以输出图像中的纹理信息,再例如第二卷积层可以和图像质量子模型连接,其中,图像质量子模型可以输出图像的模糊程度,根据这些子模型的信息,可以指示当前图像中可以提取到招牌信息的可能性是否较大,比如说图像的模糊程度较高,或者图像的纹理不清晰、不连续等等,则很有可能在这张图像中无法提取出招牌信息,则例如可以将这张图像作为负样本过滤掉。
因此本实施例中的各个卷积层对应的子模型可以是用于输出图像识别信息的模型,其中,图像识别信息用于指示第一图像是否为负样本,也就是说指示第一图像中是否可以提取出招牌信息。
在实际实现过程中,卷积层的数量,以及卷积层对应的子模型的数量、具体作用等,均可以根据实际需求进行选择,只要与卷积层连接的子模型可以输出用于指示图像是否为负样本的图像识别信息即可,本实施例对其具体的实现方式不做限制。
基于上述介绍的第一模型的网络结构可以确定的是,本实施例中的第一模型中的各个子模型是共享第一模型中的特征层的,若不进行特征层的共享的话,则针对每一个子模型都要存在一个包括上述介绍的特征层的网络结构,各个子模型之间也需要按照串行处理的方式来执行,而当前通过共享特征层,可以通过一个共享的特征层网络结构,就可以实现各个子模型的并行处理,从而可以有效提升第一模型的处理效率。
S302、将第一图像输入至第一模型,以获取每个卷积层对应的子模型输出的图像识别信息、以及区域检测子模型输出的在第一图像中识别得到的目标区域。
本实施例中的第一模型为对第一图像进行招牌提取的模型,则可以将第一图像输入至第一模型,在第一模型对第一图像进行处理之后,例如可以获取各个子模型输出的图像识别信息,其中,图像识别信息例如可以包括上述介绍的图像质量信息、图像纹理信息等等,本实施例对图像识别信息的具体实现方式不做特别限制,其可以根据实际需求进行选择,只要其是子模型输出的信息即可。
以及,在第一模型对第一图像进行处理之后,还可以获取区域检测子模型输出的在第一图像中识别得到的目标区域,其中,目标区域可以理解为是检测得到的招牌区域。
基于上述介绍可以确定的是,在第一模型中包括N个卷积层,还包括网络层,以及还包括区域检测子模型和各个卷积层对应的子模型,则在一种可能的实现方式中,将第一图像输入至第一模型之后的处理过程例如可以为,首先将第一图像输入至第一模型中的第一卷积层,第一卷积层可以对第一图像进行特征提取,之后可以控制第一卷积层的输出作为第二卷积层的输入,以及作为第一卷积层对应的子模型的输入,比如说第一卷积层对应的是纹理分割子模型,则第一卷积层提取的图像特征可以作为纹理分割子模型的输入,以使得纹理分割子模型基于图像特征进行处理,从而输出第一图像的纹理信息。
以及第一卷积层提取的图像特征还可以作为第二卷积层的输入,以使得第二卷积层在第一卷积层提取的图像特征的基础上继续进特征提取,之后的各个卷积层的实现方式类似,也就是说第i个卷积层的输出可以作为第i+1个卷积层的输入,以及第i个卷积层的输出还可以作为第i个卷积层对应的子模型的输入。
以及,在卷积层之后可以连接的是网络层,则可以控制第N个卷积层的输出作为网络层的输入,网络层同样可以进行图像的特征提取,其中的网络层对应的是区域检测子模型,则可以将网络层的输出作为区域检测子模型输入,以使得区域检测子模型根据图像特征进行处理,从而输出目标区域。
经过上述介绍的内容,本实施例中可以将每个卷积层对应的子模型的输出结果确定为图像识别信息,其中,子模型的具体处理过程以及图像识别信息的具体实现可以根据实际需求进行选择,本实施例对此不做限制,以及本实施例中可以将区域检测子模型的输出结果确定为目标区域。
S303、根据每个卷积层对应的子模型输出的图像识别信息和目标区域,确定目标区域的指示参数,其中,指示参数用于指示是否输出目标区域。
在本实施例中,除了可以确定目标区域之外,还例如可以确定目标区域的指示参数,其中,指示参数用于指示是否输出当前识别到的目标区域。
可以理解的是,本实施例中的输出目标区域是指将检测到的目标区域输出至下一环节,因为本实施例中的第一模型进行的是招牌提取,也就是说对第一图像中包括招牌的区域进行提取,要实现完整的招牌自动化处理,还例如需要进行招牌内容识别等等的后续步骤。
同时,为了提升招牌自动化处理的效率,可以在招牌提取的步骤,针对难以提取出POI信息的图像就进行过滤,也就是说在确定当前的图像难以提取出POI信息时,将当前的第一图像以及识别到的目标区域不向下一环节进行输出,从而可以有效减少下一环节的处理数据量,以提升处理效率。
因此在一种可能的实现方式中,可以根据每个卷积层对应的子模型输出的图像识别信息以及目标区域,确定目标区域的指示参数,其中,目标区域的指示参数就可以只是当前第一图像中可以提取出POI信息的概率,从而可以只是是否将目标区域进行输出。
基于上述介绍的内容,子模型输出的图像识别信息例如可以包括图像质量信息、图像纹理信息,例如可以基于这些图像识别信息经过预设算法的处理,从而得到目标区域的指示参数等等。在实际实现过程中,根据图像识别信息确定目标区域的指示参数的具体实现方式可以根据实际需求进行选择,本实施例对此不做限制。
S304、根据指示参数,输出目标区域。
在得到指示参数和目标区域之后,可以根据指示参数输出目标区域,在一种可能的实现方式中,指示参数例如可以直接指示是否输出目标区域,若指示参数指示输出目标区域,则可以将目标区域输出至下一环节,或者,若指示参数指示不输出目标区域,则可以将当前的第一图像和目标区域过滤掉,不输出至下一环节。
或者,指示参数还可以不直接指示,例如可以将指示参数和预设阈值进行比较,从而确定是否将目标区域输出至下一环节,在实际实现中,根据指示参数输出目标区域的实现方式可以根据实际需求进行选择,本实施例对此不做限制。
本公开实施例提供的图像处理方法,包括:确定对第一图像进行处理的第一模型,第一模型包括网络层、串联的N个卷积层、区域检测子模型和每个卷积层对应的子模型,N个卷积层和网络层串联连接,每个卷积层与对应的子模型连接,网络层与区域检测子模型连接,N为大于或等于1的整数。将第一图像输入至第一模型,以获取每个卷积层对应的子模型输出的图像识别信息、以及区域检测子模型输出的在第一图像中识别得到的目标区域。根据每个卷积层对应的子模型输出的图像识别信息和目标区域,确定目标区域的指示参数,其中,指示参数用于指示是否输出目标区域。根据指示参数,输出目标区域。通过确定第一模型,在第一模型中包括网络层和卷积层,其中,网络层和卷积层作为共享的特征层,可以供各个子模型使用,从而可以在不更改数据源的情况下,将不同的模型组合为单一的第一模型,其中各个子模型之间可以并行的进行处理,之后根据指示参数输出目标区域,从而可以在有效实现对招牌区域的提取,并且可以有效提升招牌提取的处理效率。
在上述实施例的基础上,下面结合图4至图6对本公开提供的图像处理方法进行进一步的详细介绍,图4为本公开实施例提供的图像处理方法的流程图二,图5为本公开实施例提供的第一模型的结构示意图,图6为本公开实施例提供的确定指示参数的实现示意图。
如图4所示,该方法包括:
S401、确定对第一图像进行处理的第一模型,第一模型包括网络层、串联的N个卷积层、区域检测子模型和每个卷积层对应的子模型,N个卷积层和网络层串联连接,每个卷积层与对应的子模型连接,网络层与区域检测子模型连接,N为大于或等于1的整数。
其中,S401的实现方式与上述介绍的S301的实现方式类似,下面结合图5对本公开中的第一模型的结构进行进一步的详细介绍。
在一种可能的实现方式中,如图5所示,本实施例中的N个卷积层包括第一卷积层和第二卷积层,每个卷积层存在各自对应的子模型,例如第一卷积层对应纹理分割子模型,第二卷积层对应图像质量子模型。
其中,纹理分割子模型用于根据第一卷积层输出的图像特征输出第一图像的纹理信息,图像质量子模型用于根据第二卷积层输出的图像特征输出第一图像的图像质量信息。
以及,本实施例中的网络层可以包括图5中所示的主干网络和特征金字塔(Feature Pyramid Networks,FPN),其中,Backbone:主干网络,用来做特征提取的网络,代表网络的一部分,一般是用于前端提取图片信息,生成特征图feature map,供后面的网络使用。,特征金字塔用于,在一种可能的实现方式中,主干网络例如可以为用于生成特征金字塔的。
如图5所示,特征金字塔中的低层特征可以作为目标检测子模型的输入,以使得目标检测子模型输出第一图像的目标区域。
以及本实施例中的第一模型中还可以包括场景识别子模型和语义分割子模型,其中,场景识别子模型和语义分割子模型分别于网络层连接,进一步的,在图5中,场景识别子模型和语义分割子模型可以和特征金字塔中的高层特征连接,从而以特征金字塔中的高层特征作为输入,从而分别输出第一图像对应的场景类型以及第一图像中的各个像素点各自对应的语义结果。
基于图5的介绍可以确定的是,本实施例中提供的第一模型,可以将图像质量、场景理解、语义分割、目标检测、纹理分割这些任务组合在一个单一模型中,各个任务之间共享共享第一模型中的各个网络结构中的特征。
可以理解的是,如果不是当前图5中的共享特征的网络结构的话,则针对图像质量任务,需要有一个包括第一卷积层的单独的网络结构;针对纹理分割任务,需要有另一个同时包括第一卷积层和第二卷积层的单独的网络结构;针对场景识别任务、语义分割任务、目标检测任务,需要有在一个同时包括第一卷积层、第二卷积层、主干网络、特征金字塔的单独的网络结构,并且各个任务之间无法并行执行,从而会导致计算资源的消耗,进而降低了招牌提取的处理效率。
因此基于本实施例中提供的第一模型对第一图像进行处理,可以有效降低模型模型对于资源的消耗,并且可以有效提升招牌提取的处理效率。
S402、获取第一卷积层输出的第一卷积数据。
本实施例中的各个特征层输出的特征信息是由各个子模型共享的,因此各个子模型可以从相应的特征层中获取各自需要的信息,进而进行相应的处理。
在一种可能的实现方式中,纹理分割分割子模型需要的是第一卷积层的特征数据,则可以获取第一卷积层输出的第一卷积数据,在一种可能的实现方式中,本实施例中的第一卷积数据可以为第一图像的图像特征。
在本实施例中,例如可以通过第一卷积层对第一图像进行卷积处理,从而得到第一卷积数据。
S403、通过纹理分割子模型对第一卷积数据进行纹理分割处理,得到纹理信息。
本实施例中的第一卷积层输出的第一卷积数据可以作为纹理分割子模型的输入,以使得纹理分割子模型对第一卷积数据对应的图像特征进行纹理分割处理,从而得到纹理信息。
可以理解的是,本实施例中的纹理信息例如可以为第一图像中的目标的边缘轮廓信息,比如说在第一图像中存在某栋楼的招牌,则纹理信息可以包括第一图像中的这个招牌的纹理边缘。
在一种可能的实现方式中,纹理信息例如可以为矩阵,针对第一图像中的各个像素点,将存在像素点的部分标记为1,将不存在纹理的像素点标记为0,从而可以基于矩阵实现对图像中的招牌区域的纹理进行标识。或者,纹理信息还可以为其余的实现方式,本实施例对此不做特别限制,只要纹理信息可以实现对第一图像中的招牌区域的纹理的标识即可。
其中,纹理分割子模型进行纹理分割的处理方式可以包括但不限于如下介绍的方式:基于梯度的边缘检测方法,基于统计的灰度共生矩阵、自相关函数等方法,基于深度学习的纹理检测方法,在实际实现过程中,纹理分割子模型进行纹理分割的具体实现方式可以根据实际需求进行选择,本实施例对此不做特别限制。
可以理解的是,纹理分割可以实现对目标区域与图像质量的双重验证。若纹理分割界限较为清晰,则侧面对图像质量结果有一定验证作用,表示第一图像较为清晰。若目标区域的纹理不连续或缺失,则该目标区域可能被遮挡,应被抑制输出。
S404、获取第二卷积层输出的第二卷积数据。
上述介绍了纹理分割子模型的处理方法,以及在一种可能的实现方式中,本实施例中的图像质量子模型需要的是第二卷积层的特征数据,则可以获取第二卷积层输出的第二卷积数据,在一种可能的实现方式中,本实施例中的第二卷积数据通同样可以为第一图像的图像特征。
例如可以在通过第一卷积层对第一图像进行卷积处理,得到第一卷积数据之后,进一步通过第二卷积层对第一卷积数据进行卷积处理,从而得到第二卷积数据。
S405、通过图像质量子模型对第二卷积数据进行质量识别处理,得到图像质量信息。
本实施例中的第二卷积层输出的第二卷积数据可以作为图像质量子模型的输入,以使得图像质量子模型对第二卷积数据对应的图像特征进行质量识别处理,从而得到图像质量信息。
可以理解的是,本实施例中的图像质量信息可以为指示图像的模糊程度的信息,在一种可能的实现方式中,图像质量子模型可以根据第二卷积数据对应的图像特征进行处理,从而输出特征激活值,其中特征激活值就可以作为图像激活信息,指示第一图像的模糊程度。
其中,特征激活值越大,表示图像越模糊,那么无法提取出POI的概率也越大;相应的,特征激活值越小,表示图像越清晰,那么可以提取出POI的概率一页越大,因此通过图像质量子模型对图像的模糊程度进行判定,从而可以是对负样本进行筛选,也就是说不将模糊图像的目标区域传输至下一环节,并且图像质量的判断进需要较底层的特征表达,因此根据第二卷积层的图像特征就可以实现对图像质量的判定。
其中,图像质量子模型进行质量识别处理的处理方式可以包括但不限于如下介绍的方式:基于图像的梯度和相位一致性的评判方法,基于拉普拉斯变换和求方差的数学方法,基于深度学习的招牌质量回归算法,在实际实现过程中,图像质量子模型进行质量识别处理的具体实现方式可以根据实际需求进行选择,本实施例对此不做特别限制。
S406、获取网络层输出的第一图像的图像特征信息。
上述介绍了纹理分割子模型和图像质量子模型的处理方法,以及在一种可能的实现方式中,本实施例中的区域检测子模型需要的是网络层输出的特征数据,则可以获取网络层输出的第一图像的图像特征数据。
例如可以在通过第一卷积层对第一图像进行卷积处理,得到第一卷积数据,以及通过第二卷积层对第一卷积数据进行卷积处理,得到第二卷积数据之后,通过网络层对第二卷积数据进行特征提取处理,从而得到第一图像的图像特征信息。可以理解的是,这些特征层输出的特征数据是各个子模型可以共享的,并且这个特征提取的处理过程只需要执行一遍,之后各个子模型从各自对应的特征层进行特征的获取,以执行相应的处理过程即可,因此各个子模型之间是可以并行的执行数据处理的。
S407、通过区域检测子模型对图像特征信息进行目标检测处理,得到目标区域。
本实施例中的网络层输出的第一图像的图像特征信息可以作为区域检测子模型的输入,以使得区域检测子模型对图像特征信息进行目标检测处理,从而得到目标区域。可以理解的是,本实施例中的目标区域实际上就是当前第一模型检测得到的招牌区域。
目前,随着深度学习理论的突破,目标检测技术也得到了极大的进步,目标检测网络可以包括anchor-based(Faster-RCNN、RetinaNet等)和anchor-free方法(CenterNet、CornerNet等),其中,anchor-based方法为有锚的处理方法,anchor-free方法为无锚的处理方法,anchor-based方法和anchor-free方法的区别就在于有没有利用anchor(锚)提取候选目标框,上述介绍的Faster-RCNN、RetinaNet、CenterNet、CornerNet均为目标检测算法。
其中,区域检测子模型进行目标检测处理的处理方式可以包括但不限于如下介绍的方式:基于anchor的两阶段方法,基于anchor的一阶段方法,基于anchor-free的方法。在实际实现过程中,区域检测子模型进行目标检测处理的具体实现方式可以根据实际需求进行选择,本实施例对此不做特别限制。
S408、获取场景识别子模型输出的第一图像对应的场景类型。
以及,本实施例中还可以获取场景识别子模型输出的第一图像对应的场景类型,其中场景类型例如可以为室内、街道等等的场景类型,可以理解的是,场景识别子模型输出的场景类型相当于对整张第一图像的语义信息的指导,则根据场景类型就可以理解当前的第一图像所处的环境。
在一种可能的实现方式中,场景识别子模型采用的是特征金字塔中的最高层语义特征,则如图5所示,可以将特征金字塔的最高层语义特征层作为场景识别子模型的输入,以使得场景识别子模型基于最高层语义特征对图像整体的语义信息进行理解,从而输出第一图像对应的场景类型。
之后根据第一图像对应的场景类型,指导检测出的目标区域是否流入下一生产流程,也就是说通过对招牌区域周围的环境的理解,从而指示当前的招牌区域是否进行输出。
在本实施例中,在进行招牌提取的时候,会按照一定的需求进行提取,则例如会设置目标类型,其中目标类型就是用于指示当前需要在什么场景类型下进行招牌区域的提取,目标类型例如可以为室内、街道等等,本实施例对此不做限制,其可以根据实际需求进行选择。
可以理解的是,场景类型例如可以实现对目标区域的验证,根据场景类型可以确定当前的第一图像是否为符合任务需求的环境图像,对于不符合任务需求的环境图像,则该图像中的所有目标区域都会被抑制。
比如说当前的任务需求是提取室内的招牌区域,但是第一图像对应的场景类型为街道,则可以确定第一图像为不符合任务需求的环境图像,从而可以将第一图像对应的目标区域进行抑制,也就是说可能不向下一个环节进行传输。
因此在一种可能的实现方式中,本实施例中可以根据场景类型与目标类型的相似度,确定类型系数,其中类型系数就可以指示第一图像是否为符合任务需求的环境图像,在一种可能的实现方式中,例如可以根据相关的算法对场景类型和目标类型进行处理,从而确定类型系数。
S409、获取语义分割子模型输出的第一图像对应的语义信息,语义信息中包括第一图像中各个像素点对应的语义结果。
以及,本实施例中还可以获取语义分割子模型输出的第一图像对应的语义信息,其中语义信息中包括第一图像中各个像素点对应的语义结果,语义结果例如可以为招牌、树木、街道、行人等等的语义信息。
可以理解的是,上述介绍的场景识别子模型输出的场景类型相当于对整张第一图像的语义信息的指导,而此处介绍的语音分割子模型输出的第一图像对应的语义信息相当于对第一图像中的各个像素点的语义信息的指导。
在一种可能的实现方式中,语义分割子模型采用的是特征金字塔中的最高层语义特征,则如图5所示,可以将特征金字塔的最高层语义特征层作为语义分割子模型的输入,以使得语义分割子模型基于最高层语义特征进行逐像素的语义分类,从而输出第一图像中各个像素点对应的语义结果。
在本实施例中,语义信息包括第一图像中的各个像素点的语义结果,则可以
其中语义分割同样可以实现对目标区域的验证。对于检测到的目标区域,与其对应的语义分割区域进行对比,若语义分割区域中不包含检测到的目标区域,则说明该目标区域可能需要抑制,若目标区域和语义分割区域的交并比较小,则说明该目标区域可能存在遮挡。
比如说当前根据各个像素点的语义信息,将语义信息为“招牌”的像素点作为语义分割区域,之后将语义分割区域和目标区域进行比较,从而可以从一定程度上指示当前的目标区域是否需要输入至下一环节。
S410、根据纹理信息、图像质量信息、场景类型、语义信息和目标区域,确定目标区域的指示参数。
在一种可能的实现方式中,基于上述介绍可以确定的是,纹理信息、图像质量信息、场景类型和语义信息对目标区域是否输出至下一环节,都有一定的指导作用,则例如可以将纹理信息、图像质量信息、场景类型、语义信息和目标区域输入至预设算法中,从而得到目标区域的指示参数,其中预设算法的具体实现方式可以根据实际需求进行选择,只要其可以根据上述介绍的各个信息的指导作用进行设计即可。
在另一种可能的实现方式中,还可以针对每一个子模型输出的相关信息,确定对应的系数,此处的系数就可以指示对目标区域的指示参数的指导,例如可以根据场景类型与目标类型的相似度,确定类型系数;在语义信息中获取语义结果为预设语义结果的各个像素点,将语义结果为预设语义结果的各个像素点组成的区域确定为第一语义区域,根据目标区域和第一语义区域的交集,确定语义系数;获取纹理信息对应的纹理系数、以及图像质量信息对应的质量系数;根据类型系数、语义系数、纹理系数和质量系数,确定目标区域的指示参数。
上述确定各个信息对应的系数的实现方式可以根据实际需求进行选择,例如可以根据相应的算法对信息进行处理,从而得到对应的系数。
可以理解的是,上述介绍的确定语义系数的实现方式中,预设语义结果例如可以为招牌区域,那么上述介绍的确定语义系数的实现方式就为,将第一图像中的语义结果为招牌区域的各个像素点,确定为第一语义区域,之后根据目标区域和第一语义区域的重合,确定语义系数。
在实际实现过程中,确定目标区域的指示参数的实现方式可以根据实际需求进行选择,本实施例对此不做限制,如图6所示,只要目标区域的指示参数是根据纹理信息、图像质量信息、场景类型、语义信息和目标区域确定的即可。
S411、判断目标区域的指示参数是否大于或等于预设阈值,若是,则执行S412,若否,则执行S413。
本实施例中的目标区域的指示参数可以指示是否输出目标区域,在一种可能的实现方式中,可以根据目标区域的指示参数和预设阈值进行比较,从而确定是否需要输出目标区域。
其中,预设阈值的具体设置可以根据实际需求进行选择,本实施例对此不做限制。
S412、将目标区域输出至第二模型,第二模型用于对第一图像进行招牌内容检测。
在一种可能的实现方式中,若确定目标区域的指示参数大于或等于预设阈值,则可以确定当前目标区域提取出POI信息的概率较大,则可以将目标区域输出至第二模型,其中,第二模型为第一模型的下一环节,在一种可能的实现方式中,第二模型用于对第一图像进行招牌内容检测。
S413、不将目标区域输出至第二模型。
在另一种可能的实现方式中,若确定目标区域的指示参数小于预设阈值,则可以确定当前目标区域提取出POI信息的概率较小,为了节省计算资源,则可以不将目标区域输出至第二模型,相当于在当前环节直接对目标区域进行了过滤。
本公开实施例提供的图像处理方法,通过各个子模型对第一模型中的各个特征层中的特征进行共享,从而可以有效实现各个子模型之间的并行处理,有效提升了招牌提取的效率,同时通过在同一个模型的网络中实现特征层的共享,还有效节省了计算资源,本实施例中在确定目标区域之后,还根据纹理信息、图像质量信息、场景类型、语义信息和目标区域,确定了目标区域的指示参数,之后根据目标区域的指示参数和预设阈值进行比较,从而确定是否将目标区域输入至下一环节,从而可以在第一模型的处理环节中实现对负样本的筛选,以有效提升了POI信息提取的整个系统的处理效率,同时节省了计算资源。
可以理解的是,要实现对第一模型的使用,就需要对第一模型进行训练,在上述实施例的基础上,下面结合图7对本公开中的模型训练方法进行介绍,图7为本公开实施例提供的模型训练方法的流程图。
如图7所示,该方法包括:
S701、获取初始模型,初始模型包括的网络层、串联的N个卷积层、区域检测子模型和每个卷积层对应的子模型,N个卷积层和网络层串联连接,每个卷积层与对应的子模型连接,网络层与区域检测子模型连接,N为大于或等于1的整数。
在本实施例中,可以首先获取初始模型,其中,初始模型与上述实施例介绍的第一模型的网络结构类似,可以理解的是,初始模型实际上就是还没有进行训练的第一模型,在读初始模型进行训练完成之后,就可以得到第一模型。
S702、通过初始模型对样本图像进行处理,得到每个卷积层对应的子模型输出的第一图像识别信息、以及区域检测子模型输出的在样本图像中识别得到的第一区域。
在本实施例中,样本图像就是用于进行模型训练的图像,样本图像的具体内容、格式等均可以根据实际需求进行选择,本实施例对此不做限制,可以通过初始模型对样本图像进行处理,从而得到每个卷积层对应的子模型输出的第一图像识别信息、以及区域检测子模型输出的在样本图像中识别得到的第一区域。
其中,第一图像识别信息与上述实施例中介绍的图像识别信息类似,此处介绍的第一区域与上述介绍的目标区域类似,不同之处在于,当前实施例中得到的第一图像识别信息和第一区域是在模型训练过程中得到的数据,其余的实现方式均类似,此处对此不再进行赘述。
S703、根据第i个卷积层对应的子模型的标记图像识别信息、以及第i个卷积层对应的子模型输出的第一图像识别信息,对第i个卷积层对应的子模型的模型参数、以及前i个卷积层的模型参数进行更新处理,i为1、2、……、N。
可以理解的是,在模型训练过程中,为了使得模型可以进行有效的学习,样本图像对应的标记图像识别信息是已知的,其中,标记图像识别信息可以理解为是已知正确的图像识别信息。
则可以根据第i个卷积层对应的子模型的标记图像识别信息、以及第i个卷积层对应的子模型输出的第一图像识别信息,对第i个卷积层对应的子模型的模型参数、以及前i个卷积层的模型参数进行更新处理。
比如说可以根据第2个卷积层对应的子模型的标记图像识别信息,以及第2个卷积层对应的子模型的输出的第一图像识别信息,进行梯度下降更新,从而对第2个卷积层对应的子模型的模型参数进行更新,以及还可以对第1个卷积层和第2个卷积层的模型参数进行更新。
S704、根据区域检测子模型对应的标记区域和第一区域,对区域检测子模型、N个卷积层以及网络层的模型参数进行更新处理。
同样的,在模型训练过程中,为了使得模型可以进行有效的学习,样本图像对应的标记区域是已知的,其中,标记区域可以理解为是已知正确的招牌区域。
则例如可以根据区域检测子模型对应的标记区域和第一区域,进行梯度下降更新,从而对区域检测子模型的模型参数进行更新,以及对N个卷积层和网络层的模型参数进行更新。
在各个第一模型中的各个子模型、各个卷积层以及网络层的模型参数均更新完成之后,即实现了对初始模型的训练,从而可以得到第一模型,之后就可以根据第一模型执行上述介绍的各项处理过程了。
基于当前介绍的模型参数更新过程可以理解的是,本实施例中是联合在线训练所有的子模型,对于各个单个的子模型所用的网络部分,例如可以仅回传该子模型对应的梯度,从而实现对当前子模型的模型参数的更新。而对于共享特征的子网络部分,也就是卷积层、网络层的部分,是通过各自对应的子模型共同实现更新的,例如可以通过加权的方式实现不同子模型之间对各个特征层的梯度的共享,从而实现对共享特征层部分的更新,从而可以实现对不同人物的子模型进行联合优化,共同新联,以达到各种人物优化方向的平衡。
本公开实施例提供的模型训练方法,包括:获取初始模型,初始模型包括的网络层、串联的N个卷积层、区域检测子模型和每个卷积层对应的子模型,N个卷积层和网络层串联连接,每个卷积层与对应的子模型连接,网络层与区域检测子模型连接,N为大于或等于1的整数。通过初始模型对样本图像进行处理,得到每个卷积层对应的子模型输出的第一图像识别信息、以及区域检测子模型输出的在样本图像中识别得到的第一区域。根据第i个卷积层对应的子模型的标记图像识别信息、以及第i个卷积层对应的子模型输出的第一图像识别信息,对第i个卷积层对应的子模型的模型参数、以及前i个卷积层的模型参数进行更新处理,i为1、2、……、N。根据区域检测子模型对应的标记区域和第一区域,对区域检测子模型、N个卷积层以及网络层的模型参数进行更新处理。通过对各个子模型进行单独的模型系数更新,以及对共享特征的网络部分,按照各自对应的子模型进行共同更新,从而可以有效实现对初始模型中的各个网络部分的联合在线训练,以有效提升模型训练的处理效率。
在上述实施例的基础上,下面结合图8对模型训练方法进行进一步的详细介绍,图8为本公开实施例提供的模型训练方法的流程图二。
如图8所示,该方法包括:
S801、获取初始模型,初始模型包括的网络层、串联的N个卷积层、区域检测子模型和每个卷积层对应的子模型,N个卷积层和网络层串联连接,每个卷积层与对应的子模型连接,网络层与区域检测子模型连接,N为大于或等于1的整数。
其中,S801的实现方式与上述介绍的S701的实现方式类似。
在一种可能的实现方式中,本实施例中的N个卷积层包括第一卷积层和第二卷积层;其中,第一卷积层对应纹理分割子模型,第二卷积层对应图像质量子模型;纹理分割子模型输出的第一图像识别信息为第一纹理信息,图像质量子模型输出的第一图像识别信息为第一图像质量信息。
其中,图像质量子模型、纹理分割子模型,以及这两个子模型对应输出的信息与上述实施例中介绍的类似,此处不再赘述。
S802、通过初始模型对样本图像进行处理,得到每个卷积层对应的子模型输出的第一图像识别信息、以及区域检测子模型输出的在样本图像中识别得到的第一区域。
其中,S802的实现方式与上述S702的实现方式类似,此处不再赘述。
S803、根据第一纹理信息和样本图像对应的标记纹理信息,对纹理分割子模型和第一卷积层的模型参数进行更新处理。
在本实施例中,样本图像对应的标记纹理信息是已知的,可以理解的是,标记纹理信息可以理解为在样本图像中已知正确的纹理信息,则可以根据第一纹理信息和标记纹理信息,对纹理分割子模型的模型参数进行更新处理。
以及因为纹理分割子模型应用的是第一卷积层中的特征,因此还可以根据第一纹理信息和标记纹理信息,对第一卷积层的模型参数进行更新处理。
S804、根据第一图像质量信息和样本图像对应的标记图像质量信息,对图像质量子模型、第一卷积层和第二卷积层的模型参数进行更新处理。
在本实施例中,样本图像对应的标记图像质量信息是已知的,可以理解的是,标记图像质量信息可以理解为在样本图像中已知正确的图像质量信息,则可以根据第一图像质量信息和标记图像质量信息,对图像质量子模型的模型参数进行更新处理。
以及因为图像质量子模型应用的是第二卷积层中的特征,第二卷积层是在第一卷积层的基础上得到的,因此还可以根据第一图像质量信息和标记图像质量信息,对第一卷积层和第二卷积层的模型参数进行更新处理。
S805、根据区域检测子模型对应的标记区域和第一区域,对区域检测子模型、N个卷积层以及网络层的模型参数进行更新处理。
在本实施例中,样本图像对应的标记区域是已知的,则可以根据标记区域和第一区域,对区域检测子模型的模型参数进行更新处理。
以及因为区域检测子模型应用的是网络层中的特征,网络层是在第一卷积层、第二卷积层的基础上得到的,因此还可以根据标记区域和第一区域,对N个卷积层以及网络层的模型参数进行更新处理。
S806、获取场景识别子模型输出的样本图像对应的第一场景类型。
以及,本实施例中的第一模型中还包括场景识别子模型,场景识别子模型对样本图像进行处理,可以输出样本图像对应的第一场景类型,其中,场景识别子模型和第一场景类型的实现方式与上述介绍的类似,此处不再赘述。
S807、获取语义分割子模型输出的样本图像对应的第一语义信息。
以及,本实施例中的第一模型中还包括语义分割子模型,语义分割子模型对样本图像进行处理,可以输出样本图像对应的第一语义信息,其中,语义分割子模型和第一语义信息的实现方式与上述介绍的类似,此处不再赘述。
S808、根据第一场景类型和样本图像对应的标记场景类型,对场景识别子模型、第一卷积层、第二卷积层和网络层的模型参数进行更新处理。
在本实施例中,样本图像对应的标记场景类型是已知的,可以理解的是,标记场景类型可以理解为在样本图像中已知正确的场景类型,则可以根据第一场景类型和标记场景类型,对场景识别子模型的模型参数进行更新处理。
以及因为场景识别子模型应用的是网络层中的特征,网络层是在第一卷积层、第二卷积层的基础上得到的,因此还可以根据第一场景类型和标记场景类型,对第一卷积层、第二卷积层和网络层的模型参数进行更新处理。
S809、根据第一语义信息和样本图像对应的标记语义信息,对语义分割子模型、第一卷积层、第二卷积层和网络层的模型参数进行更新处理。
在本实施例中,样本图像对应的标记语义信息是已知的,可以理解的是,标记语义信息可以理解为在样本图像中已知正确的语义信息,则可以根据第一语义信息和标记语义信息,对语义分割子模型的模型参数进行更新处理。
以及因为语义分割子模型应用的是网络层中的特征,网络层是在第一卷积层、第二卷积层的基础上得到的,因此还可以根据第一语义信息和标记语义信息,对第一卷积层、第二卷积层和网络层的模型参数进行更新处理。
在一种可能的实现方式中,上述介绍的对各个网络的模型参数进行更新处理的实现方式例如可以为,通过梯度下降更新算法进行更新,则在模型参数进行更新处理的过程中,就需要进行梯度回传。
基于上述介绍可以确定的是,各个子模型仅需要根据各自对应的数据进行模型更新即可,则针对各个单任务所用的子模型部分,仅回传该任务对应子模型的梯度即可。而对应共享特征的网络部分,也就是上述介绍的卷积层和网络层,因为后续的各个子模型在不同的特征层上有相应的应用,则可以通过加权的方式实现不同任务的子模型之间对梯度的贡献。
例如结合上述的介绍可以确定的是,第一卷积层的模型参数的更新就应用到了第一纹理信息和标记纹理信息、第一图像质量信息和标记图像质量信息、标记区域和第一区域、第一场景类型和标记场景类型、第一语义信息和标记语义信息,则例如可以通过加权的方式,结合这些不同的子模型之间对梯度的不同贡献,从而实现对第一卷积层模型系数的更新。其余的各个共享特征层的网络部分进行模型更新的实现方式类似,此处不再赘述。
本公开实施例提供的模型训练方法,通过对单个任务所用的子模型的网络部分,仅回传该任务的子模型的梯度,对于共享特征的网络部分,通过加权的方式实现不同任务对应的子模型对梯度的不同贡献,从而实现梯度回传,可以有效的联合在线训练所有任务,以实现对不同任务的子模型进行联合优化,以达到各种任务优化方向上的平衡,进而可以准确有效的实现对初始模型的训练,从而得到第一模型。
综上所述,本公开提供了一种图像处理方法和模型训练方法,其中,设计了一种包含多种任务流程的集成模型,提高招牌提取流程的整体提取效率,消除了单一任务对整体流程的效率限制。同时提出了针对多任务的训练方法,该方法可以很好的平衡多个不相干任务之间的训练,不同任务之间起到弱监督作用,相比以往级联串行结构能显著提升各单任务的精度和召回。
图9为本公开实施例的图像处理装置的结构示意图。如图9所示,本实施例的图像处理装置900可以包括:确定模块901、获取模块902、处理模块903、输出模块904。
确定模块901,用于确定对第一图像进行处理的第一模型,所述第一模型包括网络层、串联的N个卷积层、区域检测子模型和每个卷积层对应的子模型,所述N个卷积层和所述网络层串联连接,每个卷积层与对应的子模型连接,所述网络层与所述区域检测子模型连接,所述N为大于或等于1的整数;
获取模块902,用于将所述第一图像输入至所述第一模型,以获取每个卷积层对应的子模型输出的图像识别信息、以及所述区域检测子模型输出的在所述第一图像中识别得到的目标区域;
处理模块903,用于根据每个卷积层对应的子模型输出的图像识别信息和所述目标区域,确定所述目标区域的指示参数,其中,所述指示参数用于指示是否输出所述目标区域;
输出模块904,用于根据所述指示参数,输出所述目标区域。
一种可能的实现方式中,所述获取模块902具体用于:
将所述第一图像输入至所述第一模型中的第一个卷积层,并控制第i个卷积层的输出作为第i+1个卷积层、以及所述第i个卷积层对应的子模型的输入,所述i为1、2、……、N-1;
控制第N个卷积层的输出作为所述网络层和所述第N个卷积层对应的子模型的输入,以及控制所述网络层的输出作为所述区域检测子模型的输入;
将每个卷积层对应的子模型的输出结果确定为图像识别信息,以及将所述区域检测子模型的输出结果确定为所述目标区域。
一种可能的实现方式中,所述N个卷积层包括第一卷积层和第二卷积层,所述第一卷积层对应纹理分割子模型,所述第二卷积层对应图像质量子模型;
所述获取模块902具体用于:
将所述第一图像输入至所述第一模型,以获取所述纹理分割子模型输出的所述第一图像的纹理信息,以及获取所述图像质量子模型输出的所述第一图像的图像质量信息,以及获取所述区域检测子模型输入的所述目标区域。
一种可能的实现方式中,所述获取模块902具体用于:
获取所述第一卷积层输出的第一卷积数据;
通过所述纹理分割子模型对所述第一卷积数据进行纹理分割处理,得到所述纹理信息。
一种可能的实现方式中,所述获取模块902具体用于:
获取所述第二卷积层输出的第二卷积数据;
通过所述图像质量子模型对所述第二卷积数据进行质量识别处理,得到所述图像质量信息。
一种可能的实现方式中,所述获取模块902具体用于:
获取所述网络层输出的所述第一图像的图像特征信息;
通过所述区域检测子模型对所述图像特征信息进行目标检测处理,得到所述目标区域。
一种可能的实现方式中,所述第一模型还包括场景识别子模型和语义分割子模型,所述场景识别子模型和所述语义分割子模型分别与所述网络层连接,所述获取模块902还用于:
获取所述场景识别子模型输出的所述第一图像对应的场景类型;
获取所述语义分割子模型输出的所述第一图像对应的语义信息,所述语义信息中包括所述第一图像中各个像素点对应的语义结果。
一种可能的实现方式中,所述处理模块903具体用于:
根据所述纹理信息、所述图像质量信息、所述场景类型、所述语义信息和所述目标区域,确定所述目标区域的指示参数。
一种可能的实现方式中,所述输出模块904具体用于:
判断所述目标区域的指示参数是否大于或等于预设阈值;
若是,则将所述目标区域输出至第二模型,所述第二模型用于对所述第一图像进行招牌内容检测。
图10为本公开实施例的模型训练装置的结构示意图。如图10所示,本实施例的模型训练装置1000可以包括:获取模块1001、处理模块1002、更新模块1003。
获取模块1001,用于获取初始模型,所述初始模型包括的网络层、串联的N个卷积层、区域检测子模型和每个卷积层对应的子模型,所述N个卷积层和所述网络层串联连接,每个卷积层与对应的子模型连接,所述网络层与所述区域检测子模型连接,所述N为大于或等于1的整数;
处理模块1002,用于通过所述初始模型对样本图像进行处理,得到每个卷积层对应的子模型输出的第一图像识别信息、以及所述区域检测子模型输出的在所述样本图像中识别得到的第一区域;
更新模块1003,用于根据第i个卷积层对应的子模型的标记图像识别信息、以及所述第i个卷积层对应的子模型输出的第一图像识别信息,对所述第i个卷积层对应的子模型的模型参数、以及前i个卷积层的模型参数进行更新处理,所述i为1、2、……、N;
所述更新模块1003,还用于根据所述区域检测子模型对应的标记区域和所述第一区域,对所述区域检测子模型、所述N个卷积层以及所述网络层的模型参数进行更新处理。
一种可能的实现方式中,所述N个卷积层包括第一卷积层和第二卷积层;其中,
所述第一卷积层对应纹理分割子模型,所述第二卷积层对应图像质量子模型;
所述纹理分割子模型输出的第一图像识别信息为第一纹理信息,所述图像质量子模型输出的第一图像识别信息为第一图像质量信息。
一种可能的实现方式中,所述更新模块1003具体用于:
根据所述第一纹理信息和所述样本图像对应的标记纹理信息,对所述纹理分割子模型和所述第一卷积层的模型参数进行更新处理;
根据所述第一图像质量信息和所述样本图像对应的标记图像质量信息,对所述图像质量子模型、所述第一卷积层和所述第二卷积层的模型参数进行更新处理。
一种可能的实现方式中,所述初始模型还包括场景识别子模型和语义分割子模型,所述场景识别子模型和所述语义分割子模型分别与所述网络层连接,所述获取模块1001还用于:
获取所述场景识别子模型输出的所述样本图像对应的第一场景类型;
获取所述语义分割子模型输出的所述样本图像对应的第一语义信息。
一种可能的实现方式中,所述更新模块1003具体用于:
根据所述第一场景类型和所述样本图像对应的标记场景类型,对所述场景识别子模型、所述第一卷积层、所述第二卷积层和所述网络层的模型参数进行更新处理;
根据所述第一语义信息和所述样本图像对应的标记语义信息,对所述语义分割子模型、所述第一卷积层、所述第二卷积层和所述网络层的模型参数进行更新处理。
本公开提供一种图像处理方法及装置,应用于数据处理领域中的人工智能技术,以达到提升招牌提取的处理效率的目的。
根据本公开的实施例,本公开还提供了一种电子设备和一种可读存储介质。
根据本公开的实施例,本公开还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
图8示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图11所示,电子设备1100包括计算单元1101,其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序,来执行各种适当的动作和处理。在RAM 1103中,还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
设备1100中的多个部件连接至I/O接口1105,包括:输入单元1106,例如键盘、鼠标等;输出单元1107,例如各种类型的显示器、扬声器等;存储单元1108,例如磁盘、光盘等;以及通信单元1109,例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理,例如图像处理方法以及模型训练方法。例如,在一些实施例中,图像处理方法以及模型训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1108。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时,可以执行上文描述的图像处理方法以及模型训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元1101可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行图像处理方法以及模型训练方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (24)
1.一种图像处理方法,包括:
确定对第一图像进行处理的第一模型,所述第一模型包括网络层、串联的N个卷积层、区域检测子模型和每个卷积层对应的子模型,所述N个卷积层和所述网络层串联连接,每个卷积层与对应的子模型连接,所述网络层与所述区域检测子模型连接,所述N为大于或等于1的整数;
将所述第一图像输入至所述第一模型,以获取每个卷积层对应的子模型输出的图像识别信息、以及所述区域检测子模型输出的在所述第一图像中识别得到的目标区域;
根据每个卷积层对应的子模型输出的图像识别信息和所述目标区域,确定所述目标区域的指示参数,其中,所述指示参数用于指示是否输出所述目标区域;
根据所述指示参数,输出所述目标区域;
所述将所述第一图像输入至所述第一模型,以获取每个卷积层对应的子模型输出的图像识别信息、以及所述区域检测子模型输出的在所述第一图像中识别得到的目标区域,包括:
将所述第一图像输入至所述第一模型中的第一个卷积层,并控制第i个卷积层的输出作为第i+1个卷积层、以及所述第i个卷积层对应的子模型的输入,所述i为1、2、……、N-1;
控制第N个卷积层的输出作为所述网络层和所述第N个卷积层对应的子模型的输入,以及控制所述网络层的输出作为所述区域检测子模型的输入;
将每个卷积层对应的子模型的输出结果确定为图像识别信息,以及将所述区域检测子模型的输出结果确定为所述目标区域;
所述N个卷积层包括第一卷积层和第二卷积层,所述第一卷积层对应纹理分割子模型,所述第二卷积层对应图像质量子模型;
将所述第一图像输入至所述第一模型,以获取每个卷积层对应的子模型输出的图像识别信息、以及所述区域检测子模型输出的在所述第一图像中识别得到的目标区域,包括:
将所述第一图像输入至所述第一模型,以获取所述纹理分割子模型输出的所述第一图像的纹理信息,以及获取所述图像质量子模型输出的所述第一图像的图像质量信息,以及获取所述区域检测子模型输入的所述目标区域。
2.根据权利要求1所述的方法,其中,所述将所述第一图像输入至所述第一模型,以获取所述纹理分割子模型输出的所述第一图像的纹理信息,包括:
获取所述第一卷积层输出的第一卷积数据;
通过所述纹理分割子模型对所述第一卷积数据进行纹理分割处理,得到所述纹理信息。
3.根据权利要求1所述的方法,其中,所述将所述第一图像输入至所述第一模型,以获取所述图像质量子模型输出的所述第一图像的图像质量信息,包括:
获取所述第二卷积层输出的第二卷积数据;
通过所述图像质量子模型对所述第二卷积数据进行质量识别处理,得到所述图像质量信息。
4.根据权利要求1所述的方法,其中,所述将所述第一图像输入至所述第一模型,获取所述区域检测子模型输入的所述目标区域,包括:
获取所述网络层输出的所述第一图像的图像特征信息;
通过所述区域检测子模型对所述图像特征信息进行目标检测处理,得到所述目标区域。
5.根据权利要求1-4任一项所述的方法,其中,所述第一模型还包括场景识别子模型和语义分割子模型,所述场景识别子模型和所述语义分割子模型分别与所述网络层连接,所述方法还包括:
获取所述场景识别子模型输出的所述第一图像对应的场景类型;
获取所述语义分割子模型输出的所述第一图像对应的语义信息,所述语义信息中包括所述第一图像中各个像素点对应的语义结果。
6.根据权利要求5所述的方法,其中,所述根据每个卷积层对应的子模型输出的图像识别信息和所述目标区域,确定所述目标区域的指示参数,包括:
根据所述纹理信息、所述图像质量信息、所述场景类型、所述语义信息和所述目标区域,确定所述目标区域的指示参数。
7.根据权利要求1-4、6任一项所述的方法,其中,所述根据所述指示参数,输出所述目标区域,包括:
判断所述目标区域的指示参数是否大于或等于预设阈值;
若是,则将所述目标区域输出至第二模型,所述第二模型用于对所述第一图像进行招牌内容检测。
8.一种模型训练方法,包括:
获取初始模型,所述初始模型包括的网络层、串联的N个卷积层、区域检测子模型和每个卷积层对应的子模型,所述N个卷积层和所述网络层串联连接,每个卷积层与对应的子模型连接,所述网络层与所述区域检测子模型连接,所述N为大于或等于1的整数;
通过所述初始模型对样本图像进行处理,得到每个卷积层对应的子模型输出的第一图像识别信息、以及所述区域检测子模型输出的在所述样本图像中识别得到的第一区域;
根据第i个卷积层对应的子模型的标记图像识别信息、以及所述第i个卷积层对应的子模型输出的第一图像识别信息,对所述第i个卷积层对应的子模型的模型参数、以及前i个卷积层的模型参数进行更新处理,所述i为1、2、……、N;
根据所述区域检测子模型对应的标记区域和所述第一区域,对所述区域检测子模型、所述N个卷积层以及所述网络层的模型参数进行更新处理;
所述N个卷积层包括第一卷积层和第二卷积层;其中,
所述第一卷积层对应纹理分割子模型,所述第二卷积层对应图像质量子模型;
所述纹理分割子模型输出的第一图像识别信息为第一纹理信息,所述图像质量子模型输出的第一图像识别信息为第一图像质量信息。
9.根据权利要求8所述的方法,其中,所述根据第i个卷积层对应的子模型的标记图像识别信息、以及所述第i个卷积层对应的子模型输出的样本图像识别信息,对所述第i个卷积层对应的子模型的模型参数、以及前i个卷积层的模型参数进行更新处理,包括:
根据所述第一纹理信息和所述样本图像对应的标记纹理信息,对所述纹理分割子模型和所述第一卷积层的模型参数进行更新处理;
根据所述第一图像质量信息和所述样本图像对应的标记图像质量信息,对所述图像质量子模型、所述第一卷积层和所述第二卷积层的模型参数进行更新处理。
10.根据权利要求8或9所述的方法,其中,所述初始模型还包括场景识别子模型和语义分割子模型,所述场景识别子模型和所述语义分割子模型分别与所述网络层连接,所述方法还包括:
获取所述场景识别子模型输出的所述样本图像对应的第一场景类型;
获取所述语义分割子模型输出的所述样本图像对应的第一语义信息。
11.根据权利要求10所述的方法,所述方法还包括:
根据所述第一场景类型和所述样本图像对应的标记场景类型,对所述场景识别子模型、所述第一卷积层、所述第二卷积层和所述网络层的模型参数进行更新处理;
根据所述第一语义信息和所述样本图像对应的标记语义信息,对所述语义分割子模型、所述第一卷积层、所述第二卷积层和所述网络层的模型参数进行更新处理。
12.一种图像处理装置,包括:
确定模块,用于确定对第一图像进行处理的第一模型,所述第一模型包括网络层、串联的N个卷积层、区域检测子模型和每个卷积层对应的子模型,所述N个卷积层和所述网络层串联连接,每个卷积层与对应的子模型连接,所述网络层与所述区域检测子模型连接,所述N为大于或等于1的整数;
获取模块,用于将所述第一图像输入至所述第一模型,以获取每个卷积层对应的子模型输出的图像识别信息、以及所述区域检测子模型输出的在所述第一图像中识别得到的目标区域;
处理模块,用于根据每个卷积层对应的子模型输出的图像识别信息和所述目标区域,确定所述目标区域的指示参数,其中,所述指示参数用于指示是否输出所述目标区域;
输出模块,用于根据所述指示参数,输出所述目标区域;
所述获取模块具体用于:
将所述第一图像输入至所述第一模型中的第一个卷积层,并控制第i个卷积层的输出作为第i+1个卷积层、以及所述第i个卷积层对应的子模型的输入,所述i为1、2、……、N-1;
控制第N个卷积层的输出作为所述网络层和所述第N个卷积层对应的子模型的输入,以及控制所述网络层的输出作为所述区域检测子模型的输入;
将每个卷积层对应的子模型的输出结果确定为图像识别信息,以及将所述区域检测子模型的输出结果确定为所述目标区域;
所述N个卷积层包括第一卷积层和第二卷积层,所述第一卷积层对应纹理分割子模型,所述第二卷积层对应图像质量子模型;
所述获取模块具体用于:
将所述第一图像输入至所述第一模型,以获取所述纹理分割子模型输出的所述第一图像的纹理信息,以及获取所述图像质量子模型输出的所述第一图像的图像质量信息,以及获取所述区域检测子模型输入的所述目标区域。
13.根据权利要求12所述的装置,其中,所述获取模块具体用于:
获取所述第一卷积层输出的第一卷积数据;
通过所述纹理分割子模型对所述第一卷积数据进行纹理分割处理,得到所述纹理信息。
14.根据权利要求12所述的装置,其中,所述获取模块具体用于:
获取所述第二卷积层输出的第二卷积数据;
通过所述图像质量子模型对所述第二卷积数据进行质量识别处理,得到所述图像质量信息。
15.根据权利要求12所述的装置,其中,所述获取模块具体用于:
获取所述网络层输出的所述第一图像的图像特征信息;
通过所述区域检测子模型对所述图像特征信息进行目标检测处理,得到所述目标区域。
16.根据权利要求12-15任一项所述的装置,其中,所述第一模型还包括场景识别子模型和语义分割子模型,所述场景识别子模型和所述语义分割子模型分别与所述网络层连接,所述获取模块还用于:
获取所述场景识别子模型输出的所述第一图像对应的场景类型;
获取所述语义分割子模型输出的所述第一图像对应的语义信息,所述语义信息中包括所述第一图像中各个像素点对应的语义结果。
17.根据权利要求16所述的装置,其中,所述处理模块具体用于:
根据所述纹理信息、所述图像质量信息、所述场景类型、所述语义信息和所述目标区域,确定所述目标区域的指示参数。
18.根据权利要求12-15、17任一项所述的装置,其中,所述输出模块具体用于:
判断所述目标区域的指示参数是否大于或等于预设阈值;
若是,则将所述目标区域输出至第二模型,所述第二模型用于对所述第一图像进行招牌内容检测。
19.一种模型训练装置,包括:
获取模块,用于获取初始模型,所述初始模型包括的网络层、串联的N个卷积层、区域检测子模型和每个卷积层对应的子模型,所述N个卷积层和所述网络层串联连接,每个卷积层与对应的子模型连接,所述网络层与所述区域检测子模型连接,所述N为大于或等于1的整数;
处理模块,用于通过所述初始模型对样本图像进行处理,得到每个卷积层对应的子模型输出的第一图像识别信息、以及所述区域检测子模型输出的在所述样本图像中识别得到的第一区域;
更新模块,用于根据第i个卷积层对应的子模型的标记图像识别信息、以及所述第i个卷积层对应的子模型输出的第一图像识别信息,对所述第i个卷积层对应的子模型的模型参数、以及前i个卷积层的模型参数进行更新处理,所述i为1、2、……、N;
所述更新模块,还用于根据所述区域检测子模型对应的标记区域和所述第一区域,对所述区域检测子模型、所述N个卷积层以及所述网络层的模型参数进行更新处理;
所述N个卷积层包括第一卷积层和第二卷积层;其中,
所述第一卷积层对应纹理分割子模型,所述第二卷积层对应图像质量子模型;
所述纹理分割子模型输出的第一图像识别信息为第一纹理信息,所述图像质量子模型输出的第一图像识别信息为第一图像质量信息。
20.根据权利要求19所述的装置,其中,所述更新模块具体用于:
根据所述第一纹理信息和所述样本图像对应的标记纹理信息,对所述纹理分割子模型和所述第一卷积层的模型参数进行更新处理;
根据所述第一图像质量信息和所述样本图像对应的标记图像质量信息,对所述图像质量子模型、所述第一卷积层和所述第二卷积层的模型参数进行更新处理。
21.根据权利要求19或20所述的装置,其中,所述初始模型还包括场景识别子模型和语义分割子模型,所述场景识别子模型和所述语义分割子模型分别与所述网络层连接,所述获取模块还用于:
获取所述场景识别子模型输出的所述样本图像对应的第一场景类型;
获取所述语义分割子模型输出的所述样本图像对应的第一语义信息。
22.根据权利要求21所述的装置,所述更新模块具体用于:
根据所述第一场景类型和所述样本图像对应的标记场景类型,对所述场景识别子模型、所述第一卷积层、所述第二卷积层和所述网络层的模型参数进行更新处理;
根据所述第一语义信息和所述样本图像对应的标记语义信息,对所述语义分割子模型、所述第一卷积层、所述第二卷积层和所述网络层的模型参数进行更新处理。
23.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7或者权利要求8-11中任一项所述的方法。
24.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-7或者权利要求8-11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110727040.6A CN113361524B (zh) | 2021-06-29 | 2021-06-29 | 图像处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110727040.6A CN113361524B (zh) | 2021-06-29 | 2021-06-29 | 图像处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113361524A CN113361524A (zh) | 2021-09-07 |
CN113361524B true CN113361524B (zh) | 2024-05-03 |
Family
ID=77537111
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110727040.6A Active CN113361524B (zh) | 2021-06-29 | 2021-06-29 | 图像处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113361524B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110288082A (zh) * | 2019-06-05 | 2019-09-27 | 北京字节跳动网络技术有限公司 | 卷积神经网络模型训练方法、装置和计算机可读存储介质 |
WO2020221298A1 (zh) * | 2019-04-30 | 2020-11-05 | 北京金山云网络技术有限公司 | 文本检测模型训练方法、文本区域、内容确定方法和装置 |
CN112418244A (zh) * | 2020-11-02 | 2021-02-26 | 北京迈格威科技有限公司 | 目标检测方法、装置和电子系统 |
CN112633276A (zh) * | 2020-12-25 | 2021-04-09 | 北京百度网讯科技有限公司 | 训练方法、识别方法、装置、设备、介质 |
WO2021083241A1 (zh) * | 2019-10-31 | 2021-05-06 | Oppo广东移动通信有限公司 | 人脸图像质量评价方法、特征提取模型训练方法、图像处理系统、计算机可读介质和无线通信终端 |
WO2021104058A1 (zh) * | 2019-11-26 | 2021-06-03 | 中国科学院深圳先进技术研究院 | 图像分割方法、装置及终端设备 |
CN113011309A (zh) * | 2021-03-15 | 2021-06-22 | 北京百度网讯科技有限公司 | 图像识别方法、装置、设备、介质及程序产品 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018121013A1 (en) * | 2016-12-29 | 2018-07-05 | Zhejiang Dahua Technology Co., Ltd. | Systems and methods for detecting objects in images |
-
2021
- 2021-06-29 CN CN202110727040.6A patent/CN113361524B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020221298A1 (zh) * | 2019-04-30 | 2020-11-05 | 北京金山云网络技术有限公司 | 文本检测模型训练方法、文本区域、内容确定方法和装置 |
CN110288082A (zh) * | 2019-06-05 | 2019-09-27 | 北京字节跳动网络技术有限公司 | 卷积神经网络模型训练方法、装置和计算机可读存储介质 |
WO2021083241A1 (zh) * | 2019-10-31 | 2021-05-06 | Oppo广东移动通信有限公司 | 人脸图像质量评价方法、特征提取模型训练方法、图像处理系统、计算机可读介质和无线通信终端 |
WO2021104058A1 (zh) * | 2019-11-26 | 2021-06-03 | 中国科学院深圳先进技术研究院 | 图像分割方法、装置及终端设备 |
CN112418244A (zh) * | 2020-11-02 | 2021-02-26 | 北京迈格威科技有限公司 | 目标检测方法、装置和电子系统 |
CN112633276A (zh) * | 2020-12-25 | 2021-04-09 | 北京百度网讯科技有限公司 | 训练方法、识别方法、装置、设备、介质 |
CN113011309A (zh) * | 2021-03-15 | 2021-06-22 | 北京百度网讯科技有限公司 | 图像识别方法、装置、设备、介质及程序产品 |
Non-Patent Citations (2)
Title |
---|
基于快速卷积神经网络的果园果实检测试验研究;张磊;姜军生;李昕昱;宋健;解福祥;;中国农机化学报(10);全文 * |
基于改进Mask R-CNN的绝缘子目标识别方法;朱有产;王雯瑶;;微电子学与计算机(02);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113361524A (zh) | 2021-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113191256B (zh) | 车道线检测模型的训练方法、装置、电子设备及存储介质 | |
CN112560874B (zh) | 图像识别模型的训练方法、装置、设备和介质 | |
CN112633276B (zh) | 训练方法、识别方法、装置、设备、介质 | |
CN112785625A (zh) | 目标跟踪方法、装置、电子设备及存储介质 | |
CN113705716B (zh) | 图像识别模型训练方法、设备、云控平台及自动驾驶车辆 | |
CN114648676B (zh) | 点云处理模型的训练和点云实例分割方法及装置 | |
CN113537192B (zh) | 图像检测方法、装置、电子设备及存储介质 | |
CN112508128B (zh) | 训练样本的构建方法、计数方法、装置、电子设备及介质 | |
CN113947188A (zh) | 目标检测网络的训练方法和车辆检测方法 | |
CN112528858A (zh) | 人体姿态估计模型的训练方法、装置、设备、介质及产品 | |
CN114881129A (zh) | 一种模型训练方法、装置、电子设备及存储介质 | |
CN115359308B (zh) | 模型训练、难例识别方法、装置、设备、存储介质及程序 | |
CN113378857A (zh) | 目标检测方法、装置、电子设备及存储介质 | |
CN114511743B (zh) | 检测模型训练、目标检测方法、装置、设备、介质及产品 | |
CN116245193A (zh) | 目标检测模型的训练方法、装置、电子设备及介质 | |
CN115482436B (zh) | 图像筛选模型的训练方法、装置以及图像筛选方法 | |
CN115761698A (zh) | 一种目标检测方法、装置、设备及存储介质 | |
CN113344121B (zh) | 训练招牌分类模型和招牌分类的方法 | |
CN113361524B (zh) | 图像处理方法及装置 | |
CN113139463B (zh) | 用于训练模型的方法、装置、设备、介质和程序产品 | |
CN116052097A (zh) | 一种地图要素检测方法、装置、电子设备和存储介质 | |
CN112906478B (zh) | 目标对象的识别方法、装置、设备和存储介质 | |
CN113869317A (zh) | 车牌识别方法、装置、电子设备和存储介质 | |
CN113936158A (zh) | 一种标签匹配方法及装置 | |
CN113379750A (zh) | 语义分割模型的半监督学习方法、相关装置及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |