CN114612651A - Roi检测模型训练方法、检测方法、装置、设备和介质 - Google Patents
Roi检测模型训练方法、检测方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN114612651A CN114612651A CN202210239359.9A CN202210239359A CN114612651A CN 114612651 A CN114612651 A CN 114612651A CN 202210239359 A CN202210239359 A CN 202210239359A CN 114612651 A CN114612651 A CN 114612651A
- Authority
- CN
- China
- Prior art keywords
- roi
- data
- feature
- region
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 153
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000012549 training Methods 0.000 title claims abstract description 60
- 238000000605 extraction Methods 0.000 claims abstract description 184
- 238000013507 mapping Methods 0.000 claims abstract description 36
- 238000012545 processing Methods 0.000 claims description 24
- 238000005070 sampling Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 230000003213 activating effect Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 13
- 238000013473 artificial intelligence Methods 0.000 abstract description 6
- 238000013135 deep learning Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 8
- 238000001994 activation Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000002708 enhancing effect Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003924 mental process Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7747—Organisation of the process, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了ROI检测模型训练方法、检测方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及计算机视觉和深度学习技术。具体实现方案为:对样本图像进行特征提取,得到样本特征数据;对样本特征数据进行非线性映射,得到第一特征数据和第二特征数据;根据第一特征数据在标签ROI的关联区域中的第三特征数据和第二特征数据,确定区域间差异数据;根据区域间差异数据和标签ROI的关联区域,调整ROI检测模型的待训练参数。根据本公开的技术,提高了ROI检测模型的检测精度。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及计算机视觉和深度学习技术,具体涉及一种ROI检测模型训练方法、检测方法、装置、设备和介质。
背景技术
在图像处理领域,感兴趣区域(region of interest,ROI)是从图像中选择的一个图像区域,该区域是图像分析所关注的重点,圈定该区域作为对图像进一步处理的前提,可以减少图像处理时间,增加图像处理精度。
发明内容
本公开提供了一种ROI检测模型训练方法、检测方法、装置、设备和介质。
根据本公开的一方面,提供了一种感兴趣区域检测模型训练方法,包括:
对样本图像进行特征提取,得到样本特征数据;
对样本特征数据进行非线性映射,得到第一特征数据和第二特征数据;其中,第一特征数据指示在查询空间下的特征映射结果,第二特征数据指示在值空间下的特征映射结果;
根据第一特征数据在标签ROI的关联区域中的第三特征数据和第二特征数据,确定区域间差异数据;
根据区域间差异数据和标签ROI的关联区域,调整ROI检测模型的待训练参数。
根据本公开的另一方面,还提供了一种感兴趣区域检测方法,包括:
根据训练好的特征提取参数,对待检测图像进行特征提取,得到预测特征数据;其中,特征提取参数采用本公开实施例所提供的任意一种感兴趣区域检测模型训练方法训练得到;
根据训练好的解码参数,对预测特征数据进行解码处理,得到ROI预测结果。
根据本公开的另一方面,还提供了一种电子设备,包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开实施例提供的任意一种感兴趣区域检测模型训练方法,或执行本公开实施例提供的任意一种感兴趣区域检测方法。
根据本公开的另一方面,还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开实施例提供的任意一种感兴趣区域检测模型训练方法,或执行本公开实施例提供的任意一种感兴趣区域检测方法。
根据本公开的技术,提高了感兴趣区域检测模型的检测精度。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1A是本公开实施例提供的一种ROI检测模型的结构图;
图1B是现有技术提供的一种ROI检测模型的结构图;
图1C是本公开实施例提供的一种ROI检测模型训练方法的流程图;
图2A是本公开实施例提供的一种ROI检测模型的训练方法的流程图;
图2B是本公开实施例提供的一种特征增强模块的结构图;
图3是本公开实施例提供的一种ROI检测模型训练方法的流程图;
图4是本公开实施例提供的一种文本区域检测模型的结构图;
图5是本公开实施例提供的一种ROI检测方法的流程图;
图6是本公开实施例提供的一种ROI检测模型训练装置的结构图;
图7是本公开实施例提供的一种ROI检测装置的结构图;
图8是用来实现本公开实施例的ROI检测模型训练方法和/或ROI检测方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开提供的感兴趣区域(region of interest,ROI)检测模型训练方法,可适用于对预先构建的深度学习模型进行训练,以使该模型具备ROI检测能力的应用场景。其中,ROI可以是图像中的预设目标所在区域,如文本区域、人脸区域、车辆区域等,可以根据实际需求进行预设目标的设置。本公开所提供的各ROI检测模型训练方法可以由ROI检测模型训练装置执行,该装置可以采用软件和/或硬件加以实现,并具体配置于电子设备中。
为了便于理解,首先对ROI检测模型的结构进行简要说明。
参见图1A所示的ROI检测模型,包括特征提取模块和特征增强模块。其中,特征提取模块用于对所输入图像进行特征提取,特征增强模块用于对特征提取模块的输出结果进行特征增强,从而根据特征增强模块的增强输出结果对ROI检测模型中特征提取模块和特征增强模块的待训练参数进行优化调整,从而提高了特征提取模块的特征提取能力。
进一步的,ROI检测模型还可以包括解码模块,用于根据特征提取模块的输出结果,进行ROI预测,并根据ROI预测结果与预先标注的标签ROI区域,对特征提取模块和解码模块的待训练参数进行优化调整。
参见图1B,现有技术中ROI检测模型仅包括特征提取模块和解码模块,通过特征提取模块对所输入图像进行特征提取,通过解码模块根据特征提取模块的输出结果,进行ROI预测,从而根据ROI预测结果与预先标注的标签ROI区域,对特征提取模块和解码模块的待训练参数进行优化调整。
通过将本公开图1A所示的ROI检测模型与图1B所示的现有技术的ROI检测模型相比,由于本公开引入了特征增强模块辅助进行特征提取模块的待训练参数的优化,提高了特征提取模块的特征提取能力,有助于提高ROI检测模型的检测能力。
以下,将以图1A所示的ROI检测模型为基础,对本公开所提供的ROI检测模型训练方法进行详细说明。
参见图1C所示的一种ROI检测模型训练方法,其中,ROI检测模型包括特征提取模块和特征增强模块,该方法包括:
S101、对样本图像进行特征提取,得到样本特征数据。
其中,样本图像即为在进行ROI检测模型训练时所使用的训练样本。为了保证所训练模型的模型精度,通常样本图像的数量为多个且种类多样。
其中,样本特征数据可以理解为对样本图像的抽象化表示。
可以理解的是,通过特征提取模块对样本图像进行特征提取,以获取样本图像中的ROI相关信息,剔除样本图像中的ROI无关信息。
S102、对样本特征数据进行非线性映射,得到第一特征数据和第二特征数据。
其中,第一特征数据和第二特征数据可以看作将样本特征数据向特征空间进行非线性映射后的结果。其中,第一特征数据指示样本特征数据在查询空间下的特征映射结果;第二特征数据指示样本特征数据在值空间下的特征映射结果;值得注意的是,采用非线性映射的方式进行第一特征数据和第二特征数据的确定,有助于提高ROI检测模型的拟合能力。
由于第一特征数据和第二特征数据为相同数据,也即样本特征数据的空间映射结果,因此,第一特征数据和第二特征数据中,均携带有样本特征数据中的关键信息。
需要说明的是,第一特征数据对应的查询空间和第二特征数据对应的值空间可以相同或不同,本公开不作任何限定。为了提高ROI检测模型的灵活性和通用性,通常会在特征增强模块中设置两个不同的非线性映射分支,分别进行第一特征数据和第二特征数据的确定,通过大量样本图像对ROI检测模型的训练情况,进行相同特征空间或不同特征空间的非线性映射。
S103、根据第一特征数据在标签ROI的关联区域中的第三特征数据和第二特征数据,确定区域间差异数据。
其中,标签ROI为预先标注的样本图像中的ROI,本公开对具体标注方式不作任何限定。标签ROI的关联区域可以是样本图像的各区域中与标签ROI所在区域具备一定关联关系的区域,例如可以是标签ROI自身区域,或者标签ROI中的局部区域。在一个具体实现方式中,标签ROI中的局部区域可以是标签ROI的中心区域。
需要说明的是,第一特征数据在标签ROI的关联区域中的第三特征数据,可以理解为样本特征数据中标签ROI的关联区域的关键信息在查询空间的映射结果。由于第二特征数据中包含有样本特征数据在标签ROI的关联区域中以及标签ROI的关联区域以外的其他区域的信息在查询空间的映射结果,因此,根据第三特征数据和第二特征数据在标签ROI的关联区域的特征数据,所确定的区域间差异数据,能够表征标签ROI的关联区域中和标签ROI的关联区域以外的其他区域之间所携带信息的对比差异,从而一定程度上对标签ROI的关联区域进行了特征增强。
S104、根据区域间差异数据和标签ROI的关联区域,调整ROI检测模型的待训练参数。
由于区域间差异数据是对标签ROI的关联区域的特征增强结果,若该特征增强结果与标签ROI的关联区域的匹配性越高、差异性越小,则表明ROI检测模型中特征提取模块的特征提取能力,以及特征增强模块的特征增强能力越好;若该特征增强结果与标签ROI的关联区域的匹配性越低、差异性越大,则表明ROI检测模型中特征提取模块的特征提取能力、或特征增强模块的特征增强能力越差。有鉴于此,可以根据区域间差异数据和标签ROI的关联区域之间的差异情况,对ROI检测模型的待训练参数,例如可以包括特征提取模块的特征提取参数和特征增强模块的特征增强参数中的至少一种加以优化,从而不断提高特征提取模块的特征提取能力,以及特征增强模块的特征增强能力,达到对ROI检测模型进行训练的目的。
本公开实施例通过对提取样本图像得到的样本特征数据进行非线性映射,得到查询空间下的第一特征数据和值空间下的第二特征数据,并将第一特征数据在标签ROI的关联区域中的第三特征数据和第二特征数据,进行区域间差异数据的确定,表征非线性映射结果在标签ROI的关联区域和非关联区域的对比差异,通过区域间差异数据对ROI检测模型进行待训练参数调整,从而达到训练ROI检测模型的目的,提高了ROI检测模型的特征提取能力,减少了无关信息的提取,同时避免了关键信息的丢失,从而保证了所提取特征的准确性和全面性,进而提高了所训练ROI检测模型的ROI检测能力。
在上述各技术方案的基础上,本公开还提供了一个可选实施例,在该可选实施例中,对S103的区域间差异数据的确定机制进行了优化改进。需要说明的是,在本可选实施例中未公开部分,可参见前述各实施例的相关表述。
参见图2A所示的一种ROI检测模型的训练方法,包括:
S201、对样本图像进行特征提取,得到样本特征数据。
S202、对样本特征数据进行非线性映射,得到第一特征数据和第二特征数据。
S203、根据第一特征数据在标签ROI的关联区域中的第三特征数据,确定ROI全局特征数据。
其中,ROI全局特征数据用于从全局角度表征标签ROI的关联区域的关键信息。
在一个可选实施例中,可以依通道确定第三特征数据的均值,并将确定结果作为ROI全局特征数据。
然而,对标签ROI的关联区域的全部第三特征数据进行处理,将会带来运算量的增加。为了提高运算效率,降低运算成本,在另一可选实施例中,还可以对第三特征数据进行采样,得到ROI参考特征数据;根据ROI参考特征数据,确定ROI全局特征数据。其中,ROI参考特征数据可以为至少一组,本公开对ROI参考特征数据的具体数量不作任何限定。
需要说明的是,本公开对采样方式和采样率不作任何限定,可以由技术人员根据需要进行设定或调整,或通过大量试验确定。例如,可以采用随机采样的方式得到设定数量组的ROI参考特征数据。
可选的,可以选取ROI参考特征数据中的其中一组,直接作为ROI全局特征数据。或者可选的,可以依通道维度,确定至少一组ROI参考特征数据的平均值,并将确定结果作为ROI全局特征数据。
在一个具体实现方式中,通过随机采样的方式无差别对待第三特征数据,依通道维度,确定各组ROI参考特征数据的平均值,并将确定结果作为ROI全局特征数据,避免了关键信息的遗漏,有助于提高了ROI全局特征数据所携带信息的准确性和全面性。
可以理解的是,通过对第三特征数据进行采样处理,采用采样得到的ROI参考特征数据,替代标签ROI的关联区域中的全量第三特征数据,进行ROI全局特征数据的确定,显著减少了运算量,提升了运算效率。。
S204、根据ROI全局特征数据和第二特征数据,确定区域间差异数据。
由于ROI全局特征数据能够从全局角度表征标签ROI的关联区域中的关键信息,因此根据查询空间的ROI全局特征数据和值空间的第二特征数据,能够确定出表征标签ROI的关联区域和非关联区域之间的对比差异的区域间差异数据。
在一个可选实施例中,可以根据ROI全局特征数据对第二特征数据进行特征增强,得到ROI增强特征数据;对ROI增强特征数据进行激活处理,得到区域间差异数据。
通过ROI全局特征数据对第二特征数据进行特征增强,从而增强第二特征数据中与标签ROI的关联区域的特征,削弱第二特征数据中与标签ROI的非关联区域的特征(第一特征数据中除第三特征数据之外的其他特征);通过对ROI特征增强特征数据进行激活处理,将ROI增强特征数据映射到预设特征空间,得到区域间差异数据。其中,预设特征空间可以由技术人员根据需要或经验值进行确定或调整,本公开不作任何限定,例如可以是0-1空间。本公开对激活处理所采用的激活函数也不作任何限定,可以根据实际需要进行设定或调整,或者通过大量试验确定。
若预设特征空间为0-1空间,则区域间差异数据可以用于表征第二特征数据与ROI全局特征数据之间的相似度。若像素点对应相似度的数值逼近0,表明该像素点的第二特征值与ROI全局特征值之间的相似度越低,也即对应像素点为标签ROI的非关联区域的概率越高;若像素点对应相似度的数值逼近1,表明该像素点的第二特征值与ROI全局特征值之间的相似度越高,也即对应像素点为标签ROI的关联区域的概率越高。
可以理解的是,上述技术方案通过引入特征增强和激活处理,进行区域间差异数据的确定,完善了区域间差异数据的确定机制,为后续对ROI检测模型的待训练参数的调整,提供了数据支撑。同时,由于特征增强和激活处理操作便捷,提高了区域间差异数据的确定效率,减少了运算量。
进一步结合图2B所示的特征增强模块的结构示意图,对区域间差异数据的确定过程进行详细说明。
将特征提取模块输出的样本特征数据F非线性映射至查询空间(为非线性映射参数,通过模型训练得到),得到H×W×C维的第一特征数据Fq;将样本特征数据F非线性映射至值空间(为非线性映射参数,通过模型训练得到),得到H×W×C维的第二特征数据Fk。对第一特征数据Fq中在标签ROI的关联区域中的第三特征数据进行随机采样,得到N(N≥1)组1×C维的ROI参考特征数据Fqr;依通道维度对N组ROI参考特征数据Fqr进行均值处理,将得到的平均特征表示作为ROI全局特征数据Fqm;对ROI全局特征数据进行转置处理,得到C×1维的转置结果Fqm’。对H×W×C维的第二特征数据Fk进行压平处理,得到(HW)×C维的压平结果Fkf;将压平结果Fkf和转置结果Fqm’进行矩阵乘法运算,得到(HW)×1维的初始增强特征Fm;对初始增强特征Fm进行特征重构,得到H×W维的ROI增强特征数据Mr;对ROI增强特征数据Mr进行激活处理,得到H×W维的矩阵间差异数据M。
需要说明的是,本公开对标签ROI的关联区域的种类和数量不作任何限定。不同标签ROI的关联区域,可分别采用前述方式确定相应的区域间差异数据。
S205、根据区域间差异数据和标签ROI的关联区域,调整ROI检测模型的待训练参数。
本公开实施例通过将区域间差异数据的确定操作,细化为根据第一特征数据在标签ROI的关联区域的特征数据,确定ROI全局特征数据,从而根据第二特征数据和表征标签ROI的关联区域的全局特征的ROI全局特征数据,确定查询空间和值空间下标签ROI的关联区域与非关联区域之间的区域间差异数据完善了区域间差异数据的确定机制,为后续对ROI检测模型的待训练参数的调整,提供了数据支撑。
在上述各技术方案的基础上,本公开还提供了一可选实施例,在该可选实施例中,对S104的待训练参数的调整机制进行了优化改进。
参见图3所示的一种ROI检测模型训练方法,包括:
S301、对样本图像进行特征提取,得到样本特征数据。
S302、对样本特征数据进行非线性映射,得到第一特征数据和第二特征数据。
S303、根据第一特征数据在标签ROI的关联区域中的第三特征数据和第二特征数据,确定区域间差异数据。
S304、根据区域间差异数据和标签ROI的关联区域,确定目标特征提取损失。
其中,目标特征提取损失表征了特征增强模块输出的区域间差异数据与实际期望的标签ROI的关联区域的差异程度的大小,侧面反映了特征提取模块的特征提取能力。若差异程度较大,则表明特征提取模块的特征提取能力较弱,可能存在关键信息的丢失或无关信息的提取;若差异程度较小,则表明特征提取模块的特征提取能力较强。
示例性的,可以根据区域间差异数据与标签ROI的关联区域之间的差异情况,确定目标特征提取损失。
具体的,可以基于预设损失函数,根据区域间差异数据和标签ROI的关联区域,确定目标特征提取损失。其中,预设损失函数可以由技术人员根据需要或经验值进行设定或调整,或通过大量试验反复确定,本公开对此不作任何限定。
需要说明的是,若标签ROI的关联区域为单一区域,可以确定一个目标特征提取损失。若标签ROI的关联区域包括至少两个区域,则可以分别针对各标签ROI的关联区域,确定相应的特征提取损失,用于反映特征提取网络对不同标签ROI的关联区域的特征提取能力。相应的,根据各特征提取损失,确定目标特征提取损失。
可选的,标签ROI的关联区域可以包括标签ROI,用于从标签ROI全域角度衡量特征提取模块的特征提取能力。或者可选的,标签ROI的关联区域可以包括或标签ROI中的局部区域,用于从标签ROI的局部区域角度衡量特征提取模块的特征提取能力。其中,标签ROI的局部区域的数量可以为至少一个。例如,标签ROI的局部区域可以是标签ROI的中心区域。
可以理解的是,通过将标签ROI的关联区域细化为包括标签ROI和/或标签ROI的局部区域,提高了后续所确定区域间差异数据的丰富性和多样性,从而有助于提高ROI检测模型训练方法的多样性。
在一个可选实施例中,若标签ROI的关联区域包括标签ROI和标签ROI的局部区域,则可以根据标签ROI对应的区域间差异数据和标签ROI,确定第一特征提取损失;根据标签ROI的局部区域对应的区域间差异数据和标签ROI的局部区域,确定第二特征提取损失;根据第一特征提取损失和第二特征提取损失,确定目标特征提取损失。
示例性的,可以基于第一预设损失函数,根据标签ROI对应的区域间差异数据和标签ROI,确定第二特征提取损失;基于第二预设损失函数,根据标签ROI的局部区域对应的区域间差异数据和标签ROI的局部区域,确定第二特征提取损失;根据第一特征提取损失和第二特征提取损失的加权均值,确定目标特征提取损失。其中,第一预设损失函数和第二预设损失函数可以由技术人员根据需要或经验值进行设定或调整;第一预设损失函数和第二预设损失函数两者可以相同或不同,本公开不作任何限定。在确定目标特征提取损失时,不同特征提取损失对应的权重可以由技术人员根据需要或经验值进行设定或调整,本公开对权重的具体数值不作任何新限定。
需要说明的是,若标签ROI的局部区域的数量为至少一个,相应的所确定的第二特征提取损失的数量也为至少一个。
可以理解的是,通过将标签ROI的关联区域细化为包括标签ROI和标签ROI的局部区域两类数据,从而基于上述数据进行不同类别对应区域间差异数据的确定,提高了区域间差异数据的丰富性和多样性。同时,分别针对各类别的区域间差异数据和相应标签ROI的关联区域,进行对应特征提取损失的确定,作为目标特征提取损失的确定基础,计算过程方便快捷,计算量小,提高了目标特征提取损失的计算效率。
S305、根据目标特征提取损失,调整待训练特征提取参数和待训练特征增强参数。
其中,待训练特征提取参数可以理解为用于进行特征提取的特征提取模块中的待训练参数;待训练特征增强参数可以理解为用于进行特征增强(如非线性映射和区域间差异数据确定)的特征增强模块中的待训练参数。
根据目标特征提取损失,调整特征提取模块和特征增强模块的待训练参数,从而逐渐提高ROI检测模型中特征提取模块的特征提取效率,使得特征增强模块输出的区域间差异数据与相应标签ROI的关联区域不断逼近,进而提高ROI检测模型中特征提取模块的特征提取能力。
具体的,可以基于预设梯度函数,根据目标特征提取损失,调整特征提取模块和特征增强模块的待训练参数。其中,预设梯度函数可以由技术人员根据需要或经验值进行设定或调整,或通过大量试验加以确定,本公开对此不作任何限定。
在一个可选实施例中,还可以根据ROI检测模型中解码模块输出的预测ROI和标签ROI,确定目标预测损失;根据目标预测损失,调整ROI检测模型的待训练参数。例如,可以根据目标预测损失调整ROI检测模型中特征提取模块的特征提取参数和/或解码模块的解码参数。
可以理解的是,通过目标预测损失和目标特征提取损失对特征提取模块的待训练参数进行联合调整,能够在提高特征提取模块的特征提取能力的同时,使得特征提取模块所提取特征与ROI检测需求更匹配,从而有助于提高ROI检测模型整体的检测能力。
本公开实施例通过将对ROI检测模型的待训练参数调整操作,细化为根据区域间差异数据和标签ROI的关联区域,确定目标特征提取损失,表征了ROI检测模型中特征提取模块的特征提取能力,通过该目标特征提取损失对特征提取模块和特征增强模块的待训练参数进行调整,从而提高了特征提取模块对标签ROI的关联区域和非关联区域之间的对比差异特征的敏感性,进而提高了特征提取模块的特征提取能力,为ROI检测模型检测准确度的提高,提供了保障。
以下将以标签ROI为标签文本区域,相应的,标签ROI的关联区域包括标签文本区域和标签文本中心区域为例,对文本区域检测模型(也即前述感兴趣区域检测模型)的训练过程进行详细说明。
参见图4所示的一种文本区域检测模型的示意图,包括特征提取模块、特征增强模块和解码模块。其中,特征增强模块包括第一特征增强网络和第二特征增强网络。
通过特征提取模块对所输入样本图像进行特征提取,得到样本特征数据。
通过第一特征增强网络对样本特征数据进行非线性映射,分别得到第一查询空间下的第一特征数据和第一值空间下的第二特征数据;将第一查询空间下的第一特征数据在标签文本区域中的特征数据作为该第一查询空间下的第三特征数据;通过第一特征增强网络根据第一值空间下的第二特征数据和第一查询空间下的第三特征数据,确定第一区域间差异数据。
通过第二特征增强网络对样本特征数据进行非线性映射,分别得到第二查询空间下的第一特征数据和第二值空间下的第二第二特征数据;将第二查询空间下的第一特征数据在标签文本中心区域中的特征数据作为该第二查询空间下的第三特征数据;通过第二特征增强网络根据第二值空间下的第二特征数据和第二查询空间下的第三特征数据,确定第二区域间差异数据。
根据解码模块对样本特征数据进行解码处理,得到文本区域分割图像,并对文本区域分割图像进行二值化和确定连通域等后处理后,得到预测文本区域。
根据第一区域间差异数据与标签文本区域,确定第一特征提取损失;第二区域间差异数据与标签文本中心区域,确定第二特征提取损失;根据第一特征提取损失和第二特征提取损失,加权得到目标特征提取损失;根据目标特征提取损失,优化特征提取模块的特征提取参数和特征增强模块的特征增强参数。
根据预测文本区域与标签文本区域,确定预测损失;根据预测损失,优化特征提取模块的特征提取参数和解码模块的解码参数。
需要说明的是,可以将第一特征增强网络和第二特征增强网络中进行非线性映射部分加以合并,也即第一特征增强网络和第二特征增强网络共用同一查询空间下的第一特征数据和同一值空间下的第二特征数据,从而减少数据运算量。
其中,解码模块可以采用现有技术的任一解码网络加以实现,本公开对此不作任何限定。例如,解码模块可以是基于分割的解码模块,也即,根据样本特征数据,对样本图像进行“背景-文本中心区域-文本边界”三分类,来确定样本图像中各像素点的分类结果,得到文本区域分割图像,并通过对文本区域分割图像进行二值化、确定连通域等后处理操作,得到预测文本区域。
其中,不同特征增强网络进行相应区域间差异数据的确定操作,可参见前述各实施例中特征增强模块的相关表述,在此不再赘述。
上述技术方案通过引入标签文本区域对应的第一区域间差异数据,以及标签文本中心区域对应的第二区域间差异数据,进行目标特征提取损失的确定,通过目标特征提取损失不断优化特征提取模块的待训练参数,从而提高了特征提取模块的特征提取能力,进而提高了所训练的文本区域检测模型检测结果准确度。
在上述各技术方案的基础上,本公开还提供了一种ROI检测方法的可选实施例,该可选实施例适用于采用前述实施例所训练的ROI检测模型进行ROI检测的应用场景。本公开所提供的各ROI检测方法,可以由ROI检测装置执行,该装置可以采用软件和/或硬件实现,并具体配置于电子设备中。需要说明的是,执行ROI检测方法的电子设备与前述执行ROI检测模型训练方法的电子设备两者可以相同或不同,本公开对此不作任何限定。
参见图5所示的一种ROI检测方法,包括:
S501、根据训练好的特征提取参数,对待检测图像进行特征提取,得到预测特征数据。
其中,特征提取参数采用本公开实施例所提供的各ROI检测模型训练方法训练得到。
需要说明的是,在进行ROI预测时,可以获取训练好的ROI检测模型,并采用该ROI检测模型中训练好的特征提取参数执行特征提取操作,作为ROI检测操作的数据支撑。
其中,对ROI检测模型的获取操作,可以直接获取前述训练好的完整的ROI检测模型并存储,或者将前述训练好的ROI检测模型中的特征增强模块剔除,并存储剔除后的ROI检测模型。相应的,采用已存储的ROI检测模型,执行特征提取和后续的解码操作。可以理解的是,进行提出后的ROI检测模型的存储和使用,能够减少ROI检测模型的存储空间和数据运算量,本公开对此不作任何限定。
S502、根据训练好的解码参数对预测特征数据进行解码处理,得到ROI预测结果。
示例性的,可以通过ROI检测模型中的解码模块,对预测特征数据进行解码处理,得到ROI分割图像;对ROI分割图像进行二值化,并对二值化结果计算连通域,得到ROI预测结果。
本公开实施例通过采用前述训练好的特征提取参数对待检测图像进行特征提取,得到预测特征数据,并根据训练好的解码参数对预测特征数据进行解码处理得到ROI检测结果。由于在对特征提取参数的训练过程中,引入了查询空间下的第一特征数据和值空间下第二特征数据,进行标签ROI的关联区域与非关联区域之间的区域间差异数据的确定,并根据区域间差异数据调整ROI检测模型中包括特征提取参数的待训练参数,使得训练好的特征提取参数的的特征提取能力更好,从而在进行ROI预测时,所得的ROI预测结果的准确性也有显著提高。
作为上述各ROI检测模型训练方法的实现,本公开还提供了实施各ROI检测模型训练方法的执行装置的可选实施例。进一步参见图6所示的一种ROI检测模型训练装置600,包括特征提取模块601、特征增强模块602和网络参数调整模块603。其中,ROI检测模型训练装置600用于对ROI检测模型进行模型训练,其中,ROI检测模型包括特征提取模块601和特征增强模块602。其中,
特征提取模块601,用于对样本图像进行特征提取,得到样本特征数据;
特征增强模块602,用于对样本特征数据进行非线性映射,分别得到第一特征数据和第二特征数据;
特征增强模块602,还用于根据第一特征数据和第二特征数据在标签ROI的关联区域的特征数据,确定区域间差异数据;
网络参数调整模块603,用于根据区域间差异数据和标签ROI的关联区域,调整ROI检测模型的待训练参数。
本公开实施例通过在ROI检测模型中对提取样本图像得到的样本特征数据进行非线性映射,得到查询空间下的第一特征数据和值空间下的第二特征数据,并将第一特征数据在标签ROI的关联区域中的第三特征数据和第二特征数据,进行区域间差异数据的确定,表征非线性映射结果在标签ROI的关联区域和非关联区域的对比差异,通过区域间差异数据对ROI检测模型进行待训练参数调整,从而达到训练ROI检测模型的目的,提高了ROI检测模型中特征提取模块的特征提取能力,减少了无关信息的提取,同时避免了关键信息的丢失,从而保证了所提取特征的准确性和全面性,进而提高了所训练ROI检测模型的ROI检测能力。
在一个可选实施例中,特征增强模块602,包括:
ROI全局特征数据确定单元,用于根据第三特征数据,确定ROI全局特征数据;
区域间差异数据确定单元,用于根据ROI全局特征数据和第二特征数据,确定区域间差异数据。
在一个可选实施例中,区域间差异数据确定单元,包括:
特征增强子单元,用于根据ROI全局特征数据对第二特征数据进行特征增强,得到ROI增强特征数据;
激活处理子单元,用于对ROI增强特征数据进行激活处理,得到区域间差异数据。
在一个可选实施例中,ROI全局特征数据确定单元,包括:
数据采样子单元,用于对第三特征数据进行采样,得到ROI参考特征数据;
ROI全局特征数据确定,用于根据ROI参考特征数据,确定ROI全局特征数据。
在一个可选实施例中,网络参数调整模块603,包括:
目标特征提取损失确定单元,用于根据区域间差异数据和标签ROI的关联区域,确定目标特征提取损失;
网络参数调整单元,用于根据目标特征提取损失,调整待训练特征提取参数和待训练特征增强参数。
在一个可选实施例中,标签ROI的关联区域包括下述至少一项:标签ROI、标签ROI的局部区域。
在一个可选实施例中,若标签ROI的关联区域包括标签ROI和标签ROI中的局部区域,则目标特征提取损失确定单元,包括:
第一损失确定子单元,用于根据标签ROI对应的区域间差异数据和标签ROI,确定第一特征提取损失;
第二损失确定子单元,用于根据标签ROI的局部区域对应的区域间差异数据和标签ROI的局部区域,确定第二特征提取损失;
目标特征提取损失确定子单元,用于根据第一特征提取损失和第二特征提取损失,确定目标特征提取损失。
在一个可选实施例中,标签ROI的局部区域包括标签ROI的中心区域。
上述ROI检测模型训练装置可执行本公开任意实施例所提供的ROI检测模型训练方法,具备执行各ROI检测模型训练方法相应的功能模块和有益效果。
作为上述各ROI预测方法的实现,本公开还提供了实施各ROI检测方法的执行装置的可选实施例。进一步参见图7所示的一种ROI检测装置700,包括:特征提取模块701和解码模块702。其中,
特征提取模块701,用于根据训练好的特征提取参数对待检测图像进行特征提取,得到预测特征数据;其中,特征提取参数采用本公开实施例提供的任意一种ROI检测模型训练装置训练得到;
解码模块702,用于根据训练好的解码参数对预测特征数据进行解码处理,得到ROI预测结果。
本公开实施例通过采用训练好特征提取参数对待检测图像进行特征提取,得到预测特征数据,并根据训练好的解码参数对预测特征数据进行解码处理,得到ROI预测结果。由于在对特征提取参数的训练过程中引入的查询空间下的第一特征数据和值空间下的第二特征数据,进行标签ROI的关联区域与非关联区域之间的区域间差异数据的确定,并根据区域间差异数据调整ROI检测模型中包括特征提取参数的待训练参数,使得训练好的特征提取参数的特征提取能力更好,从而在进行ROI预测时,所得的ROI预测结果的准确性也有显著提高。
上述ROI检测装置可执行本公开任意实施例所提供的ROI检测方法,具备执行各ROI检测方法相应的功能模块和有益效果。
本公开的技术方案中,所涉及的样本图像、待检测图像的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如ROI检测模型训练方法和ROI检测方法中的至少一种。例如,在一些实施例中,ROI检测模型训练方法和ROI检测方法中的至少一种,可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM803并由计算单元801执行时,可以执行上文描述的ROI检测模型训练方法或ROI检测方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行ROI检测模型训练方法和ROI检测方法中的至少一种。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开提供的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (21)
1.一种感兴趣区域ROI检测模型训练方法,包括:
对样本图像进行特征提取,得到样本特征数据;
对所述样本特征数据进行非线性映射,得到第一特征数据和第二特征数据;其中,所述第一特征数据指示在查询空间下的特征映射结果,所述第二特征数据指示在值空间下的特征映射结果;
根据所述第一特征数据在标签ROI的关联区域中的第三特征数据和所述第二特征数据,确定区域间差异数据;
根据所述区域间差异数据和所述标签ROI的关联区域,调整所述ROI检测模型的待训练参数。
2.根据权利要求1所述的方法,其中,所述根据所述第一特征数据在标签ROI的关联区域中的第三特征数据和所述第二特征数据,确定区域间差异数据,包括:
根据所述第三特征数据,确定ROI全局特征数据;
根据所述ROI全局特征数据和所述第二特征数据,确定所述区域间差异数据。
3.根据权利要求2所述的方法,其中,所述根据所述ROI全局特征数据和所述第二特征数据,确定区域间差异数据,包括:
根据所述ROI全局特征数据对所述第二特征数据进行特征增强,得到ROI增强特征数据;
对所述ROI增强特征数据进行激活处理,得到所述区域间差异数据。
4.根据权利要求2所述的方法,其中,所述根据所述第三特征数据,确定ROI全局特征数据,包括:
对所述第三特征数据进行采样,得到ROI参考特征数据;
根据所述ROI参考特征数据,确定所述ROI全局特征数据。
5.根据权利要求1-4任一项所述的方法,其中,所述根据所述区域间差异数据和所述标签ROI的关联区域,调整所述ROI检测模型的待训练参数,包括:
根据所述区域间差异数据和所述标签ROI的关联区域,确定目标特征提取损失;
根据所述目标特征提取损失,调整所述待训练特征提取参数和待训练特征增强参数。
6.根据权利要求5所述的方法,其中,所述标签ROI的关联区域包括以下至少一项:所述标签ROI、所述标签ROI的局部区域。
7.根据权利要求6所述的方法,若所述标签ROI的关联区域包括所述标签ROI和所述标签ROI中的局部区域,则所述根据所述区域间差异数据和所述标签ROI的关联区域,确定目标特征提取损失,包括:
根据所述标签ROI对应的区域间差异数据和所述标签ROI,确定第一特征提取损失;
根据所述标签ROI的局部区域对应的区域间差异数据和所述标签ROI的局部区域,确定第二特征提取损失;
根据所述第一特征提取损失和所述第二特征提取损失,确定所述目标特征提取损失。
8.根据权利要求6所述的方法,其中,所述标签ROI的局部区域包括所述标签ROI的中心区域。
9.一种感兴趣区域ROI检测方法,包括:
根据训练好的特征提取参数,对待检测图像进行特征提取,得到预测特征数据;其中,所述特征提取参数采用权利要求1-8任一项所述的方法训练得到;
根据训练好的解码参数对所述预测特征数据进行解码处理,得到ROI预测结果。
10.一种感兴趣区域ROI检测模型训练装置,包括:
特征提取模块,用于对样本图像进行特征提取,得到样本特征数据;
特征增强模块,用于对所述样本特征数据进行非线性映射,分别得到第一特征数据和第二特征数据;其中,所述第一特征数据指示在查询空间下的特征映射结果,所述第二特征数据指示在值空间下的特征映射结果;
所述特征增强模块,还用于根据所述第一特征数据在标签ROI的关联区域中的第三特征数据和所述第二特征数据,确定区域间差异数据;
网络参数调整模块,用于根据所述区域间差异数据和所述标签ROI的关联区域,调整所述ROI检测模型的待训练参数。
11.根据权利要求10所述的装置,其中,所述特征增强模块,包括:
ROI全局特征数据确定单元,用于根据所述第三特征数据,确定ROI全局特征数据;
区域间差异数据确定单元,用于根据所述ROI全局特征数据和所述第二特征数据,确定区域间差异数据。
12.根据权利要求11所述的装置,其中,所述区域间差异数据确定单元,包括:
特征增强子单元,用于根据所述ROI全局特征数据对所述第二特征数据进行特征增强,得到ROI增强特征数据;
激活处理子单元,用于对所述ROI增强特征数据进行激活处理,得到所述区域间差异数据。
13.根据权利要求11所述的装置,其中,所述ROI全局特征数据确定单元,包括:
数据采样子单元,用于对所述第三特征数据进行采样,得到ROI参考特征数据;
ROI全局特征数据确定,用于根据所述ROI参考特征数据,确定所述ROI全局特征数据。
14.根据权利要求10-13任一项所述的装置,其中,所述网络参数调整模块,包括:
目标特征提取损失确定单元,用于根据所述区域间差异数据和所述标签ROI的关联区域,确定目标特征提取损失;
网络参数调整单元,用于根据所述目标特征提取损失,调整待训练特征提取参数和待训练特征增强参数。
15.根据权利要求14所述的装置,其中,所述标签ROI的关联区域包括以下至少一项:所述标签ROI、所述标签ROI的局部区域。
16.根据权利要求15所述的装置,若所述标签ROI的关联区域包括所述标签ROI和所述标签ROI中的局部区域,则所述目标特征提取损失确定单元,包括:
第一损失确定子单元,用于根据所述标签ROI对应的区域间差异数据和所述标签ROI,确定第一特征提取损失;
第二损失确定子单元,用于根据所述标签ROI的局部区域对应的区域间差异数据和所述标签ROI的局部区域,确定第二特征提取损失;
目标特征提取损失确定子单元,用于根据所述第一特征提取损失和所述第二特征提取损失,确定所述目标特征提取损失。
17.根据权利要求15所述的装置,其中,所述标签ROI的局部区域包括所述标签ROI的中心区域。
18.一种感兴趣区域检测装置,包括:
特征提取模块,用于根据训练好的特征提取参数对待检测图像进行特征提取,得到预测特征数据;其中,所述特征提取参数采用权利要求10-17任一项所述的装置训练得到;
解码模块,用于根据训练好的解码参数对所述预测特征数据进行解码处理,得到ROI预测结果。
19.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的ROI检测模型训练方法,或执行权利要求9所述的ROI检测方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-8中任一项所述的ROI检测模型训练方法,或执行权利要求9所述的ROI检测方法。
21.一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现权利要求1-8中任一项所述的ROI检测模型训练方法的步骤,或实现权利要求9所述的ROI检测方法的步骤。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210239359.9A CN114612651B (zh) | 2022-03-11 | 2022-03-11 | Roi检测模型训练方法、检测方法、装置、设备和介质 |
US18/115,059 US20230290126A1 (en) | 2022-03-11 | 2023-02-28 | Method for training roi detection model, method for detecting roi, device, and medium |
JP2023038084A JP2023133274A (ja) | 2022-03-11 | 2023-03-10 | Roi検出モデルのトレーニング方法、検出方法、装置、機器および媒体 |
KR1020230032457A KR20230133808A (ko) | 2022-03-11 | 2023-03-13 | Roi 검출 모델 훈련 방법, 검출 방법, 장치, 설비 및 매체 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210239359.9A CN114612651B (zh) | 2022-03-11 | 2022-03-11 | Roi检测模型训练方法、检测方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114612651A true CN114612651A (zh) | 2022-06-10 |
CN114612651B CN114612651B (zh) | 2023-07-21 |
Family
ID=81863026
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210239359.9A Active CN114612651B (zh) | 2022-03-11 | 2022-03-11 | Roi检测模型训练方法、检测方法、装置、设备和介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230290126A1 (zh) |
JP (1) | JP2023133274A (zh) |
KR (1) | KR20230133808A (zh) |
CN (1) | CN114612651B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117746191B (zh) * | 2024-02-07 | 2024-05-10 | 浙江啄云智能科技有限公司 | 以图搜图模型训练方法和以图搜图方法 |
CN118312774A (zh) * | 2024-03-29 | 2024-07-09 | 重庆赛力斯凤凰智创科技有限公司 | 故障检测模型训练和使用方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200192574A1 (en) * | 2018-12-17 | 2020-06-18 | Beijing Horizon Robotics Technology Research And Development Co., Ltd. | Method and apparatus for controlling storage operations of data of region of interest |
CN111310775A (zh) * | 2018-12-11 | 2020-06-19 | Tcl集团股份有限公司 | 数据训练方法、装置、终端设备及计算机可读存储介质 |
CN113379718A (zh) * | 2021-06-28 | 2021-09-10 | 北京百度网讯科技有限公司 | 一种目标检测方法、装置、电子设备以及可读存储介质 |
CN113902899A (zh) * | 2021-09-29 | 2022-01-07 | 北京百度网讯科技有限公司 | 训练方法、目标检测方法、装置、电子设备以及存储介质 |
CN113902897A (zh) * | 2021-09-29 | 2022-01-07 | 北京百度网讯科技有限公司 | 目标检测模型的训练、目标检测方法、装置、设备和介质 |
-
2022
- 2022-03-11 CN CN202210239359.9A patent/CN114612651B/zh active Active
-
2023
- 2023-02-28 US US18/115,059 patent/US20230290126A1/en not_active Abandoned
- 2023-03-10 JP JP2023038084A patent/JP2023133274A/ja active Pending
- 2023-03-13 KR KR1020230032457A patent/KR20230133808A/ko unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310775A (zh) * | 2018-12-11 | 2020-06-19 | Tcl集团股份有限公司 | 数据训练方法、装置、终端设备及计算机可读存储介质 |
US20200192574A1 (en) * | 2018-12-17 | 2020-06-18 | Beijing Horizon Robotics Technology Research And Development Co., Ltd. | Method and apparatus for controlling storage operations of data of region of interest |
CN113379718A (zh) * | 2021-06-28 | 2021-09-10 | 北京百度网讯科技有限公司 | 一种目标检测方法、装置、电子设备以及可读存储介质 |
CN113902899A (zh) * | 2021-09-29 | 2022-01-07 | 北京百度网讯科技有限公司 | 训练方法、目标检测方法、装置、电子设备以及存储介质 |
CN113902897A (zh) * | 2021-09-29 | 2022-01-07 | 北京百度网讯科技有限公司 | 目标检测模型的训练、目标检测方法、装置、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
KR20230133808A (ko) | 2023-09-19 |
JP2023133274A (ja) | 2023-09-22 |
US20230290126A1 (en) | 2023-09-14 |
CN114612651B (zh) | 2023-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113326764B (zh) | 训练图像识别模型和图像识别的方法和装置 | |
CN114612651B (zh) | Roi检测模型训练方法、检测方法、装置、设备和介质 | |
CN115422389B (zh) | 处理文本图像的方法及装置、神经网络的训练方法 | |
CN112949767A (zh) | 样本图像增量、图像检测模型训练及图像检测方法 | |
CN115861462B (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
CN115063875A (zh) | 模型训练方法、图像处理方法、装置和电子设备 | |
CN114187459A (zh) | 目标检测模型的训练方法、装置、电子设备以及存储介质 | |
CN113947700A (zh) | 模型确定方法、装置、电子设备和存储器 | |
CN114186681A (zh) | 用于生成模型簇的方法、装置及计算机程序产品 | |
CN112949818A (zh) | 模型蒸馏方法、装置、设备以及存储介质 | |
CN114511743B (zh) | 检测模型训练、目标检测方法、装置、设备、介质及产品 | |
CN114495101A (zh) | 文本检测方法、文本检测网络的训练方法及装置 | |
CN113657248A (zh) | 人脸识别模型的训练方法、装置及计算机程序产品 | |
CN115273148B (zh) | 行人重识别模型训练方法、装置、电子设备及存储介质 | |
CN114724144B (zh) | 文本识别方法、模型的训练方法、装置、设备及介质 | |
CN114842541A (zh) | 模型的训练及人脸识别方法、装置、设备以及存储介质 | |
CN114612971A (zh) | 人脸检测方法、模型训练方法、电子设备及程序产品 | |
CN115565186A (zh) | 文字识别模型的训练方法、装置、电子设备和存储介质 | |
CN112560848B (zh) | 兴趣点poi预训练模型的训练方法、装置及电子设备 | |
CN114119972A (zh) | 模型获取及对象处理方法、装置、电子设备及存储介质 | |
CN114707638A (zh) | 模型训练、对象识别方法及装置、设备、介质和产品 | |
CN113947195A (zh) | 模型确定方法、装置、电子设备和存储器 | |
CN113205131A (zh) | 图像数据的处理方法、装置、路侧设备和云控平台 | |
CN114330576A (zh) | 模型处理方法、装置、图像识别方法及装置 | |
CN114120180A (zh) | 一种时序提名的生成方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |