CN110766663A - 一种钻石多尺度定级及内含物可视化的智能方法 - Google Patents
一种钻石多尺度定级及内含物可视化的智能方法 Download PDFInfo
- Publication number
- CN110766663A CN110766663A CN201910923861.XA CN201910923861A CN110766663A CN 110766663 A CN110766663 A CN 110766663A CN 201910923861 A CN201910923861 A CN 201910923861A CN 110766663 A CN110766663 A CN 110766663A
- Authority
- CN
- China
- Prior art keywords
- model
- diamond
- training
- grading
- mode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种钻石多尺度定级及内含物可视化的智能方法,涉及智能图像识别领域。本发明包括如下步骤:步骤S01选取图像预处理方式;步骤S02设计模型整体结构;步骤S03选择训练方式;步骤S04模型训练;步骤S05新样本预测和结果解释。本发明选用了最新的深度学习模型EfficienNet,还结合MultiScale机制,并考虑了钻石净度级别的有序性,设计了一个有序回归模型框架。再通过训练方式得到端对端模型。用户给模型输入一张钻石照片,可以得到钻石的净度级别,且结果具有方向性,同时还会输出heatmap图,可视化模型关注的内含物,对结果有一定的解释性。此发明可代替人工给钻石的净度定级,且定级效率高,结果客观、稳定、具有方向性和解释性。
Description
技术领域
本发明属于智能图像识别领域,特别是涉及一种钻石多尺度定级及内含物可视化的智能方法,该智能方法是基于Multiscale机制的深度卷积神经网络集成的钻石图像分类方法。
背景技术
图像分类,是判断给定图像的内容在已有固定的分类标签集合中属于何种具体类别的过程。
图像内容的视角变化、大小变化、亮度变化、光照条件、背景干扰等都是分类任务面临的困难。对于钻石照片,钻石种类较多,形状各异,特征细微,且有些种类之间的差异小,界限模糊。还易受光照、灰尘和背景影响,辨识困难,因此给钻石净度定级是一个较难的问题。传统的机器学习方法一般首先提取图像特征,然后利用特征建模。特征一般为人为挑选,不够灵活,也不够准确,往往不能充分反映图像关键信息,因此准确率不能令人满意。深度学习技术在计算机视觉领域表现优异,在钻石图像分类任务中也可取得较好的效果,但其准确率仍有进一步提升的空间。
发明内容
本发明的目的在于提供一种钻石多尺度定级及内含物可视化的智能方法,通过对用户输入的钻石图像进行预处理,使用基于MultiScale机制的深度卷积神经网络作为有序回归模型,并使用合理的训练方式训练模型,使训练好的模型对新样本进行预测,并对结果做出解释,完成图像分类任务,解决了现有的钻石图像分类不够灵活、不过准确的问题。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为一种钻石多尺度定级及内含物可视化的智能方法,包括如下步骤:
步骤S01、选取图像预处理方式:针对钻石照片和定级任务具体分析,选取合适的预处理方式;
步骤S02、设计模型整体结构:考虑各组件的合理性,设计模型结构;
步骤S03、选择训练方式:根据预处理方式的复杂程度及计算机的承受能力,确定训练模型方式;
步骤S04、模型训练:使用训练集训练端对端模型;
步骤S05、新样本预测和模型解释:使用训练好的模型对新样本进行预测,并对模型的预测结果做出解释。
优选地,所述步骤S01中,预处理方式包括:图像融合、钻石裁剪;
其中,所述图像融合用于采集钻石图片时,使用多个聚焦距离对钻石进行拍照,利用Focus Combine技术融合,将不同位置的内含物显示在同一张图片中;所述钻石裁剪用于找出融合后照片中钻石的位置,并使用一个矩形框裁剪出钻石区域;所述图像高分辨率用于提高裁剪后钻石区域照片的分辨率,经过此处理的照片作为训练集。
优选地,所述步骤S02,模型设计采用深度学习模型EfficientNet并结合MultiScale机制,融合不同尺度的特征,用于模型抓取细节特征。
优选地,所述步骤S03中,模型训练方法为:使用L1Loss损失函数和SGD优化方法对模型进行训练,同时采用L2正则化方法和Dropout策略,防止过拟合。
优选地,所述步骤S05中,输入一张融合后的照片,模型输出具有方向性的预测结果,同时通过heatmap图可视化钻石中的内含物的位置,能够对定级结果进行解释。
本发明具有以下有益效果:
(1)本发明通过对用户输入的钻石图像进行预处理,使用基于MultiScale机制的深度卷积神经网络作为有序回归模型,并使用合理的训练方式训练模型,使训练好的模型对新样本进行预测,并对结果做出解释,完成图像分类任务,使钻石分类、定级更加准确灵活。
(2)本发明的输出结果具有方向性,即使预测有偏差,预测结果总是向正确方向靠近;同时模型还支持输出凸显钻石内含物的热力图照片,这在一定程度上解释了模型的预测结果,可代替人工给钻石定级,整个过程是由机器智能处理,降低了用户的时间和经济成本。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种钻石多尺度定级及内含物可视化的智能方法步骤图;
图2为本发明钻石照片预处理前后的对比图;
图3为本发明的模型的基本组件EfficientNet结构示意图;
图4为本发明可视化内含物的heatmap示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明为一种钻石多尺度定级及内含物可视化的智能方法,包括如下步骤:
步骤S01、选取图像预处理方式:针对钻石照片和定级任务具体分析,选取合适的预处理方式;
步骤S02、设计模型整体结构:考虑各组件的合理性,设计模型结构;
步骤S03、选择训练方式:根据预处理方式的复杂程度及计算机的承受能力,确定训练模型方式;
步骤S04、模型训练:使用训练集训练端对端模型;
步骤S05、新样本预测和模型解释:使用训练好的模型对新样本进行预测,并对模型的预测结果做出解释。
其中,步骤S01中,预处理方式包括:图像融合、钻石裁剪;
其中,图像融合用于采集钻石图片时,使用多个聚焦距离对钻石进行拍照,由于不同位置的内含物在多个聚焦照片中的清晰度不同,利用Focus Combine技术融合,将不同位置的内含物更加清晰地显示在同一张图片中,提升了训练数据的质量,更利于模型学习钻石的特征;钻石裁剪用于找出融合后照片中钻石的位置,并使用一个矩形框裁剪出钻石区域作为训练集,为了消除钻石背景对模型学习特征的影响,让模型更专一地关注钻石区域,使用边缘检测技术找出钻石边缘,获得钻石在照片中的位置,完成钻石的裁剪;图像高分辨率用于提高融合后照片的分辨率,对于大多数CNN模型,模型输入大小一般是224*224,超过的照片需要缩放到这个大小,基于钻石照片内含物微小的特点,如果钻石照片缩放到224*224这个级别,内含物无法看到。因此,为了看清内含物,照片中体现特征,必须使用高分辨率的照片,综合考虑后,照片分辨率定为896*896。
具体的预处理后的效果,请参照图2所示,图2中左图为原图,右图为预处理后的效果图。
请参照图3所示,步骤S02,模型设计采用深度学习模型EfficientNet并结合MultiScale机制,融合不同尺度的特征,用于模型抓取细节特征;EfficientNet网络基线结构如下表1所示,由于使用了集效率与效果于一体的深度学习模型EfficientNet,同时基于钻石的部分内含物很小、难以捕捉的特点,模型还结合MultiScale机制,融合不同尺度的特征,用于模型抓住细节特征;还考虑了净度级别的有序性,修改了模型的尾部结构,使之成为了一个有序回归模型,这为模型的结果带来了方向性的意义。
表1EfficientNet网络基线结构
其中,步骤S03中,模型训练方法为:使用L1Loss损失函数和SGD优化方法对模型进行训练,同时采用L2正则化方法和Dropout策略,防止过拟合,能够将模型作为一个整体来训练。
请参照图4所示,步骤S05中,输入一张融合后的照片,模型输出具有方向性的预测结果,同时通过heatmap图可视化钻石中的内含物的位置,能够对定级结果进行解释。
值得注意的是,上述系统实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
另外,本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质中。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (5)
1.一种钻石多尺度定级及内含物可视化的智能方法,其特征在于,包括如下步骤:
步骤S01、选取图像预处理方式:针对钻石照片和定级任务具体分析,选取合适的预处理方式;
步骤S02、设计模型整体结构:考虑各组件的合理性,设计模型结构;
步骤S03、选择训练方式:根据预处理方式的复杂程度及计算机的承受能力,确定训练模型方式;
步骤S04、模型训练:使用训练集训练端对端模型;
步骤S05、新样本预测和模型解释:使用训练好的模型对新样本进行预测,并对模型的预测结果做出解释。
2.根据权利要求1所述的一种钻石多尺度定级及内含物可视化的智能方法,其特征在于,所述步骤S01中,预处理方式包括:图像融合、钻石裁剪;
其中,所述图像融合用于采集钻石图片时,使用多个聚焦距离对钻石进行拍照,利用Focus Combine技术融合,将不同位置的内含物显示在同一张图片中;所述钻石裁剪用于找出融合后照片中钻石的位置,并使用一个矩形框裁剪出钻石区域作为训练集。
3.根据权利要求1所述的一种钻石多尺度定级及内含物可视化的智能方法,其特征在于,所述步骤S02,模型设计采用深度学习模型EfficientNet并结合MultiScale机制,融合不同尺度的特征,用于模型抓取细节特征。
4.根据权利要求1所述的一种钻石多尺度定级及内含物可视化的智能方法,其特征在于,所述步骤S03中,模型训练方法为:使用L1Loss损失函数和SGD优化方法对模型进行训练,同时采用L2正则化方法和Dropout策略,防止过拟合。
5.根据权利要求1所述的一种钻石多尺度定级及内含物可视化的智能方法,其特征在于,所述步骤S05中,输入一张融合后的照片,模型输出具有方向性的预测结果,同时通过heatmap图可视化钻石中的内含物的位置,能够对定级结果进行解。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910923861.XA CN110766663A (zh) | 2019-09-27 | 2019-09-27 | 一种钻石多尺度定级及内含物可视化的智能方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910923861.XA CN110766663A (zh) | 2019-09-27 | 2019-09-27 | 一种钻石多尺度定级及内含物可视化的智能方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110766663A true CN110766663A (zh) | 2020-02-07 |
Family
ID=69330757
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910923861.XA Withdrawn CN110766663A (zh) | 2019-09-27 | 2019-09-27 | 一种钻石多尺度定级及内含物可视化的智能方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110766663A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111523579A (zh) * | 2020-04-14 | 2020-08-11 | 燕山大学 | 一种基于改进深度学习的车型识别方法及系统 |
CN112766345A (zh) * | 2021-01-12 | 2021-05-07 | 合肥黎曼信息科技有限公司 | 一种基于有序回归正则的分类方法 |
-
2019
- 2019-09-27 CN CN201910923861.XA patent/CN110766663A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111523579A (zh) * | 2020-04-14 | 2020-08-11 | 燕山大学 | 一种基于改进深度学习的车型识别方法及系统 |
CN112766345A (zh) * | 2021-01-12 | 2021-05-07 | 合肥黎曼信息科技有限公司 | 一种基于有序回归正则的分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325203B (zh) | 一种基于图像校正的美式车牌识别方法及系统 | |
US20160239519A1 (en) | Systems and methods for identifying unwanted photos stored on a device | |
CN111368600A (zh) | 遥感图像目标检测识别方法、装置、可读存储介质及设备 | |
CN105809164A (zh) | 文字识别方法和装置 | |
CN111626279B (zh) | 一种负样本标注训练方法及高度自动化的票据识别方法 | |
CN110737785B (zh) | 一种图片标注的方法及装置 | |
CN108154191B (zh) | 文档图像的识别方法和系统 | |
CN111242899B (zh) | 基于图像的瑕疵检测方法及计算机可读存储介质 | |
CN111061904A (zh) | 一种基于图像内容识别的本地图片快速检测方法 | |
CN110766663A (zh) | 一种钻石多尺度定级及内含物可视化的智能方法 | |
CN105513083A (zh) | 一种ptam摄像机跟踪方法及装置 | |
CN116049397B (zh) | 基于多模态融合的敏感信息发现并自动分类分级方法 | |
CN109840559A (zh) | 图像筛选方法、装置以及电子设备 | |
CN112927776A (zh) | 一种面向医学检验报告的人工智能自动解读系统 | |
CN112037180B (zh) | 染色体分割方法及装置 | |
CN110097603B (zh) | 一种时尚图像主色调解析方法 | |
CN117372816A (zh) | 一种智能驾驶的图像自动标注方法、标注系统及存储介质 | |
CN112801911A (zh) | 一种去除自然图像中文字类噪声的方法及装置、存储介质 | |
CN115546824B (zh) | 禁忌图片识别方法、设备及存储介质 | |
US11893784B2 (en) | Assessment of image quality for optical character recognition using machine learning | |
CN107403192A (zh) | 一种基于多分类器的快速目标检测方法及系统 | |
CN115205553A (zh) | 图像的数据清洗方法、装置、电子设备及存储介质 | |
CN114486916A (zh) | 基于机器视觉的手机玻璃盖板缺陷检测方法 | |
CN113628113A (zh) | 一种图像拼接方法及其相关设备 | |
Singh et al. | StreetOCRCorrect: An interactive framework for OCR corrections in chaotic Indian street videos |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200207 |