CN107622250A

CN107622250A - 基于机器学习的3d图像识别方法及其系统

Info

Publication number: CN107622250A
Application number: CN201710890010.0A
Authority: CN
Inventors: 张东坡; 尹红宽; 蔡阿成
Original assignee: Shenzhen City Color Technology Co Ltd
Current assignee: Shenzhen City Color Technology Co Ltd
Priority date: 2017-09-27
Filing date: 2017-09-27
Publication date: 2018-01-23

Abstract

本发明涉及基于机器学习的3D图像识别方法及其系统，该方法包括获取图像，并对图像进行分割，获取两张子图像；获取其中一张子图像内若干个待识别区域；获取另一张子图像内与若干个待识别区域位置对应的目标区域；获取待识别区域与目标区域的相似度；结合机器学习获取最佳阈值；判断相似度是否大于最佳阈值；若是，则为3D图像；若不是，则为2D图像。本发明通过对图像进行分割，利用分割后的子图像进行相似度获取，通过相似度与最佳阈值的对比，进行3D图像以及2D图像的识别，通过机器学习的方式对大量样本进行训练提高算法的识别准确率，样本愈大准确率愈高，实现自动识别2D以及3D图像和视频，兼容性强，且识别准确度高。

Description

基于机器学习的3D图像识别方法及其系统

技术领域

本发明涉及图像和视频处理方法，更具体地说是指基于机器学习的3D图像识别方法及其系统。

背景技术

目前识别3D图像或者视频的方式除了传统的图像识别算法，还有裸眼3D，其中，传统的图像识别算法如下：将目标图片进行特征提取，描述图像的算法很多，用的比较多的是：SIFT描述子，指纹算法函数，bundling features算法，hash、散列函数等；将图像特征信息进行编码；利用目标图像的编码值，在图像数据库进行全局或是局部的相似度计算；将相似度高的图片预保留下来，按一定规则筛选出最佳匹配图片。而裸眼3D是一种把普通3D视频或图像经过特定算法处理后通过硬件分别渲染到人的左右眼的技术，目前仅有个别公司开发了支持此技术的媒体播放器和图像浏览器，为了兼容传统的渲染模式，现有支持裸眼3D功能的播放器和图像浏览器多是增加一个功能开关，或者在源文件里添加一个自定义的标志符。

但是，上述的识别3D图像或者视频的方法，通过添加功能开关的方式需用户自行识别手动选择合适的渲染模式，使用不便影响用户体验；通过添加自定义标志符的方式无法识别第三方的数据源，且自定义的标志符不能被第三方产品识别，兼容性差，传统的图像识别算法主要基于特定的数学模型，识别准确率有一定的局限性。

因此，有必要设计一种基于机器学习的3D图像识别方法，实现自动识别2D以及3D图像和视频，兼容性强，且识别准确度高。

发明内容

本发明的目的在于克服现有技术的缺陷，提供基于机器学习的3D图像识别方法及其系统。

为实现上述目的，本发明采用以下技术方案：基于机器学习的3D图像识别方法，所述方法包括：

获取图像，并对图像进行分割，获取两张子图像；

获取其中一张子图像内若干个区域，形成待识别区域；

获取另一张子图像内与若干个待识别区域位置对应的区域，形成目标区域；

获取待识别区域与目标区域的相似度；

结合机器学习获取最佳阈值；

判断所述相似度是否大于最佳阈值；

若是，则所述图像为3D图像；

若不是，则所述图像为2D图像。

其进一步技术方案为：获取图像，并对图像进行分割，获取两张子图像的步骤，包括以下具体步骤：

以BMP格式载入图像；

将图像缩小至指定大小；

对所述图像进行分割，获取两张子图像。

其进一步技术方案为：获取待识别区域与目标区域的相似度的步骤，包括以下具体步骤：

获取待识别区域内每个待识别点的颜色以及亮度；

获取目标区域内与待识别点对应的目标点的颜色以及亮度；

判断待识别点与对应目标点的颜色或亮度是否接近；

若是，则将结果记为真，若否，则将结果记为假；

判断所有待识别区域内的待识别点的颜色或亮度是否判断完毕；

若是，则统计结果为真以及结果为假的比例，形成相似度；

若否，则返回所述判断待识别点与对应目标点的颜色或亮度是否接近步骤。

其进一步技术方案为：结合机器学习获取最佳阈值的步骤，包括以下具体步骤：

获取2D样本空间和3D样本空间；

设定阈值的预设经验范围；

记录各种阈值组合下的识别率、误识率及识别时间；

根据别率、误识率及识别时间，采用边缘和中值逼近的机器学习方式获取3D识别率最高、2D误识率最低且识别时间最短的阈值，形成最佳阈值。

本发明还提供了基于机器学习的3D图像识别系统，包括图像处理单元、待识别区域获取单元、目标区域获取单元、相似度获取单元、最佳阈值获取单元以及判断单元；

所述图像处理单元，用于获取图像，并对图像进行分割，获取两张子图像；

所述待识别区域获取单元，用于获取其中一张子图像内若干个区域，形成待识别区域；

所述目标区域获取单元，用于获取另一张子图像内与若干个待识别区域位置对应的区域，形成目标区域；

所述相似度获取单元，用于获取待识别区域与目标区域的相似度；

所述最佳阈值获取单元，用于结合机器学习获取最佳阈值；

所述判断单元，用于判断所述相似度是否大于最佳阈值；若是，则所述图像为3D图像；若不是，则所述图像为2D图像。

其进一步技术方案为：所述图像处理单元包括载入模块、缩放模块以及分割模块；

所述载入模块，用于以BMP格式载入图像；

所述缩放模块，用于将图像缩小至指定大小；

所述分割模块，用于对所述图像进行分割，获取两张子图像。

其进一步技术方案为：所述相似度获取单元包括待识别点获取模块、目标点获取模块、接近判断模块、完毕判断模块以及比例获取模块；

所述待识别点获取模块，用于获取待识别区域内每个待识别点的颜色以及亮度；

所述目标点获取模块，用于获取目标区域内与待识别点对应的目标点的颜色以及亮度；

所述接近判断模块，用于判断待识别点与对应目标点的颜色或亮度是否接近；若是，则将结果记为真，若否，则将结果记为假；

所述完毕判断模块，用于判断所有待识别区域内的待识别点的颜色或亮度是否判断完毕；

所述比例获取模块，用于若是，则统计结果为真以及结果为假的比例，形成相似度。

其进一步技术方案为：所述最佳阈值获取单元包括样本空间获取模块、经验范围设定模块、记录模块以及最佳阈值形成模块；

所述样本空间获取模块，用于获取2D样本空间和3D样本空间；

所述经验范围设定模块，用于设定阈值的预设经验范围；

所述记录模块，用于记录各种阈值组合下的识别率、误识率及识别时间；

所述最佳阈值形成模块，用于根据别率、误识率及识别时间，采用边缘和中值逼近的机器学习方式获取3D识别率最高、2D误识率最低且识别时间最短的阈值，形成最佳阈值。

本发明与现有技术相比的有益效果是：本发明的基于机器学习的3D图像识别方法，通过对图像进行导入格式以及缩放处理后，对图像进行分割，利用分割后的子图像进行相似度获取，通过相似度与最佳阈值的对比，进行3D图像以及2D图像的识别，最佳阈值是由机器学习获取出来的，通过机器学习的方式对大量样本进行训练提高算法的识别准确率，样本愈大准确率愈高，实现自动识别2D以及3D图像和视频，兼容性强，且识别准确度高。

下面结合附图和具体实施例对本发明作进一步描述。

附图说明

图1为本发明具体实施例提供的基于机器学习的3D图像识别方法的流程图；

图2为本发明具体实施例提供的获取两张子图像的流程图；

图3为本发明具体实施例提供的获取待识别区域与目标区域的相似度的流程图；

图4为本发明具体实施例提供的结合机器学习获取最佳阈值的流程图；

图5为本发明具体实施例提供的图像分割的示意图；

图6为本发明具体实施例提供的基于机器学习的3D图像识别系统的结构框图；

图7为本发明具体实施例提供的图像处理单元的结构框图；

图8为本发明具体实施例提供的相似度获取单元的结构框图；

图9为本发明具体实施例提供的最佳阈值获取单元的结构框图。

具体实施方式

为了更充分理解本发明的技术内容，下面结合具体实施例对本发明的技术方案进一步介绍和说明，但不局限于此。

如图1～9所示的具体实施例，本实施例提供的基于机器学习的3D图像识别方法，可以运用在识别3D以及2D图像或视频过程中，实现自动识别2D以及3D图像和视频，兼容性强，且识别准确度高。

如图1所示，本实施例提供了基于机器学习的3D图像识别方法，该方法包括：

S1、获取图像，并对图像进行分割，获取两张子图像；

S2、获取其中一张子图像内若干个区域，形成待识别区域；

S3、获取另一张子图像内与若干个待识别区域位置对应的区域，形成目标区域；

S4、获取待识别区域与目标区域的相似度；

S5、结合机器学习获取最佳阈值；

S6、判断所述相似度是否大于最佳阈值；

S7、若是，则所述图像为3D图像；

S8、若不是，则所述图像为2D图像。

对于上述的S1步骤，获取图像，并对图像进行分割，获取两张子图像的步骤，包括以下具体步骤：

S11、以BMP格式载入图像；

S12、将图像缩小至指定大小；

S13、对所述图像进行分割，获取两张子图像。

对于上述的S11步骤至S12步骤，采用BMP格式载入图像且进行缩放，保留图像内的颜色和亮度，则可以缩小整个识别过程的运算量，快速识别。

对于上述的S13步骤，对图像进行分割，主要是分割成对称的上下两个子图像或者左右两个子图像，采用两个子图像对比可以提高识别效率，当然，于其他实施例，还可以将图像分割成左右上下各一个子图像，也就是四个子图像，需要将左右子图像对比，上下子图像对比，只有两个对比结果都满足3D的设定要求时，该图像才为3D图像，这样可以提高识别的准确率。

对于上述的S2步骤至S3步骤，举个例子，如图5所示，在左边子图像中间隔选定几块待识别区域S0-Sn，该待识别区域可以为面或线，不必全图比较，待识别区域的选择影响最终的处理时间和识别准确率，在右边子图像中对应位置选择目标区域D0-Dn，D0-Dn与S0-Sn的对应位置中心点坐标一致，区域略大。

对于上述的S4步骤，获取待识别区域与目标区域的相似度的步骤，包括以下具体步骤：

S41、获取待识别区域内每个待识别点的颜色以及亮度；

S42、获取目标区域内与待识别点对应的目标点的颜色以及亮度；

S43、判断待识别点与对应目标点的颜色或亮度是否接近；

S44、若是，则将结果记为真，若否，则S45、将结果记为假；

S46、判断所有待识别区域内的待识别点的颜色或亮度是否判断完毕；

S47、若是，则统计结果为真以及结果为假的比例，形成相似度；

若否，则返回所述S43步骤。

对于上述的S41步骤至S47步骤，在Dn中逐点比较Sn与中颜色或亮度接近的点，若Sn中存在子区域接近Dn则记为真，否则记为假。全部待识别区域内的待识别点都识别结束后，统计结果为真以及假各占的比例，真值大于设定阈值后则判断为3D图像。

全部识别结束后统计真假的比例，真值大于设定阈值后则判断为3D图像。

BMP图像格式每像素由RGB三原色组成，RGB计算色彩知觉亮度的公式：Y＝((R*299)+(G*587)+(B*114))/1000，取值范围为0～255，由此获取待识别点以及目标点的颜色或亮度。

更进一步地，对于上述的S5步骤，结合机器学习获取最佳阈值的步骤，包括以下具体步骤：

S51、获取2D样本空间和3D样本空间；

S52、设定阈值的预设经验范围；

S53、记录各种阈值组合下的识别率、误识率及识别时间；

S54、根据别率、误识率及识别时间，采用边缘和中值逼近的机器学习方式获取3D识别率最高、2D误识率最低且识别时间最短的阈值，形成最佳阈值。

上述的阈值设计的内容如下：待识别区域的数量Limit_N、待识别区域大小Limit_S、目标区域大小Limit_D、判断颜色或亮度接近的最小差值Limit_Color、判断为3D图像的最低匹配率Limit_3D。

举个例子，设定样本空间为2D图片100张以及3D图片100张；待识别区域的数量Limit_N的取值为5～10(即取五到十个对比区域)；待识别区域大小为4～16个正方形(4～16为待测正方形区域的边长像素数)；目标区域大小为8～20(8～20为目标区域的边长像素数)；采用亮度进行相似度判断，Limit_Color差值范围为0～32则判为相似，即结果为真；判断为3D图像的最低匹配率Limit_3D的取值80％～100％。

区域像素亮度匹配率达到设定阈值，则判断为相同，所有待识别区域都匹配则判断为3D图像。如3D样本空间中判断为3D格式的图像为90，则3D识别率为90％；2D样本空间中判断为3D格式的图像为10，则误识率为10％。

对于上述的S53步骤，机器学习是对算法进行优化的过程，按照经验值的方式(Limit_N取10，Limit_S取16等，Limit_D取16，Limit_Color取22，Limit_3D取90％)在移动端进行测试，1024*768的图像识别耗时>1s，3D识别率92％，2D误识率5％；按照传统的识图算法在移动端进行测试，1024*768的图像识别耗时>200ms，3D识别率97％，2D误识率3％；本方案在移动端进行测试，1024*768的图像识别耗时<100ms，3D识别率99％，2D误识率1％。则阈值最大组合数：(10-5)*(16-4)*(20-8)*(32-0)*(100-80)＝460800，共计46万零800。再采用边缘+中值逼近的机器学习方式处理，如Limit_D(D取8～20)，先测试8、(8+20)/2＝14、20三个值，若14结果好于8和20，则下一步对比(8+14)/2＝11、14、(20+14)/2＝17三个值；若17结果最优，则下一步对比(14+17)/2＝16、17、(17+20)/2＝19三个值…逐步逼近。其他参数的处理方式类似，以确定最佳阈值，从而提高识别的准确度。

若识别的对象为图像，则进行直接识别，若识别的对象为视频提取几帧转为图像进行识别。识别结果为2D则进行2D模式的渲染，识别结果为3D则进行3D模式的渲染。

当然，于其他实施例，选定待识别区域后，可以采用传统的图像识图方法进行识别判断，具体步骤如下：

将目标图像进行特征提取，描述图像的算法很多，用的比较多的是SIFT描述子，指纹算法函数，bundling features算法，hash、散列函数等；

将图像特征信息进行编码；

利用目标图像的编码值，在图像数据库进行全局或是局部的相似度计算；

将相对似度高的图片预保留下来，按一定规则筛选出最佳匹配图片。

在本实施例中，上述的S53步骤，是基于逐点比较算法中计算各种阈值组合下的识别率、误识率及识别时间，当然，于其他实施例，可以基于SIFT描述子，指纹算法函数，bundling features算法，hash、散列函数计算各种阈值组合下的识别率、误识率及识别时间。利用最佳阈值替换算法内的预设经验值以提高算法识别过程中的准确率。

上述的基于机器学习的3D图像识别方法，通过对图像进行导入格式以及缩放处理后，对图像进行分割，利用分割后的子图像进行相似度获取，通过相似度与最佳阈值的对比，进行3D图像以及2D图像的识别，最佳阈值是由机器学习获取出来的，通过机器学习的方式对大量样本进行训练提高算法的识别准确率，样本愈大准确率愈高，实现自动识别2D以及3D图像和视频，兼容性强，且识别准确度高。

如图6所示，本实施例还提供了基于机器学习的3D图像识别系统，其包括图像处理单元1、待识别区域获取单元2、目标区域获取单元3、相似度获取单元4、最佳阈值获取单元5以及判断单元6。

图像处理单元1，用于获取图像，并对图像进行分割，获取两张子图像。

待识别区域获取单元2，用于获取其中一张子图像内若干个区域，形成待识别区域。

目标区域获取单元3，用于获取另一张子图像内与若干个待识别区域位置对应的区域，形成目标区域。

相似度获取单元4，用于获取待识别区域与目标区域的相似度。

最佳阈值获取单元5，用于结合机器学习获取最佳阈值。

判断单元6，用于判断所述相似度是否大于最佳阈值；若是，则所述图像为3D图像；若不是，则所述图像为2D图像。

更进一步的，上述的图像处理单元1包括载入模块11、缩放模块12以及分割模块13。

载入模块11，用于以BMP格式载入图像。

缩放模块12，用于将图像缩小至指定大小。

分割模块13，用于对所述图像进行分割，获取两张子图像。

对于上述的载入模块11以及缩放模块12，采用BMP格式载入图像且进行缩放，保留图像内的颜色和亮度，则可以缩小整个识别过程的运算量，快速识别。

对于上述的分割模块13而言，对图像进行分割，主要是分割成对称的上下两个子图像或者左右两个子图像，采用两个子图像对比可以提高识别效率，当然，于其他实施例，还可以将图像分割成左右上下各一个子图像，也就是四个子图像，需要将左右子图像对比，上下子图像对比，只有两个对比结果都满足3D的设定要求时，该图像才为3D图像，这样可以提高识别的准确率。

上述的待识别区域获取单元2、目标区域获取单元3而言，举个例子，如图5所示，在左边子图像中间隔选定几块待识别区域S0-Sn，该待识别区域可以为面或线，不必全图比较，待识别区域的选择影响最终的处理时间和识别准确率，在右边子图像中对应位置选择目标区域D0-Dn，D0-Dn与S0-Sn的对应位置中心点坐标一致，区域略大。

更进一步地，相似度获取单元4包括待识别点获取模块41、目标点获取模块42、接近判断模块43、完毕判断模块44以及比例获取模块45。

待识别点获取模块41，用于获取待识别区域内每个待识别点的颜色以及亮度。

目标点获取模块42，用于获取目标区域内与待识别点对应的目标点的颜色以及亮度。

接近判断模块43，用于判断待识别点与对应目标点的颜色或亮度是否接近；若是，则将结果记为真，若否，则将结果记为假。

完毕判断模块44，用于判断所有待识别区域内的待识别点的颜色或亮度是否判断完毕。

比例获取模块45，用于若是，则统计结果为真以及结果为假的比例，形成相似度。

在Dn中逐点比较Sn与中颜色或亮度接近的点，若Sn中存在子区域接近Dn则记为真，否则记为假。全部待识别区域内的待识别点都识别结束后，统计结果为真以及假各占的比例，真值大于设定阈值后则判断为3D图像。

另外，上述的最佳阈值获取单元5包括样本空间获取模块51、经验范围设定模块52、记录模块53以及最佳阈值形成模块54。

样本空间获取模块51，用于获取2D样本空间和3D样本空间。

经验范围设定模块52，用于设定阈值的预设经验范围。

记录模块53，用于各种阈值组合下的识别率、误识率及识别时间。

最佳阈值形成模块54，用于根据别率、误识率及识别时间，采用边缘和中值逼近的机器学习方式获取3D识别率最高、2D误识率最低且识别时间最短的阈值，形成最佳阈值。

对于上述的最佳阈值形成模块54而言，机器学习是对算法进行优化的过程，按照经验值的方式(Limit_N取10，Limit_S取16等，Limit_D取16，Limit_Color取22，Limit_3D取90％)在移动端进行测试，1024*768的图像识别耗时>1s，3D识别率92％，2D误识率5％；按照传统的识图算法在移动端进行测试，1024*768的图像识别耗时>200ms，3D识别率97％，2D误识率3％；本方案在移动端进行测试，1024*768的图像识别耗时<100ms，3D识别率99％，2D误识率1％。则阈值最大组合数：(10-5)*(16-4)*(20-8)*(32-0)*(100-80)＝460800，共计46万零800。再采用边缘+中值逼近的机器学习方式处理，如Limit_D(D取8～20)，先测试8、(8+20)/2＝14、20三个值，若14结果好于8和20，则下一步对比(8+14)/2＝11、14、(20+14)/2＝17三个值；若17结果最优，则下一步对比(14+17)/2＝16、17、(17+20)/2＝19三个值…逐步逼近。其他参数的处理方式类似，以确定最佳阈值，从而提高识别的准确度。

上述的基于机器学习的3D图像识别系统，通过对图像进行导入格式以及缩放处理后，对图像进行分割，利用分割后的子图像进行相似度获取，通过相似度与最佳阈值的对比，进行3D图像以及2D图像的识别，最佳阈值是由机器学习获取出来的，通过机器学习的方式对大量样本进行训练提高算法的识别准确率，样本愈大准确率愈高，实现自动识别2D以及3D图像和视频，兼容性强，且识别准确度高。

上述仅以实施例来进一步说明本发明的技术内容，以便于读者更容易理解，但不代表本发明的实施方式仅限于此，任何依本发明所做的技术延伸或再创造，均受本发明的保护。本发明的保护范围以权利要求书为准。

Claims

1.基于机器学习的3D图像识别方法，其特征在于，所述方法包括：