CN110969202A

CN110969202A - 基于颜色分量和感知哈希算法的人像采集环境验证方法及系统

Info

Publication number: CN110969202A
Application number: CN201911193699.7A
Authority: CN
Inventors: 陶景龙; 梁淑云; 刘胜; 马影; 王启凡; 魏国富; 徐�明; 殷钱安; 余贤喆; 周晓勇
Original assignee: Information and Data Security Solutions Co Ltd
Current assignee: Information and Data Security Solutions Co Ltd
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2020-04-07
Anticipated expiration: 2039-11-28
Also published as: CN110969202B

Abstract

本发明公开了一种基于颜色分量和感知哈希算法的人像采集环境验证方法及系统，包括S100，获取样本数据集合；S200，预处理样本数据，包括正样本和负样本；S300，针对预处理的样本数据，生成数据集D；S400，使用支持向量机分类算法结合数据集D进行分类模型训练，得到训练完成的分类模型；S500，对待检验的人像图片和环境图片，使用分类模型进行预测，输出是否匹配的预测结果。本发明采用感知哈希算法可以有效获得图像的重要内容特征，而颜色分量统计算法从颜色角度出发，弥补了前述算法对颜色信息的计算缺陷，并将两种方法所计算的相似度结果作为数据特征输入至svm模型进行训练，最终得到可以判断输入的人像图片是否为营业厅现场采集的分类模型。

Description

基于颜色分量和感知哈希算法的人像采集环境验证方法及系统

技术领域

本发明涉及图像处理技术领域，具体来说是基于颜色分量和感知哈希算法的人像采集环境验证方法及系统。

背景技术

互联网发展速度迅猛，在带动很多高新产业快速发展的同时，也滋生了很多依靠运营商“黑卡”而存活的灰色产业链。“黑卡”指的是未进行或盗用他人身份信息实名登记，并且可能被不法分子利用实施违法犯罪活动等行为的移动电话卡。在运营商内部，产生这些黑卡的原因大致分为两种：第一，存一些管理不严格的不良营业厅因为某种利益关系，通过备份日常客户的身份资料，私下进行注册新的卡号，这些卡号流入市场大多便成为了黑卡；直接在黑市购买身份信息，拿这些身份信息去尽可能多的注册新的卡号，如同第一种原因都是冒用他人身份证进行电话卡注册。

运营商为防止不法分子冒用他人身份证办理电话卡，实行实名认证，其中，在线下营业厅网点进行现场人像采集并上传是重要的一个举措。但是，由于运营商的营业厅网点类型众多，包含许多代理网点，因此营业厅网点的现场环境复杂，采集的人像图片环境背景识别度低，对于人像图片是否在现场采集的确认带来了极大困难。

对于人像图片是否在现场采集的确认，现有办法是通过人工筛查。主要依靠相关工作人员对现场人像采集业务的理解能力以及对营业厅网点现场环境的熟悉程度，从而判断采集的人像图片是否为营业厅网点现场采集。

人工筛查主要依靠相关工作人员对现场人像采集业务的理解能力以及对营业厅网点现场环境的熟悉程度，从而判断采集的人像图片是否属于营业厅网点现场采集。利用这种方式进行身份信息验证的效率不高、耗费人力资源。

现有技术中，如申请号为CN201820577058.6的发明申请，其公开了针对人的身份认证，对人脸、指纹内容进行比对，采用感知哈希算法进行人脸相似度计算，实现使用人脸扫描和身份证认证双重检测，从源头上避免未成年人持成人身份证上机的问题。这样的方法由于算法本身的原因，会丢失图像的颜色信息。且忽略了图像背景即图片的采集环境对于认证的重要性。

综上所述，现有技术中的人像采集环境验证方法无法准确、高效的判断人像图片是否属于营业厅网点现场采集。因此，亟需找到一种人像采集环境验证的方案，从而保证人像采集环境的验证准确无误、高效简便。

发明内容

本发明所要解决的技术问题在于现有技术中人像采集环境验证方法无法准确、高效的判断人像图片是否属于营业厅网点现场采集的问题。

本发明通过以下技术手段实现解决上述技术问题的：

一种基于颜色分量和感知哈希算法的人像采集环境验证方法，包括以下步骤：

S100，获取样本数据集合，集合元素为人像图片及其对应的环境图片；

S200，预处理样本数据，包括正样本和负样本；

S300，针对预处理的样本数据，计算人像图片和环境图片的内容相似度和颜色相似度，生成数据集D；

S400，使用支持向量机分类算法结合数据集D进行分类模型训练，得到训练完成的分类模型；

S500，对待检验的人像图片和环境图片，使用是S300中相同方法计算内容相似度和颜色相似度，生成测试数据集，使用分类模型进行预测，输出是否匹配的预测结果。

本发明采用颜色分量和感知哈希算法相结合的人像采集环境验证方法，感知哈希算法中，经过了余弦离散变换，图像的内容信息大都集中在低频区域，将计算重点缩小至该区域，有效获得图像的重要内容特征，而颜色分量统计算法从颜色角度出发，统计了整张图片的颜色分布情况，弥补了前述算法对颜色信息的计算缺陷，并将两种方法所计算的相似度结果作为数据特征输入至svm模型进行训练，最终得到可以判断输入的人像图片是否为营业厅现场采集的分类模型，使用该分类模型对待验证的图片进行采集环境验证，提高了工作效率并保证了准确性。

优选的，所述步骤S300中具体方法为：

S310.使用感知哈希算法计算内容相似度，从图片获取目标内容信息，并将图片内容信息构造成序列形式，计算两张图片的内容相似性；

S320.使用颜色分量算法计算颜色相似度，划分图片颜色区间，并统计每个区间的像素个数，每个颜色区间的像素个数将组成图片的颜色特征，计算两张图片的颜色相似性。

优选的，假设取人像图片a、环境图片b；所述步骤S310具体为：

S311.对图像a、b进行重采样，并进行压缩；

S312.对已压缩的两幅图像分别进行灰度化处理，得到两幅灰度图像；

S313.分别对处理后的两幅灰度图像进行二维离散余弦变换，得到两个DCT系数矩阵a1和b1；

其中二维离散余弦变换公式如下：

其中i,j分别代表像素在空间域的坐标，u和v指基函数频率域中的坐标，f(i,j)为原始的信号，F(u,v)是二维离散余弦变换后的系数，N为原始信号的点数，c(u)、c(v)为补偿系数；

S314.缩小两个DCT系数矩阵，只保留左上角的8*8矩阵，得到两个8*8的DCT矩阵a2和b2；

S315.分别计算a2和b2的平均值，得到Q_a，Q_b；

S316.将a2和b2矩阵的每个像素的灰度值，与平均值Q_a，Q_b进行比较，若大于或等于平均值则置为1，否则置为0；由此分别得到两个由0和1构成的长度为64的序列，分别记为图片感知哈希序列L_a，L_b；

S317.对两个图片感知哈希序列进行汉明距离计算，即得到图像a、b的内容相似度content-s_ab；其中汉明距离计算公式如下：

其中A、B分别代表需要计算相似度的两个对象L_a，L_b，i代表对象位置，n代表对象长度。

优选的，假设取人像图片a、环境图片b；所述步骤S320具体为：

S321.使用图像处理工具将图像a，b的色彩模式统一改成RGB；

S322.对S321中已转换颜色模式的图像a，b分别进行颜色区间划分，构成多种组合，并分别提取每种组合的像素统计数量，各组成一个数组，记为C_a、C_b；该数组就是对应图片的颜色特征；

S324.计算数组C_a，C_b的余弦相似度，即图像a，b颜色相似度color-s_ab；

其中余弦相似度计算公式如下：

其中A、B分别代表需要计算相似度的两个对象C_a、C_b，i代表对象位置，n代表对象长度，θ表示C_a、C_b之间的夹角；

S325.制作数据集，针对所有正负样本数据中的人像图片和环境图片组合进行内容相似度和颜色相似度计算，将计算结果插入正负样本数据，生成数据集D。

优选的，所述步骤S400具体为：

利用支持向量机构建分类算法模型，利用数据集D对模型进行训练，其数据集D中的内容相似度、颜色相似度作为模型训练阶段的输入参数，是否匹配作为的分类标签；其中，在模型测试验证阶段使用交叉验证法对SVM模型进行测试。

相匹配的，本发明还提供一种基于颜色分量和感知哈希算法的人像采集环境验证系统，

获取样本数据集合模块，集合元素为人像图片及其对应的环境图片；

预处理样本数据模块，包括正样本和负样本；

样本集生成模块，计算人像图片和环境图片的内容相似度和颜色相似度，生成数据集D；

模型训练模块，使用支持向量机分类算法结合数据集D进行分类模型训练，得到训练完成的分类模型；

检测模块，对待检验的人像图片和环境图片，使用是S300中相同方法计算内容相似度和颜色相似度，生成测试数据集，使用分类模型进行预测，输出是否匹配的预测结果。

优选的，所述样本集生成模块具体方法为：

S311.对图像a、b进行重采样，并进行压缩；

其中二维离散余弦变换公式如下：

S315.分别计算a2和b2的平均值，得到Q_a，Q_b；

S321.使用图像处理工具将图像a，b的色彩模式统一改成RGB；

其中余弦相似度计算公式如下：

优选的，所述步骤模型训练模块具体为：

本发明的优点在于：本发明采用颜色分量和感知哈希算法相结合的人像采集环境验证方法，感知哈希算法中，经过了余弦离散变换，图像的内容信息大都集中在低频区域，将计算重点缩小至该区域，有效获得图像的重要内容特征，而颜色分量统计算法从颜色角度出发，统计了整张图片的颜色分布情况，弥补了前述算法对颜色信息的计算缺陷，并将两种方法所计算的相似度结果作为数据特征输入至svm模型进行训练，最终得到可以判断输入的人像图片是否为营业厅现场采集的分类模型，使用该分类模型对待验证的图片进行采集环境验证，提高了工作效率并保证了准确性。

附图说明

图1为本发明实施例中方法的流程框图；

图2为本发明实施例中正负样本例图；

图3为本发明实施例中颜色区间分布统计图；

图4为本发明实施例中数据集D示例图；

图5为本发明实施例中SVM算法原理图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，一种基于颜色分量和感知哈希算法的人像采集环境验证方法，具体步骤如下：

S200，预处理样本数据，包括正样本和负样本(人像图片、环境图片及二者是否匹配的标签(1/0))；

S300，针对预处理的样本数据，计算人像图片和环境图片的内容相似度和颜色相似度，分别使用感知哈希算法和颜色分量算法，生成数据集D；

S500，对待检验的人像图片和环境图片，使用是S103中相同方法计算内容相似度和颜色相似度，生成测试数据集，使用分类模型进行预测，输出是否匹配的预测结果；

下面具体说明每个步骤内容：

S100中的方法为：

与运营商线下营业厅管理中心以及相关业务人员沟通获取样本数据集合，集合元素为人像图片及其对应的营业厅环境图片(这里的环境图片应为采集设备镜头捕获的环境图片)；

S200中的方法为：

如图2所示，对于获取的样本数据集合生成正负样本，其中正样本数据即现有的样本数据集合，将人像图片和环境图片的匹配情况标记为1；对于负样本的生成，则采用人像图片和环境图片的交叉组合，规避二者匹配的情况，并将人像图片和环境图片的不匹配情况标记为0，正负样本比例约为1:1。

S300中的方法为：

针对预处理的样本数据，计算人像图片和环境图片的内容相似度和颜色相似度，分别使用感知哈希算法和颜色分量算法，生成数据集D；

假设取人像图片a、环境图片b；

S310.使用感知哈希算法计算内容相似度，从图片获取重要内容信息，并将图片内容信息构造成序列形式，计算两张图片的相似性即计算两张图片的内容信息相关性；

S311.对图像a、b进行重采样，压缩到8*8大小，有效的去除高频信息和细节信息，便于接下来的操作；

S313.分别对处理后的两幅灰度图像进行二维离散余弦变换(二维DCT变换)，得到两个32*32的DCT系数矩阵a1和b1；

其中二维离散余弦变换(二维DCT变换)公式如下：

其中i,j分别代表像素在空间域的坐标，u和v指基函数频率域中的坐标，这个基函数公式基于8*8的块，x、y、u、v的取值范围都是0–7。f(i,j)为原始的信号，F(u,v)是DCT变换后的系数，N为原始信号的点数，c(u)、c(v)为补偿系数

S315.分别计算a2和b2的平均值，得到Q_a，Q_b；

S316.将a2和b2矩阵的每个像素的灰度值，与平均值Q_a，Q_b进行比较，若大于或等于平均值则置为1，否则置为0；由此分别得到两个由0和1构成的长度为64的序列(011100111...N)，分别记为图片感知哈希序列L_a，L_b；

S317.对两个图片感知哈希序列进行汉明距离计算，即得到图像a、b的内容相似度content-s_ab；

其中汉明距离计算公式如下：

S320.使用颜色分量算法计算颜色相似度，划分图片颜色区间，并统计每个区间的像素个数，每个颜色区间的像素个数将组成图片的颜色特征，计算两张图片的相似性即计算两张图片的颜色特征相关性；

假设取人像图片a、环境图片b，

S321.使用图像处理工具将图像a，b的色彩模式统一改成RGB；

其中RGB色彩模式是工业界的一种颜色标准，是通过对红(R)、绿(G)、蓝(B)三个单

颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的，这个标准几乎包括了人类视力所能感知的所有颜色。故每种颜色都有其对应的RGB值，并且单通道颜色范围都是(0-255)，所以整个颜色空间共有约1600万种颜色。

S322.针对这1600多万种颜色进行区间划分，统计每一种颜色区间组合包含的像素数量；可以将0～255分成四个区：0～63为第0区，64～127为第1区，128～191为第2区，192～255为第3区。这意味着红绿蓝分别有4个区，总共可以构成64种组合。任何一种颜色必然属于这64种组合中的一种，这样就可以统计每一种组合包含的像素数量，其内容形式如图3：颜色区间分布统计图；

S323.对S321中已转换颜色模式的图像a，b分别进行颜色区间划分，并分别提取64种组合的像素统计数量，各组成一个长度为64的数组，记为C_a、C_b。该数组就是对应图片的颜色特征；

其中余弦相似度计算公式如下：

其中A、B分别代表需要计算相似度的两个对象C_a、C_b，i代表对象位置，n代表对象长度。

S325.制作数据集，如同S310与S320描述步骤，针对所有正负样本数据中的人像图片和环境图片组合进行内容相似度和颜色相似度计算，将计算结果插入正负样本数据，生成数据集D，其内容形式如图4所示；

S400.使用支持向量机分类算法结合数据集D进行分类模型训练，得到训练完成的分类模型model；

如图5所示，其中支持向量机(Support Vector Machine，一般简称SVM)从线性可分情况下的最优分类面发展而来。最优分类面就是要求分类线不仅能将两类正确分开，并且还要求分类间隔最大。SVM考虑找到一个满足分类要求的超平面，并且使训练数据集中的点距离分类超平面尽可能的远，也就是寻找一个分类面使它两侧的空白区域最大。这两类样本中距离分类超平面最近的样本点被称为支持向量，如下图红色的点，支持向量机算法就是找到超平面f(x)＝w^Tx+b，使得支持向量到超平面的距离

的值最大。

对于所有的支持向量，使得它们到超平面的距离为最大：

对于所有的支持向量，其w^Tx+b的值都是一定的，在此为了方便说明，假设其值为1，有：

且对于所有的样本点，满足yⁱ(w^Tx+b)≥1的约束条件，利用拉格朗日乘数法求出其极值。其目标函数为：

其中，拉格朗日乘子α＝(α₁；α₂；…；α_n)

利用SVM构建分类算法模型，将数据集D作为样本集对模型进行训练，其数据集D中的“内容相似度”、“颜色相似度”作为模型训练阶段的输入参数，“是否匹配”作为的分类标签，样本集内容形式如图4。其中，在模型测试验证阶段使用交叉验证法对SVM模型进行测试。所谓交叉验证法，是一种检验模型效果好坏的基本方法，其基本方式是将数据划分为K等份，轮流把其中的一份作为模型的测试数据集，剩下的K-1份作为训练数据集，最终选择平均效果最好的模型，并保存分类模型model；

S500，对待检验的人像图片和环境图片，使用是S300中相同方法计算内容相似度和颜色相似度，生成测试数据集，使用分类模型model进行预测，输出是否匹配的预测结果R，如果R为1则代表人像图片和环境图片拍摄环境匹配，说明待检验的人像图片是在营业厅现场采集，反之则代表待检验的人像图片不是在营业厅现场采集。

实施例2

相匹配的，本实施例还提供一种基于颜色分量和感知哈希算法的人像采集环境验证系统，

预处理样本数据模块，包括正样本和负样本；

优选的，所述样本集生成模块具体方法为：

S311.对图像a、b进行重采样，并进行压缩；

其中二维离散余弦变换公式如下：

S315.分别计算a2和b2的平均值，得到Q_a，Q_b；

S321.使用图像处理工具将图像a，b的色彩模式统一改成RGB；

其中余弦相似度计算公式如下：

优选的，所述步骤模型训练模块具体为：

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。