CN107111869B9

CN107111869B9 - 图像辨识系统及方法

Info

Publication number: CN107111869B9
Application number: CN201580054978.9A
Authority: CN
Inventors: 姆萨卡鲁潘·斯瓦米纳坦; 托拜厄斯·斯卓伯洛姆; 伊恩·章; 奥夫杜略·皮罗托
Original assignee: Temasek Life Sciences Laboratory Ltd
Current assignee: Temasek Life Sciences Laboratory Ltd
Priority date: 2014-09-15
Filing date: 2015-09-15
Publication date: 2021-04-06
Anticipated expiration: 2035-09-15
Also published as: CO2017003311A2; KR20170055987A; EP3195260A1; CA2960964A1; CN107111869A; CA2960964C; US10325183B2; IL251022A0; US20170249535A1; AU2015318702B2; CN107111869B; KR102535810B1; SG11201701902XA; MY188125A; EP3195260B1; AU2015318702A1; JP6628803B2; IL251022B; EP3195260A4; JP2017527937A

Abstract

本发明提供一种用于数字图像分类的经改进系统及方法。具有处理器的主机耦合到于其上存储参考特征数据的存储器。具有处理器的图形处理单元(GPU)耦合到所述主机且经配置以：从所述主机获得对应于所述数字图像的特征数据；从所述存储器访问一或多个参考特征数据；且基于所述特征数据与所述一或多个参考特征数据之间的泊松二项分布确定半度量距离。所述主机经配置以使用所述经确定半度量距离来对所述数字图像进行分类。

Description

图像辨识系统及方法

技术领域

本发明大体上涉及用于图像辨识的经改进系统及方法。更确切地说，本发明涉及用于数字图像中的图案辨识的系统及方法。进而更确切地说，本发明涉及用于利用被称作泊松二项半径(PBR；Poisson-Binomial Radius)的半度量距离量度来执行图像分类及辨识功能的系统及方法，所述泊松二项半径基于泊松二项分布(Poisson-Binomial distribution)。

背景技术

机器学习方法(例如支持向量机(SVM)、主成分分析(PCA)及k-最近邻域(k-NN；k-nearest neighbor))使用距离量度来比较数据点之间的相对不相似性。选择适当的距离量度为至关重要的。使用最广泛的量度为平方距离和(L₂或欧几里得(Euclidean))及绝对差和(L₁或曼哈顿(Manhattan))。

可从最大概似法(ML)视角来回答使用哪一量度的问题。简单来说，L₂用于遵循i.i.d高斯分布(Gaussian-distribution)的数据，而L₁用于i.i.d拉普拉斯(Laplace)分布数据的状况。参见[1]、[2]。因此，当已知或很好地估计基本数据分布时，可确定待使用的度量。

当输入变量的概率分布为未知或不相同时，会产生问题。以图像获取为例，由现代数码相机捕获的图像一直被噪声损坏。参见[3]。举例来说，电荷耦合装置(CCD；charge-coupled device)传感器的输出连同有用信号携带多种噪声成分，例如光子噪声、固定图案噪声(FPN；fixed-pattern noise)。参见[4]。此外，图像在信号放大及传输期间易受噪声损坏。参见[5]。文献中所发现的一些最常见类型的噪声为加性噪声、脉冲噪声或信号相关噪声。然而，由现代数码相机产生的噪声的类型及量倾向于除了取决于相机设置(光圈、快门速度、ISO)之外，还取决于特定细节，例如相机的品牌及系列名称。参见[6]。此外，会导致元数据的损失的图象文件格式转换及文件传送可加剧此问题。即使经捕获图像呈现为无噪声的，但其可仍由人眼不易察觉到的噪声成分构成。参见[7]。鉴于特征描述符受此类非均质噪声源影响，因此假定此类描述符为独立的但并不相同地分布(i.n.i.d)为合理的。参见[8]。

输入变量独立且相同地分布(i.i.d)的假定为大多数距离量度中所固有的。生物定序数据分析及其它领域中的最近进展已证实，输入数据实际上经常不遵循i.i.d假定。已证明考虑到此不一致可产生较准确的基于决策的算法。

若干思路促进了半度量距离量度的发展。第一个思路涉及需要由距离量度满足以便具有距离度量资格的公理。这些为非负性、对称性、自反性及三角不等式的公理。不符合三角不等式公理的量度按照定义被称作半度量距离。

尽管在大多数应用中广泛地使用距离度量，但已存在怀疑公理中的一些(尤其是三角等式)的必要性的良好理由。举例来说，已展示，当要求受试人执行图像辨识任务时，三角不等式公理以在统计学上显著的方式被违反。参见[9]。在另一实例中，由效果最好的用于图像辨识的算法使用户外经标记面部(LFW；Labelled Faces in the Wild)及加州理工学院101(Caltech101)数据集产生的距离分数也已展示为违反三角不等式。参见[10]。

另一思路涉及“维数灾难”。随着特征空间中的维度的数目增加，对于多数数据分布及距离函数，距任何给定查询的最近邻域及最远邻域的距离的比率倾向于收敛为一。参见[11]。数据点之间的不良对比暗示高维度空间中的最近相邻搜索变得无关紧要。因此，创建分数L_p半度量[12]作为一种保持对比的方式。如果(x_i,y_i)为i.i.d.随机向量的序列，那么L_p距离经定义为：

使p＝1得出曼哈顿距离，且使p＝2得出欧几里得距离。对于p∈(0,1)的值，L_p得出分数L_p距离量度。

在一项用于面部及合成图像的比较L_p与L₂距离的模板匹配研究中，总结出：当图像因噪声及遮挡而退化时，p∈(0.25,0.75)的值优于L₂。参见[13]。其它群组也已使用L_p距离以匹配合成图像与真实图像。参见[14]。霍华斯(Howarth)等人已探索针对基于内容的图像检索使用L_p距离的想法[15]，且结果表明，p＝0.5可产生检索性能的改进且始终优于L₁及L₂范数两者。

值得提及的其它半度量距离为动态部分函数(DPF；Dynamic Partial Function)[16]、杰夫瑞发散(JD；Jeffrey Divergence)[17]及归一化编辑距离(NED；Normalized EditDistance)[18]。

到目前为止，未在图案辨识中证实用以处置i.n.i.d.分布的任何距离量度。因此，需要用于图案辨识的经改进系统及方法。

发明内容

根据本发明，提供利用被称作泊松二项半径(PBR)的新型半度量距离的用于图案辨识的系统及方法，所述泊松二项半径基于泊松二项分布。本发明提供多个非限制性优点。举例来说，本发明包括鲁棒半度量，其避免i.i.d.假定且考虑到i.n.i.d.特征描述符且进一步表明对有噪声条件中的退化的鲁棒性。此外，本发明通过减少处理及改进效率来改进图案辨识装置自身的效率。

根据本发明的各方面，所述系统及方法适于实时应用。举例来说，根据本发明的实施例，使用图形处理单元(GPU；Graphics Processing Unit)并行化实施方案特征。

根据本发明的其它方面，引入一种尽管训练样本集合较小但仍达成高分类准确性的新型分类器。根据本发明的其它方面，可容易地一般化所述分类器以处置较多类别，而不需要用于优化的训练阶段或交叉验证。

根据本发明的各方面，一种用于图案辨识的新型距离量度是基于所述泊松二项分布，其避免输入相同地分布的假定。本发明人已在本文中所描述的实验中测试此新型量度。一个实验为用以区分经数字化的人与猫图像的二进制分类任务，且另一实验为识别从两个图像库编译的耳朵的经数字化图像。在这两个实验中，都将此量度的性能与欧几里得、曼哈顿及分数L_p距离量度进行比较。使用经GPU并行化的经定向梯度直方图(HOG；Histogram of Oriented Gradient)来完成这两个实验的特征提取以捕获形状及纹理信息。

本发明人证实，本发明始终优于使用上文所提及的现有技术距离量度的图案辨识方法。此外，结果展示，经提议距离量度可改进机器学习算法的有效性。

根据本发明的各方面，提供一种图像分类系统。所述系统包括用于针对所接收的图像执行HOG特征的计算且比较所述经计算HOG特征与训练图像的存储HOG特征的GPU。所述系统基于最接近匹配的训练图像对图像进行分类，所述最接近匹配的训练图像基于PBR。

根据本发明的各方面，所述图像分类系统可用于从正常细胞中判别癌细胞。

根据本发明的各方面，所述图像分类系统可用于匹配指纹。

根据本发明的各方面，所述图像分类系统可用于识别DNA或RNA定序数据中的罕见变体。

根据本发明的各方面，所述图像分类系统可用于辨识面部。

根据本发明的各方面，PRICoLBP可用作HOG的替代方案。相似地，SVM内核可用作kNN的替代方案。

下文参考图式论述本发明的各种实施例的另外应用及优点。

附图说明

图1a及1b说明用于DNA定序分析的输出概率质量函数。

图2a及2b分别为来自(a)LFW数据集及(b)猫数据集的实例图像。

图3a为根据本发明的实施例的用于图像辨识的示范性实施方案架构的框图。

图3b为根据本发明的实施例的用于DNA罕见变体检测的示范性实施方案架构的框图。

图3c为根据本发明的实施例的用于执行图像辨识的基本流程图。

图4为依据训练图像的数目变化的分类准确度的曲线图。

图5为比较使用不同距离量度的图像分类应用的计算时间的条形图。

图6a及6b分别说明用于(a)德里印度理工学院(IIT Delhi)I及(b)德里印度理工学院II数据库的累积匹配曲线(CMC；Cumulative Matching Curve)。

图7a及7b分别说明噪声对(a)德里印度理工学院I及(b)德里印度理工学院II数据库的等级1辨识性能的影响。

虽然本发明可以许多不同形式体现，但接下来参考上文所描述的图来描述数个说明性实施例，且应理解本发明应被视为提供本发明的原理的实例且此类实例并不意欲将本发明限制为本文中所描述及/或本文中所说明的优选实施例。

具体实施方式

在给定独立但不相同的成功概率(p₁,...,P_N)的情况下，泊松二项分布由n次成功的概率质量函数定义。这些事件存在于概率空间(Ω,F,P)中。所述分布为单峰的，其中平均值μ为p_i的求和(其中i从1递增到N)，且方差σ²为(1-p_i)p_i的求和(其中i从1递增到N)。

此分布的特殊状况为其中p_i针对所有i具有相同值的二项分布。泊松二项分布可用于广泛范围的领域中，例如生物学、成像、数据挖掘、生物信息学及工程学。虽然流行将泊松二项分布近似于泊松分布，但根据由勒卡姆(Le Cam)定理[19]定义的误差的界限显而易见，此近似仅在输入概率较小时有效，所述勒卡姆定理由下式给定：

其中P(Ω_n)给定泊松二项域中的n次成功的概率，且λ为泊松参数。

泊松二项分布已在研究应用中得以越来越多地使用。沈(Shen)等人[20]开发了用于依据大型分子数据库(例如KEGG及有机小分子生物活性数据(PubChem))进行代谢物识别的机器学习途径。分子指纹向量经处理为泊松二项分布，且所得峰值概率用于候选者检索。相似地，赖(Lai)等人[21]开发了统计模型以基于磷酸化位点辨识预测激酶底物。重要的是，使用泊松二项分布计算观测与共有序列的匹配的概率。其它团队[22]、[23]已使用此分布来识别肿瘤样本中的基因畸变。

由于畸变事件的概率跨越样本变化，因此个别DNA碱基位置经处理为具有不相等成功概率的独立柏努利(Bernoulli)试验，以确认每一样本中的每一位置处的基因畸变的可能性。遵循相同推理，已经提出用以准确地检出罕见变体的模型[24]、[25]。

除其它以外，本发明寻求基于定序质量分数改进DNA定序分析的准确度。为每一经定序DNA碱基提供的每一分数反映正确地检出输出值的概率。举例来说，如果存在用于特定位置的N个独立读取，那么序列分析软件将针对所述位置处的每一读取产生质量分数q_i，其考虑到读取误差的概率。正确读取的经暗示概率由下式给定：

其中i∈[1，N] (3)

因为基于同一位置的多个读取(有时数以千计)检出每一经定序位置的同一性，所以作为柏努利事件的每一读取经处理且寻求使用用于每一经定序位置的相关质量分数来建立所述位置的概率分布。下文发现且描述用以计算此概率分布的有效方式。

使用华林(Waring)定理

将p₁，...，p_N定义为描述存在于概率空间(Ω，F，P)中的独立但不相同的事件。Z_k经进一步定义为从p₁，...，p_N获取的所有唯一k组合的总和。因此，在形式上：

其中遍及空集合的相交经定义为Ω。因此，Z₀＝1，且对确切含有k个元素的下标为1，...，N的所有子集I求和。举例来说，如果N＝3，那么

Z₁＝p₁+p₂+p₃

Z₂＝p₁·p₂+p₁·p₃+p₂·p₃ (5)

Z₃＝p₁·p₂·p₃

接着通过使用华林定理[26]针对所有经冗余地计数的交集归一化而根据Z_k定义P(n)，华林定理为舒特·内斯比特(Schuette-Nesbitt)公式[27]的特殊状况。

容斥定理由n＝0给定。算法1中描述计算Z_k的可扩展方式。

此途径的主要益处为随着N的值增加，时间复杂性的按指数律成比例增大的减少。此由所述算法的动态编程特性引起，所述算法将计算分组成块以最小化冗余。此自身相似递归结构通过避免组合激增而使得计算可行。在使用此途径的情况下，需要计算的块的总数目随着N²增加，且通过算术总和N/2*(1+N)加以描述。

此途径的另一优点为并行地计算每一列的元素的能力。这意味着时间复杂性从无并行化的O(N²)减小到实施了充分并行化的O(N)。可通过在相反方向上计算矩阵元素来进行进一步改进，进而提供用于矩阵A^T的并行计算的顺序选择方法。除了算法1中所定义的递归函数之外，通过同时使用两个递归函数a_i,N＝a_1,N(Z_i-1-a_i-1,N)及a_i,j＝a_1,j.(a_i,j+1/a_1,j+1-a_i-1,j)来完成此改进。上文所描述的方法提供产生联合概率质量函数(p.m.f.)的有效方式。此处演示N＝6的状况，其中Z_k级数乘以适当的二项系数。

可使用下文所描述的替代方法产生同一pmf。

快速傅立叶变换

在使用如前所述的相同定义的情况下，任何特定组合ω的概率可写成发生事件与未发生事件的组合积。

如果Ω_n经定义为由n次发生与N-n次未发生引起的I与I^C的所有可能的成对集合的对应样本空间，那么

以上表述为直观的，因为其是发生与未发生的所有可能的组合的经求和概率。通过观测，有可能建构将P(Ω_n)表述为N阶多项式的系数的多项式。

接着可使用基于离散傅立叶变换的算法容易地求解以上多项式的系数。相关系数向量可如下有效地加以计算：

实际地说，所述向量可以前导零填充为2的幂的长度，且接着使用IFFT^-1(FFT(a)·FFT(b))(其中a及b表示向量的任何任意对)成对地反覆处理所述向量。在使用快速傅立叶变换(FFT；Fast Fourier Transform)的GPU实施方案的情况下，可使用交错输入及去卷积输出的简单方案并行地处理多个输入。此函数返回元组列表，其中第i元组含有来自自变量序列或可迭代对象中的每一者的第i元素。

DNA定序。

本发明的一个重要应用为下一代DNA定序数据集的分析，其中每DNA碱基位置，必须分析数千读取。如果特定碱基位置在癌中突变，那么对此类变体的检测将为理想的诊断。实际上，变体DNA经常以低比例与正常DNA掺合，且挑战为在给定于同一碱基位置处检测到的两个冲突状态的情况下计算统计置信度。此可通过将这些冲突状态处理为柏努利事件且使用上文所描述的两个方法中的任一者建构p.m.f.s来完成。图1a及1b中说明实例输出。

从这些p.m.f.s计算的置信区间接着允许关于变体碱基状态的证据是否充分大于显著性阈值的决策。根据本发明的各方面，相似原理可应用于图案辨识应用，尤其是关于图像分析的应用。此可由以下事实支持：像素强度仅可被视为随机变量且其不具有真实值，这是因为其由量子物理学定律控管[28]。

泊松二项半径半度量距离

针对每一成对距离比较计算置信区间在大图像数据集中将为计算密集型的。为避免此成本且改进效率，可针对独立但不相同地分布的特征描述符如下定义距离量度：

定义。给定两个N维特征向量X＝(a₁,a₂,a₃,....,a_N)及Y＝(b₁,b₂,b₃,....,b_N)，且p_i＝|a_i-b_i|，两个向量之间的距离为

PB_m(X，Y)＝P(Ω_m)(N-m) (11)

其中m为众数，且P(m)为所述分布的峰值概率。达洛克(Darroch)[29]先前已展示众数m可如下进行限定：

其中0≤n≤N。此暗示m与平均值μ相差小于1。因此，尽管众数m为局部最大值，但其由平均值μ近似。此允许

PB_μ(X，Y)＝P(Ω_μ)(N-μ) (12)

可通过考虑泊松二项分布的超值峰度进行进一步改善，所述超值峰度由下式给定

其中σ²为p.m.f的方差。分布的峰值与σ²之间的反比关系暗示P(Ω_μ)与σ之间的相似关系。此反比关系也与贝伦(Baillon)等人[30]的工作一致，贝伦等人针对柏努利试验的总和建立了以下清晰一致的上限。

其中η为上限常数。此反比关系的暗示为σ可用作P(Ω_μ)的替代量度，进而避免需要针对每一距离计算产生p.m.f.。因此，可定义用于独立且不相同特征描述符的以下半度量。

给定两个N维特征向量X＝(a₁,a₂,a₃,...,a_N)及Y＝(b₁,b₂,b₃,...,b_N)，且p_i＝|a_i-b_i|，两个向量之间的泊松二项半径距离为

PBR(X,Y)为半度量。函数d:X×X→[0,1]在其符合用于{x,y}X的以下属性的情况下为遍及集合X的半度量：(1)非负性，d(x,y)>＝0；(2)对称性属性，d(x,y)＝d(y,x)；及3)自反性，d(x,x)＝0，。PBR为非负函数且符合自反性属性。因为仅使用绝对值，所以PBR也符合对称性属性。参见下文的表4，其展示PBR及PB_μ出于实际目的而为等效距离量度。

图像分类应用

图像分类为基于图像的数字内容的分析(例如，像素数据的分析)将数字图像指派到指定类别的计算机自动化过程。此类过程的最常见使用在图像检索中，或更确切地说，在基于内容的图像检索(CBIR)中。CBIR为基于来自查询图像的经自动提取特征而从一或多个数字图像存储库检索密切地匹配或相似图像的过程。其已在医疗诊断、知识产权、刑事侦查、远程感测系统及图片存档及管理系统中得到众多实用且适用的应用。参见[31]。

任何CBIR系统中的关键目标均为高检索准确度及低计算复杂性(本发明改进这两者)。在图像检索之前实施图像分类步骤可增加检索准确度。此外，也可通过此步骤降低计算复杂性。

使N_T为每类别的训练图像的数目，N_C为类别的数目，且N_D为每图像的特征描述符的数目。典型CBIR系统的计算复杂性为O(N_T·N_C·N_D+(N_T·N_C)·log(N_T·N_C))。参见[34]。相比之下，添加预分类步骤将复杂性降低至O(N_C·N_D·log(N_T·N_D))+O(N_T·N_D+N_T·log(N_T))。第一个项是指使用朴素贝叶(Naive-Bayes)最近相邻分类器[35]的图像预分类，且第二个项是指CBIR过程自身。

给出一些看法，考虑N_T＝100、N_C＝10且N_D＝150的状况。后者相较于前者的计算复杂性产生7倍的处理速度的增加。因此，图像预分类改进CBIR性能。

猫的头部及面部的检测吸引了研究人员的最近关注，这反映了其在互联网上且作为人类同伴的风行性[36]、[37]、[38]、[39]。猫为图案辨识呈现了有趣的挑战。尽管与人类共享相似面部几何形状，但由于猫相较于人类的面部特征及纹理当中的高类别间变化，用于检测人类面部的途径无法直接应用于猫。本发明为可区分这两者的基于PBR的分类器。

户外经标记面部(LFW)图像数据集(图2a)由[40]的作者产生，且猫数据集(图2b)由[36]的作者产生。这些数据集由13,233张人类图像及9,997张猫图像构成。在一实例中，在每一类别内，70％的图像经随机地分隔以用于训练，且剩余的30％用于测试。

根据本发明的各方面，图3a中展示能够执行如本文中所描述的图像分类(同样参见图3c中所展示的基本过程)的图像分类系统。如所展示，所述系统包括与主计算系统(例如，CPU)耦合的图形处理器，其可访问存储器(未示出)。如图3a中所展示，主机能够访问经存储图像或用于训练图像的图像数据。如下文所描述，将每一图像调整大小为标准大小(例如，250×250像素)，可基于特定应用选择所述标准大小。在调整大小之后，经定向梯度直方图(HOG)用于特征提取。可针对每一训练图像存储且访问HOG数据，使得无需在运行中产生(或重新产生)HOG数据。在主机处从图像源(例如存储器、网络或图像捕获系统(相机、扫描器或其它成像器件))接收待分类的图像(在图3a上，测试图像)。所述图像经调整大小成标准大小。在调整大小之后，经定向梯度直方图(HOG)用于特征提取。

HOG数据经输入到GPU中以用于进一步处理。计算定向且产生直方图。(如所展示，由主机)归一化所述直方图。对训练图像数据及测试图像数据两者执行PBR计算。当然，可针对训练图像提前执行PBR计算且存储结果。最后，进行比较以通过使用PBR结果发现最接近匹配而对图像进行分类。举例来说，可使用算法2(下文)。

在一个实例中，经定向梯度直方图(HOG)[41]的经GPU并行化版本用于特征提取。使用被称作自适应基于局部平均值的k-最近邻域(ALMKNN)的分类器，其为用于三谷(Mitani)等人[42]中的基于局部平均值的非参数分类器的修改。在GPU上部分地实施ALMKNN。

可使用NVIDIA统一计算装置架构(CUDA；Compute Unified Device Architecture)框架以GPU实施HOG特征。HOG特征首先由纳尼特达拉伊(Navneet Dalai)及比尔特里格斯(Bill Triggs)[41]描述为一种通过表示图像中的梯度的空间分布来提取外观及形状的方式。此方式已在行人检测[43]、车辆检测[44]及手势辨识[45]中加以应用。根据一个实施例，如下文所描述来使用矩形-HOG(R-HOG)变体[46]。

根据本发明的另一方面，可提供用于DNA定序(例如罕见变体检测，举例来说，在肿瘤活检的状况下)的系统及方法。定序质量概率的向量X来自具有定序深度d_x的单一碱基位置处的输入DNA样本，使得X＝(x₁,x₂,x₃,...,x_dx)，且相似向量Y来自经定序为深度d_y的参考DNA样本，使得Y＝(y₁,y₂,y₃,...,Y_dy)。针对两个向量如下计算平均值(μ)及标准偏差(σ)。

为比较向量X及Y，PBR_seq可如下经定义为X与Y之间的距离：

小的PBR_seq值指示肿瘤样本的较大可能性。出于分类的目的，可定义简单阈值T，使得在PBR_seq≤T的情况下将样本X分类为肿瘤，否则的话被分类为正常。

如图3b中所展示，提供用于DNA定序的系统。如图3b中所展示，所述系统相似于3a的系统，但使用向量数据实施用于DNA定序的以上方法。如所展示，如上文所描述的输入质量分数向量经转换为输入概率向量，其可由主机完成。参考概率向量可提前提供，或由主机计算并提供到GPU。所述GPU经配置以接收两个概率向量且计算输入与参考向量之间的PBR_seq距离。所述距离用于对DNA序列进行分类，且所述主机输出经指派类别的指示。

梯度计算。

给定输入图像I(x,y)，可通过在x及y方向上应用梯度过滤器来计算1-D空间导数I_x(x,y)及I_y(x,y)。可使用下式计算用于每一像素的梯度量值Mag(x,y)及定向(x,y)：

θ(x，y)＝tan^-1(I_y(x，y)/I_x(x，y)) (17)

直方图累积

所述直方图可通过将每一像素的梯度量值累积到在被称作小区的局部空间区上的对应定向分区中而产生。为了降低照明及对比的效应，跨越整个图像归一化直方图。最后，通过将所有小区的经归一化直方图连结成单一向量而形成HOG描述符。

在一个实例中，上文所描述的HOG算法使用PyCUDA工具包[47]版本2012.1及NVIDIA CUDA工具包的版本5.0予以实施，且在GeForce GTX 560Ti图形卡上予以执行。每一图像经调整大小为250×250(62,500像素)，接着被同等地细分成25个小区，每一小区为50×50像素。为编址62,500像素，在GPU中产生65,536个线程，每块具有32×32个线程且每网格具有8×8个块。在于主机及GPU两者中分配存储器之后，启动内核。

可在将直方图传送到其中实行跨越整个图像的归一化的主机之后计算梯度量值、定向及直方图。

分类模块

分类器可为参数的或非参数的。参数分类器针对每一类别假定统计分布，其通常为正态分布。训练数据仅用于建构分类模型且接着被完全舍弃。因此，其被称作基于模型的分类器或急切分类器。相较而言，非参数分类器关于数据的概率分布不做出假定，仅基于经存储训练数据分类测试元组，且非参数分类器因此也被称作基于例项的或迟缓分类器。参数分类器的原型实例为支持向量机(SVM)算法，其需要分类器参数的密集训练阶段[48]、[49]、[50]，且相反地，最熟知的非参数分类器中的一者为k-最近邻域(kNN)分类器。

归因于其简单性及有效性，kNN[51]已广泛地用于图案辨识问题中。此外，其被视为数据挖掘中的最好的十个算法中的一者[52]。kNN向每一查询图案指派与训练集合中的其k-最近邻域的大多数类别标签相关联的类别。在二进制(两个类别)分类问题中，k的值通常为奇数以避免成平局的表决。即使kNN具有若干优点，例如用以处置巨大数目的类别的能力、避免过度拟合及训练阶段的不存在，但其具有三个主要缺点：(1)计算时间、(2)离群值的影响[53]及(3)需要选择k[54]。

第一个问题—时间复杂性在计算训练集合与查询图案之间的距离期间(尤其当训练集合的大小非常大时)出现。此问题可通过并行化kNN加以解决，从而将时间复杂性降低到常数O(1)。此与替代实施方案(例如，在时间上为O(logN)的搜索树)相比很好。第二个问题涉及离群值的影响。为了解决此问题，可使用关注局部邻域的途径。然而，被称作LMKNN(局部平均值kNN)的此类型的途径仍具有必须选择k的值的问题。大部分时间，通过交叉验证技术[55]选择k。

然而，此为耗时的且具有过度拟合的风险。因此，本发明涉及自适应性地选择k的算法，因此排除需要固定的k值。为了给k设置上限，使用一般的经验规则，其为N的平方根，其中N为T中的全部训练例项[56]。所述算法被称作自适应LMKNN或ALMKNN。

算法2中描述此分类器的工作。

在16,261(T中的N)个训练例项的情况下，对邻域的限制—k_min及k_max可经分别定义为20及127(√N的基数)。可针对决策将下限(LB)及上限(UB)分别界定为2％及50％。可使用CUDAMat[57]在GPU中实施距离计算的第一步骤。所述算法的其余部分在CPU(主机)中实施。不存在训练阶段且训练图像的HOG描述符存储于存储器中。

分类性能

在将ALMKNN用作框架的情况下，并列地评估各种距离量度，即，PBR、L_0.1、L_0.5、L₁及L₂。对六个回合的重复的随机子采样验证进行平均化而得到本发明的分类准确度，且图4中展示这些结果。有趣的是，PBR与L₁在准确度上几乎相同，从而容易地优于其它距离量度。欧几里得距离能够在小训练集合的情况下而稍微较佳地表现，但随着训练图像的数目增加会快速地损失。

噪声的效应：

为了测试PBR相较于其它距离量度是否将对噪声退化更具有耐受性，训练图像与测试图像两者都被具有逐渐增加的密度d的椒盐噪声损坏。在d＝0下，PBR明显优于除L₁之外的所有距离量度。然而，与我们的假设一致，在即使添加最小量的噪声(d＝0.05)时，PBR明显优于包括L₁的所有距离量度(表1)。

表1：由5种方法达成的AUC的比较

对6个独立回合的重复随机子采样验证进行平均化而得到用于每一方法的曲线下面积(AUC；Area Under the Curve)。具有95％置信度水平的威尔科克森(Wilcoxon)带符号等级测试用于比较其它方法与PBR。表现明显比PBR差的方法用星号*突显出来。将每一噪声水平的最高AUC加粗。

计算时间

在运行Ubuntu 12.04LTS的64位英特尔酷睿i5-3470 CPU@3.20GHz 12GB RAMPC系统上测量计算时间。

表2：用于处理250×250像素图像的平均计算时间根据表2可看出，本发明的GPU实施方案比纯粹的CPU版本快大约2.6倍。此加速使PBR几乎与L₁及L₂同等水平。通过将最近平均值分类器(NMC；Nearest Mean Classifier)(算法3)引入作为ALMKNN分类器之前的步骤来进一步降低计算时间。使用20％的置信量度，这意谓当距质心的距离之间的对比超过20％时NMC结果用于分类。

准确度结果确切地相同，但计算时间明显得到改进，如图5中所展示。

耳朵生物测量应用

生物测量技术研究使用可为生理或行为的特点来验证个人的身份的自动化方法。自动化生物测量的领域已在近十年间有了显著发展，其中面部、指纹及虹膜生物测量作为最常实施的模态出现。没有单个生物测量模态不含缺点。举例来说，面部生物测量已经被广泛地研究，但在次优条件下易于失效[58]、[59]。

虽然指纹在理论上足够复杂从而给出唯一标志，但实际上，指纹生物测量并不防欺骗，这是因为所述系统易受到由明胶、硅及乳胶制成的假指纹的攻击[60]。已证明虹膜生物测量高度准确且可靠，但其性能在不佳照明、目标移动、老化、眼睑的部分遮挡及对获取情况的敏感度下迅速退化。此推动研究可克服较完备生物测量的问题的其它特点。这些新特点中的一者—耳朵生物测量，出于大量原因已受到越来越多的注意。

1)不同于面部及虹膜，耳朵形状在青少年及成年生活中都合理地不变。任何改变通常出现在8岁之前及70岁之后[61]。

2)耳朵成像不需要受控环境，因为图像情境从面部的侧面取得其参考。

3)耳朵生物测量能够区分基因相同的双胞胎，而面部生物测量在这方面失效[62]。

4)耳朵具有色彩的较均一分布及较少的因面部表情的变化性。

根据本发明的各方面，根据以上描述基于HOG特征及PBR提供耳朵辨识系统。已使用的数据库为德里印度理工学院耳朵数据库I及II[63]。德里印度理工学院DB 1中存在125个受试者及493个图像；德里印度理工学院DB 2中存在221个受试者及793个图像。

随机地选取两个数据库中的每一受试者的测试图像，且剩余图像用于训练。

生物测量分析架构

耳朵辨识系统中存在三个主要步骤：(1)预处理；(2)特征提取及(3)模板匹配。直方图均衡化可用作预处理步骤。特征提取可如上文已经描述的那样。根据本发明的各方面，匹配模块可在训练图像当中搜索最接近匹配。这些数据库中的图像为50×180像素，且经重新调整大小为50×50像素。

辨识性能

使用等级1辨识准确度评估性能。对十个回合进行平均化而获得辨识结果。表3中展示用于所有距离量度的等级1辨识率的平均值及标准偏差。

表3：关于德里印度理工学院数据库的等级1辨识性能

累积匹配曲线(CMC)用于测量生物测量辨识系统的性能，且已经展示为在性能验证的情境中与接受者操作特性曲线(ROC；Receiver Operating Characteristic)直接相关[64]。因此，图6中也展示用于所有量度的CMC。

噪声的效应：

在一实验中，本发明经应用于被具有逐渐增加的密度d的椒盐噪声损坏的训练图像及测试图像。图7a及图7b中展示比较。可看出，除L₂之外的所有距离量度相对噪声稳定，其中L₂性能随着逐渐增加的噪声密度d急剧地退化。

PB_μ与距离量度之间的相关性

将与各种距离量度匹配的图像的等级排序带到经定义测试图像，会取得PB_μ与其它量度(即PBR、L_0.1、L_0.5、L₁及L₂)之间的相关性。表4中的结果展示PBR与PB_μ高度相关。且这两个距离量度之间的等级次序几乎相同。此与PB_μ及PBR为大约等效距离量度一致。

表4：用于一个测试图像的PB_μ与其它距离量度之间的斯皮尔曼(Spearman)等级相关系数

基于内核的图像分类

PBR为距离度量，接受不同输入(PRICoLBP,HOG)且也在不同机器学习框架(KNN,SVM内核)内起作用。

尽管SVM(支持向量机)要求输入数据独立且相同地分布，但其在非i.i.d情景(例如语音辨识、系统诊断等)中得以成功地应用[65]。因此，SVM框架可用于说明图像分类中的PBR距离的效率。为了将PBR并入到SVM框架中，使用RBF内核的以下一般形式[66]：

K_d-RBF(X，Y)＝e^-ρd(X，Y)

其中p为使用交叉验证获得的按比例缩放参数，且d(X,Y)为两个直方图X与Y之间的距离。可使用PBR的经稍微修改的形式如下定义距离：

定义。给定两个N维特征向量X＝(a₁,a₂,a₃,....,a_N)及Y＝(b₁,b₂,b₃,....,b_N)，且p_i＝a_iln(2a_i/(a_i+b_i))+b_i ln(2b_i/(a_i+b_i))，两个向量之间的距离为：

可通过将d(X,Y)代入到SVM框架中获得PBR内核。

实验

在以下六个不同应用中评估PBR距离内核的性能：纹理分类、场景分类、物种、材料、叶子及对象辨识。纹理数据集为布诺达兹(Brodatz)[67]、KTH-TIPS[68]、UMD[69]及基尔贝格(Kylberg)[70]。场景分类应用是基于场景-15[71]数据集。对于辨识任务，使用利兹蝴蝶(Leeds Butterfly)[72]、FMD[73]、瑞典叶子[74]及加州理工学院101[75]数据集。对于分类及辨识任务两者，评估性能对于每类别的训练图像的数目的依赖性。除测试图像的数目限于每类别50个的加州理工学院101数据集之外，在每一数据集中，随机地选择n个训练图像，且其余的图像用于测试。针对纹理数据集重复一百次所有实验且针对其它数据集重复十次。对于每一回合，计算每种类的平均准确度。来自个别回合的结果用于报告作为最终结果的平均值及标准偏差。仅使用用于所有数据集的灰度强度值，即使当彩色图像可用时也如此。

使用一对其余的技术进行多类别分类。对于每一数据集，在训练集合中通过交叉验证选择SVM超参数，例如C及伽马，其中

C∈[2^-2，2¹⁸]

且

伽马∈[2^-4，2¹⁰] (步长2)

最近，成对旋转不变共同发生局部二进制模式(PRICoLBP)特征已经展示为在多种应用中有效[76]。此特征的显著特质为旋转不变性及空间情境共同发生信息的有效捕获。因此，此特征用于实验。

纹理分类

布诺达兹册(Brodatz album)为含有111个不同纹理类别的流行基准纹理数据集。每一类别包含被划分成九个不重叠子图像的一个图像。

KTH-TIPS数据集由10个纹理类别构成，其中每类别具有81个图像。这些图像证实高类别间变化性，这是因为在三个不同照明方向下且运用三个不同姿势以九个尺度捕获所述图像。

UMD纹理数据集含有25个种类，且每类别具有40个样本。在显著视角及尺度改变连同显著对比差异下捕获这些未经校准、未经对齐的图像。

基尔贝格数据集具有每类别160个唯一样本的28个纹理类别。所述类别在尺度、照明及方向性方面相似。使用数据集的“不具有”经旋转纹理图块版本。

使用PRICoLBP的2_a模板配置，其针对所有数据集产生1,180维度特征。表5、6、7及8中分别针对布诺达兹、KTH-TIPS、UMD及基尔贝格数据集展示实验结果。根据所述结果，我们观测到，当训练图像的数目较小时，PBR始终优于其它方法，且当相较于其它距离量度时，PBR产生较小标准差连同较高分类率。

表5-关于Brodat的纹理分类结果(百分比)

表6-关于KTH-TIPS的纹理分类结果(百分比)

表7-关于UMD的纹理分类结果(百分比)

表8-关于基尔贝格的纹理分类结果(百分比)

叶子辨识

瑞典叶子数据集含有15个不同的瑞典树种，其中每物种具有75个图像。这些图像展现了高类别间相似性及高类别间几何形状及光度变化。如同纹理数据集，我们使用同一PRICoLBP配置。应注意，我们并不使用叶子的空间布局先前信息。表9中展示实验结果。我们观测到，PBR比其它距离量度产生更准确的结果。

表9-关于瑞典叶子数据集的辨识结果(百分比)

材料辨识

Flickr材料数据库(FMD；Flickr Material Database)为最近公开的用于材料辨识的具有挑战性的基准数据集。从Flickr相片手动地选择此数据库中的图像，且每一图像属于10个常用材料种类中的任一者，包括织品、植物、玻璃、皮革、金属、纸张、塑料、石头、水及木材。每一种类包括100个图像(50个近视图及50个对象级视图)，所述分类捕捉现实世界材料的外观变化。因此，这些图像具有大的类别间变化及不同照明条件。实际上，其与描述对象的部位的分段掩码相关联。这些掩码可用于仅从对象区提取PRICoLBP。具体地说，6-模板配置可用于PRICoLBP，其产生3,540维度特征向量。

表10展示辨识率对FMD数据集的每类别的训练图像的数目的依赖性。观测到PBR内核表现最佳，其后为巴特查里亚(Bhattacharyya)距离及杰夫瑞发散。

表10-关于FMD数据集的实验结果(百分比)

应注意，在表11中，相较于其它距离量度内核，PBR内核为所有10个种类中的5个种类中的最好的表现者。

表11-关于FMD数据集的逐个分类准确度(百分比)

场景分类

场景-15数据集总共含有4,485个图像，所述数据集为若干较早数据集[71]、[77]、[78]的组合。此数据集中的每一图像属于15个种类中的一者，包括卧室、郊区、工业、厨房、客厅、海岸、森林、高速公路、城市内部、山、空旷地区、街道、高建筑物、办公室及商店。每种类的图像的数目在210到410间变化。这些图像具有不同分辨率，因此我们对图像调整大小以具有256像素的最小尺寸(同时维持纵横比)。

我们使用PRICoLBP的2_a模板配置，但具有两个尺度(邻域的半径：1,2)。因此，特征向量的维数为2,360。表12展示用于使训练图像的数目变化的不同方法的分类结果。我们观测到，PBR在较小数目的训练图像的情况下起最佳作用，且在每类别具有100个训练图像时产生相当性能。

表12-关于场景-15数据集的分类结果(百分比)

对象辨识

加州理工学院101数据集为用于对象辨识的重要基准数据集。此数据集在102个种类(101个多样类别及一个背景类别)下含有9,144个图像。每类别的图像的数目在31到800间变化。这些图像展现高的类别内变化且其也在尺寸上变化。因此，所述图像经重新调整大小以具有256像素的最小尺寸(同时维持纵横比)。使用PRICoLBP的6个模板配置连同两个尺度(邻域的半径：1,2)，所述配置产生7,080维度特征。

表13展示用于使训练图像的数目变化的不同方法的辨识准确度。可观测到，PBR距离内核的结果与基于其它距离量度的内核的结果相当。

表13-关于加州理工学院101数据集的辨识结果(百分比)

物种辨识

利兹蝴蝶数据集由10个种类(物种)的蝴蝶的总共832个图像构成。每一种类中的图像的数目介于55到100的范围内。其在照明、姿势及尺寸方面不同。所述图像经重新调整大小以具有256像素的最小尺寸(同时维持纵横比)。对于纹理数据集使用PRICoLBP的同一设置。表14针对不同数目的训练图像展示关于利兹蝴蝶数据集的不同方法的辨识准确度。可观测到，相较于基于其它距离量度的内核，PBR内核达成相当性能。

表14-关于利兹蝴蝶数据集的辨识结果(百分比)

因此，上文已参考图式充分描述了数个优选实施例。根据本发明的各方面，提供可改进图像辨识系统的计算效率、速度及准确度的系统及方法。本发明的应用包括医疗系统，例如医疗诊断机器、DNA定序机器、手术机器人及其它成像系统。其它应用可包括用于验证生物测量标志的机器、刑事侦查系统(例如指纹识别系统或面部识别系统)。技术人员可辨识上文所描述的发明的其它新型且适用的应用。

尽管已基于这些优选实施例描述本发明，但对于所属领域的技术人员将显而易见的是：可在本发明的精神及范围内对所描述的实施例做出某些修改、变化及替代构造。

举例来说，可通过(例如)用户简档对用户进行分类，且匹配可能限于具有指定用户简档的用户。

参考文献

上文通过数字[#]引用以下公开可用的出版物，且所述出版物形成申请的部分。所述出版物的相关内容特此以引用的方式并入，应从所述参考文献的情境及方式容易地理解相关内容。

[1]N.瑟比,M.S.卢(N.Sebe,M.S.Lew),及D.P.惠杰斯曼斯(D.P.Huijsmans),“关于经改进分级量度”,图案分析和机器智能，IEEE学报,第22卷,第10期,第1132-1143页,2000年.

[2]W.董,L.胡传(W.Dong,L.Huchuan),及Y.明-轩(Y.Ming-Hsuan),“最小软阈值平方跟踪”,计算机视觉及图案辨识的IEEE会议会刊,2013年6月23-28日,第2371-2378页.

[3]G.希利(G.Healey)及R.康德普蒂(R.Kondepudy),“辐射测量CCD相机校准及噪声估计”,图案分析及机器智能，IEEE学报,第16卷,第3期,第267-276页,1994年3月.

[4]J.R.詹妮斯克(J.R.Janesick),科学电荷耦合装置.华盛顿州贝灵汉:SPIE,2001年.

[5]C.-H.林,J.-S.蔡(C.-H.Lin,J.-S.Tsai),及C.-T.邱(C.-T.Chiu),“用于普遍噪声移除的具有纹理/噪声检测器的切换双向过滤器”,IEEE图像处理学报,第19卷,第9期,第2307-2320页,2010年.

[6]C.刘,R.塞利斯基(C.Liu,R.Szeliski),S.B.康(S.B.Kang),C.L.兹特尼克(C.L.Zitnick),及W.T.弗里曼(W.T.Freeman),“自动估计及移除单一图像的噪声”,图案分析及机器智能IEEE学报,第30卷,第2期,第299-314页,2008年.

[7]N.扬(N.Young)及A.埃文斯(A.Evans),“用于图像序列中的降噪的时空特质形态过滤器”,关于图像处理的国际会议会刊,第1卷,2003年,第1-333-6页.

[8]P.H.韦斯特福尔(P.H.Westfall)及K.S.S.亨宁(K.S.S.Henning),理解先进统计方法.美国,佛罗里达州波卡拉顿(Boca Raton):CRC出版社,2013年.

[9]A.特韦尔斯基(A.Tversky)及I.加蒂(I.Gati),“相似性、可分离性及三角不等式”，心理学评论,第89卷,第2期,第123页,1982年.

[10]W.J.谢勒(W.J.Scheirer),M.J.威尔伯(M.J.Wilber),M.埃克曼(M.Eckmann),及T.E.博尔特(T.E.Boult),“良好辨识为非度量的”,计算研究库,卷abs/1302.4673,2013年.

[11]K.拜尔(K.Beyer),J.戈德斯坦(J.Goldstein),R.拉玛克里士纳(R.Ramakrishnan),及U.莎福特(U.Shaft),““最近邻域”何时有意义？”数据库理论ICDT99,ser.计算机科学讲义,C.贝勒里安德P.布勒曼(C.Beeriand P.Buneman),主编.施普林格柏林海德堡出版社,1999年,第1540卷,第217-235页.

[12]C.阿加沃尔(C.Aggarwal),A.恩伯格(A.Hinneburg),及D.凯姆(D.Keim),“关于高维度空间中的距离度量的惊人的行为”,数据库理论ICDT 2001,ser.计算机科学讲义,J.布赦(J.Bussche)及V.维尔努(V.Vianu),主编.施普林格柏林海德堡出版社,2001年,第1973卷,第420-434页.

[13]M.多纳休(M.Donahue),D.盖革(D.Geiger),R.胡默尔(R.Hummel),及T.-L.刘(T.-L.Liu),“用于运用遮挡进行图像分解的稀疏表示”,计算机视觉及图案辨识IEEE计算机学会会议会刊,1996年6月,第7-12页.

[14]D.W.雅各布斯(D.W.Jacobs),D.文珊儿(D.Weinshall),及Y.革达雅胡(Y.Gdalyahu),“具有非度量距离的分类：图像检索及类别表示”,图案分析及机器智能IEEE学报,第22卷,第6期,第583-600页,2000年.

[15]P.霍华斯(P.Howarth)及S.罗杰斯(S.Rger),“用于基于内容的图像检索的分数距离量度”,信息检索进展，ser.计算机科学讲义,D.罗沙达(D.Losada)及J.费尔南德斯-卢娜(J.Fernndez-Luna),主编施普林格柏林海德堡出版社,2005年,第3408卷,第447-456页.

[16]K.-S.古赫,B.李(K.-S.Goh,B.Li),及E.畅(E.Chang),“DynDex：动态及非度量空间分度器”,关于多媒体的第十次ACM国际会议会刊.美国纽约:ACM,2002年,第466-475页.

[17]Y.鲁布纳(Y.Rubner),J.普契卡(J.Puzicha),C.托马斯(C.Tomasi),及J.M.布曼(J.M.Buhmann),“用于色彩及纹理的不相似性量度的经验评估”,计算机视觉及图像理解,第84卷,第1期,第25-43页,2001年.

[18]A.马扎尔(A.Marzal)及E.维达尔(E.Vidal),“经归一化编辑距离的计算及应用”,图案分析及机器智能，IEEE学报,第15卷,第9期,第926-932页,1993年.

[19]L.勒卡姆(L.Le Cam),“用于泊松二项分布的近似定理”,太平洋数学期刊,第10(4)卷,第1181-1197页,1960年.

[20]H.沈(H.Shen),N.扎姆伯宁(N.Zamboni),M.海诺宁(M.Heinonen),及J.罗索(J.Rousu),“通过机器学习的代谢物识别-使用手指ID克服CASMI挑战”,代谢物,第3卷,第2期,第484-505页,2013年.

[21]A.C.W.赖(A.C.W.Lai),A.N.N.芭(A.N.N.Ba),及A.M.摩西(A.M.Moses),“使用局部主结构密度的保留来预测激酶底物”,生物信息学,第28卷,第7期,第962-969页,2012年.

[22]A.仁井田(A.Niida),S.井本(S.Imoto),T.志摩村(T.Shimamura),及S.宫野(S.Miyano),“基于统计模型的测试以评估基因畸变的复发”,生物信息学,第28卷,第12期,第i115-i120页,2012年.

[23]J.-B卡齐尔(J.-B.Cazier),C.C.霍姆斯(C.C.Holmes),及J.布罗克斯霍姆(J.Broxholme),“GREVE：用以辅助跨越个人癌样本的图案的识别的基因复发事件查看器”，生物信息学,第28卷,第22期,第2981-2982页,2012年.

[24]H.周(H.Zhou),M.E.瑟赫(M.E.Sehl),J.S.辛斯海默(J.S.Sinsheimer),及K.兰格(K.Lange),“通过惩罚回归对常见及罕见基因变体的关联筛选”,生物信息学,第26卷,第19期,第2375-2382页,2010年.

[25]A.维尔姆(A.Wilm),P.P.K.Aw,D.伯特兰(D.Bertrand),G.H.T.扬(G.H.T.Yeo),S.H.翁(S.H.Ong),G.H.王(C.H.Wong),C.C.霍尔(C.C.Khor),R.彼得里茨(R.Petric),M.L.希伯德(M.L.Hibberd),及N.加拉贾(N.Nagarajan),“LoFreq：用于从高产量定序数据集发现小区群体异质性的序列质量察觉、超敏感变体检出器”,核酸研究,第40卷,第22期,第11189-11201页,2012年.

[26]A.S.麦克唐纳(A.S.Macdonald),精算科学百科全书,J.L.特格斯(J.L.Teugels)及B.松特(B.Sundt),主编.约翰·威利父子有限公司,齐切斯特,2004年.

[27]H.U.格伯(H.U.Gerber),“用于相关事件的Schuette-Nesbitt公式的论证”,精算研究交换中心,第1卷,第9-10页,1979年.

[28]Y.黄(Y.Hwang),J.-S.金(J.-S.Kim),及l.-S.克昂(l.-S.Kweon),“使用Skellam分布的基于差异的图像噪声建模”,图案分析及机器智能，IEEE学刊,第34卷,第7期,第1329-1341页,2012年7月.

[29]J.达洛克(J.Darroch),“关于独立试验中的成功数目的分布”,数理统计年报,第35卷,第1317-1321页,1964年.

[30]J.-B.贝伦(J.-B.Baillon),R.科米内蒂(R.Cominetti),及J.魏斯曼(J.Vaisman),“用于柏努利试验的总和的分布的清晰均一界限”,arXiv预印本arXiv:0arX.2350v4,2013年.

[31]V.N.古迪瓦达(V.N.Gudivada)及V.V.拉加万(V.V.Raghavan),“基于内容的图像检索系统”,计算机,第28卷,第9期,第18-22页,1995年.

[32]M.阿拉科瑞(M.Arakeri)及G.拉姆莫罕娜瑞迪(G.Ram Mohana Reddy)，“用于大脑肿瘤诊断中的临床决定支持的智能的基于内容的图像检索系统”,国际多媒体信息检索期刊,第2卷,第3期,第175-188页,2013年.

[33]J.卡尔帕蒂-克雷默(J.Kalpathy-Cramer)及W.赫什(W.Hersh),“用以改进医疗图像检索的自动的基于图像模态的分类及标注”,卫生技术研究通报,第129卷,第Pt 2期,第1334-8页,2007年.

[34]B.马歇尔(B.Marshall),“在CBIR特征当中发现鲁棒性”,网络及语义技术国际杂志(IJWesT),第3卷,第2期,第19-31页,2012年4月.

[35]O.博瓦曼(O.Boiman),E.舍特曼(E.Shechtman),及M.伊拉尼(M.Irani),“为保证基于最近邻域的图像分类”,计算机视觉及图案辨识IEEE会议会刊,2008年6月,第1-8页.

[36]W.张(W.Zhang),J.孙(J.Sun),及X.唐(X.Tang),“猫头部检测-如何有效地利用形状及纹理特征”,计算机视觉欧洲会议会刊,2008年,第802-816页.

[37]Z.巍伟(Z.Weiwei),S.简(S.Jian),及T.肖欧(T.Xiaoou),“从老虎到熊猫：动物头部检测”,图像处理，IEEE会刊,第20卷,第6期,第1696-1708页,2011年.

[38]T.考扎卡亚(T.Kozakaya),S.伊藤(S.Ito),S.久保田(S.Kubota),及O.山口(O.Yamaguchi),“运用两个非均质特征的猫面部检测”,关于图像处理的IEEE国际会议会刊,2009年,第1213-1216页.

[39]H.波(H.Bo),“用于猫头部检测的新颖特征设计方法”,人工智能及计算智能,ser.计算机科学讲义.施普林格柏林海德堡出版社,2010年,第6319卷,第47章,第397-405页.

[40]G.B黄(G.B.Huang),M.拉梅什(M.Ramesh),T.伯格(T.Berg),及E.勒德-米勒(E.Learned-Miller),“户外经标注面部：用于在不受限环境中研究面部辨识的数据库”,麻省大学阿默斯特分校,技术报告07-49,2007年10月.

[41]N.达拉伊(N.Dalai)及B.特里格斯(B.Triggs),“用于人类检测的经定向梯度直方图”，计算机视觉及图案辨识IEEE计算机学会会议会刊，第1卷,2005年,第886-893页.

[42]Y.三谷(Y.Mitani)及Y.滨本(Y.Hamamoto),“基于局部平均值的非参数分类器”,图案辨识快报,第27卷,第10期,第1151-1159页,2006年.

[43]P.道勒(P.Dollar),C.沃铁(C.Wojek),B.希尔(B.Schiele),及P.佩罗纳(P.Perona),“行人检测：目前先进技术的评估”,图案分析及机器智能，IEEE会刊,第34卷，第4期,第743-761页,2012年.

[44]A.肯布哈维(A.Kembhavi),D.哈伍德(D.Harwood)及L.S.戴维斯(L.S.Davis),“使用部分最小平方的车辆检测”,图案分析及机器智能，IEEE会刊,第33卷,第6期,第1250-1265页,2011年.

[45]M.卡尼什(M.Kaaniche)及F.布尔孟德(F.Br'emond),“通过学习HOG描述符的局部运动标志来辨识手势”,图案分析及机器智能，IEEE会刊,第34卷,第11期,第2247-2258页，2012年.

[46]O.路德维格(O.Ludwig),D.德尔加多(D.Delgado),V.贡萨尔维斯(V.Goncalves),及U.努涅斯(U.Nunes),“可训练的分类器融合方案：应用于行人检测”,智能运输系统第12次国际IEEE会议会刊,2009年,第1-6页.

[47]A.克劳克勒(A.Kl'ockner),N.平托(N.Pinto),Y.李(Y.Lee),B.卡坦扎罗(BCatanzaro),P.伊万诺夫(P.Ivanov),及A.法斯(A.Fasih),“PyCUDA及PyOpenCL：用以GPU运行时代码产生的基于脚本处理的途径”,并行计算，第38卷,第3期,第157-174页,2012年.

[48]O.夏佩尔(O.Chapelle),V.瓦普尼克(V.Vapnik),O.布斯凯(O.Bousquet),及S.慕克吉(S.Mukherjee),“选择用于支持向量机的多个参数”,机器学习,第46卷,第1-3期,第131-159页,2002年.

[49]F.弗里德里克斯(F.Friedrichs)及C.伊格尔(C.Igel),“多个SVM参数的进化调谐”,神经计算,第64卷,第0期,第107-117页,2005年.

[50]S.-W.林(S.-W.Lin),Z.-J.李(Z.-J.Lee),S.-C.陈(S.-C.Chen),及T.-Y.茨奥(T.-Y.Tseng),“支持向量机的参数确定及使用经模拟退火途径的特征选择”,应用软计算,第8卷,第4期,第1505-1512页,2008年.

[51]E.菲克斯(E.Fix)及J.小霍奇斯(J.Hodges Jr),“有判别力的分析、非参数判别：一致性属性”,德克萨斯州美国空军航空医学学院,伦道夫菲尔德(Randolph Field),项目21-49-004,报告4,合约AF41(128)-31,技术报告,1951年2月.

[52]X.吴(X.Wu),V.库马尔(V.Kumar),J.罗斯奎宁(J.Ross Quinian),J.高希(J.Ghosh),Q.杨(Q.Yang),H.元田(H.Motoda),G.麦克拉克伦(G.McLachlan),A.Ng,B.刘(A.Ng),P.俞(P.Yu),Z.-H.周,M.斯坦巴克(m.Steinbach),D.汉德(D.Hand),及D.斯坦伯格(D.Steinberg),“数据挖掘中最好的10个算法”,知识及信息系统,第14卷,第1期,第1-37页,2008年.

[53]K.福良(K.Fukunaga),统计图案辨识的引言(第2版).美国加利福尼亚州圣地亚哥:专业学术出版社公司,1990年.

[54]A.K.高希(A.K.Ghosh),“关于最近邻域分类中k的最佳选择”,计算统计学及数据分析,第50卷,第11期,第3113-3123页,2006年.

[55]G.图森特(G.Toussaint),“关于错分类的估计的文献目录”,信息理论，IEEE会刊,第20卷,第4期,第472-479页,1974年.

[56]B.达萨尔茜(B.Dasarathy),最近邻域(NN)范数：NN图案分类技术.华盛顿:IEEE计算机学会,1991年.

[57]V.米妮(V.Mnih),“CUDAMat：用于Python的基于CUDA的矩阵类别”,技术报告UTML TR 2009-004,多伦多大学计算机科学系,Tech报告,2009年11月.

[58]K.常(K.Chang),K.W.鲍耶(K.W.Bowyer),S.萨卡(S.Sarkar),及B.维克托(B.Victor),“基于外观的生物测量中的耳朵及面部图像的比较与组合”,图案分析及机器智能IEEE会刊,第25卷,第1160-1165页,2003年.

[59]M.伯奇(M.Burge)及W.布格尔(W.Burger),“计算机视觉中的耳朵生物测量”,关于图案辨识的第15次国际会议会刊,第2卷,2000年,第822-826页第2卷.

[60]H.加尔巴利(H.Galbally)及A.费埃赫兹(A.Fierrez),“关于指纹验证系统易受假指纹攻击的脆弱性”,美国安全性技术第40次年度IEEE国际Camahan会议会刊,2006年,第130-136页.

[61]A.拉娜尔妮(A.lannarelli),耳朵识别.加利福尼亚:派拉蒙出版公司,1989年.

[62]H.内雅迪(H.Nejati),L.张(L.Zhang),T.西姆(T.Sim),E.马丁尼兹-玛洛坤(E.Martinez-Marroquin),及G.董,“不一样的耳朵：从耳朵图像识别同卵双胞胎”,关于图案辨识的第21次国际会议会刊,2012年11月,第1201-1204页.

[63]A.库马尔(A.Kumar)及C.吴(C.Wu),“使用耳朵成像的自动化人类识别”,图案辨识,第45卷,第3期,第956-968页,2012年.

[64]R.波尔(R.Bolle),J.康奈尔(J.Connell),S.潘勘提(S.Pankanti),N.拉塔(N.Ratha),及A.西尼尔(A.Senior),“ROC曲线与CMC之间的关系”,关于自动识别先进技术的第四次研讨会会刊,2005年10月,第15-20页.

[65]I.斯坦尔特(I.Steinwart),D.哈什(D.Hush),及C.斯哥沃(C.Scovel),“从独立观测学习”,多变量分析期刊,第100卷,第1期,第175-194页,2009年.

[66]O.夏佩尔(O.Chapelle),P.哈夫纳(P.Haffner),及V.N.瓦普尼克(V.N.Vapnik),“用于基于直方图的图像分类的支持向量机”,神经网络，IEEE会刊,第10卷,第5期,第1055-1064页,1999年.

[67]P.布诺达兹(P.Brodatz),纹理：用于艺术家及设计者的摄影册.多佛出版社,1966年.

[68]E.海曼(E.Hayman),B.卡普托(B.Caputo),M.弗里兹(M.Fritz),及J.-O.埃克隆德(J.-O.Eklundh),“关于用于材料分类的现实世界条件的重要性”,计算机视觉-ECCV2004.施普林格出版社,2004年,第253-266页.

[69]Y.许(Y Xu),H.继(H.Ji),及C.弗姆犹勒(C.Ferm"uller),“使用分形分析的视角不变纹理描述”,计算机视觉国际期刊,第83卷,第1期,第85-100页,2009年.

[70]G.基尔贝格(G.Kylberg),“基尔贝格纹理数据集v.1.0”,瑞典乌普萨拉瑞典农业科学大学及乌普萨拉大学,外用报告(蓝色系列)35,2011年9月.[线上].可获得:http://www.cb.uu.se/gustaf/texture/

[71]S.赖兹布尼克(S.Lazebnik)，C.施密特(C.Schmid),及J.庞塞(J.Ponce),“超出特征包：用于辨识天然场景种类的空间金字塔匹配”,计算机视觉及图案辨识，2006IEEE计算机学会会议,第2卷.IEEE,2006年,第2169-2178页.

[72]J.王(J.Wang),K.马克特(K.Markert),及M.埃弗林厄姆(M.Everingham),“用于根据自然语言描述的对象辨识的学习模型”,BMVC,第1卷,2009年,第2页.

[73]L.沙兰(L.Sharan),R.罗森浩斯(R.Rosenholtz)及E.H.阿德尔森(E.H.Adelson),“现实世界图像中的材料分类的准确度及速度”,视觉期刊,第14卷,第10期,2014年.

[74]O.J.O.斯奥德克威斯特(O.J.O.S'oderkvist),“对来自瑞典树木的叶子的计算机视觉分类”,硕士论文,瑞典Link'oping Link'oping大学SE-581 83,,2001年9月,liTH-ISY-EX-3132.

[75]L.菲菲(L.Fei-Fei),R.费格斯(R.Fergus),及P.佩罗纳(P.Perona),“从较少训练实例学习生成视觉模型：对101对象种类所测试的递增贝叶途径”,计算机视觉及图像理解,第106卷,第1期,第59-70页,2007年.

[76]X.齐(X.Qi),R.肖(R.Xiao),C.-G.李(C.-G.Li),Y.乔(Y.Qiao),J.郭(J.Guo),及X.唐(X.Tang),“成对旋转不变共同发生局部二进制模式”,图案分析及机器智能，IEEE会刊,第36卷,第11期,第2199-2213页,2014年.

[77]A.奥利维亚(A.Oliva)及A.托拉尔瓦(A.Torralba),“建模场景的形状：空间包络的整体表示”,计算机视觉国际期刊,第42卷,第3期,第145-175页,2001年.

[78]L.菲菲(L.Fei-Fei)及P.佩罗纳(P.Perona),“用于学习天然场景种类的贝叶阶层式模型”,计算机视觉及图案辨识,2005.CVPR 2005.IEEE计算机学会会议,第2卷.IEEE,2005年,第524-531页.

Claims

1.一种用于对数字图像进行分类的计算机实施的方法，所述方法包含：

从主机获得对应于所述数字图像的特征数据，所述特征数据包含N维特征向量X，使得X＝(a₁...a_N)；

由图形处理单元基于所述特征数据与存储于所述主机的存储器中的一或多个参考特征数据之间的泊松二项分布确定半度量距离，所述参考特征数据包含N维特征向量Y，使得Y＝(b₁...b_N)，所述确定所述半度量距离PBR(X，Y)包含计算：

其中N为大于0的整数，

p_i＝|a_i-b_i|，

σ是向量(p₁...p_n)的标准差，

μ是向量(p₁...p_n)的平均值；以及

使用所述经确定半度量距离对所述数字图像进行分类。

2.根据权利要求1所述的方法，其中对所述数字图像进行分类包含使用支持向量机SVM分类器。

3.根据权利要求1所述的方法，其中对所述数字图像进行分类包含使用k-最近邻域kNN分类器。

4.根据权利要求3所述的方法，其中所述kNN分类器为基于自适应局部平均值的k-最近邻域ALMkNN分类器，其中自适应性地选择所述k-最近邻域的值k。

5.根据权利要求4所述的方法，其中所述k-最近邻域的自适应值不超过所述一或多个参考特征数据的数目的平方根。

6.根据权利要求1所述的方法，其中所述经获得特征数据及所述一或多个参考特征数据包含成对旋转不变共同发生局部二进制模式PRICoLBP数据。

7.根据权利要求1所述的方法，其中所述经获得特征数据及所述一或多个参考特征数据包含经定向梯度直方图HOG数据。

8.根据权利要求1所述的方法，其进一步包含：

确定所述一或多个参考特征数据中的最接近匹配的参考特征数据。

9.根据权利要求8所述的方法，其进一步包含：

基于所述经确定最接近匹配的参考特征数据识别个人，其中所述数字图像包含以下各者中的至少一者：耳朵、面部、指纹及虹膜。

10.用于对数字图像进行分类的计算机实施的方法，所述方法包含：获得对应于数字图像的特征数据；基于获得的所述特征数据与一或多个参考特征数据之间的泊松二项分布确定半度量距离；以及使用经确定的所述半度量距离对所述数字图像进行分类，其中所述数字图像包含对应于DNA或RNA序列的信息，且所述经获得特征数据包含具有定序深度d_x的第一DNA或RNA样本的定序质量概率的向量X，使得X＝(x₁...x_dx)，且所述参考特征数据包含具有定序深度d_y的参考DNA或RNA样本的定序概率的向量Y，使得Y＝(y₁...y_dy)，且其中所述确定所述半度量距离PBR_seq包含计算：

其中μ_X为向量X的平均值，

μ_Y为向量Y的平均值，

σ_X为向量X的标准偏差，且

σ_Y为向量Y的标准偏差。

11.一种用于对数字图像进行分类的系统，其包含：

包含处理器的主机，其中所述主机耦合到包含一或多个参考特征数据的存储器；且图形处理单元GPU包含处理器，其中所述GPU耦合到所述主机且经配置以：

从所述主机获得对应于所述数字图像的特征数据，所述特征数据包含N维特征向量X，使得X＝(a₁...a_N)；

从所述存储器访问所述一或多个参考特征数据，所述参考特征数据包含N维特征向量Y，使得Y＝(b₁...b_N)；

其中所述主机经配置以：

确定半度量距离PBR(X，Y)：

其中，N为大于0的整数，

p_i＝|a_i-b_i|，

σ是向量(p₁...p_n)的标准差，

μ是向量(p₁...p_n)的平均值；以及

使用所述经确定半度量距离对所述数字图像进行分类。

12.根据权利要求11所述的系统，其中所述主机经进一步配置以使用支持向量机SVM分类器对所述数字图像进行分类。

13.根据权利要求11所述的系统，其中所述主机经进一步配置以使用k-最近邻域kNN分类器对所述数字图像进行分类。

14.根据权利要求13所述的系统，其中所述kNN分类器为基于自适应局部平均值的k-最近邻域ALMkNN分类器，其中自适应性地选择所述k-最近邻域的值k。

15.根据权利要求14所述的系统，其中所述k-最近邻域的自适应值k不超过所述一或多个参考特征数据的数目的平方根。

16.根据权利要求11所述的系统，其中所述特征数据及所述一或多个参考特征数据包含成对旋转不变共同发生局部二进制模式PRICoLBP数据。

17.根据权利要求11所述的系统，其中所述经获得特征数据及所述一或多个参考特征数据包含经定向梯度直方图HOG数据。

18.根据权利要求11所述的系统，其中所述主机经进一步配置以：确定所述一或多个参考特征数据中的最接近匹配的参考特征数据。

19.根据权利要求18所述的系统，其中所述主机经进一步配置以：

20.数字图像分类系统，包括：至少一个处理器；以及存储器，与所述至少一个处理器通信，所述系统配置成：获得对应于数字图像的特征数据；基于获得的所述特征数据与一或多个参考特征数据之间的泊松二项分布确定半度量距离；以及使用经确定的所述半度量距离对所述数字图像进行分类，其中所述数字图像包含对应于DNA或RNA序列的信息，且所述特征数据包含具有定序深度d_x的第一DNA或RNA样本的定序质量概率的向量X，使得X＝(x₁...x_dx)，且所述参考特征数据包含具有定序深度d_y的参考DNA或RNA样本的定序概率的向量Y，使得Y＝(y₁...y_dy)，且其中确定所述半度量距离PBR_seq包含计算：

其中PBR_seq(X，Y)为所述向量X与所述向量Y之间的泊松二项半径PBR距离，

其中μ_X为所述向量X的平均值，

μ_Y为所述向量Y的平均值，

σ_X为所述向量X的标准偏差，且

σ_Y为所述向量Y的标准偏差。