CN103984943A

CN103984943A - 一种基于贝叶斯概率框架的场景文本识别方法

Info

Publication number: CN103984943A
Application number: CN201410238427.5A
Authority: CN
Inventors: 王菡子; 王大寒
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2014-05-30
Filing date: 2014-05-30
Publication date: 2014-08-13
Anticipated expiration: 2034-05-30
Also published as: CN103984943B

Abstract

一种基于贝叶斯概率框架的场景文本识别方法，涉及计算机视觉和模式识别。步骤S1：输入场景图像文本；步骤S2：字符检测和识别；步骤S3：构建检测-识别候选网格，具体方法如下：将候选字符区域和对应的字符类别和识别分数保存在一个检测与识别候选网格里，这样候选网格里每一条检测-识别路径对应一个文本检测和识别结果；设计路径评价函数，对候选网格里的每一条候选检测-识别路径进行评价；步骤S4：根据路径评价函数，从候选网格中用动态规划算法搜索得到最优检测-识别路径，即得到识别结果；步骤S5：输出文本识别结果。解决了集成检测与识别的场景文本识别的概率建模和参数学习问题。

Description

一种基于贝叶斯概率框架的场景文本识别方法

技术领域

本发明涉及计算机视觉和模式识别，具体的，是一种基于贝叶斯概率框架的场景文本识别方法。

背景技术

自然场景图像中的文本包含丰富的高层语义信息，对图像的场景理解、分析与处理具有重要的作用。场景文本识别技术可广泛应用于图像和视频的理解、存储和检索、车辆牌照识别、银行票据处理、路标识别和移动导盲等领域，因此成为计算机视觉和模式识别领域的研究热点。由于场景图像背景复杂，场景文字的大小、字体、颜色各异，且易受光照变化和图像退化的影响，这使场景文本的识别具有较大的挑战性。

传统的光学字符识别(OCR)技术能很好的识别背景比较简单的扫描文本文档，但是用来识别场景文本时，识别率非常低,还有很大的提升空间，要应用到实际系统中还有很多工作需要做。当前，对场景文本的识别主要采用计算机视觉中的目标识别的思想，其基本思想是，把每一类字符当作一个视觉目标，然后从场景文本图像中同时检测和识别字符区域，这实际上是一种集成的检测与识别的场景文本识别方法。这种集成的检测和识别的方法在国际顶级会议ICCV2011上提出来，表现出了优于传统OCR的识别性能。之后的几年有很多研究也进行了这方面的研究，提高了场景文本识别的性能。

虽然最近几年在这方面有很多研究工作且取得得了较大进展，但是至今未见有对集成的检测与识别的场景文本识别方法进行概率建模的有关报道，并在此基础上进行参数学习。

发明内容

本发明的目的在于针对当前场景文本识别方法没有一个统一的概率模型等问题，提供一种基于贝叶斯概率框架的场景文本识别方法。

本发明包括以下步骤：

步骤S1：输入场景图像文本；

步骤S2：字符检测和识别；

在步骤S2中，所述字符检测和识别的具体方法可为：

采用多尺度滑动窗口的方法，用字符分类器对图像中的窗口区域进行检测和识别，对每一个字符类别，将分类器输出较大的区域判定为候选字符区域，输出较小的区域认为是背景区域，找出图像中包含的候选字符区域；再采用非极大值抑制方法，对重叠率较大的区域只保留分类器输出值最大的区域和相应的字符类别，除去大量重复冗余的候选字符区域，得到字符检测结果。

步骤S3：构建检测-识别候选网格，具体方法如下：

将候选字符区域和对应的字符类别和识别分数保存在一个检测与识别候选网格里，这样候选网格里每一条检测-识别路径对应一个文本检测和识别结果；设计路径评价函数，对候选网格里的每一条候选检测-识别路径进行评价；

步骤S4：根据路径评价函数，从候选网格中用动态规划算法搜索得到最优检测-识别路径，即得到识别结果；

步骤S5：输出文本识别结果。

在步骤S3中，在构建检测-识别候选网格时，保存候选字符的字符类别和识别分数，并保存四种几何上下文模型，包括一元类别有关和类别无关几何模型、二元类别有关和类别无关几何模型；在检测-识别候选网格中，每一条检测-识别路径表示一种识别结果，将场景文本识别问题转化为路径搜索问题，用一个路径评价函数来评价每一条候选检测-识别路径，基于该路径评价函数，用动态规划算法搜索最优路径得到识别结果。

所述路径评价函数为：

f (X^{d}, C) = Σ_{i = 1}^{n} {{lp}_{i}^{0} + Σ_{j = 1}^{5} λ_{j} {lp}_{i}^{j}} + λ_{6} \cdot n \cdot \log P, - - - (1)

其中，为字符分类器的输出，到分别表示语言模型的输出、一元和二元类别相关几何模型的输出、以及一元和二元类别无关几何模型的输出，P是一个常数，λ₁到λ₆是六个参数。

所述路径评价函数是通过对集成检测与切分的识别方法从贝叶斯决策角度进行建模得到的。所述建模过程如下：

输入场景文本图像记为X，文本行类别(一个词或者字符串)记为C＝c₁c₂…c_n，其中，c₁到c_n表示字符类别，n表示文本行包含字符的个数(即字符长度)，则将场景文本图像X识别为C的后验概率为：

\begin{matrix} P (C | X) = \underset{d}{Σ} P (C, d | X) = \underset{d}{Σ} P (d | X) P (C | d, X) \\ = \underset{d}{Σ} P (d | X) P (C | X^{d}) \end{matrix}, - - - (2)

其中，第d条字符检测路径，P(d|X)表示给定输入图像得到第d条字符检测路径的后验概率，P(C|X^d)表示给定第d条字符检测路径识别为文本行类别C的后验概率；这里，将一条检测路径上的字符构成一个词或者字符串X^d，其可表示为一个字符序列，即X^d＝x₁x₂…x_n，其中x_i对应为字符类别c_i的候选检测字符。

从贝叶斯决策的角度，场景文本识别即是找到使后验概率P(C|X)最大的文本行类别C，为了避免式(2)中对大量的检测路径求和，最优的文本行类别C可以通过下式近似得到：

C^{*} = \arg \max_{d, C} P (d | X) P (C | X^{d}), - - - (3)

其中，P(d|X)表示文本检测，P(C|X^d)表示文本识别；

将文本检测的后验概率P(d|X)用几何上下文来表示(包括一元几何上下文和二元几何上下文)为：

P (d | X) = Π_{i = 1}^{n} p (z_{i}^{p} = 1 | g_{i}^{ud}) p (z_{i}^{g} = 1 | g_{i}^{bd}), - - - (4)

其中，表示一个候选字符是一个有效字符区域的概率，为一元类别无关几何上下文；表示相邻两个候选检测字符之间的几何特征属于字符间特征的概率，为二元类别无关几何上下文；和分别表示提取的一元和二元类别无关几何特征。

文本检测的后验概率P(C|X^d)可以进一步的分解为：

P (C | X^{d}) = \frac{P (C) P (X^{d} | C)}{P (X^{d})}, - - - (5)

其中，P(C)＝P(c₁c₂…c_n)表示文本行类别的先验概率，由语言模型给出；P(X^d|C)为类条件似然函数，可以分解为：

P (X^{d} | C) = Π_{i = 1}^{n} p (x_{i} | c_{i}) p (g_{i}^{uc} | c_{i}) p (g_{i}^{bc} | c_{i - 1} c_{i}), - - - (6)

其中，和分别表示一元和二元类别相关几何上下文的输出；P(X^d)为几何上下文的边缘似然概率，类似的也可以分解为：

P (X^{d}) = Π_{i = 1}^{n} p (x_{i}) p (g_{i}^{uc}) p (g_{i}^{bc}); - - - (7)

将式(6)和式(7)代入式(4)得到

\begin{matrix} \frac{P (X^{d} | C)}{P (X^{d})} = Π_{i = 1}^{n} \frac{p (x_{i} | c_{i})}{p (x_{i})} \frac{p (g_{i}^{uc} | C_{i})}{p (g_{i}^{uc})} \frac{p (g_{i}^{bc} | c_{i - 1} c_{i})}{p (g_{i}^{bc})} \\ = Π_{i = 1}^{n} \frac{p (c_{i} | x_{i})}{p_{1} (c_{i})} \frac{p (c_{i} | g_{i}^{uc})}{p_{2} (c_{i})} \frac{p (c_{i - 1} c_{i} | g_{i}^{bc})}{p_{3} (c_{i - 1} c_{i})} \end{matrix}, - - - (8)

其中，p₁(c_i)，p₂(c_i)和p₃(c_i-1c_i)可以认为是常数；

结合式(8)，可得到式(5)变为：

P (C | X^{d}) = P (C) Π_{i = 1}^{n} \frac{p (c_{i} | x_{i}) p (c_{i} | g_{i}^{uc}) p (c_{i - 1} c_{i} | g_{i}^{bc})}{P}, - - - (9)

其中，P＝p₁(c_i)p₂(c_i)p₃(c_i-1c_i)是一个常数；

结合式(9)和式(4)，场景文本的识别公式(3)变为：

\begin{matrix} C^{*} = \arg \max_{d, C} P (d | X) P (C | X^{d}) \\ = \arg \max_{d, C} P (C) \frac{1}{P^{n}} Π_{i = 1}^{n} \{\begin{matrix} p (c_{i} | x_{i}) p (c_{i} | g_{i}^{uc}) p (c_{i - 1} c_{i} | g_{i}^{bc}) \\ p (z_{i}^{p} = 1 | g_{i}^{ud}) p (z_{i}^{g} = 1 | g_{i}^{ba}) \end{matrix}\} \\ = \arg \max_{d, C} \frac{1}{P^{n}} Π_{i = 1}^{n} \{\begin{matrix} p (c_{i} | x_{i}) p (c_{i} | c_{i - 1} p (c_{i} | g_{i}^{uc}) p (c_{i - 1} c_{i} | g_{i}^{bc}) \\ p (z_{i}^{p} = 1 | g_{i}^{ud}) p (z_{i}^{g} = 1 | g_{i}^{ba}) \end{matrix}\} \end{matrix}, - - - (10)

这里，并假定p(c₁|c₀)＝p(c₁)对所有类别是相等的。

最后，对式(10)取对数函数后，将乘积形式变为和的形式，这样得到了最终的路径评价函数为:

f (X^{d}, C) = Σ_{i = 1}^{n} {{lp}_{i}^{0} + Σ_{j = 1}^{5} λ_{j} {lp}_{i}^{j}} + λ_{6} \cdot n \cdot \log P, - - - (11)

其中，

{lp}_{i}^{0} = \log p (c_{i} | x_{i}), {lp}_{i}^{1} = \log p (c_{i} | c_{i - 1}), {lp}_{i}^{2} = \log p (c_{i} | g_{i}^{uc}),

{lp}_{i}^{3} = \log p (c_{i - 1} c_{i} | g_{i}^{bc}), {lp}_{i}^{4} = \log p (z_{i}^{p} = 1 | g_{i}^{ud}), {lp}_{i}^{5} = \log p (z_{i}^{g} = 1 | g_{i}^{bd}),

分别表示字符分类器输出、语言模型输出、一元类别相关几何上下文、二元类别相关几何上下文、一元类别无关几何上下文、二元类别无关几何上下文的输出，λ₁至λ₆为路径评价函数的参数，用来平衡各输出的贡献。

其中，所述字符分类器可以采用典型的特征提取算法(比如HOG等)和分类器算法(比如SVM等)进行建模，利用数据库进行训练得到。语言模型从大型语料库学习得到。四种几何模型的建模方法分别设计和提取相应的几何特征，用常用分类器(比如SVM等)进行建模。

其中，所述路径评价函数中的参数λ₁至λ₆采用最小分类错误(Minimum ClassificationError，即MCE)率训练算法学习得到。具体的，参数在一个训练集上学习得到，训练集记为其中，R表示训练样本的个数，表示真实文本类别，表示真实的检测路径，则和表示了真是的检测-识别路径，记为则错误分类度量表示为：

d (X, Λ) = - g (X^{d_{t}}, C_{t}, Λ) + g (X^{d_{r}}, C_{r}, Λ), - - - (12)

其中，为真实路径的判别函数值，为竞争路径的判别函数值，Λ为参数，这里，判别函数即为路径评价函数(式(1))。竞争路径定义为：

g (X^{d_{r}}, C_{r}, Λ) = \max_{(X^{d_{k}}, C_{k}) &NotEqual; (X^{d_{t}}, C_{t})} g (X^{d_{k}}, C_{k}, Λ) . - - - (13)

竞争路径通过集束搜索算法得到。将上述错误分类度量式(12)通过Sigmoid函数转化为0-1损失，即这样，参数通过随即梯度下降算法进行学习：

Λ(t+1)＝Λ(t)-ε(t)U▽l(X，Λ)。 (14)

在学习得到参数后，在所述步骤S4中，根据路径评价函数，使用动态规划算法搜索检测-识别候选路径得到最优路径，即为最终的识别结果。动态规划搜索算法类似于Viterbi解码的前向算法。

本发明从贝叶斯决策的角度，对场景文本识别方法进行概率建模，提出了一个统一的场景文本识别的概率框架。在该框架下，场景文本识别问题转化为基于一个路径评价函数的最优检测-识别路径搜索问题，路径评价函数融合了字符识别输出、几何上下文输出和语言模型的输出，因此提高了场景文本识别率。本发明提出的基于贝叶斯概率框架的场景文本识别方法。

在该概率框架下，场景文本识别里的多种信息包括字符分类器的输出、几何上下文的输出和语言模型的输出在一个统一的框架下进行融合，从而有效提高场景文本识别率。概率模型的参数可以通过最小分类错误率自动学习得到，识别结果通过动态规划算法搜索最优路径得到。该方法为场景文本识别提供统一的概率框架和参数学习方法，能广泛应用于场景文本识别的各应用场景。

本发明提供的基于稀疏编码特征的场景文本识别方法，与其他方法相比，具有的优点和有益效果包括：

1、本发明从贝叶斯决策角度对集成的检测与识别的场景文本识别进行概率建模，提供了一个统一的框架和方法；

2、本发明提供的框架和方法有效融合了字符分类器的输出、几何上下文的输出和语言模型的输出，多种信息的融合提高了场景文本的识别率；

3、本发明提出的模型中，参数通过自动学习得到，从而能够更加有效的融合多种信息；

4、在本发明提出的概率模型和框架下，可以通过提高字符分类器和几何上下文的建模方法，来有效提高识别率。这为进一步的研究提供了框架和基本方法。

附图说明

图1是本发明提出的一种基于贝叶斯概率框架的场景文本识别方法的流程图。

图2为候选字符检测示例“MADE”的字符检测结果。

图3为构建的检测-识别候选网格。

图4为本发明实现的场景文本识别过程。

具体实施方式

下面结合附图和具体实施例，进一步阐释本发明的技术方法和优点，并对本发明做进一步详细说明。

图1是本发明提出的一种基于贝叶斯概率框架的场景文本识别方法的流程图，图2为候选字符检测示例“MADE”的字符检测结果。图3为构建的检测-识别候选网格。图4为本发明实现的场景文本识别过程。

本发明实施例包括以下步骤：

步骤S1：输入场景图像文本；

步骤S2：字符检测和识别，即采用多尺度滑动窗口的方法，用字符分类器对图像中的窗口区域进行检测和识别，对每一个字符类别，将分类器输出较大的区域判定为候选字符区域，输出较小的区域认为是背景区域，这样找出图像中包含的候选字符区域；再采用非极大值抑制方法，对重叠率较大的区域只保留分类器输出值最大的区域和相应的字符类别，这样除去大量重复冗余的候选字符区域，得到字符检测结果；

在这一步中，需要用一个字符分类器进行检测和识别。字符分类器可以根据应用需要(比如是识别英文还是中文)用相应的数据库进行训练，其中特征提取算法采用常用的梯度直方图特征(即Histogram of Gradients，HOG)，字符分类器可采用SVM分类器器、学习矢量量化分类器(即Learning Vector Quantization,LVQ)、修正的二次判别函数(即Modified QuadraticDiscriminant Function，MQDF)等。

步骤S3：构建检测-识别候选网格，将候选字符区域和对应的字符类别和识别分数保存在一个检测-识别候选网格里，这样候选网格里每一条检测-识别路径对应一个文本检测和识别结果；设计路径评价函数，对候选网格里的每一条候选检测-识别路径进行评价；

在这一步中，几何上下文模型的特征提取要提取相应的几何特征，用常用的SVM分类器对几何模型进行建模。在构建好检测-识别候选网格里，提取几何特征并用分类器进行识别，输出相应的识别结果和识别分数。再根据本发明提出的路径评价函数，对候选路径进行评价，其中路径评价函数中的参数事先在训练数据库里学习得到。图2给出候选字符检测示例“MADE”的字符检测结果。图3给出构建的检测-识别候选网格。

在这一步骤中，所采用的路径搜索算法为动态规划算法，该算法类似于Viterbi解码的前向算法。如图4所示，为场景文本识别过程示例，其中，候选识别结果中，每个候选识别结果里的分数为路径评价函数对该结果的评价分数。将分数最大的那个候选识别结果作为最终的识别结果。

步骤S5：输出文本识别结果。

本发明针对场景文本识别的问题，对集成的场景文本检测与识别从贝叶斯决策理论的角度进行建模，得到一个统一的概率框架，来融合字符检测和识别的输出、几何模型的输出和语言模型的输出，从而有效提高场景文本的识别率。在本发明中，字符类别和字符识别的输出被保存在一个检测-识别候选网格里，场景文本识别问题转化为一个网格路径搜索问题。网格中的路径由一个路径评价函数进行评价，该路径评价函数融合了字符识别的输出、几何模型的输出和语言模型的输出。文本识别结果通过动态规划算法搜索最优检测-识别路径得到。该发明解决了集成检测与识别的场景文本识别的概率建模和参数学习问题。

Claims

1.一种基于贝叶斯概率框架的场景文本识别方法，其特征在于包括以下步骤：

步骤S1：输入场景图像文本；

步骤S2：字符检测和识别；

步骤S3：构建检测-识别候选网格，具体方法如下：

步骤S5：输出文本识别结果。

2.如权利要求1所述一种基于贝叶斯概率框架的场景文本识别方法，其特征在于在步骤S2中，所述字符检测和识别的具体方法为：

3.如权利要求1所述一种基于贝叶斯概率框架的场景文本识别方法，其特征在于在步骤S3中，在构建检测-识别候选网格时，保存候选字符的字符类别和识别分数，并保存四种几何上下文模型，包括一元类别有关和类别无关几何模型、二元类别有关和类别无关几何模型。

4.如权利要求1所述一种基于贝叶斯概率框架的场景文本识别方法，其特征在于在步骤S3中，在检测-识别候选网格中，每一条检测-识别路径表示一种识别结果，将场景文本识别问题转化为路径搜索问题，用一个路径评价函数来评价每一条候选检测-识别路径，基于该路径评价函数，用动态规划算法搜索最优路径得到识别结果。

5.如权利要求1所述一种基于贝叶斯概率框架的场景文本识别方法，其特征在于在步骤S3中，所述路径评价函数为：

f (X^{d}, C) = Σ_{i = 1}^{n} {{lp}_{i}^{0} + Σ_{j = 1}^{5} λ_{j} {lp}_{i}^{j}} + λ_{6} \cdot n \cdot \log P, - - - (1)

6.如权利要求1所述一种基于贝叶斯概率框架的场景文本识别方法，其特征在于在步骤S3中，所述路径评价函数是通过对集成检测与切分的识别方法从贝叶斯决策角度进行建模得到的，所述建模过程如下：

输入场景文本图像记为X，文本行类别记为C＝c₁c₂…c_n，其中，文本行类别为一个词或者字符串，c₁到c_n表示字符类别，n表示文本行包含字符的个数，即字符长度，则将场景文本图像X识别为C的后验概率为：

\begin{matrix} P (C | X) = \underset{d}{Σ} P (C, d | X) = \underset{d}{Σ} P (d | X) P (C | d, X) \\ = \underset{d}{Σ} P (d | X) P (C | X^{d}) \end{matrix}, - - - (2)

7.如权利要求1所述一种基于贝叶斯概率框架的场景文本识别方法，其特征在于在步骤S3中，所述文本检测的后验概率P(C|X^d)可以进一步分解为：

P (C | X^{d}) = \frac{P (C) P (X^{d} | C)}{P (X^{d})}, - - - (5)

P (X^{d} | C) = Π_{i = 1}^{n} p (x_{i} | c_{i}) p (g_{i}^{uc} | c_{i}) p (g_{i}^{bc} | c_{i - 1} c_{i}), - - - (6)

P (X^{d}) = Π_{i = 1}^{n} p (x_{i}) p (g_{i}^{uc}) p (g_{i}^{bc}); - - - (7)

将式(6)和式(7)代入式(4)得到：

\begin{matrix} \frac{P (X^{d} | C)}{P (X^{d})} = Π_{i = 1}^{n} \frac{p (x_{i} | c_{i})}{p (x_{i})} \frac{p (g_{i}^{uc} | C_{i})}{p (g_{i}^{uc})} \frac{p (g_{i}^{bc} | c_{i - 1} c_{i})}{p (g_{i}^{bc})} \\ = Π_{i = 1}^{n} \frac{p (c_{i} | x_{i})}{p_{1} (c_{i})} \frac{p (c_{i} | g_{i}^{uc})}{p_{2} (c_{i})} \frac{p (c_{i - 1} | g_{i}^{bc})}{p_{3} (c_{i - 1} c_{i})} \end{matrix}, - - - (8)

其中，p₁(c_i)，p₂(c_i)和p₃(c_i-1c_i)可以认为是常数；

结合式(8)，可得到式(5)变为：

P (C | X^{d}) = P (C) Π_{i = 1}^{n} \frac{p (c_{i} | x_{i}) p (c_{i} | g_{i}^{uc}) p (c_{i - 1} c_{i} | g_{i}^{bc})}{P}, - - - (9)

其中，P＝p₁(c_i)p₂(c_i)p₃(c_i-1c_i)是一个常数；

结合式(9)和式(4)，场景文本的识别公式(3)变为：

\begin{matrix} C^{*} = \arg \max_{d, C} P (d | X) P (C | X^{d}) \\ = \arg \max_{d, C} P (C) \frac{1}{P^{n}} Π_{i = 1}^{n} \{\begin{matrix} p (c_{i} | x_{i}) p (c_{i} | g_{i}^{uc}) p (c_{i - 1} c_{i} | g_{i}^{bc}) \\ p (z_{i}^{p} = 1 | g_{i}^{ud}) p (z_{i}^{g} = 1 | g_{i}^{ba}) \end{matrix}\} \\ = \arg \max_{d, C} \frac{1}{P^{n}} Π_{i = 1}^{n} \{\begin{matrix} p (c_{i} | x_{i}) p (c_{i} | c_{i - 1} p (c_{i} | g_{i}^{uc}) p (c_{i - 1} c_{i} | g_{i}^{bc}) \\ p (z_{i}^{p} = 1 | g_{i}^{ud}) p (z_{i}^{g} = 1 | g_{i}^{ba}) \end{matrix}\} \end{matrix}, - - - (10)

这里，并假定p(c₁|c₀)＝p(c₁)对所有类别是相等的；

f (X^{d}, C) = Σ_{i = 1}^{n} {{lp}_{i}^{0} + Σ_{j = 1}^{5} λ_{j} {lp}_{i}^{j}} + λ_{6} \cdot n \cdot \log P, - - - (11)

其中，

{lp}_{i}^{0} = \log p (c_{i} | x_{i}), {lp}_{i}^{1} = \log p (c_{i} | c_{i - 1}), {lp}_{i}^{2} = \log p (c_{i} | g_{i}^{uc}),

{lp}_{i}^{3} = \log p (c_{i - 1} c_{i} | g_{i}^{bc}), {lp}_{i}^{4} = \log p (z_{i}^{p} = 1 | g_{i}^{ud}), {lp}_{i}^{5} = \log p (z_{i}^{g} = 1 | g_{i}^{bd}),

8.如权利要求7所述一种基于贝叶斯概率框架的场景文本识别方法，其特征在于所述字符分类器采用典型的特征提取算法和分类器算法进行建模，利用数据库进行训练得到，所述典型的特征提取算法为HOG，所述分类器算法为SVM；语言模型从大型语料库学习得到；四种几何模型的建模方法分别设计和提取相应的几何特征，用常用分类器进行建模，所述常用分类器为SVM。

9.如权利要求7所述一种基于贝叶斯概率框架的场景文本识别方法，其特征在于所述路径评价函数中的参数λ₁至λ₆采用最小分类错误率训练算法学习得到，具体的，参数在一个训练集上学习得到，训练集记为其中，R表示训练样本的个数，表示真实文本类别，表示真实的检测路径，则和表示了真是的检测-识别路径，记为则错误分类度量表示为：

d (X, Λ) = - g (X^{d_{t}}, C_{t}, Λ) + g (X^{d_{r}}, C_{r}, Λ) - - - (12)

其中，为真实路径的判别函数值，为竞争路径的判别函数值，Λ为参数，这里，判别函数即为路径评价函数即式(1)，竞争路径定义为：

g (X^{d_{r}}, C_{r}, Λ) = \max_{(X^{d_{k}}, C_{k}) &NotEqual; (X^{d_{t}}, C_{t})} g (X^{d_{k}}, C_{k}, Λ) - - - (13)

竞争路径通过集束搜索算法得到；将上述错误分类度量式(12)通过Sigmoid函数转化为0-1损失，即这样，参数通过随即梯度下降算法进行学习：

Λ(t+1)＝Λ(t)-ε(t)U▽l(X,Λ) (14)。