CN112508023A

CN112508023A - 基于深度学习的零件喷码字符端到端识别方法

Info

Publication number: CN112508023A
Application number: CN202011163492.8A
Authority: CN
Inventors: 唐倩; 郭伏雨; 李代杨; 罗超
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2021-03-16

Abstract

本发明提供一种基于深度学习的零件喷码字符端到端识别方法，所述方法包括以下步骤：S1：采用卷积层提取目标图片的图像特征，所述目标图片为含有待识别字符的图片；S2：采用循环神经网络RNN，以所述图像特征为输入，识别图像特征的感受野信息，获得所述图像特征的特征序列；S3：利用联结主义时间分类CTC训练后的循环神经网络对所述特征序列进行学习，获得所述特征序列的预测序列；S4：根据CTC Beam Search Decoding算法，以所述预测序列为输入，获得字符序列。本申请提供的识别方法采用了卷积神经网络(CNN)、循环神经网络(RNN)和联结主义时间分类(CTC)的网络结构，实现一行喷码字符的端到端识别；本申请的识别方法不依赖于字符分割，通用性强；字符识别效率更高。

Description

基于深度学习的零件喷码字符端到端识别方法

技术领域

本发明涉及字符识别技术领域，尤其涉及一种基于深度学习的零件喷码字符端到端识别方法。

背景技术

在汽车发动机的生产过程中，有特定工位需要检测发动机的喷码信息，传统的人工喷码检测存在劳动强度大、用人成本高、检测精度低等缺点。目前，对于端到端字符识别已经提出了以字符分割为基础的喷码字符的识别方法，虽然这种识别方法虽然在识别效果上非常理想，但是严重依赖于字符分割的效果，即字符分割效果不佳的话，会严重影响字符的识别。而字符分割通常采用的图像处理方法，往往是针对一类图像而特殊设计的，通用性不佳。

因此，亟需一种对字符分割的依赖性要小、通信性高的端到端字符识别方法。

发明内容

有鉴于此，本发明提供一种基于深度学习的零件喷码字符端到端识别方法，其特征在于：所述方法包括以下步骤：

S1：采用卷积层提取目标图片的图像特征，所述目标图片为含有待识别字符的图片；

S2：采用循环神经网络RNN，以所述图像特征为输入，识别图像特征的感受野信息，获得所述图像特征的特征序列；

S3：利用联结主义时间分类CTC训练后的循环神经网络对所述特征序列进行学习，获得所述特征序列的预测序列；

S4：根据CTC Beam Search Decoding算法，以所述预测序列为输入，获得字符序列。

进一步，所述卷积层包括7个卷积层和4个池化层，其网络架构从输入到输出依次为输入、卷积1、池化1、卷积2、池化2、卷积3、卷积4、池化3、卷积5、卷积6、池化4、卷积7；

其中，卷积1、卷积2、卷积3、卷积4、卷积5和卷积6的卷积核大小均为(3，3)、步长均为1和周边填充系数均为1，卷积7的卷积核大小为(2， 2)、步长为1和周边填充系数为0；

池化1和池化2的系数为(2，2)，池化3和池化4的系数为(2，1)。

进一步，所述步骤S3包括如下步骤：

S31：联结主义时间分类CTC定义CTC Loss损失函数，构建预测的字符序列和训练标签之间的多对一映射；

S32：联结主义时间分类CTC采用了动态规划算法计算CTC Loss，实现循环神经网络RNN端到端训练。

进一步，所述CTC Loss损失函数采用如下方法确定：

其中，L表示CTC Loss损失函数，x表示输入特征序列，Z表示预测结果， S表示训练数据集，π_t表示t时刻预测序列π中对应的字符，

表示BiLSTM网络预测得到的概率矩阵y中时序为t时预测结果为π_t的概率；

所述动态规划算法计算CTC Loss采用如下方法确定：

其中，x表示输入特征序列，Z表示图像的标签，S表示训练数据集，

表示BiLSTM网络预测得到的概率矩阵y中时序为t时预测结果为π_t的概率，β_t(s)表示后向传播时在时刻t经过节点s的全部子路径的概率总和，α_t(s)表示前向传播时在时刻t经过节点s的全部子路径的概率总和。

进一步，所述前向传播时在时刻t经过节点s的全部子路径的概率总和α_t(s) 采用如下方法确定：

基于动态规划算法可以得到：

初始情况为：

其中，α₁(1)表示前向传播时在时刻1经过节点1的全部子路径的概率总和，

表示BiLSTM网络预测得到的概率矩阵y中时序为1时预测结果为空格的概率，α₁(2)表示前向传播时在时刻2经过节点2的全部子路径的概率总和，

表示BiLSTM网络预测得到的概率矩阵y中时序为1时预测结果为s₂的概率，α₁(s) 表示前向传播时在时刻1经过节点s的全部子路径的概率总和，s表示节点；

当s为空字符或s表示的字符与s-2表示的字符一样时有：

其中，α_t(s)表示前向传播时在时刻t经过节点s的全部子路径的概率总和， α_t-1(s)表示前向传播时在时刻t-1经过节点s的全部子路径的概率总和，s表示节点，

表示BiLSTM网络预测得到的概率矩阵y中时序为t时预测结果为s的概率；

其他情况为：

由此，可以得到前向传播情况下，CTC Loss表示为：

-ln(p(z|x))＝-ln(α_T(s_max)+α_T(s_max-1)) (2-4)

其中，x表示输入特征序列，Z表示图像的标签，s表示节点，s_max表示最大的节点，α_t(s)表示前向传播时在时刻t经过节点s的全部子路径的概率总和。

进一步，所述后向传播时在时刻t经过节点s的全部子路径的概率总和 β_t(s)，采用如下方法确定：

基于动态规划算法可以得到：

初始情况为：

其中，β_T(s_max)表示后向传播时在时刻T经过节点s_max的全部子路径的概率,

表示BiLSTM网络预测得到的概率矩阵y中时序为T时预测结果为空格的概率,β_T(s_max-1)表示后向传播时在时刻T经过节点s_max-1的全部子路径的概率，

表示BiLSTM网络预测得到的概率矩阵y中时序为T时预测结果为s_max-1的概率；

当s为空字符或s表示的字符与s+2表示的字符一样时有：

其中，β_t(s)表示后向传播时在时刻t经过节点s的全部子路径的概率总和， β_t+1(s)表示后向传播时在时刻t+1经过节点s的全部子路径的概率总和，β_t+1(s+1) 表示后向传播时在时刻t+1经过节点s+1的全部子路径的概率总和，

表示 BiLSTM网络预测得到的概率矩阵y中时序为T时预测结果为s的概率；

其他情况为：

其中，

表示后向传播时在时刻t经过节点s的全部子路径的概率总和， β_t+1(s)表示后向传播时在时刻t+1经过节点s的全部子路径的概率总和，β_t+1(s+1) 表示后向传播时在时刻t+1经过节点s+1的全部子路径的概率总和，β_t+1(s+2)表示后向传播时在时刻t+1经过节点s+2的全部子路径的概率总和，

表示BiLSTM 网络预测得到的概率矩阵y中时序为T时预测结果为s的概率；

由此，可以得到后向传播情况下，CTC Loss表示为：

-ln(p(z|x))＝-ln(β₁(1)+β₁(2))

其中，x表示输入特征序列，Z表示图像的标签，s表示节点，β₁(1)表示后向传播时在时刻1经过节点1的全部子路径的概率总和，β₁(2)表示后向传播时在时刻2经过节点2的全部子路径的概率总和。

本发明的有益技术效果：本申请提供的识别方法采用了卷积神经网络 (CNN)、循环神经网络(RNN)和联结主义时间分类(CTC)的网络结构，实现一行喷码字符的端到端识别；本申请的识别方法不依赖于字符分割，通用性强；字符识别效率更高。

附图说明

下面结合附图和实施例对本发明作进一步描述：

图1是本发明的卷积网络结构图。

图2是本发明的特征序列与图像对应关系图。

图3是本发明的标准循环神经网络结构图。

图4是本发明的LSTM网络结构图。

图5是本发明的双向LSTM结构图。

图6是本发明的理想情况下映射关系图。

图7是本发明的训练过程示例图。

图8是本发明的映射关系示例图。

图9是本发明的概率矩阵图。

图10是本发明的前向传播路径图。

图11是本发明的后向传播路径图。

图12是本发明的概率矩阵简单示例图。

图13是本发明的穷举法概率图。

图14是本发明的Beam Search算法概率图。

具体实施方式

以下结合说明书附图对本发明做出进一步的说明：

本发明提供的一种基于深度学习的零件喷码字符端到端识别方法，其特征在于：所述方法包括以下步骤：

在步骤S2中，循环层，通过卷积层得到图像的特征序列后，需要根据这些特征序列来对各个感受野信息进行识别。这里必须考虑识别对象的上下文信息，属于时序数据的识别问题。由于卷积神经网络没有考虑时序问题，所以解决这一类识别问题通常采用循环神经网络(RNN)来实现，标准的RNN结构及其展开如图3所示。

图中，x_t为网络的输入，A表示一组神经网络结构，y_t为该网络的输出。可以从图中看出，当x₀输入网络并输出y₀后，其神经网络会记录这次预测的信息作为输入参数来参与下一个y的预测。这使得循环神经网络具有考虑上下文信息的功能。但是标准的RNN网络存在梯度爆炸和梯度消失的问题[74]，这使得其存储上下文的范围非常有限，而且也给训练过程造成了很大的负担。用长短时记忆(LSTM)来解决这个问题。LSTM网络内部主要由一个记忆单元和三个门结构(输入门、输出门和遗忘门)共4个部分组成。当本次输入x_t和上一个状态传递来的h_t-1作为输入进入到LSTM中时，首先根据这两个输入，计算得到4个状态分别赋予4个单元，即：

z＝tanh(W(x_t,h_t-1)) (3)

z_i＝σ(W_i(x_t,h_t-1)) (4)

z_f＝σ(W_f(x_t,h_t-1)) (5)

z_o＝σ(W_o(x_t,h_t-1)) (6)

其中，z表示记忆单元，z_i表示输入门(input gate)，z_f下标f表示遗忘门(forgetgate)，z_o表示输出门(output gate)，W表示各单元的内部网络计算参数，σ表示sigmoid激活函数，可以将输入数值转换为0到1之间的数来控制门的状态，tanh表示tanh激活函数，将输入记忆单元的数值转换为 -1到1之间的数。

相较于标准RNN网络，LSTM增加了一个遗忘门以解决梯度爆炸或梯度消失带来的无法联系更远上下文的问题。LSTM网络的内部结构如图4所示。

从图中可以看出，相较于标准RNN的两个参数(x_t和h_t-1)作为输入值，LSTM 网络增加了c_t-1作为输入。图中的“·”符号表示两个同阶矩阵中的对应元素相乘，即哈达玛积，根据连接的z的下标，分别代表遗忘门、输入门和输出门； “+”则表示两个矩阵相加，代表记忆单元。LSTM网络输出为三个值：c_t、h_t和 y_t，其计算表达式分别为：

c_t＝z_f·c_t-1+z_i·z (7)

h_t＝z_o·tanh(c_t) (8)

y_t＝σ(W′h_t) (9)

其中，c_t、h_t和y_t表示LSTM网络输出的三个值，z_f下标f表示遗忘门(forget gate)，z_i表示输入门(input gate)，z_o表示输出门(output gate)，W表示各单元的内部网络计算参数，σ表示sigmoid激活函数，可以将输入数值转换为0到1之间的数来控制门的状态，tanh表示tanh激活函数，将输入记忆单元的数值转换为-1到1之间的数。

LSTM网络通过z_f来控制遗忘门的开启或关闭，从而达到对上一状态c_t-1进行选择性遗忘的目的。这使得LSTM网络相较于传统RNN网络对上一阶段的输入有了接受或者不接受的选择，从而避免了一味地接受上一阶段的状态，最终导致梯度爆炸或消失。

图4中表示的是单向LSTM网络结构，即只是从1到t的单向传递。这意味着每个时刻的输出只和前面的识别结果有关，而和后面的识别结果没有关系。而在本文要解决的字符识别问题中，两个方向的上下文信息都是有用且互补的。所以这里采用双向LSTM网络(BiLSTM)，即将两个LSTM网络，一个向前一个向后地组合在一起，达到同时考虑前后状态的目的。BiLSTM网络结构如图5所示。

图5中，x_t为网络的输入，A和A′分别表示一组LSTM网络结构，s_t表示c_t和 h_t两种参数在状态间传递，y_t为该网络的输出。

BiLSTM网络会输出一个c×T的概率矩阵，其中c表示预测的类别(class) 个数，对于本文的研究对象喷码字符而言，包括类别为0-9的10种数字、A-Z 的26类大写英文字母和1类特殊字符，另外添加一个相当于背景类别的空格类，一共有38类字符；T为特征序列的个数，本文中为25。最终输出的概率矩阵表示为y＝(y¹,y²,...,y^T)，其中每一列表示为

且满足每列的概率和为1。循环层得到的概率矩阵y将作为输入值传入转录层，而想要得到最合理的概率矩阵y就需要对循环神经网络中的参数进行训练优化。

对于循环神经网络而言，最理想的情况就是：训练时，训练标签和特征序列一一对应，特征序列和每个字符的图像一一对应，即特征序列和图像之间的映射关系已经对应地标注好了，如图6所示。这时由于特征序列和图像之间是一一对应的，所以神经网络模型在训练时可以直接根据特征序列和训练标签之间的差异来定义模型的损失函数，可以直接使用传统的RNN模型的训练方式，完成端到端的模型训练。

然而，由于实际现实中的字符图像和训练标签都是不定长的，其特征序列和图像之间的映射关系通常如图2所示，即特征序列完全无法和字符图像一一对应。由于采集的图像数据中字符大小、单个字符宽度、字符个数都是不确定的，难以通过设置参数的方法让特征序列和字符图像一一对应。而通过人工手段，可以人为地将图像进行分割并单独进行标注。但这种方法的人力成本和时间成本极高，难以制造大样本数据集，不具有实用价值。在这种情况下，传统的RNN训练和预测方法不再适用。

上述技术方案本采用了卷积神经网络(CNN)、循环神经网络(RNN)和联结主义时间分类(CTC)的网络结构，实现一行喷码字符的端到端识别；本申请的识别方法不依赖于字符分割，通用性强；字符识别效率更高。

在本实施例中，所述卷积层包括7个卷积层和4个池化层，其网络架构从输入到输出依次为输入、卷积1、池化1、卷积2、池化2、卷积3、卷积4、池化3、卷积5、卷积6、池化4、卷积7；

池化1和池化2的系数为(2，2)，池化3和池化4的系数为(2，1)。

卷积层，顾名思义该层主要由卷积操作构成，其主要功能是提取图像特征，为后续的循环层提供图像的特征序列。该层的网络结构如图1所示。

其中，卷积神经网络包含卷积层的输入和输出，其输入为高度为32、宽度为100的图像；输出为宽度为25、高度为1的512层特征图。这就是图像的特征序列，将作为输入进入循环层。图像中每一个感受野的图像特征信息都记录在对应的特征序列中，以供循环层识别，图像和特征序列的映射关系如8所示。特征序列的高度为1，所以可以表示为x＝(x¹,x²,...,x²⁵)，25为特征序列的宽度。其中，图像中每一个感受野的特征序列为

512为特征图层数， t∈[1,25]。

在图1中，一共有7次卷积操作。前6次卷积核大小均为(3,3)，步长均为1，周边填充系数(padding size)均为1，这种情况下的特征图尺寸的高度和宽度不会因为卷积操作而发生变化。最后一次卷积操作其卷积核大小为 (2,2)，步长为1，周边填充系数(paddingsize)为0，这使得特征图的高度由2变为了1。激活函数仍选用RReLU。

在图1中，一共有4次池化操作。前2次的系数为(2,2)，即高宽均缩小为原来的一半。后两次系数为(2,1)，即只将高度缩为一半，宽度不变。

在本实施例中，所述步骤S3包括如下步骤：

在本实施例中，所述CTC Loss损失函数采用如下方法确定：

所述动态规划算法计算CTC Loss采用如下方法确定：

联结主义时间分类(CTC)是一种RNN的端到端的训练和预测方法。通过 CTC，RNN无需事先对特征序列和图像信息之间的映射关系进行标注，就可以直接对特征序列进行学习。在神经网络训练时，它定义了CTC Loss损失函数，实现了预测的字符序列和训练标签之间的多对一映射；同时它采用了动态规划算法计算CTC Loss，实现RNN端到端训练。

以一段喷码图像为例，如图7示，通过构建CTC Loss损失函数来分析循环神经网络的训练过程。

其中，I表示输入的图像，x是该图像通过卷积神经网络得到的特征序列， w表示预测的字符序列，z为图像的标签。根据上一小节的定义，标签为 L＝{0,1,2,3,...,X,Y,Z,-}共37类，另外扩展一个表示背景类别的标签 L′＝{0,1,2,3,...,X,Y,Z,-,_}，扩展后共38类。

定义一个多对一的映射函数Β:(L′)^T→L^T，其规则为：连续相同的字符进行去重处理；去除空格字符(“_”)。示例如图8所示。

神经网络训练，就是已知一组图像和它们对应的标签，对神经网络中的参数进行计算和优化，要使得输入特征序列为x时，预测结果为标签z的概率最大。用数学表达式表示：

h(x)＝argmaxp(z|x)

这里的p(z|x)表示所有识别结果为z的预测序列π的概率之和。

即当π∈(L′)^T，z∈L^T，π∈Β^-1(z)时，有：

其中，π_t表示t时刻，预测序列π中对应的字符；

表示BiLSTM网络预测得到的概率矩阵y中，时序为t时，预测结果为π_t的概率。

计算该损失函数的关键在于计算p(z|x)，由于直接暴力计算p(z|x)的复杂度非常高，采用动态规划算法完成计算。

根据RNN网络求得的概率矩阵y，可以得到图9。

根据前向传播的约束条件：转换只能为右下方向，禁止转向其它方向；相同字符之间至少有一个空字符；非空字符不能跳过；起点为前两个字符；终点必须为最后两个字符。可以遍历所有映射为“HY2”的合法路径，得到时序T＝5，标签z为“HY2”的全部路径如图10所示。

所述前向传播时在时刻t经过节点s的全部子路径的概率总和α_t(s)采用如下方法确定：

基于动态规划算法可以得到：

初始情况为：

当s为空字符或s表示的字符与s-2表示的字符一样时有：

其他情况为：

由此，可以得到前向传播情况下，CTC Loss表示为：

-ln(p(z|x))＝-ln(α_T(s_max)+α_T(s_max-1)) (2-4)

所述后向传播时在时刻t经过节点s的全部子路径的概率总和β_t(s)，采用如下方法确定：

基于动态规划算法可以得到：

初始情况为：

当s为空字符或s表示的字符与s+2表示的字符一样时有：

其他情况为：

其中，β_t(s)表示后向传播时在时刻t经过节点s的全部子路径的概率总和， β_t+1(s)表示后向传播时在时刻t+1经过节点s的全部子路径的概率总和，β_t+1(s+1) 表示后向传播时在时刻t+1经过节点s+1的全部子路径的概率总和，β_t+1(s+2)表示后向传播时在时刻t+1经过节点s+2的全部子路径的概率总和，

由此，可以得到后向传播情况下，CTC Loss表示为：

-ln(p(z|x))＝-ln(β₁(1)+β₁(2))

至此，便完成了循环神经网络端到端训练的损失函数设计与计算。以该损失函数值最小为优化目标，对神经网络参数进行优化，就实现了直接对特征序列进行端到端学习训练的目的。

通过RNN的端到端训练，可以得到最优化的网络参数，从而使得根据输入特征序列x求得的概率矩阵y最为合理。转录层的作用就是根据求得的概率矩阵y推断出最可能的字符序列l，一般采用CTC Beam Search Decoding算法实现。下面将用一个简单的概率矩阵为例，来展示具体的转录算法。

如图12所示，，这是一个时序为3，标签为{a,b,-}的概率矩阵(“-”表示空白)。值得注意的是，这里的概率矩阵是真实情况下的概率矩阵，之前网络训练时的概率矩阵左侧标签进行了排序是为了更好地说明字符序列的传播路径。该概率矩阵最终得到的序列的可能情况有：“a”、“b”、“aa”、“bb”、 “ab”、“ba”、“aba”、“bab”、“-”(空白)。穷举法计算概率如图 13所示。

图中，黑色概率代表各自对应字符出现的概率，红色表示预测序列不同但转录结果相同的字符序列概率总和。如：“aaa”、“aa-”、“-aa”、“a--”、 “-a-”、“--a”的转录结果均为“a”，其概率和为0.297。可以看出最终转录结果概率最高的是“a”。这种穷举算法虽然能得到最优解，但是时间复杂度太大，对于类别更多的情况，运算量过大。

CTC一般采用Beam Search的方法，设置一个参数W为Beam Width，每一步搜索只选取概率最大的W个节点进行扩展，以减少计算量。如设置W＝3，Beam Search算法的概率图如图14所示。

图中，每一阶段只选取概率最大得3个节点，见图中的黄色方框。然后只对这些节点进行进一步的扩展。在最后一个阶段对具有同一转录结果的不同字符序列进行概率合并，虚线框表示被合并的项，红色表示合并的转录结果及其总概率。可以看出最终转录结果概率最高的仍然是“a”。

Beam Search算法使每一步搜索只扩展W个节点，而不是穷举算法的指数增长，大大降低了搜索的复杂度，计算量得到了明显的减少。而计算结果虽然不一定是最优解，但是在实际应用中能够在限定时间的条件下找到近似解也是可以接受的。

通过CTC Beam Search Decoding算法，循环神经网络就可以根据概率矩阵 y在较短的时间内找到对应字符序列的近似解甚至最优解，从而完成从概率矩阵到字符序列的转录.

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于深度学习的零件喷码字符端到端识别方法，其特征在于：所述方法包括以下步骤：

2.根据权利要求1所述基于深度学习的零件喷码字符端到端识别方法，其特征在于：所述卷积层包括7个卷积层和4个池化层，其网络架构从输入到输出依次为输入、卷积1、池化1、卷积2、池化2、卷积3、卷积4、池化3、卷积5、卷积6、池化4、卷积7；

其中，卷积1、卷积2、卷积3、卷积4、卷积5和卷积6的卷积核大小均为(3，3)、步长均为1和周边填充系数均为1，卷积7的卷积核大小为(2，2)、步长为1和周边填充系数为0；

池化1和池化2的系数为(2，2)，池化3和池化4的系数为(2，1)。

3.根据权利要求1所述基于深度学习的零件喷码字符端到端识别方法，其特征在于：所述步骤S3包括如下步骤：

4.根据权利要求3所述基于深度学习的零件喷码字符端到端识别方法，其特征在于：所述CTC Loss损失函数采用如下方法确定：

其中，L表示CTC Loss损失函数，x表示输入特征序列，Z表示预测结果，S表示训练数据集，π_t表示t时刻预测序列π中对应的字符，

所述动态规划算法计算CTC Loss采用如下方法确定：

5.根据权利要求4所述基于深度学习的零件喷码字符端到端识别方法，其特征在于：所述前向传播时在时刻t经过节点s的全部子路径的概率总和α_t(s)采用如下方法确定：

基于动态规划算法可以得到：

初始情况为：

表示BiLSTM网络预测得到的概率矩阵y中时序为1时预测结果为s₂的概率，α₁(s)表示前向传播时在时刻1经过节点s的全部子路径的概率总和，s表示节点；

当s为空字符或s表示的字符与s-2表示的字符一样时有：

其中，α_t(s)表示前向传播时在时刻t经过节点s的全部子路径的概率总和，α_t-1(s)表示前向传播时在时刻t-1经过节点s的全部子路径的概率总和，s表示节点，

其他情况为：

由此，可以得到前向传播情况下，CTC Loss表示为：

-ln(p(z|x))＝-ln(α_T(s_max)+α_T(s_max-1)) (2-4)

6.根据权利要求4所述基于深度学习的零件喷码字符端到端识别方法，其特征在于：所述后向传播时在时刻t经过节点s的全部子路径的概率总和β_t(s)，采用如下方法确定：

基于动态规划算法可以得到：

初始情况为：

当s为空字符或s表示的字符与s+2表示的字符一样时有：

其中，β_t(s)表示后向传播时在时刻t经过节点s的全部子路径的概率总和，β_t+1(s)表示后向传播时在时刻t+1经过节点s的全部子路径的概率总和，β_t+1(s+1)表示后向传播时在时刻t+1经过节点s+1的全部子路径的概率总和，

其他情况为：

其中，β_t(s)表示后向传播时在时刻t经过节点s的全部子路径的概率总和，β_t+1(s)表示后向传播时在时刻t+1经过节点s的全部子路径的概率总和，β_t+1(s+1)表示后向传播时在时刻t+1经过节点s+1的全部子路径的概率总和，β_t+1(s+2)表示后向传播时在时刻t+1经过节点s+2的全部子路径的概率总和，

由此，可以得到后向传播情况下，CTC Loss表示为：

-ln(p(z|x))＝-ln(β₁(1)+β₁(2))