CN108491836B

CN108491836B - 一种自然场景图像中中文文本整体识别方法

Info

Publication number: CN108491836B
Application number: CN201810073753.3A
Authority: CN
Inventors: 高学; 刘衍平
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-01-25
Filing date: 2018-01-25
Publication date: 2020-11-24
Anticipated expiration: 2038-01-25
Also published as: CN108491836A

Abstract

本发明公开了一种自然场景图像中中文文本整体识别方法，首先获取训练样本集，对深度卷积网络、编码用多层双向递归网络、解码用多层双向递归网络以及CTC模型依次连接构成的神经网络进行训练；将测试样本输入到训练后的深度卷积网络中，获取到测试样本的各特征序列帧；然后将测试样本的各特征序列帧输入到训练后的编码用多层双向递归网络中，得到测试样本的各编码序列帧；再将测试样本的各编码序列帧输入至训练后的解码用多层双向递归网络中，得到测试样本各帧图像中每个常用汉字为该帧图像中汉字的概率结果；最后进行集束搜索处理，最终识别出测试样本中整体中文文本。本发明方法提高了自然场景图像中中文文本整体识别的准确率。

Description

一种自然场景图像中中文文本整体识别方法

技术领域

本发明属于图像处理技术领域，特别涉及一种自然场景图像中中文文本整体识别方法。

背景技术

人类大部分的信息都是通过视觉系统获得的，通过视觉系统获取的场景图像除了包含色彩、图案、形状、位置、纹理等丰富的视觉信息，还包含了丰富的文本信息。文本对信息的描述有着准确性、有效性等特点，文本在各种计算机视觉应用中具有十分有用的价值。例如，在图片搜索方面，识别图片中的文字有利于我们更好地对图片分类匹配；在无人驾驶方面，从自然场景中识别出交通指示牌以及其他标志李的文字信息可以辅助驾驶，自然场景下的文字识别在人工智能高速发展的今天，是一个不可或缺的重要发展部分。

自然场景中的文本图像与传统文档图像相比具有明显的不同，在文本图像的颜色、亮度、对比度、背景、形状上两者都有很大的差异，图像中可能包括较强的噪声干扰。传统的文本识别方法已经不再适应场景文本的复杂化、多样化。现有技术中自然场景中文本的检测通常需要对图像文本进行预分割处理，图像的分割处理技术直接影响着自然场景中中文文字的检测精度，并且当部分汉字的结构特征被分在不同特征序列时，将很难识别出来。而近年来利用深度学习网络来解决这一挑战显得更加方便可行，并取得了显著的效果。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种自然场景图像中中文文本整体方法，该方法能够避免文本图像预分割问题，提高自然场景图像中中文文本整体的识别准确度。

本发明的目的通过下述技术方案实现：一种自然场景图像中中文文本整体识别方法，步骤如下：

步骤S1、获取多幅包括汉字的自然场景图像样本，构成训练样本集，其中训练样本集中包括了常用汉字字符集中的所有常用汉字；并且为每个常用汉字设置一个标签；

同时获取由深度卷积网络、编码用多层双向递归网络、解码用多层双向递归网络以及CTC模型依次连接构成的神经网络，其中该神经网络的输入即为深度卷积网络的输入，该神经网络的输出即为CTC模型的输出；

步骤S2、神经网络训练：将训练样本集中的每个训练样本作为神经网络的输入，将每个训练样本中各汉字的标签作为神经网络的输出，针对神经网络进行训练得到训练后的神经网络，从而得到训练后的深度卷积网络、训练后的编码用多层双向递归网络和训练后的解码用多层双向递归网络；

步骤S3、当获取到测试样本时，首先将测试样本输入到训练后的深度卷积网络中，通过训练后的深度卷积网络获取到测试样本的各特征序列帧；

步骤S4、将训练后深度卷积神经网络输出的测试样本的各特征序列帧输入到训练后的编码用多层双向递归网络中，通过训练后的编码用多层双向递归网络得到测试样本的各编码序列帧；

步骤S5、将测试样本的各编码序列帧输入至训练后的解码用多层双向递归网络中，通过训练后的解码用多层双向递归网络得到测试样本各帧图像中每个常用汉字的概率结果；

步骤S6、针对于步骤S5获取到的测试样本各帧图像中每个常用汉字为该帧图像汉字的概率结果进行集束搜索处理，通过集束搜索结果最终识别出测试样本中整体中文文本。

优选的，所述步骤S2中，当训练样本输入到神经网络中时，针对训练样本的处理过程如下：首先由神经网络中的深度卷积网络获取到训练样本的各特征序列帧；然后输入到编码用多层双向递归网络，通过编码用多层双向递归网络得到训练样本的各编码序列帧；训练样本的各编码序列帧输入到解码用多层双向递归网络中，通过解码用多层双向递归网络得到训练样本各帧图像中每个汉字的概率结果，最后输入到CTC模型中进行处理，神经网络根据CTC模型的输出即训练样本中各汉字的标签针对深度卷积网络、编码用多层双向递归网络、解码用多层双向递归网络以及CTC模型进行训练，从而得到训练后的深度卷积网络、训练后的编码用多层双向递归网络、训练后的解码用多层双向递归网络以及训练后的CTC模型。

更进一步的，所述步骤S2和步骤S3中，训练样本的文本图像输入到深度卷积神经网络以及测试样本的文本图像输入到训练后的深度卷积神经网络之前先进行预处理，其中预处理的过程如下：

步骤S1-1、将输入的文本图像转换为灰度图像；

步骤S1-2、将灰度图像变形转换为某一固定高度且转换后长度和高度比值与转换前相同的场景文本图像；

步骤S1-3、使用滑动窗口水平扫描步骤S1-2获取到的场景文本图像，产生若干个窗口图像；

深度卷积神经网络针对于输入的预处理后的训练样本的文本图像以及训练后的深度卷积神经网络针对于输入的预处理后的测试样本的文本图像的处理过程如下：

步骤S1-4、利用深度卷积层对每个窗口图像进行高维特征提取，其中每个窗口图像对应一个一维特征图，各窗口对应的一维特征图即为各特征序列帧。

更进一步的，所述步骤S1-2，采用双线性插值变换方法将灰度图像变形转换为某一固定高度且转换后长度和高度比值与转换前相同的场景文本图像，所述某一固定高度为72、64、48、32、24、16或8个像素。

更进一步的，所述步骤S1-3中，滑动窗口的大小为32×32个像素，滑动窗口移动的步长为16个像素。

更进一步的，所述步骤S2和步骤S5中，解码用多层双向递归网络针对于输入的训练样本的各编码序列帧以及训练后的解码用多层双向递归网络针对于输入的测试样本的各编码序列帧的解码过程如下：

步骤S2-1、首先在当前时刻第t个时刻计算由上一个时刻第t-1个时刻需要解码的编码序列帧h_t-1、当前时刻第t个时刻需要解码的编码序列帧h_t以及下一个时刻第t+1个时刻需要解码的编码序列帧h_t+1所构成序列H＝{h_t-1,h_t,h_t+1}的注意力因子：

其中

e_t,j＝v^Ttanh(W₂s_t-1+Vh_j+b)，j＝t-1，t，t+1；

其中W₂,V,v和b均为可训练参数，v^T为v矩阵的转置；s_t-1为解码用多层双向递归网络中隐节点在上一时刻t-1的状态；S＝{h₀,h₁,...,h_t,...,h_T′-1}为编码序列帧的集合，集合中各元素即为各编码序列帧，T′为编码序列帧的集合中编码序列帧的总数，h₀、h₁、h_T′-1分别对应为在初始时刻即第0个时刻、第1个时刻、第T′-1个时刻需要解码的编码序列帧；

步骤S2-2、根据步骤S2-1当前时刻第t个时刻计算得到的序列H＝{h_t-1,h_t,h_t+1}的注意力因子计算在当前时刻第t个时刻序列H＝{h_t-1,h_t,h_t+1}的加权卷积

其中W₁为可训练参数；其中当t＝0时，h_t-1由相等维度的零向量进行补充；当t＝T′-1时，h_t+1由相等维度的零向量进行补充；

是表示卷积运算；

步骤S2-3、根据步骤S2-2计算的当前时刻第t个时刻序列H＝{h_t-1,h_t,h_t+1}的加权卷积

计算解码用多层双向递归网络中隐节点在当前时刻第t个时刻的状态：

其中y_t-1为解码用多层双向递归网络在上一个时刻第t-1个时刻的输出；

步骤S2-4；根步骤S2-2计算的当前时刻第t个时刻序列H＝{h_t-1,h_t,h_t+1}的加权卷积

以及步骤S2-3计算的解码用多层双向递归网络中隐节点在当前时刻第t个时刻的状态计算得到当前时刻第t个时刻的解码输出结果：

优选的，所述步骤S6中，针对测试样本各帧图像中的每个概率结果进行集束搜索处理的过程具体如下：

步骤S6-1、针对于测试样本中各帧图像，从第一帧图像开始进行逐层搜索；其中针对于第一帧图像，比较各个常用汉字的概率结果，选取出概率值最高的K个概率结果；针对于第二针图像进行搜索时，进入步骤S6-2；其中K为一定值；

步骤S6-2、针对于当前帧图像搜索时，进行以下处理：将该帧图像中每个常用汉字的概率结果分别与上一帧图像搜索时选取的概率值最高的K个概率结果进行相乘，得到C*K个概率结果，从C*K个概率结果中选取出概率值最高的K个概率结果，然后进入步骤S6-3；其中C为常用汉字字符集的大小，即常用汉字字符集中常用汉字的总数；

步骤S6-3、判断当前帧图像是否为测试样本的最后一帧图像，若是，则进入步骤S6-4，若否，则下一帧图像作为当前帧图像，进行步骤S6-2的处理；

步骤S6-4、针对于最后一帧搜索后获取到的概率值最高的K个概率结果中的每个概率结果，获取计算该概率结果所使用到的每帧图像中某一汉字的概率结果，然后从第一帧图像到最后一帧图像，依次将每帧图像中的该汉字串联成该概率结果的路径；

步骤S6-5、检测步骤S6-4获取到的各概率结果的路径中是否有空字符，若有，则删除；同时检测步骤S6-4获取到的各概率结果的路径中是否有相邻的字符为重复字符，若有，则删除重复的字符；

步骤S6-6、对比步骤S6-5处理之后的各概率结果的路径，将路径相同的概率结果进行相加合并，然后从最终获取到的多个概率结果中选择概率值最大的一个概率结果，将该概率结果的路径中对应汉字作为最终识别结果。

更进一步的，所述K取[1，C]范围中的其中一个整数值。

更进一步的，常用汉字字符集的大小C为3756，常用汉字字符集中包括3755个一级常用汉字和一个空字符。

更进一步的，所述K取10。

本发明相对于现有技术具有如下的优点及效果：

(1)本发明自然场景图像中中文文本整体识别方法，首先获取到训练样本集，并且为训练样本集中所包括的每个常用汉字设置一个标签；同时获取由深度卷积网络、编码用多层双向递归网络、解码用多层双向递归网络以及CTC模型依次连接构成的神经网络，然后将训练样本集中的每个训练样本作为神经网络的输入，将每个训练样本中各汉字的标签作为神经网络的输出，针对神经网络进行训练，得到训练后的神经网络；在获取到测试样本后，本发明将将测试样本首先输入到训练后的深度卷积网络中，通过训练后的深度卷积网络获取到测试样本的各特征序列帧；然后将测试样本的各特征序列帧输入到训练后的编码用多层双向递归网络中，得到测试样本的各编码序列帧；再将将测试样本的各编码序列帧输入至训练后的解码用多层双向递归网络中，得到测试样本各帧图像中每个常用汉字为该帧图像中汉字的概率结果；最后针对于测试样本各帧图像中每个常用汉字为该帧图像汉字的概率结果进行集束搜索处理，最终识别出测试样本中整体中文文本。本发明使用CTC模型训练网络和后处理方式，能够在文本图像不进行预分割的情况下，克服因部分汉字的结构特征被分割在不同特征序列而造成识别率低的问题，具有识别率高、整体性强等特点，可以应用于图像中文文本信息的自动识读、图像搜索、场景理解等，具有较好的实用价值。

(2)本发明自然场景图像中中文文本整体识别方法中，采用多层双向递归网络进行编码建模，其中多层双向递归网络可以有效避免递归网络在训练过程中梯度爆炸和梯度消失等问题，同时又可以有效的分析正反两个方向的上下文关系。另外本发明方法训练过程中采用CTC模型，CTC模型能够支持整个网络模型在输入文本图像和相应的标签序列没有先验对齐的情况下训练，使得本发明方法训练过程更为快速便捷。

(3)本发明自然场景图像中中文文本整体识别方法在训练和测试过程中，文本图像在输入深度卷积神经网络之前，先进行预处理，将文本图像均变形转换为某一固定高度且转换后长度和高度比值与转换前相同的场景文本图像，因此本发明方法能够在不降低识别率的情况下，实现对任意长度的输入序列进行解码识别。

(4)本发明自然场景图像中中文文本整体识别方法中，采用基于改进后的注意力机制的多层双向递归网络，将其中的注意力因子改进为只和部分编码序列相关因子，由于汉字的识别结果只与其前后两个相邻输入图像中对应的区域有关，因此本发明方法中注意力因子的改进不但不会降低识别的准确率，还能提高解码用多层双向递归网络的解码速度，使得解码的计算过程更加简便。

附图说明

图1是本发明方法流程图。

图2是本发明方法中深度卷积神经网络卷积层Batch-Conv1的结构图。

图3是本发明方法中深度卷积神经网络卷积层Batch-Conv0的结构图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

本实施例公开了一种自然场景图像中中文文本整体识别方法，如图1所示，步骤如下：

步骤S1、获取多幅包括汉字的自然场景图像样本，构成训练样本集，其中训练样本集中包括了常用汉字字符集中的所有常用汉字；并且为每个常用汉字设置一个标签；在本实施例中常用汉字字符集的大小C为3756，常用汉字字符集中包括3755个一级常用汉字以及1个空字符。

同时获取由深度卷积网络、编码用多层双向递归网络、解码用多层双向递归网络以及CTC模型依次连接构成的神经网络，其中该神经网络的输入即为深度卷积网络的输入，该神经网络的输出即为CTC模型的输出。

步骤S2、神经网络训练：将训练样本集中的每个训练样本作为神经网络的输入，将每个训练样本中各汉字的标签作为神经网络的输出，针对神经网络进行训练得到训练后的神经网络，从而得到训练后的深度卷积网络、训练后的编码用多层双向递归网络和训练后的解码用多层双向递归网络；其中具体的过程如下：

当训练样本输入到神经网络中时，针对训练样本的处理过程如下：首先由神经网络中的深度卷积网络获取到训练样本的各特征序列帧；然后输入到编码用多层双向递归网络，通过编码用多层双向递归网络得到训练样本的各编码序列帧；训练样本的各编码序列帧输入到解码用多层双向递归网络中，通过解码用多层双向递归网络得到训练样本各帧图像中每个汉字的概率结果，最后输入到CTC模型中进行处理，神经网络根据CTC模型的输出即训练样本中各汉字的标签针对深度卷积网络、编码用多层双向递归网络、解码用多层双向递归网络以及CTC模型进行训练，从而得到训练后的深度卷积网络、训练后的编码用多层双向递归网络、训练后的解码用多层双向递归网络以及训练后的CTC模型。

步骤S3、当获取到测试样本时，首先将测试样本输入到训练后的深度卷积网络中，通过训练后的深度卷积网络获取到测试样本的各特征序列帧。

步骤S4、将训练后深度卷积神经网络输出的测试样本的各特征序列帧输入到训练后的编码用多层双向递归网络中，通过训练后的编码用多层双向递归网络得到测试样本的各编码序列帧。

步骤S5、将测试样本的各编码序列帧输入至训练后的解码用多层双向递归网络中，通过训练后的解码用多层双向递归网络得到测试样本各帧图像中每个常用汉字的概率结果；其中测试样本各帧图像中每个常用汉字的概率结果指的就是测试样本各帧图像中该常用汉字为该帧图像中汉字的概率结果。

在本实施例中常用汉字字符集包括C个汉字，所以通过训练后的解码用多层双向递归网络得到各帧图像中C个常用汉字中每个常用汉字的概率结果，即测试样本的每帧图像总共包括C个常用汉字的概率结果。

步骤S6、针对于步骤S5获取到的测试样本各帧图像中每个常用汉字的概率结果进行集束搜索处理，通过集束搜索结果最终识别出测试样本中整体中文文本。其中在本步骤中，集束搜索处理的过具体如下：

步骤S6-1、针对于测试样本中各帧图像，从第一帧图像开始进行逐层搜索；其中针对于第一帧图像，比较各个常用汉字的概率结果，选取出概率值最高的K个概率结果；针对于第二针图像进行搜索时，进入步骤S6-2；其中K为一定值，可以取[1，C]范围中的其中一个整数值，其中C为常用汉字字符集的大小，常用汉字字符集中常用汉字包括一级常用汉字和空字符；在本实施例中K取10。

步骤S6-2、针对于当前帧图像搜索时，进行以下处理：将该帧图像中每个常用汉字的概率结果分别与上一帧图像搜索时选取的概率值最高的K个概率结果进行相乘，得到C*K个概率结果，从C*K个概率结果中选取出概率值最高的K个概率结果，然后进入步骤S6-3。

例如针对于第三帧图像进行搜索时，第三帧图像包括C个常用汉字的概率结果，分别为A₁，A₂，…，A_C，而第二帧图像搜索后选取的概率值最高的K个概率结果分别为B₁，B₂，…，B_K，那么第三帧图像中每个常用汉字的概率结果分别与第二帧图像搜索时选取的概率值最高的K个概率结果进行相乘后，将得到A₁B₁，A₁B₂，…，A₁B_K，A₂B₁，A₂B₂，…，A₂B_K，…，A_CB₁，A_CB₂，…，A_CB_K总共C*K个概率结果，则从这C*K个概率结果中选取出概率值最高的K个概率结果。

步骤S6-3、判断当前帧图像是否为测试样本的最后一帧图像，若是，则进入步骤S6-4，若否，则下一帧图像作为当前帧图像，进行步骤S6-2的处理。

步骤S6-4、针对于最后一帧搜索后获取到的概率值最高的K个概率结果中的每个概率结果，获取计算该概率结果所使用到的每帧图像中某一汉字的概率结果，即计算该概率结果是使用到的所有乘数，每个乘数分别为每帧图像中的某一汉字的概率结果，然后从第一帧图像到最后一帧图像，依次将每帧图像中的该汉字串联成该概率结果的路径。

步骤S6-5、检测步骤S6-4获取到的各概率结果的路径中是否有空字符，若有，则删除；同时检测步骤S6-4获取到的各概率结果的路径中是否有相邻的字符为重复字符，若有，则删除重复的字符。

其中图1中的虚线箭头为训练样本训练神经网络的训练过程，实线箭头为测试样本进行测试的过程。

本实施例中上述步骤S2和步骤S3中，训练样本的文本图像输入到深度卷积神经网络以及测试样本的文本图像输入到训练后的深度卷积神经网络之前先进行预处理，其中预处理的过程如下：

步骤S1-1、将输入的文本图像转换为灰度图像。

步骤S1-2、将灰度图像变形转换为某一固定高度且转换后长度和高度比值与转换前相同的场景文本图像；在本实施例中，采用双线性插值变换方法将灰度图像变形转换为某一固定高度且转换后长度和高度比值与转换前相同的场景文本图像，在本实施例中某一固定高度可以为72、64、48、32、24、16或8个像素。

步骤S1-3、使用滑动窗口水平扫描步骤S1-2获取到的场景文本图像，产生若干个窗口图像；在本实施例中，滑动窗口的大小为32×32个像素，滑动窗口移动的步长为16个像素，即相邻两个滑动窗口重叠50％。

本实施例中，深度卷积神经网络针对于输入的预处理后的训练样本的文本图像以及训练后的深度卷积神经网络针对于输入的预处理后的测试样本的文本图像的处理过程如下：

在本实施例中，如图1所述，深度卷积神经网络包括6个卷积层，其中前面五个卷积层Batch-Conv1的结构相同，如图2中所示；第6个卷积层Batch-Conv0的结构如图3所示。

在本实施例上述步骤S2和步骤S5中，解码用多层双向递归网络针对于输入的训练样本的各编码序列帧以及训练后的解码用多层双向递归网络针对于输入的测试样本的各编码序列帧的解码过程如下：

其中

e_t,j＝v^Ttanh(W₂s_t-1+Vh_j+b)，j＝t-1，t，t+1；

其中W₂,V,v和b均为可训练参数，v^T为v矩阵的转置；s_t-1为解码用多层双向递归网络中隐节点在上一时刻t-1的状态；S＝{h₀,h₁,...,h_t,...,h_T′-1}为编码序列帧的集合，集合中各元素即为各编码序列帧，T′为编码序列帧的集合中编码序列帧的总数，h₀、h₁、h_T′-1分别对应为在初始时刻即第0个时刻、第1个时刻、第T′-1个时刻需要解码的编码序列帧。

其中W₁为可训练参数；其中当t＝0时，h_t-1由相等维度的零向量进行补充；当t＝T′-1时，h_t+1由相等维度的零向量进行补充，

表示的是卷积。

步骤S2-3、根据步骤S2-2计算的当前时刻第t个时刻序列H＝{h_t-1,h_t,h_t+1}的加权卷积计算解码用多层双向递归网络中隐节点在当前时刻第t个时刻的状态：

其中y_t-1为解码用多层双向递归网络在上一个时刻第t-1个时刻的输出。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种自然场景图像中中文文本整体识别方法，其特征在于，步骤如下：

步骤S6、针对于步骤S5获取到的测试样本各帧图像中每个常用汉字为该帧图像汉字的概率结果进行集束搜索处理，通过集束搜索结果最终识别出测试样本中整体中文文本；

所述步骤S2和步骤S5中，解码用多层双向递归网络针对于输入的训练样本的各编码序列帧以及训练后的解码用多层双向递归网络针对于输入的测试样本的各编码序列帧的解码过程如下：

其中

e_t,j＝v^Ttanh(W₂s_t-1+Vh_j+b)，j＝t-1，t，t+1；

是表示卷积运算；

计算解码用多层双向递归网络中隐节点在当前时刻第t个时刻的状态s_t：

以及步骤S2-3计算的解码用多层双向递归网络中隐节点在当前时刻第t个时刻的状态s_t计算得到当前时刻第t个时刻的解码输出结果：

2.根据权利要求1所述的自然场景图像中中文文本整体识别方法，其特征在于，所述步骤S2中，当训练样本输入到神经网络中时，针对训练样本的处理过程如下：首先由神经网络中的深度卷积网络获取到训练样本的各特征序列帧；然后输入到编码用多层双向递归网络，通过编码用多层双向递归网络得到训练样本的各编码序列帧；训练样本的各编码序列帧输入到解码用多层双向递归网络中，通过解码用多层双向递归网络得到训练样本各帧图像中每个汉字的概率结果，最后输入到CTC模型中进行处理，神经网络根据CTC模型的输出即训练样本中各汉字的标签针对深度卷积网络、编码用多层双向递归网络、解码用多层双向递归网络以及CTC模型进行训练，从而得到训练后的深度卷积网络、训练后的编码用多层双向递归网络、训练后的解码用多层双向递归网络以及训练后的CTC模型。

3.根据权利要求2所述的自然场景图像中中文文本整体识别方法，其特征在于，所述步骤S2和步骤S3中，训练样本的文本图像输入到深度卷积神经网络以及测试样本的文本图像输入到训练后的深度卷积神经网络之前先进行预处理，其中预处理的过程如下：

步骤S1-1、将输入的文本图像转换为灰度图像；

4.根据权利要求3所述的自然场景图像中中文文本整体识别方法，其特征在于，所述步骤S1-2，采用双线性插值变换方法将灰度图像变形转换为某一固定高度且转换后长度和高度比值与转换前相同的场景文本图像，所述某一固定高度为72、64、48、32、24、16或8个像素。

5.根据权利要求3所述的自然场景图像中中文文本整体识别方法，其特征在于，所述步骤S1-3中，滑动窗口的大小为32×32个像素，滑动窗口移动的步长为16个像素。

6.根据权利要求1所述的自然场景图像中中文文本整体识别方法，其特征在于，所述步骤S6中，针对测试样本各帧图像中的每个概率结果进行集束搜索处理的过程具体如下：

7.根据权利要求6所述的自然场景图像中中文文本整体识别方法，其特征在于，所述K取[1，C]范围中的其中一个整数值。

8.根据权利要求7所述的自然场景图像中中文文本整体识别方法，其特征在于，常用汉字字符集的大小C为3756，常用汉字字符集中包括3755个一级常用汉字和一个空字符。

9.根据权利要求8所述的自然场景图像中中文文本整体识别方法，其特征在于，所述K取10。