CN107622271A

CN107622271A - 手写文本行提取方法及系统

Info

Publication number: CN107622271A
Application number: CN201610563053.3A
Authority: CN
Inventors: 胡雨隆; 胡金水; 竺博; 魏思
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2016-07-15
Filing date: 2016-07-15
Publication date: 2018-01-23
Anticipated expiration: 2036-07-15
Also published as: CN107622271B

Abstract

本发明公开了一种手写文本行提取方法及系统，该方法包括：接收包含手写文本的图像；利用预先构建的语义分割模型对所述图像进行语义分割，并根据语义分割结果确定各分割区域及其区域类别，所述区域类别包括：背景区域、文本行区域及文本行间隔区域；根据各分割区域的区域类别，提取文本行分割线；根据所述文本行分割线提取文本行。相较于现有技术，本发明方案不仅通用性强，而且可以有效提高文本行提取的准确性。

Description

手写文本行提取方法及系统

技术领域

本发明涉及信息处理领域，具体涉及一种手写文本行提取方法及系统。

背景技术

随着互联网技术的发展，手写文档识别迅速兴起并蓬勃发展，其应用已遍及多个领域，对人们的生活产生了较大影响，尤其是对教育领域的发展更是至关重要，如机器自动阅卷，试卷电子化等，都需要对手写文档进行版面分析，在书写工整、规范的文本中提取文本行时，可以通过设计人工特征及规则对手写文本图像中连通体进行分析、聚类得到相应文本行。所述人工特征如计算每个连通体像素点之间的距离，所述规则如将纵坐标距离的权重加大，得到的纵坐标距离较大的连通体聚到不同的类中，根据聚类结果，将聚到同一类的连通体作为一行，得到提取的文本行。然而，在实际应用中手写文本中的字体往往较随意，手写文本不规范，并且经常会存在行与行之间书写紧密，没有明显间隔，甚至会出现上一行的文本延续到下一行的情况，因此，现有的手写文本行的提取方法存在以下缺点：现有的手写文本行的提取方法需要依赖人工特征的设计，以及规则的归纳与实现，针对不同的手写文本往往需要重新设计所述人工特征及规则，通用性较差；单纯的依靠人工特征及规则很难提取到较准确的文本行。

发明内容

本发明提供一种手写文本行提取的方法及系统，以排除对人工特征及规则的依赖性，提高文本行提取方案的通用性及提取结果准确性。

为此，本发明提供如下技术方案：

一种手写文本行提取方法，包括：

接收包含手写文本的图像；

利用预先构建的语义分割模型对所述图像进行语义分割，并根据语义分割结果确定各分割区域及其区域类别，所述区域类别包括：背景区域、文本行区域及文本行间隔区域；

根据各分割区域的区域类别，提取文本行分割线；

根据所述文本行分割线提取文本行。

优选地，所述方法还包括按以下方式构建语义分割模型：

收集大量包含文本行的图像，并标注出图像中每个像素点所属区域类别；

将每张图像的像素点及每个像素点所属的区域类别作为训练数据，训练得到语义分割模型。

优选地，所述语义分割模型的输入为每张图像的像素点，输出为每个像素点属于每个区域的概率；

所述根据语义分割结果确定各分割区域及其区域类别包括：

选择当前像素点及其周围多个像素点属于每个区域类别概率之和最大的区域类别作为当前像素点所属的区域类别，所述当前像素点周围多个像素点指当前像素点前后及上下的像素点。

优选地，所述语义分割模型的输入为每张图像的像素点，输出为每个像素点所属的区域类别。

优选地，所述根据各分割区域的区域类别，提取文本行分割线包括：

在所述文本行间隔区域的每个连通域中提取水平线；

对所述水平线进行合并处理，得到初始分割线；

对所述初始分割线进行扩展，得到文本行分割线。

优选地，所述对所述水平线进行合并处理，得到初始分割线包括：

1)根据各水平线左端点的纵坐标对各水平线进行排序，将左端点纵坐标差值大于第一阈值的水平线分到不同的行中，得到每行水平线；

2)依次检测每行水平线中两个相邻水平线，检测过程包括：计算每行水平线中两个相邻水平线的间隔距离；如果所述间隔距离小于第二阈值，则将两个相邻水平线连接为一条水平线，然后返回1)；

3)检测完成后，将每行水平线作为初始分割线。

优选地，所述对所述初始分割线进行扩展，得到文本行分割线包括：

依次检查各初始分割线的左右端点是否与背景区域连接，如果不连接，则将所述初始分割线的端点作为扩展点；

计算所述扩展点与背景区域中各像素点之间的距离；

选择与所述扩展点距离最小的背景区域中的像素点作为目标点，并连接所述扩展点与所述目标点；

检查完成后，得到文本行分割线。

优选地，所述计算所述扩展点与背景区域中各像素点之间的距离包括：

选择背景区域中的当前像素点；

将所述扩展点与当前像素点连接，得到扩展线；

根据所述初始分割线与所述扩展线的夹角及所述扩展点与所述当前像素点的欧式距离计算得到所述扩展点与所述当前像素点之间的距离。

优选地，所述方法还包括：

利用动态规划方法对所述文本行分割线进行优化，得到优化后的分割线；

所述根据所述文本行分割线提取文本行具体为：根据所述优化后的分割线提取文本行。

优选地，所述利用动态规划方法对所述文本行分割线进行优化，得到优化后的分割线包括：

以所述文本行分割线为中线，上下扩展多个像素点，得到一个代价区域；

对所述代价区域的图像进行二值化处理，得到二值化代价区域图像；

在二值化代价区域图像上，利用动态规划方法计算代价区域中每个像素点作为文本行分割线中像素点的代价值；

计算结束后，从文本行分割线的右端点依次回朔遍历到左端点，选择代价值最小的像素点作为文本行分割线上的点；

遍历结束后，得到一条代价值最小的分割线，作为优化后的分割线。

优选地，所述利用动态规划方法计算代价区域中每个像素点作为文本行分割线中像素点的代价值包括：

以代价区域中每列像素点为单位，依次计算后一列中每个像素点与前一列中每个像素点之间的代价值，并且在每次计算时，依次将后一列中每个像素点作为当前像素点，计算当前像素点与其位置相近的前一列像素点之间的代价值，找到前一列像素点中与当前像素点之间的代价值最小的像素点，其中，所述与当前像素点位置相近的前一列像素点指与当前像素点的纵坐标相同的前一列的像素点及该像素点上下扩展的多个像素点。

一种手写文本行提取系统，包括：

接收模块，用于接收包含手写文本的图像；

分割模块，用于利用预先构建的语义分割模型对所述图像进行语义分割，并根据语义分割结果确定各分割区域及其区域类别，所述区域类别包括：背景区域、文本行区域及文本行间隔区域；

分割线提取模块，用于根据各分割区域的区域类别，提取文本行分割线；

文本行提取模块，用于根据所述文本行分割线提取文本行。

优选地，所述系统还包括：

模型构建模块，用于构建语义分割模型；所述模型构建模块包括：

图像收集单元，用于收集大量包含文本行的图像，并标注出图像中每个像素点所属区域类别；

训练单元，用于将每张图像的像素点及每个像素点所属的区域类别作为训练数据，训练得到语义分割模型。

所述分割模块选择当前像素点及其周围多个像素点属于每个区域类别概率之和最大的区域类别作为当前像素点所属的区域类别，所述当前像素点周围多个像素点指当前像素点前后及上下的像素点。

优选地，所述分割线提取模块包括：

水平线提取单元，用于在所述文本行间隔区域的每个连通域中提取水平线；

合并单元，用于对所述水平线进行合并处理，得到初始分割线；

扩展单元，用于对所述初始分割线进行扩展，得到文本行分割线。

优选地，所述合并单元包括：

分行子单元，用于根据各水平线左端点的纵坐标对各水平线进行排序，将左端点纵坐标差值大于第一阈值的水平线分到不同的行中，得到每行水平线；

检测子单元，用于依次检测每行水平线中两个相邻水平线，检测过程包括：计算每行水平线中两个相邻水平线的间隔距离；如果所述间隔距离小于第二阈值，则将两个相邻水平线连接为一条水平线，然后触发所述分行子单元重新对各水平线进行排序及分行操作；

初始分割线获取子单元，用于在检测完成后，将每行水平线作为初始分割线。

优选地，所述扩展单元包括：

检查子单元，用于依次检查各初始分割线的左右端点是否与背景区域连接，如果不连接，则将所述初始分割线的端点作为扩展点；

计算子单元，用于计算所述扩展点与背景区域中各像素点之间的距离；

选择子单元，用于选择与所述扩展点距离最小的背景区域中的像素点作为目标点，并连接所述扩展点与所述目标点；

文本行分割线获取子单元，用于检查完成后，得到文本行分割线。

优选地，所述计算子单元包括：

当前像素点选择子单元，用于选择背景区域中的当前像素点；

扩展线生成子，用于将所述扩展点与当前像素点连接，得到扩展线；

距离获取子单元，用于根据所述初始分割线与所述扩展线的夹角及所述扩展点与所述当前像素点的欧式距离计算得到所述扩展点与所述当前像素点之间的距离。

优选地，所述系统还包括：

优化模块，用于利用动态规划方法对所述文本行分割线进行优化，得到优化后的分割线；

所述文本行提取模块，具体用于根据所述优化后的分割线提取文本行。

优选地，所述优化模块包括：

代价区域确定单元，用于以所述文本行分割线为中线，上下扩展多个像素点，得到一个代价区域；

二值化处理单元，用于对所述代价区域的图像进行二值化处理，得到二值化代价区域图像；

代价值计算单元，用于在二值化代价区域图像上，利用动态规划方法计算代价区域中每个像素点作为文本行分割线中像素点的代价值；

遍历单元，用于计算结束后，从文本行分割线的右端点依次回朔遍历到左端点，选择代价值最小的像素点作为文本行分割线上的点；

优化结果输出单元，用于在遍历结束后，得到一条代价值最小的分割线，作为优化后的分割线。

优选地，所述代价值计算单元，具体以代价区域中每列像素点为单位，依次计算后一列中每个像素点与前一列中每个像素点之间的代价值，并且在每次计算时，依次将后一列中每个像素点作为当前像素点，计算当前像素点与其位置相近的前一列像素点之间的代价值，找到前一列像素点中与当前像素点之间的代价值最小的像素点，其中，所述与当前像素点位置相近的前一列像素点指与当前像素点的纵坐标相同的前一列的像素点及该像素点上下扩展的多个像素点。

本发明实施例提供的手写文本行提取方法及系统，首先对包含手写文本的图像进行语义分割，确定分割后图像的各分割区域的区域类别，然后在文本行间隔区域中提取文本行分割线，根据所述文本行分割线提取文本行，从而无需进行人工特征及规则的设计，提高了文本行提取方案的通用性及提取结果准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的手写文本行提取方法的一种流程图；

图2是本发明实施例中包含文本行的图像示例；

图3是本发明实施例中对包含文本行的图像进行语义分割后，确定的各分割区域的示例；

图4是本发明实施例中提取文本行分割线的流程图；

图5是本发明实施例提供的手写文本行提取方法的另一种流程图；

图6是本发明实施例中对文本行分割线进行优化的流程图；

图7是本发明实施例中像素点之间代价值的计算过程示意图；

图8是本发明实施例提供的手写文本行提取系统的一种结构示意图；

图9是本发明实施例中分割线提取模块的一种结构示意图；

图10是本发明实施例中优化模块的一种结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

在本发明实施例提供的手写文本行提取方法及系统，主要针对离线手写文本中文本行的提取，所述离线手写文本指无法获取到书写文本时的时序信息的文本，如无法获取到书写每个字的开始结束时间，只能通过对包含手写文本的图像进行分析来提取文本行。所述离线手写文本如学生在试卷上写的作文、在非电子板上写的文本等，所述文本行指手写文本排列的行。

如图1所示，是本发明实施例提供的手写文本行提取方法的流程图，包括以下步骤：

步骤101，接收包含手写文本的图像。

所述图像一般由多个区域组成，如背景区域、文本行区域及文本行间隔区域。其中，所述文本行区域为图像中包含文本的区域，如图2包含手写文本行的图像示例。

所述图像可以通过摄像机、高拍仪等摄像设备对用户的手写文本进行拍摄得到，如对用户的考试作文进行拍摄，得到相应包含文本行的图像。

步骤102，利用预先构建的语义分割模型对所述图像进行语义分割，得到各分割区域的区域类别，所述区域类别包括：背景区域、文本行区域及文本行间隔区域。

对图像进行语义分割主要是根据图像中像素点的分布，将图像分割为三种类别的区域，即背景区域、文本行区域及文本行间隔区域。

在本发明实施例中，可以预先构建语义分割模型，利用该语义分割模型对图像进行分割。所述语义分割模型的构建可以通过收集大量包含文本行的图像，人工标注出图像中每个像素点所属区域类别，然后将每张图像的像素点及每个像素点所属的区域类别作为训练数据，训练得到语义分割模型。

所述语义分割模型可以采用模式识别常见分类模型描述，如卷积神经网络模型、SVM(支持向量机)模型等，其输入为每张图像的像素点，输出为每个像素点属于每个区域类别的概率或者为每个像素点所属的区域类别。

如果模型的输出是每个像素点属于每个区域类别的概率，则为了准确确定每个像素点的所属区域类别，可以在确定每个像素点所属区域类别时，不仅要考虑该像素点属于每个区域类别的概率，还要考虑该像素点周围的多个像素点属于相应区域类别的概率，选择当前像素点及其周围多个像素点属于每个区域类别概率之和最大的区域类别作为当前像素点所属的区域类别，所述当前像素点周围多个像素点指当前像素点前后及上下的像素点。

假设当前像素点周围像素点的滑动窗口为n，则确定当前像素点的所属区域类别时，需要考虑当前像素点及其前后上下各个像素点属于每个区域类别的概率，选择当前像素点及其前后上下各个像素点属于每个区域类别概率和最大的区域类别，作为当前像素点所属的区域类别，如式(1)所示：

其中，L_ij表示图像上第i行第j列像素点所属的区域类别，选择第i行第j列像素点及其前后上下各个像素点属于每个区域类别概率和最大的区域类别作为其所属区域类别，c_k表示第k个区域类别，共3种区域类别，Λ(P_ij＝＝c_k)表示P_ij为第i行第j列像素点属于第k个区域类别的概率时，函数取值为1，否则，函数取值为0。

如图3为对图2所示图像进行语义分割后，确定的各分割区域的区域类别，其中黑色区域为背景区域、灰色区域为文本行区域、灰色区域之间的白色区域为文本行间隔区域。

步骤103，根据各分割区域的区域类别，提取文本行分割线。

所述文本行分割线是指将两行文本行分割开的线。分割线提取时，先以文本行区域的中间水平线为标准提取相应水平线，对提取的水平线进行合并处理后，得到初始分割线，然后对初始行分割线进行扩展，得到文本行分割线。具体过程将在后面详细说明。

步骤104，根据所述文本行分割线提取文本行。

具体地，分割线与背景包围的就是文本行，此处使用掩膜、轮廓就可以将文本行提取出来，如将分割线与背景区域的像素值置0，其它区域的像素值置1，得到掩膜图，再提取掩膜图的轮廓，每个轮廓即对应了一个文本行，再根据提取的文本行的位置进行排序，得到最终提取的文本行，具体提取过程与现有技术相同，在此不再详述。

下面进一步对本发明实施例中文本行分割线的提取过程进行详细说明。

如图4所示，是本发明实施例中提取文本行分割线的流程图，包括以下步骤：

步骤401，在文本行间隔区域的每个连通域中提取水平线。

具体地，在确定的文本行间隔区域中，依次在所述间隔区域中的每个连通域中沿水平方向提取水平线。

步骤402，对提取的水平线进行合并处理，得到初始分割线。

由于在步骤401中提取的水平线经常存在断裂或缺失的现象，因此需要对所述水平线进行合并处理，具体合并过程如下：

1)根据各水平线左端点的纵坐标对各水平线进行排序，将左端点纵坐标差值大于第一阈值(比如，所述阈值为10个像素点)的水平线分到不同的行中，得到每行分割线；

2)依次检测每行水平线中两个相邻水平线，检测过程包括：计算每行水平线中两个相邻水平线的间隔距离，即计算左水平线的右端点的横坐标与右水平线的左端点的横坐标之间的距离(如欧式距离)；如果所述间隔距离小于第二阈值(比如，所述阈值为10个像素点)，则将两个相邻水平线合并，即将这两个相邻水平线连接为一条水平线，具体地，将左水平线的右端点与右水平线的左端点连接，然后返回1)；

3)检测完成后，将每行水平线作为初始分割线。

步骤403，对所述初始分割线进行扩展，得到文本行分割线。

由于在手写文本中，第一行的手写文本有可能延续到第二行，如图2中手写文本“可是我却做了一些伤他心的事情”中的“却”字，从第二行延续到了第三行，导致文本行之间无法直接分割开，文本行间隔区域不是连通的，如果“却”字之后未提取出分割线，则会导致得到的初始分割线不能完全将两个文本行分割开，即分割线只到“却”字，而“却”字后面没有分割线，未被分割线分开，从而导致合并后的分割线并未到达背景区域，因此，针对这种分割线的开头或结尾未到达背景区域的情况，在本实施例中，需要进一步对初始分割线进行扩展，具体扩展过程如下所述：

1)依次检查各初始分割线的左右端点是否与背景区域连接，如果不连接，则将所述初始分割线的端点作为扩展点；

所述初始分割线的左右端点与背景区域连接是指初始分割线的左右端点与背景区域中像素点相邻；

需要说明的是，所述扩展点可以同时为分割线的左右端点，也可以单独为左端点或单独为右端点；

2)计算所述扩展点与背景区域中各像素点之间的距离；

具体计算时，需要依次选取背景区域中的各像素点，根据分割线左右端点坐标及背景区域中像素点坐标计算扩展点与背景区域像素点之间的距离，首先将扩展点与背景区域中像素点连接，得到扩展线；然后计算所述扩展点与所述像素点之间的距离，所述距离可以根据初始分割线与所述扩展线的夹角及扩展点与背景区域中像素点的欧式距离计算得到，具体计算如式(2)所示：

其中，A(x₁,y₁)、B(x₂,y₂)为分割线的左右端点坐标，右端点B为扩展点，为扩展线，C(x₃,y₃)为背景区域中像素点坐标，d(A(x₁,y₁),B(x₂,y₂),C(x₃,y₃))表示初始分割线的扩展点B与背景区域中像素点C之间的距离，为初始分割线与扩展线夹角的正弦值的平方，λ为调整权重的超参数，用于调节分割线与扩展线的夹角对扩展点与背景区域中像素点距离的影响，具体取值可以根据应用需求或实验结果确定，函数具体计算方法如式(3)所示：

3)选择与所述扩展点距离最小的背景区域中的像素点作为目标点，并将所述扩展点与所述目标点直接连接，完成分割线的扩展；

4)检查完成后，得到文本行分割线。

可见，本发明实施例提供的手写文本行提取方法，首先对包含手写文本的图像进行语义分割，确定分割后图像的各分割区域的区域类别，然后在文本行间隔区域中提取文本行分割线，根据所述文本行分割线提取文本行，从而无需进行人工特征及规则的设计，提高了文本行提取方案的通用性及提取结果准确性。

进一步地，在进行文本行分割线提取时，首先在文本行间隔区域的每个连通域中提取水平线，对提取的水平线进行合并处理，得到初始分割线，然后，针对初始分割线的左右端点与背景区域不连接的情况，对分割线的端点进行扩展，从而保证了分割线的完整，进一步提高了文本行提取的准确性。

在实际应用中，考虑到手写文本笔迹的随意性，还可以利用动态规划方法对提取的文本行分割线进行优化，使优化后的分割线与实际随意性的笔迹更适配，进而可以使提取的文本行更准确，具体如图5所示实施例。

如图5所示，是本发明实施例提供的手写文本行提取方法的另一种流程图。

其中，步骤501至步骤503与图1中的步骤101至步骤103相同，在此不再详细描述。

与图1所示实施例不同的是，在该实施例中，还进一步包括步骤504，利用动态规划方法对所述文本行分割线进行优化，得到优化后的分割线。

相应地，在步骤505中，根据所述优化后的分割线提取文本行。

如图6所示，是本发明实施例中利用动态规划方法对文本行分割线进行优化的流程图，包括以下步骤：

步骤601，以文本行分割线为中线，上下扩展多个像素点，得到一个代价区域。

上下扩展的像素点个数可以根据手写笔迹或实际应用需求预先确定。

步骤602，对所述代价区域的图像进行二值化处理，得到二值化代价区域图像。

二值化过程与现有技术相同，在此不再详述。二值化代价区域图像包含前景像素点和背景像素点。

步骤603，在二值化代价区域图像上，利用动态规划方法计算代价区域中每个像素点作为文本行分割线中像素点的代价值。

具体计算时，以每列像素点为单位，依次计算后一列中每个像素点与前一列中每个像素点之间的代价值。每次计算时，依次将后一列中每个像素点作为当前像素点，计算当前像素点与其位置相近的前一列像素点之间的代价值，找到前一列像素点中与当前像素点之间的代价值最小的像素点。

其中，所述与当前像素点位置相近的前一列像素点指与当前像素点的纵坐标相同的前一列的像素点及该像素点上下扩展的多个像素点，具体扩展的像素点数可以根据实际应用需求确定，如上下扩展2个像素点。

当后一列中所有像素点找到前一列像素点中代价值最小的像素点后，再依次向后计算，直到代价区域中最后一列像素点找到前一列像素点中代价值最小的像素点为止。计算结束后，得到代价区域中每个像素点与其前后列中像素点之间代价值最小的像素点。

初始计算时，为了保证分割线的左端点不变，直接将第二列中与第一列分割线左端点位置相近的像素点之间的代价值设为0，所述与分割线左端点位置相近的第二列像素点指与左端点纵坐标相同的像素点及该像素点上下扩展的多个像素点，如上下扩展2个像素点，第二列中其它像素点与第一列中像素点之间的代价值设为无穷大，依次向后计算代价值。

所述像素点之间代价值的计算公式如式(4)所示：

其中，C(x_j,y_j)表示第j列当前像素点与其前一列即j-1列位置相近像素点之间的最小代价值；a表示第j-1列像素点中与当前像素点纵坐标相同及上下扩展的像素点的纵坐标，l表示所述上下扩展的像素点数；f(x_j-1)表示第j-1列在分割线上的像素点的纵坐标，α和β为权重系统，具体取值可以根据应用需求确定；g((x_j,y_j),(x_j-1,a))表示与第j列当前像素点位置相近的第j-1列像素点是前景像素点(二值化图像中的前景像素点)的总数，具体计算方法如式(5)所示：

其中，p(x_j-1,k)表示第j-1列纵坐标为k的像素点的像素类别，所述像素类别为二值化图像中像素点所属的类别，共两种，即前景像素或背景像素；background表示二值化图像中像素点的像素类别为背景像素；函数Λ(p(x_j-1,k)！＝background)表示第j-1列纵坐标为k的像素点的像素类别不是背景像素时，取值为1；否则，取值为0。

如图7为像素点之间代价值的计算过程，假设当前计算的是第二列像素点与第一列像素点之间的代价值，当前像素点为C点，则依次计算与C点位置相近的第一列中像素点，所述与C点位置相近的点指与C点纵坐标相同的第一列中像素点，即A点，及其上下扩展的像素点，如上下各扩展两个像素点，具体计算方法如公式(4)所示，选择代价值最小的第一列中像素点作为与当前像素点代价值最小的像素点。当第二列中所有像素点计算结束后，再移到后一列继续计算其与前一列像素点之间的代价值，直到最后一列像素点计算结束，得到代价区域中每个像素点与其前后列中代价最小的像素点。

步骤604，计算结束后，从文本行分割线的右端点依次回朔遍历到左端点，选择代价值最小的像素点作为文本行分割线上的点。

根据所述代价值，从分割线的右端点依次回朔遍历，每次选择代价值最小的像素点作为分割线上的点，直到遍历到分割线的左端点。

步骤605，遍历结束后，得到一条代价值最小的分割线，作为优化后的分割线。

如图7中，代价值计算结束后，从分割线的右端点依次回朔遍历，所述右端点如B点，每次选择代价值最小的像素点作为分割线上的点，直接遍历到分割线的左端点，如A点，得到一条代价值最小的分割线，作为优化后的分割线。

通过上述优化过程，可以使优化后的分割线更与实际随意性的笔迹更适配，进而可以使提取的文本行更准确。

相应地，本发明实施例还提供一种手写文本行提取系统，如图8所示，是该系统的一种结构示意图，包括：

接收模块801，用于接收包含手写文本的图像；

分割模块802，用于利用预先构建的语义分割模型800对所述图像进行语义分割，并根据语义分割结果确定各分割区域及其区域类别，所述区域类别包括：背景区域、文本行区域及文本行间隔区域；

分割线提取模块803，用于根据各分割区域的区域类别，提取文本行分割线；

文本行提取模块804，用于根据所述文本行分割线提取文本行。

在实际应用中，所述语义分割模型可以由相应的模型构建模块采用离线方式构建，所述模型构建模块可以作为一个独立的实体，也可以作为本发明系统的一部分，对此本发明实施例不做限定。所述模型构建模块的一种具体结构可以包括：图像收集单元和训练单元。其中，所述图像收集单元用于收集大量包含文本行的图像，并标注出图像中每个像素点所属区域类别；所述训练单元用于将每张图像的像素点及每个像素点所属的区域类别作为训练数据，训练得到语义分割模型。所述语义分割模型具体可以采用模式识别常见分类模型描述，如卷积神经网络模型、SVM(支持向量机)模型等，其输入为每张图像的像素点，输出为每个像素点属于每个区域类别的概率或者为每个像素点所属的区域类别。

在所述语义分割模型的输出为每个像素点属于每个区域的概率时，所述分割模块可以选择当前像素点及其周围多个像素点属于每个区域类别概率之和最大的区域类别作为当前像素点所属的区域类别，所述当前像素点周围多个像素点指当前像素点前后及上下的像素点。

如图9所示，是本发明实施例中分割线提取模块的一种结构示意图，包括以下各单元：

水平线提取单元91，用于在所述文本行间隔区域的每个连通域中提取水平线；

合并单元92，用于对所述水平线进行合并处理，得到初始分割线；

扩展单元93，用于对所述初始分割线进行扩展，得到文本行分割线。

其中，所述合并单元92具体可包括以下各子单元：

其中，所述扩展单元93具体可包括以下各子单元：

计算子单元，用于计算所述扩展点与背景区域中各像素点之间的距离，具体计算过程可参照前面本发明方法实施例中的描述；

上述计算子单元具体可以包括以下各子单元：

本发明实施例提供的手写文本行提取系统，首先对包含手写文本的图像进行语义分割，确定分割后图像的各分割区域的区域类别，然后在文本行间隔区域中提取文本行分割线，根据所述文本行分割线提取文本行，从而无需进行人工特征及规则的设计，提高了文本行提取方案的通用性及提取结果准确性。

在实际应用中，考虑到手写文本笔迹的随意性，还可进一步在本发明系统中设置优化模块，用于利用动态规划方法对所述文本行分割线进行优化，得到优化后的分割线，使优化后的分割线与实际随意性的笔迹更适配。相应地，文本行提取模块804根据所述优化后的分割线提取文本行，可以使提取的文本行更准确。

图10是本发明实施例中优化模块的一种结构示意图，包括以下各单元：

代价区域确定单元11，用于以文本行分割线为中线，上下扩展多个像素点，得到一个代价区域；

二值化处理单元12，用于对所述代价区域的图像进行二值化处理，得到二值化代价区域图像；

代价值计算单元13，用于在二值化代价区域图像上，利用动态规划方法计算代价区域中每个像素点作为文本行分割线中像素点的代价值，具体计算过程可参照前面本发明方法实施例中的描述；

遍历单元14，用于计算结束后，从文本行分割线的右端点依次回朔遍历到左端点，选择代价值最小的像素点作为文本行分割线上的点；

优化结果输出单元15，用于在遍历结束后，得到一条代价值最小的分割线，作为优化后的分割线。

所述代价值计算单元13具体以代价区域中每列像素点为单位，依次计算后一列中每个像素点与前一列中每个像素点之间的代价值，并且在每次计算时，依次将后一列中每个像素点作为当前像素点，计算当前像素点与其位置相近的前一列像素点之间的代价值，找到前一列像素点中与当前像素点之间的代价值最小的像素点，其中，所述与当前像素点位置相近的前一列像素点指与当前像素点的纵坐标相同的前一列的像素点及该像素点上下扩展的多个像素点。

利用上述优化模块，可以使优化后的分割线更与实际随意性的笔迹更适配，进而可以使文本行提取模块804提取的文本行更准确。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及系统；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种手写文本行提取方法，其特征在于，包括：

接收包含手写文本的图像；

根据各分割区域的区域类别，提取文本行分割线；

根据所述文本行分割线提取文本行。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括按以下方式构建语义分割模型：

3.根据权利要求2所述的方法，其特征在于，所述语义分割模型的输入为每张图像的像素点，输出为每个像素点属于每个区域的概率；

所述根据语义分割结果确定各分割区域及其区域类别包括：

4.根据权利要求2所述的方法，其特征在于，所述语义分割模型的输入为每张图像的像素点，输出为每个像素点所属的区域类别。

5.根据权利要求1所述的方法，其特征在于，所述根据各分割区域的区域类别，提取文本行分割线包括：

在所述文本行间隔区域的每个连通域中提取水平线；

对所述水平线进行合并处理，得到初始分割线；

对所述初始分割线进行扩展，得到文本行分割线。

6.根据权利要求5所述的方法，其特征在于，所述对所述水平线进行合并处理，得到初始分割线包括：

3)检测完成后，将每行水平线作为初始分割线。

7.根据权利要求5所述的方法，其特征在于，所述对所述初始分割线进行扩展，得到文本行分割线包括：

计算所述扩展点与背景区域中各像素点之间的距离；

检查完成后，得到文本行分割线。

8.根据权利要求7所述的方法，其特征在于，所述计算所述扩展点与背景区域中各像素点之间的距离包括：

选择背景区域中的当前像素点；

将所述扩展点与当前像素点连接，得到扩展线；

9.根据权利要求1至8任一项所述的方法，其特征在于，所述方法还包括：

10.根据权利要求9所述的方法，其特征在于，所述利用动态规划方法对所述文本行分割线进行优化，得到优化后的分割线包括：

11.根据权利要求10所述的方法，其特征在于，所述利用动态规划方法计算代价区域中每个像素点作为文本行分割线中像素点的代价值包括：

12.一种手写文本行提取系统，其特征在于，包括：

接收模块，用于接收包含手写文本的图像；

文本行提取模块，用于根据所述文本行分割线提取文本行。

13.根据权利要求12所述的系统，其特征在于，所述系统还包括：

14.根据权利要求13所述的系统，其特征在于，所述语义分割模型的输入为每张图像的像素点，输出为每个像素点属于每个区域的概率；

15.根据权利要求13所述的系统，其特征在于，所述语义分割模型的输入为每张图像的像素点，输出为每个像素点所属的区域类别。

16.根据权利要求12所述的系统，其特征在于，所述分割线提取模块包括：

17.根据权利要求16所述的系统，其特征在于，所述合并单元包括：

18.根据权利要求16所述的系统，其特征在于，所述扩展单元包括：

19.根据权利要求18所述的系统，其特征在于，所述计算子单元包括：

20.根据权利要求12至19任一项所述的系统，其特征在于，所述系统还包括：

21.根据权利要求20所述的系统，其特征在于，所述优化模块包括：

22.根据权利要求21所述的系统，其特征在于，

所述代价值计算单元，具体以代价区域中每列像素点为单位，依次计算后一列中每个像素点与前一列中每个像素点之间的代价值，并且在每次计算时，依次将后一列中每个像素点作为当前像素点，计算当前像素点与其位置相近的前一列像素点之间的代价值，找到前一列像素点中与当前像素点之间的代价值最小的像素点，其中，所述与当前像素点位置相近的前一列像素点指与当前像素点的纵坐标相同的前一列的像素点及该像素点上下扩展的多个像素点。