CN109241904A

CN109241904A - 文字识别模型训练、文字识别方法、装置、设备及介质

Info

Publication number: CN109241904A
Application number: CN201811008806.XA
Authority: CN
Inventors: 黄春岑
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-08-31
Filing date: 2018-08-31
Publication date: 2019-01-18
Anticipated expiration: 2038-08-31
Also published as: CN109241904B

Abstract

本发明公开了一种文字识别模型训练、文字识别方法、装置、设备及介质，所述方法包括：获取原始图片集，采用图像检测算法获取原始图片集的手写体文字区域；采用文本线构造算法将每一原始图片的手写体文字区域合并成文本线；将每一原始图对应的文本线组合成单行文字图片集；将单行文字图片集输入YOLO神经网络模型中进行训练，得到手写体文字识别模型。通过从手写体文字区域中获取单行文字图片集，扩大了样本集，同时减少其他文字区域的干扰，进而提高后续的手写体文字模型的识别准确率。而且将单行文字图片集输入YOLO神经网络模型中进行训练，由于YOLO神经网络模型结构简单，运算复杂度较低，使得手写体文字识别模型的训练效率得到了极大的提高。

Description

文字识别模型训练、文字识别方法、装置、设备及介质

技术领域

本发明涉及人工智能领域，尤其涉及一种文字识别模型训练、文字识别方法、装置、设备及介质。

背景技术

手写体文字是一种手工写出的文字，由于不同人手工写出来的字体大小和风格都会有区别，导致手写体文字形式多样性，考虑到它的一些特性，譬如字迹潦草、字体连笔或字体大小不一等，增加了手写体文字识别的难度，使得手写体文字的识别率非常低。

传统地，对手写体文字进行识别往往是预先进行笔画或部件的提取，并需要人工干预保证提取结果的正确性，但是由于手写体文字的多样性，很难准确提取到各种风格的手写体文字的特征，而且因手写体文字本身的风格多样，因此需要提取的文字特征数量较多，难以达到文字识别系统要求的识别的准确度和速度。

发明内容

本发明实施例提供一种文字识别模型训练方法、装置、计算机设备及存储介质，以解决手写体文字识别模型训练效率较低的问题。

本发明实施例提供一种文字识别方法、装置、计算机设备及存储介质以解决手写体文字识别的准确度和速度不高的问题。

一种文字识别模型训练方法，包括：

获取原始图片集，采用图像检测算法获取所述原始图片集中的的每一原始图片的手写体文字区域；

采用文本线构造算法将所述每一原始图片的手写体文字区域合并成文本线；

将所述每一原始图对应的文本线组合成单行文字图片集；从所述手写体文字区域中获取单行文字图片集；

将所述单行文字图片集输入YOLO神经网络模型中进行训练，得到手写体文字识别模型。

一种文字识别模型训练装置，包括：

文字区域获取模块，用于获取原始图片集，采用图像检测算法获取所述原始图片集中的每一原始图片的手写体文字区域；

文本线构造模块，用于采用文本线构造算法将所述每一原始图片的手写体文字区域合并成文本线；

单行文字图片集获取模块，将所述每一原始图对应的文本线组合成单行文字图片集；

文字识别模型获取模块，用于将所述单行文字图片集输入YOLO神经网络模型中进行训练，得到手写体文字识别模型。

一种文字识别方法，包括：

获取待识别手写体文字图片，采用图像检测算法获取所述待识别手写体文字图片的待识别文字区域；

从所述待识别文字区域中获取待识别单行文字图片；

将所述待识别单行文字图片输入到所述文字识别模型训练方法训练得到的手写体文字识别模型进行识别，获取所述待识别单行文字图片的文字识别结果。

一种文字识别装置，包括：

待识别文字区域获取模块，用于获取待识别手写体文字图片，采用图像检测算法获取所述待识别手写体文字图片的待识别文字区域；

单行文字图片获取模块，用于从待识别文字区域中获取待识别单行文字图片；

文字识别结果获取模块，用于将所述待识别单行文字图片输入到所述文字识别模型训练方法训练得到的手写体文字识别模型进行识别，获取所述待识别单行文字图片的文字识别结果。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述文字识别模型训练方法的步骤，或者，所述处理器执行所述计算机程序时实现上述文字识别方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述文字识别模型训练方法的步骤，或者，所述处理器执行所述计算机程序时实现上述文字识别方法的步骤。

上述文字识别模型训练方法、装置、设备及介质中，首先获取原始图片集，采用图像检测算法获取原始图片集的手写体文字区域，以便后续更加高效地对手写体文字进行处理。然后采用文本线构造算法将每一原始图片的手写体文字区域合并成文本线；将每一原始图对应的文本线组合成单行文字图片集，扩大了样本集，同时减少其他文字区域的干扰，进而提高后续的手写体文字模型的识别准确率。最后将单行文字图片集输入YOLO神经网络模型中进行训练，由于YOLO神经网络模型结构简单，运算复杂度较低，使得手写体文字识别模型的训练效率得到了极大的提高。

上述文字识别方法、装置、设备及介质中，首先获取待识别手写体文字图片，然后采用图像检测算法获取待识别手写体文字图片的待识别文字区域。然后，从待识别文字区域中获取待识别单行文字图片，减少其他文字区域的干扰，进而提高了后续的手写体文字识别准确率。最后，将待识别单行文字图片输入到手写体文字识别模型中进行识别，提高了待识别手写体文字图片的文字识别准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的文字识别模型训练方法、文字识别方法的应用环境示意图；

图2是本发明实施例提供的文字识别模型训练方法一示例图；

图3是本发明实施例提供的文字识别模型训练方法的另一示例图；

图4是本发明实施例提供的文字识别模型训练方法的另一示例图；

图5是本发明实施例提供的文字识别模型训练方法的另一示例图；

图6是本发明实施例提供的文字识别模型训练装置的一原理框图；

图7是本发明实施例提供的文字识别方法一示例图；

图8是本发明实施例提供的文字识别装置的一原理框图；

图9是本发明实施例提供的计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提供的文字识别模型训练方法，可应用在如图1的应用环境中，其中，客户端通过网络与服务端进行通信，服务端接收客户端发送的原始图片集，并对该原始图片集进行检测，得到手写体文字区域，接着对手写体文字区域进行处理，得到单行文字图片集，进而将单行文字图片集输入到YOLO神经网络模型中进行训练，得到手写体文字识别模型。其中，客户端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，以该方法应用于图1中的服务端为例进行说明，包括如下步骤：

S10：获取原始图片集，采用图像检测算法获取原始图片集中的每一原始图片的手写体文字区域。

其中，原始图片集是指包含有手写体文字的图片组成的集合。手写体文字区域是指对每一原始图片的手写体文字进行框选标注的区域。手写体文字区域可以是整页的文字区域、表格中的单元格区域或文稿中指定的文字区域。可选地，手写体文字区域的图像一般采用bmp文件格式。

图像检测算法是指对给定的包含有手写体文字的图片中定位出手写体文字所在的区域，以得到手写体文字区域。可选地，该手写体文字区域为一矩形框。例如：一幅包含有手写体文字的原始图像，通过图像检测算法框选出包含有手写体文字的图片的手写体文字区域，包含有手写体文字的图片中非文字区域(如空白背景)不做考虑。其中，图像检测算法可以是dlib图像检测算法也可以是opencv库图像检测算法，还可以是基于深度学习的图像检测算法。

优选地，本实施例中采用基于深度学习的图像检测算法对原始图像集进行检测，分析出手写体文字的文字区域。通过获取手写体文字区域，以便后续更加高效地对手写体文字进行处理。

S20：采用文本线构造算法将每一原始图片的手写体文字区域合并成文本线。

其中，文本线构造算法是指对文本的候选区域构造出文本线的算法。

其中，文本线指字符、字符的一部分或者多字符的序列。可以理解地，同一文本线上不同手写体文字可以互相利用上下文即文字的语义进行分析，如此，为手写体文字识别增加更多有效信息，有利于提高后续的手写体文字识别模型的识别的准确度。

S30：将每一原始图对应的文本线组合成单行文字图片集。

具体地，根据文本线将两个位置接近的手写体文字区域组成一个区域文字组合，然后合并不同的文字组合直到无法再合并为止(即没有公共手写体文字区域)，得到单行文字图片集。根据文本的文本线，将文字进行划分，获取到单行文字，减少其他区域文字对识别的干扰。可以理解地，对于一个文本线，同一文本线上不同手写体文字差异大，空间距离远，要作为一个整体识别出来比单个目标难度更大。因此，预测手写体文字区域的竖直位置(上下边界)比水平位置(左右边界)更容易，因此，单行文字图像更利于手写体文字的识别。

其中，单行文字图片集是指单行手写体文字图片组成的集合，用于作为手写体文字识别模型进行训练和检测识别的图片集。可以理解地，对手写体文字区域划分后得到的是单行文字图片。如此，可以扩大样本集，同时减少其他文字区域的干扰，进而提高了后续的手写体文字识别模型的识别准确率。

具体地，从手写体文字区域中获取单行文字图片集具体作法是对手写体文字区域进行连通区域搜索，然后整合可能为手写体文字的区域，得到单行文字图。具体实现方法包括但不限于：文本线构造算法和文本搜索算法等。其中，文本线构造算法是通过构造文本线对手写体文字区域进行整合算法。文本搜索算法是通过搜索邻近区域对手写体文字区域进行整合算法进行整合的算法。

本实施例中，采用文本线构造算法将手写体文字区域合并成文本线，通过文本线可以使得手写体文字可以互相利用上下文进行语义分析。基于文本线获取单行文字图片集，更利于手写体文字的识别。

S40：将单行文字图片集输入YOLO神经网络模型中进行训练，得到手写体文字识别模型。

其中，YOLO神经网络模型是指基于端到端(end-to-end)的图像定位识别网络模型，YOLO神经网络模型将图像检测识别作为回归问题求解。具体地，基于一个单独的端到端的神经网络，完成从原始图像的输入到物体位置和类别的输出。

其中，手写体文字识别模型是指用于对手写体文字进行识别的网络模型。具体地，手写体文字识别模型是通过对YOLO神经网络模型进行训练得到的，因此，手写体文字识别模型将手写体文字识别作为一个回归问题进行求解。输入单行文字图像集到手写体文字识别模型，便能得到单行文字图像集中所有手写体文字的位置和其所属类别相应的置信概率。例如，一单行文字图像上有一行字为“文字识别”，将这幅图像输入到手写体文字识别模型中，会输出如下信息：单行文字图像的第一个区域(一个矩形区域)是“文”字，识别率为88.6％，单行文字图像的第二个区域(一个矩形区域)是“字”字，识别率为92.6％，单行文字图像的第三个区域(一个矩形区域)是“识”字，识别率为90.3％，单行文字图像的第四个区域(一个矩形区域)是“别”字，识别率为94.8％。

具体地，将单行文字图片集输入YOLO神经网络模型中进行训练，在YOLO神经网络模型中对单行文字图片进行网络预测，得到手写体文字识别模型。

可以理解地，YOLO神经网络模型无需区域生成，直接在整个输入图像中回归预测目标，并且，YOLO神经网络模型结构简单，运算复杂度较低，因此，将单行文字图像集输入到YOLO神经网络模型中进行训练得到的手写体文字识别模型，极大提高了手写体文字识别模型的训练效率。

本实施例中，首先获取原始图片集，采用图像检测算法获取原始图片集的手写体文字区域，以便后续更加高效地对手写体文字进行处理。然后采用文本线构造算法将每一原始图片的手写体文字区域合并成文本线；将每一原始图对应的文本线组合成单行文字图片集，扩大了样本集，同时减少其他文字区域的干扰，进而提高后续的手写体文字模型的识别准确率。最后将单行文字图片集输入YOLO神经网络模型中进行训练，由于YOLO神经网络模型结构简单，运算复杂度较低，使得手写体文字识别模型的训练效率得到了极大的提高。

在一实施例中，如图3所示，步骤S20中，采用文本线构造算法将手写体文字区域合并成文本线，包括：

S21：获取每一原始图片的手写体文字区域的坐标(X_i,Y_i)，其中i为正整数，X_i和Y_i分别为第i个手写体文字区域的横坐标和纵坐标。

其中，手写体文字区域的坐标是指手写体文字区域中一预定位置对应的坐标数值，例如，将每一手写体文字区域左上角位置的坐标的数值作为每一手写体文字区域的坐标(X_i,Y_i)。通过获取到手写体文字区域_i的坐标(X_i,Y_i)作为手写体文字区域进行整合的依据。

S22：对于每一手写体文字区域，计算该手写体文字区域横坐标X_i与相邻的手写体文字区域横坐标之间的距离，得到横向距离，并计算该手写体文字区域纵坐标Y_i与相邻的手写体文字区域纵坐标之间的距离，得到纵向距离。

其中，横向距离是指相邻两个手写体文字区域的横坐标之间的距离。可以理解地，与手写体文字区域横坐标X_i相邻的手写体文字区域横坐标为X_i-1或_Xi+1，与手写体文字区域纵坐标Y_i相邻的手写体文字区域纵坐标为Y_i-1或Y_i+₁。例如横向距离是|X_i-1-X_i|和|X_i+1-X_i|。纵向距离是指相邻两个手写体文字区域的纵坐标之间的距离，例如纵向距离是|Y_i-1-Y_i|和|Y_i+1-Y_i|。需要说明的是，第一个手写体文字区域和最后一个手写体文字区域均只有一个相邻的手写体文字区域，即与第一个手写体文字区域坐标(X₁,Y₁)相邻的手写体文字区域坐标为(X₂,Y₂)，也即与最后一个手写体文字区域坐标(X_m,Y_m)相邻的手写体文字区域坐标为(X_m-1,Y_m-1)，其中，m为手写体区域的总个数，m为正整数。如此，对于第一个手写体文字区域和最后一个手写体文字区域，在计算横向横向距离和纵向距离时，均只需要进行一次计算。

S23：若横向距离小于或等于第一阈值且纵向距离小于或等于第二阈值，则对手写体文字区域和对应的相邻的手写体文字区域进行合并，得到整合区域。

其中，第一阈值是指两个手写体文字区域进行整合的横向距离的临界值。其中，第二阈值是指两个手写体文字区域进行整合的纵向距离的临界值。在一具体实施方式中，第一阈值为手写体区域中单个手写体文字的宽度，第一阈值为手写体区域中单个手写体文字的高度，例如，单个手写体文字大小为1cm×1cm，此时，第一阈值为1cm，第二阈值为1cm。其中，整合区域是指将两个手写体文字区域进行组合后得到一块区域。

可以理解地，相邻两个手写体文本区域横向距离越小且纵向距离也越小，越容易满足两个区域形成一个文本线的条件，当两个手写体文本区域的横向距离大于第一阈值或者纵向距离大于第二阈值时，这两个手写体文字区域越分散，因此合并成文本线的可能性越小。通过计算手写体文字区域横向距离和纵向距离作为两个手写体文字区域进行组合的条件，更有利于得到较为准确的文字区域。

S24:将整合区域连接成成文本线。

具体地，将每个整合区域进行连接合并，构成文本线。可以理解地，由于整合区域中的手写体文本区域的横向距离距离最小且小于等于第一阈值，并且纵向距离最小且小于等于第二阈值，该文本线更加准确。示例性地，对于手写体文本区域A、B和C，若在步骤S213中将手写体文本区域A和B进行整合，得到整合区域，并将手写体文本区域B和C进行整合，得到另一个整合区域。则在该步骤中，会将这两个整合区域连接成成文本线。

本实施例中，通过计算比较每个手写体文字区域的横向距离和纵向距离获取文本线，使得文本线更加准确，以便后续通过文本线准确获取单行文字图片集。

在一实施例中，如图4所示，步骤S40中，将单行文字图片集输入YOLO神经网络模型中进行训练，得到手写体文字识别模型，包括：

S41：使用ImageNet数据集对YOLO神经网络模型进行预训练，获取YOLO神经网络模型的卷积层的网络参数。

其中，Imagenet数据集是指一个用于视觉对象识别软件研究的大型可视化数据库中的数据集合。其中，Imagenet数据集包含有1400多万幅图片，涵盖2万多个类别。其中有超过百万的图片有明确的类别标注和图像中物体位置的标注，用于作为图像分类、定位和检测。

其中，网络参数是指YOLO神经网络模型的网络结构各个卷积层的参数，用于使用卷积层的网络参数替代YOLO神经网络的全连接层，使用YOLO神经网络模型进行预训练手写体文字识别模型方便，仅仅只需要将配置文件中的类别数量替换为手写体文字识别种类个数。

具体地，使用ImageNet数据集的1000类数据训练YOLO神经网络模型的前20个卷积层、1个池化层和1个全连接层。可选地，将Imagenet数据集中的训练图像分辨率调整到224x224。在预训练网络中增加卷积和全连接层可以改善性能，具体地，对前20个卷积层和1个池化层和1个全连接层进行随机初始化权重。

S42：用卷积层的网络参数来初始化YOLO神经网络模型的前N个卷积层的网络参数，将单行文字图片集作为训练集输入YOLO神经网络模型训练，得到手写字文字识别模型，其中，N为正整数。

具体地，将单行文字图片集输入YOLO神经网络模型模型中进行训练。为提高手写体文字识别精度，即手写体文字识别要求细粒度的视觉信息，所以把网络输入由224x224变成448x448。可以理解地，在训练手写体文字模型时，将输入图片分辨率调整到448x448。划分后得到的是单行文字图片，这样可以扩大样本集，同时减少其他文字区域的干扰。

在一具体实施方式中，将单行文字图片分成7x7个网格，某个手写体文字的中心落在这个网格中，此网格用于预测识别该手写体文字。YOLO神经网络模型最后一层输出为(7*7)*30的维度。每个1*1*30的维度对应单行文字图片7*7个细胞(cell)中的一个，1*1*30中含有类别预测和坐标(区域)预测。

YOLO神经网络模型训练过程具体为：每个网格(1*1*30维度对应单行文字图片中的细胞)要预测手写体文字的坐标(x,y,w,h)，其中，(x,y)为中心坐标，(w,h)为手写体文字的宽度和高度。若手写体文文字N类(N个不同的文字，对于7x7的网格，每个网格要预测手写体文字的坐标和N个类别概率，输出就是7x7x(5x2+N)。

可以理解地，本实施例中，通过用卷积层的网络参数来初始化YOLO神经网络模型的前N个卷积层的网络参数，实现了YOLO神经网络模型的多层特征复用和融合，且避免新增参数带来的计算复杂度，仅仅在YOLO神经网络模型的网络特征图分辨率较低的第N个卷积层(分辨率为448x448)，输出的多层卷积特征，实现特征复用和融合，然后将单行文字图片集作为训练集输入YOLO神经网络模型训练，减小了手写体文字区域的非文字区域特征的干扰，提高了手写体文字识别模型的训练效率。

本实施例中，首先使用ImageNet数据集对YOLO神经网络模型进行预训练，获取YOLO神经网络模型的卷积层的网络参数，然后用卷积层的网络参数来初始化YOLO神经网络模型的前N个卷积层的网络参数，将单行文字图片集作为训练集输入YOLO神经网络模型训练，得到手写字文字识别模型，由于实现了YOLO神经网络模型的多层特征复用和融合，且避免新增参数带来的计算复杂度，提高了手写体文字识别模型的训练效率。

在一实施例中，如图5所示，步骤S10中，获取原始图片集，采用图像检测算法获取原始图片集的手写体文字区域，包括：

S11：将原始图片集中的图片作为卷积神经网络VGGNet的输入样本进行第一层卷积运算，得到第一特征图。

其中，卷积神经网络VGGNet是深度卷积神经网络，卷积神经网络VGGNet能够使用很小的卷积(3*3)，增加网络深度可以有效提升模型的效果，而且卷积神经网络VGGNet对其他数据集具有很好的泛化能力。

本实施例中，通过卷积神经网络VGGNet对手写体文字区域进行检测，以便检测到更为准确区域从而使得后续文字识别精度得以提高。具体地，将原始图片集中的图片进行标准化处理后得到预处理图像数据，将该预处理图像数据代入到卷积神经网络VGGNet的第一层卷积网络中进行卷积计算，其中，输入样本的图像大小是112×112像素，层叠卷积层网络结构由三层卷积层组成，并分别为三层卷积层设置不同尺度的视觉感知范围，当3个卷积层分别一层一层重叠了3个3x3卷积层(层与层之间有非线性激活函数)。在这个排列下，第一个卷积层中的每个神经元都对输入样本有一个3x3的视野。例如，三层卷积层分别是A、B和C，每层对应的视觉感知范围分别为3×3、5×5和7×7的卷积核，卷积核的单位为像素点。

S12：将第一特征图输入到卷积神经网络VGGNet的第二层卷积网络中，并进行卷积计算，得到第二特征图。

具体地，第二层卷积神经网络上的神经元对第一层卷积神经网络有一个5x5的视野，也就是对输入第一特征图有5x5的视野。

S13：将第二特征图输入到卷积神经网络VGGNet的第三层卷积网络中进行卷积计算，得到第三特征图。

具体地，在第三层卷积神经网络上的神经元对第二层卷积神经网络有7x7的视野，也就是对输入第二特征图有7x7的视野。假设不采用这3个3x3的卷积层，而是使用一个单独的有7x7的感受野的卷积层，那么所有神经元的感受野也是7x7。

多个卷积层与非线性的激活层交替的结构，比单一卷积层的结构更能提取出深层的更好的特征。可以表达出输入的训练样本中的更多个强力特征。

S14：将第三特征图输入到卷积神经网络VGGNet的回归层，得到手写体文字区域。

具体地，将第三特征图输入到卷积神经网络VGG的回归层中，在第三特征图的每个位置上取预设维度(如3*3*C)的窗口的特征，这些特征将用于预测该位置对应的类别信息(如手写体文字和非手写体文字即背景信息)和位置信息，且回归出来的矩形区域宽度是一定的，使得手写体文字区域更为准确。

本实施例中，将原始图片集中的图片作为卷积神经网络VGGNet的输入样本进行第一层卷积运算，得到第一特征图。然后将第一特征图输入到卷积神经网络VGGNet的第二层卷积网络中，并进行卷积计算，得到第二特征图。接着，将第二特征图输入到卷积神经网络VGGNet的第三层卷积网络中进行卷积计算，得到第三特征图。最后，将第三特征图输入到卷积神经网络VGGNet的回归层，得到手写体文字区域。通过使用卷积神经网络VGGNet对原始图像集进行检测，使得获取的手写体文字区域更为准确。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种文字识别模型训练装置，该文字识别模型训练装置与上述实施例中文字识别模型训练方法一一对应。如图6所示，该文字识别模型训练装置包括文字区域获取模块10、文本线构造模块20、单行文字图片集获取模块30和文字识别模型获取模块40。各功能模块详细说明如下：

文字区域获取模块10，用于获取原始图片集，采用图像检测算法获取原始图片集的手写体文字区域；

文本线构造模块20，用于采用文本线构造算法将每一原始图片的手写体文字区域合并成文本线；

单行文字图片集获取模块30，用于将每一原始图对应的文本线组合成单行文字图片集；

文字识别模型获取模块40，用于将单行文字图片集输入YOLO神经网络模型中进行训练，得到手写体文字识别模型。

具体地，文本线构造模块包括文字区域的坐标获取单元、文字区域的坐标距离获取单元、整合区域获取单元和文本线获取单元。

文字区域的坐标获取单元，用于获取每一原始图片的手写体文字区域的坐标(X_i,Y_i)，其中i为正整数，X_i和Y_i分别为第i个手写体文字区域的横坐标和纵坐标；

文字区域的坐标距离获取单元，用于对于每一手写体文字区域，计算手写体文字区域横坐标X_i与相邻的手写体文字区域横坐标之间的距离，得到横向距离，并计算手写体文字区域纵坐标Y_i与相邻的手写体文字区域纵坐标之间的距离，得到纵向距离；

整合区域获取单元，用于若横向距离小于或等于第一阈值且纵向距离小于或等于第二阈值，则对手写体文字区域和对应的相邻的手写体文字区域进行整合，得到整合区域；

文本线获取单元，用于将整合区域连接成成文本线。

具体地，文字识别模型获取模块40包括网络参数获取单元和文字识别模型获取单元。

网络参数获取单元41，用于使用ImageNet数据集对YOLO神经网络模型进行预训练，获取YOLO神经网络模型的卷积层的网络参数；

文字识别模型获取单元42，用于用卷积层的网络参数来初始化YOLO神经网络模型的前N个卷积层的网络参数，将单行文字图片集作为训练集输入YOLO神经网络模型训练，得到手写字文字识别模型，其中，N为正整数。

具体地，文字区域获取模块10包括第一特征图获取单元、第二特征图获取单元、第三特征图获取单元和手写体文字区域获取单元。

第一特征图获取单元，用于将原始图片集中的图片作为卷积神经网络VGGNet的输入样本进行第一层卷积运算，得到第一特征图；

第二特征图获取单元，用于将第一特征图输入到卷积神经网络VGGNet的第二层卷积网络中，并进行卷积计算，得到第二特征图；

第三特征图获取单元，用于将第二特征图输入到卷积神经网络VGGNet的第三层卷积网络中进行卷积计算，得到第三特征图；

手写体文字区域获取单元，用于将第三特征图输入到卷积神经网络VGGNet的回归层，得到手写体文字区域。

在一实施例中，提供一文字识别方法，该文字识别方法也可以应用在如图1的应用环境中，其中，客户端通过网络与服务端进行通信。服务端接收客户端发送待识别手写体文字图片，采用图像检测算法获取待识别文字区域，接着获取待识别文字区域的待识别单行文字图片，最后通过手写体文字识别模型对待识别单行文字图片进行文字识别，得到文字识别结果。其中，客户端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图7所示，以该方法应用于图1中的服务端为例进行说明，包括如下步骤：

S50：获取待识别手写体文字图片，采用图像检测算法获取待识别手写体文字图片的待识别文字区域。

其中，待识别手写体文字图片是指需要进行识别的包含有手写体文字的图片。待识别文字区域是指对手写体文字进行框选标注的区域。具体地，本实施例中的图像检测算法与步骤S10的图像检测算法相同，其具体实现方法和步骤S11-步骤S14的方法相同，此处不再赘述。

S60：从待识别文字区域中获取待识别单行文字图片。

其中，待识别单行文字图片是指单行手写体文字图片，用于作为手写体文字识别模型进行检测识别的图片。具体地，本实施例中的获取待识别单行文字图片与步骤S30中的获取单行文字图片集方法相同，此处不再赘述。

通过获取待识别单行文字图片，减少其他文字区域的干扰，进而提高了后续的手写体文字识别准确率。

S70：将待识别单行文字图片输入到如步骤S10至步骤S40中文字识别模型训练方法训练得到的手写体文字识别模型中进行识别，获取待识别单行文字图片的文字识别结果。

其中，文字识别结果是指对待识别单行文字图片采用手写体文字识别模型进行识别得到的结果。可以理解地，步骤S10至步骤S40中的文字识别模型训练方法训练得到的手写体文字识别模型效率高，采用该手写体文字识别模型进行识别，从而提高了待识别手写体文字图片的文字识别准确率。

本实施例中，首先获取待识别手写体文字图片，然后采用图像检测算法获取待识别手写体文字图片的待识别文字区域。然后，从待识别文字区域获取待识别单行文字图片，减少其他文字区域的干扰，进而提高了后续的手写体文字识别准确率。最后，将待识别单行文字图片输入到手写体文字识别模型中进行识别，提高了待识别手写体文字图片的文字识别准确率。

在一实施例中，提供一种文字识别装置，该文字识别装置与上述实施例中文字识别方法一一对应。如图8所示，该文字识别装置包括待识别文字区域获取模块50、单行文字图片获取模块60和文字识别结果获取模块70。各功能模块详细说明如下：

待识别文字区域获取模块50，用于获取待识别手写体文字图片，采用图像检测算法获取待识别手写体文字图片的待识别文字区域；

单行文字图片获取模块60，用于从待识别文字区域中获取待识别单行文字图片；

文字识别结果获取模块70，用于将待识别单行文字图片输入到文字识别模型训练方法训练得到的手写体文字识别模型进行识别，获取待识别单行文字图片的文字识别结果。

关于文字识别模型训练装置的具体限定可以参见上文中对于文字识别模型训练方法的限定，在此不再赘述。上述文字识别模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储原始图片集。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文字识别模型训练方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例文字识别模型训练方法的步骤，例如图2所示的步骤S10至步骤S40。或者处理器执行计算机程序时实现上述实施例文字识别方法的步骤，例如图7所示的步骤S50至步骤S70。或者，处理器执行计算机程序时实现上述实施例文字识别模型训练装置的各模块/单元的功能，例如图6所示的模块10至模块40。或者，处理器执行计算机程序时实现上述实施例文字识别识别装置的各模块/单元的功能，例如图8所示的模块50至模块70。为避免重复，这里不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例文字识别模型训练方法的步骤，或者计算机程序被处理器执行时实现上述实施例文字识别方法的步骤，或者，计算机程序被处理器执行时实现上述实施例文字识别模型训练装置的各模块/单元的功能，或者，计算机程序被处理器执行时实现上述实施例文字识别装置的各模块/单元的功能，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种文字识别模型训练方法，其特征在于，所述文字识别模型训练方法包括：

获取原始图片集，采用图像检测算法获取所述原始图片集中的每一原始图片的手写体文字区域；

将所述每一原始图对应的文本线组合成单行文字图片集；

2.如权利要求1所述的手写体文字识别模型训练方法，其特征在于，所述采用文本线构造算法将所述手写体文字区域合并成文本线，包括：

获取每一原始图片的手写体文字区域的坐标(X_i,Y_i)，其中i为正整数，X_i和Y_i分别为第i个手写体文字区域的横坐标和纵坐标；

对于每一手写体文字区域，计算所述手写体文字区域横坐标X_i与相邻的手写体文字区域横坐标之间的距离，得到横向距离，并计算所述手写体文字区域纵坐标Y_i与相邻的手写体文字区域纵坐标之间的距离，得到纵向距离；

若所述横向距离小于或等于第一阈值且所述纵向距离小于或等于第二阈值，则对所述手写体文字区域和对应的相邻的手写体文字区域进行合并，得到整合区域；

将所述整合区域连接成所述文本线。

3.如权利要求1所述的手写体文字识别模型训练方法，其特征在于，所述将所述单行文字图片集输入YOLO神经网络模型中进行训练，得到手写体文字识别模型，包括：

使用ImageNet数据集对所述YOLO神经网络模型进行预训练，获取YOLO神经网络模型的卷积层的网络参数；

用所述卷积层的网络参数来初始化YOLO神经网络模型的前N个卷积层的网络参数，将所述单行文字图片集作为训练集输入所述YOLO神经网络模型训练，得到所述手写字文字识别模型，其中，N为正整数。

4.如权利要求1所述的手写体文字识别模型训练方法，其特征在于，所述获取原始图片集，采用图像检测算法获取所述原始图片集的手写体文字区域，包括：

将原始图片集中的图片作为卷积神经网络VGGNet的输入样本进行第一层卷积运算，得到第一特征图；

将所述第一特征图输入到卷积神经网络VGGNet的第二层卷积网络中，并进行卷积计算，得到第二特征图；

将所述第二特征图输入到卷积神经网络VGGNet的第三层卷积网络中进行卷积计算，得到第三特征图；

将所述第三特征图输入到卷积神经网络VGGNet的回归层，得到手写体文字区域。

5.一种文字识别方法，其特征在于，所述文字识别方法包括：

从所述待识别文字区域中获取待识别单行文字图片；

将所述待识别单行文字图片输入到如权利要求1-4任一项所述文字识别模型训练方法训练得到的手写体文字识别模型进行识别，获取所述待识别单行文字图片的文字识别结果。

6.一种文字识别模型训练装置，其特征在于，所述文字识别模型训练装置包括：

7.如权利要求6所述的文字识别模型训练装置，其特征在于，所述文字识别模型获取模块包括：

网络参数获取单元，用于使用ImageNet数据集对所述YOLO神经网络模型进行预训练，获取YOLO神经网络模型的卷积层的网络参数；

文字识别模型获取单元，用于用所述卷积层的网络参数来初始化YOLO神经网络模型的前N个卷积层的网络参数，将所述单行文字图片集作为训练集输入所述YOLO神经网络模型训练，得到所述手写字文字识别模型，其中，N为正整数。

8.一种文字识别装置，其特征在于，所述文字识别装置包括：

单行文字图片获取模块，用于从所述待识别文字区域中获取待识别单行文字图片；

文字识别结果获取模块，用于将所述待识别单行文字图片输入到如权利要求1-4任一项所述文字识别模型训练方法训练得到的手写体文字识别模型进行识别，获取所述待识别单行文字图片的文字识别结果。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述的文字识别模型训练方法的步骤，或者所述处理器执行所述计算机程序时实现如权利要求5所述的文字识别方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4所述的文字识别模型训练方法的步骤，或者，所述计算机程序被处理器执行时实现如权利要求5任一项所述的文字识别方法的步骤。