CN114639106A

CN114639106A - 图文识别方法、装置、计算机设备及存储介质

Info

Publication number: CN114639106A
Application number: CN202210095181.5A
Authority: CN
Inventors: 高鹏; 康维鹏; 袁兰; 吴飞; 周伟华; 高峰; 潘晶
Original assignee: Hangzhou Mjoys Big Data Technology Co ltd
Current assignee: Hangzhou Mjoys Big Data Technology Co ltd
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2022-06-17
Also published as: CN115311666A

Abstract

本发明实施例公开了图文识别方法、装置、计算机设备及存储介质。所述方法包括：获取银行领域的待识别图片；对所述待识别图片进行预处理，以得到潜在文本区域；对所述潜在文本区域输入至文字识别模型内进行图文识别，以得到第一识别结果；对所述第一识别结果进行矫正处理，以得到第二识别结果；输出所述第二识别结果。通过实施本发明实施例的方法可实现精准识别银行领域的图片内的文字，避免由于光亮度、色差、褶皱、表面掩映、形体相近等多种干扰因素而导致的识别错误，提高识别准确率。

Description

图文识别方法、装置、计算机设备及存储介质

技术领域

本发明涉及图文识别方法，更具体地说是指图文识别方法、装置、计算机设备及存储介质。

背景技术

图文识别是目前AI(人工智能，Artificial Intelligence)领域的关键应用技术之一，具有广阔的应用场景，目前得到广泛的研究。但是目前大多数的图文识别方法都是基于文字本身所呈现的图像视觉信息而进行识别，而银行领域的图片存在光亮度、色差、褶皱、表面掩映等情况，甚至对于图片中部分形体相近的文字，都导致这部分的文字识别不准确。

因此，有必要设计一种新的方法，实现精准识别银行领域的图片内的文字，避免由于光亮度、色差、褶皱、表面掩映、形体相近等多种干扰因素而导致的识别错误，提高识别准确率。

发明内容

本发明的目的在于克服现有技术的缺陷，提供图文识别方法、装置、计算机设备及存储介质。

为实现上述目的，本发明采用以下技术方案：图文识别方法，包括：

获取银行领域的待识别图片；

对所述待识别图片进行预处理，以得到潜在文本区域；

对所述潜在文本区域输入至文字识别模型内进行图文识别，以得到第一识别结果；

对所述第一识别结果进行矫正处理，以得到第二识别结果；

输出所述第二识别结果。

其进一步技术方案为：所述对所述待识别图片进行预处理，以得到潜在文本区域，包括：

对所述待处理图片进行图片灰度化处理，以得到第一处理结果；

对所述第一处理结果进行尺寸缩放，以得到第二处理结果；

对所述第二处理结果进行倾斜旋转矫正，以得到第三处理结果；

对所述第三处理结果进行文字区域定位，以得到潜在文本区域。

其进一步技术方案为：所述对所述第三处理结果进行文字区域定位，以得到潜在文本区域，包括：

采用图像滑动窗口在所述第三处理结果上提取多种CNN卷积特征；

对所述特征进行二分类，并筛选出含有文字字符的图像滑动窗口；

采用最大区域连通图轮廓识别算法结合含有文字字符的图像滑动窗口对所述第三处理结果进行轮廓提取，以得到潜在文本区域。

其进一步技术方案为：所述文字识别模型是通过带有文字标签的图片作为样本集训练优化后的CRNN网络，其中，优化后的CRNN网络是训练后的Bert语言模型替换CRNN网络的BLSTM形成的；训练后的Bert语言模型是通过银行领域的语料数据集合作为第一样本集训练Bert语言模型所得的。

其进一步技术方案为：所述训练后的Bert语言模型是通过银行领域的语料数据集合作为第一样本集训练Bert语言模型所得的，包括：

获取银行领域的语料数据集合，并对所述语料数据集合按照特殊标点符号切分成自然分句，以得到第一样本集；

对所述第一样本集进行向量化表征处理，以得到特征化样本集；

构建Bert语言模型；

采用所述特征化样本集对所述Bert语言模型进行训练，以得到训练后的Bert语言模型。

其进一步技术方案为：所述对所述第一识别结果进行矫正处理，以得到第二识别结果，包括：

对所述第一识别结果进行图文表格识别和合并，以得到处理结果；

对所述处理结果进行同一段落的图文段落合并，以得到第二识别结果。

其进一步技术方案为：所述对所述第一识别结果进行图文表格识别和合并，以得到处理结果，包括：

对所述第一识别结果进行特征信息抽取，以得到提取结果；

对所述提取结果按照类型、位置、行列数信息进行CNN特征抽取，以得到抽取结果；

按照全连接方式对抽取结果进行二分类判别，以得到判别结果；

根据所述判别结果进行表格行列合并，以得到处理结果。

本发明还提供了图文识别装置，包括：

图片获取单元，用于获取银行领域的待识别图片；

预处理单元，用于对所述待识别图片进行预处理，以得到潜在文本区域；

识别单元，用于对所述潜在文本区域输入至文字识别模型内进行图文识别，以得到第一识别结果；

处理单元，用于对所述第一识别结果进行矫正处理，以得到第二识别结果；

输出单元，用于输出所述第二识别结果。

本发明还提供了一种计算机设备，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法。

本发明还提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法。

本发明与现有技术相比的有益效果是：本发明通过对银行领域的待识别图片进行灰度化、尺寸缩放、倾斜旋转矫正以及文字区域定位处理，确定潜在文本区域，再采用文字识别模型确定文本内容，再进行图文进行表格识别、字段合并等后继处理操作，确定最终的文本内容，实现精准识别银行领域的图片内的文字，避免由于光亮度、色差、褶皱、表面掩映、形体相近等多种干扰因素而导致的识别错误，提高识别准确率。

下面结合附图和具体实施例对本发明作进一步描述。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的图文识别方法的应用场景示意图；

图2为本发明实施例提供的图文识别方法的流程示意图；

图3为本发明实施例提供的图文识别方法的子流程示意图；

图4为本发明实施例提供的图文识别方法的子流程示意图；

图5为本发明实施例提供的图文识别方法的子流程示意图；

图6为本发明实施例提供的图文识别方法的子流程示意图；

图7为本发明实施例提供的图文识别方法的子流程示意图；

图8为本发明实施例提供的文字识别模型的结构示意图；

图9为本发明实施例提供的图文识别装置的示意性框图；

图10为本发明实施例提供的图文识别装置的预处理单元的示意性框图；

图11为本发明实施例提供的图文识别装置的定位子单元的示意性框图；

图12为本发明实施例提供的图文识别装置的处理单元的示意性框图；

图13为本发明实施例提供的图文识别装置的表格合并子单元的示意性框图；

图14为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本发明实施例提供的图文识别方法的应用场景示意图。图2为本发明实施例提供的图文识别方法的示意性流程图。该图文识别方法应用于服务器中。该服务器与终端进行数据交互，通过终端输入银行领域的待识别图片，对该图片进行预处理后，先确定潜在文本区域，再针对该区域进行图文识别和矫正处理，以得到图片内的文字内容，并输出该结果至终端。

图2是本发明实施例提供的图文识别方法的流程示意图。如图2所示，该方法包括以下步骤S110至S150。

S110、获取银行领域的待识别图片。

在本实施例中，待识别图片是指银行领域的需要进行图文识别的图片。

S120、对所述待识别图片进行预处理，以得到潜在文本区域。

在本实施例中，潜在文本区域是指文本可能存在的区域。

具体地，图片的预处理主要是将图片进行图片灰度化、图片尺寸缩放规范化、图片倾斜旋转矫正、文字区域定位等处理。

在一实施例中，请参阅图3，上述的步骤S120可包括步骤S121～S124。

S121、对所述待处理图片进行图片灰度化处理，以得到第一处理结果。

在本实施例中，第一处理结果是指对待处理图片进行图片灰度化处理后得到的图片。

在本实施例中，可采用现有的图片灰度化处理技术进行图片的灰度化处理，此处不再赘述。

S122、对所述第一处理结果进行尺寸缩放，以得到第二处理结果。

在本实施例中，第二处理结果是指对待处理图片进行图片灰度化处理后再进行尺寸缩放得到的结果。

具体地，由于文字识别模型对于输入具有规范化要求，采用最大可识别图片尺寸设置为2056*2056，并且要求长宽都是32的整数倍。如果一张图片的长或宽大于2056，那么就需要按照比例进行缩小将长或宽最大值转化为2056；同时，如果长或宽不是32的整数倍，例如一张28*30的图片，那么就需要将图片长宽分别放大32/28、32/30倍数，从而得到标准输入尺寸的图片，也就是第二处理结果。

S123、对所述第二处理结果进行倾斜旋转矫正，以得到第三处理结果。

在本实施例中，第三处理结果是指对缩放后的图片进行倾斜旋转矫正得到的结果。

具体地，由于一些图片是由打印机扫描、手机拍照获取，或者采用了斜体排版样式，这些图片中的文字可能会旋转等情况，因此，需要根据图片文字影像信息进行检测，从而整体旋转。可采用霍夫变换直线检测算法进行图片旋转角度检测计算，然后再根据这个角度将图像旋转回正确的位置上来，以确保后续的文字区域定位的准确性。

S124、对所述第三处理结果进行文字区域定位，以得到潜在文本区域。

在一实施例中，请参阅图4，上述的步骤S124可包括步骤S1241～S1243。

S1241、采用图像滑动窗口在所述第三处理结果上提取多种CNN卷积特征；

S1242、对所述特征进行二分类，并筛选出含有文字字符的图像滑动窗口；

S1243、采用最大区域连通图轮廓识别算法结合含有文字字符的图像滑动窗口对所述第三处理结果进行轮廓提取，以得到潜在文本区域。

具体地，由于一张图片，可能不是全部位置都存在字符，在进行真正的字符识别之前，需要确定文本数据所在图片位置块信息。首先，采用类似于平行四边形的形状区域块对潜在文字区域框定表示。在进行图像框定表示时，按2x2的图像滑动窗口在转化后的图像也就是第三处理结果的基础上进行多种CNN(卷积神经网络，Convolutional NeuralNetworks)卷积特征抽取，并将抽取后的特征进行二分类，用0/1表示，即分类确定该图像滑动窗口是否含有文字字符。从而，一张图像就转化成了0/1矩阵图。然后，采用最大区域连通图轮廓识别算法，一般采用OpenCV2的相关算法函数，OpenCV是一个图像开源处理工具集，对该图像进行原始图像中轮廓进行分析，从而找到文字区域联通最大边界，即一个由左上角位置、右上角位置、左下角位置、右下角位置组成的平行四边形矩阵区域。从而，最后得到一系列文本字符区域，即多个平行四边形组成的潜在文本区域。

S130、对所述潜在文本区域输入至文字识别模型内进行图文识别，以得到第一识别结果。

在本实施例中，第一识别结果是指潜在文本区域经过文字识别模型进行图文识别后得到的文本内容。

在本实施例中，所述文字识别模型是通过带有文字标签的图片作为样本集训练优化后的CRNN网络，其中，优化后的CRNN网络是训练后的Bert语言模型替换CRNN网络的BLSTM形成的；训练后的Bert语言模型是通过银行领域的语料数据集合作为第一样本集训练Bert语言模型所得的。

得到图片中潜在的文本区域框，接下来需要针对每个文本区域框依次进行文字识别。目前图文识别一般采用深度学习方法进行，图文识别网络是将已分割出的文字区域图像块识别成文字内容。深度网络的识别处理过程一般为：首先，将用平行四边形表示且一般都为长方形矩阵块的文本区域块进行缩放或者填充，转化成标准高度的长方形矩阵块，如果是平行四边形则进行相应位置进行空白信息填充；然后，对转化后得到的标准文本矩阵框，按滑动窗口进行多种CNN卷积特征提取，从而得到文本矩阵框中的字符图形抽象化的特性信息；最后，将抽象化的特征信息进行序列化的文字识别从而完成文字识别，对于中文识别而言，序列化分类时每个位置上的字符总体分类类别约为4000汉字左右。

而在本实施例中，如图8所示，使用CRNN(递归神经网络，ConvolutionalRecurrent Neural Network)网络与训练后的Bert语言模型相结合的形式进行最终的文字识别模型，其能够在特征抽取部分和最终序列转化识别部分进行优化。CRNN是目前较为流行的图文识别网络，可识别相对较长、可变的文本序列，其特征提取层包含CNN和BLSTM，可进行端到端的联合训练。它借助BLSTM和CTC网络学习字符图像间的上下文关系，从而有效提升图文识别的准确率，采用训练后的Bert语言模型，代替原生CRNN模型中的BLSTM来捕捉上下文语义图形化信息。由于Bert语言模型融合了词语文本语义、字符形态和拼音信息，其中能够弥补原生态CRNN模型中上下文信息捕捉不足的问题，从而解决图片褶皱、不清晰等导致的识别问题，从而提升最终文字识别准确率。

具体地，对于待识别的图片文本区域框，首先采用CNN模型进行卷积及池化特征抽取，获取得到该图片文本视觉区域的基础字符形态视觉特征，然后采用已经融合了字符文本语义及字符形态特征语义的Bert模型，获取得到字形序列语义特征；最后再将Bert模型的每个位置上的输出对接到BiLSTM循环递归网络，从而得到更为清晰的字符序列语义编码，最终再对接到翻译模型将获取得到该图片文本区域的文字识别结果。

在进行文字识别时，为了便于后继文字后处理矫正等，需要将文本框所对应的原始图文位置信息进行传递记录。

具体地，将潜在文本区域框的左上、右上、左下、右下四个方位的X/Y坐标位置进行详尽记录，并且在进行图片放大、缩小等行为时，需要将这些X/Y坐标位置进行同比放大缩小，从而使得最终识别文本也能够精准对应得到所在原始图片框的坐标位置，从而有助于进行最终图片文本的结构化矫正处理，例如对图片中表格信息进行矫正识别等。

在一实施例中，请参阅图5，上述的训练后的Bert语言模型是通过银行领域的语料数据集合作为第一样本集训练Bert语言模型所得的，可包括步骤S131～S134。

S131、获取银行领域的语料数据集合，并对所述语料数据集合按照特殊标点符号切分成自然分句，以得到第一样本集。

在本实施例中，第一样本集是指银行领域的语料数据集合按照特殊标点符号切分成的自然分句的集合。

文字识别是将图片中的文字字符转最终转化成文字字符，因此，需要将文字的视觉信息与语义前后搭配信息都进行预训练。采用Google提供的BERT模型训练，根据面向银行领域的语料数据集合进行模型训练，这些语料数据集合主要来自于银行智能问答系统的对话语料、银行业务语料数据、以及行业网站爬虫采集的数据信息等。对于采集下来的语料数据集合，按照句号、问号等特殊标点符号切分成自然分句，并最终组合成Bert训练语料，即第一样本集。

S132、对所述第一样本集进行向量化表征处理，以得到特征化样本集。

在本实施例中，特征化样本集是指采用多种特征方式对第一样本集进行向量化表征形成的数据集。

由于模型最终用于图片中的文字识别，因此，一个问句样例的基本成分单元是基本字符，而每个字符的原始特征输入信息，采用多种特征方式进行向量化表征，主要包括：一是字符的N位随机向量化值，一般采用256、512等位数；二是字符对应的常见字体的图形化特征，具体为采用楷体、宋体等常见字体特征，每个字体特征采用28*28尺寸的灰度图表示；三是文字字符的拼音信息，将基本拼音如声母+韵母+声调按照基本字符编码进行表征。

S133、构建Bert语言模型；

S134、采用所述特征化样本集对所述Bert语言模型进行训练，以得到训练后的Bert语言模型。

具体地，将这些特征化样本集灌入Bert语言模型，从而使得Bert语言模型训练得到了在银行领域中词语的前后字符搭配语义特征信息，并且Bert语言模型也能够捕捉得到文本序列串上字符图形化及读音声调等前后关联搭配信息。从而，使得训练后的Bert语言模型能够较好满足图文识别任务。

S140、对所述第一识别结果进行矫正处理，以得到第二识别结果。

在本实施例中，第二识别结果是指对第一识别结果进行图文表格识别和合并、同一段落的图文段落合并后形成的文本数据。

在一实施例中，请参阅图6，上述的步骤S140可包括步骤S141～S142。

S141、对所述第一识别结果进行图文表格识别和合并，以得到处理结果。

在本实施例中，处理结果是指对第一识别结果进行图文表格识别和合并后形成的表格型文本数据。

在一实施例中，请参阅图7，上述的步骤S141可包括步骤S1411～S1414。

S1411、对所述第一识别结果进行特征信息抽取，以得到提取结果。

由于第一识别结果中存在相近记录位置文字所在图片位置信息，因此利用这些信息来进行表格位置识别，表格一般具有明显的行列信息，每行具有的文本字符串信息基本相同，表格无论每列进行左对齐、右对齐、居中对齐，其字符的位置信息在横轴上都距中心点在一定范围内，每列字符内容上都是存在同质情况，例如一般都统一是数值、姓名、日期等。因此，主要依据这些特征信息对第一识别结果进行判别与合并。

在本实施例中，在一定上下文窗口内对识别之后的第一识别结果进行上述的特征信息抽取，上下文窗口是指与该文本即第一识别结果X轴位置信息在一定偏差范围内的上下N行文本信息，以及与该文本Y轴位置信息一定偏差范围内的上的左右N列文本信息。

S1412、对所述提取结果按照类型、位置、行列数信息进行CNN特征抽取，以得到抽取结果。

在本实施例中，抽取结果是指按照类型、位置、行列数信息对提取结果进行抽取所得的CNN特征。

S1413、按照全连接方式对抽取结果进行二分类判别，以得到判别结果。

在本实施例中，判别结果是指按照全连接方式对这些抽取结果进行二分类判别，当前是否为同一表格。

S1414、根据所述判别结果进行表格行列合并，以得到处理结果。

在本实施例中，如果判别结果是同一表格，那么按照规则方式进行表格行列合并，从而形成表格型文本数据。

在本实施例中，规则方式是指表格识别规则，主要是根据前面在图文识别中，保留记录下来的位置信息、文本特征等进行，如果图片中文本处在同一表格中，表格中每行文本所划分的列数大致相等，行中每列文本空白间隔、起止小标一般相同；表格每行的开始下标位置、解锁下标位置大致相等，而表格中同一列的位置信息、字符类型一般相近，从而能够采用规则进行快速定位判定识别相同表格。

S142、对所述处理结果进行同一段落的图文段落合并，以得到第二识别结果。

在本实施例中，在长图文识别中，长文本段落一般都需要分成多行，从而是第一识别结果的前后句段被分开了。为此，需要将原本属于同一段落进行合并，文本段落一般具体具有段前空白前置、段末标点结束、行中结束一般明确标志端末、段中开头位置一般位置对齐等特征，此外，在语义层面上收尾相连组成完整的词语或句子等特征，为此，采用步骤S142的方法利用这些特征信息进行图文段落合并，从而完成最终图文识别后处理。

S150、输出所述第二识别结果。

本实施例的方法能够有效识提高文本的识别准确率，并提供结构化表格、段落等信息。

上述的图文识别方法，通过对银行领域的待识别图片进行灰度化、尺寸缩放、倾斜旋转矫正以及文字区域定位处理，确定潜在文本区域，再采用文字识别模型确定文本内容，再进行图文进行表格识别、字段合并等后继处理操作，确定最终的文本内容，实现精准识别银行领域的图片内的文字，避免由于光亮度、色差、褶皱、表面掩映、形体相近等多种干扰因素而导致的识别错误，提高识别准确率。

图9是本发明实施例提供的一种图文识别装置300的示意性框图。如图9所示，对应于以上图文识别方法，本发明还提供一种图文识别装置300。该图文识别装置300包括用于执行上述图文识别方法的单元，该装置可以被配置于服务器中。具体地，请参阅图9，该图文识别装置300包括图片获取单元301、预处理单元302、识别单元303、处理单元304以及输出单元305。

图片获取单元301，用于获取银行领域的待识别图片；预处理单元302，用于对所述待识别图片进行预处理，以得到潜在文本区域；识别单元303，用于对所述潜在文本区域输入至文字识别模型内进行图文识别，以得到第一识别结果；处理单元304，用于对所述第一识别结果进行矫正处理，以得到第二识别结果；输出单元305，用于输出所述第二识别结果。

在一实施例中，如图10所示，所述预处理单元302包括灰度化子单元3021、缩放子单元3022、旋转子单元3023以及定位子单元3024。

灰度化子单元3021，用于对所述待处理图片进行图片灰度化处理，以得到第一处理结果；缩放子单元3022，用于对所述第一处理结果进行尺寸缩放，以得到第二处理结果；旋转子单元3023，用于对所述第二处理结果进行倾斜旋转矫正，以得到第三处理结果；定位子单元3024，用于对所述第三处理结果进行文字区域定位，以得到潜在文本区域。

在一实施例中，如图11所示，所述定位子单元3024包括特征提取模块30241、二分类模块30242以及轮廓提取模块30243。

特征提取模块30241，用于采用图像滑动窗口在所述第三处理结果上提取多种CNN卷积特征；二分类模块30242，用于对所述特征进行二分类，并筛选出含有文字字符的图像滑动窗口；轮廓提取模块30243，用于采用最大区域连通图轮廓识别算法结合含有文字字符的图像滑动窗口对所述第三处理结果进行轮廓提取，以得到潜在文本区域。

所述文字识别模型是通过带有文字标签的图片作为样本集训练优化后的CRNN网络，其中，优化后的CRNN网络是训练后的Bert语言模型替换CRNN网络的BLSTM形成的；训练后的Bert语言模型是通过银行领域的语料数据集合作为第一样本集训练Bert语言模型所得的。所述训练后的Bert语言模型是通过银行领域的语料数据集合作为第一样本集训练Bert语言模型所得的，包括：获取银行领域的语料数据集合，并对所述语料数据集合按照特殊标点符号切分成自然分句，以得到第一样本集；对所述第一样本集进行向量化表征处理，以得到特征化样本集；构建Bert语言模型；采用所述特征化样本集对所述Bert语言模型进行训练，以得到训练后的Bert语言模型。

在一实施例中，如图12所示，所述处理单元304包括表格合并子单元3041以及段落合并子单元3042。

表格合并子单元3041，用于对所述第一识别结果进行图文表格识别和合并，以得到处理结果；段落合并子单元3042，用于对所述处理结果进行同一段落的图文段落合并，以得到第二识别结果。

在一实施例中，如图13所示，所述表格合并子单元3041包括信息提取模块304111、特征抽取模块30412、判别模块30413以及行列合并模块30414。

信息提取模块304111，用于对所述第一识别结果进行特征信息抽取，以得到提取结果；特征抽取模块30412，用于对所述提取结果按照类型、位置、行列数信息进行CNN特征抽取，以得到抽取结果；判别模块30413，用于按照全连接方式对抽取结果进行二分类判别，以得到判别结果；行列合并模块30414，用于根据所述判别结果进行表格行列合并，以得到处理结果。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述图文识别装置300和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上述图文识别装置300可以实现为一种计算机程序的形式，该计算机程序可以在如图14所示的计算机设备上运行。

请参阅图14，图14是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器，其中，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图14，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令，该程序指令被执行时，可使得处理器502执行一种图文识别方法。

该处理器502用于提供计算和控制能力，以支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种图文识别方法。

该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解，图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下步骤：

获取银行领域的待识别图片；对所述待识别图片进行预处理，以得到潜在文本区域；对所述潜在文本区域输入至文字识别模型内进行图文识别，以得到第一识别结果；对所述第一识别结果进行矫正处理，以得到第二识别结果；输出所述第二识别结果。

其中，所述文字识别模型是通过带有文字标签的图片作为样本集训练优化后的CRNN网络，其中，优化后的CRNN网络是训练后的Bert语言模型替换CRNN网络的BLSTM形成的；训练后的Bert语言模型是通过银行领域的语料数据集合作为第一样本集训练Bert语言模型所得的。

在一实施例中，处理器502在实现所述对所述待识别图片进行预处理，以得到潜在文本区域步骤时，具体实现如下步骤：

对所述待处理图片进行图片灰度化处理，以得到第一处理结果；对所述第一处理结果进行尺寸缩放，以得到第二处理结果；对所述第二处理结果进行倾斜旋转矫正，以得到第三处理结果；对所述第三处理结果进行文字区域定位，以得到潜在文本区域。

在一实施例中，处理器502在实现所述对所述第三处理结果进行文字区域定位，以得到潜在文本区域步骤时，具体实现如下步骤：

采用图像滑动窗口在所述第三处理结果上提取多种CNN卷积特征；对所述特征进行二分类，并筛选出含有文字字符的图像滑动窗口；采用最大区域连通图轮廓识别算法结合含有文字字符的图像滑动窗口对所述第三处理结果进行轮廓提取，以得到潜在文本区域。

在一实施例中，处理器502在实现所述训练后的Bert语言模型是通过银行领域的语料数据集合作为第一样本集训练Bert语言模型所得的步骤时，具体实现如下步骤：

获取银行领域的语料数据集合，并对所述语料数据集合按照特殊标点符号切分成自然分句，以得到第一样本集；对所述第一样本集进行向量化表征处理，以得到特征化样本集；构建Bert语言模型；采用所述特征化样本集对所述Bert语言模型进行训练，以得到训练后的Bert语言模型。

在一实施例中，处理器502在实现所述对所述第一识别结果进行矫正处理，以得到第二识别结果步骤时，具体实现如下步骤：

对所述第一识别结果进行图文表格识别和合并，以得到处理结果；对所述处理结果进行同一段落的图文段落合并，以得到第二识别结果。

在一实施例中，处理器502在实现所述对所述第一识别结果进行图文表格识别和合并，以得到处理结果步骤时，具体实现如下步骤：

对所述第一识别结果进行特征信息抽取，以得到提取结果；对所述提取结果按照类型、位置、行列数信息进行CNN特征抽取，以得到抽取结果；按照全连接方式对抽取结果进行二分类判别，以得到判别结果；

根据所述判别结果进行表格行列合并，以得到处理结果。

应当理解，在本申请实施例中，处理器502可以是中央处理单元304(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序，其中该计算机程序被处理器执行时使处理器执行如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述对所述待识别图片进行预处理，以得到潜在文本区域步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述对所述第三处理结果进行文字区域定位，以得到潜在文本区域步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述训练后的Bert语言模型是通过银行领域的语料数据集合作为第一样本集训练Bert语言模型所得的步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述对所述第一识别结果进行矫正处理，以得到第二识别结果步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述对所述第一识别结果进行图文表格识别和合并，以得到处理结果步骤时，具体实现如下步骤：

对所述第一识别结果进行特征信息抽取，以得到提取结果；对所述提取结果按照类型、位置、行列数信息进行CNN特征抽取，以得到抽取结果；按照全连接方式对抽取结果进行二分类判别，以得到判别结果；根据所述判别结果进行表格行列合并，以得到处理结果。

所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元304中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.图文识别方法，其特征在于，包括：

获取银行领域的待识别图片；

对所述待识别图片进行预处理，以得到潜在文本区域；

对所述第一识别结果进行矫正处理，以得到第二识别结果；

输出所述第二识别结果。

2.根据权利要求1所述的图文识别方法，其特征在于，所述对所述待识别图片进行预处理，以得到潜在文本区域，包括：

对所述第一处理结果进行尺寸缩放，以得到第二处理结果；

3.根据权利要求1所述的图文识别方法，其特征在于，所述对所述第三处理结果进行文字区域定位，以得到潜在文本区域，包括：

4.根据权利要求1所述的图文识别方法，其特征在于，所述文字识别模型是通过带有文字标签的图片作为样本集训练优化后的CRNN网络，其中，优化后的CRNN网络是训练后的Bert语言模型替换CRNN网络的BLSTM形成的；训练后的Bert语言模型是通过银行领域的语料数据集合作为第一样本集训练Bert语言模型所得的。

5.根据权利要求4所述的图文识别方法，其特征在于，所述训练后的Bert语言模型是通过银行领域的语料数据集合作为第一样本集训练Bert语言模型所得的，包括：

构建Bert语言模型；

6.根据权利要求1所述的图文识别方法，其特征在于，所述对所述第一识别结果进行矫正处理，以得到第二识别结果，包括：

7.根据权利要求6所述的图文识别方法，其特征在于，所述对所述第一识别结果进行图文表格识别和合并，以得到处理结果，包括：

对所述第一识别结果进行特征信息抽取，以得到提取结果；

根据所述判别结果进行表格行列合并，以得到处理结果。

8.图文识别装置，其特征在于，包括：

图片获取单元，用于获取银行领域的待识别图片；

输出单元，用于输出所述第二识别结果。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。