CN113177542A - 识别印章文字的方法、装置、设备和计算机可读介质 - Google Patents
识别印章文字的方法、装置、设备和计算机可读介质 Download PDFInfo
- Publication number
- CN113177542A CN113177542A CN202110563559.5A CN202110563559A CN113177542A CN 113177542 A CN113177542 A CN 113177542A CN 202110563559 A CN202110563559 A CN 202110563559A CN 113177542 A CN113177542 A CN 113177542A
- Authority
- CN
- China
- Prior art keywords
- document image
- seal character
- characters
- seal
- detection model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Abstract
本发明公开了识别印章文字的方法、装置、设备和计算机可读介质,涉及人工智能技术领域。该方法的一具体实施方式包括:接收单据图像,所述单据图像中包括弯曲文字;将所述单据图像输入印章文字检测模型中,所述印章文字检测模型采用二阶贝塞尔曲线获知控制点,并基于所述控制点输出所述单据图像中的印章文字区域;采用印章文字识别模型在所述印章文字区域检测到单据图像中的文字;输出所述单据图像中的文字。该实施方式能够提高识别印章文字的准确性。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种识别印章文字的方法、装置、设备和计算机可读介质。
背景技术
光学字符识别(Optical Character Recognition,OCR)技术作为机器视觉领域一个非常重要的研究方向,涉及的应用领域多种多样。利用现有较成熟的OCR技术,可针对出口信用证单据图像中的印刷体文字有较好的检测和识别效果。
但除了从图像中的印刷体文字获取信息外,印章作为出具人信用身份的一种表现形式,也起到了举足轻重的作用。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:对于出口信用证单据图像中包含的圆形、椭圆形、方形等各式印章内出现的弯曲和非弯曲文字,识别准确性较低。
发明内容
有鉴于此,本发明实施例提供一种识别印章文字的方法、装置、设备和计算机可读介质,能够提高识别印章文字的准确性。
为实现上述目的,根据本发明实施例的一个方面,提供了一种识别印章文字的方法,包括:
接收单据图像,所述单据图像中包括弯曲文字;
将所述单据图像输入印章文字检测模型中,所述印章文字检测模型采用二阶贝塞尔曲线获知控制点,并基于所述控制点输出所述单据图像中的印章文字区域;
采用印章文字识别模型在所述印章文字区域检测到单据图像中的文字;
输出所述单据图像中的文字。
所述接收单据图像,包括:
基于采集的单据原始图像,去除所述单据原始图像中的噪声,得到所述单据图像。
所述弯曲文字包括数字、英文字符、中文字符和特殊字符。
所述将所述单据图像输入印章文字检测模型中,所述印章文字检测模型采用二阶贝塞尔曲线获知控制点,并基于所述控制点输出所述单据图像中的印章文字区域,包括:
将所述单据图像输入印章文字检测模型中,所述印章文字检测模型采用二阶贝塞尔曲线获知两条曲线的控制点;
基于所述两条曲线的控制点输出所述单据图像中的印章文字区域。
所述两条曲线的控制点包括每条曲线的三个控制点。
所述三个控制点中的一个控制点是在其他两个控制点的基础上得到的。
所述将所述单据图像输入印章文字检测模型中,所述印章文字检测模型采用二阶贝塞尔曲线获知控制点,并基于所述控制点输出所述单据图像中的印章文字区域,包括:
将所述单据图像输入印章文字检测模型中,所述印章文字检测模型采用二阶贝塞尔曲线获知控制点;
基于所述控制点输出所述单据图像中的原始印章文字区域;
在所述原始印章文字区域的基础上,经贝塞尔曲线修正得到所述单据图像中的印章文字区域。
所述贝塞尔曲线修正包括预设平滑系数。
所述将所述单据图像输入印章文字检测模型中,所述印章文字检测模型采用二阶贝塞尔曲线获知控制点,并基于所述控制点输出所述单据图像中的印章文字区域,包括:
将所述单据图像输入印章文字检测模型中,所述印章文字检测模型采用二阶贝塞尔曲线获知控制点;
基于所述控制点输出所述单据图像中的原始印章文字区域;
针对所述原始印章文字区域进行特征对齐,得到所述单据图像中的印章文字区域。
所述针对所述原始印章文字区域进行特征对齐,得到所述单据图像中的印章文字区域,包括:
所述原始印章文字区域采用贝塞尔对齐实现特征对齐,得到所述单据图像中的印章文字区域。
所述原始印章文字区域采用贝塞尔对齐实现特征对齐,得到所述单据图像中的印章文字区域,包括:
通过所述原始印章文字区域中上贝塞尔曲线和所述原始印章文字区域中下贝塞尔曲线,确定所述原始印章文字区域特征点;
按照所述原始印章文字区域特征点,得到所述单据图像中的印章文字区域。
所述印章文字识别模型是利用长短期记忆网络生成的。
所述方法还包括:
通过单据训练图像,训练得到所述印章文字检测模型和所述印章文字识别模型。
所述单据训练图像包括训练图像和所述训练图像的印章文字。
所述输出所述单据图像中的文字之后,还包括:
对比所述单据图像中的文字和模板图像中的文字,以判断所述单据图像是否符合要求。
所述方法还包括:
所述单据图像中的文字和模板图像中的文字不同,判断所述单据图像不符合要求,输出提示消息。
所述提示消息是显示消息和/或语音消息。
根据本发明实施例的第二方面,提供了一种识别印章文字的装置,包括:
接收模块,用于接收单据图像,所述单据图像中包括弯曲文字;
区域模块,用于将所述单据图像输入印章文字检测模型中,所述印章文字检测模型采用二阶贝塞尔曲线获知控制点,并基于所述控制点输出所述单据图像中的印章文字区域;
文字模块,用于采用印章文字识别模型在所述印章文字区域检测到单据图像中的文字;
输出模块,用于输出所述单据图像中的文字。
根据本发明实施例的第三方面,提供了一种识别印章文字的电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的方法。
根据本发明实施例的第四方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述的方法。
上述发明中的一个实施例具有如下优点或有益效果:接收单据图像,所述单据图像中包括弯曲文字;将所述单据图像输入印章文字检测模型中,所述印章文字检测模型采用二阶贝塞尔曲线获知控制点,并基于所述控制点输出所述单据图像中的印章文字区域;采用印章文字识别模型在所述印章文字区域检测到单据图像中的文字;输出所述单据图像中的文字。由于采用二阶贝塞尔曲线能够适用于印章文字的曲线排列,进而能够提高识别印章文字的准确性。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的识别印章文字的方法的主要流程的示意图;
图2是根据本发明实施例的印章文字的示意图;
图3是根据本发明实施例的基于控制点输出单据图像中的印章文字区域的流程示意图;
图4是根据本发明实施例的经贝塞尔曲线修正得到的印章文字区域的流程示意图;
图5是根据本发明实施例的贝塞尔对齐的正负样本示意图;
图6是根据本发明实施例的采用特征对齐得到单据图像中的印章文字区域的流程示意图;
图7是根据本发明实施例的区域对齐的示意图;
图8是根据本发明实施例的识别印章文字的装置的主要结构的示意图;
图9是本发明实施例可以应用于其中的示例性系统架构图;
图10是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
传统的文字识别主要包括预处理、特征提取、分类器等几个步骤,是一个典型的模式识别处理过程。深度学习在文字识别领域的应用也有着较长的历史,如:利用像卷积神经网络、循环神经网络的技术来解决相关应用中的一些问题。
基于深度学习的视角,场景文字检测识别可分为场景文字检测、场景文字识别、以及端到端文字检测识别三个主要的研究方向。往往通过场景文字检测和场景文字识别相结合的方法,完成任意形状的文本检测识别这个文字识别领域中最具有挑战性的任务。
通常的做法是文字检测、空间变化和文字识别。其中文字检测方法主要是包括基于文本框回归的分类、基于分割的回归、以及分割和回归结合的方法。
文字识别主流方法是基于两套思路,一个是基于连接主义时间分类技术(CTC,Connectionist Temporal Classification)的方法,尤其是CTC和神经网络的结合,典型的代表方法是CRNN;另一个是基于Attention的方法,基本流程与基于CTC的相似,区别在于采用Attention解码器预测序列而非CTC。
端到端文字检测识别模型将文字检测和文字识别两个独立的子问题组合在一起,通过训练单独一个网络同时完成文字的检测和识别,是目前的主流发展趋势。
非弯曲文本端到端识别,如:Regular End-to-end Scene Text Spottin方法使用感兴趣区域(Region Of Interest,ROI)Pooling来将检测和识别的特征联合起来,但是它仅能识别水平文本。它的改进版本在精度和速度上都有所提升,但仍不支持任意形状文本。
弯曲文本端到端识别,如:FOTS方法令检测和识别共享卷积特征层;引入旋转感兴趣目标于ROIRotate。RoIRotate,是一种新的可微分运算符,用于从卷积特征图中提取定向文本区域。可以从卷积特征图中产生定向文本区域,支持倾斜文本行检识别。STN-OCR方法在检测部分嵌入了一个空间变换网络(STN)来对原始输入图像进行仿射(affine)变换。利用这个空间变换网络,可以对检测到的多个文本块分别执行旋转、缩放和倾斜等图形矫正动作,从而在后续文本识别阶段得到更好的识别精度。在训练上STN-OCR属于半监督学习方法,只需要提供文本内容标注,而不要求文本定位信息。
OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
考虑到出口信用证单据图像中的印章文字的样式复杂多样、方向多样、排布形式多样等特点,人工进行文本检测与非弯曲文本识别相结合的基于图模型匹配的印章文字识别技术很难适用。
考虑到现有算法的特点,非弯曲文本检测识别算法无法处理圆形、椭圆形印章内的弯曲文字;部分算法虽提高了定向或弯曲场景文本检测识别的性能,但这些基于字符(character-based)和基于分割(segmentation-based)的场景文本检测识别方法都比较耗时,需要进行字符级别的大量文本标注或者进行复杂的网络设计,这使得检测和识别的推理速度很难满足相关应用程序的实时性要求。
综上,当前的图像识别技术并不适用于弯曲文字,识别准确性较低。
为了解决识别准确性较低的技术问题,可以采用以下本发明实施例中的技术方案。
参见图1,图1是根据本发明实施例的识别印章文字的方法主要流程的示意图,通过印章文字检测模型获知印章文字区域,采用印章文字识别模型检测到单据图像中的文字。如图1所示,具体包括以下步骤:
S101、接收单据图像,单据图像中包括弯曲文字。
与普通印刷体文字的文字检测识别有所不同,印章文字往往存在样式复杂多样、方向多样、排布形式多样的特点,使识别难度大大增加。目前文字检测识别算法未在印章文字识别领域上有所应用,针对印章文字识别的方法较少。
参见图2,图2是根据本发明实施例的印章文字的示意图,图2中的文字包括印章文字和YINZHANG。其中,图2中文字的排列是弯曲排列,图2中包括弯曲文字。
在本发明的实施例中,单据图像中包括弯曲文字。其中,弯曲文字包括数字、英文字符、中文字符和特殊字符。作为一个示例,单据图像是出口信用证单据图像。出口信用证单据图像中包含的圆形、椭圆形、方形等各式印章内出现的弯曲和非弯曲文字。
在本发明实施例中,基于采集的单据原始图像,去除单据原始图像中的噪声,得到单据图像。采集单据原始图像。作为一个示例,通过摄像头或扫描仪采集单据原始图像。由于收到采集设备的干扰,单据原始图像带有噪声,需要去除单据原始图像中的噪声,进而得到单据图像。作为一个示例,采用滤波器去除单据原始图像中的噪声。
S102、将单据图像输入印章文字检测模型中,印章文字检测模型采用二阶贝塞尔曲线获知控制点,并基于控制点输出单据图像中的印章文字区域。
在本发明实施例中,印章文字检测模型用于获知单据图像的印章文字区域。印章文字识别模型用于识别单据图像的印章文字区域的文字。印章文字检测模型和印章文字识别模型都是经过训练得到的模型。
作为一个示例,通过单据训练图像,训练得到印章文字检测模型和印章文字识别模型。其中,单据训练图像包括训练图像和训练图像的印章文字。
具体来说,采用标注工具CVAT,标注单据训练图像的字符。字符包括但不限于:数字0-9、小写英文字符a-z、大写英文字符A-Z、特殊字符若干和中文字符若干。此外,对弯曲印章文字进行上下成对的多点标注,便于区分上下曲线进行拟合。
然后,将单据训练图像输入印章文字检测模型中,印章文字检测模型采用二阶贝塞尔曲线获知控制点,并基于控制点输出单据训练图像中的印章文字区域;印章文字识别模型基于单据训练图像中的印章文字区域,输出单据训练图像中的文字。根据印章文字识别模型输出的文字和单据训练图像中的文字对比,训练得到印章文字检测模型和印章文字识别模型。
参见图3,图3是根据本发明实施例的基于控制点输出单据图像中的印章文字区域的流程示意图,具体包括以下步骤:
S301、将单据图像输入印章文字检测模型中,印章文字检测模型采用二阶贝塞尔曲线获知两条曲线的控制点。
单据图像输入印章文字检测模型中,经过四个步长(stride)等于1,填充(padding)等于1,卷积核(kernel)是叠加的卷积层后,预测二阶贝塞尔曲线的控制点,并根据控制点拟合出的曲线预测出印章文字区域。
贝塞尔曲线是一个参数化的曲线用c(t)表示,该曲线使用伯恩斯坦多项式Bi,n(t)作为它的基础。定义如下:
其中,bi表示第i个控制点,n表示阶数,由n+1个控制点控制。
一阶贝塞尔曲线公式即为两点b0和b1间直线公式,由t进行线性插值。
c(t)=(1-t)b0+b1,0≤t≤1 公式3
二阶贝塞尔曲线则由3个控制点b0、b1和b2。即:
c(t)=(1-t)2b0+2t(1-t)b1+t2b2,0≤t≤1 公式4
由于绝大部分印章都为方形、圆形或椭圆形,利用六个控制点,即上贝塞尔曲线和下贝塞尔曲线构成印章形状。每条贝塞尔曲线包括三个控制点,两条贝塞尔曲线包括六个控制点。也就是说,两条曲线的控制点包括每条曲线的三个控制点。
上下两条二阶贝塞尔曲线,即上下两条贝塞尔曲线即可有效拟合各类印章中的弯曲文本区域,而非弯曲文本则被认为是特殊的任意形状。
在本发明的一个实施例中,一条贝塞尔曲线中三个控制点中的一个控制点是在其他两个控制点的基础上得到的。
具体来说,在矩形的长边中间插入了各一个控制点,也通过六个控制点定义边界框。且印章形状为标准的轴对称形,印章文字区域也以方形、圆形、椭圆形的竖轴呈对称分布,因此可根据曲线左右控制点b0(x0,y0)和b2(x2,y2)约束控制点b1的坐标为(x1=(x0+x2)/2,y1)。进而简化了二阶贝塞尔曲线的控制点坐标计算,提升了效率与准确度。
S302、基于两条曲线的控制点输出单据图像中的印章文字区域。
在本发明实施例中,使用一个16输出通道的卷积层进行学习,而学习目标定义为两条曲线的起点、终点构成的四个顶点中最小的x、y的值与控制点的相对距离,基于上述四个顶点则确定单据图像中的印章文字区域。
在图3的实施例中,根据控制点能够输出单据图像中的印章文字区域。
参见图4,图4是根据本发明实施例的经贝塞尔曲线修正得到的印章文字区域的流程示意图,具体包括以下步骤:
S401、将单据图像输入印章文字检测模型中,印章文字检测模型采用二阶贝塞尔曲线获知控制点。
类似于S301中的技术方案,将单据图像输入印章文字检测模型中,印章文字检测模型采用二阶贝塞尔曲线获知控制点。
S402、基于控制点输出单据图像中的原始印章文字区域。
按照控制点就能够输出单据图像中的原始印章文字区域。
S403、在原始印章文字区域的基础上,经贝塞尔曲线修正得到单据图像中的印章文字区域。
为了提高印章文字区域的准确性,还可以利用贝塞尔曲线修正原始印章文字区域。在本发明实施例中,通过修正模型实现贝塞尔曲线修正。具体来说,在训练印章文字检测模型和印章文字识别模型的过程中,采用单据训练数据,训练修正模型。修正模型的约束条件即公式6或公式7。
参见图5,图5是根据本发明实施例的贝塞尔对齐的正负样本示意图。图5中包括四个区域。将获取印章文字区域视为一个二分类问题,TP为被正确预测的印章文字区域,FP为被错误预测的印章文字区域,FN为漏检的印章文字区域,TN为被正确预测的非文本区域。
Dice coefficient是常见的评价分割效果的方法之一,同样的也可以作为损失函数衡量分割的结果和标签之间的差距。
通过dice loss将二阶贝塞尔曲线划分的印章文字区域进行约束,X=TP+FP为预测的印章文字区域,Y=FN+TP为实际的印章文字区域。
在本发明的一个实施例中,dice loss引入了一个极小的数ε作为预设平滑系数,防止分母为零,并起到平滑loss和梯度的作用,从区域层面对贝塞尔曲线进行修正。
参见图6,图6是根据本发明实施例的采用特征对齐得到单据图像中的印章文字区域的流程示意图,具体包括以下步骤:
S601、将单据图像输入印章文字检测模型中,印章文字检测模型采用二阶贝塞尔曲线获知控制点。
类似于S301中的技术方案,将单据图像输入印章文字检测模型中,印章文字检测模型采用二阶贝塞尔曲线获知控制点。
S602、基于控制点输出单据图像中的原始印章文字区域。
按照控制点就能够输出单据图像中的原始印章文字区域。
S603、针对原始印章文字区域进行特征对齐,得到单据图像中的印章文字区域。
为了有效地输出印章文字区域,需要针对原始印章文字区域进行特征对齐。作为一个示例,原始印章文字区域采用贝塞尔对齐实现特征对齐,得到单据图像中的印章文字区域。
参见图7,图7是根据本发明实施例的区域对齐的示意图。图7中包括左图、中图和右图三部分。左图是使用水平文本框实现区域对齐的示意图;中图是采用旋转文本框实现区域对齐的示意图;右图是采用贝塞尔对齐实现区域对齐的示意图。从图7中可以获知,采用贝塞尔对齐能够准确标识印章文字区域。
在本发明的实施例中,利用贝塞尔对齐进行特征采样后的网格形状是不规则的,为连接印章文字识别模型,需要将不规则形状的区域进行特征对齐,转换成印章文字识别模型输入所需的固定大小的矩形特征图。
具体来说,通过原始印章文字区域中上贝塞尔曲线和原始印章文字区域中下贝塞尔曲线,确定原始印章文字区域特征点。
定义输入印章文字识别模型的矩形特征图的尺寸为hout×wout,特征点i坐标(gih,giw),则可计算该特征点到矩形特征图左侧的距离与矩形特征图宽度的比例,即x方向上的比例t:
通过t和贝塞尔曲线公式c(t)计算矩形特征图的上贝塞尔曲线和下贝塞尔曲线所对应t比例的位置,即上贝塞尔曲线的tp和下贝塞尔曲线的dp。利用公式9可得到特征点i对应在矩形特征图上的坐标位置op:
网格的每一列都与贝塞尔曲线边界正交,采样点在宽度和高度上有等距的间隔,分别对特征点坐标进行双线性插值。利用op的位置,应用双线性插值得到印章文字区域,即,按照原始印章文字区域特征点,得到单据图像中的印章文字区域。
S103、采用印章文字识别模型在印章文字区域检测到单据图像中的文字。
采用印章文字识别模型在印章文字区域检测到单据图像中的文字。印章文字识别模型利用长短期记忆网络(LSTM)生成的。具体来说,印章文字识别模型由六个额外的卷积层、LSTM和CTC层组成。
S104、输出单据图像中的文字。
将单据图像中的文字输出,以供用户参考。
在本发明的一个实施例中,识别印章文字的目的是判断该单据是否符合要求。那么,可以对比单据图像中的文字和模板图像中的文字,以判断单据图像是否符合要求。
作为一个示例,比较单据图像中的文字与模板图像中的文字不同,则判断该单据图像不符合要求。为了提示用户,可以输出提示消息。如:提示消息是显示消息和/或语音消息。进而提示用户进行相关操作。
在上述本发明的实施例中,接收单据图像,所述单据图像中包括弯曲文字;将所述单据图像输入印章文字检测模型中,所述印章文字检测模型采用二阶贝塞尔曲线获知控制点,并基于所述控制点输出所述单据图像中的印章文字区域;采用印章文字识别模型在所述印章文字区域检测到单据图像中的文字;输出所述单据图像中的文字。由于采用二阶贝塞尔曲线能够适用于印章文字的曲线排列,进而能够提高识别印章文字的准确性。
与其他算法相比,二阶贝塞尔曲线检测的计算开销可忽略不计,使该本发明实施例的技术方案在效率和准确性上达到了较好的效果。
参见图8,图8是根据本发明实施例的识别印章文字的装置的主要结构的示意图,识别印章文字的装置可以实现识别印章文字的方法,如图8所示,识别印章文字的装置具体包括:
接收模块801,用于接收单据图像,所述单据图像中包括弯曲文字;
区域模块802,用于将所述单据图像输入印章文字检测模型中,所述印章文字检测模型采用二阶贝塞尔曲线获知控制点,并基于所述控制点输出所述单据图像中的印章文字区域;
文字模块803,用于采用印章文字识别模型在所述印章文字区域检测到单据图像中的文字;
输出模块804,用于输出所述单据图像中的文字。
在本发明的一个实施例中,接收模块801,具体用于基于采集的单据原始图像,去除所述单据原始图像中的噪声,得到所述单据图像。
在本发明的一个实施例中,所述弯曲文字包括数字、英文字符、中文字符和特殊字符。
在本发明的一个实施例中,区域模块802,具体用于将所述单据图像输入印章文字检测模型中,所述印章文字检测模型采用二阶贝塞尔曲线获知两条曲线的控制点;
基于所述两条曲线的控制点输出所述单据图像中的印章文字区域。
在本发明的一个实施例中,所述两条曲线的控制点包括每条曲线的三个控制点。
在本发明的一个实施例中,所述三个控制点中的一个控制点是在其他两个控制点的基础上得到的。
在本发明的一个实施例中,区域模块802,具体用于将所述单据图像输入印章文字检测模型中,所述印章文字检测模型采用二阶贝塞尔曲线获知控制点;
基于所述控制点输出所述单据图像中的原始印章文字区域;
在所述原始印章文字区域的基础上,经贝塞尔曲线修正得到所述单据图像中的印章文字区域。
在本发明的一个实施例中,所述贝塞尔曲线修正包括预设平滑系数。
在本发明的一个实施例中,区域模块802,具体用于将所述单据图像输入印章文字检测模型中,所述印章文字检测模型采用二阶贝塞尔曲线获知控制点;
基于所述控制点输出所述单据图像中的原始印章文字区域;
针对所述原始印章文字区域进行特征对齐,得到所述单据图像中的印章文字区域。
在本发明的一个实施例中,区域模块802,具体用于所述原始印章文字区域采用贝塞尔对齐实现特征对齐,得到所述单据图像中的印章文字区域。
在本发明的一个实施例中,区域模块802,具体用于通过所述原始印章文字区域中上贝塞尔曲线和所述原始印章文字区域中下贝塞尔曲线,确定所述原始印章文字区域特征点;
按照所述原始印章文字区域特征点,得到所述单据图像中的印章文字区域。
在本发明的一个实施例中,所述印章文字识别模型是利用长短期记忆网络生成的。
在本发明的一个实施例中,区域模块802,还用于通过单据训练图像,训练得到所述印章文字检测模型和所述印章文字识别模型。
在本发明的一个实施例中,所述单据训练图像包括训练图像和所述训练图像的印章文字。
在本发明的一个实施例中,输出模块804,还用于对比所述单据图像中的文字和模板图像中的文字,以判断所述单据图像是否符合要求。
在本发明的一个实施例中,输出模块804,具体用于所述单据图像中的文字和模板图像中的文字不同,判断所述单据图像不符合要求,输出提示消息。
在本发明的一个实施例中,所述提示消息是显示消息和/或语音消息。
图9示出了可以应用本发明实施例的识别印章文字的方法或识别印章文字的装置的示例性系统架构900。
如图9所示,系统架构900可以包括终端设备901、902、903,网络904和服务器905。网络904用以在终端设备901、902、903和服务器905之间提供通信链路的介质。网络904可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备901、902、903通过网络904与服务器905交互,以接收或发送消息等。终端设备901、902、903上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备901、902、903可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器905可以是提供各种服务的服务器,例如对用户利用终端设备901、902、903所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的识别印章文字的方法一般由服务器905执行,相应地,识别印章文字的装置一般设置于服务器905中。
应该理解,图9中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图10,其示出了适于用来实现本发明实施例的终端设备的计算机系统1000的结构示意图。图10示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图10所示,计算机系统1000包括中央处理单元(CPU)1001,其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中,还存储有系统1000操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
以下部件连接至I/O接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括接收模块、区域模块、文字模块和输出模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,接收还可以被描述为“用于接收单据图像,所述单据图像中包括弯曲文字”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:
接收单据图像,所述单据图像中包括弯曲文字;
将所述单据图像输入印章文字检测模型中,所述印章文字检测模型采用二阶贝塞尔曲线获知控制点,并基于所述控制点输出所述单据图像中的印章文字区域;
采用印章文字识别模型在所述印章文字区域检测到单据图像中的文字;
输出所述单据图像中的文字。
根据本发明实施例的技术方案,接收单据图像,所述单据图像中包括弯曲文字;将所述单据图像输入印章文字检测模型中,所述印章文字检测模型采用二阶贝塞尔曲线获知控制点,并基于所述控制点输出所述单据图像中的印章文字区域;采用印章文字识别模型在所述印章文字区域检测到单据图像中的文字;输出所述单据图像中的文字。由于采用二阶贝塞尔曲线能够适用于印章文字的曲线排列,进而能够提高识别印章文字的准确性。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (20)
1.一种识别印章文字的方法,其特征在于,包括:
接收单据图像,所述单据图像中包括弯曲文字;
将所述单据图像输入印章文字检测模型中,所述印章文字检测模型采用二阶贝塞尔曲线获知控制点,并基于所述控制点输出所述单据图像中的印章文字区域;
采用印章文字识别模型在所述印章文字区域检测到单据图像中的文字;
输出所述单据图像中的文字。
2.根据权利要求1所述识别印章文字的方法,其特征在于,所述接收单据图像,包括:
基于采集的单据原始图像,去除所述单据原始图像中的噪声,得到所述单据图像。
3.根据权利要求1所述识别印章文字的方法,其特征在于,所述弯曲文字包括数字、英文字符、中文字符和特殊字符。
4.根据权利要求1所述识别印章文字的方法,其特征在于,所述将所述单据图像输入印章文字检测模型中,所述印章文字检测模型采用二阶贝塞尔曲线获知控制点,并基于所述控制点输出所述单据图像中的印章文字区域,包括:
将所述单据图像输入印章文字检测模型中,所述印章文字检测模型采用二阶贝塞尔曲线获知两条曲线的控制点;
基于所述两条曲线的控制点输出所述单据图像中的印章文字区域。
5.根据权利要求4所述识别印章文字的方法,其特征在于,所述两条曲线的控制点包括每条曲线的三个控制点。
6.根据权利要求5所述识别印章文字的方法,其特征在于,所述三个控制点中的一个控制点是在其他两个控制点的基础上得到的。
7.根据权利要求1所述识别印章文字的方法,其特征在于,所述将所述单据图像输入印章文字检测模型中,所述印章文字检测模型采用二阶贝塞尔曲线获知控制点,并基于所述控制点输出所述单据图像中的印章文字区域,包括:
将所述单据图像输入印章文字检测模型中,所述印章文字检测模型采用二阶贝塞尔曲线获知控制点;
基于所述控制点输出所述单据图像中的原始印章文字区域;
在所述原始印章文字区域的基础上,经贝塞尔曲线修正得到所述单据图像中的印章文字区域。
8.根据权利要求7所述识别印章文字的方法,其特征在于,所述贝塞尔曲线修正包括预设平滑系数。
9.根据权利要求1所述识别印章文字的方法,其特征在于,所述将所述单据图像输入印章文字检测模型中,所述印章文字检测模型采用二阶贝塞尔曲线获知控制点,并基于所述控制点输出所述单据图像中的印章文字区域,包括:
将所述单据图像输入印章文字检测模型中,所述印章文字检测模型采用二阶贝塞尔曲线获知控制点;
基于所述控制点输出所述单据图像中的原始印章文字区域;
针对所述原始印章文字区域进行特征对齐,得到所述单据图像中的印章文字区域。
10.根据权利要求9所述识别印章文字的方法,其特征在于,所述针对所述原始印章文字区域进行特征对齐,得到所述单据图像中的印章文字区域,包括:
所述原始印章文字区域采用贝塞尔对齐实现特征对齐,得到所述单据图像中的印章文字区域。
11.根据权利要求10所述识别印章文字的方法,其特征在于,所述原始印章文字区域采用贝塞尔对齐实现特征对齐,得到所述单据图像中的印章文字区域,包括:
通过所述原始印章文字区域中上贝塞尔曲线和所述原始印章文字区域中下贝塞尔曲线,确定所述原始印章文字区域特征点;
按照所述原始印章文字区域特征点,得到所述单据图像中的印章文字区域。
12.根据权利要求1所述识别印章文字的方法,其特征在于,所述印章文字识别模型是利用长短期记忆网络生成的。
13.根据权利要求1所述识别印章文字的方法,其特征在于,所述方法还包括:
通过单据训练图像,训练得到所述印章文字检测模型和所述印章文字识别模型。
14.根据权利要求13所述识别印章文字的方法,其特征在于,所述单据训练图像包括训练图像和所述训练图像的印章文字。
15.根据权利要求1所述识别印章文字的方法,其特征在于,所述输出所述单据图像中的文字之后,还包括:
对比所述单据图像中的文字和模板图像中的文字,以判断所述单据图像是否符合要求。
16.根据权利要求15所述识别印章文字的方法,其特征在于,所述方法还包括:
所述单据图像中的文字和模板图像中的文字不同,判断所述单据图像不符合要求,输出提示消息。
17.根据权利要求16所述识别印章文字的方法,其特征在于,所述提示消息是显示消息和/或语音消息。
18.一种识别印章文字的装置,其特征在于,包括:
接收模块,用于接收单据图像,所述单据图像中包括弯曲文字;
区域模块,用于将所述单据图像输入印章文字检测模型中,所述印章文字检测模型采用二阶贝塞尔曲线获知控制点,并基于所述控制点输出所述单据图像中的印章文字区域;
文字模块,用于采用印章文字识别模型在所述印章文字区域检测到单据图像中的文字;
输出模块,用于输出所述单据图像中的文字。
19.一种识别印章文字的电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-17中任一所述的方法。
20.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-17中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110563559.5A CN113177542A (zh) | 2021-05-24 | 2021-05-24 | 识别印章文字的方法、装置、设备和计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110563559.5A CN113177542A (zh) | 2021-05-24 | 2021-05-24 | 识别印章文字的方法、装置、设备和计算机可读介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113177542A true CN113177542A (zh) | 2021-07-27 |
Family
ID=76929701
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110563559.5A Pending CN113177542A (zh) | 2021-05-24 | 2021-05-24 | 识别印章文字的方法、装置、设备和计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113177542A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115359543A (zh) * | 2022-10-19 | 2022-11-18 | 北京惠朗时代科技有限公司 | 一种基于区块链的远程用印方法与系统 |
-
2021
- 2021-05-24 CN CN202110563559.5A patent/CN113177542A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115359543A (zh) * | 2022-10-19 | 2022-11-18 | 北京惠朗时代科技有限公司 | 一种基于区块链的远程用印方法与系统 |
CN115359543B (zh) * | 2022-10-19 | 2023-01-10 | 北京惠朗时代科技有限公司 | 一种基于区块链的远程用印方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200065601A1 (en) | Method and system for transforming handwritten text to digital ink | |
EP1999688B1 (en) | Converting digital images containing text to token-based files for rendering | |
WO2017202232A1 (zh) | 名片内容识别方法、电子设备和存储介质 | |
CN109685870B (zh) | 信息标注方法及装置、标注设备及存储介质 | |
CN110942061A (zh) | 文字识别方法、装置、设备和计算机可读介质 | |
CN113627439A (zh) | 文本结构化处理方法、处理装置、电子设备以及存储介质 | |
CN112749695A (zh) | 文本识别的方法和装置 | |
US20200117935A1 (en) | Optical character recognition of series of images | |
CN113673519A (zh) | 基于文字检测模型的文字识别方法及其相关设备 | |
CN111445386A (zh) | 基于文本内容四点检测的图像校正方法 | |
CN110827301A (zh) | 用于处理图像的方法和装置 | |
CN113177542A (zh) | 识别印章文字的方法、装置、设备和计算机可读介质 | |
CN112418206B (zh) | 基于位置检测模型的图片分类方法及其相关设备 | |
CN113537187A (zh) | 文本识别方法、装置、电子设备及可读存储介质 | |
Garai et al. | Automatic rectification of warped bangla document images | |
US20150186718A1 (en) | Segmentation of Overwritten Online Handwriting Input | |
CN112395834B (zh) | 基于图片输入的脑图生成方法、装置、设备及存储介质 | |
WO2022105120A1 (zh) | 图片文字检测方法、装置、计算机设备及存储介质 | |
JP2024507308A (ja) | 画像サンプル生成方法、テキスト認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム | |
CN112348015B (zh) | 一种基于级联神经网络的文字检测方法、装置及存储介质 | |
CN115359502A (zh) | 一种图像处理方法、装置、设备以及存储介质 | |
CN114429628A (zh) | 图像处理方法、装置、可读存储介质及电子设备 | |
CN113971810A (zh) | 文档生成方法、装置、平台、电子设备以及存储介质 | |
CN111291758B (zh) | 用于识别印章文字的方法和装置 | |
CN113807343A (zh) | 文字识别方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |