CN114708186A - 一种电子签章定位方法及装置 - Google Patents

一种电子签章定位方法及装置 Download PDF

Info

Publication number
CN114708186A
CN114708186A CN202111391130.9A CN202111391130A CN114708186A CN 114708186 A CN114708186 A CN 114708186A CN 202111391130 A CN202111391130 A CN 202111391130A CN 114708186 A CN114708186 A CN 114708186A
Authority
CN
China
Prior art keywords
characters
document
signed
official seal
electronic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111391130.9A
Other languages
English (en)
Inventor
鹿春阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur IGO Cloud Chain Information Technology Co Ltd
Original Assignee
Shandong Inspur IGO Cloud Chain Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur IGO Cloud Chain Information Technology Co Ltd filed Critical Shandong Inspur IGO Cloud Chain Information Technology Co Ltd
Priority to CN202111391130.9A priority Critical patent/CN114708186A/zh
Publication of CN114708186A publication Critical patent/CN114708186A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Quality & Reliability (AREA)
  • Character Input (AREA)

Abstract

本申请实施例公开了一种电子签章定位方法及系统。方法包括:将电子文档的标题与对应的电子公章数据以键值对的方式存储到键值对数据库中;接收待签章文档,并识别待签章文档的标题;根据待签章文档的标题,在键值对数据库中查找对应的电子公章数据,并提取电子公章数据中的文字;以待签章文档的下边界为横轴,以待签章文档的左边界为纵轴,建立二维坐标系,并在二维坐标系中,确定落款字段的坐标;其中,落款字段为所述待签章文档中,与电子公章数据中的文字完全相同的字段;基于落款字段的坐标,将电子公章数据添加在待签章文档中,以得到签章后文档。解决了现有电子签章定位方法不能自动确定电子签章应该加盖的位置的技术问题。

Description

一种电子签章定位方法及装置
技术领域
本申请涉及交易数据管理领域,尤其涉及一种电子签章定位方法及装置。
背景技术
在当前线上交易较为流行的情况下,为了节约纸质成本以及提高交易效率,线上交易的双方会以电子文档的形式传递交易数据或者交易合同。而交易数据或者交易合同往往需要加盖企业公章,以保证交易数据或者交易合同的真实性和有效性。如果是纸质文档,一般会加盖实体公章来标识文件在法律上的有效性,而电子文档则需要加盖电子签章,电子签章一般加盖在当事人的姓名或者单位名称上。
现有的在电子文档上加盖电子签章的方法,大多是预设多种签章模板,规定每种模板的签章位置,然后盖章程序通过识别待签章文件对应哪种签章模板,从而获取签章位置,这种方法有较大的局限性,需要工作人员提前做很多设置工作,不能做到自动确定电子签章应该加盖的位置,定位效率低。因此出现了一些自动识别电子签章应该加盖的位置的方法,但是这些方法识别准确率低,公章容易盖偏,影响交易过程的顺利进行。
发明内容
本申请实施例提供了一种电子签章定位方法及装置,用于解决现有的电子签章定位方法不能自动确定电子签章应该加盖的位置,准确率低、效率低的技术问题。
本申请实施例采用下述技术方案:
一方面,本申请实施例提供了一种电子签章定位方法。方法包括:将电子文档的标题与对应的电子公章数据以键值对的方式存储到键值对数据库中;其中,所述电子文档的标题为主键,所述电子公章数据为所述主键对应的键值;接收待签章文档,并识别所述待签章文档的标题;根据所述待签章文档的标题,在所述键值对数据库中查找对应的电子公章数据,并提取所述电子公章数据中的文字;以所述待签章文档的下边界为横轴,以所述待签章文档的左边界为纵轴,建立二维坐标系,并在所述二维坐标系中,确定落款字段的坐标;其中,所述落款字段为所述待签章文档中,与所述电子公章数据中的文字完全相同的字段;基于所述落款字段的坐标,将所述电子公章数据添加在所述待签章文档中,以得到签章后文档。
本申请实施例通过在待签章文档中定位并识别标题,在键值对数据库中提取该文档对应的公章数据,再自动识别公章中的落款,从而在待签章文档中查找落款的位置,将公章数据加盖上去,完成盖章。全过程自动完成,不需要提前预设签章模板,减少了工作人员的工作量。且此方法适用范围广,并不局限于几种特定的电子文档,只要将文档的标题和该文档应该加盖的公章数据存入数据库,即可实现自动给该文档加盖电子公章,无需更改设置。
在一种可行的实施方式中,在基于所述落款字段的坐标,将所述电子公章数据添加在所述待签章文档中,以得到签章后文档之前,所述方法还包括:确定所述待签章文档中不存在所述落款字段;在所述二维坐标系中,确定所述待签章文档中预设字段的坐标;其中,所述预设字段至少包括以下一个或多个:姓名、单位名称、签章;在所述预设字段的横坐标上增加预设值,得到盖章坐标;基于所述盖章坐标,将所述电子公章数据添加在所述待签章文档中,以得到签章后文档。
本申请实施例通过在待签章文档中识别“姓名”、“单位名称”、“签章”等预设字段,在待签章文档中还没有加印落款或者还没有签名时,将公章加盖在“姓名”或者“单位名称”的右侧,保证成功加盖公章。
在一种可行的实施方式中,所述识别所述待签章文档的标题,具体包括:在所述待签章文档的预设区域内,确定每一行文字的四周边界;其中,所述四周边界包括上边界、下边界、左边界以及右边界;在所述二维坐标系中,基于所述每一行文字的右边界横坐标,确定所述待签章文档的标题区域;其中,所述标题区域为所述每一行文字中右边界横坐标最小的一行文字;在所述右边界横坐标最小的文字行数多于一行的情况下,基于所述每一行文字的上边界纵坐标与下边界纵坐标之差,确定所述待签章文档的标题区域;其中,所述标题区域为所述每一行文字中上边界纵坐标与下边界纵坐标之差最大的一行文字;识别所述标题区域内的文字,以得到所述待签章文档的标题。
在一种可行的实施方式中,所述在所述待签章文档的预设区域内,确定每一行文字的四周边界,具体包括:对所述待签章文档进行边缘特征提取,得到边缘图像;在所述预设区域内,生成若干条水平线;确定每条水平线与所述边缘图像中边缘线的交点数目;确定与所述边缘线的交点数目为0的水平线所在区域为空白区域;在相邻的两个空白区域之间,确定与所述边缘线的交点数目最少的两条水平线为每一行文字的上下边界;在所述二维坐标系中,在所述每一行文字的上下边界之间,确定所述若干条水平线与所述边缘线交点的最小横坐标以及最大横坐标;确定所述最小横坐标对应的竖直线为所述每一行文字的左边界,以及确定所述最大横坐标对应的竖直线为所述每一行文字的右边界。
本申请实施例根据标题多数居中且字体比正文字体大的特点,通过计算待签章文档的预设区域内每一行文字的四周边界的横坐标和纵坐标,确定右边界横坐标最小的一行文字为标题,若右边界横坐标最小的文字多于一行,也就是标题过长导致右边界刚好和正文的右边界齐平时,确定上下边界纵坐标之差最大的一行文字为标题。此处可注意,交易合同一般标题不会像论文一样太长,本方法中默认标题只有一行。
在一种可行的实施方式中,所述识别所述标题区域内的文字,以得到所述待签章文档的标题,具体包括:对所述标题区域内的文字进行切分,得到若干标题文字图像;对所述若干标题文字图像进行特征提取,得到第一特征向量;对所述第一特征向量进行数据降维,得到第二特征向量;将所述第二特征向量输入神经网络分类器中进行第一级分类,得到第三特征向量;将所述第三特征向量输入KNN分类器进行第二级分类,以识别所述标题区域内的文字。
在文字识别时,如果采用过多维数的特征向量,其实有些维数的信息是冗余的,对于文字识别并没有多大的贡献,反而会增加识别时间,所以本申请实施例对于图像特征向量先进行降维,再对降维后的图像特征向量进行两级分类,使得文字识别结果更加准确且识别时间更短。
在一种可行的实施方式中,所述提取所述电子公章数据中的文字,具体包括:在所述二维坐标系中,确定所述电子公章数据中各文字对应的定位中心的坐标;将任意两个所述定位中心拟合为一条直线,并统计落入每条直线邻近区域内的定位中心的数目;其中,所述邻近区域为所述直线两侧预设距离内的区域;在落入每条直线邻近区域内的定位中心的数目均小于或等于第一预设阈值的情况下,确定所述电子公章中只存在弧形文字,不存在横排文字;在落入任意一条直线邻近区域内的定位中心的数目大于第一预设阈值的情况下,确定所述电子公章中存在弧形文字以及横排文字。
在一种可行的实施方式中,所述方法还包括:在所述电子公章中存在弧形文字以及横排文字的情况下,基于所述任意一条直线邻近区域内的定位中心的数目,确定横排文字定位中心拟合直线;其中,所述横排文字定位中心拟合直线为邻近区域内定位中心数目最多的直线;确定所述横排文字定位中心拟合直线邻近区域内各定位中心对应的若干文字为横排文字,并确定所述电子公章中存在的其他文字为弧形文字;对所述横排文字进行倾斜校正,并识别倾斜校正后的所述横排文字。
本申请实施例通过将公章中的文字两两拟合直线的方法,巧妙地区分公章中的横排文字和弧形文字,便于对两种文字区分别用不同的方法进行倾斜校正。
在一种可行的实施方式中,在所述对所述横排文字进行倾斜校正,并识别倾斜校正后的所述横排文字之后,所述方法还包括:将所述弧形文字进行切分,得到若干弧形文字;以所述电子公章的圆心为极点,从所述极点向所述电子公章的正上方引一条射线作为极轴,在所述电子公章中建立极坐标系;其中,所述极坐标系的逆时针方向为正方向;确定所述若干弧形文字分别在所述极坐标系中的极坐标;将所述极轴左侧的弧形文字与所述极轴右侧的弧形文字分别以极角减小的顺序进行排序;将排序后的所述极轴左侧的弧形文字排放在前面,将排序后的所述极轴右侧的弧形文字排放在后面,得到所述若干弧形文字的完整顺序;基于所述若干弧形文字的极角,将所述若干弧形文字分别顺时针旋转对应角度,以对所述若干弧形文字进行倾斜校正;识别进行排序以及倾斜校正后的所述弧形文字。
本申请实施例通过在公章中建立极坐标系确定各文字的顺序以及倾斜角度,并进行排序和倾斜校正,此校正方法校正结果准确,且计算量小。
在一种可行的实施方式中,在所述二维坐标系中,确定落款字段的坐标,具体包括:识别所述待签章文档中的所有文字;确定所述待签章文档中与所述弧形文字的内容以及顺序完全相同的第一文字串为所述落款字段;在所述待签章文档中不存在所述第一文字串的情况下,确定所述待签章文档中与所述横排文字内容以及顺序完全相同的第二文字串为所述落款字段。
另一方面,本申请实施例提供了一种电子签章定位系统,包括:键值对数据库,用于以键值对的方式保存电子文档的标题与对应的电子公章数据;识别单元,用于识别待签章文档的标题以及识别电子公章数据中的文字;确定单元,用于确定所述落款字段的坐标;其中,所述落款字段为所述待签章文档中与所述电子公章数据中的文字完全相同的字段;执行单元,用于基于所述落款字段的坐标,将所述电子公章数据添加在所述待签章文档中,以得到签章后文档。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
本申请实施例通过设计一个电子签章定位系统,自动识别输入到系统中的待签章文档的标题,再根据标题在数据库中自动提取此文档应该加盖的公章数据。系统自动提取公章中的落款文字,然后在待签章文档中查找相同的落款文字,将公章加盖在落款文字上,完成签章。本方案只需预先将不同的需要盖章的文档的标题与该文档对应的公章图像预存入键值对数据库中,其余步骤全程自动化,提高了电子签章的效率。且本方案无需工作人员在签章过程中进行任何操作,既减轻了工作人员的工作量,简化了操作,又避免了由于工作人员失误造成了公章盖错的情况,提高了电子签章定位的准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附
图中:
图1为本申请实施例提供的一种电子签章定位方法的流程图;
图2为本申请实施例提供的一种文字区域边界定位示意图;
图3为本申请实施例提供的一种带有弧形文字的公章示意图;
图4为本申请实施例提供的一种电子签章定位系统的示意图。
具体实施方式
本申请实施例提供一种电子签章定位方法及系统。
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
如图1所示,本申请实施例提供的一种电子签章定位方法具体包括步骤S101-S105:
S101、接收待签章文档,并识别待签章文档的标题。
具体地,工作人员将待签章的电子文档传入电子签章系统,电子签章系统以待签章的电子文档的下边界为横轴,左边界为纵轴,建立二维坐标系。然后根据预设程序识别该电子文档的标题。
作为一种可行的实施方式,识别电子文档标题的预设程序具体为:首先通过图像边缘特征提取算法对待签章的电子文档进行边缘特征提取,得到边缘图像。然后在边缘图像中选择预设区域,在预设区域内生成若干条水平线横穿过边缘图像,统计每条水平线与边缘图像中边缘线的交点数目,与边缘线的交点数目为0的水平线所在区域即为空白区域,相邻的两个空白区域之间即为文字区域。
作为一种可行的实施方式,预设区域的上边界、左边界及右边界均为待签章文档的上边界、左边界与右边界,预设区域的宽度可进行设置。由于正规文档的标题一般位于文档最上方,因此预设区域可设为待签章文档的上半部分或上三分之一部分,或者预设区域的宽度可由工作人员根据本公司的工作文档的实际情况进行修改。只在预设区域内查找标题区域,可以减少识别待签章文档标题区域的计算量。
进一步地,在边缘图像中,文字中间的水平线与文字边缘线的交点数目比文字边缘的水平线与文字边缘线的交点数目多。因此,确定文字区域中与文字边缘线的交点数目最少的两条水平线为每一行文字区域的上下边界。两条水平线中,纵坐标较大的一条为上边界,纵坐标较小的一条为下边界。
在一个实施例中,如图2所示,以“电子签章”四个字的边缘图像为例,首先统计与“电子签章”四个字的边缘线有交点的水平线各自的交点数目,假设图2中从上到下三条水平线与“电子签章”边缘线的交点分别为5个、8个、4个,则交点数目为5个和4个的两条水平线即为“电子签章”这一行字的上边界和下边界。假设交点数目为5个的水平线表示为y=4,交点数目为4个的水平线表示为y=2,则水平线y=4为上边界,水平线y=2为下边界。
进一步地,确定了每一行文字区域的上下边界之后,在某一行文字区域的上下边界之间,确定若干条水平线与这一行文字边缘线交点的最小横坐标以及最大横坐标,该最小横坐标所在的竖直线即为这一行文字区域的左边界,该最大横坐标所在的竖直线为这一行文字的右边界。预设区域内的每一行文字区域皆通过上述方法确定四周边界,四周边界即上边界、下边界、左边界与右边界。
在一个实施例中,如图2所示,在所有穿过“电子签章”四个字的水平线与这四个字的交点中,找到横坐标最小的交点和横坐标最大的交点,这两个交点所在的竖直线即为“电子签章”的左边界和右边界。假设横坐标最小的交点坐标为(1,2),横坐标最大的交点坐标为(7,3),那么左边界即为x=1的竖直线,右边界即为x=7的竖直线。“电子签章”的上边界、下边界、左边界、右边界组成的矩形框即为“电子签章”的文字区域。
进一步地,确定了预设区域内每一行文字区域的四周边界之后,根据常识可知正规文档的标题格式为居中,且字号比正文文字要大一些。因此首先在二维坐标系中,确定每一行文字区域的右边界的横坐标,在预设区域内所有行文字区域中,右边界横坐标最小的一行文字区域即为标题区域。由于存在标题过长导致标题的右边界与正文文字的右边界横坐标相同的情况,因此在右边界横坐标最小的文字区域多于一行的情况下,确定每一行文字区域的上边界纵坐标与下边界纵坐标之差,在预设区域内所有行文字区域中,上边界纵坐标与下边界纵坐标之差最大的一行文字区域即为标题区域。
进一步地,在确定了标题区域之后,通过投影法将标题区域内的文字切分成单个文字,得到若干个标题文字图像。对上述若干标题文字图像进行特征提取,得到第一特征向量。然后通过线性判别分析(Linear Discriminant Analysis,LDA)技术对第一特征向量进行数据降维,得到维数较低的第二特征向量。由于神经网络分类器对于噪声数据具有高承受能力,以及对未经训练的数据具有较强的分类能力,因此将第二特征向量输入神经网络分类器中进行第一级分类,得到第三特征向量。将第三特征向量输入K最近邻(K-NearestNeighbor,KNN)分类器进行第二级分类,以得到待签章的电子文档的标题内容。神经网络分类器优选前馈反向传播(Feed-Forward Backprop,BP)网络。
S102、根据待签章文档的标题,在键值对数据库中查找对应的电子公章数据,并提取电子公章数据中的文字。
首先,工作人员提前将工作中需要盖章的电子文档的标题和该电子文档应该加盖的电子公章数据存入键值对数据库中,电子文档的标题为主键,对应的电子公章数据为键值。例如,标题为“交易合同”的电子文档对应的电子公章为本公司的公章,标题为“财务报表”的电子文档对应的电子公章为财务部门的公章等。这样即可通过电子文档的标题直接在键值对数据库中提取出相应的电子公章数据。需要说明的是,本申请中的电子公章数据是指电子公章扫描图像。
具体地,在电子签章定位系统识别出待签章文档的标题之后,根据该标题内容在键值对数据库中查找并提取对应的电子公章图像数据,对提取出的电子公章图像数据进行二值化处理,得到二值图像。在二值图像中,像素聚集区域即为文字所在区域,因此电子签章定位系统通过多层窗口滤波技术确定二值图像中的若干像素聚集区域,并将每个像素聚集区域的中心点确定为电子公章图像数据中每个文字对应的定位中心。
进一步地,公章中一般会包括沿公章边缘弧形排列的弧形文字,以及公章底部的横排文字,而弧形文字和横排文字最大的区别在于横排文字的定位中心两两拟合得到的直线基本重合,而弧形文字的定位中心两两拟合得到的直线会构成一个围绕公章中心的圆弧。因此针对此特点,电子签章定位系统将电子公章图像数据中确定的任意两个定位中心拟合为一条直线,统计落入每条直线两侧预设距离内的定位中心的数目。在落入每条直线两侧预设距离内的定位中心的数目均小于或等于第一预设阈值的情况下,电子公章图像数据中只存在弧形文字,不存在横排文字。在落入任意一条直线两侧预设距离内的定位中心的数目大于第一预设阈值的情况下,电子公章图像数据中既存在弧形文字,也存在横排文字,此时该直线两侧预设距离内的所有定位中心对应的文字均属于横排文字,除横排文字外,电子公章图像数据中的其他文字为弧形文字。
作为一种可行的实施方式,若电子公章图像数据中存在横排文字,则在二值图像中将横排文字整行提取出来,通过光学字符识别技术对横排文字进行倾斜校正,并识别倾斜校正后的横排文字的内容。
进一步地,电子签章定位系统以电子公章图像的圆心为极点,从极点向电子公章图像的正上方引一条射线作为极轴,在所述电子公章图像中建立极坐标系,极坐标系的逆时针方向为正方向。上述极坐标系如图3所示,图中的圆形图案代表电子公章图像的边框,点O为极点,OP为极轴,图中的正方形图案代表单个的弧形文字。
进一步地,通过自适应边框搜索技术将电子公章图像数据中的弧形文字切分为单个文字,得到若干弧形文字,此时切割出的文字为倾斜角度各不相同且没有按顺序正确排列的文字。确定若干弧形文字的定位中心分别在极坐标系中对应的极坐标。将位于极轴左侧的弧形文字与位于极轴右侧的弧形文字分别以极角减小的顺序进行排序,然后将排序后的位于极轴左侧的弧形文字排放在前面,将排序后的位于极轴右侧的弧形文字排放在后面,得到若干弧形文字的完整顺序。
在一个实施例中,若极轴左侧有三个弧形文字A、B、C,A的极坐标为(1,30°)、B的极坐标为(1,60°)、C的极坐标为(1,90°),极轴右侧有三个弧形文字D、E、F,D的极坐标为(1,330°)、E的极坐标为(1,300°)、F的极坐标为(1,270°)。则极轴左侧的弧形文字按照极角减小的顺序排列为:CBA,极轴右侧的弧形文字按照极角减小的顺序排列为:DEF。根据左侧在前右侧在后的规则,最终弧形文字的完整顺序为CBADEF。
进一步地,将若干弧形文字分别顺时针旋转各自的极角对应的角度,以对若干弧形文字进行倾斜校正。最后通过光学字符识别技术识别进行排序以及倾斜校正后的弧形文字的内容。
在一个实施例中,如图3所示,“签”字的极角为θ,将“签”字顺时针旋转θ度,即可将“签”字校正为水平方向。假设“章”字的极角为330度,则将“章”字顺时针旋转330度也可校正为水平方向。
S103、在识别了电子公章数据中的文字后,在二维坐标系中,确定落款字段的坐标,并基于落款字段的坐标,将电子公章数据添加在待签章文档中,得到签章后文档。
具体地,通过光学字符识别技术识别待签章文档中的所有文字。将待签章文档中与电子公章数据中识别出的弧形文字的内容以及顺序完全相同的第一文字串确定为落款字段。在待签章文档中找不到第一文字串的情况下,将待签章文档中与电子公章数据中识别出的横排文字内容以及顺序完全相同的第二文字串确定为落款字段。确定落款字段的坐标,将电子公章数据添加在待签章文档中的该坐标处,得到签章后文档。
在一个实施例中,假设电子公章数据中识别出的弧形文字内容为“某某有限公司”,横排文字内容为“业务专用章”,电子签章定位系统先在待签章文档中查找“某某有限公司”字段,若查找到该字段,则“某某有限公司”即为落款字段。若没有查找到该字段,则继续查找“业务专用章”字段,若查找到该字段,则“业务专用章”即为落款字段。
S104、确定待签章文档中不存在落款字段,在二维坐标系中,确定待签章文档中预设字段的坐标。
具体地,若在待签章文档中既没有查找到第一文字串也没有查找到第二文字串,在待签章文档中查找预设字段,并在二维坐标系中确定预设字段的坐标。
在一个实施例中,假设电子公章数据中识别出的弧形文字内容为“某某有限公司”,横排文字内容为“业务专用章”。若电子签章系统在待签章文档中既没有查找到“某某有限公司”,也没有查找到“业务专用章”,则证明该文档还未进行签名。在这种情况下,电子签章定位系统在待签章文档中查找“姓名:”、“单位名称:”、“(签章)”等字段,因为这些字段往往指示签章位置。
S105、在二维坐标系中确定预设字段的坐标后,在预设字段的横坐标上增加预设值,得到盖章坐标,基于盖章坐标,将电子公章数据添加在待签章文档中,得到签章后文档。
具体地,由于签章位置位于“姓名:”、“单位名称:”、“(签章)”等预设字段的右侧,因此在预设字段的横坐标上增加预设值,得到盖章坐标。将电子公章数据添加在待签章文档中的盖章坐标处,以得到签章后文档。
在一个实施例中,预设值可设为电子公章图像的半径。若查找到待签章文档中存在字段“单位名称:”,该字段的右边界的坐标为(5,20),公章图像的半径为2,那么盖章坐标为(5,22)。将电子公章图像的圆心与盖章坐标对齐,将电子公章图像添加在待签章文档中。
另外,本申请实施例还提供了一种电子签章定位系统。如图4所示,电子签章定位系统400至少包括键值对数据库410、识别单元420、确定单元430以及执行单元440。
其中,键值对数据库410用于以键值对的方式存储电子文档的标题与对应的电子公章数据。识别单元420用于识别待签章文档的标题以及识别电子公章数据中的文字。确定单元430用于确定落款字段的坐标。执行单元440用于基于落款字段的坐标,将电子公章数据添加在待签章文档中,得到签章后文档。
在一个可行的实施方式中,工作人员需要将工作中所有需要盖章的电子文档的标题和该电子文档应该加盖的电子公章数据存入键值对数据库410中,若有新增的电子文档需要盖章,则以新增的电子文档的标题为主键,该电子文档对应的电子公章图像为键值存入键值对数据库410中,电子签章定位系统400即可对该新增的电子文档进行自动盖章。
在一个可行的实施方式中,工作人员在使用电子签章定位系统400时,只需将待签章的文档上传至电子签章定位系统400,然后点击盖章按钮,电子签章定位系统400即可自动运行算法在待签章文档上完成盖章,无需工作人员进行其他任何操作。
本申请实施例提供的一种电子签章定位方法及系统主要用于电子交易文档的电子签章,但并不限于电子交易文档,任何文档都可通过本申请提供的电子签章定位方法及系统进行电子签章,只需根据文档情况调整上述预设区域的宽度,即可适用于各种形式的电子文档。本方案通过精准且快捷的算法在电子文档中确定应该盖章的位置,降低了工作人员的操作要求,提高了电子签章位置的定位准确性,扩大了适用范围。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、非易失性计算机存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请的实施例可以有各种更改和变化。凡在本申请实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种电子签章定位方法,其特征在于,所述方法包括:
将电子文档的标题与对应的电子公章数据以键值对的方式存储到键值对数据库中;其中,所述电子文档的标题为主键,所述电子公章数据为所述主键对应的键值;
接收待签章文档,并识别所述待签章文档的标题;
根据所述待签章文档的标题,在所述键值对数据库中查找对应的电子公章数据,并提取所述电子公章数据中的文字;
以所述待签章文档的下边界为横轴,以所述待签章文档的左边界为纵轴,建立二维坐标系,并在所述二维坐标系中,确定落款字段的坐标;其中,所述落款字段为所述待签章文档中,与所述电子公章数据中的文字完全相同的字段;
基于所述落款字段的坐标,将所述电子公章数据添加在所述待签章文档中,以得到签章后文档。
2.根据权利要求1所述的一种电子签章定位方法,其特征在于,在基于所述落款字段的坐标,将所述电子公章数据添加在所述待签章文档中,以得到签章后文档之前,所述方法还包括:
确定所述待签章文档中不存在所述落款字段;
在所述二维坐标系中,确定所述待签章文档中预设字段的坐标;其中,所述预设字段至少包括以下一个或多个:姓名、单位名称、签章;
在所述预设字段的横坐标上增加预设值,得到盖章坐标;
基于所述盖章坐标,将所述电子公章数据添加在所述待签章文档中,以得到签章后文档。
3.根据权利要求1所述的一种电子签章定位方法,其特征在于,所述识别所述待签章文档的标题,具体包括:
在所述待签章文档的预设区域内,确定每一行文字的四周边界;其中,所述四周边界包括上边界、下边界、左边界以及右边界;
在所述二维坐标系中,基于所述每一行文字的右边界横坐标,确定所述待签章文档的标题区域;其中,所述标题区域为所述每一行文字中右边界横坐标最小的一行文字;
在所述右边界横坐标最小的文字行数多于一行的情况下,基于所述每一行文字的上边界纵坐标与下边界纵坐标之差,确定所述待签章文档的标题区域;其中,所述标题区域为所述每一行文字中上边界纵坐标与下边界纵坐标之差最大的一行文字;
识别所述标题区域内的文字,以得到所述待签章文档的标题。
4.根据权利要求3所述的一种电子签章定位方法,其特征在于,所述在所述待签章文档的预设区域内,确定每一行文字的四周边界,具体包括:
对所述待签章文档进行边缘特征提取,得到边缘图像;
在所述预设区域内,生成若干条水平线;
确定每条水平线与所述边缘图像中边缘线的交点数目;
确定与所述边缘线的交点数目为0的水平线所在区域为空白区域;
在相邻的两个空白区域之间,确定与所述边缘线的交点数目最少的两条水平线为每一行文字的上下边界;
在所述二维坐标系中,在所述每一行文字的上下边界之间,确定所述若干条水平线与所述边缘线交点的最小横坐标以及最大横坐标;
确定所述最小横坐标对应的竖直线为所述每一行文字的左边界,以及确定所述最大横坐标对应的竖直线为所述每一行文字的右边界。
5.根据权利要求3所述的一种电子签章定位方法,其特征在于,所述识别所述标题区域内的文字,以得到所述待签章文档的标题,具体包括:
对所述标题区域内的文字进行切分,得到若干标题文字图像;
对所述若干标题文字图像进行特征提取,得到第一特征向量;
对所述第一特征向量进行数据降维,得到第二特征向量;
将所述第二特征向量输入神经网络分类器中进行第一级分类,得到第三特征向量;
将所述第三特征向量输入KNN分类器进行第二级分类,以识别所述标题区域内的文字。
6.根据权利要求1所述的一种电子签章定位方法,其特征在于,所述提取所述电子公章数据中的文字,具体包括:
在所述二维坐标系中,确定所述电子公章数据中各文字对应的定位中心的坐标;
将任意两个所述定位中心拟合为一条直线,并统计落入每条直线邻近区域内的定位中心的数目;其中,所述邻近区域为所述直线两侧预设距离内的区域;
在落入每条直线邻近区域内的定位中心的数目均小于或等于第一预设阈值的情况下,确定所述电子公章中只存在弧形文字,不存在横排文字;
在落入任意一条直线邻近区域内的定位中心的数目大于第一预设阈值的情况下,确定所述电子公章中存在弧形文字以及横排文字。
7.根据权利要求6所述的一种电子签章定位方法,其特征在于,所述方法还包括:
在所述电子公章中存在弧形文字以及横排文字的情况下,基于所述任意一条直线邻近区域内的定位中心的数目,确定横排文字定位中心拟合直线;其中,所述横排文字定位中心拟合直线为邻近区域内定位中心数目最多的直线;
确定所述横排文字定位中心拟合直线邻近区域内各定位中心对应的若干文字为横排文字,并确定所述电子公章中存在的其他文字为弧形文字;
对所述横排文字进行倾斜校正,并识别倾斜校正后的所述横排文字。
8.根据权利要求7所述的一种电子签章定位方法,其特征在于,在所述对所述横排文字进行倾斜校正,并识别倾斜校正后的所述横排文字之后,所述方法还包括:
将所述弧形文字进行切分,得到若干弧形文字;
以所述电子公章的圆心为极点,从所述极点向所述电子公章的正上方引一条射线作为极轴,在所述电子公章中建立极坐标系;其中,所述极坐标系的逆时针方向为正方向;
确定所述若干弧形文字分别在所述极坐标系中的极坐标;
将所述极轴左侧的弧形文字与所述极轴右侧的弧形文字分别以极角减小的顺序进行排序;
将排序后的所述极轴左侧的弧形文字排放在前面,将排序后的所述极轴右侧的弧形文字排放在后面,得到所述若干弧形文字的完整顺序;
基于所述若干弧形文字的极角,将所述若干弧形文字分别顺时针旋转对应角度,以对所述若干弧形文字进行倾斜校正;
识别进行排序以及倾斜校正后的所述弧形文字。
9.根据权利要求8所述的一种电子签章定位方法,其特征在于,在所述二维坐标系中,确定落款字段的坐标,具体包括:
识别所述待签章文档中的所有文字;
确定所述待签章文档中与所述弧形文字的内容以及顺序完全相同的第一文字串为所述落款字段;
在所述待签章文档中不存在所述第一文字串的情况下,确定所述待签章文档中与所述横排文字内容以及顺序完全相同的第二文字串为所述落款字段。
10.一种电子签章定位系统,包括:
键值对数据库,用于以键值对的方式保存电子文档的标题与对应的电子公章数据;
识别单元,用于识别待签章文档的标题以及识别电子公章数据中的文字;
确定单元,用于确定所述落款字段的坐标;其中,所述落款字段为所述待签章文档中与所述电子公章数据中的文字完全相同的字段;
执行单元,用于基于所述落款字段的坐标,将所述电子公章数据添加在所述待签章文档中,以得到签章后文档。
CN202111391130.9A 2021-11-23 2021-11-23 一种电子签章定位方法及装置 Pending CN114708186A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111391130.9A CN114708186A (zh) 2021-11-23 2021-11-23 一种电子签章定位方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111391130.9A CN114708186A (zh) 2021-11-23 2021-11-23 一种电子签章定位方法及装置

Publications (1)

Publication Number Publication Date
CN114708186A true CN114708186A (zh) 2022-07-05

Family

ID=82166336

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111391130.9A Pending CN114708186A (zh) 2021-11-23 2021-11-23 一种电子签章定位方法及装置

Country Status (1)

Country Link
CN (1) CN114708186A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116757886A (zh) * 2023-08-16 2023-09-15 南京尘与土信息技术有限公司 数据分析方法及分析装置
CN117194683A (zh) * 2023-08-18 2023-12-08 国新久其数字科技(北京)有限公司 一种确定文件中盖章位置的方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116757886A (zh) * 2023-08-16 2023-09-15 南京尘与土信息技术有限公司 数据分析方法及分析装置
CN116757886B (zh) * 2023-08-16 2023-11-28 南京尘与土信息技术有限公司 数据分析方法及分析装置
CN117194683A (zh) * 2023-08-18 2023-12-08 国新久其数字科技(北京)有限公司 一种确定文件中盖章位置的方法及系统

Similar Documents

Publication Publication Date Title
US20220012487A1 (en) Systems and methods for classifying payment documents during mobile image processing
CN109308476B (zh) 票据信息处理方法、系统及计算机可读存储介质
JP5500480B2 (ja) 帳票認識装置及び帳票認識方法
US7106904B2 (en) Form identification method
CN107665351B (zh) 基于难样本挖掘的机场检测方法
CN109344831A (zh) 一种数据表识别方法、装置及终端设备
US9396540B1 (en) Method and system for identifying anchors for fields using optical character recognition data
CN105528604A (zh) 一种基于ocr的票据自动识别与处理系统
CN114708186A (zh) 一种电子签章定位方法及装置
CN112183036B (zh) 一种格式文档生成方法、装置、设备及存储介质
CN103914680A (zh) 一种喷印字符图像识别与校验系统及方法
CN108280430B (zh) 一种流程图像识别方法
CN105868759A (zh) 分割图像字符的方法及装置
CN111091124B (zh) 一种书脊文字识别方法
CN111931864B (zh) 基于顶点距离与交并比多重优化目标检测器的方法与系统
CN112200117A (zh) 表格识别方法及装置
CN111310426A (zh) 基于ocr的表格版式恢复方法、装置及存储介质
CN112528954A (zh) 一种证件图像文字提取方法
US20220157071A1 (en) Systems and methods for form recognition using visual signatures
CN117037198A (zh) 一种银行对账单的识别方法
CN111738979A (zh) 证件图像质量自动检查方法及系统
CN113469005A (zh) 一种银行回单的识别方法、相关装置及存储介质
CN111832497A (zh) 一种基于几何特征的文本检测后处理方法
CN102332088B (zh) 一种基于游程特征的选票符号机器视觉识别方法
CN115880702A (zh) 数据处理方法、装置、设备、程序产品及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination