CN117037190B

CN117037190B - 一种基于数据分析的印章识别管理系统

Info

Publication number: CN117037190B
Application number: CN202311301046.2A
Authority: CN
Inventors: 徐晶
Original assignee: Beijing Huilang Times Technology Co Ltd
Current assignee: Beijing Huilang Times Technology Co Ltd
Priority date: 2023-10-10
Filing date: 2023-10-10
Publication date: 2023-12-15
Anticipated expiration: 2043-10-10
Also published as: CN117037190A

Abstract

本发明属于印章识别领域，涉及数据分析技术，用于解决现有的印章识别管理系统不具备对提取的文字进行语义分析的功能的问题，具体是一种基于数据分析的印章识别管理系统，包括识别管理平台，所述识别管理平台通信连接有文字提取模块、字段分析模块、语义分析模块以及存储模块；所述文字提取模块用于对电子印章中的文字进行提取分析：将进行识别管理的电子印章标记为识别对象，通过ORC技术对识别对象中的文字进行提取并将提取到的所有字符建立字符集；本发明可以对电子印章的字符集进行字段分析，通过区域分析模式与特征分析模式分别对字符集进行字段分析，结合语义分析提高电子印章文本提取结果的精确性。

Description

一种基于数据分析的印章识别管理系统

技术领域

本发明属于印章识别领域，涉及数据分析技术，具体是一种基于数据分析的印章识别管理系统。

背景技术

电子印章技术以先进的数字技术模拟传统实物印章，其管理、使用方式符合实物印章的习惯和体验，其加盖的电子文件具有与实物印章加盖的纸张文件相同的外观、相同的有效性和相似的使用方式。

印章识别管理系统一般具有文字提取返还功能，但是现有的印章识别管理系统不具备对提取的文字进行语义分析的功能，而印章的文本阅读方向可能是从左到右，也可能是从右到左；可能是横排文本，也可能是竖排文本，现有的文本检测模型仅依靠视觉信息无法得出电子印章的正确语义，从而导致输出的文字信息存在误差。

针对上述技术问题，本申请提出一种解决方案。

发明内容

本发明的目的在于提供一种基于数据分析的印章识别管理系统，用于解决现有的印章识别管理系统不具备对提取的文字进行语义分析的功能的问题；

本发明需要解决的技术问题为：如何提供一种可以对提取的文字进行语义分析的基于数据分析的印章识别管理系统。

本发明的目的可以通过以下技术方案实现：

一种基于数据分析的印章识别管理系统，包括识别管理平台，所述识别管理平台通信连接有文字提取模块、字段分析模块、语义分析模块以及存储模块；

所述文字提取模块用于对电子印章中的文字进行提取分析：将进行识别管理的电子印章标记为识别对象，通过ORC技术对识别对象中的文字进行提取并将提取到的所有字符建立字符集，将字符集发送至识别管理平台，识别管理平台接收到字符集后将字符集发送至字段分析模块；

所述字段分析模块用于对电子印章的字符集进行字段分析：字段分析模式包括区域分析模式以及特征分析模式，采用区域分析模式进行字段分析并得到区域字段；采用特征分析模式进行字段分析并得到特征字段，将区域字段以及特征字段通过识别管理平台发送至语义分析模块；

所述语义分析模块用于对区域字段以及特征字段进行语义分析：通过存储模块获取到关键字符组，关键字符组中包括若干个关键符，且关键符具有优先级排序，对区域字段进行遍历分析并得到区域字段的输出字符段以及区遍系数，对特征字段进行遍历分析并得到特征字段的输出字符段以及特遍系数，对特征字段进行遍历分析的具体过程与区域字段的遍历分析过程相同；将区遍系数与特遍系数进行比较并通过比较结果得到识别字符段，将识别字符段发送至识别管理平台。

作为本发明的一种优选实施方式，采用区域分析模式进行字段分析的具体过程包括：随机选取字符集中的一个字符并标记为中心符，将在识别对象中与中心符距离最近的字符标记为标记符，将中心符与标记符的中心位置的距离值标记为标记值，通过存储模块获取到标记阈值，将标记值与标记阈值进行比较：若标记值小于标记阈值，则将标记符标记为关联符，将识别对象中与中心符距离第二近的字符标记为标记符，同时对与关联符距离最近的字符是否为中心符进行判定：若是，则将与关联字符距离第二近的字符标记为标记符；若否，则将与关联字符距离最近的字符标记为标记符；以此类推，直至所有标记符的标记值均不小于标记阈值；若标记值大于等于标记阈值，则由中心符与关联符组成一个区域字段；将区域字段中的字符从字符集中删除后，再次随机选取字符集中的一个字符并标记为中心符，直至字符集中的字符均组成对应的区域字段。

作为本发明的一种优选实施方式，采用特征分析模式进行字段分析的具体过程包括：获取字符集中所有字符的特征数据，特征数据包括字符的字体、字符的字号以及字符的色度；将特征数据完全相同的字符组成特征字段。

作为本发明的一种优选实施方式，对区域字段进行遍历分析：随机选取一个区域字段，将选取的区域字段中的字符按照自左向右、自右向左以及自上向下的方向进行排序并分别生成横左字符段、横右字符段以及纵上字符段，将关键字符组中优先级排序第一的关键符标记为比对符，若横左字符段、横右字符段以及纵上字符段有且仅有一个字符段中包含有比对符，则判定遍历分析结束，将包含有比对符的字符段标记为输出字符段，将区域字段的遍历次数进行记录并对下一个区域字段进行遍历分析，直至所有区域字段均完成遍历分析；否则，将关键字符组中优先级排序第二的关键符标记为比对符，以此类推，直至横左字符段、横右字符段以及纵上字符段有且仅有一个字符段中包含有比对符。

作为本发明的一种优选实施方式，区域字段的区遍系数的获取过程包括：获取区域字段语义分析的普遍数据以及多遍数据，普遍数据为所有区域字段进行遍历分析时的遍历次数的平均值，多遍数据的获取过程包括：将区域字段的遍历次数与预设次数阈值进行比较：若遍历次数小于次数阈值，则将对应的区域字段标记为正常字段；若遍历次数大于等于次数阈值，则将对应的区域字段标记为多遍字段，将多遍字段的数量标记为多遍数据；通过对普遍数据与多遍数据进行数值计算得到区域字段的区遍系数。

作为本发明的一种优选实施方式，将区遍系数与特遍系数进行比较的具体过程包括：

若区遍系数大于特遍系数，则将区域字段对应的输出字符段标记为识别字符段；

若区遍系数小于等于特遍系数，则将特征字段对应的输出字符段标记为识别字符段。

作为本发明的一种优选实施方式，该基于数据分析的印章识别管理系统的工作方法，包括以下步骤：

步骤一：对电子印章中的文字进行提取分析：将进行识别管理的电子印章标记为识别对象，通过ORC技术对识别对象中的文字进行提取并将提取到的所有字符建立字符集，将字符集通过识别管理平台发送至字段分析模块；

步骤二：对电子印章的字符集进行字段分析：采用区域分析模式对字符集进行字段分析并得到区域字段，采用特征分析模式对字符集进行字段分析并得到特征字段；

步骤三：对区域字段以及特征字段进行语义分析：通过存储模块获取到关键字符组，关键字符组中包括若干个关键符，且关键符具有优先级排序，对区域字段进行遍历分析并得到区域字段的输出字符段以及区遍系数；对特征字段进行遍历分析并得到特征字段的输出字符段以及特遍系数；

步骤四：将区遍系数与特遍系数进行比较并通过比较结果得到识别字符段，将识别字符段发送至识别管理平台。

本发明具备下述有益效果：

通过ORC技术对电子印章进行扫描，然后对图像文件进行分析处理，获取文字及版面信息，对电子印章中的文字进行自动提取后建立字符集，通过字符集为字段分析模块的字段分析过程提供数据支撑；

通过字段分析模块可以对电子印章的字符集进行字段分析，通过区域分析模式与特征分析模式分别对字符集进行字段分析，从而根据字段分析结果得到区域字段与特征字段，区域字段与特征字段是采用不同方式获取到的字符组合，结合语义分析提高电子印章文本提取结果的精确性；

通过语义分析模块可以对区域字段以及特征字段进行语义分析，通过对关键符进行优先级排序以及遍历分析，从而对区域字段以及特征字段的划分合理行进行反馈，将划分合理行更高的字段划分方式对应的输出字符段标记为识别字符段，保证识别字符段能够符合电子印章文本的语义表述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一的系统框图；

图2为本发明实施例二的方法流程图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例一

如图1所示，一种基于数据分析的印章识别管理系统，包括识别管理平台，识别管理平台通信连接有文字提取模块、字段分析模块、语义分析模块以及存储模块。

文字提取模块用于对电子印章中的文字进行提取分析：将进行识别管理的电子印章标记为识别对象，通过ORC技术对识别对象中的文字进行提取并将提取到的所有字符建立字符集，将字符集发送至识别管理平台，识别管理平台接收到字符集后将字符集发送至字段分析模块；通过ORC技术对电子印章进行扫描，然后对图像文件进行分析处理，获取文字及版面信息，对电子印章中的文字进行自动提取后建立字符集，通过字符集为字段分析模块的字段分析过程提供数据支撑。

字段分析模块用于对电子印章的字符集进行字段分析：字段分析模式包括区域分析模式以及特征分析模式，采用区域分析模式进行字段分析的具体过程包括：随机选取字符集中的一个字符并标记为中心符，将在识别对象中与中心符距离最近的字符标记为标记符，将中心符与标记符的中心位置的距离值标记为标记值，通过存储模块获取到标记阈值，将标记值与标记阈值进行比较：若标记值小于标记阈值，则将标记符标记为关联符，将识别对象中与中心符距离第二近的字符标记为标记符，同时对与关联符距离最近的字符是否为中心符进行判定：若是，则将与关联字符距离第二近的字符标记为标记符；若否，则将与关联字符距离最近的字符标记为标记符；以此类推，直至所有标记符的标记值均不小于标记阈值；若标记值大于等于标记阈值，则由中心符与关联符组成一个区域字段；将区域字段中的字符从字符集中删除后，再次随机选取字符集中的一个字符并标记为中心符，直至字符集中的字符均组成对应的区域字段；将区域字段发送至识别管理平台，识别管理平台接收到区域字段后将区域字段发送至语义分析模块；采用特征分析模式进行字段分析的具体过程包括：获取字符集中所有字符的特征数据，特征数据包括字符的字体、字符的字号以及字符的色度；将特征数据完全相同的字符组成特征字段；将特征字段发送至识别管理平台，识别管理平台接收到特征字段后将特征字段发送至语义分析模块；对电子印章的字符集进行字段分析，通过区域分析模式与特征分析模式分别对字符集进行字段分析，从而根据字段分析结果得到区域字段与特征字段，区域字段与特征字段是采用不同方式获取到的字符组合，结合语义分析提高电子印章文本提取结果的精确性。

语义分析模块用于对区域字段以及特征字段进行语义分析：通过存储模块获取到关键字符组，关键字符组中包括若干个关键符，且关键符具有优先级排序，对区域字段进行遍历分析：随机选取一个区域字段，将选取的区域字段中的字符按照自左向右、自右向左以及自上向下的方向进行排序并分别生成横左字符段、横右字符段以及纵上字符段，将关键字符组中优先级排序第一的关键符标记为比对符，若横左字符段、横右字符段以及纵上字符段有且仅有一个字符段中包含有比对符，则判定遍历分析结束，将包含有比对符的字符段标记为输出字符段，将区域字段的遍历次数进行记录并对下一个区域字段进行遍历分析，直至所有区域字段均完成遍历分析；否则，将关键字符组中优先级排序第二的关键符标记为比对符，以此类推，直至横左字符段、横右字符段以及纵上字符段有且仅有一个字符段中包含有比对符；获取区域字段语义分析的普遍数据PB以及多遍数据DB，普遍数据PB为所有区域字段进行遍历分析时的遍历次数的平均值，多遍数据DB的获取过程包括：将区域字段的遍历次数与预设次数阈值进行比较：若遍历次数小于次数阈值，则将对应的区域字段标记为正常字段；若遍历次数大于等于次数阈值，则将对应的区域字段标记为多遍字段，将多遍字段的数量标记为多遍数据DB；通过公式QB=α1*PB+α2*DB得到区域字段的区遍系数QB，区遍系数是一个反映区域字段与电子印章的实际文本贴近程度的数值，区遍系数的数值越小，则表示区域字段与电子印章的实际文本贴近程度越高；其中α1与α2均为比例系数，且α2＞α1＞1；采用与区域字段遍历分析相同的方式对特征字段进行遍历分析并得到特征字段的特遍系数TB，将区遍系数QB与特遍系数TB进行比较：若区遍系数QB大于特遍系数TB，则将区域字段对应的输出字符段标记为识别字符段；若区遍系数QB小于等于特遍系数TB，则将特征字段对应的输出字符段标记为识别字符段；将识别字符段发送至识别管理平台；对区域字段以及特征字段进行语义分析，通过对关键符进行优先级排序以及遍历分析，从而对区域字段以及特征字段的划分合理行进行反馈，将划分合理行更高的字段划分方式对应的输出字符段标记为识别字符段，保证识别字符段能够符合电子印章文本的语义表述。

实施例二

如图2所示，一种基于数据分析的印章识别管理方法，包括以下步骤：

一种基于数据分析的印章识别管理系统，工作时，将进行识别管理的电子印章标记为识别对象，通过ORC技术对识别对象中的文字进行提取并将提取到的所有字符建立字符集，将字符集通过识别管理平台发送至字段分析模块；采用区域分析模式对字符集进行字段分析并得到区域字段，采用特征分析模式对字符集进行字段分析并得到特征字段；通过存储模块获取到关键字符组，关键字符组中包括若干个关键符，且关键符具有优先级排序，对区域字段进行遍历分析并得到区域字段的输出字符段以及区遍系数；对特征字段进行遍历分析并得到特征字段的输出字符段以及特遍系数；将区遍系数与特遍系数进行比较并通过比较结果得到识别字符段，将识别字符段发送至识别管理平台。

上述公式均是采集大量数据进行软件模拟得出且选取与真实值接近的一个公式，公式中的系数是由本领域技术人员根据实际情况进行设置；如：公式QB=α1*PB+α2*DB；由本领域技术人员采集多组样本数据并对每一组样本数据设定对应的区遍系数；将设定的区遍系数和采集的样本数据代入公式，任意两个公式构成二元一次方程组，将计算得到的系数进行筛选并取均值，得到α1以及α2的取值分别为3.48和2.16；

系数的大小是为了将各个参数进行量化得到的一个具体的数值，便于后续比较，关于系数的大小，取决于样本数据的多少及本领域技术人员对每一组样本数据初步设定对应的区遍系数；只要不影响参数与量化后数值的比例关系即可，如区遍系数与多遍数据的数值成正比。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

Claims

1.一种基于数据分析的印章识别管理系统，其特征在于，包括识别管理平台，所述识别管理平台通信连接有文字提取模块、字段分析模块、语义分析模块以及存储模块；

2.根据权利要求1所述的一种基于数据分析的印章识别管理系统，其特征在于，采用区域分析模式进行字段分析的具体过程包括：随机选取字符集中的一个字符并标记为中心符，将在识别对象中与中心符距离最近的字符标记为标记符，将中心符与标记符的中心位置的距离值标记为标记值，通过存储模块获取到标记阈值，将标记值与标记阈值进行比较：若标记值小于标记阈值，则将标记符标记为关联符，将识别对象中与中心符距离第二近的字符标记为标记符，同时对与关联符距离最近的字符是否为中心符进行判定：若是，则将与关联字符距离第二近的字符标记为标记符；若否，则将与关联字符距离最近的字符标记为标记符；以此类推，直至所有标记符的标记值均不小于标记阈值；若标记值大于等于标记阈值，则由中心符与关联符组成一个区域字段；将区域字段中的字符从字符集中删除后，再次随机选取字符集中的一个字符并标记为中心符，直至字符集中的字符均组成对应的区域字段。

3.根据权利要求2所述的一种基于数据分析的印章识别管理系统，其特征在于，采用特征分析模式进行字段分析的具体过程包括：获取字符集中所有字符的特征数据，特征数据包括字符的字体、字符的字号以及字符的色度；将特征数据完全相同的字符组成特征字段。

4.根据权利要求3所述的一种基于数据分析的印章识别管理系统，其特征在于，对区域字段进行遍历分析：随机选取一个区域字段，将选取的区域字段中的字符按照自左向右、自右向左以及自上向下的方向进行排序并分别生成横左字符段、横右字符段以及纵上字符段，将关键字符组中优先级排序第一的关键符标记为比对符，若横左字符段、横右字符段以及纵上字符段有且仅有一个字符段中包含有比对符，则判定遍历分析结束，将包含有比对符的字符段标记为输出字符段，将区域字段的遍历次数进行记录并对下一个区域字段进行遍历分析，直至所有区域字段均完成遍历分析；否则，将关键字符组中优先级排序第二的关键符标记为比对符，以此类推，直至横左字符段、横右字符段以及纵上字符段有且仅有一个字符段中包含有比对符。

5.根据权利要求4所述的一种基于数据分析的印章识别管理系统，其特征在于，区域字段的区遍系数的获取过程包括：获取区域字段语义分析的普遍数据以及多遍数据，普遍数据为所有区域字段进行遍历分析时的遍历次数的平均值，多遍数据的获取过程包括：将区域字段的遍历次数与预设次数阈值进行比较：若遍历次数小于次数阈值，则将对应的区域字段标记为正常字段；若遍历次数大于等于次数阈值，则将对应的区域字段标记为多遍字段，将多遍字段的数量标记为多遍数据；通过对普遍数据与多遍数据进行数值计算得到区域字段的区遍系数。

6.根据权利要求5所述的一种基于数据分析的印章识别管理系统，其特征在于，将区遍系数与特遍系数进行比较的具体过程包括：

7.根据权利要求1-6任一项所述的一种基于数据分析的印章识别管理系统，其特征在于，该基于数据分析的印章识别管理系统的工作方法，包括以下步骤：