CN113553962A - 一种电子签章定位方法、装置、设备及存储介质 - Google Patents
一种电子签章定位方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113553962A CN113553962A CN202110852722.XA CN202110852722A CN113553962A CN 113553962 A CN113553962 A CN 113553962A CN 202110852722 A CN202110852722 A CN 202110852722A CN 113553962 A CN113553962 A CN 113553962A
- Authority
- CN
- China
- Prior art keywords
- file
- electronic signature
- positioning
- text
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000004891 communication Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000012937 correction Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 5
- 230000004048 modification Effects 0.000 claims description 4
- 238000012986 modification Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 7
- 238000001914 filtration Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Character Discrimination (AREA)
Abstract
本申请涉及人工智能技术领域,提供一种电子签章定位方法、装置、设备及存储介质,包括:获取待签章文件;对待签章文件进行文字识别,以得到文本型文件;根据文本型文件的结构信息,确定文本型文件中的文件体数据;获取电子签章的定位关键字,定位关键字包括第一关键字和至少一个扩展关键字,至少一个扩展关键字包括第一关键字的同义字;将定位关键字与文件体数据中的字符进行匹配,以识别出文件体数据中匹配成功的字符位置,匹配成功的字符位置为电子签章的初始位置;调整电子签章的初始位置,得到调整后的电子签章的位置,调整后的电子签章的位置为电子签章在待签章文件中的最终位置。本申请实施例的技术方案,能够提高电子签章的定位效率。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种电子签章定位方法、装置、设备及存储介质。
背景技术
目前很多售卖的产品中,需要配置多份协议,其中,每份协议中也可能会需要多个电子签章。因此,运营人员在新增产品时,往往需要手动录入附件协议中电子签章的位置,例如电子签章所在页以及所在页中的坐标等。显然,手动录入电子签章的位置需要耗费大量时间,效率较低。
为了解决上述问题,可以将需要定位电子签章的附件上传至其他专门做电子签章的机构的文件服务器上,但是这样存在一定的客户资料的泄露风险。因此,运营人员现在通常使用PDF插件工具,手动操作获取电子签章的位置,实现定位。但是,使用插件工具进行手动定位的操作数据量依然较大,需要耗费大量时间,导致电子签章的定位效率很低。
发明内容
本申请提供了一种电子签章定位方法、装置、设备及存储介质,能够提高电子签章的定位效率。
本申请第一方面提供了一种电子签章定位方法,包括:
获取待签章文件;
对所述待签章文件进行文字识别,以得到文本型文件;
根据所述文本型文件的结构信息,确定所述文本型文件中的文件体数据,其中,所述文件体数据包含所述文本型文件中的文字信息;
获取电子签章的定位关键字,其中,所述定位关键字包括第一关键字和至少一个扩展关键字,所述至少一个扩展关键字包括所述第一关键字的同义字;
将所述定位关键字与所述文件体数据中的字符进行匹配,以识别出所述文件体数据中匹配成功的字符位置,所述匹配成功的字符位置为所述电子签章的初始位置;
调整所述电子签章的初始位置,得到调整后的所述电子签章的位置,调整后的所述电子签章的位置为所述电子签章在所述待签章文件中的最终位置。
本申请第二方面提供了一种电子签章定位装置,包括:
第一获取模块,用于获取待签章文件;
文字识别模块,用于对所述待签章文件进行文字识别,以得到文本型文件;
确定模块,用于根据所述文本型文件的结构信息,确定所述文本型文件中的文件体数据,其中,所述文件体数据包含所述文本型文件中的文字信息;
第二获取模块,用于获取电子签章的定位关键字,其中,所述定位关键字包括第一关键字和至少一个扩展关键字,所述至少一个扩展关键字包括所述第一关键字的同义字;
匹配模块,用于将所述定位关键字与所述文件体数据中的字符进行匹配,以识别出所述文件体数据中匹配成功的字符位置,所述匹配成功的字符位置为所述电子签章的初始位置;
调整模块,用于调整所述电子签章的初始位置,得到调整后的所述电子签章的位置,调整后的所述电子签章的位置为所述电子签章在所述待签章文件中的最终位置。
本申请第三方面提供了一种电子设备,所述电子设备包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行本申请第一方面任一方法中的步骤的指令。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现本申请第一方面任一方法中所描述的部分或全部步骤。
可以看到,通过本申请提出的电子签章定位方法、装置、设备及存储介质,首先获取待签章文件,对待签章文件进行文字识别,以得到文本型文件。其次,根据该文本型文件的结构信息,确定该文本型文件中的文件体数据。其次,获取电子签章的定位关键字,将该定位关键字与该文件体数据中的字符进行匹配,以识别出文件体数据中匹配成功的字符位置,匹配成功的字符位置为电子签章的初始位置。最后,调整电子签章的初始位置,得到电子签章在待签章文件中的最终位置。这样,当需要对非文本型的待签章文件进行签章定位时,可以通过文字识别技术将待签章文件转换为文本型文件,然后通过关键字匹配自动实现电子签章的定位,并且定位后还可以调整电子签章的最终位置,不需要手动操作定位,节省了定位时间,提高了电子签章的定位效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种电子签章定位系统的示意图;
图2为本申请实施例提供的一种电子签章定位方法的流程示意图;
图3为本申请实施例提供的另一种电子签章定位方法的流程示意图;
图4为本申请实施例提供的一种电子签章定位装置的示意图;
图5为本申请实施例涉及的硬件运行环境的电子设备结构示意图。
具体实施方式
本申请实施例提供的电子签章定位方法、装置、设备及存储介质,能够提高电子签章的定位效率。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面对本申请实施例进行详细介绍。
首先参见图1,图1为本申请实施例提供的一种电子签章定位系统的示意图。如图1所示,电子签章定位系统100包括定位系统101、文字识别系统102和配置中心103。
在本申请实施例提供的电子签章定位系统100中,首先,定位系统101获取待签章文件。其次,文字识别系统102对所述待签章文件进行文字识别,以得到文本型文件。其次,定位系统101根据所述文本型文件的结构信息,确定所述文本型文件中的文件体数据,其中,所述文件体数据包含所述文本型文件中的文字信息。其次,定位系统101从配置中心103中获取电子签章的定位关键字,所述定位关键字包括第一关键字和至少一个扩展关键字,所述至少一个扩展关键字包括所述第一关键字的同义字。其次,定位系统101将所述定位关键字与所述文件体数据中的字符进行匹配,以识别出所述文件体数据中匹配成功的字符位置,所述匹配成功的字符位置为所述电子签章的初始位置。最后,定位系统101调整所述电子签章的初始位置,得到调整后的所述电子签章的位置,调整后的所述电子签章的位置为所述电子签章在所述待签章文件中的最终位置。
具体的,运营人员在新增产品或编辑产品时,在定位系统101中上传需要定位签章的待签章文件,该待签章文件为非文本型文件,例如可以为PDF文件或图像文件。定位系统101获取待签章文件。定位系统101调用文字识别系统102的接口,将待签章文件以PDF文件流的方式传给文字识别系统102,发起文字识别请求。
文字识别系统102在获取到PDF格式的待签章文件后,对PDF格式的待签章文件进行文字识别,得到文本型文件。文字识别系统102将文本型文件返回给定位系统101存储,以便于后续处理。其中,文本型文件以二进制流格式存储在磁盘中,并且存储的格式是固定的。
定位系统101根据文本型文件的结构信息,确定文本型文件中的文件体数据。文本型文件的结构包括文件头、文件体、交叉引用表和文件尾,并且文件头、文件体、交叉引用表和文件尾分别对应的起始字符不同。通过识别文件体对应的起始字符,可以确定出文本型文件中的文件体数据。
定位系统101从配置中心103中获取电子签章的定位关键字,该定位关键字包括第一关键字和至少一个扩展关键字,该至少一个扩展关键字包括该第一关键字的同义字。这样,当第一关键字匹配失败时,可以将该至少一个扩展关键字进行匹配,从而提高匹配成功率。
定位系统101将定位关键字与文件体数据中的字符进行匹配,以识别出文件体数据中匹配成功的字符位置,匹配成功的字符位置为电子签章的初始位置。
定位系统101调整电子签章的初始位置,得到调整后的电子签章的位置,调整后的电子签章的位置为电子签章在待签章文件中的最终位置。
可以看出,通过本申请实施例提供的电子签章定位系统,当需要对非文本型的待签章文件进行签章定位时,可以通过文字识别技术将待签章文件转换为文本型文件,然后通过关键字匹配自动实现电子签章的定位,并且定位后还可以调整电子签章的最终位置,不需要手动操作定位,节省了定位时间,提高了电子签章的定位效率。
参见图2,图2为本申请实施例提供的一种电子签章定位方法的流程示意图。其中,如图2所示,本申请实施例提供的一种电子签章定位方法可以包括:
201、获取待签章文件。
运营人员在新增产品或编辑产品时,上传需要定位电子签章的待签章文件,该待签章文件为非文本型文件,包括PDF格式文件或图像文件。电子签章定位系统获取该待签章文件,发起文字识别请求。
202、对所述待签章文件进行文字识别,以得到文本型文件。
可选的,对待签章文件进行文字识别的方法可以是:获取到非文本型的待签章文件后,对待签章文件进行预处理,包括几何变换、畸变校正、去除模糊、图像增强和光线校正中的至少一种;对所述预处理后的待签章文件进行文字检测,以确定文本所在的位置信息和范围信息;根据所述位置信息和所述范围信息,将所述待签章文件中的文字识别成文本信息,以得到文本型文件。其中,所述文本型文件以二进制流格式存储在磁盘中,并且存储的格式是固定的。
在一种可能的实施方式中,在对待签章文件进行文字识别之前,对该待签章文件进行图像增强。首先,通过傅里叶变换将该待签章文件从空间域转换到频率域,然后在频率域对该待签章文件进行处理,最后通过傅里叶反变换将处理后的待签章文件转换到空间域。其中,在频率域对该待签章文件进行处理包括低通滤波、高通滤波和同态滤波等。
203、根据所述文本型文件的结构信息,确定所述文本型文件中的文件体数据。
具体的,所述文件体数据包含所述文本型文件中的文字信息。
可选的,所述文本型文件的结构包括文件头、文件体、交叉引用表和文件尾,并且文件头、文件体、交叉引用表和文件尾分别对应的起始字符不同。根据所述文本型文件的结构信息,确定所述文本型文件中的文件体数据的方法可以是:获取文件体对应的起始字符;在所述文本型文件中查找所述文件体对应的起始字符;确定所述文本型文件中位于所述文件体对应的起始字符之后的数据为所述文件体数据。
204、获取电子签章的定位关键字,其中,所述定位关键字包括第一关键字和至少一个扩展关键字,所述至少一个扩展关键字包括所述第一关键字的同义字。
具体的,电子签章的定位关键字是可以配置的,可以根据需求,灵活的增加、删除、修改等。首先获取电子签章的第一关键字,获取电子签章的第一关键字后,查找预先配置的第一关键字的至少一个扩展关键字。其中,扩展关键字可以是第一关键字的同义字,也可以是与第一关键字相像的字符。这样,当前面的文字识别出错时,通过灵活配置定位关键字,即使在文件体数据中无法匹配到与第一关键字相同的字符,也可以匹配到与扩展关键字相同的字符,从而定位到电子签章的位置,从而有效改善电子签章定位出错的问题。
举例来说,在对待签章文件进行文字识别得到文本型文件时,有时候不能百分百还原内容,存在一定的误差。例如电子签章的第一关键字为英文字母i,待签章文件中的英文字母i被识别成数字1或者英文字母l或者其他字符。在这种情况下,电子签章的第一关键字为字母i,配置的扩展关键字包括数字1和英文字母l,这样即使在文件体数据中没有匹配到英文字母i,也可以匹配到数字1或者英文字母l,仍然可以定位到电子签章的位置。
205、将所述定位关键字与所述文件体数据中的字符进行匹配,以识别出所述文件体数据中匹配成功的字符位置,所述匹配成功的字符位置为所述电子签章的初始位置。
可选的,将定位关键字与文件体数据中的字符进行匹配,以识别出文件体数据中匹配成功的字符位置的方法可以是:将所述定位关键字中的所述第一关键字与所述文件体数据中的字符进行匹配,判断是否匹配成功;若所述第一关键字与所述文件体数据中的字符匹配成功,则识别出所述文件体数据中匹配成功的第一字符位置,所述第一字符位置为所述匹配成功的字符位置。
进一步可选的,将定位关键字与文件体数据中的字符进行匹配,以识别出文件体数据中匹配成功的字符位置的方法还包括:若所述第一关键字与所述文件体数据中的字符匹配失败,则将所述定位关键字中的所述至少一个扩展关键字与所述文件体数据中的字符进行匹配,判断是否匹配成功;若所述至少一个扩展关键字与所述文件体数据中的字符匹配成功,则识别出所述文件体数据中匹配成功的至少一个第二字符位置,所述至少一个第二字符位置为所述匹配成功的字符位置。
这样,当前面的文字识别出错时,即使在文件体数据中无法匹配到与第一关键字相同的字符,也可以匹配到与扩展关键字相同的字符,从而定位到电子签章的位置,从而有效改善电子签章定位出错的问题。
206、调整所述电子签章的初始位置,得到调整后的所述电子签章的位置,调整后的所述电子签章的位置为所述电子签章在所述待签章文件中的最终位置。
可选的,调整电子签章的初始位置,得到调整后的电子签章的位置的方法可以是:根据所述电子签章的初始位置,生成预览文件,所述预览文件中包含所述电子签章;根据所述预览文件的反馈信息,调整所述电子签章的初始位置;保存调整后的所述电子签章的位置。
在一种可能的实施方式根据所述预览文件的反馈信息,调整电子签章的初始位置的方法可以是:当接收到携带第一签章位置的位置删除指令时,从所述电子签章的初始位置中删除所述第一签章位置;当接收到携带第二签章位置的位置增加指令时,在所述电子签章的初始位置中增加所述第二签章位置;当接收到携带第三签章位置和第四签章位置的位置修改指令时,将所述电子签章的初始位置中的所述第三签章位置修改为所述第四签章位置。
可以看出,通过本申请实施例提供的电子签章定位方法,首先获取待签章文件,对待签章文件进行文字识别,以得到文本型文件。其次,根据该文本型文件的结构信息,确定该文本型文件中的文件体数据。其次,获取电子签章的定位关键字,将该定位关键字与该文件体数据中的字符进行匹配,以识别出文件体数据中匹配成功的字符位置,匹配成功的字符位置为电子签章的初始位置。最后,调整电子签章的初始位置,得到电子签章在待签章文件中的最终位置。这样,当需要对非文本型的待签章文件进行签章定位时,可以通过文字识别技术将待签章文件转换为文本型文件,然后通过关键字匹配自动实现电子签章的定位,并且定位后还可以调整电子签章的最终位置,不需要手动操作定位,节省了定位时间,提高了电子签章的定位效率。
参见图3,图3为本申请实施例提供的另一种电子签章定位方法的流程示意图。其中,如图3所示,本申请实施例提供的另一种电子签章定位方法可以包括:
301、获取待签章文件。
运营人员在新增产品或编辑产品时,上传需要定位电子签章的待签章文件,该待签章文件为非文本型文件,包括PDF格式文件或图像文件。电子签章定位系统获取该待签章文件,发起文字识别请求。
302、对该待签章文件进行文字识别,以得到文本型文件。
可选的,对该待签章文件进行文字识别可以采用光学文字识别(opticalcharacter recognition,OCR)技术。
在一种可能的实施方式中,对该待签章文件进行文字识别的方法可以是:对该待签章文件进行图像预处理,针对图像的成像问题进行修正,图像预处理过程包括几何变换、畸变校正、去除模糊、图像增强和光线校正中的至少一种。预处理后,对该待签章文件进行文字检测,以确定文本所在的位置信息和范围信息。检测完后,对该待签章文件进行文本识别,在文本检测的基础上,将图像中的文本识别为文本信息,也就是将PDF格式的待签章文件解析为文本型文件。其中,该文本型文件以二进制流格式存储在磁盘中,并且存储的格式是固定的。
在一种可能的实施方式中,在对待签章文件进行文字识别之前,对该待签章文件进行图像增强。首先,通过傅里叶变换将该待签章文件从空间域转换到频率域,然后在频率域对该待签章文件进行处理,最后通过傅里叶反变换将处理后的待签章文件转换到空间域。其中,在频率域对该待签章文件进行处理包括低通滤波、高通滤波和同态滤波等。
303、根据该文本型文件的结构信息,确定该文本型文件中的文件体数据。
在一种可能的实施方式中,根据文本型文件的结构信息,确定文本型文件中的文件体数据的方法可以是:获取文件体对应的起始字符;在文本型文件中查找文件体对应的起始字符;确定文本型文件中位于文件体对应的起始字符之后的数据为文件体数据。
具体的,该文本型文件的结构包括文件头、文件体、交叉引用表和文件尾,并且文件头、文件体、交叉引用表和文件尾分别对应的起始字符不同。举例来说,文件头以“%PDF”开头,后面紧跟着PDF的版本号;文件体以“%”开头,后面跟着文件体数据;交叉引用表以“Xref”开头,表示交叉引用表开始;文件尾以“Trailer”开头,说明文件尾对象开始。通过识别文本型文件中文件体对应的起始字符“%”,可以确定该文本型文件中的文件体数据。
304、获取电子签章的定位关键字。
具体的,电子签章的定位关键字用于在待签章文件中对电子签章进行定位,例如,定位关键字包括“盖”和“章”,也就是说,在待签章文件中有“盖”和“章”的位置需要进行盖章。电子签章的定位关键字包括第一关键字和至少一个扩展关键字,该至少一个扩展关键字包括该第一关键字的同义字。
电子签章的定位关键字是可以配置的,可以根据需求,灵活的增加、删除、修改等。获取电子签章的第一关键字后,查找预先配置的第一关键字的至少一个扩展关键字,其中,扩展关键字可以是第一关键字的同义字,也可以是与第一关键字相像的字符。这样,当文字识别出错时,通过灵活配置定位关键字,即使在文件体数据中无法匹配到与第一关键字相同的字符,也可以匹配到与扩展关键字相同的字符,从而定位到电子签章的位置,从而有效改善电子签章定位出错的问题。
举例来说,在对待签章文件进行文字识别得到文本型文件时,有时候不能百分百还原内容,存在一定的误差。例如电子签章的第一关键字为英文字母i,待签章文件中的英文字母i被识别成与英文字母i相像的字符,例如识别成数字1或者英文字母l或者其他字符。在这种情况下,电子签章的第一关键字为字母i,配置的扩展关键字包括数字1和英文字母l,这样即使在文件体数据中没有匹配到英文字母i,也可以匹配到数字1或者英文字母l,仍然可以定位到电子签章的位置。
再例如,电子签章的第一关键字为英文字母i,待签章文件中的英文字母i被识别成与英文字母同义的字符,例如识别成英文字母I。在这种情况下,电子签章的第一关键字为字母i,配置的扩展关键字包括英文字母I,这样即使在文件体数据中没有匹配到英文字母i,也可以匹配到英文字母I,仍然可以定位到电子签章的位置。
305、将该定位关键字与文件体数据中的字符进行匹配,以识别出文件体数据中匹配成功的字符位置。
在一种可能的实施方式中,将定位关键字与文件体数据中的字符进行匹配,以识别出文件体数据中匹配成功的字符位置的方法可以是:将定位关键字中的第一关键字与文件体数据中的字符进行匹配,判断是否匹配成功;若第一关键字与文件体数据中的字符匹配成功,则识别出文件体数据中匹配成功的第一字符位置,第一字符位置为所述匹配成功的字符位置。
进一步的,将定位关键字与文件体数据中的字符进行匹配,以识别出文件体数据中匹配成功的字符位置的方法还包括:若第一关键字与文件体数据中的字符匹配失败,则将定位关键字中的至少一个扩展关键字与文件体数据中的字符进行匹配,判断是否匹配成功;若至少一个扩展关键字与文件体数据中的字符匹配成功,则识别出文件体数据中匹配成功的至少一个第二字符位置,至少一个第二字符位置为所述匹配成功的字符位置。
这样,当前面的文字识别出错时,即使在文件体数据中无法匹配到与第一关键字相同的字符,也可以匹配到与扩展关键字相同的字符,从而定位到电子签章的位置,从而有效改善电子签章定位出错的问题。
在另外一种可能的实施方式中,将定位关键字与文件体数据中的字符进行匹配时,若第一关键字和至少一个第二关键字都识别失败,则重新对该待签章文件进行文本识别,或者获取新的第一关键字,以及获取新的至少一个扩展关键字,重新进行匹配。
306、生成预览文件,该预览文件中包含电子签章,预览文件中电子签章的位置为匹配成功的字符位置。
具体的,识别出文件体数据中匹配成功的字符位置后,生成预览文件,该预览文件中包含电子签章,并且预览文件中电子签章的位置为该第一字符位置或者该至少一个第二字符位置。预览文件可供运营人员预览。
307、根据该预览文件的反馈信息,调整电子签章的位置。
在一种可能的实施方式中,根据预览文件的反馈信息,调整电子签章的位置的方法可以是:当接收到携带第一签章位置的位置删除指令时,从电子签章的位置中删除第一签章位置;当接收到携带第二签章位置的位置增加指令时,在电子签章的位置中增加第二签章位置;当接收到携带第三签章位置和第四签章位置的位置修改指令时,将电子签章的位置中的第三签章位置修改为第四签章位置。
具体的,预览文件中电子签章的位置是可调整的,可以删除、增加和修改,这样可以提高电子签章的定位准确率。当需要删除某个电子签章时,获取该电子签章的第一签章位置,从电子签章的位置中删除第一签章位置。当需要增加某个电子签章时,获取该电子签章的第二签章位置,在电子签章的位置中增加第二签章位置。当需要修改某个电子签章的位置时,获取该电子签章的第三签章位置以及修改后的第四签章位置,将电子签章的位置中的第三签章位置修改为第四签章位置。
在一种可能的实施方式中,预览文件是基于H5技术展示在前端的。同时结合了H5本身自带的拖拽功能的插件,运营人员可以在预览文件中自行使用插件调整电子签章的位置。当预览文件中某些位置不需要盖章但是误识别为盖章,此时可以使用插件在拖拽页面进行删除;当预览文件中某些位置需要盖章但是误识别为不需要盖章,此时可以使用插件在拖拽页面新增签章。
308、保存调整后的电子签章的位置,调整后的电子签章的位置为待签章文件中电子签章的最终位置。
可以看出,通过本申请实施例提出的电子签章定位方法,首先获取待签章文件,对待签章文件进行文字识别,以得到文本型文件。其次,根据文本型文件的结构信息,确定文本型文件中的文件体数据。其次,获取电子签章的定位关键字,将定位关键字与文件体数据中的字符进行匹配,以识别出文件体数据中匹配成功的字符位置。最后,生成预览文件,调整电子签章的位置,保存调整后的电子签章的位置。这样,当需要对非文本型的待签章文件进行签章定位时,可以通过文字识别技术将待签章文件转换为文本型文件,然后通过关键字匹配自动实现电子签章的定位,不需要手动操作定位,节省了定位时间,提高了电子签章的定位效率。并且,实现自动定位后,还可以调整电子签章的位置,最后将调整后的位置传到后台保存,为最终的电子签章的位置,从而提高了电子签章的定位准确率。
参见图4,图4为本申请实施例提供的一种电子签章定位装置的示意图。其中,如图4所示,本申请实施例提供的一种电子签章定位装置可以包括:
第一获取模块401,用于获取待签章文件;
文字识别模块402,用于对所述待签章文件进行文字识别,以得到文本型文件;
确定模块403,用于根据所述文本型文件的结构信息,确定所述文本型文件中的文件体数据,其中,所述文件体数据包含所述文本型文件中的文字信息;
第二获取模块404,用于获取电子签章的定位关键字,其中,所述定位关键字包括第一关键字和至少一个扩展关键字,所述至少一个扩展关键字包括所述第一关键字的同义字;
匹配模块405,用于将所述定位关键字与所述文件体数据中的字符进行匹配,以识别出所述文件体数据中匹配成功的字符位置,所述匹配成功的字符位置为所述电子签章的初始位置;
调整模块406,用于调整所述电子签章的初始位置,得到调整后的所述电子签章的位置,调整后的所述电子签章的位置为所述电子签章在所述待签章文件中的最终位置。
本申请实施例中电子签章定位装置的具体实施可参见上述电子签章定位方法的各实施例,在此不做赘述。
参见图5,图5为本申请的实施例涉及的硬件运行环境的电子设备结构示意图。其中,如图5所示,本申请的实施例涉及的硬件运行环境的电子设备可以包括:
处理器501,例如CPU。
存储器502,可选的,存储器可以为高速RAM存储器,也可以是稳定的存储器,例如磁盘存储器。
通信接口503,用于实现处理器501和存储器502之间的连接通信。
本领域技术人员可以理解,图5中示出的电子设备的结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图5所示,存储器502中可以包括操作系统、网络通信模块以及电子签章定位程序。操作系统是管理和控制电子设备硬件和软件资源的程序,支持电子签章定位程序以及其他软件或程序的运行。网络通信模块用于实现存储器502内部各组件之间的通信,以及与电子设备中其他硬件和软件之间通信。
在图5所示的电子设备中,处理器501用于执行存储器502中存储的电子签章定位程序,实现以下步骤:
获取待签章文件;
对所述待签章文件进行文字识别,以得到文本型文件;
根据所述文本型文件的结构信息,确定所述文本型文件中的文件体数据,其中,所述文件体数据包含所述文本型文件中的文字信息;
获取电子签章的定位关键字,其中,所述定位关键字包括第一关键字和至少一个扩展关键字,所述至少一个扩展关键字包括所述第一关键字的同义字;
将所述定位关键字与所述文件体数据中的字符进行匹配,以识别出所述文件体数据中匹配成功的字符位置,所述匹配成功的字符位置为所述电子签章的初始位置;
调整所述电子签章的初始位置,得到调整后的所述电子签章的位置,调整后的所述电子签章的位置为所述电子签章在所述待签章文件中的最终位置。
本申请实施例中电子设备的具体实施可参见上述电子签章定位方法的各实施例,在此不做赘述。
本申请的另一个实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行以实现以下步骤:
获取待签章文件;
对所述待签章文件进行文字识别,以得到文本型文件;
根据所述文本型文件的结构信息,确定所述文本型文件中的文件体数据,其中,所述文件体数据包含所述文本型文件中的文字信息;
获取电子签章的定位关键字,其中,所述定位关键字包括第一关键字和至少一个扩展关键字,所述至少一个扩展关键字包括所述第一关键字的同义字;
将所述定位关键字与所述文件体数据中的字符进行匹配,以识别出所述文件体数据中匹配成功的字符位置,所述匹配成功的字符位置为所述电子签章的初始位置;
调整所述电子签章的初始位置,得到调整后的所述电子签章的位置,调整后的所述电子签章的位置为所述电子签章在所述待签章文件中的最终位置。
本申请实施例中计算机可读存储介质的具体实施可参见上述电子签章定位方法的各实施例,在此不做赘述。
还需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (10)
1.一种电子签章定位方法,其特征在于,包括:
获取待签章文件;
对所述待签章文件进行文字识别,以得到文本型文件;
根据所述文本型文件的结构信息,确定所述文本型文件中的文件体数据,其中,所述文件体数据包含所述文本型文件中的文字信息;
获取电子签章的定位关键字,其中,所述定位关键字包括第一关键字和至少一个扩展关键字,所述至少一个扩展关键字包括所述第一关键字的同义字;
将所述定位关键字与所述文件体数据中的字符进行匹配,以识别出所述文件体数据中匹配成功的字符位置,所述匹配成功的字符位置为所述电子签章的初始位置;
调整所述电子签章的初始位置,得到调整后的所述电子签章的位置,调整后的所述电子签章的位置为所述电子签章在所述待签章文件中的最终位置。
2.根据权利要求1所述的方法,其特征在于,所述对所述待签章文件进行文字识别,以得到文本型文件,包括:
对所述待签章文件进行预处理,包括几何变换、畸变校正、去除模糊、图像增强和光线校正中的至少一种;
对预处理后的所述待签章文件进行文字检测,以确定文本所在的位置信息和范围信息;
根据所述位置信息和所述范围信息,将所述待签章文件中的文字识别成文本信息,以得到所述文本型文件。
3.根据权利要求1或2所述的方法,其特征在于,所述文本型文件的结构包括文件头、文件体、交叉引用表和文件尾,所述根据所述文本型文件的结构信息,确定所述文本型文件中的文件体数据,包括:
获取文件体对应的起始字符,其中,文件头、文件体、交叉引用表和文件尾分别对应的起始字符不同;
在所述文本型文件中查找所述文件体对应的起始字符;
确定所述文本型文件中位于所述文件体对应的起始字符之后的数据为所述文件体数据。
4.根据权利要求1所述的方法,其特征在于,所述将所述定位关键字与所述文件体数据中的字符进行匹配,以识别出所述文件体数据中匹配成功的字符位置,包括:
将所述定位关键字中的所述第一关键字与所述文件体数据中的字符进行匹配,判断是否匹配成功;
若所述第一关键字与所述文件体数据中的字符匹配成功,则识别出所述文件体数据中匹配成功的第一字符位置,所述第一字符位置为所述匹配成功的字符位置。
5.根据权利要求4所述的方法,其特征在于,所述将所述定位关键字与所述文件体数据中的字符进行匹配,以识别出所述文件体数据中匹配成功的字符位置,还包括:
若所述第一关键字与所述文件体数据中的字符匹配失败,则将所述定位关键字中的所述至少一个扩展关键字与所述文件体数据中的字符进行匹配,判断是否匹配成功;
若所述至少一个扩展关键字与所述文件体数据中的字符匹配成功,则识别出所述文件体数据中匹配成功的至少一个第二字符位置,所述至少一个第二字符位置为所述匹配成功的字符位置。
6.根据权利要求1所述的方法,其特征在于,所述调整所述电子签章的初始位置,得到调整后的所述电子签章的位置,包括:
根据所述电子签章的初始位置,生成预览文件,所述预览文件中包含所述电子签章;
根据所述预览文件的反馈信息,调整所述电子签章的初始位置;
保存调整后的所述电子签章的位置。
7.根据权利要求6所述的方法,其特征在于,所述根据所述预览文件的反馈信息,调整所述电子签章的初始位置,包括:
当接收到携带第一签章位置的位置删除指令时,从所述电子签章的初始位置中删除所述第一签章位置;
当接收到携带第二签章位置的位置增加指令时,在所述电子签章的初始位置中增加所述第二签章位置;
当接收到携带第三签章位置和第四签章位置的位置修改指令时,将所述电子签章的初始位置中的所述第三签章位置修改为所述第四签章位置。
8.一种电子签章定位装置,其特征在于,包括:
第一获取模块,用于获取待签章文件;
文字识别模块,用于对所述待签章文件进行文字识别,以得到文本型文件;
确定模块,用于根据所述文本型文件的结构信息,确定所述文本型文件中的文件体数据,其中,所述文件体数据包含所述文本型文件中的文字信息;
第二获取模块,用于获取电子签章的定位关键字,其中,所述定位关键字包括第一关键字和至少一个扩展关键字,所述至少一个扩展关键字包括所述第一关键字的同义字;
匹配模块,用于将所述定位关键字与所述文件体数据中的字符进行匹配,以识别出所述文件体数据中匹配成功的字符位置,所述匹配成功的字符位置为所述电子签章的初始位置;
调整模块,用于调整所述电子签章的初始位置,得到调整后的所述电子签章的位置,调整后的所述电子签章的位置为所述电子签章在所述待签章文件中的最终位置。
9.一种电子设备,其特征在于,所述电子设备包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行权利要求1至7任一项方法中的步骤的指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1至7任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110852722.XA CN113553962A (zh) | 2021-07-27 | 2021-07-27 | 一种电子签章定位方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110852722.XA CN113553962A (zh) | 2021-07-27 | 2021-07-27 | 一种电子签章定位方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113553962A true CN113553962A (zh) | 2021-10-26 |
Family
ID=78104648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110852722.XA Pending CN113553962A (zh) | 2021-07-27 | 2021-07-27 | 一种电子签章定位方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113553962A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114359553A (zh) * | 2022-03-17 | 2022-04-15 | 北京惠朗时代科技有限公司 | 一种基于物联网的签章定位方法、系统及存储介质 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001022773A (ja) * | 1999-07-08 | 2001-01-26 | Ricoh Co Ltd | イメージ文書のキーワード抽出方法 |
US20060282430A1 (en) * | 2005-06-10 | 2006-12-14 | Diamond David L | Fuzzy matching of text at an expected location |
US20080228479A1 (en) * | 2006-02-24 | 2008-09-18 | Viva Transcription Coporation | Data transcription and management system and method |
CN101441713A (zh) * | 2007-11-19 | 2009-05-27 | 汉王科技股份有限公司 | 一种pdf文件的光学字符识别方法及装置 |
CN102053993A (zh) * | 2009-11-10 | 2011-05-11 | 阿里巴巴集团控股有限公司 | 一种文本过滤方法及文本过滤系统 |
CN104899822A (zh) * | 2015-06-17 | 2015-09-09 | 西南交通大学 | 一种能定位pdf电子发票篡改的水印嵌入与认证方法 |
CN105590111A (zh) * | 2015-09-17 | 2016-05-18 | 中国银联股份有限公司 | 用于识别电子文件中的专用区域的方法 |
CN107133312A (zh) * | 2017-05-02 | 2017-09-05 | 深圳乐信软件技术有限公司 | 一种电子签章方法及装置 |
CN108874928A (zh) * | 2018-05-31 | 2018-11-23 | 平安科技(深圳)有限公司 | 简历数据信息解析处理方法、装置、设备及存储介质 |
CN110245220A (zh) * | 2019-05-05 | 2019-09-17 | 深圳法大大网络科技有限公司 | 电子文件签署方法、装置及服务器、存储介质 |
CN110532811A (zh) * | 2019-08-30 | 2019-12-03 | 杭州天谷信息科技有限公司 | 一种pdf签章方法及pdf签章系统 |
CN111078630A (zh) * | 2019-12-20 | 2020-04-28 | 方正国际软件(北京)有限公司 | 一种签章系统及方法 |
CN111832264A (zh) * | 2020-06-02 | 2020-10-27 | 深圳价值在线信息科技股份有限公司 | 基于pdf文件的签名位置确定方法、装置及设备 |
CN112214782A (zh) * | 2020-11-17 | 2021-01-12 | 支付宝(杭州)信息技术有限公司 | 一种电子文档签章方法、装置及设备 |
CN112948880A (zh) * | 2021-03-08 | 2021-06-11 | 北京数字认证股份有限公司 | 文件签名方法、装置、电子设备和计算机可读存储介质 |
CN113139210A (zh) * | 2021-04-19 | 2021-07-20 | 广州腾盈信息技术有限公司 | 一种基于pdf文档的国密电子签章方法及系统 |
-
2021
- 2021-07-27 CN CN202110852722.XA patent/CN113553962A/zh active Pending
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001022773A (ja) * | 1999-07-08 | 2001-01-26 | Ricoh Co Ltd | イメージ文書のキーワード抽出方法 |
US20060282430A1 (en) * | 2005-06-10 | 2006-12-14 | Diamond David L | Fuzzy matching of text at an expected location |
US20080228479A1 (en) * | 2006-02-24 | 2008-09-18 | Viva Transcription Coporation | Data transcription and management system and method |
CN101441713A (zh) * | 2007-11-19 | 2009-05-27 | 汉王科技股份有限公司 | 一种pdf文件的光学字符识别方法及装置 |
CN102053993A (zh) * | 2009-11-10 | 2011-05-11 | 阿里巴巴集团控股有限公司 | 一种文本过滤方法及文本过滤系统 |
US20120221588A1 (en) * | 2009-11-10 | 2012-08-30 | Alibaba Group Holding Limited | Method and System for Text Filtering |
CN104899822A (zh) * | 2015-06-17 | 2015-09-09 | 西南交通大学 | 一种能定位pdf电子发票篡改的水印嵌入与认证方法 |
CN105590111A (zh) * | 2015-09-17 | 2016-05-18 | 中国银联股份有限公司 | 用于识别电子文件中的专用区域的方法 |
CN107133312A (zh) * | 2017-05-02 | 2017-09-05 | 深圳乐信软件技术有限公司 | 一种电子签章方法及装置 |
CN108874928A (zh) * | 2018-05-31 | 2018-11-23 | 平安科技(深圳)有限公司 | 简历数据信息解析处理方法、装置、设备及存储介质 |
CN110245220A (zh) * | 2019-05-05 | 2019-09-17 | 深圳法大大网络科技有限公司 | 电子文件签署方法、装置及服务器、存储介质 |
CN110532811A (zh) * | 2019-08-30 | 2019-12-03 | 杭州天谷信息科技有限公司 | 一种pdf签章方法及pdf签章系统 |
CN111078630A (zh) * | 2019-12-20 | 2020-04-28 | 方正国际软件(北京)有限公司 | 一种签章系统及方法 |
CN111832264A (zh) * | 2020-06-02 | 2020-10-27 | 深圳价值在线信息科技股份有限公司 | 基于pdf文件的签名位置确定方法、装置及设备 |
CN112214782A (zh) * | 2020-11-17 | 2021-01-12 | 支付宝(杭州)信息技术有限公司 | 一种电子文档签章方法、装置及设备 |
CN112948880A (zh) * | 2021-03-08 | 2021-06-11 | 北京数字认证股份有限公司 | 文件签名方法、装置、电子设备和计算机可读存储介质 |
CN113139210A (zh) * | 2021-04-19 | 2021-07-20 | 广州腾盈信息技术有限公司 | 一种基于pdf文档的国密电子签章方法及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114359553A (zh) * | 2022-03-17 | 2022-04-15 | 北京惠朗时代科技有限公司 | 一种基于物联网的签章定位方法、系统及存储介质 |
CN114359553B (zh) * | 2022-03-17 | 2022-06-03 | 北京惠朗时代科技有限公司 | 一种基于物联网的签章定位方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20090263019A1 (en) | OCR of books by word recognition | |
CN107797754B (zh) | 一种文本复制的方法及装置和介质产品 | |
US20160210347A1 (en) | Classification and storage of documents | |
WO2005048188A2 (en) | Method and apparatus for capturing paper-based information on a mobile computing device | |
US9208392B2 (en) | Methods and apparatus for progressive pattern matching in a mobile environment | |
CN112988753B (zh) | 一种数据搜索方法和装置 | |
EP3553702A1 (en) | Image recognition-based communication method and device | |
CN112052648B (zh) | 一种字串翻译方法、装置、电子设备及存储介质 | |
CN113553962A (zh) | 一种电子签章定位方法、装置、设备及存储介质 | |
US8195626B1 (en) | Compressing token-based files for transfer and reconstruction | |
KR20210113620A (ko) | 객체 인식 방법과 장치, 전자기기, 저장매체 | |
CN114691161A (zh) | 基于Key-Value的软件系统配置方法、装置及电子设备 | |
CN112801923A (zh) | 文字处理方法、系统、可读存储介质及计算机设备 | |
CN111353039B (zh) | 文件类别检测方法和装置 | |
CN117523584A (zh) | 一种电子面单的识别方法、装置、设备及介质 | |
CN117540374A (zh) | 文件扫描方法和装置 | |
KR20220019501A (ko) | 딥러닝 기반 전자책 자동변환 서비스 제공 방법 | |
CN110716785A (zh) | 一种多语言说明文档中界面图片截取方法、装置及系统 | |
CN108173716B (zh) | 一种识别网络设备厂商的方法和计算设备 | |
US10546218B2 (en) | Method for improving quality of recognition of a single frame | |
US10922475B2 (en) | Systems and methods for managing documents containing one or more hyper texts and related information | |
CN110858240A (zh) | 一种前端模块加载方法和装置 | |
CN111783572B (zh) | 一种文本检测方法和装置 | |
CN105068708A (zh) | 一种指令获取、反馈方法及设备和云服务器 | |
CN113837118B (zh) | 文本变异关系的获取方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |