CN114565044A - 印章识别方法及系统 - Google Patents

印章识别方法及系统 Download PDF

Info

Publication number
CN114565044A
CN114565044A CN202210193763.7A CN202210193763A CN114565044A CN 114565044 A CN114565044 A CN 114565044A CN 202210193763 A CN202210193763 A CN 202210193763A CN 114565044 A CN114565044 A CN 114565044A
Authority
CN
China
Prior art keywords
seal
text recognition
recognition result
target
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210193763.7A
Other languages
English (en)
Other versions
CN114565044B (zh
Inventor
方磊
严京旗
徐敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zetyun Tech Co ltd
Original Assignee
Beijing Zetyun Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zetyun Tech Co ltd filed Critical Beijing Zetyun Tech Co ltd
Priority to CN202210193763.7A priority Critical patent/CN114565044B/zh
Publication of CN114565044A publication Critical patent/CN114565044A/zh
Application granted granted Critical
Publication of CN114565044B publication Critical patent/CN114565044B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Collating Specific Patterns (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种印章识别方法及系统,所述方法包括:对目标文件进行印章识别处理,获得目标文件包括的至少两个印章图像;根据各印章图像之间的图像相似度,确定至少一个印章分组;每个印章分组包括融合印章和N个印章图像,融合印章基于N个印章图像生成,N为大于1的正整数;对每个印章分组进行文本识别处理,得到每个印章分组对应的目标文本识别结果。上述印章识别的过程中,对属于同一印章分组中相似度较高的印章图像进行文本识别,而不是对单枚印章进行文字识别,以此消除了单枚印章可能存在图像操作,图像印痕,以及受到成像视角等因素对文本识别结果的影响,以此提高了文本识别结果的准确性。

Description

印章识别方法及系统
技术领域
本发明涉及图像处理技术领域,特别是涉及一种印章识别方法及系统。
背景技术
在图像处理技术领域,对应印章识别应用较多,通常对合同扫描件或电子合同中的单枚印章进行文字识别,得到印章图像对应的文字识别结果。上述文字识别过程包括:消除印章背景中的文字、将印章转换为矩形图像、进行光学字符识别(Optical CharacterRecognition,OCR)以及对识别出的文本局部纠错。
然而,上述单枚印章可能存在图像操作,图像印痕,以及受到成像视角等因素的影响,进而降低了文本识别结果的准确性。
发明内容
本发明实施例的目的在于提供一种印章识别方法及系统,解决现有的印章识别方法中受到图像操作,图像印痕,以及受到成像视角等因素的影响,进而降低了文本识别结果的准确性的技术问题。
为了解决上述技术问题,本发明实施例提供了一种印章识别方法,所述方法包括:
对目标文件进行印章识别处理,获得所述目标文件包括的至少两个印章图像;
根据各所述印章图像之间的图像相似度,确定至少一个印章分组;每个印章分组包括融合印章和N个印章图像,所述融合印章基于所述N个印章图像生成,N为大于1的正整数;
对每个印章分组进行文本识别处理,得到所述每个印章分组对应的目标文本识别结果。
可选地,所述根据各所述印章图像之间的图像相似度,确定至少一个印章分组包括:
确定所述至少两个印章图像中匹配的印章对,所述印章对包括两个所述印章图像;
计算所述印章对的图像相似度;
在所述图像相似度小于或等于第一预设阈值的情况下,将所述印章对包括的印章图像,确定为一个中间分组;
对所述中间分组包括的N个印章图像进行印章融合处理,得到所述融合印章;
根据所述N个印章图像以及所述融合印章,确定所述印章分组。
可选地,所述印章对包括第一印章图像和第二印章图像,所述确定所述至少两个印章图像中匹配的印章对包括:
以所述第二印章图像为基准,对所述至少两个印章图像中的第一印章图像进行矩阵变换处理,得到所述第一印章图像对应的第一角度和第一尺度;
基于所述第一角度、所述第一尺度、所述至少两个印章图像中的第二印章图像对应的第二角度和第二尺度,确定所述第一印章图像与所述第二印章图像之间的匹配结果;
在所述匹配结果表征匹配成功的情况下,将所述第一印章图像和所述第二印章图像确定为匹配的印章对。
可选地,所述基于所述第一角度、所述第一尺度、所述至少两个印章图像中的第二印章图像对应的第二角度和第二尺度,确定所述第一印章图像与所述第二印章图像之间的匹配结果包括:
在所述第一角度与所述第二角度相同,且所述第一尺度与所述第二尺度相同的情况下,确定匹配成功;
在所述第一角度、所述第一尺度、所述第二角度和所述第二尺度满足预设条件的情况下,确定匹配失败;
其中,所述预设条件包括以下至少一项:
所述第一角度与所述第二角度不同;
所述第一尺度与所述第二尺度不同。
可选地,所述对每个印章分组进行文本识别处理,得到所述每个印章分组对应的目标文本识别结果包括:
对每个印章分组进行文本识别处理,得到所述印章分组对应的N+1个第一文本识别结果;
对所述N+1个第一文本识别结果进行文本融合处理,得到所述印章分组对应的第二文本识别结果;
将所述第二文本识别结果确定为目标文本识别结果。
可选地,所述将所述第二文本识别结果确定为目标文本识别结果之前,所述方法还包括:
根据所述第二文本识别结果与所述N+1个第一文本识别结果,确定对所述第二文本识别结果的第一可信度评价指标;
在所述第一可信度评价指标满足第二预设阈值,将所述第二文本识别结果确定为所述目标文本识别结果。
可选地,所述根据所述第二文本识别结果与所述N+1个第一文本识别结果,确定对所述第二文本识别结果的第一可信度评价指标包括:
计算所述第二文本识别结果与所述N+1个第一文本识别结果之间的平均编辑距离;
基于所述平均编辑距离和所述第二文本识别结果对应的文本长度,确定所述印章分组对应的第一目标数值。
可选地,所述方法还包括:
对目标文件进行文本识别处理,获得所述目标文件对应的至少一个第三文本识别结果;
比较所述至少一个第三文本识别结果和所述目标文本识别结果,得到所述目标文本识别结果对应的第二可信度评价指标;
根据所述第二可信度评价指标,验证所述目标文本识别结果。
可选地,所述比较所述至少一个第三文本识别结果和所述目标文本识别结果,得到所述目标文本识别结果对应的第二可信度评价指标包括:
计算所述目标文本识别结果与所述至少一个第三文本识别结果之间的目标编辑距离;
基于所述目标编辑距离和所述目标文本识别结果对应的文本长度,确定所述印章分组对应的第二目标数值;
基于所述第二目标数值与第三预设阈值之间的大小关系,生成所述目标文本识别结果对应的第二可信度评价指标。
可选地,所述验证所述目标文本识别结果之后,所述方法包括:
输出目标信息;
所述目标信息包括以下至少一项:
目标文件包括的至少两个印章图像;
目标文件对应的至少一个第三文本识别结果;
目标文本识别结果;
目标文本识别结果对应的第二可信度评价指标。
本发明实施例还提供了一种印章识别系统,所述系统包括:
第一识别模块,用于对目标文件进行印章识别处理,获得所述目标文件包括的至少两个印章图像;
第一确定模块,用于根据各所述印章图像之间的图像相似度,确定至少一个印章分组;每个印章分组包括融合印章和N个印章图像,所述融合印章基于所述N个印章图像生成,N为大于1的正整数;
第二识别模块,用于对每个印章分组进行文本识别处理,得到所述每个印章分组对应的目标文本识别结果。
可选地,所述第一确定模块,具体用于:
确定所述至少两个印章图像中匹配的印章对,所述印章对包括两个所述印章图像;
计算所述印章对的图像相似度;
在所述图像相似度小于或等于第一预设阈值的情况下,将所述印章对包括的印章图像,确定为一个中间分组;
对所述中间分组包括的N个印章图像进行印章融合处理,得到所述融合印章;
根据所述N个印章图像以及所述融合印章,确定所述印章分组。
可选地,所述印章对包括第一印章图像和第二印章图像,所述第一确定模块,还具体用于:
以所述第二印章图像为基准,对所述至少两个印章图像中的第一印章图像进行矩阵变换处理,得到所述第一印章图像对应的第一角度和第一尺度;
基于所述第一角度、所述第一尺度、所述至少两个印章图像中的第二印章图像对应的第二角度和第二尺度,确定所述第一印章图像与所述第二印章图像之间的匹配结果;
在所述匹配结果表征匹配成功的情况下,将所述第一印章图像和所述第二印章图像确定为匹配的印章对。
可选地,所述第一确定模块,还具体用于:
在所述第一角度与所述第二角度相同,且所述第一尺度与所述第二尺度相同的情况下,确定匹配成功;
在所述第一角度、所述第一尺度、所述第二角度和所述第二尺度满足预设条件的情况下,确定匹配失败;
其中,所述预设条件包括以下至少一项:
所述第一角度与所述第二角度不同;
所述第一尺度与所述第二尺度不同。
可选地,所述第二识别模块,具体用于:
对每个印章分组进行文本识别处理,得到所述印章分组对应的N+1个第一文本识别结果;
对所述N+1个第一文本识别结果进行文本融合处理,得到所述印章分组对应的第二文本识别结果;
将所述第二文本识别结果确定为目标文本识别结果。
可选地,所述系统还包括:
第二确定模块,用于根据所述第二文本识别结果与所述N+1个第一文本识别结果,确定对所述第二文本识别结果的第一可信度评价指标;
第三确定模块,用于在所述第一可信度评价指标满足第二预设阈值,将所述第二文本识别结果确定为所述目标文本识别结果。
可选地,所述第二确定模块,具体用于:
计算所述第二文本识别结果与所述N+1个第一文本识别结果之间的平均编辑距离;
基于所述平均编辑距离和所述第二文本识别结果对应的文本长度,确定所述印章分组对应的第一目标数值。
可选地,所述系统还包括:
第三识别模块,用于对目标文件进行文本识别处理,获得所述目标文件对应的至少一个第三文本识别结果;
比较模块,用于比较所述至少一个第三文本识别结果和所述目标文本识别结果,得到所述目标文本识别结果对应的第二可信度评价指标;
验证模块,用于根据所述第二可信度评价指标,验证所述目标文本识别结果。
可选地,所述比较模块,具体用于:
计算所述目标文本识别结果与所述至少一个第三文本识别结果之间的目标编辑距离;
基于所述目标编辑距离和所述目标文本识别结果对应的文本长度,确定所述印章分组对应的第二目标数值;
基于所述第二目标数值与第三预设阈值之间的大小关系,生成所述目标文本识别结果对应的第二可信度评价指标。
可选地,所述系统还包括:
输出模块,用于输出目标信息;
所述目标信息包括以下至少一项:
目标文件包括的至少两个印章图像;
目标文件对应的至少一个第三文本识别结果;
目标文本识别结果;
目标文本识别结果对应的第二可信度评价指标。
本发明实施例还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现如上所述的印章识别方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行如上所述的印章识别方法。
本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如上所述的印章识别方法。
本发明实施例中,根据目标文件包括的各个印章图像之间的相似度,对目标文件包括的印章图像进行分组,确定至少一个印章分组;且每个印章分组包括融合印章和N个印章图像,融合印章基于N个印章图像生成,N为大于1的正整数;从而基于包含融合印章的印章分组得到目标文本识别结果。本发明提供的技术方式,从目标文件的多处提取多个印章图像,并利用相似度找出相似印章,并对相似印章进行图像融合,从而利用融合印章可以避免单枚印章受到背景噪声、印痕深浅、成像视角等因素导致识别精度低的问题,以此提高印章分组的印章质量和对印章进行识别的准确性。进一步地,对每个印章分组进行文本识别处理,得到每个印章分组对应的目标文本识别结果,上述印章识别的过程中,对包含融合印章的印章分组进行文本市识别,利用属于同一印章分组中相似度较高的印章图像进行多源融合识别,而不是对单枚印章进行文字识别,以此消除了单枚印章可能存在图像操作,图像印痕,以及受到成像视角等因素对文本识别结果的影响,以此提高了印章识别结果的准确性和可靠性。此外,本申请还对目标文件进行文本识别处理,得到目标文件对应的至少一个第三文本识别结果,通过目标文本识别结果与上述至少一个第三文本识别结果,得到目标文本识别结果对应的第二可信度评价指标,本申请根据第三文本识别结果和基于印章图像识别出的目标文本结果进行语义综合分析,得到对应的第二可信度评价指标,,以此根据上述第二可信度评价指标,确保生成正确的目标文本识别结果。本发明提出了一种高鲁棒、高精准、可评价的印章识别技术,该印章识别技术综合了多源印章融合和语义分析技术,通过将一份合同等目标文件中多处加盖的同公司印章进行融合识别,改善了单枚印章识别受到背景噪声、印痕深浅、成像视角等因素造成识别结果准确度低的影响,提升印章名称识别的精度;同时,合同内容中也会在多处提到相关签约方的名称,通过关键信息提取,可以与印章多源识别结果进行比对和验证,进一步提升印章名称识别的精度。最后,该比对结果也可以用于合同稽核中各方名称和盖章的一致性判断,为标准印章库构建、印章真伪鉴别等后续处理任务提供可靠支撑。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例中印章识别方法的流程示意图;
图2a为本发明实施例中印章识别方法的应用场景图之一;
图2b为本发明实施例中印章识别方法的应用场景图之二;
图2c为本发明实施例中印章识别方法的应用场景图之三;
图3为本发明实施例中印章识别方法的应用流程图;
图4为本发明实施例中印章识别系统的结构示意图;
图5为本发明实施例中一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
本发明实施例提供了一种印章识别方法,请参阅图1,图1为本发明实施例中印章识别方法的流程示意图。本发明实施例提供的印章识别方法包括:
S101,对目标文件进行印章识别处理,获得所述目标文件包括的至少两个印章图像。
上述目标文件可以是格式为PDF或Word的电子合同或电子文档等文件,也可以是图像文件。
本实施例中,使用已训练的深度学习印章检测模型对目标文件进行印章识别处理,得到目标文件包括的至少两个印章图像。其中,上述已训练的深度学习印章检测模型包括但不限于基于Faster R-CNN的印章检测模型,基于SSD的印章检测模型,以及基于YOLO的印章检测模型等。
S102,根据各所述印章图像之间的图像相似度,确定至少一个印章分组。
本步骤中,在得到印章图像之后,根据各个印章图像之间的图像相似度,对目标图像包括的印章图像进行分组,得到至少一个印章分组。其中,每个印章分组包括融合印章和N个印章图像,N为大于1的正整数。
应理解,上述N个印章图像之间的相似度较高,上述融合印章是基于N个印章图像生成的,具体的如何生成融合印章的技术方案,请参阅后续实施例。
S103,对每个印章分组进行文本识别处理,得到所述每个印章分组对应的目标文本识别结果。
本步骤中,在对目标图像包括的印章图像进行分组,得到至少一个印章分组后,对每个印章分组包括的印章图像进行文本识别处理,得到每个印章分组对应的目标文本识别结果。
可选地,可以对印章分组包括的印章图像进行OCR文字识别。例如,将圆形印章图像进行极坐标展开成矩形图像,得到矩形印章图像,然后,使用CRNN或者BERT-OCR或者TOCR等文本识别引擎对矩形印章图像进行OCR文字识别。
本发明实施例中,根据目标文件包括的各个印章图像之间的相似度,对目标文件包括的印章图像进行分组,确定至少一个印章分组;且每个印章分组包括融合印章和N个印章图像,融合印章基于N个印章图像生成,N为大于1的正整数。上述融合印章可以避免单枚印章受严重噪声影响的情况,以此提高印章分组的印章质量和对印章进行识别的准确性。进一步地,对每个印章分组进行文本识别处理,得到每个印章分组对应的目标文本识别结果。上述印章识别的过程中,对属于同一印章分组中相似度较高的印章图像进行文本识别,而不是对单枚印章进行文字识别,以此消除了单枚印章可能存在图像操作,图像印痕,以及受到成像视角等因素对文本识别结果的影响,以此提高了文本识别结果的准确性。
可选地,所述根据各所述印章图像之间的图像相似度,确定至少一个印章分组包括:
确定所述至少两个印章图像中匹配的印章对;
计算所述印章对的图像相似度;
在所述图像相似度小于或等于第一预设阈值的情况下,将所述印章对包括的印章图像,确定为一个中间分组;
对所述中间分组包括的N个印章图像进行印章融合处理,得到所述融合印章;
根据所述N个印章图像以及所述融合印章,确定所述印章分组。
本实施例中,确定目标文件包括的印章图像中匹配的印章对,其中,印章对包括两个相互匹配的印章图像,具体如何确定印章对的技术方案,请参阅后续实施例。
在得到印章对后,计算印章对的图像相似度。可选地,可以将两个印章图像之间的余弦相似度、哈希相似度、直方图相似度、结构相似度、互信息相似度等相似度信息作为该印章对的图像相似度,或者,使用孪生神经网络模型或度量神经网络模型等计算印章对中两个印章图像之间的图像相似度。
示例性的,设定印章对包括印章图像Sij和印章图像S'ij,印章对的图像相似度为SIM(Sij,S'ij),在归一化处理后的图像相似度SIM(Sij,S'ij)<T的情况下,表示印章图像Sij对应的印章与印章图像S'ij对应的印章为同一印章,则将印章图像Sij和印章图像S'ij分类为一个印章分组。其中,上述T为第一预设阈值,0<T≤1,可选地,设置T等于0.6。
本实施例中,在对目标文件包括的印章图中进行分类,得到至少一个印章分组后,对于每个印章分组,将该印章分组包括的N个印章图像进行印章融合处理,得到融合印章。
可选地,可以基于灰度值对N个印章图像进行像素级融合处理,或者基于颜色分量的最大值对N个印章图像进行像素级融合处理,或者基于像素值的平均值对N个印章图像进行像素级融合处理,或者使用其他方式进行印章融合处理,在此不做具体限定。
示例性的,请参阅图2a,如图2a所示,印章分组包括5个印章图像,对5个印章图像进行红色通道最大比例像素级融合处理,得到图2b所示的融合印章。本实施例中,计算印章对的图像相似度,将图像相似度较高的印章图像分类为一个印章分组,进而在后续的处理过程中,对目标图像中的印章进行多源识别,而不是对单枚印章图像进行文本识别处理,以此消除了单枚印章可能存在图像操作,图像印痕,以及受到成像视角等因素对文本识别结果的影响,提高了文本识别结果的准确性。
以下,具体阐述确定目标图像中匹配的印章对的技术方案:
可选地,所述确定所述至少两个印章图像中匹配的印章对包括:
以所述第二印章图像为基准,对所述至少两个印章图像中的第一印章图像进行矩阵变换处理,得到所述第一印章图像对应的第一角度和第一尺度;
基于所述第一角度、所述第一尺度、所述至少两个印章图像中的第二印章图像对应的第二角度和第二尺度,确定所述第一印章图像与所述第二印章图像之间的匹配结果;
在所述匹配结果表征匹配成功的情况下,将所述第一印章图像和所述第二印章图像确定为匹配的印章对。
本实施例中,任意选择目标文件中的两个印章图像,组成印章对,印章对包括第一印章图像和第二印章图像,将其中一个印章图像称为第一印章图像,将另外一个印章图像称为第二印章图像。对第一印章图像和第二印章图像进行图像匹配,上述图像匹配方法包括但不限于SIFT方法、SURF方法、ORB方法和AKAZE方法,应理解,在上述匹配过程中,使用单应性矩阵对第一印章图像进行矩阵变换处理,调整第一印章图像的尺度和角度,将矩阵变换处理后的第一印章图像的尺度称为第一尺度,将矩阵变换处理后的第一印章图像的角度称为第一角度。
在得到第一印章图像对应的第一角度和第一尺度后,可以基于第一角度、第一尺度以及第二印章图像对应的第二角度和第二尺度,确定第一印章图像与第二印章图像之间的匹配结果。具体的如何确定匹配结果的技术方案,请参阅后续实施例。
在上述匹配结果表征匹配成功的情况下,将第一印章图像和第二印章图像确定为匹配的印章对。在上述匹配结果表征匹配失败的情况下,可以从目标图像包括的印章图像中再次选择一个印章图像作为上述第一印章图像,重复上述匹配过程,与第二印章图像进行图像匹配。
本实施例中,对第一印章图像进行矩阵变换处理,得到第一印章图像对应的第一尺度和第一角度,基于上述第一尺度、第一角度和第二印章图像对应的第二尺度、第二角度,确定相互匹配的印章图像,进而提高后续对目标图像进行多源识别的准确性。
可选地,所述基于所述第一角度、所述第一尺度、所述至少两个印章图像中的第二印章图像对应的第二角度和第二尺度,确定所述第一印章图像与所述第二印章图像之间的匹配结果包括:
在所述第一角度与所述第二角度相同,且所述第一尺度与所述第二尺度相同的情况下,确定匹配成功;
在所述第一角度、所述第一尺度、所述第二角度和所述第二尺度满足预设条件的情况下,确定匹配失败。
本实施例中,在第一角度与第二角度相同,且第一尺度与第二尺度相同的情况下,确定第一印章图像与第二印章图像匹配成功。
在第一角度、第一尺度、第二角度和第二尺度满足预设条件的情况下,确定匹配失败。其中,预设条件包括以下至少一项:第一角度与第二角度不同;第一尺度与第二尺度不同。
也就是说,一种可选地实施方式为,在第一角度与第二角度不同的情况下,确定第一印章图像与第二印章图像匹配失败。
另一种可选地实施方式为,在第一尺度与第二尺度不同的情况下,确定第一印章图像与第二印章图像匹配失败。
另一种可选地实施方式为,在第一角度与第二角度不同,且第一尺度与第二尺度不同的情况下,确定第一印章图像与第二印章图像匹配失败。
为便于理解,请参阅图2a和图2c,如图2a所示,印章分组包括5个印章图像,按照从左至右的顺序,将第一个印章图像对应的角度称为目标角度,对应的尺度称为目标尺度。对图2a示出的第二个至第五个印章图像进行矩阵变换处理,使得矩阵变换后的第二个至第五个印章图像对应的角度为目标角度,对应的尺度为目标尺度,上述矩阵变换后的第二个至第五个印章图像即图2c中,按照从左至右的顺序,示出的第二个至第五个印章图像。
可选地,所述对每个印章分组进行文本识别处理,得到所述每个印章分组对应的目标文本识别结果包括:
对每个印章分组进行文本识别处理,得到所述印章分组对应的N+1个第一文本识别结果;
对所述N+1个第一文本识别结果进行文本融合处理,得到所述印章分组对应的第二文本识别结果;
将所述第二文本识别结果确定为目标文本识别结果。
如上所述,每个印章分组包括N个印章图像以及1个融合印章。本实施例中,对印章分组中的每个印章图像进行文本识别处理,得到该印章分组对应的N+1个第一文本识别结果。可选地,可以使用OCR技术对印章图像进行文本识别处理。
对上述N+1个第一文本识别结果进行文本融合处理,得到印章分组对应的第二文本识别结果,其中,可以使用NLP技术对N+1个第一文本识别结果进行分词和以命名实体识别进行地名、人名、机构名称等识别,然后综合词频得分、命名实体得分对识别结果的不同位置进行语义级文本融合,将得到的文本结果确定为第二文本识别结果,进而直接将第二文本识别结果确定为目标文本识别结果。
可选地,所述将所述第二文本识别结果确定为目标文本识别结果之前,所述方法还包括:
根据所述第二文本识别结果与所述N+1个第一文本识别结果,确定对所述第二文本识别结果的第一可信度评价指标;
在所述第一可信度评价指标满足第二预设阈值,将所述第二文本识别结果确定为所述目标文本识别结果。
另一种可选地实施方式为,在得到第二文本识别结果后,确定第二文本识别结果对应的第一可信度评价指标,具体,例如上述第一可信度评价指标可以基于第二文本识别结果与N+1个第一文本识别结果之间的文本相似度得到,或者,还可以基于第二文本识别结果与N+1个第一文本识别结果的交叉熵或偏差熵等得到。具体的如何确定第二文本识别结果的第一可信度评价指标的实施方式,请参阅后续实施例。
本实施例中,上述第一可信度评价指标可以用一个数值表示,将该数值称为第一目标数值。可选地,在第一目标数值大于或等于第二预设阈值的情况下,表示第二文本识别结果与各个第一文本识别结果之间的误差在合理范围内,将第二文本识别结果确定为目标文本识别结果,以此提高目标文本识别结果的准确性。
可选地,第一可信度评价指标基于第二文本识别结果与所述N+1个第一文本识别结果的相似度得到,具体包括:分别计算第二文本识别结果与N+1个第一文本识别结果的相似度,得到N+1个中间结果,从而根据该N+1个中间结果得到平均相似度,进而根据该平均相似度得到该第一可信度评价指标。
可选地,所述根据所述第二文本识别结果与所述N+1个第一文本识别结果,确定对所述第二文本识别结果的第一可信度评价指标包括:
计算所述第二文本识别结果与所述N+1个第一文本识别结果之间的平均编辑距离;
基于所述平均编辑距离和所述第二文本识别结果对应的文本长度,确定所述印章分组对应的第一目标数值。
本实施例中,在得到第二文本识别结果之后,计算第二文本识别结果与每个第一文本识别结果之间的编辑距离,得到N+1个编辑距离,将上述N+1个编辑距离的平均值确定为平均编辑距离。进一步的,可以基于下述公式,计算得到第一目标数值。
Figure BDA0003526058360000161
其中,Eval_Si表示第一目标数值,
Figure BDA0003526058360000162
表示平均编辑距离,length(Ti)表示第二文本识别结果对应的文本长度。
应理解,在其他实施例中,还可以通过其他方式计算第二文本识别结果与N+1个第一文本识别结果之间的文本相似度,例如,通过计算第二文本识别结果与N+1个第一文本识别结果之间的特征向量长度,确定可以表征该文本相似度的第一目标数值;或者,利用余弦相似度计算第二文本识别结果与N+1个第一文本识别结果之间的文本相似度;还可以利用Dice相似度计算第二文本识别结果与N+1个第一文本识别结果之间的文本相似度,本发明对于文本相似度计算不作特别限定。
可选地,为进一步验证识别出的目标文件识别结果的精准性,以便为后续处理提供可靠支撑,所述方法还包括:
对目标文件进行文本识别处理,获得所述目标文件对应的至少一个第三文本识别结果;
比较所述至少一个第三文本识别结果和所述目标文本识别结果,得到所述目标文本识别结果对应的第二可信度评价指标;
根据所述第二可信度评价指标,验证所述目标文本识别结果。
本实施例中,可以对目标文件进行文本识别处理,得到文本识别集合,上述文本识别集合包括至少一个第三文本识别结果。具体而言,若目标文件为电子合同,则可以使用OCR技术,利用预设的先导词信息提取目标文件中的关键字,进而得到第三文本识别结果,其中,上述先导词信息可以是预先设置的合同甲方信息、合同乙方信息等。
在得到目标文件对应的至少一个第三文本识别结果之后,比较上述至少一个第三文本识别结果和目标文本识别结果,得到目标文本识别结果对应的第二可信度评价指标,其中,该第二可信度评价指标可以表征目标文本识别结果与各第三文本识别结果之间的文本相似度。具体的如何得到第二可信度评价指标的实施方式,请参阅后续实施例。
应理解,上述第二可信度评价指标可以以数值的形式表示,将该数值称为第二目标数值。一种可选地实施方式为,在第二目标数值小于或等于第三预设阈值的情况下,表示印章分组对应的N个第二文本识别结果中存在与第三文本识别结果不同的文本识别结果,则确定目标文件包括错误的印章图像。可选地,上述第三预设阈值为0.8。
另一种可选地实施方式为,在第二目标数值大于第三预设阈值的情况下,表示印章分组对应的N个第二文本识别结果与第三文本识别结果相同,则表征目标文件包括的印章图像为正确的印章图像。
本实施例中,通过比较至少一个第三文本识别结果和目标文本识别结果,得到目标文本识别结果对应的第二可信度评价指标,并基于第二可信度评价指标表征的第二目标数值与第三预设阈值之间的大小关系,确定印章图像的真伪,以此确保生成正确的目标文本识别结果。
可选地,所述比较所述至少一个第三文本识别结果和所述目标文本识别结果,得到所述目标文本识别结果对应的第二可信度评价指标包括:
计算所述目标文本识别结果与所述至少一个第三文本识别结果之间的目标编辑距离;
基于所述目标编辑距离和所述目标文本识别结果对应的文本长度,确定所述印章分组对应的第二目标数值;
基于所述第二目标数值与第三预设阈值之间的大小关系,生成所述目标文本识别结果对应的第二可信度评价指标。
本实施例中,在得到第三文本识别结果之后,计算目标文本识别结果与每个第三文本识别结果之间的编辑距离,得到多个编辑距离,将上述多个编辑距离的最小值确定为目标编辑距离。
进一步的,可以基于下述公式,计算得到第二目标数值。
Figure BDA0003526058360000181
其中,
Figure BDA0003526058360000182
表示第二目标数值,minj(Edit_dist(Ti,Nj)表示目标编辑距离,length(Ti)表示目标文本识别结果对应的文本长度。
本实施例中,预先设置有第三预设阈值,可以基于第二目标数值与第三预设阈值之间的大小关系,生成目标文本识别结果对应的第二可信度评价指标。
可选地,在第二目标数值大于第三预设阈值的情况下,生成表征印章图像为正确的印章图像的第二可信度评价指标。
可选地,在第二目标数值小于或等于第三预设阈值的情况下,生成表征印章图像为错误的印章图像的第二可信度评价指标。
本发明利用OCR技术,提取目标文件中可能出现的各方名称,并将识别都的各方名称与基于印章图像识别结果进行语义综合比对,用该比对结果也作为印章识别的可靠性评价维度之一,为印章稽核中各方名称和盖章的一致性判断提供参考。
可选地,所述验证所述目标文本识别结果之后,所述方法包括:
输出目标信息。
本实施例中,在对目标文本识别结果极性验证之后,可以向用户终端输出目标信息,其中,上述目标信息包括以下至少一项:目标文件包括的至少两个印章图像;目标文件对应的至少一个第三文本识别结果;目标文本识别结果;目标文本识别结果对应的第二可信度评价指标。
可选地,上述目标信息还包括:所有印章区域在目标文件中的页码、印章分组、各印章图像对应的文本识别结果以及第一可信度评价指标。
为便于理解整体技术方案,本发明提供一种印章识别方法,其流程图请参阅图3。
如图3所示,该方法的具体实现如下:
步骤一:输入合同的扫描件或电子文档,格式包括PDF文件,或者多幅JPG、PNG、TIF等图像文件。如果是PDF文件,将PDF文件解析成多幅图像,每页对应一幅图像。
步骤二:利用已训练的深度学习模型,检测合同扫描件或电子文档上的印章区域,即印章图像。
步骤三:通过图像匹配方法和计算图像相似度对所有的印章图像进行分组和配准,即得到印章分组;对于每个印章分组,对该分组的印章图像进行像素级如下融合,得到融合图像。
具体包括:步骤3.1印章图像中任选一幅印章图像Sij,组成一个新的印章图像组Si={Sij},并将Sij标记为已进组;步骤3.2:将Sij与任一未进组且未与Sij匹配过的印章图像Spq进行图像匹配,利用匹配的单应性矩阵M(Sij,Spq)将Spq变换到与Sij相同角度和尺度的印章图像S′pq;如果Sij和Spq无法匹配,则选取下一个未进组且未与Sij匹配过的印章图像,重复步骤3.2;步骤3.3:计算匹配后印章图像Sij和S′pq的相似度SIM(Sij,S′pq),并归一化到[0.0,1.0]范围;步骤3.4:如果相似度SIM(Sij,S′pq)<T,(0.0<T≤1.0,此处T一般可取0.6),则Sij和Spq来源于同一印章的盖章图像,此时将S′pq视为与Sij是同一尺度和角度的相同印章图像,可以进行像素级融合,将S′pq并入组Si,即Si={Sij,...,S′pq},同时将Spq标记为已进组印章图像。否则,Sij和Spq视为来源于不同印章,选取下一个未进组且未与Sij匹配过的印章图像,重复步骤3.2;步骤3.5:当Sij和所有未进组的印章图像完成匹配和相似度分析后,完成组Si的初创建;如果还有未进组的印章图像,则重复步骤3.1,直到完成分组操作。步骤3.6:初创建的Si中印章图像进行像素级融合生成一幅融合印章图像Si,n+1,完成分组。
步骤四:对每个印章分组中的印章图像进行OCR文本识别,得到第一识别结果,并对第一识别结果进行文本融合,得到每个印章分组的名称融合结果,上述名称融合结果相当于每个印章分组对应的第二文本识别结果;通过计算印章分组对应的第二文本识别结果和每个印章图像对应的第一文本识别结果之间的编辑距离,得到该印章分组对应的多源印章识别可靠性评价和目标文本识别结果,即上述实施例中的第一可信度评价指标;以此,得到目标文件中所有印章分组对应的第一可信度评价指标。
上述步骤四具体包括:对这n+1幅印章图像进行OCR文字识别,得到第一识别结果(RTi,1,...,RTi,n+1);;对于每个文本识别结果,可以利用NLP中的分词技术进行分词和以命名实体识别进行地名、人名、机构名称等识别,综合词频得分、命名实体得分对识别结果的不同位置进行语义级文本融合,得到得分最高的文本串作为该组印章的名称识别结果第二文本识别结果Ti;以Ti为参考,与RTi,1,...,RTi,n+1比对,得到第一可信度评价指标。
步骤五:在步骤一得到目标文件后,对目标文件进行OCR文本识别,并利用NLP技术通过先导词提取目标文件中的关键字,进而得到签约方名称信息,签约方名称信息即上述实施例中的第三文本识别结果,上述得到签约方名称信息的过程即得到第三文本识别结果的过程。具体包括:若利用关键字得到多个重复的签约方名称信息,利用文本融合方法进行处理,得到文本融合处理后的签约方名称集合Ns={Nj}。
步骤六:在得到第三文本识别结果和目标文本识别结果后,利用第三文本识别结果和目标文本识别结果之间的编辑距离,得到标文本识别结果对应的一致性评价,上述一致性评价即上述实施例中的第二可信度评价指标。具体的,利用编辑距离得出印章名称识别结果Ti与签约方名称Ns={Nj}的第二可信度评价指标。
步骤七:返回结果并结束。返回结果可包括:所有印章区域所在页码、坐标位置、对应印章分组、该分组的印章名称识别结果、该分组的名称识别可靠性评价、对应签约方名称、印章名称与签约方名称一致性评价等。
本发明提出了一种高鲁棒、高精准、可评价的印章识别技术,该印章识别技术综合了多源印章融合和语义分析技术,通过将一份合同等目标文件中多处加盖的同公司印章进行融合识别,改善了单枚印章识别受到背景噪声、印痕深浅、成像视角等因素造成识别结果准确度低的影响,提升印章名称识别的精度;同时,合同内容中也会在多处提到相关签约方的名称,通过关键信息提取,可以与印章多源识别结果进行比对和验证,进一步提升印章名称识别的精度。最后,该比对结果也可以用于合同稽核中各方名称和盖章的一致性判断,为标准印章库构建、印章真伪鉴别等后续处理任务提供可靠支撑。
如图4所示,本发明实施例还提供了一种印章识别系统200,所述印章识别系统200包括:
第一识别模块201,用于对目标文件进行印章识别处理,获得所述目标文件包括的至少两个印章图像;
第一确定模块202,用于根据各所述印章图像之间的图像相似度,确定至少一个印章分组;每个印章分组包括融合印章和N个印章图像,所述融合印章基于所述N个印章图像生成,N为大于1的正整数;
第二识别模块203,用于对每个印章分组进行文本识别处理,得到所述每个印章分组对应的目标文本识别结果。
可选地,所述第一确定模块202,具体用于:
确定所述至少两个印章图像中匹配的印章对,所述印章对包括两个所述印章图像;
计算所述印章对的图像相似度;
在所述图像相似度小于或等于第一预设阈值的情况下,将所述印章对包括的印章图像,确定为一个中间分组;
对所述中间分组包括的N个印章图像进行印章融合处理,得到所述融合印章;
根据所述N个印章图像以及所述融合印章,确定所述印章分组。
可选地,所述印章对包括第一印章图像和第二印章图像,所述第一确定模块202,还具体用于:
以所述第二印章图像为基准,对所述至少两个印章图像中的第一印章图像进行矩阵变换处理,得到所述第一印章图像对应的第一角度和第一尺度;
基于所述第一角度、所述第一尺度、所述至少两个印章图像中的第二印章图像对应的第二角度和第二尺度,确定所述第一印章图像与所述第二印章图像之间的匹配结果;
在所述匹配结果表征匹配成功的情况下,将所述第一印章图像和所述第二印章图像确定为匹配的印章对。
可选地,所述第一确定模块202,还具体用于:
在所述第一角度与所述第二角度相同,且所述第一尺度与所述第二尺度相同的情况下,确定匹配成功;
在所述第一角度、所述第一尺度、所述第二角度和所述第二尺度满足预设条件的情况下,确定匹配失败;
其中,所述预设条件包括以下至少一项:
所述第一角度与所述第二角度不同;
所述第一尺度与所述第二尺度不同。
可选地,所述第二识别模块203,具体用于:
对每个印章分组进行文本识别处理,得到所述印章分组对应的N+1个第一文本识别结果;
对所述N+1个第一文本识别结果进行文本融合处理,得到所述印章分组对应的第二文本识别结果;
将所述第二文本识别结果确定为目标文本识别结果。
可选地,所述印章识别系统200还包括:
第二确定模块,用于根据所述第二文本识别结果与所述N+1个第一文本识别结果,确定对所述第二文本识别结果的第一可信度评价指标;
第三确定模块,用于在所述第一可信度评价指标满足第二预设阈值,将所述第二文本识别结果确定为所述目标文本识别结果。
可选地,所述第二确定模块,具体用于:
计算所述第二文本识别结果与所述N+1个第一文本识别结果之间的平均编辑距离;
基于所述平均编辑距离和所述第二文本识别结果对应的文本长度,确定所述印章分组对应的第一目标数值
可选地,所述印章识别系统200还包括:
第三识别模块,用于对目标文件进行文本识别处理,获得所述目标文件对应的至少一个第三文本识别结果;
比较模块,用于计算所述目标文本识别结果与所述至少一个第三文本识别结果之间的目标编辑距离;
第二确定模块,用于比较所述至少一个第三文本识别结果和所述目标文本识别结果,得到所述目标文本识别结果对应的第二可信度评价指标;
验证模块,用于根据所述第二可信度评价指标,验证所述目标文本识别结果。
可选地,所述比较模块,具体用于:
计算所述目标文本识别结果与所述至少一个第三文本识别结果之间的目标编辑距离;
基于所述目标编辑距离和所述目标文本识别结果对应的文本长度,确定所述印章分组对应的第二目标数值;
基于所述第二目标数值与第三预设阈值之间的大小关系,生成所述目标文本识别结果对应的第二可信度评价指标。
可选地,所述系统还包括:
输出模块,用于输出目标信息;
所述目标信息包括以下至少一项:
目标文件包括的至少两个印章图像;
目标文件对应的至少一个第三文本识别结果;
目标文本识别结果;
目标文本识别结果对应的第二可信度评价指标。
本发明实施例还提供了一种电子设备,如图5所示,包括处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信。
存储器303,用于存放计算机程序;
处理器301,用于执行存储器303上所存放的程序时,所述计算机程序被所述处理器301执行时,用于对目标文件进行印章识别处理,获得所述目标文件包括的至少两个印章图像;
根据各所述印章图像之间的图像相似度,确定至少一个印章分组;
对每个印章分组进行文本识别处理,得到所述每个印章分组对应的目标文本识别结果。
可选地,所述计算机程序被所述处理器301执行时,还用于确定所述至少两个印章图像中匹配的印章对;
计算所述印章对的图像相似度;
在所述图像相似度小于或等于第一预设阈值的情况下,将所述印章对包括的印章图像,确定为一个中间分组;
对所述中分组包括的N个印章图像进行印章融合处理,得到所述融合印章;
根据所述N个印章图像以及所述融合印章,确定所述印章分组。
可选地,所述计算机程序被所述处理器301执行时,还用于以第二印章图像为基准,对所述至少两个印章图像中的第一印章图像进行矩阵变换处理,得到所述第一印章图像对应的第一角度和第一尺度;
基于所述第一角度、所述第一尺度、所述至少两个印章图像中的第二印章图像对应的第二角度和第二尺度,确定所述第一印章图像与所述第二印章图像之间的匹配结果;
在所述匹配结果表征匹配成功的情况下,将所述第一印章图像和所述第二印章图像确定为匹配的印章对。
可选地,所述计算机程序被所述处理器301执行时,还用于在所述第一角度与所述第二角度相同,且所述第一尺度与所述第二尺度相同的情况下,确定匹配成功;
在所述第一角度、所述第一尺度、所述第二角度和所述第二尺度满足预设条件的情况下,确定匹配失败。
可选地,所述计算机程序被所述处理器301执行时,还用于对每个印章分组进行文本识别处理,得到所述印章分组对应的N+1个第一文本识别结果;
对所述N+1个第一文本识别结果进行文本融合处理,得到所述印章分组对应的第二文本识别结果;
将所述第二文本识别结果确定为目标文本识别结果。
可选地,所述计算机程序被所述处理器301执行时,还用于根据所述第二文本识别结果与所述N+1个第一文本识别结果,确定对所述第二文本识别结果的第一可信度评价指标;
在所述第一可信度评价指标满足第二预设阈值,将所述第二文本识别结果确定为所述目标文本识别结果。
可选地,所述计算机程序被所述处理器301执行时,还用于计算所述第二文本识别结果与所述N+1个第一文本识别结果之间的平均编辑距离;
基于所述平均编辑距离和所述第二文本识别结果对应的文本长度,确定所述印章分组对应的第一目标数值。
可选地,所述计算机程序被所述处理器301执行时,还用于对目标文件进行文本识别处理,获得所述目标文件对应的至少一个第三文本识别结果;
比较所述至少一个第三文本识别结果和所述目标文本识别结果,得到所述目标文本识别结果对应的第二可信度评价指标;
根据所述第二可信度评价指标,验证所述目标文本识别结果。
可选地,所述计算机程序被所述处理器301执行时,还用于计算所述目标文本识别结果与所述至少一个第三文本识别结果之间的目标编辑距离;
基于所述目标编辑距离和所述目标文本识别结果对应的文本长度,确定所述印章分组对应的第二目标数值;
基于所述第二目标数值与第三预设阈值之间的大小关系,生成所述目标文本识别结果对应的第二可信度评价指标。
可选地,所述计算机程序被所述处理器301执行时,还用于输出目标信息。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一实施例所述的印章识别方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一实施例所述的印章识别方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种印章识别方法,其特征在于,包括:
对目标文件进行印章识别处理,获得所述目标文件包括的至少两个印章图像;
根据各所述印章图像之间的图像相似度,确定至少一个印章分组;每个印章分组包括融合印章和N个印章图像,所述融合印章基于所述N个印章图像生成,N为大于1的正整数;
对每个印章分组进行文本识别处理,得到所述每个印章分组对应的目标文本识别结果。
2.根据权利要求1所述的方法,其特征在于,所述对每个印章分组进行文本识别处理,得到所述每个印章分组对应的目标文本识别结果包括:
对每个印章分组进行文本识别处理,得到所述印章分组对应的N+1个第一文本识别结果;
对所述N+1个第一文本识别结果进行文本融合处理,得到所述印章分组对应的第二文本识别结果;
将所述第二文本识别结果确定为目标文本识别结果。
3.根据权利要求2所述的方法,其特征在于,所述将所述第二文本识别结果确定为目标文本识别结果之前,所述方法还包括:
根据所述第二文本识别结果与所述N+1个第一文本识别结果,确定对所述第二文本识别结果的第一可信度评价指标;
在所述第一可信度评价指标满足第二预设阈值,将所述第二文本识别结果确定为所述目标文本识别结果。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述方法还包括:
对目标文件进行文本识别处理,获得所述目标文件对应的至少一个第三文本识别结果;
比较所述至少一个第三文本识别结果和所述目标文本识别结果,得到所述目标文本识别结果对应的第二可信度评价指标;
根据所述第二可信度评价指标,验证所述目标文本识别结果。
5.一种印章识别系统,其特征在于,包括:
第一识别模块,用于对目标文件进行印章识别处理,获得所述目标文件包括的至少两个印章图像;
第一确定模块,用于根据各所述印章图像之间的图像相似度,确定至少一个印章分组;每个印章分组包括融合印章和N个印章图像,所述融合印章基于所述N个印章图像生成,N为大于1的正整数;
第二识别模块,用于对每个印章分组进行文本识别处理,得到所述每个印章分组对应的目标文本识别结果。
6.根据权利要求5所述的系统,其特征在于,所述第二识别模块,具体用于:
对每个印章分组进行文本识别处理,得到所述印章分组对应的N+1个第一文本识别结果;
对所述N+1个第一文本识别结果进行文本融合处理,得到所述印章分组对应的第二文本识别结果;
将所述第二文本识别结果确定为目标文本识别结果。
7.根据权利要求6所述的系统,其特征在于,所述系统还包括:
第二确定模块,用于根据所述第二文本识别结果与所述N+1个第一文本识别结果,确定对所述第二文本识别结果的第一可信度评价指标;
第三确定模块,用于在所述第一可信度评价指标满足第二预设阈值,将所述第二文本识别结果确定为所述目标文本识别结果。
8.根据权利要求5-7中任一项所述的系统,其特征在于,所述系统还包括:
第三识别模块,用于对目标文件进行文本识别处理,获得所述目标文件对应的至少一个第三文本识别结果;
比较模块,用于比较所述至少一个第三文本识别结果和所述目标文本识别结果,得到所述目标文本识别结果对应的第二可信度评价指标;
验证模块,用于根据所述第二可信度评价指标,验证所述目标文本识别结果。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-4中任一项所述的印章识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时,实现如权利要求1-4中任一项所述的印章识别方法。
CN202210193763.7A 2022-03-01 2022-03-01 印章识别方法及系统 Active CN114565044B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210193763.7A CN114565044B (zh) 2022-03-01 2022-03-01 印章识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210193763.7A CN114565044B (zh) 2022-03-01 2022-03-01 印章识别方法及系统

Publications (2)

Publication Number Publication Date
CN114565044A true CN114565044A (zh) 2022-05-31
CN114565044B CN114565044B (zh) 2022-08-16

Family

ID=81715154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210193763.7A Active CN114565044B (zh) 2022-03-01 2022-03-01 印章识别方法及系统

Country Status (1)

Country Link
CN (1) CN114565044B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6351550B1 (en) * 1997-09-17 2002-02-26 Fujitsu Limited Seal imprint verifying apparatus
CN110298338A (zh) * 2019-06-20 2019-10-01 北京易道博识科技有限公司 一种文档图像分类方法及装置
CN110728198A (zh) * 2019-09-20 2020-01-24 北京三快在线科技有限公司 图像处理方法、装置、电子设备及可读存储介质
CN111881943A (zh) * 2020-07-08 2020-11-03 泰康保险集团股份有限公司 图像分类的方法、装置、设备和计算机可读介质
CN111950353A (zh) * 2020-06-30 2020-11-17 深圳市雄帝科技股份有限公司 印章文本识别方法、装置及电子设备
CN112651913A (zh) * 2020-12-17 2021-04-13 广州市申迪计算机系统有限公司 一种发票印章淡化方法、系统、装置及计算机存储介质
CN112686236A (zh) * 2020-12-21 2021-04-20 福建新大陆软件工程有限公司 一种多特征融合的印章检测方法
CN113610090A (zh) * 2021-07-29 2021-11-05 广州广电运通金融电子股份有限公司 印章图像识别分类方法、装置、计算机设备和存储介质
CN113887337A (zh) * 2021-09-15 2022-01-04 浪潮云信息技术股份公司 具有弯曲文本的印章识别方法、系统及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6351550B1 (en) * 1997-09-17 2002-02-26 Fujitsu Limited Seal imprint verifying apparatus
CN110298338A (zh) * 2019-06-20 2019-10-01 北京易道博识科技有限公司 一种文档图像分类方法及装置
CN110728198A (zh) * 2019-09-20 2020-01-24 北京三快在线科技有限公司 图像处理方法、装置、电子设备及可读存储介质
CN111950353A (zh) * 2020-06-30 2020-11-17 深圳市雄帝科技股份有限公司 印章文本识别方法、装置及电子设备
CN111881943A (zh) * 2020-07-08 2020-11-03 泰康保险集团股份有限公司 图像分类的方法、装置、设备和计算机可读介质
CN112651913A (zh) * 2020-12-17 2021-04-13 广州市申迪计算机系统有限公司 一种发票印章淡化方法、系统、装置及计算机存储介质
CN112686236A (zh) * 2020-12-21 2021-04-20 福建新大陆软件工程有限公司 一种多特征融合的印章检测方法
CN113610090A (zh) * 2021-07-29 2021-11-05 广州广电运通金融电子股份有限公司 印章图像识别分类方法、装置、计算机设备和存储介质
CN113887337A (zh) * 2021-09-15 2022-01-04 浪潮云信息技术股份公司 具有弯曲文本的印章识别方法、系统及存储介质

Also Published As

Publication number Publication date
CN114565044B (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
WO2021114840A1 (zh) 基于语义分析的评分方法、装置、终端设备及存储介质
KR102048638B1 (ko) 콘텐츠 인식 방법 및 시스템
CN111767422A (zh) 一种数据审核方法、装置、终端及存储介质
CN110502694B (zh) 基于大数据分析的律师推荐方法及相关设备
US20220292861A1 (en) Docket Analysis Methods and Systems
WO2022089227A1 (zh) 地址参数处理方法及相关设备
CN113837151A (zh) 表格图像处理方法、装置、计算机设备及可读存储介质
WO2022134580A1 (zh) 证件信息的获取方法及装置、存储介质、计算机设备
WO2023035362A1 (zh) 用于模型训练的污染样本数据的检测方法及装置
CN113076961B (zh) 一种图像特征库更新方法、图像检测方法和装置
CN111738290B (zh) 图像检测方法、模型构建和训练方法、装置、设备和介质
CN112949653A (zh) 文本识别方法以及电子设备、存储装置
CN114565044B (zh) 印章识别方法及系统
CN112464927A (zh) 一种信息提取方法、装置及系统
CN115830598A (zh) 一种用于标准设备的溯源确认方法、系统、设备及介质
CN112989820B (zh) 法律文书定位方法、装置、设备及存储介质
WO2022237065A1 (zh) 分类模型的训练方法、视频分类方法及相关设备
CN112926577B (zh) 一种医疗票据图像结构化方法和装置、计算机可读介质
Dai et al. A Multimedia Learning for Chinese Character Image Recognition via Human‐Computer Interaction Network
CN113420699A (zh) 一种人脸匹配方法、装置及电子设备
Banerjee et al. Quote examiner: verifying quoted images using web-based text similarity
CN114612919B (zh) 一种票据信息处理系统及方法、装置
CN117037166A (zh) 基于人工智能的文本识别方法、装置、计算机设备及介质
CN112613294A (zh) 法律文书裁判结果的检验方法及装置
CN115563947A (zh) 一种底稿文件生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant