CN112989786B - 基于图像识别的文档解析方法、系统、装置及存储介质 - Google Patents

基于图像识别的文档解析方法、系统、装置及存储介质 Download PDF

Info

Publication number
CN112989786B
CN112989786B CN202110062590.0A CN202110062590A CN112989786B CN 112989786 B CN112989786 B CN 112989786B CN 202110062590 A CN202110062590 A CN 202110062590A CN 112989786 B CN112989786 B CN 112989786B
Authority
CN
China
Prior art keywords
document
analyzed
character
text
preprocessed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110062590.0A
Other languages
English (en)
Other versions
CN112989786A (zh
Inventor
钟召昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An International Smart City Technology Co Ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN202110062590.0A priority Critical patent/CN112989786B/zh
Publication of CN112989786A publication Critical patent/CN112989786A/zh
Application granted granted Critical
Publication of CN112989786B publication Critical patent/CN112989786B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及人工智能,提供一种基于图像识别的文档解析方法、系统、装置及存储介质,其中的方法对待解析文档进行预处理,以将待解析文档中的图像信息转换为文字信息;对预处理后的待解析文档进行初步解析,以将预处理后的待解析文档切分为不同的类型材料,并确定各类型材料的标题;基于各类型材料的标题确定预处理后的待解析文档的文档类型,并通过文档类型对预设的要素标签因子体系表进行查询,以获取与文档类型相对应的关键要素标签;基于关键要素标签,对预处理后的待解析文档进行要素提取,以提取关键解析要素,并根据关键解析要素形成关键要素表。本发明提供的技术方案既能够解决人工阅读文档、解析要素工作效率低的问题。

Description

基于图像识别的文档解析方法、系统、装置及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于图像识别的文档解析 方法、系统、装置及存储介质。
背景技术
在现实生活中,对于一些文档,需要审阅人耐心地阅读其内容,以提取文 档中的所需要素,实现对该类文件的人工解析;例如,在案件审理过程中,法 官为了快速有效准确地审理案件,在对案件进行审理时,通常会对影响案件定 性的关键要素及影响案件审理的程序性事项进行重点关注。然而,由于具体案 例的细节各不相同,每个审理的案件之间都存在差异,这就意味着需要法官在 每对一个案件进行审理时,都需要翻阅所有的案件材料(文档)进行仔细阅读, 并对案件材料中的每个要素进行审核。显然,这样的操作会耗费法官大量的时 间,工作效率低下。
此外,由于在当前的文档解析(案件审理)过程中,审阅人(法官)人数 都是有限的,因此几乎所有的审阅人都面临着案多、人少的处境。经实际统计 显示,针对大部分案件来讲,案件需要阅读的主要核心要素(如当事人信息、 诉讼请求、案件事实等)都是相较固定的,因此,对于一个案件来讲,法官的 大部分阅卷工作都是重复且相似的。
相对应地,对于一些类似的场景,如,理赔纠纷案件审理、文档保存查询 等一系列文档查阅场景,均会遇到相同或相似的问题。
基于以上技术问题,为节约审阅人员的阅卷时间,提高审阅人的审判质效, 亟需一种高效的案件文档要素的自动解析方法。
发明内容
本发明提供一种基于图像识别的文档解析方法、系统、电子装置以及计算 机存储介质,其主要目的在于解决人工阅读文档、解析要素工作效率低的问题。
为实现上述目的,本发明提供一种基于图像识别的文档解析方法,该方法 包括如下步骤:
对待解析文档进行预处理,以将所述待解析文档中的图像信息转换为文 字信息;
对预处理后的待解析文档进行初步解析,以将所述预处理后的待解析文 档切分为不同的类型材料,并确定各类型材料的标题;
基于各类型材料的标题确定所述预处理后的待解析文档的文档类型,并 通过所述文档类型对预设的要素标签因子体系表进行查询,以获取与所述文 档类型相对应的关键要素标签;
基于所述关键要素标签,对所述预处理后的待解析文档进行要素提取,以 提取关键解析要素,并根据所述关键解析要素形成关键要素表。
对待解析文档进行预处理,以将所述待解析文档中的图像信息转换为文 字信息的过程包括:
对所述待解析文档进行图像文字检测,以确定所述待解析文档中的文字 区域;
对所述文字区域进行文字识别,以将所述文字区域内的图像信息转换为 文字信息。
优选地,对预处理后的待解析文档进行初步解析,以将所述预处理后的待 解析文档切分为不同的类型材料,并确定各类型材料的标题的过程包括:
通过预设切分模型对所述预处理后的待解析文档进行材料切分,以确定 所述预处理后的待解析文档的各页的所属材料位置;其中,所述所属材料位置 包括材料开始、材料中间以及材料结尾;
基于各页的所属材料位置将所述预处理后的待解析文档切分为至少一个 类型材料;
通过预设的标题检出模型对各类型材料进行处理,以确定各类型材料的 标题。
优选地,通过预设切分模型对所述预处理后的待解析文档进行材料切分, 以确定所述预处理后的待解析文档的各页的所属材料位置的过程包括:
通过所述预设切分模型提取所述预处理后的待解析文档中各页的首尾行 的行文字和行位置;
将所述行文字和所述行位置进行特征提取,以获取与所述行文字对应的 序列特征以及与所述行位置对应的位置特征;
基于所述序列特征和所述位置特征确定所述预处理后的待解析文档的各 页的所属材料位置。
优选地,将所述行文字和所述行位置进行特征提取,以获取与所述行文字 对应的序列特征以及与所述行位置对应的位置特征的过程包括:
通过预设的Word Embedding词嵌入模型对所述行文字进行语义表征,以 将所述行文字转为数值型特征,并通过预设的LSTM网络对所述数值型特征 进行序列特征提取,以提取与所述行文字对应的序列特征;
通过预设的full connected Network模型对所述行位置进行特征提取,以 提取所述行位置对应的位置特征。
优选地,基于所述序列特征和所述位置特征确定所述预处理后的待解析 文档的各页的所属材料位置的过程包括;
对所述序列特征和所述位置特征进行组合,以形成组合序列特征;
将所述组合序列特征输入至预设的序列标注模型;
所述序列标注模型输出相应的各页的所属材料位置;其中,所述序列标注 模型的输出结果包括B、I、E以及S;其中,
B为所述所属材料的起始页,I为所述所属材料中间页,E为所述所属材 料结束页,S指所述所属材料为单页材料。
优选地,基于所述关键要素标签,对所述预处理后的待解析文档进行要素 提取,以提取关键解析要素的过程包括:
基于所述关键要素标签通过命名实体识别方法提取所述预处理后的待解 析文档中的实体型关键要素;并且,
基于所述关键要素标签通过预设的正则表达式提取所述预处理后的待解 析文档中的结构型关键要素。
另一方面,本发明还提供一种基于图像识别的文档解析系统,一种基于图 像识别的文档解析系统,其特征在于,所述系统包括:
预处理单元,用于对待解析文档进行预处理,以将所述待解析文档中的图 像信息转换为文字信息;
初步解析单元,用于对预处理后的待解析文档进行初步解析,以将所述预 处理后的待解析文档切分为不同的类型材料,并确定各类型材料的标题;
标签查询单元,用于基于各类型材料的标题确定所述预处理后的待解析 文档的文档类型,并通过所述文档类型对预设的要素标签因子体系表进行查 询,以获取与所述文档类型相对应的关键要素标签;
要素提取单元,用于基于所述关键要素标签,对所述预处理后的待解析文 档进行要素提取,以提取关键解析要素,并根据所述关键解析要素形成关键要 素表。
另一方面,本发明还提供一种电子装置,所述电子装置包括:存储器、处 理器以及存储在所述存储器中并可在所述处理器上运行的基于图像识别的文 档解析程序,所述基于图像识别的文档解析程序被所述处理器执行时实现如 下步骤:
对待解析文档进行预处理,以将所述待解析文档中的图像信息转换为文 字信息;
对预处理后的待解析文档进行初步解析,以将所述预处理后的待解析文 档切分为不同的类型材料,并确定各类型材料的标题;
基于各类型材料的标题确定所述预处理后的待解析文档的文档类型,并 通过所述文档类型对预设的要素标签因子体系表进行查询,以获取与所述文 档类型相对应的关键要素标签;
基于所述关键要素标签,对所述预处理后的待解析文档进行要素提取,以 提取关键解析要素,并根据所述关键解析要素形成关键要素表。
此外,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质 中存储有基于图像识别的文档解析程序,所述基于图像识别的文档解析程序 被处理器执行时,实现前述的基于图像识别的文档解析方法中的步骤。
本发明提出的基于图像识别的文档解析方法、电子装置及计算机可读存 储介质,通过自行设计一套案件卷宗解析方法,比起传统的人工核对与整理案 件要素的方式,通过模型读取解析后生成案件要素,能够极大的减轻在审理案 件过程中的人工工作,提高法官的审理案件质效,实现案件要素式审理。
附图说明
图1为根据本发明实施例的基于图像识别的文档解析方法的较佳实施例 流程图;
图2为根据本发明实施例的电子装置的较佳实施例结构示意图;
图3为根据本发明实施例的基于图像识别的文档解析程序的内部逻辑示 意图。
图4为根据本发明实施例的边界切分的流程图;
图5为根据本发明实施例的标题检测的流程图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说 明。
具体实施方式
在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面 理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情 况下实现这些实施例。
以下将结合附图对本申请的具体实施例进行详细描述。
实施例1
为了说明本发明提供的基于图像识别的文档解析方法,图1示出了根据 本发明提供的基于图像识别的文档解析方法的流程。
如图1所示,本发明提供的基于图像识别的文档解析方法,包括:
S110:对待解析文档进行预处理,以将该待解析文档中的图像信息转换为 文字信息。
具体地,对待解析文档进行预处理,以将该待解析文档中的图像信息转换 为文字信息的过程包括:
对该待解析文档进行图像文字检测,以确定该待解析文档中的文字区域;
对该文字区域进行文字识别,以将该文字区域内的图像信息转换为文字 信息。
需要说明的是,上述的预处理可以采用OCR技术(Optical CharacterRecognition,光学字符识别)进行处理,目的是将蕴含在待解析文档的图像中 的文字信息进行识别,其主要步骤包含图像文字区域检测和文字识别两个部 分。其中,对于图像文字区域检测,使用预设的R-CNN算法对待解析文档进 行图像文字检测,主要步骤为使用Selective Search(选择搜索)算法对待解析 文档进行切分处理,该算法是一种图像分割方法,将图像分割为几千个小块, 合并颜色、纹理相近的小区域,最终得到约2000个左右的候选区域(2000是 通过实验得到的经验参数)。
因为上述步骤中得到的候选区域大小不同,故需要对上述候选区域图像 大小进行归一化,即将各个候选区域放缩至相同大小,最后将归一化后每个候 选区域使用7层的CNN(卷积神经网络)进行特征抽取,使用7层卷积为经 验参数,每层CNN都存在识别不同类型特征的卷积核。例如,识别“人”文 字偏旁的卷积核,该卷积核会对具备“人”的文字敏感,从而抽取相应的特征, 经过7层CNN,最终即可得到包含文字的区域(文字区域)的特征向量。
具体地,针对包含文字及不包含文字的候选区域,通过上述的CNN网络, 得到对应的正负例特征向量集合,对上述得到的正负例特征向量集合使用预 设的SVM(支持向量机)进行是否是文字区域的二分类,该算法是通过确定 分割正负例特征向量超平面的方式进行判断的,通过不断更新分割超平面到 正负例向量的距离,最终确定具备最大分割距离的超平面为最优超平面,据此 来实现对后续输入候选区域的二分类,通过上述二分类过程即可确定该待解 析文档中的文字区域。
(b)文字识别:使用神经网络对前述判断为文字区域的区域进行文字识别。
主要步骤分为:使用CNN(卷积神经网络)对输入图像进行卷积特征化, 其核心为通过针对不同文字形态的敏感的卷积核进行特征的抽取,如针对“人” 字形偏旁敏感的卷积核,会对包含“人”偏旁的文字进行特征抽取,从而提取 到类似文字的空间特征;再经由双向RNN(循环神经网络)进行文字序列特 征的提取。例如,在汉字表述中“今天天气很好”,通过“天气”这两个字可 能会联想到“很好”,反之亦成立,双向RNN网络就是通过对正向和反向的 字符序列进行特征抽取,能够最大限度的保存原有图像的顺序信息,据此即可 将上述输出特征经过softmax算法进行多分类的概率输出,公式如下:
其中,Si代表输入V为第i个汉字的概率,共对输入V计算j个汉字的 得分概率(j数目为常用汉字数量)。
最终,取概率最高的汉字字符为该文字的最终输出。自此,即可将待解析 文档中的所有的图像信息转换为可读取的文字信息。
S120:对预处理后的待解析文档进行初步解析,以将该预处理后的待解析 文档切分为不同的类型材料,并确定各类型材料的标题。
具体地,对预处理后的待解析文档进行初步解析,以将该预处理后的待解 析文档切分为不同的类型材料,并确定各类型材料的标题的过程包括:
通过预设切分模型对该预处理后的待解析文档进行材料切分,以确定该 预处理后的待解析文档的各页的所属材料位置;其中,该所属材料位置包括材 料开始、材料中间以及材料结尾;
基于各页的所属材料位置将该预处理后的待解析文档切分为至少一个类 型材料;
通过预设的标题检出模型对各类型材料进行处理,以确定各类型材料的 标题。
此外,通过预设切分模型对该预处理后的待解析文档进行材料切分,以确 定该预处理后的待解析文档的各页的所属材料位置的过程包括:
通过该预设切分模型提取该预处理后的待解析文档中各页的首尾行的行 文字和行位置;
将该行文字和该行位置进行特征提取,以获取与该行文字对应的序列特 征以及与该行位置对应的位置特征;
基于该序列特征和该位置特征确定该预处理后的待解析文档的各页的所 属材料位置。
具体地,对该行文字和该行位置进行特征提取,以获取与该行文字对应的 序列特征以及与该行位置对应的位置特征的过程包括:
通过预设的Word Embedding词嵌入模型对该行文字进行语义表征,以将 该行文字转为数值型特征,并通过预设的LSTM网络对该数值型特征进行序 列特征提取,以提取与该行文字对应的序列特征;
通过预设的full connected Network模型对该行位置进行特征提取,以提 取该行位置对应的位置特征。
更为具体地,基于该序列特征和该位置特征确定该预处理后的待解析文 档的各页的所属材料位置的过程包括;
对该序列特征和该位置特征进行组合,以形成组合序列特征;
将该组合序列特征输入至预设的序列标注模型;
该序列标注模型输出相应的各页的所属材料位置;其中,该序列标注模型 的输出结果包括B、I、E以及S;其中,
B为该所属材料的起始页,I为该所属材料中间页,E为该所属材料结束 页,S指该所属材料为单页材料。
需要说明的是,通常情况下,一个待解析文档一般包含多份材料,即多份 材料杂糅在一起形成该待解析文档(每份材料的类型不同,即上述类型材料), 因此需要通过对该待解析文档进行材料的边界切分、标题检测、最后实现材料 的归类。具体地,图4示出了边界切分的流程,由图4可知,材料的边界切分 过程包括:对包含多页材料的待解析文档,需要通过预设的材料切分模型确定 每一页是一个类型材料的开始,还是中间,还是结尾。比如第一页到第五页是 一个类型材料,第六页到第十页是第二个类型材料,则第一页,第六页是开头 页,第五页和第十页是结尾页。
其中,上述划分结果较大程度取决于前页、后页的相关程度。因此,预设 的材料切分模型选取每页的首尾的行文字及对应行位置作为基础特征,针对 行文字通过WordEmbedding(词嵌入)进行语义表征,将文字型特征转为数值 型特征,通过LSTM(长短期记忆神经网络)进行序列特征抽取;针对行位置 使用full connected Network进行位置特征抽取;将上述两类行文字及行位置 特征进行组合,再经过Bi-LSTM(序列标注模型),综合考虑历史和未来双向 特征对每页进行分类,此时,该序列标注模型的输出结果为B、I、E、S(B-材料起始、I-材料中间、E-材料结束、S-单页材料)。
此外,图5示出标题检测的具体流程,由图5可知,对上述切分好的各 类型材料,根据行位置、行内容,利用Word Embedding(词嵌入)进行行语义表 征,再通过LSTM(长短期记忆神经网络)学习句子间依赖信息,最终综合行 位置特征、行内容特征,通过交叉熵损失函数,即可得到各类材料标题行的概 率分布,通过取最大概率值即可得到各类型材料的标题。
另外,需要强调的是,为进一步保证上述待解析文档中数据的私密和安全 性,待解析文档可以存储在区块链的节点中。
S130:基于各类型材料的标题确定该预处理后的待解析文档的文档类型, 并通过该文档类型对预设的要素标签因子体系表进行查询,以获取与该文档 类型相对应的关键要素标签。
需要说明的是,不同的类型的待解析文档对应的类型材料的组合方式及 各类型材料的标题不同,例如,财产保全类的案件卷宗,其类型材料及各类型 材料的标题均与财产保全相关,因此,基于各类型材料的组合方式及各类型材 料的标题即可确定该待解析文档的案件类型,比如为财产保全类案件卷宗。
对于要素标签因子体系表的预设过程,可以预先针对民事案件通过法律 业务专家和一线法官基于专家知识,梳理出所有案件类型与其关键要素标签 之间的对应关系,从而形成要素标签因子体系表,在该素标签因子体系表内, 每一个案件类型均设置有与之对应的关键要素,因此通过查询素标签因子体 系表即可获取待解析文档的关键要素标签。例如针对包含财产保全申请的案 件卷宗,梳理出财产保全担保金额、当事人财产线索、担保人信息等,作为关 键要素标签,基于上述要素标签形成要素标签因子体系,后期可以通过判断是 否包含与关键要素标签相关的财产保全关键要素,定位至当前案件卷宗中所 需每个关键要素的来源材料(某一个类型材料)。
例如,经过上述步骤S120(材料切分、标题检出)后,确定了待解析文 档的第2-5页为一个类型材料,且标题名称为广东省中级人民法院管辖权异议 裁定书,通过业务专家规则:标题包含“裁定书”&“管辖权异议“,通过匹 配规则同上述的结果确定该类型材料属于“管辖权异议裁定书”类别的案卷卷 宗。
S140:基于该关键要素标签,对该预处理后的待解析文档进行要素提取, 以提取关键解析要素,并根据该关键解析要素形成关键要素表。
具体地,基于该关键要素标签,对该预处理后的待解析文档进行要素提取, 以提取关键解析要素的过程包括:
基于该关键要素标签通过命名实体识别方法提取该预处理后的待解析文 档中的实体型关键要素;并且,
基于该关键要素标签通过预设的正则表达式提取该预处理后的待解析文 档中的结构型关键要素。
需要说明的是,在对待解析文档进行要素提取的过程中,通过NER (Named EntityRecognition,命名实体识别)、正则表达式等技术实现要素的 抓取以及位置的定位(比如从“中国很大”中提取出被告中国这个地点),定 位至具体要素位置,并读取具体要素,送至关键要素表中。
其中,命名实体识别,又称作“专名识别”,是指识别文本中具有特定意 义的实体,主要包括人名、地名、机构名、专有名词等。通常包括两部分:(1) 实体边界识别;(2)确定实体类别(人名、地名、机构名或其他)。因此,对 应实体类的关键要素,可以使用命名实体识别技术对待解析文档中的各类型 材料进行识别,以获取相应的关键要素,并存入关键要素表。此外,对于具有 特殊结构的关键要素(如具有一定位数的数字串,身份证号码),可以预选设 定相应的正则表达式,通过正则表达式匹配的方式对待解析文档中的各类型 材料进行识别以获取相应的关键要素,并存如相应的关键要素表。
为进一步说明本发明提供的基于图像识别的文档解析方法的流程,下面 以信用卡案件为例做举例说明,如当前的待解析文档的要素标签包含本金金 额、利息、年利率等,则首先自待解析文档中定位至包含这些要素标签的类型 材料,然后从相应的类型材料中提取与要素标签对应的要素,然后推送至关键 要素表中,形成当前待解析文档完整的关键要素表。
此外,为进一步提升对法官审理案件的辅助功能,可以通过形成的关键要 素表及梳理的前端步骤,辅助法官生成最后的裁判文书。具体地,根据前端针 对不同案件梳理预设的裁判文书模板,将共性信息及当事人信息等前端已有 的关键要素,综合利用采集关键要素表及对应案由裁判文书所需的要素,如信 用卡纠纷所需的当事人信息、法官判决信息。自动填写到预设的裁判文书模板 中,自动形成一份裁判文书,供法官参考、编辑等操作,从而省却大量重复信 息填入工作,提升法官文书写作效率。
上述基于自然语言处理及图像识别的文档解析方法还支持批量认定案件 要素。例如,目前,各法院的速裁庭中有大量的类型化案件(类型化案件是指 同一类型的案件,如肖像权纠纷类案件、租赁合同纠纷类案件等,类案标准化 处理是旨在对类案统一裁判规则,实现审判思路标准化),这类案件的特征是 案件事实较为简单,权利义务关系不复杂,可快速审结。但这类案件可存在当 事人数量较多的现象,以信用卡案件为例,系列案中会存在几十个被告的情况。 因每个案件要素均存在差异,需花费大量时间进行整理案件信息及计算工作。 通过上述基于自然语言处理及图像识别的文档解析方法可自动提取案件要素, 从而实现对批量案件一键生成案件要素表,并对子案件要素进行编辑认定,节 约大量人工核对及计算的时间。
通过上述技术方案的表述可知,本发明提供的基于图像识别的文档解析 方法,通过自行设计一套案件卷宗解析方法,比起传统的人工核对与整理案件 要素的方式,通过模型读取解析后生成案件要素,能够极大的减轻在审理案件 过程中的人工工作,提高法官的审理案件质效,实现案件要素式审理。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后, 各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实 施过程构成任何限定。
实施例2
与上述方法相对应,本申请还提供一种基于图像识别的文档解析系统,该 系统包括:
预处理单元,用于对待解析文档进行预处理,以将该待解析文档中的图像 信息转换为文字信息;
初步解析单元,用于对预处理后的待解析文档进行初步解析,以将该预处 理后的待解析文档切分为不同的类型材料,并确定各类型材料的标题;
标签查询单元,用于基于各类型材料的标题确定该预处理后的待解析文 档的文档类型,并通过该文档类型对预设的要素标签因子体系表进行查询,以 获取与该文档类型相对应的关键要素标签;
要素提取单元,用于基于该关键要素标签,对该预处理后的待解析文档进 行要素提取,以提取关键解析要素,并根据该关键解析要素形成关键要素表。
实施例3
本发明还提供一种电子装置70。参照图2所示,该图为本发明提供的电 子装置70的较佳实施例结构示意图。
在本实施例中,电子装置70可以是服务器、智能手机、平板电脑、便携 计算机、桌上型计算机等具有运算功能的终端设备。
该电子装置70包括:处理器71以及存储器72。
存储器72包括至少一种类型的可读存储介质。至少一种类型的可读存储 介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一 些实施例中,可读存储介质可以是该电子装置70的内部存储单元,例如该电 子装置70的硬盘。在另一些实施例中,可读存储介质也可以是电子装置1的 外部存储器,例如电子装置70上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
在本实施例中,存储器72的可读存储介质通常用于存储安装于电子装置 70的基于图像识别的文档解析程序73。存储器72还可以用于暂时地存储已 经输出或者将要输出的数据。
处理器72在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器72中存储的程序代码 或处理数据,例如基于图像识别的文档解析程序73等。
在一些实施例中,电子装置70为智能手机、平板电脑、便携计算机等的 终端设备。在其他实施例中,电子装置70可以为服务器。
图2仅示出了具有组件71-73的电子装置70,但是应理解的是,并不要 求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,该电子装置70还可以包括用户接口,用户接口可以包括输入单 元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音 识别功能的设备、语音输出装置比如音响、耳机等,可选地用户接口还可以包 括标准的有线接口、无线接口。
可选地,该电子装置70还可以包括显示器,显示器也可以称为显示屏或 显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显 示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。 显示器用于显示在电子装置70中处理的信息以及用于显示可视化的用户界面。
可选地,该电子装置70还可以包括触摸传感器。触摸传感器所提供的供 用户进行触摸操作的区域称为触控区域。此外,这里的触摸传感器可以为电阻 式触摸传感器、电容式触摸传感器等。而且,触摸传感器不仅包括接触式的触 摸传感器,也可包括接近式的触摸传感器等。此外,触摸传感器可以为单个传 感器,也可以为例如阵列布置的多个传感器。
此外,该电子装置70的显示器的面积可以与触摸传感器的面积相同,也 可以不同。可选地,将显示器与触摸传感器层叠设置,以形成触摸显示屏。该 装置基于触摸显示屏侦测用户触发的触控操作。
可选地,该电子装置70还可以包括射频(Radio Frequency,RF)电路, 传感器、音频电路等等,在此不再赘述。
在图2所示的装置实施例中,作为一种计算机存储介质的存储器72中可 以包括操作系统、以及基于图像识别的文档解析程序73;处理器71执行存储 器72中存储的基于图像识别的文档解析程序73时实现如下步骤:
对待解析文档进行预处理,以将该待解析文档中的图像信息转换为文字 信息;
对预处理后的待解析文档进行初步解析,以将该预处理后的待解析文档 切分为不同的类型材料,并确定各类型材料的标题;
基于各类型材料的标题确定该预处理后的待解析文档的文档类型,并通 过该文档类型对预设的要素标签因子体系表进行查询,以获取与该文档类型 相对应的关键要素标签;
基于该关键要素标签,对该预处理后的待解析文档进行要素提取,以提取 关键解析要素,并根据该关键解析要素形成关键要素表。
在该实施例中,图3为根据本发明实施例的基于图像识别的文档解析程 序的内部逻辑示意图,如图3所示,基于图像识别的文档解析程序73还可以 被分割为一个或者多个模块,一个或者多个模块被存储于存储器72中,并由 处理器71执行,以完成本发明。本发明所称的模块是指能够完成特定功能的 一系列计算机程序指令段。参照图3所示,为图2中基于图像识别的文档解 析程序73较佳实施例的程序模块图。基于图像识别的文档解析程序73可以 被分割为:预处理模块74、初步解析模块75、标签查询模块76以及要素提 取模块77。模块74-77所实现的功能或操作步骤均与上文类似,此处不再详 述,示例性地,例如,其中:
预处理模块74,用于对待解析文档进行预处理,以将该待解析文档中的 图像信息转换为文字信息;
初步解析模块75,用于对预处理后的待解析文档进行初步解析,以将该 预处理后的待解析文档切分为不同的类型材料,并确定各类型材料的标题;
标签查询模块76,用于基于各类型材料的标题确定该预处理后的待解析 文档的文档类型,并通过该文档类型对预设的要素标签因子体系表进行查询, 以获取与该文档类型相对应的关键要素标签;
要素提取模块77,用于基于该关键要素标签,对该预处理后的待解析文 档进行要素提取,以提取关键解析要素,并根据该关键解析要素形成关键要素 表。
实施例4
本发明还提供一种计算机可读存储介质,计算机可读存储介质中存储有 基于图像识别的文档解析程序73,基于图像识别的文档解析程序73被处理器 执行时实现如下操作:
对待解析文档进行预处理,以将该待解析文档中的图像信息转换为文字 信息;
对预处理后的待解析文档进行初步解析,以将该预处理后的待解析文档 切分为不同的类型材料,并确定各类型材料的标题;
基于各类型材料的标题确定该预处理后的待解析文档的文档类型,并通 过该文档类型对预设的要素标签因子体系表进行查询,以获取与该文档类型 相对应的关键要素标签;
基于该关键要素标签,对该预处理后的待解析文档进行要素提取,以提取 关键解析要素,并根据该关键解析要素形成关键要素表。
本发明提供的计算机可读存储介质的具体实施方式与上述基于图像识别 的文档解析方法、电子装置的具体实施方式大致相同,在此不再赘述。
需要说明的是,本发明所指区块链是分布式数据存储、点对点传输、共识 机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上 是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一 个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和 生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用 服务层等。
需要进一步说明的是,在本文中,术语“包括”、“包含”或者其任何其他变 体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或 者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包 括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下, 由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物 品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的 实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借 助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情 况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者 说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软 件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干 指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等) 执行本发明各个实施例的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利 用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接 运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种基于图像识别的文档解析方法,应用于电子装置,其特征在于,所述方法包括:
对待解析文档进行预处理,以将所述待解析文档中的图像信息转换为文字信息;
对预处理后的待解析文档进行初步解析,以将所述预处理后的待解析文档切分为不同的类型材料,并确定各类型材料的标题;
基于各类型材料的标题确定所述预处理后的待解析文档的文档类型,并通过所述文档类型对预设的要素标签因子体系表进行查询,以获取与所述文档类型相对应的关键要素标签;
基于所述关键要素标签,对所述预处理后的待解析文档进行要素提取,以提取关键解析要素,并根据所述关键解析要素形成关键要素表;其中,
所述对待解析文档进行预处理,以将所述待解析文档中的图像信息转换为文字信息包括:
使用预设的R-CNN算法对所述待解析文档进行图像文字检测,以确定所述待解析文档中的文字区域;
对所述文字区域进行文字识别,以将所述文字区域内的图像信息转换为文字信息;其中,
所述图像文字检测包括:使用Selective Search算法对所述待解析文档进行切分处理,以将所述待解析文档切分为若干个候选区域;对各候选区域进行归一化处理,以将各候选区域放缩至相同大小;将归一化后各候选区域使用卷积神经网络进行特征抽取;基于各候选区域的特征对各候选区域进行二分类,以判断各候选区域是否为文字区域;
对所述文字区域进行文字识别包括:
通过针对不同文字形态敏感的卷积核对所述文字区域进行特征提取,以提取到所述文字区域的各文字的空间特征;
通过双向RNN对所述文字区域内的各文字进行文字序列特征的提取,以提取所述文字区域的各文字的文字序列特征;
根据所述空间特征和所述文字序列特征通过softmax算法对各文字进行多分类的概率输出;公式如下:
;其中,V代表输入,为输入的文字特征向量,所述文字特征向量包括所述空间特征和所述文字序列特征;/>代表所述文字特征向量中第i个元素的值;/>代表所述文字特征向量中第j个元素的值;/>代表V为第i个汉字的输出概率,共对V计算j个汉字的得分概率,j的数目为常用汉字数量;
取概率最高的汉字字符为对应文字的最终输出。
2.根据权利要求1所述的基于图像识别的文档解析方法,其特征在于,所述对预处理后的待解析文档进行初步解析,以将所述预处理后的待解析文档切分为不同的类型材料,并确定各类型材料的标题包括:
通过预设切分模型对所述预处理后的待解析文档进行材料切分,以确定所述预处理后的待解析文档的各页的所属材料位置;其中,所述所属材料位置包括材料开始、材料中间以及材料结尾;
基于各页的所属材料位置将所述预处理后的待解析文档切分为至少一个类型材料;
通过预设的标题检出模型对各类型材料进行处理,以确定各类型材料的标题。
3.根据权利要求2所述的基于图像识别的文档解析方法,其特征在于,所述通过预设切分模型对所述预处理后的待解析文档进行材料切分,以确定所述预处理后的待解析文档的各页的所属材料位置包括:
通过所述预设切分模型提取所述预处理后的待解析文档中各页的首尾行的行文字和行位置;
对所述行文字和所述行位置进行特征提取,以获取与所述行文字对应的序列特征以及与所述行位置对应的位置特征;
基于所述序列特征和所述位置特征确定所述预处理后的待解析文档的各页的所属材料位置。
4.根据权利要求3所述的基于图像识别的文档解析方法,其特征在于,所述对所述行文字和所述行位置进行特征提取,以获取与所述行文字对应的序列特征以及与所述行位置对应的位置特征包括:
通过预设的Word Embedding词嵌入模型对所述行文字进行语义表征,以将所述行文字转为数值型特征,并通过预设的LSTM网络对所述数值型特征进行序列特征提取,以提取与所述行文字对应的序列特征;
通过预设的full connected Network模型对所述行位置进行特征提取,以提取所述行位置对应的位置特征。
5.根据权利要求4所述的基于图像识别的文档解析方法,其特征在于,所述基于所述序列特征和所述位置特征确定所述预处理后的待解析文档的各页的所属材料位置包括;
对所述序列特征和所述位置特征进行组合,以形成组合序列特征;
将所述组合序列特征输入至预设的序列标注模型;
所述序列标注模型输出相应的各页的所属材料位置;其中,所述序列标注模型的输出结果包括B、I、E以及S;其中,
B为所属材料的起始页,I为所属材料中间页,E为所属材料结束页,S指所属材料为单页材料。
6.根据权利要求5所述的基于图像识别的文档解析方法,其特征在于,所述基于所述关键要素标签,对所述预处理后的待解析文档进行要素提取,以提取关键解析要素包括:
基于所述关键要素标签通过命名实体识别方法提取所述预处理后的待解析文档中的实体型关键要素;并且,
基于所述关键要素标签通过预设的正则表达式提取所述预处理后的待解析文档中的结构型关键要素。
7.一种基于图像识别的文档解析系统,其特征在于,所述系统包括:
预处理单元,用于对待解析文档进行预处理,以将所述待解析文档中的图像信息转换为文字信息;其中,
所述对待解析文档进行预处理,以将所述待解析文档中的图像信息转换为文字信息包括:
使用预设的R-CNN算法对所述待解析文档进行图像文字检测,以确定所述待解析文档中的文字区域;
对所述文字区域进行文字识别,以将所述文字区域内的图像信息转换为文字信息;其中,
所述图像文字检测包括:使用Selective Search算法对所述待解析文档进行切分处理,以将所述待解析文档切分为若干个候选区域;对各候选区域进行归一化处理,以将各候选区域放缩至相同大小;将归一化后各候选区域使用卷积神经网络进行特征抽取;基于各候选区域的特征对各候选区域进行二分类,以判断各候选区域是否为文字区域;
对所述文字区域进行文字识别的过程包括:
通过针对不同文字形态敏感的卷积核对所述文字区域进行特征提取,以提取到所述文字区域的各文字的空间特征;
通过双向RNN对所述文字区域内的各文字进行文字序列特征的提取,以提取所述文字区域的各文字的文字序列特征;
根据所述空间特征和所述文字序列特征通过softmax算法对各文字进行多分类的概率输出;公式如下:
;其中,V代表输入,为输入的文字特征向量,所述文字特征向量包括所述空间特征和所述文字序列特征;/>代表所述文字特征向量中第i个元素的值;/>代表所述文字特征向量中第j个元素的值;/>代表V为第i个汉字的输出概率;共对V计算j个汉字的得分概率,j的数目为常用汉字数量;
取概率最高的汉字字符为对应文字的最终输出;
初步解析单元,用于对预处理后的待解析文档进行初步解析,以将所述预处理后的待解析文档切分为不同的类型材料,并确定各类型材料的标题;
标签查询单元,用于基于各类型材料的标题确定所述预处理后的待解析文档的文档类型,并通过所述文档类型对预设的要素标签因子体系表进行查询,以获取与所述文档类型相对应的关键要素标签;
要素提取单元,用于基于所述关键要素标签,对所述预处理后的待解析文档进行要素提取,以提取关键解析要素,并根据所述关键解析要素形成关键要素表。
8.一种电子装置,其特征在于,所述电子装置包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的基于图像识别的文档解析程序,所述基于图像识别的文档解析程序被所述处理器执行时实现如下步骤:
对待解析文档进行预处理,以将所述待解析文档中的图像信息转换为文字信息;其中,
所述对待解析文档进行预处理,以将所述待解析文档中的图像信息转换为文字信息包括:
使用预设的R-CNN算法对所述待解析文档进行图像文字检测,以确定所述待解析文档中的文字区域;
对所述文字区域进行文字识别,以将所述文字区域内的图像信息转换为文字信息;其中,
所述图像文字检测包括:使用Selective Search算法对所述待解析文档进行切分处理,以将所述待解析文档切分为若干个候选区域;对各候选区域进行归一化处理,以将各候选区域放缩至相同大小;将归一化后各候选区域使用卷积神经网络进行特征抽取;基于各候选区域的特征对各候选区域进行二分类,以判断各候选区域是否为文字区域;
对所述文字区域进行文字识别的过程包括:
通过针对不同文字形态敏感的卷积核对所述文字区域进行特征提取,以提取到所述文字区域的各文字的空间特征;
通过双向RNN对所述文字区域内的各文字进行文字序列特征的提取,以提取所述文字区域的各文字的文字序列特征;
根据所述空间特征和所述文字序列特征通过softmax算法对各文字进行多分类的概率输出;公式如下:
;其中,V代表输入,为输入的文字特征向量,所述文字特征向量包括所述空间特征和所述文字序列特征;/>代表所述文字特征向量中第i个元素的值;/>代表所述文字特征向量中第j个元素的值;/>代表V为第i个汉字的输出概率;共对V计算j个汉字的得分概率,j的数目为常用汉字数量;
取概率最高的汉字字符为对应文字的最终输出;
对预处理后的待解析文档进行初步解析,以将所述预处理后的待解析文档切分为不同的类型材料,并确定各类型材料的标题;
基于各类型材料的标题确定所述预处理后的待解析文档的文档类型,并通过所述文档类型对预设的要素标签因子体系表进行查询,以获取与所述文档类型相对应的关键要素标签;
基于所述关键要素标签,对所述预处理后的待解析文档进行要素提取,以提取关键解析要素,并根据所述关键解析要素形成关键要素表。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有基于图像识别的文档解析程序,所述基于图像识别的文档解析程序被处理器执行时,实现如权利要求1至6中任一项所述的基于图像识别的文档解析方法中的步骤。
CN202110062590.0A 2021-01-18 2021-01-18 基于图像识别的文档解析方法、系统、装置及存储介质 Active CN112989786B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110062590.0A CN112989786B (zh) 2021-01-18 2021-01-18 基于图像识别的文档解析方法、系统、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110062590.0A CN112989786B (zh) 2021-01-18 2021-01-18 基于图像识别的文档解析方法、系统、装置及存储介质

Publications (2)

Publication Number Publication Date
CN112989786A CN112989786A (zh) 2021-06-18
CN112989786B true CN112989786B (zh) 2023-08-18

Family

ID=76344409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110062590.0A Active CN112989786B (zh) 2021-01-18 2021-01-18 基于图像识别的文档解析方法、系统、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112989786B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7961943B1 (en) * 2005-06-02 2011-06-14 Zeevi Eli I Integrated document editor
CN108399125A (zh) * 2018-02-08 2018-08-14 深圳壹账通智能科技有限公司 自动化测试方法、装置、计算机设备和存储介质
CN109858036A (zh) * 2019-02-26 2019-06-07 科大讯飞股份有限公司 一种文书划分方法及装置
CN111291629A (zh) * 2020-01-17 2020-06-16 平安医疗健康管理股份有限公司 图像中文本的识别方法、装置、计算机设备及计算机存储介质
CN111310750A (zh) * 2018-12-11 2020-06-19 阿里巴巴集团控股有限公司 一种信息处理方法、装置、计算设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7961943B1 (en) * 2005-06-02 2011-06-14 Zeevi Eli I Integrated document editor
CN108399125A (zh) * 2018-02-08 2018-08-14 深圳壹账通智能科技有限公司 自动化测试方法、装置、计算机设备和存储介质
CN111310750A (zh) * 2018-12-11 2020-06-19 阿里巴巴集团控股有限公司 一种信息处理方法、装置、计算设备及介质
CN109858036A (zh) * 2019-02-26 2019-06-07 科大讯飞股份有限公司 一种文书划分方法及装置
CN111291629A (zh) * 2020-01-17 2020-06-16 平安医疗健康管理股份有限公司 图像中文本的识别方法、装置、计算机设备及计算机存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Watch, attend and parse: An end-to-end neural network based approach to handwritten mathematical expression recognition;Jianshu Zhang et al.;Pattern Recognition;第196-206页 *

Also Published As

Publication number Publication date
CN112989786A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN112818093B (zh) 基于语义匹配的证据文档检索方法、系统及存储介质
WO2019200806A1 (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
CN110826320B (zh) 一种基于文本识别的敏感数据发现方法及系统
US8196030B1 (en) System and method for comparing and reviewing documents
CN109190092A (zh) 不同来源文件的一致性审核方法
US20070274590A1 (en) Handwriting processing apparatus and method
Bensefia et al. Writer verification based on a single handwriting word samples
Fujikawa et al. Recognition of oracle bone inscriptions by using two deep learning models
CN111462752B (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
Saba et al. Online versus offline Arabic script classification
CN114549241A (zh) 合同审查方法、装置、系统与计算机可读存储介质
Roy et al. Date-field retrieval in scene image and video frames using text enhancement and shape coding
Mathew et al. Asking questions on handwritten document collections
CN112084308A (zh) 用于文本类型数据识别的方法、系统及存储介质
CN115098440A (zh) 电子档案查询方法、装置、存储介质和设备
CN112989786B (zh) 基于图像识别的文档解析方法、系统、装置及存储介质
Pan et al. A new dataset for mongolian online handwritten recognition
CN110489514B (zh) 提升事件抽取标注效率的系统及方法、事件抽取方法及系统
US20210406451A1 (en) Systems and Methods for Extracting Information from a Physical Document
CN112036330A (zh) 一种文本识别方法、文本识别装置及可读存储介质
CN116822527A (zh) 基于对比预训练的机器阅读理解事件检测方法和装置
CN116578703A (zh) 一种智慧鉴定系统及方法
Kunekar et al. OCR based Cheque Validation using Image Processing
Ahmed et al. A generic method for automatic ground truth generation of camera-captured documents
Deng Research and Application of Webpage Information Recognition Method Based on KNN Algorithm.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant