CN115116060A - 键值文件处理方法、装置、设备、介质和计算机程序产品 - Google Patents

键值文件处理方法、装置、设备、介质和计算机程序产品 Download PDF

Info

Publication number
CN115116060A
CN115116060A CN202211027366.9A CN202211027366A CN115116060A CN 115116060 A CN115116060 A CN 115116060A CN 202211027366 A CN202211027366 A CN 202211027366A CN 115116060 A CN115116060 A CN 115116060A
Authority
CN
China
Prior art keywords
file
identification
graph
identified
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211027366.9A
Other languages
English (en)
Other versions
CN115116060B (zh
Inventor
黄再广
张梓霖
王国鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Original Assignee
Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd filed Critical Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Priority to CN202211027366.9A priority Critical patent/CN115116060B/zh
Publication of CN115116060A publication Critical patent/CN115116060A/zh
Application granted granted Critical
Publication of CN115116060B publication Critical patent/CN115116060B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种键值文件处理方法、装置、设备、介质和计算机程序产品,其中,方法包括:获取与待识别文件具有相同版式的标准键值文件,并获取标准键值文件的图特征;采用文本识别模型对待识别文件进行文本识别,得到待识别文件的多个识别键和多个识别值;对待识别文件中多个识别值的位置进行区域构图,得到待识别文件的识别值关系图,并基于识别值关系图进行图特征提取,得到待识别文件的图特征;根据标准键值文件的图特征和待识别文件的图特征,求解得到各识别值的与识别键的对应关系,并基于各识别值的与识别键的对应关系生成目标键值文档;本发明提高了键‑值数据的识别准确性,从而提高了数据处理效果。

Description

键值文件处理方法、装置、设备、介质和计算机程序产品
技术领域
本发明涉及数据处理领域,尤其涉及一种键值文件处理方法、装置、设备、介质和计算机程序产品。
背景技术
日常生活中,常常会涉及到对税票、出租车发票、身份证等制式文件(即键-值文件)的数据统计,因而需要将键-值文件记录的数据输入系统进行自动化处理。
传统方式中对键-值文件的处理,一般是采用人工录入的方式,为提高数据处理效率,开发出基于规则的键-值键值文件处理方法和基于录入模板匹配的键值文件处理方法,但基于规则的方式比较无法适用不同场景,鲁棒性较低导致识别结果不够准确性;基于模板匹配的方法,对文件中字段位置信息相对敏感,当字段整体位置出现偏移时会识别出错,导致识别结果不够准确性。现有的键-值数据处理方式的识别效果不够准确、数据处理效果不佳。
发明内容
本发明提供一种键值文件处理方法、装置、设备、介质和计算机程序产品,以解决现有的键-值数据处理方式的识别效果不够准确、数据处理效果不佳问题。
提供一种键值文件处理方法,包括:
获取与待识别文件具有相同版式的标准键值文件,并获取标准键值文件的图特征,标准键值文件的图特征为对标准键值文件的标准值关系图进行特征提取得到的图特征;
采用文本识别模型对待识别文件进行文本识别,得到待识别文件的多个识别键和多个识别值;
对待识别文件中多个识别值的位置进行区域构图,得到待识别文件的识别值关系图,并基于识别值关系图进行图特征提取,得到待识别文件的图特征;
根据标准键值文件的图特征和待识别文件的图特征,求解得到各识别值的与识别键的对应关系,并基于各识别值的与识别键的对应关系生成目标键值文档。
提供一种键值文件处理装置,包括:
获取模块,用于获取与待识别文件具有相同版式的标准键值文件,并获取标准键值文件的图特征,标准键值文件的图特征为对标准键值文件的标准值关系图进行特征提取得到的图特征;
识别模块,用于采用文本识别模型对待识别文件进行文本识别,得到待识别文件的多个识别键和多个识别值;
特征提取模块,用于对待识别文件中多个识别值的位置进行区域构图,得到待识别文件的识别值关系图,并基于识别值关系图进行图特征提取,得到待识别文件的图特征;
生成模块,用于根据标准键值文件的图特征和待识别文件的图特征,求解得到各识别值的与识别键的对应关系,并基于各识别值的与识别键的对应关系生成目标键值文档。
提供一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述键值文件处理方法的步骤。
提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如上述键值文件处理方法的步骤。
提供一种计算机程序产品,计算机程序产品包括计算机程序,计算机程序被处理器执行时实现上述键值文件处理方法的步骤。
上述键值文件处理方法、装置、设备、介质和计算机程序产品所提供的一个方案中,通过获取与待识别文件具有相同版式的标准键值文件,并获取标准键值文件的图特征,标准键值文件的图特征为对标准键值文件的标准值关系图进行特征提取得到的图特征;采用文本识别模型对待识别文件进行文本识别,得到待识别文件的多个识别键和多个识别值;对待识别文件中多个识别值的位置进行区域构图,得到待识别文件的识别值关系图,并基于识别值关系图进行图特征提取,得到待识别文件的图特征;根据标准键值文件的图特征和待识别文件的图特征,求解得到各识别值的与识别键的对应关系,并基于各识别值的与识别键的对应关系生成目标键值文档;本发明中,在待识别文件的文本识别结果的基础上,通过对待识别文件和版式相同的标准键值文件进行图特征求解,从而准确得到待识别文件中各识别值的与识别键的对应关系,能够从文本识别、文本空间结构等方面触发确定各识别值的与识别键的对应关系,提高了键-值数据的识别准确性,进而根据准确的键-值对应关系生成准确性的目标键值文档,从而提高了数据处理效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中键值文件处理方法的一应用环境示意图;
图2是本发明一实施例中键值文件处理方法的一流程示意图;
图3是图2中步骤S30的一实现流程示意图;
图4是图2中步骤S30的另一实现流程示意图;
图5是本发明一实施例中待识别文件的一识别值关系图;
图6是图2中步骤S40的一实现流程示意图;
图7是本发明一实施例中键值文件处理装置的一结构示意图;
图8是本发明一实施例中计算机设备的一结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的键值文件处理方法,可应用在如图1的应用环境中,其中,终端设备通过网络与服务器进行通信。在需要对某些制式文件(如各类发票、税票、身份证等)尤其是制式文件的图像进行数据录入时,用户通过客户端向服务器发送待识别文件,服务器在获取待识别文件之后,需要获取与待识别文件具有相同版式的标准键值文件,并获取标准键值文件的图特征,其中,该图特征是预先对标准键值文件的标准值关系图进行特征提取得到的图特征;然后采用文本识别模型对待识别文件进行文本识别,得到待识别文件的多个识别键和多个识别值;再对待识别文件中多个识别值的位置进行区域构图,得到待识别文件的识别值关系图,并基于识别值关系图进行图特征提取,得到待识别文件的图特征;最后根据标准键值文件的图特征和待识别文件的图特征,求解得到各识别值的与识别键的对应关系,并基于各识别值的与识别键的对应关系生成目标键值文档;本实施例中,在待识别文件的文本识别结果的基础上,通过对待识别文件和版式相同的标准键值文件进行图特征求解,从而准确得到待识别文件中各识别值的与识别键的对应关系,能够从文本识别、文本空间结构等方面触发确定各识别值的与识别键的对应关系,提高了键-值数据的识别准确性,进而根据准确的键-值对应关系生成准确性的目标键值文档,确保目标键值文档的内容与待识别文件一致,减少了识别错误导致的数据录入错误,从而提高了数据处理效果。
本实施例中,文本识别模型、标准键值文件及标准键值文件的图特征等数据,存储在服务器的数据库中,以便后续执行数据处理任务时,直接根据需求在对应数据库中获取相关数据,减少数据重复处理的情况,可快速得到对应数据,从而提高数据处理的效率。
其中,终端设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种键值文件处理方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S10:获取与待识别文件具有相同版式的标准键值文件,并获取标准键值文件的图特征。
需要理解的是,在对各类发票、税票、身份证等制式文件的数据录入时,由于这些制式文件中的数据内容通常是以键及其对应的值组成,例如日期(键):某月某日(该键对应的值),日常生活中,对值打印或者填写常常会出现位移,容易给后续的识别造成影响,而在进行数据处理时,若任一键或者值识别错误,将会对后续的数据统计及分析造成严重的影响,而因此需要提高该类文件的识别精度,尤其是键及其值的对应关系的识别精度。
在需要对这类制式文件,尤其是图像文件的进行数据录入时,用户通过客户端向服务器发送待识别文件,服务器在获取待识别文件之后,需要确定待识别文件的类别(如各类税票、发票、身份证等),进而根据待识别文件的类别确定该待识别文件的版式。其中,版式指文件的版面格式,文件的版式规定了各个文本(尤其是键)在文件中的排列顺序和大概位置,不同类别的文件具有不同的版式,根据待识别文件的类别即可确定其版式,在确定该待识别文件的版式后,在数据库中获取与该待识别文件具有相同版式的标准键值文件,并获取标准键值文件的图特征。
其中,该标准键值文件的图特征是预先对标准键值文件的标准值关系图进行特征提取得到的图特征,该标准键值文件和标准键值文件的图特征预先存储在服务器的数据库中,以便后续在获得待识别文件后直接提取该标准键值文件及其图特征。
其中,标准键值文件和待识别文件,均包括多个键和各个键对应的值,为便于区分,将标准键值文件中的键称为标准键,将标准键值文件中的值称为标准值,即标准键值文件包括多个标准键和各个标准键对应的标准值;对应地,后续将待识别文件中的键称为识别键,将待识别文件中的值称为识别值,即待识别文件包括多个识别键和各个识别键对应的标准值。
S20:采用文本识别模型对待识别文件进行文本识别,得到待识别文件的多个识别键和多个识别值。
在获取文本识别模型之后,还需要获取文本识别模型,并采用文本识别模型对待识别文件进行文本识别,得到待识别文件的多个识别文本,其中该多个识别文本包括多个识别键和多个识别值。
其中,文本识别模型为预先根据标准键值文件和多个键值文件样本进行图特征训练得到的光学字符识别模型。键值文件样本的版式与标准键值文件的版式一致,是对应类别的历史键值文件。使用版式一致的多个键值文件样本和标准键值文件进行模型训练,能够提高该文本识别模型对该版式文件的识别精度。
S30:对待识别文件中多个识别值的位置进行区域构图,得到待识别文件的识别值关系图,并基于识别值关系图进行图特征提取,得到待识别文件的图特征。
由于某一类制式文件中,键为保持不变的静态数据,值才是会发生变化的动态数据,在进行文本识别后无需进行特别识别,仅需要识别值的具体内容即可。因而,在得到待识别文件的多个识别键和多个识别值之后,需要对待识别文件中多个识别值的位置进行区域构图,得到待识别文件的识别值关系图,该待识别文件的识别值关系图用于描述待识别文件中各个识别值所在区域的位置及其连接关系,图中的各节点即为各个识别值所在区域,也即各动态区域。
在得到待识别文件的识别值关系图之后,基于识别值关系图进行图特征提取,得到待识别文件的图特征基于识别值关系图进行图特征提取,得到待识别文件的图特征,待识别文件的图特征包括多个节点特征和/或多个边特征。即,需要基于识别值关系图对图中各节点和/或各连接边分别进行特征提取,得到待识别文件的多个节点特征/或多个边特征。
同理,标准键值文件的标准值关系图的构图过程和图结构与识别值关系图类似。标准值关系图用于描述标准键值文件中各个标准值(即标准键对应的值)所在区域的位置及其连接关系,图中的各节点即为各个标准值所在区域,也即各动态区域;标准键值文件的图特征包括多个节点特征和/或多个边特征。
例如,身份证文件包括的文本信息有:姓名:某某某;性别:X;民族:X;出生日期:某年某月某日;住址:某某住址;身份号码:18位数字。多个键包括姓名、性别、民族、出生日期、地址和身份证号码等,各键对应的具体内容记为对应值。在标准键值文件的标准值关系图(或待识别文件的识别值关系图)中,图的节点为上述各键对应的值所在区域。
S40:根据标准键值文件的图特征和待识别文件的图特征,求解得到各识别值的与识别键的对应关系,并基于各识别值的与识别键的对应关系生成目标键值文档。
在得到待识别文件的图特征之后,根据标准键值文件的图特征和待识别文件的图特征,求解得到各识别值的与识别键的对应关系。
本实施例中,通过获取与待识别文件同一版式的标准键值文件,并获取对标准键值文件的标准值关系图进行特征提取得到的图特征;采用文本识别模型对待识别文件进行文本识别,得到待识别文件的多个识别键和多个识别值,文本识别模型为根据标准键值文件和多个键值文件样本进行图特征训练得到的光学字符识别模型;对待识别文件中多个识别值的位置进行区域构图,得到待识别文件的识别值关系图,并基于识别值关系图进行图特征提取,得到待识别文件的图特征;根据标准键值文件的图特征和待识别文件的图特征,求解得到各识别值的与识别键的对应关系,并基于各识别值的与识别键的对应关系生成目标键值文档。在待识别文件的文本识别结果的基础上,通过对待识别文件和版式相同的标准键值文件进行图特征求解,从而准确得到待识别文件中各识别值的与识别键的对应关系,能够从文本识别、文本空间结构等方面触发确定各识别值的与识别键的对应关系,提高了键-值数据的识别准确性,进而根据准确的键-值对应关系生成准确性的目标键值文档,从而提高了数据处理效果。
此外,本实施例中中的数据处理方式,相对于传统的基于规则和模板的键值文件处理方法具有更好的鲁棒性和泛化性,且相对于基于深度学习的模型识别方法,不需要大量的训练样本,只需要预先准备好的标准键值文件,需要较少的数据即可得到较好的识别效果。
在一实施例中,步骤S20中,即采用文本识别模型对待识别文件进行文本识别,得到待识别文件的多个识别键和多个识别值,具体包括如下步骤:
S21:将待识别文件输入文本识别模型进行字符识别,得到文本识别模型输出的多个识别文本;
S22:获取标准键值文件的多个标准键,标准键为标准值指向的键;
S23:将各识别文本与多个标准键进行匹配,并将匹配成功的识别文本记为识别键,得到多个识别键,并将未匹配成功的识别文本记为识别值,得到多个识别值。
在获取待识别文件和文本识别模型之后,将待识别文件输入文本识别模型进行字符识别,得到文本识别模型输出的多个识别文本,以及各识别文本在待识别文件的坐标位置;然后获取标准键值文件中的多个标准键,其中,标准键为标准值指向的键;再将各识别文本分别与多个标准键进行两两匹配,并将匹配成功的识别文本记为识别键,得到多个识别键,并将未匹配成功的识别文本记为识别值,得到多个识别值。
在其他实施例中,在将待识别文件输入文本识别模型进行字符识别,得到文本识别模型输出的多个识别文本之后,可以对各识别文本进行语义识别,基于语义识别结果确定多个识别键和识别值。
本实施例中,通过将待识别文件输入文本识别模型进行字符识别,得到文本识别模型输出的多个识别文本,然后获取标准键值文件的多个标准键,标准键为标准值指向的键,再将各识别文本与多个标准键进行匹配,并将匹配成功的识别文本记为识别键,得到多个识别键,并将未匹配成功的识别文本记为识别值,得到多个识别值,明确了采用文本识别模型对待识别文件进行文本识别,得到待识别文件的多个识别键和多个识别值的具体步骤,在得到文本识别结果的基础上,直接采用标准键值文件的多个标准键进行键匹配,简单快速且准确性高。
在一实施例中,如图3所示,步骤S30中,即采用文本识别模型对待识别文件进行文本识别,得到待识别文件的多个识别键和多个识别值,具体包括如下步骤:
S301:将识别值所在区域记为动态区域,得到多个动态区域。
在得到待识别文件的多个识别键和多个识别值之后,需要将识别值所在区域标出并记为动态区域,该动态区域一般为识别值的文本框区域,从而得到多个动态区域。
S302:以每一动态区域为原点发射多条射线,将射线触及到的动态区域依次连接得到闭环图,记为待识别文件的初始图。
在得到多个动态区域之后,以每一动态区域的中心为原点发射多条射线,然后将各动态区域的射线触及到的动态区域依次连接得到闭环图,记为待识别文件的初始图。由于在文件中,部分字段区域过长可能会遮挡其他字段区域,因此以每一动态区域的中心为原点发射多条射线,可以减少因单一射线源导致的部分区域未被射线触及的可能,确保各区域都能被射线触及,从而提高了待识别文件的初始图的准确性。
其中,为保证精度,每一动态区域可以发射36条射线,每一条射线对应空间的10°区域,减少单个字符区域较小而射线较稀疏导致未被触及的情况,进一步提高了待识别文件的初始图的准确性。
S303:将初始图中两两动态区域的距离作为权重,采用普利姆算法在初始图中搜索最小生成树,并将最小生成树作为识别值关系图。
在获得待识别文件的初始图之后,确定初始图中两两动态区域的距离,然后将初始图中两两动态区域的距离作为权重,采用普利姆算法在初始图中搜索最小生成树,并将最小生成树作为识别值关系图。
普里姆算法的基本思想:取初始图中任意一个节点 v 作为生成树的根,之后往生成树上添加新的顶点 w,在添加的顶点 w 和已经在生成树上的顶点v 之间必定存在一条边,并且该边的权值在所有连通顶点 v 和 w 之间的边中取值最小,之后继续往生成树上,直至遍历至最后一个顶点。将最小生成树作为识别值关系图,在保证各动态区域的空间位置关系的基础上,减少了数据处理的复杂度。
本实施例中,通过将识别值所在区域记为动态区域,得到多个动态区域,然后以每一动态区域为原点发射多条射线,将射线触及到的动态区域依次连接得到闭环图,记为待识别文件的初始图,再将初始图中两两动态区域的距离作为权重,采用普利姆算法在初始图中搜索最小生成树,并将最小生成树作为识别值关系图,细化了对待识别文件中多个识别值的位置进行区域构图,得到待识别文件的识别值关系图的步骤,提高了识别值关系图的准确性,且将最小生成树作为识别值关系图,在保证各动态区域的空间位置关系的基础上,减少了后续数据处理的复杂度。
在一实施例中,如图4所示,步骤S30中,即基于识别值关系图进行图特征提取,得到待识别文件的图特征,具体包括如下步骤:
S31:确定识别值关系图中多个动态区域,每一动态区域表示为每一识别值的所在区域。
本实施例中,识别值关系图为以多个识别值所在区域为节点的最小生成树,为便于表示,以动态区域表示识别值的所在区域,每一动态区域表示为每一识别值的所在区域。
在得到待识别文件的识别值关系图之后,确定识别值关系图中多个动态区域(即多个节点)、相邻两动态区域的连接边,即确定识别值关系图的各个节点、相邻两节点的连接边。由于识别值关系图是最小生成树,因而相邻两节点(相邻两动态区域)即为共享一个连接边的两个动态区域。
S32:对识别值关系图中相邻两动态区域的连接边进行特征提取,得到多个边特征。
在确定识别值关系图中多个动态区域之后,对识别值关系图中相邻两动态区域的连接边进行特征提取,得到多个连接边的特征,即多个边特征。每一边特征均包括方向特征和形态特征,形态特征为将相邻两动态区域的宽和高进行拼接后得到的四维张量;方向特征为最小生成树中各动态区域的节点生长方向特征。
S33:对各动态区域进行节点特征提取,得到多个节点特征。
在确定识别值关系图中多个动态区域之后,还需要对各动态区域进行节点特征提取,得到多个节点(动态区域)的特征,即多个节点特征。其中,每一节点特征至少包括语义特征和视觉特征,即包括对应动态区域的视觉特征和文本的语音特征。
S34:将多个节点特征和多个边特征作为待识别文件的图特征。
在得到多个节点特征和多个边特征之后,将多个节点特征和多个边特征作为待识别文件的图特征。
本实施例中,确定识别值关系图中多个动态区域,每一动态区域表示为每一识别值的所在区域,然后对识别值关系图中相邻两动态区域的连接边进行特征提取,得到多个边特征,并对各动态区域进行节点特征提取,得到多个节点特征,每一节点特征至少包括语义特征和视觉特征,最后将多个节点特征和多个边特征作为待识别文件的图特征,细化了基于识别值关系图进行图特征提取,得到待识别文件的图特征的过程,将各识别值自身的语义特征和视觉特征作为节点特征,并将每一连接边的方向特征和形态特征作为边特征,从语义、视觉和空间等多形态描述待识别文件,为后续对各识别值和识别键的对应关系进行求解提供准确基础。
在一实施例中,步骤S32中,即对识别值关系图中相邻两动态区域的连接边进行特征提取,得到多个边特征,具体包括如下步骤:
S321:将连接边两端的动态区域,记为连接边上相邻的两动态区域;
在确定识别值关系图中多个动态区域之后,将识别值关系图中各连接边两端的动态区域,记为连接边上相邻的两动态区域。
例如,识别值关系图包括A、B、C、D、E、F这6个节点,即6个动态区域,A、B、C、D、E和F构成的最小生成树如图5所示,D、A、B、C、F、E依次连接,对应的连接边分别为1、2、3、4、5。由图5可知,连接边1上相邻的两动态区域为D、A;连接边2上相邻的两动态区域为A、B;连接边3上相邻的两动态区域为B、C;连接边4上相邻的两动态区域为C、F;连接边5上相邻的两动态区域为F、E。
S322:将连接边上相邻两动态区域的相对位置,记为连接边的方向特征。
在将连接边两端的动态区域,记为连接边上相邻的两动态区域之后,分别确定该两动态区域的坐标位置, 进而根据该两动态区域的坐标位置确定该该两动态区域的相对位置,将连接边上相邻两动态区域的相对位置,记为连接边的方向特征。
例如,针对上述连接边1上相邻两动态区域D和A,确定A相对D的位置,将A相对D的位置作为连接边1的方向特征。
S323:将连接边上相邻两动态区域的高度和宽度进行拼接,得到连接边的形态特征。
同时,将连接边上相邻两动态区域的高度和宽度进行拼接,得到连接边的形态特征。例如,针对上述连接边1上相邻两动态区域D和A,动态区域D的宽度和高度为(w1,h1),动态区域A的宽度和高度为(w2,h2),则将两者拼接为四维张量(w1,h1,w2,h2),作为连接边1的形态特征。
S324:遍历所有连接边,直至得到所有连接边的方向特征和形态特征。
最后遍历所有连接边,直至得到所有连接边的方向特征和形态特征,每一连接边的方向特征和形态特征作为该连接边的特征,从而得到多个连接的边特征,即得到多个边特征。
本实施例中,通过将连接边两端的动态区域,记为连接边上相邻的两动态区域,然后将连接边上相邻两动态区域的相对位置,记为连接边的方向特征,并将连接边上相邻两动态区域的高度和宽度进行拼接,得到连接边的形态特征,遍历所有连接边,直至得到所有连接边的方向特征和形态特征,明确了对识别值关系图中相邻两动态区域的连接边进行特征提取,得到多个边特征的具体过程,为后续的数据处理提供了基础。
在一实施例中,步骤S33中,即对各动态区域进行节点特征提取,得到多个节点特征,具体包括如下步骤:
S331:将各动态区域进行裁剪得到动态区域图像,并分别将各动态区域图像输入视觉提取层进行视觉特征提取,得到各动态区域的视觉特征。
在确定识别值关系图中多个动态区域之后,将各动态区域(即各识别值所在区域)进行裁剪得到动态区域图像,并分别将各动态区域图像输入视觉提取层进行视觉特征提取,得到各动态区域的视觉特征。
即,根据文本识别模型识别出的各识别值的坐标信息,裁出动态区域得到动态区域图像,然后将该动态区域图像输入到残差(resnet)特征提取网络中进行视觉特征提取得到该动态区域的视觉特征。为保证后续各动态区域的视觉特征格式一致性,还需要将残差特征提取网络提取到的特征输入对齐网络层(RoiAlign层)使得视觉特征图形状固定,最终将对齐网络层输出的特征作为该动态区域的视觉特征。
S332:将各识别值分别输入语义提取模型中进行语义特征提取,得到各动态区域的语义特征。
同时,还需要将各动态区域中的识别值分输入语义提取模型(如bert模型)中进行语义特征提取,得到各识别值的语义特征,作为对应动态区域的语义特征。
S333:将动态区域的高度和宽度作为动态区域的形状特征,得到各动态区域的形状特征。
同时,将动态区域的高度和宽度作为动态区域的形状特征,得到各动态区域的形状特征。
S334:确定动态区域与任意一个识别键所在区域的连线中点,得到多个连线中点,并将多个连线中点作为动态区域的空间特征,遍历所有动态区域得到各动态区域的空间特征。
同时,还需要将每个动态区域分别与静态区域两两相连,将该动态区域与各静态区域的连线的中点,作为该动态区域的空间特征。即,确定动态区域与任意一个识别键所在区域的连线中点,得到多个连线中点,并将多个连线中点作为动态区域的空间特征,遍历所有动态区域得到各动态区域的空间特征。
S335:将同一动态区域的语义特征、视觉特征、空间特征和形状特征,作为一节点特征,遍历所有动态区域得到多个节点特征。
在得到各动态区域的义特征、视觉特征、空间特征和形状特征之后,将同一动态区域的语义特征、视觉特征、空间特征和形状特征,作为一节点特征,遍历所有动态区域得到多个节点特征。本实施例中的节点特征包括义特征、视觉特征、空间特征和形状特征,从语义、视觉、空间和形状等多个方面描述动态区域,从语义、视觉、空间和形状等多个方面描述识别值,提高了节点特征的特征多样性和准确性,从而提高了后续各识别值与识别键对应关系的准确性。
本实施例中,通过将各动态区域进行裁剪得到动态区域图像,并分别将各动态区域图像输入视觉提取层进行视觉特征提取,得到各动态区域的视觉特征;将各识别值分别输入语义提取模型中进行语义特征提取,得到各动态区域的语义特征;将动态区域的高度和宽度作为动态区域的形状特征,得到各动态区域的形状特征;确定动态区域与任意一个识别键所在区域的连线中点,得到多个连线中点,并将多个连线中点作为动态区域的空间特征,遍历所有动态区域得到各动态区域的空间特征;将同一动态区域的语义特征、视觉特征、空间特征和形状特征,作为一节点特征,遍历所有动态区域得到多个节点特征。明确了对各动态区域进行节点特征提取,得到多个节点特征的具体过程,从语义、视觉、空间和形状等多个方面描述识别值,提高了节点特征的特征多样性和准确性,从而提高了后续各识别值与识别键对应关系的准确性。
在一实施例中,如图6所示,步骤S40中,即根据标准键值文件的图特征和待识别文件的图特征,求解得到各识别值的与识别键的对应关系,具体包括如下步骤:
S41:对待识别文件的多个节点特征和标准键值文件的多个节点特征进行相似度计算,得到节点相似度矩阵。
本实施例中,图特征包括多个节点特征和多个边特征,即待识别文件的图特征包括多个节点特征和多个边特征,标准键值文件的图特征也包括多个节点特征和多个边特征。
在得到待识别文件的图特征之后,对待识别文件的多个节点特征和标准键值文件的多个节点特征进行相似度计算,得到节点相似度矩阵。其中,将待识别文件的多个节点特征以矩阵的形式排列,得到待识别文件的节点特征矩阵,并将标准键值文件的多个节点特征以矩阵的形式排列,得到标准键值文件的节点特征矩阵;然后将待识别文件的节点特征矩阵中每一节点特征,分别与标准键值文件的节点特征矩阵中每一节点特征进行相似度计算,得到包括多个节点特征相似度的节点相似度矩阵。
S42:对待识别文件的多个边特征和标准键值文件的多个边特征进行相似度计算,得到边相似度矩阵。
同时,在得到待识别文件的图特征之后,对待识别文件的多个边特征和标准键值文件的多个边特征进行相似度计算,得到边相似度矩阵。其中,将待识别文件的多个边特征以矩阵的形式排列,得到待识别文件的边特征矩阵,并将标准键值文件的多个边特征以矩阵的形式排列,得到标准键值文件的边特征矩阵;然后将待识别文件的边特征矩阵中每一边特征,分别与标准键值文件的边特征矩阵中每一边特征进行相似度计算,得到包括多个边特征相似度的边相似度矩阵。
S43:将节点相似度矩阵、边相似度矩阵输入预设求解器进行求解,得到待识别文件相对标准键值文件的置换矩阵。
在得到节点相似度矩阵、边相似度矩阵之后,将节点相似度矩阵、边相似度矩阵输入预设求解器进行求解,获取预设求解器输出的置换矩阵,该置换矩阵即待识别文件相对标准键值文件的置换矩阵。
其中,该预设求解器可以为DD-ILP求解器。DD-ILP求解器集成了决策图DDs(Decision Support System )和整数线性规划(Integer Linear Programming,ILP)以解决组合优化问题,因此使用DD-ILP求解器进行求解,可以得出标准键值文件和待识别文件的最佳匹配结果。
S44:基于标准键值文件的版式对置换矩阵进行解析,得到待识别文件中各识别值的与识别键的对应关系。
在得到待识别文件相对标准键值文件的置换矩阵之后,将基于标准键值文件的版式对置换矩阵进行解析,得到待识别文件中各识别值的与识别键的对应关系。
例如,预设求解器输出的置换矩阵K为:
Figure 98034DEST_PATH_IMAGE001
其中,根据标准键值文件的版式,确定置换矩阵的第一行表示标准键值文件中标准值,比如表示姓名,则置换矩阵的第一列表示待识别文件中识别值,从上述置换矩阵K可知,待识别文件中的第一个识别值就有姓名的属性,表示识别键姓名对应的识别值。
本实施例中,通过对待识别文件和标准键值文件的多个节点特征进行相似度计算,得到节点相似度矩阵,并对待识别文件和标准键值文件的多个边特征进行相似度计算,得到边相似度矩阵,然后将节点相似度矩阵、边相似度矩阵输入预设求解器进行求解,得到待识别文件相对标准键值文件的置换矩阵,最后基于标准键值文件的版式对置换矩阵进行解析,得到待识别文件中各识别值的与识别键的对应关系,细化了根据标准键值文件和待识别文件的图特征,求解得到各识别值的与识别键的对应关系的具体步骤,通过求解器对对待识别文件和标准键值文件的图特征进行求解,基于标准键值文件度置换矩阵进行解析,简单方便且正确率高。
在一实施例中,每一节点特征包括语义特征、视觉特征、空间特征和形状特征,步骤S41中,即对待识别文件的多个节点特征和标准键值文件的多个节点特征进行相似度计算,得到节点相似度矩阵,具体包括如下步骤:
S411:对待识别文件的每一语义特征分别和标准键值文件的每一语义特征进行相似度计算,得到多个语义相似度;
S412:对待识别文件的每一视觉特征分别和标准键值文件的每一视觉特征进行相似度计算,得到多个视觉相似度;
S413:对待识别文件的每一空间特征分别和标准键值文件的每一空间特征进行相似度计算,得到多个空间相似度;
S414:对待识别文件的每一形状特征分别和标准键值文件的每一形状特征进行相似度计算,得到多个形状相似度;
S415:对同一节点特征对应的语义相似度、视觉相似度、空间相似度和形状相似度进行平均处理,将得到的相似度平均值作为节点特征的节点相似度,得到多个节点特征的节点相似度,并将多个节点特征的节点相似度生成为节点相似度矩阵。
本实施例中,每一节点特征包括语义特征、视觉特征、空间特征和形状特征,因而在对待识别文件的多个节点特征和标准键值文件的多个节点特征进行相似度计算时,需要分别度上述四个特征进行相似度计算。
即,需要对待识别文件的每一语义特征分别和标准键值文件的每一语义特征进行相似度计算,得到多个节点特征对应的语义相似度,即得到多个语义相似度;同时,对待识别文件的每一视觉特征分别和标准键值文件的每一视觉特征进行相似度计算,得到多个节点特征对应的视觉相似度,即得到多个视觉相似度。
还需要对待识别文件的每一空间特征分别和标准键值文件的每一空间特征进行相似度计算,得到多个节点特征对应的空间相似度,即得到多个空间相似度;同时,对待识别文件的每一形状特征分别和标准键值文件的每一形状特征进行相似度计算,得到多个节点特征对应的形状相似度,即得到多个形状相似度。
由于每一节点特征均包括语义特征、视觉特征、空间特征和形状特征,则每一节点特征均对应有自身的语义相似度、视觉相似度、空间相似度和形状相似度。在得到多个语义相似度、多个视觉相似度、多个空间相似度和多个形状相似度,即在得到每一节点特征对应的语义相似度、视觉相似度、空间相似度和形状相似度之后,对某个节点特征对应的语义相似度、视觉相似度、空间相似度和形状相似度进行平均处理,将得到的相似度平均值作为节点特征的节点相似度,遍历所有节点特征直至得到多个节点特征的节点相似度,并将多个节点特征的节点相似度生成为节点相似度矩阵。
将节点特征对应的语义相似度、视觉相似度、空间相似度和形状相似度进行平均处理,将得到的相似度平均值作为节点特征的节点相似度,能够提高节点相似度的准确性和稳定性,在其他实施例中,还可以将该节点特征对应的语义相似度、视觉相似度、空间相似度和形状相似度中较大的相似度作为节点特征的边相似度。
本实施例中,通过对待识别文件的每一语义特征分别和标准键值文件的每一语义特征进行相似度计算,得到多个语义相似度,并对待识别文件的每一视觉特征分别和标准键值文件的每一视觉特征进行相似度计算,得到多个视觉相似度;对待识别文件的每一空间特征分别和标准键值文件的每一空间特征进行相似度计算,得到多个空间相似度,并对待识别文件的每一形状特征分别和标准键值文件的每一形状特征进行相似度计算,得到多个形状相似度;对同一节点特征对应的语义相似度、视觉相似度、空间相似度和形状相似度进行平均处理,将得到的相似度平均值作为节点特征的节点相似度,得到多个节点特征的节点相似度,并将多个节点特征的节点相似度生成为节点相似度矩阵,明确了对待识别文件和标准键值文件的多个节点特征进行相似度计算,得到节点相似度矩阵的具体过程,每一节点特征包括语义特征、视觉特征、空间特征和形状特征,提高了节点特征的多样性,且将多个特征的相似度平均值作为节点相似度代表,提高了节点相似度的准确性和稳定性,为后续进行对应关系求解提供了准确基础。
在一实施例中,每一边特征包括方向特征和形态特征,步骤S42中,即对待识别文件的多个边特征和标准键值文件的多个边特征进行相似度计算,得到边相似度矩阵,具体包括如下步骤:
S421:对待识别文件的每一方向特征分别和标准键值文件的每一方向特征进行相似度计算,得到多个方向相似度;
S422:对待识别文件的每一形态特征分别和标准键值文件的每一形态特征进行相似度计算,得到多个形态相似度;
S423:对同一边特征对应的方向相似度和形态相似度进行平均处理,将得到的相似度平均值作为边特征的边相似度,得到多个边特征的边相似度,并将多个边特征的边相似度生成为边相似度矩阵。
本实施例中,每一边特征包括方向特征和形态特征,因而在对待识别文件和标准键值文件的多个边特征进行相似度计算时,需要分别度上述两个特征进行相似度计算。即,需要对待识别文件的每一方向特征分别和标准键值文件的每一方向特征进行相似度计算,得到多个边特征对应的方向相似度,即得到多个方向相似度;同时,对待识别文件的每一形态特征分别和标准键值文件的每一形态特征进行相似度计算,得到多个边特征对应的形态相似度,即得到多个形态相似度。
由于每一边特征均包括方向特征和形态特征,则每一边特征均对应有自身的方向相似度和形态相似度度。在得到多个方向相似度和多个形态相似度,即在获得多个边特征对应的方向相似度和形态相似度之后,对某个边特征对应的方向相似度和形态相似度进行平均处理,将得到的相似度平均值作为边特征的边相似度,遍历所有边特征得到多个边特征的边相似度,并将多个边特征的边相似度生成为边相似度矩阵。
将边特征对应的方向相似度和形态相似度进行平均处理,将得到的相似度平均值作为边特征的边相似度,能够提高边相似度的准确性和稳定性,在其他实施例中,还可以将方向相似度和形态相似度中较大的相似度作为边特征的边相似度。
本实施例中,通过对待识别文件的每一方向特征分别和标准键值文件的每一方向特征进行相似度计算,得到多个方向相似度,并对待识别文件的每一形态特征分别和标准键值文件的每一形态特征进行相似度计算,得到多个形态相似度,然后对同一边特征对应的方向相似度和形态相似度进行平均处理,将得到的相似度平均值作为边特征的边相似度,得到多个边特征的边相似度,并将多个边特征的边相似度生成为边相似度矩阵,明确了对待识别文件的多个边特征和标准键值文件的多个边特征进行相似度计算,得到边相似度矩阵的具体过程,每一边特征包括方向特征和形态特征,提高了边特征的多样性,且将两个特征的相似度平均值作为边相似度代表,提高了边相似度的准确性和稳定性,为后续进行对应关系求解提供了准确基础。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种键值文件处理装置,该键值文件处理装置与上述实施例中键值文件处理方法一一对应。如图7所示,该键值文件处理装置包括获取模块701、识别模块702、特征提取模块703和生成模块704。各功能模块详细说明如下:
获取模块701,用于获取与待识别文件具有相同版式的标准键值文件,并获取标准键值文件的图特征,标准键值文件的图特征为对标准键值文件的标准值关系图进行特征提取得到的图特征;
识别模块702,用于采用文本识别模型对待识别文件进行文本识别,得到待识别文件的多个识别键和多个识别值;
特征提取模块703,用于对待识别文件中多个识别值的位置进行区域构图,得到待识别文件的识别值关系图,并基于识别值关系图进行图特征提取,得到待识别文件的图特征;
生成模块704,用于根据标准键值文件的图特征和待识别文件的图特征,求解得到各识别值的与识别键的对应关系,并基于各识别值的与识别键的对应关系生成目标键值文档。
进一步地,图特征包括节点特征和边特征,生成模块704具体用于:
对待识别文件的多个节点特征和标准键值文件的多个节点特征进行相似度计算,得到节点相似度矩阵;
对待识别文件的多个边特征和标准键值文件的多个边特征进行相似度计算,得到边相似度矩阵;
将节点相似度矩阵、边相似度矩阵输入预设求解器进行求解,得到待识别文件相对标准键值文件的置换矩阵;
基于标准键值文件的版式对置换矩阵进行解析,得到待识别文件中各识别值的与识别键的对应关系。
进一步地,每一节点特征包括语义特征、视觉特征、空间特征和形状特征,生成模块704具体还用于:
对待识别文件的每一语义特征分别和标准键值文件的每一语义特征进行相似度计算,得到多个语义相似度;
对待识别文件的每一视觉特征分别和标准键值文件的每一视觉特征进行相似度计算,得到多个视觉相似度;
对待识别文件的每一空间特征分别和标准键值文件的每一空间特征进行相似度计算,得到多个空间相似度;
对待识别文件的每一形状特征分别和标准键值文件的每一形状特征进行相似度计算,得到多个形状相似度;
对同一节点特征对应的语义相似度、视觉相似度、空间相似度和形状相似度进行平均处理,将得到的相似度平均值作为节点特征的节点相似度,得到多个节点特征的节点相似度,并将多个节点特征的节点相似度生成为节点相似度矩阵。
进一步地,每一边特征包括方向特征和形态特征,生成模块704具体还用于:
对待识别文件的每一方向特征分别和标准键值文件的每一方向特征进行相似度计算,得到多个方向相似度;
对待识别文件的每一形态特征分别和标准键值文件的每一形态特征进行相似度计算,得到多个形态相似度;
对同一边特征对应的方向相似度和形态相似度进行平均处理,将得到的相似度平均值作为边特征的边相似度,得到多个边特征的边相似度,并将多个边特征的边相似度生成为边相似度矩阵。
进一步地,特征提取模块703具体用于:
将识别值所在区域记为动态区域,得到多个动态区域;
以每一动态区域为原点发射多条射线,将射线触及到的动态区域依次连接得到闭环图,记为待识别文件的初始图;
将初始图中两两动态区域的距离作为权重,采用普利姆算法在初始图中搜索最小生成树,并将最小生成树作为识别值关系图。
进一步地,特征提取模块703具体还用于:
确定识别值关系图中多个动态区域,每一动态区域表示为每一识别值的所在区域;
对识别值关系图中相邻两动态区域的连接边进行特征提取,得到多个边特征;
对各动态区域进行节点特征提取,得到多个节点特征,每一节点特征至少包括语义特征和视觉特征;
将多个节点特征和多个边特征作为待识别文件的图特征。
进一步地,特征提取模块703具体还用于:
将连接边两端的动态区域,记为连接边上相邻的两动态区域;
将连接边上相邻两动态区域的相对位置,记为连接边的方向特征;
将连接边上相邻两动态区域的高度和宽度进行拼接,得到连接边的形态特征;
遍历所有连接边,直至得到所有连接边的方向特征和形态特征。
进一步地,特征提取模块703具体还用于:
将各动态区域进行裁剪得到动态区域图像,并分别将各动态区域图像输入视觉提取层进行视觉特征提取,得到各动态区域的视觉特征;
将各识别值分别输入语义提取模型中进行语义特征提取,得到各动态区域的语义特征;
将动态区域的高度和宽度作为动态区域的形状特征,得到各动态区域的形状特征;
确定动态区域与任意一个识别键所在区域的连线中点,得到多个连线中点,并将多个连线中点作为动态区域的空间特征,遍历所有动态区域得到各动态区域的空间特征;
将同一动态区域的语义特征、视觉特征、空间特征和形状特征,作为一节点特征,遍历所有动态区域得到多个节点特征。
进一步地,识别模块702具体用于:
将待识别文件输入文本识别模型进行字符识别,得到文本识别模型输出的多个识别文本;
获取标准键值文件的多个标准键,标准键为标准值指向的键;
将各识别文本与多个标准键进行匹配,并将匹配成功的识别文本记为识别键,得到多个识别键,并将未匹配成功的识别文本记为识别值,得到多个识别值。
关于键值文件处理装置的具体限定可以参见上文中对于键值文件处理方法的限定,在此不再赘述。上述键值文件处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述数据处理用到、生成的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种键值文件处理方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取与待识别文件具有相同版式的标准键值文件,并获取标准键值文件的图特征,标准键值文件的图特征为对标准键值文件的标准值关系图进行特征提取得到的图特征;
采用文本识别模型对待识别文件进行文本识别,得到待识别文件的多个识别键和多个识别值;
对待识别文件中多个识别值的位置进行区域构图,得到待识别文件的识别值关系图,并基于识别值关系图进行图特征提取,得到待识别文件的图特征;
根据标准键值文件的图特征和待识别文件的图特征,求解得到各识别值的与识别键的对应关系,并基于各识别值的与识别键的对应关系生成目标键值文档。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取与待识别文件具有相同版式的标准键值文件,并获取标准键值文件的图特征,标准键值文件的图特征为对标准键值文件的标准值关系图进行特征提取得到的图特征;
采用文本识别模型对待识别文件进行文本识别,得到待识别文件的多个识别键和多个识别值;
对待识别文件中多个识别值的位置进行区域构图,得到待识别文件的识别值关系图,并基于识别值关系图进行图特征提取,得到待识别文件的图特征;
根据标准键值文件的图特征和待识别文件的图特征,求解得到各识别值的与识别键的对应关系,并基于各识别值的与识别键的对应关系生成目标键值文档。
在一个实施例中,提供一种计算机程序产品,该计算机程序产品包括计算机程序,计算机程序被处理器执行时实现以下步骤:
获取与待识别文件具有相同版式的标准键值文件,并获取标准键值文件的图特征,标准键值文件的图特征为对标准键值文件的标准值关系图进行特征提取得到的图特征;
采用文本识别模型对待识别文件进行文本识别,得到待识别文件的多个识别键和多个识别值;
对待识别文件中多个识别值的位置进行区域构图,得到待识别文件的识别值关系图,并基于识别值关系图进行图特征提取,得到待识别文件的图特征;
根据标准键值文件的图特征和待识别文件的图特征,求解得到各识别值的与识别键的对应关系,并基于各识别值的与识别键的对应关系生成目标键值文档。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (13)

1.一种键值文件处理方法,其特征在于,包括:
获取与待识别文件具有相同版式的标准键值文件,并获取所述标准键值文件的图特征,所述标准键值文件的图特征为对所述标准键值文件的标准值关系图进行特征提取得到的图特征;
采用文本识别模型对所述待识别文件进行文本识别,得到所述待识别文件的多个识别键和多个识别值;
对所述待识别文件中多个所述识别值的位置进行区域构图,得到所述待识别文件的识别值关系图,并基于所述识别值关系图进行图特征提取,得到所述待识别文件的图特征;
根据所述标准键值文件的图特征和所述待识别文件的图特征,求解得到各所述识别值的与所述识别键的对应关系,并基于各所述识别值的与所述识别键的对应关系生成目标键值文档。
2.如权利要求1所述的键值文件处理方法,其特征在于,所述图特征包括节点特征和边特征,所述根据所述标准键值文件的图特征和所述待识别文件的图特征,求解得到各所述识别值的与所述识别键的对应关系,包括:
对所述待识别文件的多个节点特征和所述标准键值文件的多个节点特征进行相似度计算,得到节点相似度矩阵;
对所述待识别文件的多个边特征和所述标准键值文件的多个边特征进行相似度计算,得到边相似度矩阵;
将所述节点相似度矩阵、所述边相似度矩阵输入预设求解器进行求解,得到所述待识别文件相对所述标准键值文件的置换矩阵;
基于所述标准键值文件的版式对所述置换矩阵进行解析,得到所述待识别文件中各所述识别值的与所述识别键的对应关系。
3.如权利要求2所述的键值文件处理方法,其特征在于,每一所述节点特征包括语义特征、视觉特征、空间特征和形状特征,所述对所述待识别文件的多个节点特征和所述标准键值文件的多个节点特征进行相似度计算,得到节点相似度矩阵,包括:
对所述待识别文件的每一语义特征分别和所述标准键值文件的每一语义特征进行相似度计算,得到多个语义相似度;
对所述待识别文件的每一视觉特征分别和所述标准键值文件的每一视觉特征进行相似度计算,得到多个视觉相似度;
对所述待识别文件的每一空间特征分别和所述标准键值文件的每一空间特征进行相似度计算,得到多个空间相似度;
对所述待识别文件的每一形状特征分别和所述标准键值文件的每一形状特征进行相似度计算,得到多个形状相似度;
对同一所述节点特征对应的所述语义相似度、所述视觉相似度、所述空间相似度和所述形状相似度进行平均处理,将得到的相似度平均值作为所述节点特征的节点相似度,得到多个所述节点特征的节点相似度,并将所述多个所述节点特征的节点相似度生成为所述节点相似度矩阵。
4.如权利要求2所述的键值文件处理方法,其特征在于,每一所述边特征包括方向特征和形态特征,所述对所述待识别文件多个边特征和所述标准键值文件的多个边特征进行相似度计算,得到边相似度矩阵,包括:
对所述待识别文件的每一方向特征分别和所述标准键值文件的每一方向特征进行相似度计算,得到多个方向相似度;
对所述待识别文件的每一形态特征分别和所述标准键值文件的每一形态特征进行相似度计算,得到多个形态相似度;
对同一所述边特征对应的所述方向相似度和所述形态相似度进行平均处理,将得到的相似度平均值作为所述边特征的边相似度,得到多个所述边特征的边相似度,并将所述多个所述边特征的边相似度生成为所述边相似度矩阵。
5.如权利要求1所述的键值文件处理方法,其特征在于,所述对所述待识别文件中多个所述识别值的位置进行区域构图,得到所述待识别文件的识别值关系图,包括:
将所述识别值所在区域记为动态区域,得到多个所述动态区域;
以每一所述动态区域为原点发射多条射线,将所述射线触及到的所述动态区域依次连接得到闭环图,记为所述待识别文件的初始图;
将所述初始图中两两所述动态区域的距离作为权重,采用普利姆算法在所述初始图中搜索最小生成树,并将所述最小生成树作为所述识别值关系图。
6.如权利要求1所述的键值文件处理方法,其特征在于,所述基于所述识别值关系图进行图特征提取,得到所述待识别文件的图特征,包括:
确定所述识别值关系图中的多个动态区域,每一所述动态区域表示为每一所述识别值的所在区域;
对所述识别值关系图中相邻两所述动态区域的连接边进行特征提取,得到多个边特征;
对各所述动态区域进行节点特征提取,得到多个节点特征,每一所述节点特征至少包括语义特征和视觉特征;
将多个所述节点特征和多个所述边特征作为所述待识别文件的图特征。
7.如权利要求6所述的键值文件处理方法,其特征在于,所述对所述识别值关系图中相邻两所述动态区域的连接边进行特征提取,得到多个边特征,包括:
将所述连接边两端的所述动态区域,记为所述连接边上相邻的两所述动态区域;
将所述连接边上相邻两所述动态区域的相对位置,记为所述连接边的方向特征;
将所述连接边上相邻两所述动态区域的高度和宽度进行拼接,得到所述连接边的形态特征;
遍历所有所述连接边,直至得到所有所述连接边的所述方向特征和所述形态特征。
8.如权利要求6所述的键值文件处理方法,其特征在于,所述对各所述动态区域进行节点特征提取,得到多个所述节点特征,包括:
将各所述动态区域进行裁剪得到动态区域图像,并分别将各所述动态区域图像输入视觉提取层进行视觉特征提取,得到各所述动态区域的视觉特征;
将各所述识别值分别输入语义提取模型中进行语义特征提取,得到各所述动态区域的语义特征;
将所述动态区域的高度和宽度作为所述动态区域的形状特征,得到各所述动态区域的形状特征;
确定所述动态区域与任意一个所述识别键所在区域的连线中点,得到多个所述连线中点,并将多个所述连线中点作为所述动态区域的空间特征,遍历所有所述动态区域得到各所述动态区域的空间特征;
将同一所述动态区域的所述语义特征、所述视觉特征、所述空间特征和所述形状特征,作为一所述节点特征,遍历所有所述动态区域得到多个所述节点特征。
9.如权利要求1-8任一项所述的键值文件处理方法,其特征在于,所述采用文本识别模型对所述待识别文件进行文本识别,得到所述待识别文件的多个识别键和多个识别值,包括:
将所述待识别文件输入所述文本识别模型进行字符识别,得到所述文本识别模型输出的多个识别文本;
获取所述标准键值文件的多个标准键,所述标准键为所述标准值指向的键;
将各所述识别文本与多个所述标准键进行匹配,并将匹配成功的所述识别文本记为所述识别键,得到多个所述识别键,并将未匹配成功的所述识别文本记为所述识别值,得到多个所述识别值。
10.一种键值文件处理装置,其特征在于,包括:
获取模块,用于获取与待识别文件具有相同版式的标准键值文件,并获取所述标准键值文件的图特征,所述标准键值文件的图特征为对所述标准键值文件的标准值关系图进行特征提取得到的图特征;
识别模块,用于采用文本识别模型对所述待识别文件进行文本识别,得到所述待识别文件的多个识别键和多个识别值;
特征提取模块,用于对所述待识别文件中多个所述识别值的位置进行区域构图,得到所述待识别文件的识别值关系图,并基于所述识别值关系图进行图特征提取,得到所述待识别文件的图特征;
生成模块,用于根据所述标准键值文件的图特征和所述待识别文件的图特征,求解得到各所述识别值的与所述识别键的对应关系,并基于各所述识别值的与所述识别键的对应关系生成目标键值文档。
11.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至9任一项所述键值文件处理方法的步骤。
12.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至9任一项所述键值文件处理方法的步骤。
13.一种计算机程序产品,所述计算机程序产品包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至9任一项所述的键值文件处理方法的步骤。
CN202211027366.9A 2022-08-25 2022-08-25 键值文件处理方法、装置、设备、介质 Active CN115116060B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211027366.9A CN115116060B (zh) 2022-08-25 2022-08-25 键值文件处理方法、装置、设备、介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211027366.9A CN115116060B (zh) 2022-08-25 2022-08-25 键值文件处理方法、装置、设备、介质

Publications (2)

Publication Number Publication Date
CN115116060A true CN115116060A (zh) 2022-09-27
CN115116060B CN115116060B (zh) 2023-01-24

Family

ID=83336175

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211027366.9A Active CN115116060B (zh) 2022-08-25 2022-08-25 键值文件处理方法、装置、设备、介质

Country Status (1)

Country Link
CN (1) CN115116060B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106886776A (zh) * 2017-02-23 2017-06-23 山东浪潮云服务信息科技有限公司 一种利用图像识别实现证照电子化的应用模型
CN107506778A (zh) * 2017-06-20 2017-12-22 清华大学 一种基于最小生成树的海量数据聚类处理方法
CN109543690A (zh) * 2018-11-27 2019-03-29 北京百度网讯科技有限公司 用于提取信息的方法和装置
CN110111021A (zh) * 2019-05-17 2019-08-09 浙江中蓝环境科技有限公司 一种产业效益的分析方法
CN111046634A (zh) * 2019-12-10 2020-04-21 深圳前海环融联易信息科技服务有限公司 文档处理方法、装置、计算机设备以及存储介质
KR102152260B1 (ko) * 2020-03-04 2020-09-04 주식회사 로민 키-밸류 관계인식장치 및 키-밸류 관계인식방법
US20200364060A1 (en) * 2019-05-17 2020-11-19 Open Text Sa Ulc Systems and methods of multi-stage configuration service for policy-driven transformation
CN112434555A (zh) * 2020-10-16 2021-03-02 泰康保险集团股份有限公司 键值对区域识别方法、装置、存储介质和电子设备
CN112926471A (zh) * 2021-03-05 2021-06-08 中国工商银行股份有限公司 业务单据影像内容识别方法及装置
CN112949443A (zh) * 2021-02-24 2021-06-11 平安科技(深圳)有限公司 表格结构识别方法、装置、电子设备及存储介质
CN112949476A (zh) * 2021-03-01 2021-06-11 苏州美能华智能科技有限公司 基于图卷积神经网络的文本关系检测方法、装置及存储介质
CN113177090A (zh) * 2021-04-30 2021-07-27 中国邮政储蓄银行股份有限公司 数据处理方法及装置
CN113378710A (zh) * 2021-06-10 2021-09-10 平安科技(深圳)有限公司 图像文件的版面分析方法、装置、计算机设备和存储介质
CN113901954A (zh) * 2021-11-17 2022-01-07 上海高德威智能交通系统有限公司 一种文档版面的识别方法、装置、电子设备及存储介质
CN114153959A (zh) * 2021-12-08 2022-03-08 北京有竹居网络技术有限公司 键值匹配方法、装置、可读介质及电子设备
CN114332883A (zh) * 2022-01-04 2022-04-12 上海浦东发展银行股份有限公司 发票信息识别方法、装置、计算机设备及存储介质

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106886776A (zh) * 2017-02-23 2017-06-23 山东浪潮云服务信息科技有限公司 一种利用图像识别实现证照电子化的应用模型
CN107506778A (zh) * 2017-06-20 2017-12-22 清华大学 一种基于最小生成树的海量数据聚类处理方法
CN109543690A (zh) * 2018-11-27 2019-03-29 北京百度网讯科技有限公司 用于提取信息的方法和装置
CN110111021A (zh) * 2019-05-17 2019-08-09 浙江中蓝环境科技有限公司 一种产业效益的分析方法
US20200364060A1 (en) * 2019-05-17 2020-11-19 Open Text Sa Ulc Systems and methods of multi-stage configuration service for policy-driven transformation
CN111046634A (zh) * 2019-12-10 2020-04-21 深圳前海环融联易信息科技服务有限公司 文档处理方法、装置、计算机设备以及存储介质
KR102152260B1 (ko) * 2020-03-04 2020-09-04 주식회사 로민 키-밸류 관계인식장치 및 키-밸류 관계인식방법
CN112434555A (zh) * 2020-10-16 2021-03-02 泰康保险集团股份有限公司 键值对区域识别方法、装置、存储介质和电子设备
CN112949443A (zh) * 2021-02-24 2021-06-11 平安科技(深圳)有限公司 表格结构识别方法、装置、电子设备及存储介质
CN112949476A (zh) * 2021-03-01 2021-06-11 苏州美能华智能科技有限公司 基于图卷积神经网络的文本关系检测方法、装置及存储介质
CN112926471A (zh) * 2021-03-05 2021-06-08 中国工商银行股份有限公司 业务单据影像内容识别方法及装置
CN113177090A (zh) * 2021-04-30 2021-07-27 中国邮政储蓄银行股份有限公司 数据处理方法及装置
CN113378710A (zh) * 2021-06-10 2021-09-10 平安科技(深圳)有限公司 图像文件的版面分析方法、装置、计算机设备和存储介质
CN113901954A (zh) * 2021-11-17 2022-01-07 上海高德威智能交通系统有限公司 一种文档版面的识别方法、装置、电子设备及存储介质
CN114153959A (zh) * 2021-12-08 2022-03-08 北京有竹居网络技术有限公司 键值匹配方法、装置、可读介质及电子设备
CN114332883A (zh) * 2022-01-04 2022-04-12 上海浦东发展银行股份有限公司 发票信息识别方法、装置、计算机设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
QIXIANG YE 等: "《Text Detection and Recognition in Imagery: A Survey》", 《PAMI》 *
纠海峰: "《水下机器人在湍流环境下对化学羽状物的追踪定位》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
罗钰敏: "《事件知识图谱并行化研究及应用》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
陆游游 等: "《闪存存储的重构与系统构建技术》", 《计算机研究与发展》 *

Also Published As

Publication number Publication date
CN115116060B (zh) 2023-01-24

Similar Documents

Publication Publication Date Title
US10846553B2 (en) Recognizing typewritten and handwritten characters using end-to-end deep learning
US10915788B2 (en) Optical character recognition using end-to-end deep learning
US9418315B1 (en) Systems, methods, and computer readable media for extracting data from portable document format (PDF) files
US10482174B1 (en) Systems and methods for identifying form fields
US20180307948A1 (en) Method and device of constructing decision model, computer device and storage apparatus
CN110659527B (zh) 电子表单中的表格检测
US11816138B2 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
US20200125954A1 (en) Systems and methods for selecting and generating log parsers using neural networks
US11341319B2 (en) Visual data mapping
CN113837151A (zh) 表格图像处理方法、装置、计算机设备及可读存储介质
CN116644729A (zh) 表格文件处理方法、装置、计算机设备和存储介质
US20220245591A1 (en) Membership analyzing method, apparatus, computer device and storage medium
CN115131803A (zh) 文档字号的识别方法、装置、计算机设备和存储介质
CN116721713B (zh) 一种面向化学结构式识别的数据集构建方法和装置
CN115116060B (zh) 键值文件处理方法、装置、设备、介质
CN115688166A (zh) 信息脱敏处理方法、装置、计算机设备及可读存储介质
US11335108B2 (en) System and method to recognise characters from an image
CN112395834B (zh) 基于图片输入的脑图生成方法、装置、设备及存储介质
US20220229863A1 (en) Assigning documents to entities of a database
CN114581923A (zh) 表格图像及对应标注信息的生成方法、装置及存储介质
CN113868411A (zh) 合同比对方法、装置、存储介质及计算机设备
CN113835704A (zh) 一种布局文件生成方法、装置、设备以及存储介质
CN112766269A (zh) 一种图片文本检索方法、智能终端及存储介质
CN110751140A (zh) 字符批量识别方法、装置和计算机设备
US20210295031A1 (en) Automated classification and interpretation of life science documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant