CN112052835A - 信息处理方法、信息处理装置、电子设备和存储介质 - Google Patents

信息处理方法、信息处理装置、电子设备和存储介质 Download PDF

Info

Publication number
CN112052835A
CN112052835A CN202011057666.2A CN202011057666A CN112052835A CN 112052835 A CN112052835 A CN 112052835A CN 202011057666 A CN202011057666 A CN 202011057666A CN 112052835 A CN112052835 A CN 112052835A
Authority
CN
China
Prior art keywords
text item
text
item
name
items
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011057666.2A
Other languages
English (en)
Other versions
CN112052835B (zh
Inventor
倪子涵
孙逸鹏
姚锟
韩钧宇
丁二锐
刘经拓
王海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202011057666.2A priority Critical patent/CN112052835B/zh
Publication of CN112052835A publication Critical patent/CN112052835A/zh
Priority to EP21170920.9A priority patent/EP3842960A3/en
Priority to US17/244,291 priority patent/US11908219B2/en
Priority to JP2021152157A priority patent/JP7270013B2/ja
Priority to KR1020210128681A priority patent/KR20210125955A/ko
Application granted granted Critical
Publication of CN112052835B publication Critical patent/CN112052835B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Geometry (AREA)
  • Medical Informatics (AREA)
  • Computer Graphics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Character Input (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种信息处理方法、信息处理装置、电子设备和计算机可读存储介质,涉及计算机视觉、深度学习、自然语言处理等人工智能领域。在本公开的信息处理方法中,计算设备可以首先识别图像中的多个文本项。然后,计算设备可以基于多个文本项的语义,将多个文本项划分为名称文本项的第一集合和内容文本项的第二集合。接着,计算设备可以基于多个文本项在图像中的布置,执行第一集合和第二集合的匹配,以确定与第一集合的名称文本项匹配的第二集合的内容文本项。然后,计算设备可以输出匹配的名称文本项和内容文本项。本公开的实施例可以提高用于识别和提取图像中的结构化信息的方法或系统的性能。

Description

信息处理方法、信息处理装置、电子设备和存储介质
技术领域
本公开一般涉及计算机技术领域和信息处理技术领域,并且特别涉及涉及计算机视觉、深度学习、自然语言处理等人工智能领域。
背景技术
对文档或图像中的结构化信息的识别和提取是实现海量纸质文档的信息结构化的重要技术之一,在行政、教育、金融、医疗等各种行业和领域中都有着广泛的应用。例如,文档或图像的结构化信息识别和提取技术有助于行政机关、教育机构、金融机构、医疗机构等进行行业流程的改进和业务场景的智能升级,从而提升工作效率。
发明内容
本公开提出了一种用于信息处理的技术方案,并且具体提供了一种信息处理方法、信息处理装置、电子设备和计算机可读存储介质。
根据本公开的一方面,提供了一种信息处理方法。该方法包括:识别图像中的多个文本项。该方法还包括:基于多个文本项的语义,将多个文本项划分为名称文本项的第一集合和内容文本项的第二集合。该方法还包括:基于多个文本项在图像中的布置,执行第一集合和第二集合的匹配,以确定与第一集合的名称文本项匹配的第二集合的内容文本项。该方法进一步包括:输出匹配的名称文本项和内容文本项。
根据本公开的另一方面,提供了一种信息处理装置。该装置包括:识别模块,被配置为识别图像中的多个文本项。该装置还包括:划分模块,被配置为基于多个文本项的语义,将多个文本项划分为名称文本项的第一集合和内容文本项的第二集合。该装置还包括:匹配模块,被配置为基于多个文本项在图像中的布置,执行第一集合和第二集合的匹配,以确定与第一集合的名称文本项匹配的第二集合的内容文本项。该装置进一步包括:输出模块,被配置为输出匹配的名称文本项和内容文本项。
根据本公开的另一方面,提供了一种电子设备。该电子设备包括处理器以及与处理器通信连接的存储器。存储器存储有可被处理器执行的指令,指令被处理器执行,以使处理器能够执行第一方面的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行第一方面的方法。
本公开的实施例可以提高用于识别和提取图像中的结构化信息的方法或系统的性能。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其他特征将通过以下的说明书而变得容易理解。
附图说明
通过参考附图阅读下文的详细描述,本公开的实施例的上述以及其他目的、特征和优点将变得容易理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施例。因此,应当明白,附图仅用于更好地理解本申请的技术方案,不构成对本申请的限定。
图1示出了本公开的一些实施例能够在其中实现的示例环境的示意图。
图2示出了根据本公开的实施例的信息处理方法的示例过程的流程图。
图3示出了根据本公开的实施例的基于文本项检测模型和文字识别模型来识别图像中的文本项的示意图。
图4示出了根据本公开的实施例的文本项检测模型所检测到的文本项区域的示意图。
图5示出了根据本公开的实施例的基于对初始文本项检测模型执行增量学习来构造文本项检测模型的示意图。
图6示出了根据本公开的实施例的初始文本项检测模型所检测到的文本区域的示意图。
图7示出了根据本公开的实施例的基于语义分类模型将文本项划分为名称文本项的第一集合和内容文本项的第二集合的示意图。
图8示出了根据本公开的实施例的基于对初始语义分类模型执行增量学习来构造语义分类模型的示意图。
图9示出了根据本公开的实施例的语义分类模型的示例结构。
图10示出了根据本公开的实施例的语义分类模型的示例结构中的编码器模块的示例结构。
图11示出了根据本公开的实施例的用于执行名称文本项的第一集合与内容文本项的第二集合之间的匹配的示例过程的流程图。
图12示出了根据本公开的实施例的参考名称文本项和参考内容文本项的中心点连线与参考方向之间的夹角的示意图。
图13示出了根据本公开的实施例的用于确定待匹配的名称文本项与候选内容文本项之间的距离的示例过程的流程图。
图14示出了根据本公开的实施例的基于两个文本项对应的两个矩形区域来确定两个文本项之间的距离的示意图。
图15示出了根据本公开的另一实施例的用于执行名称文本项与内容文本项的局部近邻匹配,并且输出匹配的名称文本项与内容文本项,或者附加地输出未匹配的名称文本项和内容文本项的示例过程的流程图。
图16示出了根据本公开的实施例的用于指示名称文本项和内容文本项的匹配关系的图形表示的示意图。
图17示出了根据本公开的实施例的用于信息处理的示例装置的框图。
图18示出了可以用来实施本公开的实施例的示例电子设备的框图。
贯穿所有附图,相同或者相似的参考标号被用来表示相同或者相似的组件。
具体实施方式
下文结合附图对本申请的示例性实施例作出说明,其中包括本申请实施例的各种细节以助于理解,应当认为它们仅仅是示例性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例作出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
如上文提到的,对文档或图像中的结构化信息(也称为结构化数据)的识别和提取是实现海量纸质文档的信息结构化的重要技术之一。然而,传统的结构化信息的识别和提取方法存在各种缺陷和不足,导致识别和提取结构化信息的性能较差。例如,基于模板的结构化信息提取方法采用模板匹配的方式来提取文档中的结构化信息。对于一些固定版式的文档来说,键值(key-value)对的分布模式是相对固定的。因此,这样的模板匹配方法在定义好的模板上可以具有较好的表现,但是其只能处理具有预定义版式的文档,而无法直接扩展到其他版式的文档,所以泛化性较差。另外,模板匹配方法还存在键值数据的标注成本较大的问题。
另一方面,常规的文档结构化系统大多利用基于目标检测和分割的方法来进行文档解析。为此,典型的标注信息可能包括文字检测框、文字内容、键值(KV)匹配关系,因此标注成本很高并且泛化性较差。随着机器学习的发展,文档信息的结构化开始变为词多分类的问题。也即,给定一些需要提取的标签,对文档中的所有词进行分类,判断每个词是否属于某一个标签。同样地,这种基于机器学习的词分类方法的标注成本也较高,因为需要对每个词进行多分类标注。另外,该方法中利用的简单分类器可能无法理解到词的语义信息,因此对于训练中未使用的词泛化性能较差。
再者,基于深度学习的结构化信息提取方法大多采用端到端的网络模型框架,也即,将图像和文字嵌入结果一起送入到卷积神经网络或图网络中进行端到端的训练。然而,这样的基于深度学习的端到端框架的数据标注成本也很高,不仅要标注文字的位置、文本信息,还需要标注键值关系。此外,基于深度学习的算法都是数据驱动的,因此数据的难以获取将会导致基于深度学习的模型的泛化能力难以提升。
鉴于传统方案中的上述问题和其他潜在问题,本公开的实施例提出了一种分阶段的从图像中提取结构化信息的技术方案。在本公开的技术方案中,计算设备可以首先识别图像中的多个文本项。然后,计算设备可以将识别出的多个文本项划分为第一集合和第二集合,其中第一集合包括名称文本项(例如,键值对中的键)并且第二集合包括内容文本项(例如,键值对中的值)。接着,计算设备可以执行第一集合和第二集合的匹配,以确定与名称文本项匹配的内容文本项。此后,计算设备可以输出匹配的名称文本项和内容文本项,从而实现对图像中的结构化信息的提取。
由此可见,与传统的方案不同,本公开的技术方案所提出的结构化信息提取过程可以被拆分为多个阶段,因此整个提取过程不依赖于固定的模板,也不需要标注过多的数据,从而提高了可泛化性并且降低了数据标注成本。此外,由于每个阶段可以单独进行优化,并且用于优化各个阶段的数据相比于用于端到端模型的数据是更容易获得的,从而整个提取过程的性能更容易提高。
另一方面,与分阶段的结构化信息提取过程相对应,本公开的技术方案所提出的结构化信息提取系统可以被拆解为多个模块,从而各个模块可以分开训练,从而降低了训练数据获取的难度。例如,各个模块可以首先利用通用的数据进行训练,然后再基于增量学习采用少量的针对本公开的应用场景的数据来进行模块微调,因此用于训练各个模块的数据更容易获得,进而可以提升训练后的各个模块的准确率。总之,本公开的实施例可以提高用于提取图像中的结构化信息的方法或系统的性能。
图1示出了本公开的一些实施例能够在其中实现的示例环境100的示意图。如图1所示,示例环境100可以包括图像110和计算设备120。在一些实施例中,图像110可以是呈现或记录有文本信息的任何图像,诸如纸质文档或文件的照片或扫描电子件,等等。在其他实施例中,图像110也可以是与纸质文档无关的以电子形式产生和使用的带有文本信息的任何图像。更一般地,图像110可以是使用文本形式记载有信息的任何文档或文件。在图1的示例中,图像110可以包括文本项115-1至115-18,也即,图像110以文本项115-1至115-18的形式呈现或记录有信息。如本文中使用的,文本项是指在记录信息的意义上可以被单独考虑的文本单位。也就是说,单个文本项可以独立地表达或指示可理解的信息。例如,文本项可以是用于承载信息的单个文字、词语、词组、语句或段落等。在本公开的上下文中,为了描述的方便,文本项有时也可以被称为文字行、文字段、字段等,这些术语在本文中可以互换地使用。
需要说明的是,图1中描绘的包围文本项115-1至115-18的虚线框仅是示意性的,用于标示出文本项115-1至115-18在图像110中的大致位置和范围,这些虚线框并不实际存在于图像110中。此外,图1中描绘的图像110的特定大小和形状、图像110中的文本项115-1至115-18的特定数目、特定大小、特定延伸方向、特定位置和特定布置仅为示例性的,无意以任何方式限制本公开的范围。在其他实施例中,图像110可以具有任何适当的大小和形状,图像110中可以具有任何适当数目的文本项,文本项可以具有任何适当的大小、任何适当的延伸方向、任何适当的位置和任何适当的布置等。另外,在本公开的上下文中,将以中文作为示例来描述文本项115-1至115-18的内容,但是中文内容仅为示例性的,无意以任何方式限制本公开的范围。本公开的实施例等同地适用于任何语言文字或符号。
为了使图像110中的文本项115-1至115-18更容易理解,这里描述图像110为“餐饮服务许可证”照片的一种具体示例。在该具体示例中,文本项115-1可以是“餐饮服务许可证”,文本项115-2可以是“粤餐证字xxxx号”,文本项115-3可以是“单位名称”,文本项115-4可以是“某餐饮管理有限公司”,文本项115-5可以是“法定代表人(负责人)”,文本项115-6可以是“张三(法定代表人)”,文本项115-7可以是“地址”,文本项115-8可以是“某省某市某路某号”,文本项115-9可以是“类别”,文本项115-10可以是“快餐店”,文本项115-11可以是“备注”,文本项115-12可以是“快餐制售(全部使用半成品加工。不含:凉菜、生食海产品、裱花蛋糕)”,文本项115-13可以是“有效期限”,文本项115-14可以是“某年某月某日至某年某月某日”,文本项115-15可以是“请在有效期届满10日内向发证部门书面提出延续申请”,文本项115-16可以是“发证机关”,文本项115-17可以是“某市市场监督管理局某分局”,并且文本项115-18可以是“某年某月某日”。需要说明的是,这里列出的文本项115-1至115-18的具体文字信息仅是示意性的,无意以任何方式限制本公开的范围。本公开的实施例可以适用于记载任何文字信息的文本项。
如所示出的,为了对图像110中使用文本项115-1至115-18记载的信息进行结构化识别和提取,图像110可以被输入到计算设备120中。计算设备120可以首先识别出图像110中记录的文本项115-1至115-18。接着,计算设备120可以将文本项115-1至115-18分类为名称文本项的第一集合117和内容文本项的第二集合119。换言之,第一集合117是由名称文本项组成的文本项集合,而第二集合119是由内容文本项组成的集合。如本文中使用的,名称文本项可以是指表示信息的名称或名目的文本项,也即,名称文本项可以认为是某种信息的名称或总称。在一些实施例中,名称文本项可以对应于在键值对意义上的键(key)。在其他实施例中,名称文本项的含义也可以由计算设备120的用户或管理员来定义或设置,然后用户或管理员可以将计算设备120配置为按照自定义的含义来确定名称文本项的第一集合117。
另一方面,如本文中使用的,内容文本项可以是指表示信息的内容或实体的文本项,也即,内容文本项可以认为是某种信息的内容或实质。在一些实施例中,内容文本项可以对应于在键值对意义上的值(value)。在其他实施例中,内容文本项的含义也可以由计算设备120的用户或管理员来定义或设置,然后用户或管理员可以将计算设备120配置为按照自定义的含义来确定内容文本项的第二集合119。更一般地,本公开的实施例中的“名称文本项”可以是指在表达信息的意义上可以与另一“内容文本项”配对的文本项,而不限于指示信息名称。类似地,“内容文本项”可以是指在表达信息的意义上可以与另一“名称文本项”配对的文本项,而不限于指示信息内容。
例如,针对上文描述的图像110为“餐饮服务许可证”照片的具体示例,计算设备120可以确定文本项115-1、115-3、115-5、115-7、115-9、115-11、115-13和115-16是名称文本项,因此第一集合117可以包括这些名称文本项。此外,计算设备120可以确定文本项115-2、115-4、115-6、115-8、115-10、115-12、115-14、115-15、115-17和115-18是内容文本项,因此第二集合119可以包括这些内容文本项。
在将文本项115-1至115-18分类为第一集合117和第二集合119之后,计算设备120可以执行第一集合117和第二集合119的匹配125,从而确定匹配的名称文本项和内容文本项130。然后,计算设备120可以输出匹配的名称文本项和内容文本项130,从而实现对图像110中的结构化信息的识别和提取。例如,在一些实施例中,计算设备120可以确定并输出第一集合117和第二集合119中所有匹配的名称文本项和内容文本项。当然,在其他实施例中,例如根据用户或管理员的设置或者在特定的应用场景中,计算设备120也可以识别并输出图像110中的所有匹配的名称文本项和内容文本项的子集,诸如仅输出一对或预定数目对匹配的名称文本项和内容文本项等。
因此,本公开的实施例中的计算设备120可以被视为实现了一种版式可泛化的智能结构化信息识别和提取系统。对于输入的任何一张图像(例如,图像110),通过分阶段的图像处理或信息处理之后,计算设备120可以输出图像110中所有配对的名称文本项和内容文本项或其子集。当然,如果图像110中没有记录结构化信息,则计算设备120可以确定图像110中不存在匹配的名称文本项和内容文本项,并且不执行输出操作或输出用于表示不存在匹配的名称文本项和内容文本项的指示。此外,由于计算设备120对图像110进行智能地处理并且输出与自然语言有关的处理结果,因此也可以认为计算设备120实现了计算机视觉和自然语言处理等人工智能技术。
在一些实施例中,计算设备120可以包括任何能够实现计算功能和/或控制功能的设备,其可以是任何类型的固定计算设备、移动计算设备或便携式计算设备,包括但不限于,专用计算机、通用计算机、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、多媒体计算机、移动电话、通用处理器、微处理器、微控制器、或状态机。计算设备120可以实施为个体计算设备或计算设备的组合,例如,数字信号处理器(DSP)和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP核心、或者任何其他这样的配置。
此外,应当理解,图1仅示意性地示出了与本公开的实施例相关的对象、单元、元素、或组件。在实践中,示例环境100还可以包括其他对象、单元、元素、或组件,等等。另外,图1中示出的对象、单元、元素、或组件的特定数目仅是示意性的,无意以任何方式限制本公开的范围。在其他实施例中,示例环境100可以包括任何适当数目的对象、单元、元素、或组件,等等。因此,本公开的实施例不限于图1所描绘的具体场景,而是一般性地适用于结构化信息识别和提取的任何技术环境。下文参考图2来描述本公开的实施例的用于识别和提取结构化信息的示例过程。
图2示出了根据本公开的实施例的信息处理方法的示例过程200的流程图。在一些实施例中,示例过程200可以由示例环境100中的计算设备120来实现,例如可以由计算设备120的处理器或处理单元来实现,或者由计算设备120的各种功能模块来实现。在其他实施例中,示例过程200也可以由独立于示例环境100的计算设备来实现,或者可以由示例环境100中的其他单元或模块来实现。为了便于说明,将参考图1来描述示例过程200。
在框210处,计算设备120可以识别图像110中的多个文本项115-1至115-18。换言之,计算设备120不仅可以检测出图像110中存在文本项115-1至115-18,并且可以辨认出文本项115-1至115-18中的每个文本项由哪些文字或符号组成。需要说明的是,计算设备120可以采用各种不同的方式来识别图像110中的文本项115-1至115-18。例如,计算设备120可以使用光学字符识别(OCR)技术来识别图像110中的文本项115-1至115-18。又例如,计算设备120可以使用经训练的端到端的基于卷积神经网络的文字识别模型,来识别图像110中的文本项115-1至115-18。在其他实施例中,计算设备120可以首先检测文本项115-1至115-18在图像110中对应的文本项区域,然后再从这些文本项区域中分别识别出文本项115-1至115-18。后文将参考图3至图6来描述这样的实施例。
在框220处,计算设备120可以基于文本项115-1至115-18的语义,将文本项115-1至115-18划分为名称文本项的第一集合117和内容文本项的第二集合119。应当明白,计算设备120可以使用任何适当的方式基于文本项115-1至115-18的语义来划分出第一集合117和第二集合119。作为一种示例方式,计算设备120可以通过识别某个文本项中的关键词来确定该文本项的语义,然后基于该文本项的语义来确定该文本项是属于名称文本项还是内容文本项。例如,在图像110为“餐饮服务许可证”照片的具体示例中,计算设备120可以识别文本项115-3“单位名称”中包括关键词“单位”和/或“名称”,从而确定该文本项的语义是指实体类型“单位”或实体名称,属于信息的名目,进而确定文本项115-3是名称文本项。又例如,计算设备120可以识别文本项115-4“某餐饮管理有限公司”中包括关键词“公司”,从而确定该文本项的语义是某公司的具体名称,属于信息的内容,进而确定文本项115-4是内容文本项。
作为另一种示例方式,计算设备120可以存储有或者可以访问名称文本项的列表和内容文本项的列表,这两个列表可以是根据文本项的语义预先确定的并记录的。在这种情况下,针对文本项115-1至115-18中的每个文本项,计算设备120可以在这两个列表中查询文本项,进而确定文本项是名称文本项还是内容本文项。例如,在图像110为“餐饮服务许可证”照片的具体示例中,如果计算设备120在名称文本项的列表中查询到文本项115-1,则计算设备120可以确定文本项115-1为名称文本项。又例如,如果计算设备120在内容文本项的列表中查询到文本项115-2,则计算设备120可以确定文本项115-2为内容文本项。对于在两个列表中都查询不到的文本项,计算设备120可以根据文本项的语义来确定其是名称文本项还是内容文本项,然后将其添加到相应的列表中。
在其他实施例中,计算设备120可以使用经训练的基于机器学习的语义分类模型,来确定名称文本项的第一集合117和内容文本项的第二集合119。例如,计算设备120处可以实施有经过训练的语义分类模型,并且可以将文本项115-1至115-18分别输入到语义分类模型中,从而语义分类模型可以判断每个文本项是名称文本项还是内容文本项,并且输出相应的分类结果。后文将参考图7至图10来描述这样的实施例。
在框230处,基于文本项115-1至115-18在图像110中的布置,计算设备120可以执行第一集合117和第二集合119的匹配,以确定与第一集合117的名称文本项匹配的第二集合119的内容文本项。如本文中使用的,名称文本项与内容文本项之间的“匹配”是指名称文本项与内容文本项可以相关联地被提供,并且共同提供更完整的信息。例如,在名称文本项是键值对中的键的情况下,与其匹配的内容文本项则可以是键值对中的值。更一般地,如本文中使用的,匹配的名称文本项与内容文本项可以是指以任何形式相关联或相对应的名称文本项与内容文本项,而使得它们可以一起被提供或呈现。
因此,在图像110为“餐饮服务许可证”照片的具体示例中,名称文本项115-3和内容文本项115-4可以认为是匹配的,名称文本项115-5和内容文本项115-6可以认为是匹配的,名称文本项115-7和内容文本项115-8可以认为是匹配的,名称文本项115-9和内容文本项115-10可以认为是匹配的,名称文本项115-11和内容文本项115-12可以认为是匹配的,名称文本项115-13和内容文本项115-14可以认为是匹配的,并且名称文本项115-16和内容文本项115-17可以认为是匹配的。然而,需要指出的是,在本公开的实施例中,计算设备120并不是基于名称文本项和内容文本项之间的语义关系来确定两者之间的匹配关系的。替代地,计算设备120是基于名称文本项和内容文本项在图像110中的布置,也即各个文本项的位置、整体排布和文本项之间的位置关系等,来确定名称文本项和内容文本项之间的匹配关系。
具体地,计算设备120可以通过各种不同的方式,根据各个文本项在图像中的布置来执行名称文本项与内容文本项之间的匹配。例如,在图像110中,与某个名称文本项匹配的内容文本项一般是与该名称文本项距离最近的内容文本项。因此,在一些实施例中,针对第一集合117中的每个名称文本项,计算设备120可以将与该名称文本项距离最近的内容文本项确定为与该名称文本项匹配的内容文本项。当然,以类似的方式,计算设备120也可以针对第二集合119中的每个内容文本项,将与该内容文本项距离最近的名称文本项确定为与该内容文本项匹配的名称文本项。
附加地或替换地,在图像110中,与某个名称文本项匹配的内容文本项通常是与该名称文本项在相同水平方向上的内容文本项。因此,在一些实施例中,针对第一集合117中的每个名称文本项,计算设备120可以将与该名称文本项在相同水平方向上的内容文本项确定为与该名称文本项匹配的内容文本项。当然,以类似的方式,计算设备120也可以针对第二集合119中的每个内容文本项,将与该内容文本项在相同水平方向上的名称文本项确定为与该内容文本项匹配的名称文本项。需要说明的是,在其他实施例中,图像110中的信息排布方式可能不是左右排布的,也即,匹配的名称文本项和内容文本项在图像110中的位置不是左右排列的关系,而是例如上下排列的关系等。在这种情况下,匹配的名称文本项和内容文本项的位置关系可以根据图像110的信息排布方式来具体确定,而不一定是在相同的水平方向上。
在其他实施例中,为了提高计算设备120确定匹配的名称文本项与内容文本项的正确率,计算设备120可以预先设置名称文本项和内容文本项的匹配条件。在一些实施例中,匹配条件可以是根据经验、图像110中的信息排布方式、和/或已经匹配的名称文本项和内容文本项的位置关系来确定的,以用于降低计算设备120将不匹配的名称文本项和内容文本项确定为匹配的可能性。因此,如果两个名称文本项和内容文本项不符合预定的匹配条件,则计算设备120可以确定这两个文本项不匹配,从而避免错误地匹配名称文本项与内容文本项。后文将参考图11至图15来描述这样的实施例。
在框240处,计算设备120可以输出匹配的名称文本项和内容文本项。例如,计算设备120可以成对地输出匹配的名称文本项和内容文本项,从而表明名称文本项和内容文本项之间的匹配关系。在一些实施例中,计算设备120可以采用文本的形式来输出匹配的名称文本项和内容文本项。例如,在图像110为“餐饮服务许可证”照片的具体示例中,计算设备120可以按照如下格式成对地输出匹配的名称文本项和内容文本项。名称文本项115-3:内容文本项115-4,也即,单位名称:某餐饮管理有限公司;名称文本项115-5:内容文本项115-6,也即,法定代表人(负责人):张三(法定代表人);……;名称文本项115-16:内容文本项115-17,也即,发证机关:某市市场监督管理局某分局,等等。备选地,匹配的名称文本项和内容文本项的输出形式可以是{名称文本项115-3,内容文本项115-4},也即,{单位名称,某餐饮管理有限公司};{名称文本项115-5,内容文本项115-6},也即,{法定代表人(负责人),张三(法定代表人)};……;{名称文本项115-16,内容文本项115-17},也即,{发证机关,某市市场监督管理局某分局},等等。在其他实施例中,计算设备120还可以采用图形表示的形式来输出匹配的名称文本项和内容文本项。后文将参考图16来描述这样的实施例。
由此可见,根据本公开的实施例的示例过程200提出了一种分阶段的通用图像(或文档)的信息结构化方法,因此结构化信息的整个提取过程不依赖于固定的模板,也不需要标注过多的数据,从而提高了可泛化性并且降低了数据标注成本。此外,由于每个阶段可以单独进行优化,并且用于优化各个阶段的数据相比于用于端到端模型的数据是更容易获得的,从而结构化信息的整个提取过程的性能更容易提高。
另一方面,用于执行示例过程200的计算设备120可以实现多个模块分别实施示例过程200的多个阶段,并且各个模块可以分开训练。具体地,如后文将更详细描述的,各阶段的模块都可以采用通用数据进行训练,然后再基于增量学习采用少量的场景数据进行模块微调。以此方式,用于训练各阶段模块的数据更容易获得,更多的训练数据可以显著地提升各个模块的准确率,并且实现良好的泛化能力,避免了端到端模型的训练数据获取成本高、训练收敛困难、泛化性较差等冷启动问题。
如上文在描述图2的框210时提到的,在一些实施例中,计算设备120可以首先检测文本项115-1至115-18在图像110中对应的文本项区域,然后再从相应的文本项区域中分别识别出文本项115-1至115-18。更具体地,计算设备120可以使用基于机器学习(例如,深度学习)的文本项检测模型,来检测图像110中的文本项115-1至115-18所在的各个文本项区域。然后,计算设备120可以使用基于机器学习(例如,深度学习)的文字识别模型,来识别文本项区域中的文本项115-1至115-18。以此方式,对图像110中的文本项115-1至115-18的识别可以拆分成两个不同的阶段,每个阶段可以分别专注于不同的功能,因此可以利用具有专门功能的机器学习模型来分别执行,从而可以提高文本项115-1至115-18的检测准确性。下文参考图3至图6来描述这样的实施例。
图3示出了根据本公开的实施例的基于文本项检测模型310和文字识别模型320来识别图像110中的文本项115-1至115-18的示意图。如图3所示,为了在图像110中识别文本项115-1至115-18,计算设备120中可以实现文本项检测模型310和文字识别模型320。文本项检测模型310可以用于检测图像110中的多个文本项区域315,也即,文本项115-1至115-18在图像110中所对应的图像区域。在一些实施例中,由于检测的单位目标是文本项(也称为字段或文字行),所以文本项检测模型310也可以称为字段级别的文字行检测器,其可以执行字段级别文字行检测。另一方面,文字识别模型320可以用于识别多个文本项区域315中包含的文字,也即,文本项115-1至115-18分别包括哪些文字。
因此,在图3的示例中,在图像110输入到计算设备120之后,计算设备120可以首先基于文本项检测模型310从图像110中检测多个文本项区域315。然后,计算设备120可以基于文字识别模型320,从多个文本项区域315中分别识别文本项115-1至115-18。具体地,计算设备120可以将文本项115-1至115-18所在的多个文本项区域315送入到文字识别模型320中进行文字识别,由此得到图像110中所有的文本项信息。在一些实施例中,为了提高文字识别的准确性,计算设备120可以将文本项检测模型310所获取的图像110中的多个文本项区域315适当向外扩展,例如,扩充0.15倍宽或者0.15倍高。然后,计算设备120可以将所有扩充后的图像区域送入文字识别模型320以执行文字识别。
在一些实施例中,文本项检测模型310和文字识别模型320可以是基于机器学习(例如,深度学习)的神经网络模型。例如,文本项检测模型310可以是基于残差网络Resnet-50的高效且准确的场景文本(Efficient and Accuracy Scene Text,EAST)文字检测网络来实现的。又例如,文字识别模型320可以是基于残差网络Resnet-101为底的连接时间分类(Connectionist temporal classification,CTC)文字识别模型。在其他实施例中,文本项检测模型310和文字识别模型320也可以是合适的其他深度学习模型。在另外的实施例中,文本项检测模型310和文字识别模型320可以采用非机器学习模型来实现。
图4示出了根据本公开的实施例的文本项检测模型310所检测到的文本项区域315-1至315-18的示意图。如图4所示,针对图1中描绘的图像110,文本项检测模型310可以检测出图像110中存在文本项115-1至115-18,并且在图像110中以矩形框的形式标记出文本项115-1至115-18所在的文本项区域315-1至315-18。例如,文本项检测模型310可以标记出包括文本项115-1的文本项区域315-1、包括文本项115-2的文本项区域315-2、……、以及包括文本项115-18的文本项区域315-18。需要说明的是,图4中将文本项区域315-1至315-18描绘为矩形框仅为示例性的,无意以任何方式限制本公开的范围。在其他实施例中,文本项区域315-1至315-18可以具有任何适当的形状,或者文本项区域315-1至315-18中的一个或多个文本项区域可以与其他文本项区域具有不同的形状。
在一些实施例中,除了标记出文本项区域315-1至315-18之外,文本项检测模型310还可以提供文本项区域315-1至315-18中的每个文本项区域在图像110中的位置坐标。例如,在一些实施例中,计算设备120可以利用文本项区域315-1至315-18的位置坐标来执行后续的名称文本项和内容文本项之间的匹配。作为一种示例,在文本项区域315-1至315-18为矩形框的情况下,文本项检测模型310可以提供文本项区域315-1至315-18的四个角点的坐标,或者提供一个角点的坐标以及矩形框的宽度和高度,等等。当然,在文本项区域315-1至315-18为其他形状的情况下,文本项检测模型310可以按照适合于这些形状的其他适当方式,来提供文本项区域315-1至315-18的位置坐标。
在一些实施例中,文本项检测模型310可以是针对结构化信息提取的技术场景专门设计和训练的模型,但是这种专用模型的训练数据可能比较难以获得,因为结构化信息提取的场景数据获取成本较高,也即,存在结构化数据获取困难的问题。因此,在其他实施例中,为了避免场景数据获取成本较高的问题,并且考虑到重新训练新模型比基于已有的模型进行调整代价更大,因此本公开的实施例可以采用增量学习的方式来优化已有的通用模型,从而实现文本项检测模型310。例如,在实现文本项检测模型310的过程中,计算设备120可以首先获得基于通用数据训练得到的通用模型,然后再使用少量的场景数据对通用模型进行增量学习,使得增量学习后的通用模型(也即,文本项检测模型310)比重新训练新模型具有更好的性能和更低的成本。下文参考图5和图6来描述这样的实施例。
图5示出了根据本公开的实施例的基于对初始文本项检测模型510执行增量学习535来构造文本项检测模型310的示意图。如图5所示,文本项检测模型310可以通过基于专用数据515执行对初始文本项检测模型510的增量学习535来构造。例如,计算设备120可以从模型提供方获得初始文本项检测模型510,然后使用专用数据515对初始文本项检测模型510执行增量学习535,以生成文本项检测模型310。如本文中使用的,“专用数据”可以是指针对结构化信息识别和提取技术场景的数据。更一般地,“专用数据”也可以是指与本公开的实施例所涉及的技术场景相关的数据。在一些实施例中,专用数据515可以包括经标注的名称文本项和内容文本项,从而使得初始文本项检测模型510增量学习到本公开的实施例中的名称文本项和内容文本项的特征。在本公开的上下文中,对名称文本项和内容文本项的标注也可以称为字段级别的标注。
需要说明的是,尽管上文描述的是计算设备120执行对初始文本项检测模型510的增量学习535,但是这种描述仅是示例性的,无意以任何方式限制本公开的范围。在其他实施例中,不同于计算设备120的一个或多个计算设备可以执行对初始文本项检测模型510的增量学习535,以生成文本项检测模型310。而计算设备120可以从该一个或多个计算设备直接获得通过增量学习535构造的文本项检测模型310,以用于检测图像110中的文本项区域。
另外,如图5所示,初始文本项检测模型510可以是使用通用数据505来训练525的,因此初始文本项检测模型510也可以称为通用文本项检测模型510。如本文中使用的,“通用数据”可以是指不特别针对结构化信息识别和提取技术场景的数据。更一般地,“通用数据”可以泛指不特定地针对本公开的实施例所涉及的技术场景的数据。需要说明的是,初始文本项检测模型510的训练525通常不是由计算设备120来执行的,并且初始文本项检测模型510的训练525和增量学习535也可以不是由相同的计算设备来完成的。当然,在一些实施例中,初始文本项检测模型510的训练525和增量学习535也可以均由计算设备120来执行。
需要说明的是,在图5的示例中,初始文本项检测模型510使用通用数据505训练,而未使用专用数据515进行增量学习。由于通用数据(例如,字段行检测训练数据)一般是按照语义信息、空间位置等方式进行切分标注的,所以不能很好地将键和值切分开,而重新标注大量的键值字段的数据来训练专门的模型成本很高。相比之下,在通用数据505训练得到的初始文本项检测模型510的基础上,文本项检测模型310使用专用数据515执行了增量学习。例如,采用少量的键值字段级别的数据进行微调,从而使得文本项检测模型310可以快速获得键值字段检测的知识。从文本项的检测效果来说,初始文本项检测模型510可能无法准确地检测出图像110中的各个文本项,而相比之下文本项检测模型310能够准确地检测出图像110中的各个文本项。下文参考图6来对此进行说明。
图6示出了根据本公开的实施例的初始文本项检测模型510所检测到的文本区域的示意图。如图6所示,针对图1中描绘的图像110,相比于图4中描绘的由文本项检测模型310检测出的文本项区域315-1至315-18,通用文本项检测模型510可以检测出文本项区域315-1、315-2、315-11、315-12、315-15和315-18,因为这些文本项区域所对应的文本项附近没有距离接近的其他文本项。但是,相比于由文本项检测模型310检测出的文本项区域315-1至315-18,通用文本项检测模型510无法检测出文本项区域315-3至315-10、315-13、315-14、315-16和315-17,因为这些文本项区域所对应的文本项附近存在距离接近的其他文本项。具体地,由于文本项区域315-3和315-4对应的文本项115-3和115-4距离较近,而通用文本项检测模型510没有经过基于专用数据515的增量学习,所以通用文本项检测模型510将文本项115-3和115-4整体检测为文本项区域615-1。类似地,如所示出的,通用文本项检测模型510将文本项115-5和115-6整体检测为文本项区域615-2、将文本项115-7和115-8整体检测为文本项区域615-3、将文本项115-9和115-10整体检测为文本项区域615-4、将文本项115-13和115-14整体检测为文本项区域615-5、并且将文本项115-16和115-17整体检测为文本项区域615-6。
如上文在描述图2的框220时提到的,在一些实施例中,计算设备120可以使用经训练的基于机器学习的语义分类模型,来确定名称文本项的第一集合117和内容文本项的第二集合119。例如,计算设备120处可以实施有经过训练的语义分类模型,并且可以将文本项115-1至115-18分别输入到语义分类模型中,从而语义分类模型可以判断每个文本项是名称文本项还是内容文本项,并且输出相应的分类结果。利用基于机器学习(例如,深度学习)的语义分类模型,计算设备120对文本项分类的效率和准确性可以得到提高。下文参考图7至图10来描述这样的实施例。
图7示出了根据本公开的实施例的基于语义分类模型710将文本项115-1至115-18划分为名称文本项的第一集合117和内容文本项的第二集合118的示意图。如图7所示,为了对文本项115-1至115-18进行分类,计算设备120中可以实现语义分类模型710,其可以确定每个文本项是名称文本项还是内容本文项。因此,在识别出图像110中的文本项115-1至115-18之后,计算设备120可以基于语义分类模型710来确定文本项115-1至115-18中的每个文本项是名称文本项还是内容文本项,从而得出由名称文本项组成的第一集合117以及由内容文本项组成的第二集合119。在一些实施例中,语义分类模型710可以是基于知识增强的语义理解框架ERNIE(Enhanced Representation through kNowledge IntEgration)模型。在其他实施例中,语义分类模型710也可以是合适的其他深度学习模型。在另外的实施例中,语义分类模型710可以采用非机器学习模型来实现。
在一些实施例中,语义分类模型710可以是针对结构化信息提取的技术场景专门设计和训练的模型,但是这种专用模型的训练数据可能比较难以获得,因为结构化信息提取的场景数据获取成本较高,也即,存在结构化数据获取困难的问题。因此,在其他实施例中,为了避免场景数据获取成本较高的问题,并且考虑到重新训练新模型比基于已有的模型进行调整代价更大,因此本公开的实施例可以采用增量学习的方式来优化已有的通用模型,从而实现语义分类模型710。例如,在实现语义分类模型710的过程中,计算设备120可以首先获得基于通用数据训练得到的通用模型,然后再使用少量的场景数据对通用模型进行增量学习,使得增量学习后的通用模型(也即,语义分类模型710)比重新训练新模型具有更好的性能和更低的成本。下文参考图8来描述这样的实施例。
图8示出了根据本公开的实施例的基于对初始语义分类模型810执行增量学习835来构造语义分类模型710的示意图。如图8所示,语义分类模型710可以通过基于专用数据815执行对初始语义分类模型810的增量学习835来构造。例如,计算设备120可以从模型提供方获得初始语义分类模型810,然后使用专用数据815对初始语义分类模型810执行增量学习835,以生成语义分类模型710。如本文中使用的,“专用数据”可以是指针对结构化信息识别和提取技术场景的数据。更一般地,“专用数据”也可以是指与本公开的实施例所涉及的技术场景相关的数据。在一些实施例中,专用数据815可以包括经标注的名称文本项和内容文本项,从而使得初始语义分类模型810增量学习到本公开的实施例中的名称文本项和内容文本项的特征。在本公开的上下文中,对名称文本项和内容文本项的标注也可以称为字段级别的标注。
需要说明的是,尽管上文描述的是计算设备120执行对初始语义分类模型810的增量学习835,但是这种描述仅是示例性的,无意以任何方式限制本公开的范围。在其他实施例中,不同于计算设备120的一个或多个计算设备可以执行对初始语义分类模型810的增量学习835,以生成语义分类模型710。而计算设备120可以从该一个或多个计算设备直接获得通过增量学习835构造的语义分类模型710,以用于将文本项115-1至115-18分类为第一集合117和第二集合119。如上文提到的,在一些实施例中,语义分类模型710可以是基于知识增强的ERNIE的语义实体识别模型。在这些实施例中,由于ERNIE提供了在词法、语法、语义三个层次上经过预训练的模型,因此计算设备120可以基于少量的数据增量学习来得到性能优越的键值实体分类模型。例如,为了获得更好的泛化性,计算设备120可以直接在通用语料库里收集键值语料,用于执行对ERNIE模型的增量学习,从而极大地降低了训练数据的获取成本。
另外,如图8所示,初始语义分类模型810可以是使用通用数据805来训练825的,因此初始语义分类模型810也可以称为通用语义分类模型810。如本文中使用的,“通用数据”可以是指不特别针对结构化信息识别和提取技术场景的数据。更一般地,“通用数据”可以泛指不特定地针对本公开的实施例所涉及的技术场景的数据。需要说明的是,初始语义分类模型810的训练825通常不是由计算设备120来执行的,并且初始语义分类模型810的训练825和增量学习835也可以不是由相同的计算设备来完成的。当然,在一些实施例中,初始语义分类模型810的训练825和增量学习835也可以均由计算设备120来执行。
图9示出了根据本公开的实施例的语义分类模型710的示例结构900。在一些实施例中,示例结构900可以是基于ERNIE模型的。在这些实施例中,基于知识增强的语义理解模型ERNIE被使用在文档信息结构化的技术场景中,因此ERNIE模型可以通过对训练集中通用的名称文本项和内容文本项(例如,键和值)进行语义理解,从而对各种版式的名称文本项和内容文本项(例如,键和值)具有更好的泛化能力,进而可以直接支持多种典型的低频垂类。在其他实施例中,语义分类模型710的示例结构900也可以基于其他适当的机器学习模型来构造。
如图9所示,示例结构900包括输入嵌入(embedding)模块910、编码器模块920和分类器模块930。在图9的示例中,输入嵌入模块910可以使用四个嵌入向量来表示输入的文本项。这四个嵌入向量包括Token嵌入向量912,语句嵌入向量914,位置嵌入向量916和掩码嵌入向量918。
为了得出Token嵌入向量912,计算设备120可以将输入的文本项按照字、词或其他语言单位进行切分,得到一个或多个Token。换言之,Token是指文本项被切分之后的字、词或其他语言单位。然后,计算设备120可以基于预定的映射关系(例如,预定的字典或词典等)来确定每个Token的序号。接着,计算设备120可以将Token的序号输入到嵌入层,从而得到某个Token的Token嵌入向量(例如,128或512维)。在图9的示例中,某个文本项被切分为Token1、Token2、Token3、……、TokenN。Token嵌入向量912-1至912-N分别表示这些Token的嵌入向量。另外,第一个Token嵌入向量912-0表示示例结构900用于分类任务,标记为[CLS]。
语句嵌入向量914用于指示每个Token所在的语句编号,这里由于每个Token均属于同一个文本项,所以可以认为在同一个语句中。因此,在图9的示例中,Token1、Token2、Token3、……、TokenN的语句嵌入向量914-1至914-N均是表示语句编号0的向量。此外,语句嵌入向量914-0也设置为表示语句编号0。位置嵌入向量916是为了使得示例结构900理解多个Token在语句中的顺序,因此在输入嵌入向量中添加了每个Token在文本项中的位置信息的位置嵌入向量916。在图9的示例中,Token1、Token2、Token3、……、TokenN的位置嵌入向量916-1至916-N分别是表示位置1至位置N的向量。此外,位置嵌入向量916-0被设置为表示位置0。掩码嵌入向量918用于指示每个Token是否被掩蔽,这里由于每个Token均不被掩蔽,因此在图9的示例中,Token1、Token2、Token3、……、TokenN的掩码嵌入向量918-0至919-N均是表示不掩蔽的指示值1.0的向量。此外,掩码嵌入向量918-0也被设置为指示值1.0的向量。在图9的示例中,输入嵌入模块910可以将输入的文本项的每个Token的四个嵌入向量相加得到输入向量,由此文本项可以被编码为输入向量的序列。
在一些实施例中,编码器模块920可以采用基于ERNIE的模型来构造,其可以包括12个编码器和12个注意力头。因此,输入嵌入模块910可以将输入向量的序列输入到编码器模块920中最下层的编码器中。编码器模块920中的每层编码器可以使用自注意力机制和前馈神经网络对输入向量的序列进行编码,然后可以将编码结果传入到上一层的编码器。下文将参考图10来详细描述编码器模块920的结构。如图9所示,由编码器模块920输出的向量可以经过分类器模块930进行分类,从而得到示例结构900对文本项的分类结果940,例如,键值实体的分类结果。在一些实施例中,分类器模块930可以包括基于ERNIE模型来构造的具有任何适当网络结构的分类器。此外,需要说明的是,图9中列举的任何特定数值或数目仅为示例性的,无意以任何方式限制本公开的范围。在其他实施例中,这些数值或数目均可以具有任何其他适合的取值。
图10示出了根据本公开的实施例的语义分类模型710的示例结构900中的编码器模块920的示例结构。如图10所示,示例结构900中的编码器模块920可以由12个编码器920-1至920-12级联组成,并且每个编码器都可以进一步分为两层。不失一般性,以编码器920-2作为示例,其可以包括自注意力层1020和前馈神经网络1030。如所示出的,输入1010可以被提供给编码器模块920中最下层的编码器920-1。在一些实施例中,输入1010可以是某个Token(例如,“张”、“三”等)的输入向量。
在每个自注意力层(例如,自注意力层1020)中,输入向量可以首先分别与三个矩阵相乘得到三个向量,也即,查询向量、键向量和值向量。每个编码器中的自注意力层在编码某个Token时,可以将语句中所有Token的表示(例如,值向量)进行加权求和,其中权重表达的是Token之间的相关性,由此即得到自注意力层在该位置的输出。在一些实施例中,上述相关性可以通过某个Token的表示(例如,键向量)与被编码的Token表示(例如,查询向量)的点积并且通过softmax函数得到。
在一些实施例中,自注意力层(例如,自注意力层1020)还可以采用“多头”注意力机制,该机制可以扩展模型专注于不同位置的能力,以将输入的Token嵌入向量(或来自较低编码器的向量)投影到不同的表示子空间中。作为示例,各个编码器的自注意力层(例如,自注意力层1020)可以采用12个注意力头。
自注意力层(例如,自注意力层1020)可以将多个注意力头的输出矩阵进行矩阵乘而压缩为一个输出矩阵,以送入到前馈神经网络层(例如,前馈神经网络层1030)中。在一些实施例中,每个编码器(也即,每个位置)的前馈神经网络层可以是共享参数的。需要说明的是,图10中列举的任何特定数值或数目仅为示例性的,无意以任何方式限制本公开的范围。在其他实施例中,这些数值或数目均可以具有任何其他适合的取值。
如上文在描述图2的框230时提到的,在一些实施例中,为了提高计算设备120确定匹配的名称文本项与内容文本项的正确率,计算设备120可以预先设置名称文本项和内容文本项的匹配条件。例如,匹配条件可以是根据经验、图像110中的信息排布方式、和/或已经匹配的名称文本项和内容文本项的位置关系来确定的,以用于降低计算设备120将不匹配的名称文本项和内容文本项确定为匹配的可能性。因此,如果两个名称文本项和内容文本项不符合预定的匹配条件,则计算设备120可以确定这两个文本项不匹配,从而避免错误地匹配名称文本项与内容文本项。以此方式,计算设备120确定匹配的名称文本项和内容文本项的效率和准确性可以提高。下文参考图11至图15来描述这样的实施例。
图11示出了根据本公开的实施例的用于执行名称文本项的第一集合117与内容文本项的第二集合119之间的匹配的示例过程1100的流程图。在一些实施例中,示例过程1100可以由示例环境100中的计算设备120来实现,例如可以由计算设备120的处理器或处理单元来实现,或者由计算设备120的各种功能模块来实现。在其他实施例中,示例过程1100也可以由独立于示例环境100的计算设备来实现,或者可以由示例环境100中的其他单元或模块来实现。为了便于说明,将参考图1来描述示例过程1100。
在框1110处,针对名称文本项的第一集合117中的待匹配的名称文本项,计算设备120可以确定与之匹配的内容文本项的候选集合。换句话说,对于待匹配的名称文本项,计算设备120可以先确定可能与其匹配的内容文本项的候选集合,并且排除掉不可能与之匹配的内容文本项。在一些实施例中,例如在执行第一集合117和第二集合119的匹配的初始阶段,计算设备120可以将第二集合119初始地确定为候选集合。也就是说,在匹配的初始阶段,例如对于第一个待匹配的名称文本项,计算设备120可以将全部内容文本项确定为上述候选集合。这样,计算设备120可以确保所有的内容文本项都在候选集合中,避免遗漏可能匹配的内容文本项。例如,在图像110中,假设计算设备120从第一集合117中的名称文本项115-1开始执行两个集合的匹配,也即名称文本项115-1是第一个待匹配的名称文本项,那么计算设备120可以将整个第二集合119确定为名称文本项115-1的匹配的内容文本项的候选集合。
需要说明的是,在针对某个名称文本项的匹配过程中,其候选集合可能是不断变化的。例如,在图像110中,在初始地确定整个第二集合119为名称文本项115-1的候选集合之后,如果计算设备120后续确定内容文本项115-2不与名称文本项115-1匹配,则计算设备120可以从名称文本项115-1的候选集合中去除内容文本项115-2。在一些实施例中,针对某个待匹配的名称文本项,如果计算设备120确定某个内容文本项已经在之前与其他名称文本项匹配成功,则计算设备120可以从针对待匹配的名称文本项的候选集合中去除已经与其他名称文本项匹配成功的内容文本项。例如,在图像110中,假设计算设备120要确定与名称文本项115-5匹配的内容文本项,而在此之前计算设备120已经确定内容文本项115-4是与名称文本项115-3相匹配的,那么计算设备120可以从名称文本项115-5的匹配的内容文本项的候选集合中去除内容文本项115-4。
在框1120处,在待匹配的名称文本项的匹配内容文本项的候选集合中,计算设备120可以确定与待匹配的名称文本项距离最近的候选内容文本项。例如,在图像110中,如果名称文本项115-1是待匹配的名称文本项,则计算设备120可以确定内容文本项115-2是与名称文本项115-1最近的内容文本项。又例如,在图像110中,如果名称文本项115-3是待匹配的名称文本项,则计算设备120可以确定内容文本项115-4是与名称文本项115-3最近的内容文本项,等等。
一般地,计算设备120可以采用任何适当的方式来确定两个文本项之间的距离。例如,计算设备120可以首先确定两个文本项在图像110中的两个中心点,然后再计算这两个中心点之间的距离,以作为两个文本项的距离。又例如,计算设备120可以确定两个文本项在图像110中距离最近的两个像素点,然后将这两个像素点之间的距离作为两个本文项之间的距离。在其他实施例中,计算设备120可以先确定与两个文本项相关联的两个矩形区域,然后再基于两个矩形区域的角点之间的距离来确定两个文本项的距离。后文将参考图13和图14来描述这样的实施例。
在框1130处,计算设备120可以确定与待匹配的名称文本项距离最近的候选内容文本项是否满足匹配条件。如本文中使用的,“匹配条件”是指匹配的名称文本项与内容文本项需要满足的必要条件。在一些实施例中,匹配条件可以是由用户、管理员或技术人员根据具体的技术环境和应用需求来预先确定的。如果某个名称文本项与某个内容文本项不满足预定的匹配条件,则可以认为这两个文本项是不匹配的。另一方面,对于某个待匹配的名称文本项,其匹配的内容文本项的候选集合中可能存在多个内容文本项满足预定的匹配条件。在这种情况下,计算设备120可以将距离待匹配的名称文本项最近的符合匹配条件的内容本文项确定为与待匹配的名称文本项匹配。因此,在已经在框1120处确定候选内容文本项是与待匹配的名称文本项距离最近的文本项之后,计算设备120可以判断候选内容文本项是否满足预定的匹配条件,以确定候选内容文本项是否与待匹配的名称文本项相匹配。
在一些实施例中,匹配条件可以包括候选内容文本项与待匹配的名称文本项之间的位置关系符合图像110中的信息布置结构。如本文中使用的,“信息布置结构”是指图像110中记录的信息在图像110的平面内的排布方式,其一般对应于大多数匹配的名称文本项与内容文本项之间的位置排布关系。如果将图像110中的各种文字信息视为一个文档,在不引起歧义的情况下,本文中的图像110的信息布置结构也可以称为文档结构或文档主结构。例如,图像110的信息布置结构可以是左右结构、右左结构和上下结构等。
具体地,左右结构是指在图像110正向放置的情况下,匹配的名称文本项与内容文本项是按照名称文本项在左边而内容文本项在右边的方式排布的。右左结构是指在图像110正向放置的情况下,匹配的名称文本项与内容文本项是按照名称文本项在右边而内容文本项在左边的方式排布的。上下结构是指在图像110正向放置的情况下,匹配的名称文本项与内容文本项是按照名称文本项在上方而内容文本项在下方的方式排布的。因此,通过上述关于信息布置结构的匹配条件,计算设备120可以避免将位置关系不符合图像110的信息布置结构的名称文本项和内容本文项确定为匹配,从而降低误匹配的可能性。
计算设备120可以采用各种适当的方式来确定图像110的信息布置结构。例如,计算设备120可以统计名称文本项的第一集合117和内容文本项的第二集合119在图像110中的位置分布。如果名称文本项和内容文本项主要是左右间隔分布的,并且最左边的一列文本项是名称文本项,则计算设备120可以确定图像110的信息布置结构是左右结构。如果名称文本项和内容文本项主要是左右间隔分布的,并且最左边的一列文本项是内容文本项,则计算设备120可以确定图像110的信息布置结构是右左结构。如果名称文本项和内容文本项主要是上下间隔分布的,则计算设备120可以确定图像110的信息布置结构是上下结构。
在其他实施例中,考虑到同一个图像中的匹配的名称文本项和内容文本项一般都符合图像的信息布置结构,并且匹配的名称文本项和内容文本项的距离一般是最接近的,所以计算设备120可以基于第一集合117和第二集合119中距离最近的名称文本项和内容文本项,来确定图像110的信息布置结构。以此方式,计算设备120确定图像110的信息布置结构的过程可以被简化,从而降低计算设备120的计算开销。
具体地,计算设备120首先可以在第一集合117和第二集合119中,确定距离最小的参考名称文本项和参考内容文本项。换言之,在所有的名称文本项和内容文本项中,该参考名称文本项和该参考内容文本项之间的距离是最小的。例如,参考图1,假定在图像110中名称文本项115-5与内容文本项115-6之间的距离在所有的名称文本项和内容文本项中是最小的,那么计算设备120可以将名称文本项115-5作为参考名称文本项,并且将内容文本项115-6作为参考内容文本项。
然后,计算设备120可以基于参考名称文本项和参考内容文本项之间的位置关系,确定图像110的信息布置结构。例如,在图1的示例中,计算设备120可以确定名称文本项115-5和内容文本项115-6大致在同一水平方向上,并且名称文本项115-5在内容文本项115-6的左边。因此,计算设备120可以确定名称文本项115-5和内容文本项115-6之间是左右结构,所以计算设备120可以进而确定图像110的信息布置结构为左右结构。在一些实施例中,计算设备120可以直接将参考名称文本项和参考内容文本项确定为第一对匹配的名称文本项和内容文本项,并且在后续作为匹配的名称文本项和内容文本项输出,而不再判断它们是否满足匹配条件。
在一些情况下,用于确定图像110的信息布置结构的参考名称文本项和参考内容文本项之间的位置关系可能不是明确而易于判断的。在这样的情况下,计算设备120可以基于参考名称文本项和参考内容文本项的中心点连接与参考方向的夹角,来定量地确定图像110的信息布置结构。下文参考图12来描述这样的实施例。
图12示出了根据本公开的实施例的参考名称文本项115-5和参考内容文本项115-6的中心点连线1210-1220与参考方向1230之间的夹角1240的示意图。在图12的示例中,仍然假定图像110中的名称文本项115-5是图像110的参考名称文本项,并且内容文本项115-6是图像110的参考内容文本项。然而,将理解,这样的假定仅是示例性的,无意以任何方式限制本公开的范围。在其他实施例中,图像110中的各个文本项可能具有其他的布置,因此参考名称文本项和参考内容文本项可能是任何其他的名称文本项和内容文本项。
如图12所示,为了确定图像110的信息布置结构,计算设备120可以首先确定参考名称文本项115-5的中心点1210、以及参考内容文本项115-6的中心点1220。在一些实施例中,计算设备120可以根据参考名称文本项115-5所涉及的所有像素的中心点来确定中心点1210,并且类似地根据参考内容文本项115-6所涉及的所有像素的中心点来确定中心点1220。在其他实施例中,计算设备120可以基于与参考名称文本项115-5对应的文本项区域315-5来确定中心点1210,并且类似地基于与参考内容文本项115-6对应的文本项区域315-6来确定中心点1220。
在确定中心点1210和1220之后,计算设备120可以确定参考名称文本项115-5和参考内容文本项115-6的中心点连线1210-1220与参考方向1230的夹角1240。如本文中使用的,参考方向是指当图像110正向放置时,在图像110所在平面内的某个特定方向。在图12的示例中,参考方向1230可以是水平方向。然而,需要指出的是,水平方向作为参考方向1230仅为示例性的,无意以任何方式限制本公开的范围。在其他实施例中,参考方向1230可以是图像110所在平面内的任何方向,但是参考方向1230的选取将会影响到用于确定图像110的信息布置结构的角度范围。
具体地,如果计算设备120确定夹角1240属于第一角度范围,则计算设备120可以确定图像110的信息布置结构为左右结构。例如,在参考方向1230为水平方向的情况下,第一角度范围可以是-30°至30°。替换地,如果计算设备120确定夹角1240属于第二角度范围,则计算设备120可以确定图像110的信息布置结构为上下结构。例如,在参考方向1230为水平方向的情况下,第二角度范围可以是210°至330°。替换地,如果计算设备120确定夹角1240属于第三角度范围,则计算设备120可以确定图像110的信息布置结构为右左结构。例如,在参考方向1230为水平方向的情况下,第三角度范围可以是150°至210°。如果计算设备120确定夹角1240不属于上述三个角度范围,则计算设备120可以确定图像110的信息布置结构为未知结构。通过这样的方式,图像110的信息布置结构可以基于夹角1240的大小以定量的方式被确定,从而提高了计算设备120确定信息布置结构的可操作性和准确度。将明白,这里列出的具体角度值仅为示例性的,无意以任何方式限制本公开的范围。在其他实施例中,上述各个角度范围的边界值可以是任何适当的角度值。
除了基于图像110的信息布置结构的上述匹配条件之外,匹配条件还可以附加地或替换地包括候选内容文本项与待匹配的名称文本项之间的距离小于阈值距离。这意味着文本项距离大于阈值距离的名称文本项和内容文本项将不会被认为是匹配的。因此,计算设备120可以避免将距离过远的名称文本项和内容本文项确定为匹配,从而降低误匹配的可能性。在一些实施例中,上述阈值距离可以由用户、管理员或技术人员根据具体的技术环境和应用需求来预先确定。在其他实施例中,计算设备120可以根据已经被确定为匹配的名称文本项和内容文本项之间的距离,来确定上述阈值距离。
具体地,在已经有多对名称文本项和内容文本项被确定为匹配的情况下,计算设备120可以确定该多对名称文本项与内容文本项之间的多个距离。然后,计算设备120可以基于该多个距离的平均值来确定阈值距离。如此,由于阈值距离是基于匹配的名称文本项和内容文本项之间的平均距离来确定的,所以阈值距离的合理性可以被提高。例如,计算设备120可以将该多个距离的平均值的5倍确定为阈值距离。应当指出,这里列举的具体倍数仅是示意性的,无意以任何方式限制本公开的范围。在其他实施例中,计算设备120可以直接将多个距离的平均值或该平均值的其他适当倍数确定为阈值距离。
除了基于信息布置结构和阈值距离的上述匹配条件之外,匹配条件可以附加地或替换地包括候选内容文本项和待匹配的名称文本项的中心点连线和参考方向(例如,图12中的参考方向1230)的夹角与参考夹角之间的差异小于阈值角度。候选内容文本项和待匹配的名称文本项的中心点连线和参考方向的夹角可以参考上文关于图12的描述类似地确定。该匹配条件意味着,与名称文本项和内容文本项相关联的夹角与参考夹角的偏差大于或小于阈值角度时,将不会被认为是匹配的。因此,计算设备120可以避免将角度偏差过大的名称文本项和内容本文项确定为匹配,从而降低误匹配的可能性。在一些实施例中,参考夹角和阈值角度可以由用户、管理员或技术人员根据具体的技术环境和应用需求来预先确定。
在其他实施例中,计算设备120可以根据与已经被确定为匹配的名称文本项和内容文本项相关联的夹角,来确定上述参考夹角。如此,由于参考夹角是基于匹配的名称文本项和内容文本项有关的平均夹角来确定的,所以参考夹角的合理性可以被提高。具体地,在已经有多对名称文本项和内容文本项被确定为匹配时,计算设备120可以确定由匹配的多对名称文本项和内容文本项的中心点连线与参考方向(例如,图12中的参考方向1230)形成的多个夹角。然后,计算设备120可以基于多个夹角的平均值来确定上述参考夹角。例如,计算设备120可以将多个夹角的平均值作为参考夹角。
返回参考图11,在框1140处,如果计算设备120确定候选内容文本项满足匹配条件,则计算设备120可以确定候选内容文本项与待匹配的名称文本项匹配。例如,在图像110中,假设名称文本项115-3是待匹配的名称文本项,内容文本项115-4是候选内容文本项,则计算设备120可以确定内容文本项115-4满足匹配条件,进而确定内容文本项115-4与名称文本项115-3匹配。又例如,在图像110中,假设名称文本项115-16是待匹配的名称文本项,内容文本项115-17是候选内容文本项,则计算设备120可以确定内容文本项115-17满足匹配条件,进而确定内容文本项115-17与名称文本项115-16匹配。
在框1150处,如果计算设备120确定候选内容文本项不满足匹配条件,则计算设备120可以从待匹配的名称文本项的匹配内容文本项的候选集合中去除当前的候选内容文本项。这样,计算设备120可以确保待匹配的名称文本项的匹配内容文本项的候选集合中均为尚未判断是否匹配的内容文本项,以使得可以迭代地针对候选集合来确定匹配的内容文本项。例如,在图像110中,假设名称文本项115-1是待匹配的名称文本项,内容文本项115-2是候选内容文本项,则计算设备120可以确定内容文本项115-2不满足匹配条件,进而从名称文本项115-1的匹配内容文本项的候选集合中去除内容文本项115-2。又例如,在图像110中,假设名称文本项115-16是待匹配的名称文本项,内容文本项115-18是候选内容文本项,则计算设备120可以确定内容文本项115-18不满足匹配条件,进而从名称文本项115-16的匹配内容文本项的候选集合中去除内容文本项115-18。
在框1160处,计算设备120可以确定去除的候选内容文本项的数目是否达到阈值。在一些实施例中,这里的阈值可以由用户、管理员或技术人员根据具体的技术环境和应用需求来预先确定,例如,该阈值可以设置为3。应当明白,这里列举的具体数值仅是示例性的,无意以任何方式限制本公开的范围。在其他实施例中,该阈值可以设置为任何其他适当的数值。在上述阈值被设置为3的情况下,在图像110中,假设名称文本项115-1是待匹配的名称文本项,计算设备120可以在从候选集合中去除了内容文本项115-2之后,确定去除的候选内容文本项的数目为1,尚未达到阈值3,因此可以回到框1110为名称文本项115-1再次确定候选集合。
然后,计算设备120可以确定内容文本项115-4与名称文本项115-1不匹配,因此从候选集合中去除内容文本项115-4。在从候选集合中去除内容文本项115-4之后,计算设备120可以确定去除的候选内容文本项的数目为2,尚未达到阈值3,因此可以回到框1110为名称文本项115-1再次确定候选集合。又例如,在图像110中,假设名称文本项115-16是待匹配的名称文本项,内容文本项115-18是候选内容文本项,计算设备120可以在从候选集合中去除了内容文本项115-18之后,确定去除的候选内容文本项的数目为1,尚未达到阈值3,因此可以回到框1110为名称文本项115-16再次确定候选集合。
在框1170处,如果计算设备120确定去除的候选内容文本项的数目达到阈值,则计算设备120可以确定待匹配的名称文本项不存在匹配的内容文本项。这是因为距离较为接近的若干个内容文本项已经被确定为与待匹配的名称文本项不匹配,而距离待匹配的名称文本项更远的内容文本项通常不会是与待匹配的名称文本项相匹配的内容文本项,所以可以提前确定待匹配的名称文本项不存在匹配的内容文本项,而无需判断候选集合中的每个内容文本项是否满足匹配条件。以此方式,计算设备120可以降低用于为待匹配的名称文本项确定匹配的内容文本项的开销。在上述阈值被设置为3的情况下,在图像110中,假设名称文本项115-1是待匹配的名称文本项,计算设备120可以依次确定内容文本项115-2、115-4和115-6不满足匹配条件,进而从名称文本项115-1的匹配内容文本项的候选集合中去除内容文本项115-2、115-4和115-6。因此,在去除了内容文本项115-6之后,计算设备120可以确定去除的候选内容文本项的数目为3,已经达到阈值3,因此确定名称文本项115-1不存在匹配的内容文本项。
如上文在描述图11的框1120时提到的,在一些实施例中,计算设备120可以先确定与两个文本项相关联的两个矩形区域,然后再基于两个矩形区域的角点之间的距离来确定两个文本项的距离。以此方式,计算设备120确定名称文本项与候选内容文本项之间的距离的效率和准确性可以得到提高。下文将参考图13和图14来描述这样的实施例。
图13示出了根据本公开的实施例的用于确定待匹配的名称文本项与候选内容文本项之间的距离的示例过程1300的流程图。在一些实施例中,示例过程1300可以由示例环境100中的计算设备120来实现,例如可以由计算设备120的处理器或处理单元来实现,或者由计算设备120的各种功能模块来实现。在其他实施例中,示例过程1300也可以由独立于示例环境100的计算设备来实现,或者可以由示例环境100中的其他单元或模块来实现。
图14示出了根据本公开的实施例的基于两个文本项对应的两个矩形区域来确定两个文本项之间的距离的示意图。在图14的示例中,不失一般性,图像110中的名称文本项115-13将作为待匹配的名称文本项的示例,而内容文本项115-14将作为候选内容文本项的示例。此外,应当明白,图14描绘的距离确定方式可以适用于本公开的实施例中的任何两个文本项之间的距离。
参考图13和图14,在框1310处,计算设备120可以确定待匹配的名称文本项115-13在图像110中对应的第一矩形区域1415-13。具体地,计算设备120可以检测出第一矩形区域1415-13的四个角点A1、B1、C1和D1在参考坐标系(例如,像素坐标系或图像坐标系等)中的坐标位置。在一些实施例中,上文参考图4所描述的由文本项检测模型310检测的文本项区域315-13可以是矩形形状。在这些实施例中,计算设备120可以将文本项区域315-13作为第一矩形区域1415-13。在其他实施例中,如果文本项检测模型310检测的文本项区域315-13不是矩形形状,则计算设备120可以基于名称文本项115-13在图像110中所在的像素范围来确定第一矩形区域1415-13。在其他实施例中,不论文本项区域315-13是否为矩形,计算设备120都可以另外地确定第一矩形区域1415-13。
在框1320处,计算设备120可以确定候选内容文本项115-14在图像110中对应的第二矩形区域1415-14。具体地,计算设备120可以检测出第二矩形区域1415-14的四个角点A2、B2、C2和D2在参考坐标系(例如,像素坐标系或图像坐标系等)中的坐标位置。在一些实施例中,上文参考图4所描述的由文本项检测模型310检测的文本项区域315-14可以是矩形形状。在这些实施例中,计算设备120可以将文本项区域315-14作为第二矩形区域1415-14。在其他实施例中,如果文本项检测模型310检测的文本项区域315-14不是矩形形状,则计算设备120可以基于名称文本项115-14在图像110中所在的像素范围来确定第二矩形区域1415-14。在其他实施例中,不论文本项区域315-14是否为矩形,计算设备120都可以另外地确定第二矩形区域1415-14。
在框1330处,基于第一矩形区域1415-13和第二矩形区域1415-14的角点之间的距离,计算设备120可以确定候选内容文本项115-14与待匹配的名称文本项115-13之间的距离。例如,由于第一矩形区域1415-13和第二矩形区域1415-14的大小可能差异较大,为了更加准确地确定候选内容文本项115-14与待匹配的名称文本项115-13之间的距离,计算设备120可以将角点距离D1A2与角点距离C1B2的平均值确定为两个文本项之间的距离。在其他实施例中,计算设备120也可以单独地将角点距离D1A2或角点距离C1B2作为两个文本项之间的距离,这样可以降低计算设备120的计算复杂度。
在另外的实施例中,计算设备120可以基于第一矩形区域1415-13和第二矩形区域1415-14的对应角点之间的距离,来确定两个文本项的距离。这样,在图像110的信息布置结构不是左右结构或右左结构的情况下,计算设备120可以更合理地确定两个文本项的距离。例如,计算设备120可以将角点距离A1A2、角点距离B1B2、角点距离C1C2和角点距离D1D2之一作为两个文本项之间的距离。又例如,计算设备120可以将这些角点距离中的两个或更多个角点距离的平均值作为两个文本项之间的距离。更一般地,计算设备120可以基于第一矩形区域1415-13和第二矩形区域1415-14的任何两个角点之间的距离来确定两个文本项之间的距离。例如,在确定图像110的信息布置结构为上下结构的情况下,计算设备120可以基于角点距离B1A2和角点距离C1D2之一或两者来确定两个文本项之间的距离。
图15示出了根据本公开的另一实施例的用于执行名称文本项与内容文本项的局部近邻匹配,并且输出匹配的名称文本项与内容文本项,或者附加地输出未匹配的名称文本项和内容文本项的示例过程1500的流程图。在一些实施例中,示例过程1500可以由示例环境100中的计算设备120来实现,例如可以由计算设备120的处理器或处理单元来实现,或者由计算设备120的各种功能模块来实现。在其他实施例中,示例过程1500也可以由独立于示例环境100的计算设备来实现,或者可以由示例环境100中的其他单元或模块来实现。为了便于说明,将参考图1来描述示例过程1500。
为了描述示例过程1500,将假定计算设备120已经在图像110中确定出N个名称文本项117-1至117-N以及M个内容文本项119-1至119-M。在示例过程1500中,计算设备120采用了基于局部近邻距离度量的算法,其利用名称文本项与内容文本项之间的空间位置关系,基于局部近邻算法来启发式地寻找匹配的名称文本项与内容文本项。因此,该算法能够支持左右、上下、右左等常见的信息布置结构。在本公开的上下文中,示例过程1500也可以称为基于局部近邻距离度量的名称文本项和内容文本项匹配(例如,键值匹配)。
在框1510处,计算设备120可以对N个名称文本项117-1至117-N和M个内容文本项119-1至119-M建立距离矩阵DNM,其中N为名称文本项的数量,并且M为内容文本项的数量。名称文本项和内容文本项之间的距离可以通过上文描述的方式来确定,此处不再赘述。例如,由于名称文本项和内容文本项的矩形框大小可能差异较大,因此文本项之间的距离可以是计算名称文本项矩形框的右上角点、右下角点分别与内容文本项矩形框的左上角点、左下角点的距离平均值得到。因此,在图像110为“餐饮服务许可证”照片的示例中,用于建立距离矩阵DNM的输入可以是名称文本项:……、“法定代表人(负责人),{x1,y1,x2,y2}”、“地址,{x1,y1,x2,y2}”……,等等;内容文本项:……、“张三(法定代表人),{x1,y1,x2,y2}”、“某省某市某路某号,{x1,y1,x2,y2}”……,等等,其中{x1,y1,x2,y2}表示名称文本项的矩形框的右上角点和右下角点的坐标,以及内容文本项的矩形框的左上角点和左下角点的坐标。
在框1520处,计算设备120可以根据距离最近的名称文本项和内容文本项来确定图像110中的信息布置结构。图像110的信息布置结构确定方式可以参考上文关于图11和图12的描述,此处不再赘述。在框1530处,计算设备120可以针对一个名称文本项来确定距离与之最近的X个内容文本项,并且按照距离的远近依次确定X个内容文本项是否满足匹配条件。例如,匹配条件可以包括内容本文项与名称文本项的位置关系与图像110中的信息布置结构相一致。当然,匹配条件还可以包括与距离和夹角有关的条件,具体请参考上文的描述,此处不再赘述。
在一些实施例中,假设计算设备120已经将距离最近的参考名称文本项和参考内容文本项确定为匹配,则计算设备120可以对剩余的N-1个名称文本项执行匹配。具体地,计算设备120可以重复以下过程直至遍历完每一个名称文本项:每次找到距离矩阵DNM中的最小值Di,j,i∈[0,1,…,N-1],j∈[1,2,…,M-1],即第i个名称文本项和第j个内容文本项的距离最短,然后判断其是否满足匹配条件。在一些情况下,由于多个内容文本项之间可能相距比较近,所以计算设备120可以找到与某个名称文本项相距最近的X个(例如,3个)内容文本项,依次判断名称文本项与X个内容文本项是否满足匹配条件。
在框1540处,计算设备120可以确定针对该名称文本项是否匹配成功,也即是否找到匹配的内容文本项。在框1550处,如果X个内容文本项中存在满足匹配条件的内容文本项,则其与名称文本项匹配成功。如果找到匹配的内容文本项,则计算设备120可以输出匹配的名称文本项和内容本文项。在一些实施例中,计算设备120可以将距离矩阵DNM中已经成功匹配的名称文本项所在的行全部设置为无穷大。在框1560处,如果X个内容文本项与名称文本项都匹配失败,则计算设备120可以确定此名称文本项没有与之匹配的内容文本项。在未找到匹配的内容文本项的情况下,计算设备120可以可选地输出未匹配成功的名称文本项和内容本文项。在框1570处,计算设备120可以针对N个名称文本项117-1至117-N重复执行N次匹配过程,来为N个名称文本项117-1至117-N分别确定匹配的内容文本项。
如图15中用于表示输出的框1505所示,在分别针对N个名称文本项117-1至117-N确定了匹配的内容文本项,或者确定其不存在匹配的内容文本项之后,计算设备120可以将匹配的名称文本项和内容文本项输出。在图15的示例中,输出1505采用文本的形式依次列出匹配成功的名称文本项和内容文本项。例如,在图像110为“餐饮服务许可证”照片的具体示例中,输出1505可以包括法定代表人(负责人):张三(法定代表人);地址:某省某市某路某号;等等。如上文在描述图2的框240时提到的,在一些实施例中,计算设备120还可以采用图形表示的形式来输出匹配的名称文本项和内容文本项。如此,计算设备120可以将匹配的名称文本项和内容文本项之间的匹配关系更加直观地呈现给用户。下文将参考图16来描述这样的实施例。
图16示出了根据本公开的实施例的用于指示名称文本项和内容文本项的匹配关系的图形表示的示意图。如图16所示,计算设备120可以输出经过标记的图像110,其中名称文本项的第一集合117和内容文本项的第二集合119可以分别使用不同颜色或形状的标记框来标记。具体地,计算设备120可以使用蓝色或矩形标记框来标记图像110中所有的名称文本项,而使用红色或椭圆形标记框来标记图像110中所有的内容文本项。应当指出,这里列举的颜色和形状仅为示例,无意以任何方式限制本公开的范围。在其他实施例中,计算设备120可以使用任何可以区分的颜色、形状或其他特征来标记第一集合117和第二集合119。
在图16的示例中,以文本项区域315-1至315-18来作为文本项115-1至115-18的标记框。如此,在输出标记的图像110时,计算设备120可以重复利用为了识别文本项115-1至115-18而检测的文本项区域315-1至315-18,从而避免了计算设备120用于标记的额外操作,节省了计算设备120的开销。当然,在其他实施例中,计算设备120也可以为了输出标记的图像110的目的来另外地显示文本项115-1至115-18的标记框。
在图16描绘的输出方式下,计算设备120可以输出用于指示名称文本项和内容文本项的匹配关系的图形表示。例如,计算设备120可以在文本项区域315-3和本文项区域315-4的左上角点之间标记出连接线1610,用以指示名称文本项115-3和内容文本项115-4的匹配关系。类似地,计算设备120可以标记连接线1620以指示名称文本项115-5和内容文本项115-6的匹配关系,可以标记连接线1630以指示名称文本项115-7和内容文本项115-8的匹配关系,可以标记连接线1640以指示名称文本项115-9和内容文本项115-10的匹配关系,可以标记连接线1650以指示名称文本项115-11和内容文本项115-12的匹配关系,可以标记连接线1660以指示名称文本项115-13和内容文本项115-14的匹配关系,并且可以标记连接线1670以指示名称文本项115-16和内容文本项115-17的匹配关系。
在一些实施例中,相对于名称文本项的标记框和内容文本项的标记框,连接线1610至1670可以使用不同的颜色(例如,绿色)来标记,以便突出显示文本项之间的匹配关系。在一些实施例中,相对于名称文本项的标记框和内容文本项的标记框,连接线1610至1670可以使用更粗的线条来标记,以便突出显示文本项之间的匹配关系。应当理解,图16中描绘的用于指示匹配关系的连接线1610至1670仅为示例,无意以任何方式限制本公开的范围。
在其他实施例中,计算设备120可以使用任何其他的图形表示来指示名称文本项和内容文本项的匹配关系。例如,用于指示匹配关系的连接线可以连接名称文本项的标记框和内容文本项的标记框的其他位置,连接线可以设置为曲线或其他形式的线条,连接线的颜色和粗细也可以具有其他适当的设置,等等。更一般地说,计算设备120可以在图像形式的输出中显示能够指示出文本项的匹配关系的任何图形表示。
图17示出了根据本公开的实施例的用于信息处理的示例装置1700的框图。在一些实施例中,装置1700可以被包括在图1的计算设备120中或者被实现为计算设备120。
如图17所示,装置1700可以包括识别模块1710、划分模块1720、匹配模块1730和输出模块1740。识别模块1710被配置为识别图像中的多个文本项。划分模块1720被配置为基于多个文本项的语义,将多个文本项划分为名称文本项的第一集合和内容文本项的第二集合。匹配模块1730被配置为基于多个文本项在图像中的布置,执行第一集合和第二集合的匹配,以确定与第一集合的名称文本项匹配的第二集合的内容文本项。输出模块1740被配置为输出匹配的名称文本项和内容文本项。
在一些实施例中,识别模块1710包括文本项检测模块和文本项识别模块。文本项检测模块被配置为基于文本项检测模型,从图像中检测多个文本项区域。文本项识别模块被配置为基于文字识别模型,从多个文本项区域中识别多个文本项。
在一些实施例中,文本项检测模型通过基于专用数据执行对初始文本项检测模型的增量学习来构造,其中初始文本项检测模型是使用通用数据训练的,专用数据包括经标注的名称文本项和内容文本项。
在一些实施例中,划分模块1720包括文本项类型确定模块。文本项类型确定模块被配置为基于语义分类模型,确定多个文本项中的每个文本项是名称文本项还是内容文本项。
在一些实施例中,语义分类模型通过基于专用数据执行对初始语义分类模型的增量学习来构造,其中初始语义分类模型是使用通用数据训练的,专用数据包括经标注的名称文本项和内容文本项。
在一些实施例中,匹配模块1730包括候选集合确定模块、候选内容文本项确定模块和匹配判定模块。候选集合确定模块被配置为针对第一集合中的待匹配的名称文本项,确定匹配的内容文本项的候选集合。候选内容文本项确定模块被配置为在候选集合中,确定与待匹配的名称文本项距离最近的候选内容文本项。匹配判定模块,被配置为如果确定候选内容文本项满足匹配条件,则确定候选内容文本项与待匹配的名称文本项匹配。
在一些实施例中,装置1700还包括去除模块。去除模块被配置为如果确定候选内容文本项不满足匹配条件,则从候选集合中去除候选内容文本项。
在一些实施例中,装置1700还包括匹配终止模块。匹配终止模块被配置为如果确定从候选集合去除的内容文本项的数目达到阈值,则确定待匹配的名称文本项不存在匹配的内容文本项。
在一些实施例中,候选集合确定模块包括候选集合初始确定模块。候选集合初始确定模块被配置为将第二集合初始地确定为候选集合。
在一些实施例中,匹配条件包括以下至少一项:候选内容文本项与待匹配的名称文本项之间的位置关系符合图像中的信息布置结构,候选内容文本项与待匹配的名称文本项之间的距离小于阈值距离,以及候选内容文本项和待匹配的名称文本项的中心点连线和参考方向的夹角与参考夹角之间的差异小于阈值角度。
在一些实施例中,装置1700还包括参考文本项确定模块和信息布置结构确定模块。参考文本项确定模块被配置为在第一集合和第二集合中,确定距离最小的参考名称文本项和参考内容文本项。信息布置结构确定模块被配置为基于参考名称文本项和参考内容文本项之间的位置关系,确定信息布置结构。
在一些实施例中,信息布置结构确定模块包括夹角确定模块、左右结构确定模块、上下结构确定模块和右左结构确定模块。夹角确定模块被配置为确定参考名称文本项和参考内容文本项的中心点连线与参考方向的夹角。左右结构确定模块被配置为如果确定夹角属于第一角度范围,则确定信息布置结构为左右结构。上下结构确定模块被配置为如果确定夹角属于第二角度范围,则确定信息布置结构为上下结构。右左结构确定模块被配置为如果确定夹角属于第三角度范围,则确定信息布置结构为右左结构。
在一些实施例中,装置1700还包括匹配文本项距离确定模块和阈值距离确定模块。匹配文本项距离确定模块被配置为确定匹配的多对名称文本项与内容文本项之间的多个距离。阈值距离确定模块被配置为基于多个距离的平均值,确定阈值距离。
在一些实施例中,装置1700还包括匹配文本项夹角确定模块和参考夹角确定模块。匹配文本项夹角确定模块被配置为确定由匹配的多对名称文本项和内容文本项的中心点连线与参考方向形成的多个夹角。参考夹角确定模块被配置为基于多个夹角的平均值,确定参考夹角。
在一些实施例中,装置1700还包括第一矩形区域确定模块、第二矩形区域确定模块和距离确定模块。第一矩形区域确定模块被配置为确定待匹配的名称文本项在图像中对应的第一矩形区域。第二矩形区域确定模块被配置为确定候选内容文本项在图像中对应的第二矩形区域。距离确定模块被配置为基于第一矩形区域和第二矩形区域的角点之间的距离,确定候选内容文本项与待匹配的名称文本项之间的距离。
在一些实施例中,输出模块1740包括图形表示输出模块。图形表示输出模块被配置为输出用于指示名称文本项和内容文本项的匹配关系的图形表示。
图18示出了可以用来实施本公开的实施例的示例电子设备1800的框图。如图18所示,电子设备1800包括中央处理单元(CPU)1801,其可以根据存储在只读存储设备(ROM)1802中的计算机程序指令或者从存储单元1808加载到随机访问存储设备(RAM)1803中的计算机程序指令,来执行各种适当的动作和处理。在RAM 1803中,还可存储设备1800操作所需的各种程序和数据。CPU 1801、ROM 1802以及RAM 1803通过总线1804彼此相连。输入/输出(I/O)接口1805也连接至总线1804。
电子设备1800中的多个部件连接至I/O接口1805,其包括:输入单元1806,例如键盘、鼠标等;输出单元1807,例如各种类型的显示器、扬声器等;存储单元1808,例如磁盘、光盘等;以及通信单元1809,例如网卡、调制解调器、无线通信收发机等。通信单元1809允许电子设备1800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的各个过程和处理,例如示例过程200、1100、1300、1500可由处理单元1801来执行。例如,在一些实施例中,示例过程200、1100、1300、1500可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1802和/或通信单元1809而被载入和/或安装到电子设备1800上。当计算机程序被加载到RAM 1803并由CPU 1801执行时,可以执行上文描述的示例过程200、1100、1300、1500的一个或多个步骤。
如本文所使用的,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。本文还可能包括其他明确的和隐含的定义。
如本文所使用的,术语“确定”涵盖各种各样的动作。例如,“确定”可以包括运算、计算、处理、导出、调查、查找(例如,在表格、数据库或另一数据结构中查找)、查明等。此外,“确定”可以包括接收(例如,接收信息)、访问(例如,访问存储器中的数据)等。此外,“确定”可以包括解析、选择、选取、建立等。
应当注意,本公开的实施例可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。
此外,尽管在附图中以特定顺序描述了本公开的方法的操作,但是这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤组合为一个步骤执行,和/或将一个步骤分解为多个步骤执行。还应当注意,根据本公开的两个或更多装置的特征和功能可以在一个装置中具体化。反之,上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。
虽然已经参考若干具体实施例描述了本公开,但是应当理解,本公开不限于所公开的具体实施例。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等效布置。

Claims (34)

1.一种信息处理方法,包括:
识别图像中的多个文本项;
基于所述多个文本项的语义,将所述多个文本项划分为名称文本项的第一集合和内容文本项的第二集合;
基于所述多个文本项在所述图像中的布置,执行所述第一集合和所述第二集合的匹配,以确定与所述第一集合的名称文本项匹配的所述第二集合的内容文本项;以及
输出匹配的所述名称文本项和所述内容文本项。
2.根据权利要求1所述的方法,其中识别所述图像中的所述多个文本项包括:
基于文本项检测模型,从所述图像中检测多个文本项区域;以及
基于文字识别模型,从所述多个文本项区域中识别所述多个文本项。
3.根据权利要求2所述的方法,其中所述文本项检测模型通过基于专用数据执行对初始文本项检测模型的增量学习来构造,其中所述初始文本项检测模型是使用通用数据训练的,所述专用数据包括经标注的名称文本项和内容文本项。
4.根据权利要求1所述的方法,其中基于所述多个文本项的语义,将所述多个文本项划分为所述第一集合和所述第二集合包括:
基于语义分类模型,确定所述多个文本项中的每个文本项是名称文本项还是内容文本项。
5.根据权利要求4所述的方法,其中所述语义分类模型通过基于专用数据执行对初始语义分类模型的增量学习来构造,其中所述初始语义分类模型是使用通用数据训练的,所述专用数据包括经标注的名称文本项和内容文本项。
6.根据权利要求1所述的方法,其中执行所述第一集合和所述第二集合的匹配包括:
针对所述第一集合中的待匹配的名称文本项,确定匹配的内容文本项的候选集合;
在所述候选集合中,确定与所述待匹配的名称文本项距离最近的候选内容文本项;以及
如果确定所述候选内容文本项满足匹配条件,则确定所述候选内容文本项与所述待匹配的名称文本项匹配。
7.根据权利要求6所述的方法,还包括:
如果确定所述候选内容文本项不满足所述匹配条件,则从所述候选集合中去除所述候选内容文本项。
8.根据权利要求7所述的方法,还包括:
如果确定从所述候选集合去除的内容文本项的数目达到阈值,则确定所述待匹配的名称文本项不存在匹配的内容文本项。
9.根据权利要求6所述的方法,其中确定所述候选集合包括:
将所述第二集合初始地确定为所述候选集合。
10.根据权利要求6所述的方法,其中所述匹配条件包括以下至少一项:
所述候选内容文本项与所述待匹配的名称文本项之间的位置关系符合所述图像中的信息布置结构,
所述候选内容文本项与所述待匹配的名称文本项之间的距离小于阈值距离,以及
所述候选内容文本项和所述待匹配的名称文本项的中心点连线和参考方向的夹角与参考夹角之间的差异小于阈值角度。
11.根据权利要求10所述的方法,还包括:
在所述第一集合和所述第二集合中,确定距离最小的参考名称文本项和参考内容文本项;以及
基于所述参考名称文本项和所述参考内容文本项之间的位置关系,确定所述信息布置结构。
12.根据权利要求11所述的方法,其中确定所述信息布置结构包括:
确定所述参考名称文本项和所述参考内容文本项的中心点连线与参考方向的夹角;
如果确定所述夹角属于第一角度范围,则确定所述信息布置结构为左右结构;
如果确定所述夹角属于第二角度范围,则确定所述信息布置结构为上下结构;以及
如果确定所述夹角属于第三角度范围,则确定所述信息布置结构为右左结构。
13.根据权利要求10所述的方法,还包括:
确定匹配的多对名称文本项与内容文本项之间的多个距离;以及
基于所述多个距离的平均值,确定所述阈值距离。
14.根据权利要求10所述的方法,还包括:
确定由匹配的多对名称文本项和内容文本项的中心点连线与所述参考方向形成的多个夹角;以及
基于所述多个夹角的平均值,确定所述参考夹角。
15.根据权利要求6所述的方法,还包括:
确定所述待匹配的名称文本项在所述图像中对应的第一矩形区域;
确定所述候选内容文本项在所述图像中对应的第二矩形区域;以及
基于所述第一矩形区域和所述第二矩形区域的角点之间的距离,确定所述候选内容文本项与所述待匹配的名称文本项之间的距离。
16.根据权利要求1所述的方法,其中输出匹配的所述名称文本项和所述内容文本项包括:
输出用于指示所述名称文本项和所述内容文本项的匹配关系的图形表示。
17.一种信息处理装置,包括:
识别模块,被配置为识别图像中的多个文本项;
划分模块,被配置为基于所述多个文本项的语义,将所述多个文本项划分为名称文本项的第一集合和内容文本项的第二集合;
匹配模块,被配置为基于所述多个文本项在所述图像中的布置,执行所述第一集合和所述第二集合的匹配,以确定与所述第一集合的名称文本项匹配的所述第二集合的内容文本项;以及
输出模块,被配置为输出匹配的所述名称文本项和所述内容文本项。
18.根据权利要求17所述的装置,其中所述识别模块包括:
文本项检测模块,被配置为基于文本项检测模型,从所述图像中检测多个文本项区域;以及
文本项识别模块,被配置为基于文字识别模型,从所述多个文本项区域中识别所述多个文本项。
19.根据权利要求18所述的装置,其中所述文本项检测模型通过基于专用数据执行对初始文本项检测模型的增量学习来构造,其中所述初始文本项检测模型是使用通用数据训练的,所述专用数据包括经标注的名称文本项和内容文本项。
20.根据权利要求17所述的装置,其中所述划分模块包括:
文本项类型确定模块,被配置为基于语义分类模型,确定所述多个文本项中的每个文本项是名称文本项还是内容文本项。
21.根据权利要求20所述的装置,其中所述语义分类模型通过基于专用数据执行对初始语义分类模型的增量学习来构造,其中所述初始语义分类模型是使用通用数据训练的,所述专用数据包括经标注的名称文本项和内容文本项。
22.根据权利要求17所述的装置,其中所述匹配模块包括:
候选集合确定模块,被配置为针对所述第一集合中的待匹配的名称文本项,确定匹配的内容文本项的候选集合;
候选内容文本项确定模块,被配置为在所述候选集合中,确定与所述待匹配的名称文本项距离最近的候选内容文本项;以及
匹配判定模块,被配置为如果确定所述候选内容文本项满足匹配条件,则确定所述候选内容文本项与所述待匹配的名称文本项匹配。
23.根据权利要求22所述的装置,还包括:
去除模块,被配置为如果确定所述候选内容文本项不满足所述匹配条件,则从所述候选集合中去除所述候选内容文本项。
24.根据权利要求23所述的装置,还包括:
匹配终止模块,被配置为如果确定从所述候选集合去除的内容文本项的数目达到阈值,则确定所述待匹配的名称文本项不存在匹配的内容文本项。
25.根据权利要求22所述的装置,其中所述候选集合确定模块包括:
候选集合初始确定模块,被配置为将所述第二集合初始地确定为所述候选集合。
26.根据权利要求22所述的装置,其中所述匹配条件包括以下至少一项:
所述候选内容文本项与所述待匹配的名称文本项之间的位置关系符合所述图像中的信息布置结构,
所述候选内容文本项与所述待匹配的名称文本项之间的距离小于阈值距离,以及
所述候选内容文本项和所述待匹配的名称文本项的中心点连线和参考方向的夹角与参考夹角之间的差异小于阈值角度。
27.根据权利要求26所述的装置,还包括:
参考文本项确定模块,被配置为在所述第一集合和所述第二集合中,确定距离最小的参考名称文本项和参考内容文本项;以及
信息布置结构确定模块,被配置为基于所述参考名称文本项和所述参考内容文本项之间的位置关系,确定所述信息布置结构。
28.根据权利要求27所述的装置,其中所述信息布置结构确定模块包括:
夹角确定模块,被配置为确定所述参考名称文本项和所述参考内容文本项的中心点连线与参考方向的夹角;
左右结构确定模块,被配置为如果确定所述夹角属于第一角度范围,则确定所述信息布置结构为左右结构;
上下结构确定模块,被配置为如果确定所述夹角属于第二角度范围,则确定所述信息布置结构为上下结构;以及
右左结构确定模块,被配置为如果确定所述夹角属于第三角度范围,则确定所述信息布置结构为右左结构。
29.根据权利要求26所述的装置,还包括:
匹配文本项距离确定模块,被配置为确定匹配的多对名称文本项与内容文本项之间的多个距离;以及
阈值距离确定模块,被配置为基于所述多个距离的平均值,确定所述阈值距离。
30.根据权利要求26所述的装置,还包括:
匹配文本项夹角确定模块,被配置为确定由匹配的多对名称文本项和内容文本项的中心点连线与所述参考方向形成的多个夹角;以及
参考夹角确定模块,被配置为基于所述多个夹角的平均值,确定所述参考夹角。
31.根据权利要求22所述的装置,还包括:
第一矩形区域确定模块,被配置为确定所述待匹配的名称文本项在所述图像中对应的第一矩形区域;
第二矩形区域确定模块,被配置为确定所述候选内容文本项在所述图像中对应的第二矩形区域;以及
距离确定模块,被配置为基于所述第一矩形区域和所述第二矩形区域的角点之间的距离,确定所述候选内容文本项与所述待匹配的名称文本项之间的距离。
32.根据权利要求17所述的装置,其中所述输出模块包括:
图形表示输出模块,被配置为输出用于指示所述名称文本项和所述内容文本项的匹配关系的图形表示。
33.一种电子设备,包括:
处理器;以及
与所述处理器通信连接的存储器;
所述存储器存储有可被所述处理器执行的指令,所述指令被所述处理器执行,以使所述处理器能够执行权利要求1-16中任一项所述的方法。
34.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行权利要求1-16中任一项所述的方法。
CN202011057666.2A 2020-09-29 2020-09-29 信息处理方法、信息处理装置、电子设备和存储介质 Active CN112052835B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202011057666.2A CN112052835B (zh) 2020-09-29 2020-09-29 信息处理方法、信息处理装置、电子设备和存储介质
EP21170920.9A EP3842960A3 (en) 2020-09-29 2021-04-28 Method and device for processing information, electronic device, and storage medium
US17/244,291 US11908219B2 (en) 2020-09-29 2021-04-29 Method and device for processing information, electronic device, and storage medium
JP2021152157A JP7270013B2 (ja) 2020-09-29 2021-09-17 情報処理方法、情報処理装置、電子機器及び記憶媒体
KR1020210128681A KR20210125955A (ko) 2020-09-29 2021-09-29 정보 처리 방법, 정보 처리 장치, 전자 기기 및 저장 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011057666.2A CN112052835B (zh) 2020-09-29 2020-09-29 信息处理方法、信息处理装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN112052835A true CN112052835A (zh) 2020-12-08
CN112052835B CN112052835B (zh) 2022-10-11

Family

ID=73605569

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011057666.2A Active CN112052835B (zh) 2020-09-29 2020-09-29 信息处理方法、信息处理装置、电子设备和存储介质

Country Status (5)

Country Link
US (1) US11908219B2 (zh)
EP (1) EP3842960A3 (zh)
JP (1) JP7270013B2 (zh)
KR (1) KR20210125955A (zh)
CN (1) CN112052835B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117095422A (zh) * 2023-10-17 2023-11-21 企查查科技股份有限公司 文档信息解析方法、装置、计算机设备、存储介质

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688269B (zh) * 2021-07-21 2023-05-02 北京三快在线科技有限公司 图文匹配结果确定方法、装置、电子设备及可读存储介质
WO2023080504A1 (ko) * 2021-11-08 2023-05-11 이화여자대학교 산학협력단 라이프로그를 기준으로 건강 검진 정보를 제공하는 방법 및 서비스 장치
US20230161963A1 (en) * 2021-11-22 2023-05-25 Oracle International Corporation System and techniques for handling long text for pre-trained language models
CN114117453B (zh) * 2021-12-08 2022-08-12 深圳市辰星瑞腾科技有限公司 基于数据深度关联的计算机防御系统以及防御方法
US20230186319A1 (en) * 2021-12-10 2023-06-15 Paypal, Inc. Context-enhanced category classification
WO2023128432A1 (ko) * 2021-12-29 2023-07-06 삼성전자 주식회사 상품을 인식하는 방법 및 전자 장치
US11544943B1 (en) * 2022-05-31 2023-01-03 Intuit Inc. Entity extraction with encoder decoder machine learning model

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764226A (zh) * 2018-04-13 2018-11-06 顺丰科技有限公司 图像文本识别方法、装置、设备及其存储介质
CN109582933A (zh) * 2018-11-13 2019-04-05 北京合享智慧科技有限公司 一种确定文本新颖度的方法及相关装置
CN109635277A (zh) * 2018-11-13 2019-04-16 北京合享智慧科技有限公司 一种获取实体信息的方法及相关装置
CN110334346A (zh) * 2019-06-26 2019-10-15 京东数字科技控股有限公司 一种pdf文件的信息抽取方法和装置
CN111259889A (zh) * 2020-01-17 2020-06-09 平安医疗健康管理股份有限公司 图像文本识别方法、装置、计算机设备及计算机存储介质
CN111709339A (zh) * 2020-06-09 2020-09-25 北京百度网讯科技有限公司 一种票据图像识别方法、装置、设备及存储介质
CN111709247A (zh) * 2020-05-20 2020-09-25 北京百度网讯科技有限公司 数据集处理方法、装置、电子设备和存储介质

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4817108B2 (ja) * 2004-11-05 2011-11-16 富士ゼロックス株式会社 画像処理装置、画像処理方法及び画像処理プログラム
JP2006261907A (ja) * 2005-03-16 2006-09-28 Canon Inc 文字処理装置、文字処理方法及び記録媒体
JP4996940B2 (ja) 2007-02-21 2012-08-08 日立コンピュータ機器株式会社 帳票認識装置およびそのプログラム
CN101493896B (zh) 2008-01-24 2013-02-06 夏普株式会社 文档图像处理装置及文档图像处理方法
JP2011150466A (ja) 2010-01-20 2011-08-04 Fujitsu Ltd 文字列認識装置、文字列認識プログラムおよび文字列認識方法
CN102779140B (zh) * 2011-05-13 2015-09-02 富士通株式会社 一种关键词获取方法及装置
JP6220770B2 (ja) 2014-12-12 2017-10-25 株式会社エヌ・ティ・ティ・データ 帳票定義装置、帳票定義方法、及び帳票定義プログラム
US10496693B2 (en) * 2016-05-31 2019-12-03 Adobe Inc. Unified classification and ranking strategy
US11226720B1 (en) * 2017-02-03 2022-01-18 ThoughtTrace, Inc. Natural language processing system and method for documents
US11748416B2 (en) * 2017-06-19 2023-09-05 Equifax Inc. Machine-learning system for servicing queries for digital content
US10628668B2 (en) 2017-08-09 2020-04-21 Open Text Sa Ulc Systems and methods for generating and using semantic images in deep learning for classification and data extraction
JP7013182B2 (ja) * 2017-09-21 2022-01-31 キヤノン株式会社 情報処理装置、情報処理方法およびプログラム
US10880614B2 (en) * 2017-10-20 2020-12-29 Fmr Llc Integrated intelligent overlay for media content streams
US10706450B1 (en) * 2018-02-14 2020-07-07 Amazon Technologies, Inc. Artificial intelligence system for generating intent-aware recommendations
JP7338159B2 (ja) * 2019-01-24 2023-09-05 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
US11514188B1 (en) * 2019-03-27 2022-11-29 Egnyte, Inc. System and method for serving subject access requests
US10885324B2 (en) * 2019-04-11 2021-01-05 Adp, Llc Agency notice processing system
US11157730B2 (en) * 2019-06-24 2021-10-26 Scinapsis Analytics Inc. Determining experiments represented by images in documents
RU2721186C1 (ru) * 2019-07-22 2020-05-18 Общество с ограниченной ответственностью "Аби Продакшн" Оптическое распознавание символов документов с некопланарными областями
US11704362B2 (en) * 2020-05-05 2023-07-18 Skan Inc. Assigning case identifiers to video streams
US11606362B2 (en) * 2020-05-27 2023-03-14 Microsoft Technology Licensing, Llc Privacy-preserving composite views of computer resources in communication groups
US11919042B2 (en) * 2021-01-08 2024-03-05 Ricoh Company, Ltd. Intelligent mail routing using digital analysis
US12106758B2 (en) * 2021-05-17 2024-10-01 Google Llc Voice commands for an automated assistant utilized in smart dictation

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764226A (zh) * 2018-04-13 2018-11-06 顺丰科技有限公司 图像文本识别方法、装置、设备及其存储介质
CN109582933A (zh) * 2018-11-13 2019-04-05 北京合享智慧科技有限公司 一种确定文本新颖度的方法及相关装置
CN109635277A (zh) * 2018-11-13 2019-04-16 北京合享智慧科技有限公司 一种获取实体信息的方法及相关装置
CN110334346A (zh) * 2019-06-26 2019-10-15 京东数字科技控股有限公司 一种pdf文件的信息抽取方法和装置
CN111259889A (zh) * 2020-01-17 2020-06-09 平安医疗健康管理股份有限公司 图像文本识别方法、装置、计算机设备及计算机存储介质
CN111709247A (zh) * 2020-05-20 2020-09-25 北京百度网讯科技有限公司 数据集处理方法、装置、电子设备和存储介质
CN111709339A (zh) * 2020-06-09 2020-09-25 北京百度网讯科技有限公司 一种票据图像识别方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117095422A (zh) * 2023-10-17 2023-11-21 企查查科技股份有限公司 文档信息解析方法、装置、计算机设备、存储介质
CN117095422B (zh) * 2023-10-17 2024-02-09 企查查科技股份有限公司 文档信息解析方法、装置、计算机设备、存储介质

Also Published As

Publication number Publication date
KR20210125955A (ko) 2021-10-19
US11908219B2 (en) 2024-02-20
EP3842960A2 (en) 2021-06-30
CN112052835B (zh) 2022-10-11
EP3842960A3 (en) 2021-11-17
JP7270013B2 (ja) 2023-05-09
US20210271870A1 (en) 2021-09-02
JP2021193610A (ja) 2021-12-23

Similar Documents

Publication Publication Date Title
CN112052835B (zh) 信息处理方法、信息处理装置、电子设备和存储介质
KR101122854B1 (ko) 스캔된 문서들로부터 전자 서식들을 채우기 위한 방법 및장치
US9910829B2 (en) Automatic document separation
US8843494B1 (en) Method and system for using keywords to merge document clusters
US9396540B1 (en) Method and system for identifying anchors for fields using optical character recognition data
US8595235B1 (en) Method and system for using OCR data for grouping and classifying documents
US11816138B2 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
CN112396049A (zh) 文本纠错方法、装置、计算机设备及存储介质
CA3080916A1 (en) Deep-learning-based system and process for image recognition
US20150139559A1 (en) System and method for shape clustering using hierarchical character classifiers
CN112949476B (zh) 基于图卷积神经网络的文本关系检测方法、装置及存储介质
US8832108B1 (en) Method and system for classifying documents that have different scales
CN110866116A (zh) 政策文档的处理方法、装置、存储介质及电子设备
CN104008177B (zh) 面向图像语义标注的规则库结构优化与生成方法及系统
CN114724156B (zh) 表单识别方法、装置及电子设备
CN117079288B (zh) 一种识别场景中文字语义的关键信息提取方法及模型
CN116844182A (zh) 一种版式自动识别的卡证文字识别方法
CN115294593A (zh) 一种图像信息抽取方法、装置、计算机设备及存储介质
CN115964492A (zh) 文本知识抽取方法、装置、电子设备和可读存储介质
CN115410185A (zh) 一种多模态数据中特定人名及单位名属性的提取方法
Kempf et al. KIETA: Key-insight extraction from scientific tables
Bouguelia et al. Document image and zone classification through incremental learning
Böschen et al. Formalization and preliminary evaluation of a pipeline for text extraction from infographics
US12125318B1 (en) Apparatus and a method for detecting fraudulent signature inputs
Kaur et al. Adverse conditions and techniques for cross-lingual text recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant