CN115294594A - 文档分析方法、装置、设备及存储介质 - Google Patents

文档分析方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115294594A
CN115294594A CN202210980239.4A CN202210980239A CN115294594A CN 115294594 A CN115294594 A CN 115294594A CN 202210980239 A CN202210980239 A CN 202210980239A CN 115294594 A CN115294594 A CN 115294594A
Authority
CN
China
Prior art keywords
character
sequence
document
position information
analyzed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210980239.4A
Other languages
English (en)
Inventor
侯朝晖
詹明捷
梁鼎
程龙
曾中超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Sensetime Intelligent Technology Co Ltd
Original Assignee
Shanghai Sensetime Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Sensetime Intelligent Technology Co Ltd filed Critical Shanghai Sensetime Intelligent Technology Co Ltd
Priority to CN202210980239.4A priority Critical patent/CN115294594A/zh
Publication of CN115294594A publication Critical patent/CN115294594A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种文档分析方法、装置、设备及存储介质,所述方法包括:获取待分析文档中目标文字的文字信息和二维位置信息;对所述文字信息和所述二维位置信息进行多模态信息融合处理,得到所述目标文字对应的分析向量;根据所述待分析文档中的全部文字对应的所述二维位置信息,对相应的所述分析向量进行序列化处理,得到待分析向量序列;根据所述分析向量在所述待分析向量序列中的序列位置信息,对所述待分析向量序列的每一分析向量进行分类处理,得到每一分析向量对应文字的类别属性;根据所述目标文字的类别属性,对所述待分析文档进行文档分析。

Description

文档分析方法、装置、设备及存储介质
技术领域
本申请涉及但不限于计算机技术领域,尤其涉及一种文档分析方法、装置、设备及存储介质。
背景技术
通过自然语言处理对文档版面进行分析是目前文档分析的主流方案,但自然语言处理大多数方案都是针对纯文本进行处理,且目前相关技术对于文档的分析局限于传统手写规则的技术方案,即通过对关键字段的模式信息进行人工归纳,并进行规则编写。
但是,相关技术提供的技术方案难以对具有复杂版面的文档进行分析。
发明内容
基于相关技术存在的问题,本申请实施例提供一种文档分析方法、装置、设备及存储介质。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种文档分析方法,所述方法包括:
获取待分析文档中目标文字的文字信息和二维位置信息;
对所述文字信息和所述二维位置信息进行多模态信息融合处理,得到所述目标文字对应的分析向量;
根据所述待分析文档中的全部文字对应的所述二维位置信息,对相应的所述分析向量进行序列化处理,得到待分析向量序列;
根据所述分析向量在所述待分析向量序列中的序列位置信息,对所述待分析向量序列的每一分析向量进行分类处理,得到每一分析向量对应文字的类别属性;
根据所述目标文字的类别属性,对所述待分析文档进行文档分析。
本申请实施例提供一种文档分析装置,所述装置包括:
获取模块,用于获取待分析文档中目标文字的文字信息和二维位置信息;
多模态信息融合模块,用于对所述文字信息和所述二维位置信息进行多模态信息融合处理,得到所述目标文字对应的分析向量;
序列化处理模块,用于根据所述待分析文档中的全部文字对应的所述二维位置信息,对相应的所述分析向量进行序列化处理,得到待分析向量序列;
分类处理模块,用于根据所述分析向量在所述待分析向量序列中的序列位置信息,对所述待分析向量序列的每一分析向量进行分类处理,得到每一分析向量对应文字的类别属性;
文档分析模块,用于根据所述目标文字的类别属性,对所述待分析文档进行文档分析。
本申请实施例提供一种文档分析设备,包括处理器和存储器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述文档分析方法。
本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述文档分析方法。
本申请实施例提供一种计算机程序产品,所述计算机程序产品包括可执行指令,所述可执行指令存储在计算机可读存储介质中;当文档分析设备的处理器从所述计算机可读存储介质读取所述可执行指令,并执行所述可执行指令时,实现上述文档分析方法。
本申请实施例提供的文档分析方法、装置、设备及存储介质,通过对待分析文档中目标文字的文字信息和二维位置信息进行多模态信息融合处理,得到目标文字对应的分析向量,根据文字对应的二维位置信息,对分析向量进行序列化处理,得到待分析向量序列,根据分析向量在待分析向量序列中的序列位置信息,对每一分析向量进行分类处理,得到每一分析向量对应文字的类别属性,以实现对待分析文档进行文档分析。如此,本申请实施例在对待分析文档中的文字进行分类时,改进了传统的自然语言处理算法,融合了待分析文档的文字信息和二维位置信息等多个模态的信息,并使用待分析文档中每个目标文字的二维坐标信息代替文字的阅读顺序信息来对待分析文档进行分析。由于使用了目标文字的二维位置信息,本申请实施例可以对具有复杂阅读顺序的文档快速的进行分类,提高了文字分类的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。
图1是本申请实施例提供的文档分析方法的应用场景示意图;
图2是本申请实施例提供的一种文档分析方法的实现流程示意图;
图3是本申请实施例提供的一种文档分析方法的实现流程示意图;
图4是本申请实施例提供的一种文档分析方法的实现流程示意图;
图5是本申请实施例提供的滑窗方案示意图;
图6是本申请实施例提供的一种文档分析装置示意图;
图7是本申请实施例提供的一种文档分析设备的硬件实体示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
自然语言处理算法目前方兴未艾,借助自然语言处理对文档(例如,文档可以是富文本文档、文字类型文档、图片类型文档或者混合类型文档,文档中可以包括至少一个文本,文本可以是文字组成的段落)进行版面分析逐渐成为目前主流方案,但自然语言处理大多数方案都是针对纯文字的文档进行处理,且需要对文字阅读顺序进行编码(即positionembedding)。但这种方法对于排版复杂的文档来说,文字阅读顺序难以获得,会影响分类的准确性。且针对多页合同分析的建模是当下结构化文档分析领域的重要问题,目前相关技术对于文档的分析局限于传统手写规则的技术方案,即通过对关键字段的模式信息进行人工归纳,并进行规则编写。该种方式效率较低,难以应对复杂合同版面。此外,相关技术中对文字阅读顺序进行编码会使得待分析文档的文字最大长度受到限制,难以对文字较多的长文本和多页文档进行分析。
基于相关技术中存在的问题,本申请实施例提供一种文档分析方法,通过对待分析文档中目标文字的文字信息和二维位置信息进行多模态信息融合处理,得到目标文字对应的分析向量,根据文字对应的二维位置信息,对分析向量进行序列化处理,得到待分析向量序列,根据分析向量在待分析向量序列中的序列位置信息,对每一分析向量进行分类处理,得到每一分析向量对应文字的类别属性,以实现对待分析文档进行文档分析。如此,本申请实施例在对待分析文档中的文字进行分类时,改进了传统的自然语言处理算法,融合了待分析文档的文字信息和二维位置信息等多个模态的信息,并使用待分析文档中每个目标文字的二维坐标信息代替文字的阅读顺序信息来对待分析文档进行分析。由于使用了目标文字的二维位置信息,解决了相关技术中的文本识别方法,采用一维位置信息只能识别直线文本和水平文本的问题,对与具有复杂阅读顺序(例如弯曲文本、跳跃文本或文字大小不同的文本)的文档,本申请实施例通过文字的二维位置信息,可以准确的得到复杂阅读顺序的文字的特征,实现对具有复杂阅读顺序的文档快速的进行分类,提高了文字分类的准确性。
本申请实施例提供的文档分析方法可以由文档分析设备等电子设备执行,其中电子设备可以是笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)等各种类型的终端,也可以实施为服务器。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
下面,将说明文档分析设备实施为服务器时的示例性应用,将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
图1是本申请实施例提供的文档分析方法的应用场景示意图。本申请实施例提供的文档分析系统10中包括终端100、网络200和服务器300,网络200可以是广域网或者局域网,又或者是二者的组合。服务器300和终端100在物理上可以是分立的,也可以是一体的。在进行文档分析时,服务器300可以采用本申请实施例提供的方法,通过网络200获取待分析文档中每一文字的文字信息和二维位置信息,对文字信息和所述二维位置信息进行多模态信息融合处理,得到每一文字对应的分析向量,根据待分析文档中的全部文字对应的二维位置信息,对相应的分析向量进行序列化处理,得到待分析向量序列,根据每一分析向量在待分析向量序列中的序列位置信息,对待分析向量序列的每一分析向量进行分类处理,得到每一分析向量对应文字的类别属性,根据每一文字的类别属性,可以确定出待分析文档中每一类别属性对应的文字集合,并将文字集合发送至终端100,并在终端100的展示界面100-1上展示每一类别属性对应的文字集合。
图2是本申请实施例提供的一种文档分析方法的实现流程示意图,如图2所示,该方法通过步骤S201至步骤S205实现:
步骤S201、获取待分析文档中目标文字的文字信息和二维位置信息。
在一些实施例中,待分析文档可以是富文本文档、文字类型文档、图片类型文档或者混合类型文档,图片类型文档可以为:bmp、jpg和png等文件,文字类型文档可以为xml、pdf和doc等文档。富文本文档是指带有较多字符信息,且包含多种格式(例如字体颜色、图片和表格等)的文档,例如,购物小票、电子邮件、企划案材料、表计算材料、商洽材料、合同书、组织图、事业企划书等文档,其来源包括但不限于:网页、可携带便携式文档(PortableDocument Format,PDF)及纸质文档的扫描件等。
在一些实施例中,目标文字可以是待分析文档中的每一文字,也可以是待分析文档中的部分文字,例如,当待分析文档为小票时,目标文字可以是一个段落的文字,如购物小票中的“薯片”可以是目标文字。在下文中,部分实施例以目标文字为待分析文档中的每一文字进行详细解释。
在本申请实施例中,待分析文档可以是通过扫描仪扫描纸质版文件得到的;也可以是采用例如手机、笔记本电脑或平板电脑上安装的在线识别软件识别合同扫描件影像或其他合同图片合同得到的,本申请实施例对文档获取的来源不做限定。
在一些实施例中,待分析文档可以是购物小票这种短文本文档,也可以是合同这种长文本且多页的文档。对于短文本文档而言,可以采用光学字符识别(OpticalCharacter Recognition,OCR)技术对短文本文档进行信息提取,在信息提取时,目标文字可以对应一个识别框,通过识别框的位置确定目标文字对应的二维位置信息。对于合同这种长文本且多页的文档而言,对长文本进行跨页识别时,处理时间较长,本申请实施例可以通过对长文本进行切割,对切割后的文字序列进行识别,来降低文档处理时间。
步骤S202、对所述文字信息和所述二维位置信息进行多模态信息融合处理,得到所述目标文字对应的分析向量。
在本申请实施例中,多模态信息融合处理是指将文字信息、图片信息或位置信息等不同模态的信息进行融合,通过多模态信息的互补性,得到一个具有多模态特征的信息,可以是通过机器学习将实体化信息通过向量来表示。
在一些实施例中,多模态信息融合处理可以是对多模态向量进行相加或相乘等处理。
本申请实施例可以通过神经网络模型或序列特征表示模型(SequentialRepresentation)来将目标文字的文字信息和二维位置信息进行融合。例如,可以将目标文字的文字信息和二维位置信息映射到一个共享子空间中,在不同的隐藏层实现共享语义子空间,将转换后的文字信息和二维位置信息对应的单模态特征向量语义组合在一起,从而实现多模态融合,得到目标文字对应的分析向量。或者,得到每一模态信息的注意力向量,然后再利用解码器隐层表示对两个注意力向量计算权重分布,最后根据权重融合两个注意力向量,得到目标文字对应的分析向量。
在本申请实施例中,可以通过查询字向量表将待分析文本中的每个文字转换为一维向量(即词向量),每个文字的一维向量中携带了每个文字的语义信息。
步骤S203、根据所述待分析文档中的全部文字对应的所述二维位置信息,对相应的所述分析向量进行序列化处理,得到待分析向量序列。
在一些实施例中,进行序列化处理是指根据每个文字的二维位置信息,确定所述文档的阅读顺序,根据所述文档的阅读顺序得到全部分析向量的待分析向量序列。
在一些实施例中,还可以对文档进行图像切割,得到多个切割图像,确定出每一切割图像的特征向量,可以将每一图像的特征向量与具有阅读顺序的全部文字对应的分析向量进行拼接,得到的待分析向量序列中还包含文档的图像特征。如此,本申请实施例提供的不仅可以理解文字上下文语义,而且也可以利用对应的二维位置信息,增强视觉模态和语言模态的关联。
步骤S204、根据所述分析向量在所述待分析向量序列中的序列位置信息,对所述待分析向量序列的每一分析向量进行分类处理,得到每一分析向量对应文字的类别属性。
在本申请实施例中,对待分析向量序列的每一分析向量进行分类处理可以是通过预先训练好的分类模型来对每一分析向量进行分类,以得到目标文字对应的类别属性。这里,类别属性是指文字的语义类别属性,例如,日期属性、编号属性或标签属性等。举例来说,购物小票上的2022年7月15日中的每一个文字对应的类别属性可以是日期属性,商品名称中的每一个文字对应的类别属性可以是标签属性。
步骤S205、根据所述目标文字的类别属性,对所述待分析文档进行文档分析。
在一些实施例中,对待分析文档进行文档分析可以是指根据将待分析文档中具有相同类别属性的文字聚合在一起,并根据目标文字的二维位置信息,对每一类别属性对应的全部文字进行排序,得到每一类别属性对应的文字类别序列,通过文字类别序列,可以得到待分析文档中每一类别属性对应的关键信息。
在一些实施例中,步骤S205可以通过步骤S2051至步骤2053实现:
步骤S2051、根据所述目标文字的类别属性,将所述待分析文档中的全部文字进行分类处理,得到每一类别属性对应的文字集合。
步骤S2052、根据所述目标文字的二维位置信息,对所述文字集合中的文字进行排序处理,得到每一类别属性对应的文字类别序列。
步骤S2053、根据所述文字类别序列,确定所述待分析文档中每一类别属性对应的信息。
通过对待分析文档中目标文字的文字信息和二维位置信息进行多模态信息融合处理,得到目标文字对应的分析向量,根据文字对应的二维位置信息,对分析向量进行序列化处理,得到待分析向量序列,根据分析向量在待分析向量序列中的序列位置信息,对每一分析向量进行分类处理,得到每一分析向量对应文字的类别属性,以实现对待分析文档进行文档分析。如此,本申请实施例在对待分析文档中的文字进行分类时,改进了传统的自然语言处理算法,融合了待分析文档的文字信息和二维位置信息等多个模态的信息,并使用待分析文档中每个文本的二维坐标信息代替文字的阅读顺序信息来对待分析文档进行分析。由于使用了文字的二维位置信息,本申请实施例可以对具有复杂阅读顺序的文档快速的进行分类,提高了文字分类的准确性。
在一些实施例中,待分析文档可以是短文本文档,也可以是长文本且多页的文档,对待短文本文档可以直接进行文本识别,对长文本而言,需要对长文本进行切割,得到多个文本序列,再对多个文本序列进行识别,得到每一文字的文字信息和二维位置信息。基于上述实施例,图3是本申请实施例提供的一种文档分析方法的实现流程示意图,如图3所示,步骤S201可以通过步骤S301至步骤S304实现:
步骤S301、响应于所述待分析文档中第一文字段落的文字数量小于第一预设数量,对所述第一文字段落进行文本识别处理,得到所述第一文字段落中目标文字对应的文字信息和识别框。
在一些实施例中,第一预设数量可以是根据需求设置的,可以根据设备的处理能力、显存容量和处理器的运行速度来设置预设数量的数值,例如,当设备的显存容量为1太兆字节(Terabyte,TB)时,第一预设数量可以是3000;当设备的显存容量为8千兆字节(Gigabyte,GB)时,第一预设数量可以是500。当第一预设数量是3000时,待分析文档中段落字数小于3000的段落为第一文字段落,即短文本,例如合同中的日期和公司名称等段落;待分析文档中段落字数大于3000的段落为第二文字段落,即长文本,例如合同正文等段落。可以通过字符识别技术或其他的文字识别技术来确认段落的文字数量。
步骤S302、根据每一识别框在所述待分析文档上的位置,确定所述目标文字对应的所述二维位置信息。
在一些实施例中,当识别到段落为短文本时,可以通过OCR技术识别出每一文字,并确定出每一文字对应的识别框,可以将识别框的位置信息确定为每一文字的二维位置信息。例如,可以将识别框的左上角坐标和右下角坐标的x和y轴坐标作为每一文字的二维位置信息,如[13,25,40,50],其中,识别框的左上角坐标为[13,25],识别框的右下角坐标为[40,50];也可以是将识别框中心位置的x和y轴坐标作为每一文字的二维位置信息,如[17,36]。
步骤S303、响应于所述待分析文档中第二文字段落的文字数量大于第二预设数量,从所述第二文字段落的起始位置起,以第一长度为滑动步长,通过具有第二长度的滑窗对所述文字段落进行切割,得到至少两个文字序列;其中,所述第一长度小于或等于所述第二长度。
在一些实施例中,第二预设数量的设置方法与第一预设数量的设置方法可以相同或不同,第二预设数量与第一预设数量的数值可以相同或不同。
判断一个文字所属的类别属性时,只需通过该文字相邻的文字即可判断文字的类别属性,并不需要其间隔较远的其他文字进行辅助判断,且长文本在处理时会占用较多硬件的显存,处理时间较长,例如,一次处理五千字的段落需要100秒,将5000字的段落分为多个50字的子段落,同时处置多个子段落只需要20秒的处理时间。
因此,本申请实施例可以先获取超长文本,例如可以是将多页文档中的文字先按照页内从上到下,从左到右,多页内进行拼接的方案得到超长文本,再使用具有第二长度的滑窗对超长文本进行切割,以第一长度为滑动步长获得至少两个文字序列。
步骤S304、对所述至少两个文字序列进行文本识别处理,确定出所述至少两个文字序列中目标文字的所述文字信息和所述识别框。
在一些实施例中,当第一长度等于第二长度时,相邻两个文字序列之间不具有重合文字,直接对至少两个文字序列进行文本识别处理,确定出至少两个文字序列中目标文字的文字信息和识别框。
在一些实施例中,当第一长度小于第二长度时,通过具有第二长度的滑窗对文字段落进行切割时,由于滑窗滑动的步长小于第二长度,因此,相邻的两个文字序列之间具有重合文字。
在本申请实施例中,在得到至少两个文字序列之后,需要去掉重复的文字,避免识别时引入错误信息,影响识别的准确性。
在一些实施例中,针对具有重合文字的相邻两个文字序列,可以在相邻两个文字序列之间去除任一个文字序列中的重合文字,得到清除后的文字序列,例如,相邻的两个文字序列为“多模态方案的智能”和“智能合同文档分析”,可以去除“多模态方案的智能”和“智能合同文档分析”中任一序列中的“智能”两字。本申请实施例仅示例性的给出了去除重合文字的部分实施例,本申请实施例不限制任何去除重合文字的方法。
在一些实施例中,得到清除后的文字序列之后,还可以对所述清除后的文字序列进行文本识别处理,确定出所述清除后的文字序列中目标文字的所述文字信息和所述识别框。
在一些实施例中,针对任一具有重合文字的相邻两个文字序列,去除重合文字还可以通过步骤S1至步骤S5实现:
步骤S1、针对任一相邻两个文字序列,确定所述第一文字序列或所述第二文字序列中重合文字的重合数量。
在一些实施例中,可以将任一相邻两个文字序列中包括第一文字序列和第二文字序列,其中更靠近文档开头的文字序列可以是第一文字序列。当相邻两个文字序列中具有重合文字时,确定第一文字序列或第二文字序列中重合文字的重合数量,例如,第一文字序列为“多模态方案的智能”,第二文字序列为“智能合同文档分析”,重合文字为“智能”,则重合数量为2。
步骤S2、根据所述重合数量,将所述重合文字分为第一重合文字和第二重合文字。
在一些实施例中,当重合数量为偶数时,可以将重合文字分为文字数量相同的第一重合文字和第二重合文字,例如,重合文字为“智能合同”时,重合数量为4,可以均分为“智能”和“合同”;当重合数量为奇数时,可以尽量将重合文字均分,例如,重合文字为“利用深度学习框架解决多页合同文档分析的问题”时,重合数量为21,可以将重合文字分为“利用深度学习框架解决多”和“页合同文档分析的问题”。
步骤S3、响应于所述第一重合文字与所述第一文字序列的序列中心之间的距离,小于所述第一重合文字与所述第二文字序列的序列中心,去除所述第一文字序列中的第二重合文字。
步骤S4、响应于所述第二重合文字与所述第二文字序列的序列中心之间的距离,小于所述第二重合文字与所述第一文字序列的序列中心,去除所述第二文字序列中的第一重合文字。
在一些实施例中,可以根据重合文字与第一文字序列或第二文字序列的序列中心之间的距离,来确定去除的文字。当第一重合文字与第一文字序列的序列中心之间的距离,小于第一重合文字与第二文字序列的序列中心时,去除第一文字序列中的第二重合文字,即可以在重合文字中保留更靠近文字序列中心的文字,例如,相邻的两个文字序列为“多模态方案的智能”和“智能合同文档分析”,其中,“智能”两字为重合文字,在文字序列“多模态方案的智能”中,“智”更靠近文字序列的中心,因此在文字序列“多模态方案的智能”中,保留“智”,去除“能”;同样的,在文字序列“智能合同文档分析”中,“能”更靠近文字序列的中心,因此在文字序列“智能合同文档分析”中,保留“能”,去除“智”。
步骤S5、将清除后的全部第一文字序列和全部第二文字序列,确定为清除后的文字序列。
在本申请实施例中,不同滑窗为等长滑窗,滑动步长的第一长度可以远小于滑窗的第二长度,以使得相邻文字序列中的重合文字较多,例如,长文本切割后的相邻文字序列可以是“ABCDEFGHIJKLMNOP”和“IJKLMNOPQRSTUVWX”,重合文字为“IJKLMNOP”,其中“IJKL”靠近第一个文字序列,“MNOP”靠近第二个文字序列,则第一个文字序列保留“IJKL”,第二个文字序列保留“MNOP”,去除重合文字后的文字序列为“ABCDEFGHIJKL”和“MNOPQRSTUVWX”。
在本申请实施例中,在去除重合文字之后,可以对清除后的文字序列进行文本识别处理,确定出清除后的文字序列中每一文字的所述文字信息和所述识别框,根据每一识别框在待分析文档上的位置,确定每一文字对应的所述二维位置信息。
本申请实施例对待分析文档中的段落进行分类,对文字数量大于预设数量的文字段落进行切割,使得本申请实施例在处理长文本时,不会占用较多硬件的显存,降低服务器的运算量,减少处理时间,提高文档处理效率。
本申请实施例中,去除一维阅读顺序编码,对文字的坐标进行归一化,通过相对二维位置编码的技术方案,来确定多页文档中文字的位置和阅读顺序,如此,能够解决难以获取多页文档阅读顺序的问题。基于前述实施例,本申请实施例提供的文档分析方法还包括步骤S11和步骤S12。
步骤S11、对每一所述目标文字的二维位置信息进行归一化处理,得到归一化后的二维位置信息。
在一些实施例中,对每一目标文字的二维位置信息进行归一化处理可以是指将每一目标文字的x和y坐标的数值归一化到1至1000以内,本申请实施例对坐标归一化数值不做具体限制。
步骤S12、根据所述多页文档的页码顺序,依次对每一页文档中目标文字对应的所述归一化后的二维位置信息中的第一方向位置信息添加权重信息,得到所述多页文档中每一目标文字对应的第一方向位置信息。
在一些实施例中,每一目标文字的二维位置信息至少包括第一方向位置信息,第一方向位置信息可以是每一文字的y轴坐标。
在本申请实施例中,权重信息可以是多页文档中不同页码对应的数值,对应的添加权重信息可以是指为每一目标文字的y轴坐标添加能够确定文字页码的数值,添加权重信息之后的数值为该文字的y轴坐标,根据添加权重信息后的y轴坐标可以确定该文字在多页文档中的位置,例如,文档第一页第一个字的y轴坐标为1,对文档第二页的文字的y轴坐标添加数值为1000的权重信息,即文档第二页第一个字的y轴坐标为1001,对文档第三页的文字的y轴坐标添加数值为2000的权重信息,即文档第二页第一个字的y轴坐标为2001。根据多页文档的页码顺序,依次为每一文字的y轴坐标添加权重信息,得到多页文档中每一文字对应的第一方向位置信息。
本申请实施例通过对多页文档中每个文字的纵坐标加入偏置,使用相对二维位置编码可以用于区分不同页码的文字,使得本申请实施例提供的文档分析方法能够对多页文档进行关键信息的提取,提高文档分析方法的通用性。
在本申请实施例中,可以通过多模态融合神经网络来实现多模态信息融合处理。图4是本申请实施例提供的一种文档分析方法的实现流程示意图,如图4所示,步骤S202通过步骤S401至步骤S403实现。
步骤S401、对所述目标文字对应的所述文字信息进行文字特征提取,得到文字特征向量。
步骤S402、对所述目标文字对应的所述二维位置信息进行位置特征提取,得到二维位置特征向量。
在一些实施例中,可以通过多模态融合神经网络中的特征提取层来对文字信息和二维位置信息进行特征提取,来得到文字特征向量和二维特征向量。
在本申请实施例中,由于在模型注意力编码阶段引入了每个文字的二维位置信息,因此,本申请实施例可以将文字的x和y坐标分别使用T5(Transfer Text-to-TextTransformer)模型来获取对应的注意力矩阵,再将两个注意力矩阵进行相加得到二维位置特征向量。
在一些实施例中,二维位置信息至少包括第一方向位置信息和第二方向位置信息,即y坐标信息和x坐标信息,因此步骤S402可以通过步骤S4021至步骤S4023实现:
步骤S4021、分别对所述目标文字对应的所述第一方向位置信息和所述第二方向位置信息进行编码处理,得到第一方向注意力矩阵和第二方向注意力矩阵。
步骤S4022、将所述第一方向注意力矩阵和所述第二方向注意力矩阵进行叠加处理,得到所述目标文字对应的二维位置矩阵。
步骤S4023、对所述二维位置矩阵进行特征提取,得到所述二维位置特征向量。
这里,可以通过T5模型将所述目标文字对应的第一方向位置信息和第二方向位置信息引入空间感知自注意力机制(Spatial-Aware Self-Attention Mechanism)中,这样空间感知自注意力机制可以感知二维的空间距离信息。空间感知自注意力机制通过二维的空间距离信息,对所述目标文字对应的第一方向位置信息和第二方向位置信息进行编码建模,得到第一方向注意力矩阵和第二方向注意力矩阵,将第一方向注意力矩阵和第二方向注意力矩阵相加,得到每一文字对应的二维位置矩阵,对二维位置矩阵进行特征提取,即可得到二维位置特征向量。
步骤S403、对所述文字特征向量和所述二维位置特征向量进行多模态特征融合处理,得到所述目标文字对应的分析向量。
在本申请实施例中,可以通过多模态融合神经网络对文字特征向量和二维位置特征向量进行多模态特征融合处理,得到所述目标文字对应的分析向量。
在一些实施例中,在得到所述目标文字对应的分析向量之后,可以根据待分析文档中的全部文字对应的二维位置信息,对相应的分析向量进行排序处理,得到待分析向量序列。并根据每一分析向量在待分析向量序列中的序列位置信息,通过全连接层或者其他分类模型依次对待分析向量序列中的每一分析向量进行分类处理,得到分类序列,这里分类序列可以包括所述目标文字对应每一属性类别的分值。最后可以通过softmax函数对分类序列进行归一化处理,得到所述目标文字对应每一属性类别的概率,将概率最大的类别属性确定为该文字对应的类别属性,从而得到每一分析向量对应文字的类别属性。
本申请实施例在模型注意力编码阶段引入了每个目标文字的二维位置信息,使得本申请实施例在对文档进行处理时,可以不受到文本输入长度的限制,也不受到文档阅读顺序难以获取的限制,还可以对多页文档进行处理,有效的提高了服务器处理效率。
在一些实施例中,在进行文字分类时,可以加入文档的图片信息,可以将图片切块后映射为高维特征,并在文本序列方向进行叠加,或是对于每个文字,将其本身图像信息与特征向量进行叠加。因此,本申请实施例还可以包括步骤S21至步骤S22。
步骤S21、对所述待分析文档进行图像切割处理,得到至少两个切割图像。
在一些实施例中,对图像进行切割处理可以是对图像进行均分处理,得到至少两个切割图像。例如,对图像进行四等分或九等分,得到相同面积的四张或九张子图片。这里,通过图像可以捕捉到一些外观特征,例如字体方向、类型、颜色等信息。
步骤S22、对至少两个切割图像进行图像特征提取,得到至少两个图像特征向量。
这里,对切割图像进行图像特征提取可以是提取切割图像中文字的布局信息或每一个文字对应的图像信息,得到至少两个图像特征向量。
对应地,步骤S203可以通过步骤S2031至步骤S2032实现:
步骤S2031、根据所述待分析文档中的全部文字对应的所述二维位置信息,对相应的所述分析向量进行序列化处理,得到初始向量序列。
步骤S2032、将所述至少两个图像特征向量添加至所述初始向量序列中,得到待分析向量序列。
在一些实施例中,可以根据每一文字对应的二维位置信息,确定出每一文字在文档中的顺序,根据二维位置信息对每一文字对应的分析向量进行排序,得到待分析文档中全部文字对应的待分析向量序列,可以将待分析文档对应的至少两个切割图像的图像特征向量与待分析向量序列相加,得到待分析序列,进而对待分析序列进行分类处理,得到每一文字对应的类别属性。
本申请实施例将获取的二维坐标信息进行位置编码,文字信息进行文本编码,融合位置编码信息、文本编码信息和文档的图像特征,用多模态融合网络完成对文字的分类,通过将文本、位置和图像信息的多模态融合,提升了文档分类的准确率。
在一些实施例中,待分析文档可以是多页合同文档,多页合同文档中目标文字的二维位置信息至少包括第一方向位置信息。本申请实施例提供的文档分析方法还可以对多页合同文档中的目标文字的二维位置信息进行归一化处理,得到归一化后的二维位置信息,根据多页合同文档的页码顺序,依次对每一页合同文档中目标文字对应的归一化后的二维位置信息中的第一方向位置信息添加权重信息,得到多页合同文档中目标文字对应的第一方向位置信息,对文字信息和包括第一方向位置信息的二维位置信息进行多模态信息融合处理,从而得到目标文字对应的分析向量。
本申请实施例再提供一种文档分析方法在实际场景中的应用。
在一些实施例中,文档分析方法可以对合同等文档的关键信息进行抽取。首先,将文档扫描成图片,并使用光学文本识别方案获取文档中的文字信息及文字位置。其次,使用多模态将获取的文字信息及文字位置进行融合分析,获得每一个文本(即文字)所属的类别属性。最后,将类别属性一致的文字进行处理,获得每个类别属性的文字集合,输出文档分析的结果。
本申请实施例提供的多模态融合方案模型改进了BERT模型,去除了一维阅读顺序编码(position embedding),融合了文本的二维坐标信息(即二维位置信息),并将文本坐标信息和文本长宽信息在每一页中归一化到1000,如此,模型可以不受到文本输入长度的限制,也不受到阅读顺序难以获取的限制。
本申请实施例在模型注意力编码阶段引入了每个文字的二维位置信息,因此,本申请实施例可以将文字的x和y坐标分别使用T5(Transfer Text-to-Text Transformer)模型来获取对应的注意力矩阵,再将两个注意力矩阵进行相加得到二维位置特征向量。
在本申请实施例中,对于每页文本中获得的文本位置信息,我们对其坐标使用1000进行归一化,获取每一页中每一个文本的坐标。针对多页文本,相对于第一页后第n页的文本,我们对该页中每个文本的纵坐标(即y坐标)都加入1000*n的偏置,用于区分不同页码的文本。由于本申请实施例对于坐标使用相对位置编码,因此本申请实施例可以对多页文本进行注意力分析。
在本申请实施例中,可以支持无穷长序列的处理,但为节省显存,且对于一个文本所属的类型,只需临近文本即可判断,往往并不需要其间隔超远的其他文本进行辅助判断。因此我们可以将多页文档中的文本先按照页内从上到下,从左到右,多页内进行拼接的方案获取超长文本,再使用滑窗方案对超长文本进行切割,获得彼此有相交窗口,对每个窗口的文本进行分析,最后进行融合。在后处理中,类别属性一致且相邻的文字作为个体输出。对于原句中每个文本,可能出现在多段窗口中,此时则选取处于多段文本中最靠窗中间的文本,最后模型取所有上述进行句子还原,进行后续分析。
图5是本申请实施例提供的一种滑窗方案示意图,如图5所示,通过长度为5个文字的滑窗对长文本501进行切割,滑窗移动的步长为3,得到5011至5016这六个文字序列,相邻两个滑窗之间具有相交位置,如502对应的虚线框中的内容,其中,5011和5012之间重合位置的文字相同,因此,在对切割后的文字序列进行分析时,需要去掉相邻两个文字序列中的重合文字,这里,可以选取靠近滑窗中间的文本,例如,文字序列5011和5012之间的1与3为重合文字,2与4为重合文字,由于3靠近文字序列5011的中心,1远离文字序列5012的中心,因此,在重合文字1和3中,可以去除文字序列5012中的1;同样的,由于2靠近文字序列5012的中心,4远离文字序列5011的中心,因此,在重合文字2和4中,可以去除文字序列5011中的4。
在一些实施例中,也可以去除文字序列5011和5012中任一个文字序列的重合文字,例如,同时去掉1和2,或者,同时去掉3和4。本申请实施例仅示例性的给出了去除重合文字的部分实施例,本申请实施例不限制任何去除重合文字的方法。
在本申请实施例中,在进行分类时还可以加入图片信息。加入图片信息的方式可以为将图片切块后映射为高维特征在文本序列方向进行叠加,或是对于每个文本,将其本身图像信息进行叠加。
本申请实施例不仅可以利用本算法对于合同文档关键信息进行提取,也可以利用本算法对于多页文档进行关键信息进行提取,也可以利用本算法对于超长文本文档进行关键信息提取,还可以对比多份合同中的关键信息,获取合同比对结果等。
基于上述实施例,本申请实施例提供一种文档分析装置,图6是本申请实施例提供的一种文档分析装置示意图,如图6所示,所述装置60包括获取模块601、多模态信息融合处理模块602、序列化处理模块603、分类处理模块604和文档分析模块605。
获取模块601,用于获取待分析文档中目标文字的文字信息和二维位置信息;
多模态信息融合处理模块602,用于对所述文字信息和所述二维位置信息进行多模态信息融合处理,得到所述目标文字对应的分析向量;
序列化处理模块603,用于根据所述待分析文档中的全部文字对应的所述二维位置信息,对相应的所述分析向量进行序列化处理,得到待分析向量序列;
分类处理模块604,用于根据所述分析向量在所述待分析向量序列中的序列位置信息,对所述待分析向量序列的每一分析向量进行分类处理,得到每一分析向量对应文字的类别属性;
文档分析模块605,用于根据所述目标文字的类别属性,对所述待分析文档进行文档分析。
在一些实施例中,获取模块601还用于响应于所述待分析文档中第一文字段落的文字数量小于第一预设数量,对所述第一文字段落进行文本识别处理,得到所述第一文字段落中目标文字对应的文字信息和识别框;根据每一识别框在所述待分析文档上的位置,确定所述目标文字对应的所述二维位置信息。
在一些实施例中,所述装置还包括:切割模块,用于响应于所述待分析文档中第二文字段落的文字数量大于第二预设数量,从所述第二文字段落的起始位置起,以第一长度为滑动步长,通过具有第二长度的滑窗对所述第二文字段落进行切割,得到至少两个文字序列;其中,所述第一长度小于或等于所述第二长度;文本识别处理模块,用于对所述至少两个文字序列进行文本识别处理,确定出所述至少两个文字序列中目标文字的所述文字信息和所述识别框。
在一些实施例中,所述装置还包括:确定模块,用于响应于所述第一长度小于所述第二长度,确定相邻两个文字序列之间具有重合文字;去除模块,用于针对相邻两个文字序列,去除任一文字序列中与另一文字序列相同的重合文字,得到清除后的文字序列;对应地,文本识别处理模块还用于对所述清除后的文字序列进行文本识别处理,确定出所述清除后的文字序列中目标文字的所述文字信息和所述识别框。
在一些实施例中,任一相邻两个文字序列包括第一文字序列和第二文字序列;去除模块,还用于针对任一相邻两个文字序列,确定所述第一文字序列或所述第二文字序列中重合文字的重合数量;根据所述重合数量,将所述重合文字分为第一重合文字和第二重合文字;响应于所述第一重合文字与所述第一文字序列的序列中心之间的距离,小于所述第一重合文字与所述第二文字序列的序列中心,去除所述第一文字序列中的第二重合文字;响应于所述第二重合文字与所述第二文字序列的序列中心之间的距离,小于所述第二重合文字与所述第一文字序列的序列中心,去除所述第二文字序列中的第一重合文字;将清除后的全部第一文字序列和全部第二文字序列,确定为清除后的文字序列。
在一些实施例中,所述待分析文档至少包括多页文档;所述二维位置信息至少包括第一方向位置信息;所述装置还包括:归一化处理模块,用于对每一所述目标文字的二维位置信息进行归一化处理,得到归一化后的二维位置信息;添加模块,用于根据所述多页文档的页码顺序,依次对每一页文档中目标文字对应的所述归一化后的二维位置信息中的第一方向位置信息添加权重信息,得到所述多页文档中每一目标文字对应的第一方向位置信息。
在一些实施例中,多模态信息融合处理模块602,还用于对所述目标文字对应的所述文字信息进行文字特征提取,得到文字特征向量;对所述目标文字对应的所述二维位置信息进行位置特征提取,得到二维位置特征向量;对所述文字特征向量和所述二维位置特征向量进行多模态特征融合处理,得到所述目标文字对应的分析向量。
在一些实施例中,所述二维位置信息至少包括第一方向位置信息和第二方向位置信息;多模态信息融合处理模块602,还用于分别对所述目标文字对应的所述第一方向位置信息和所述第二方向位置信息进行编码处理,得到第一方向注意力矩阵和第二方向注意力矩阵;将所述第一方向注意力矩阵和所述第二方向注意力矩阵进行叠加处理,得到所述目标文字对应的二维位置矩阵;对所述二维位置矩阵进行特征提取,得到所述二维位置特征向量。
在一些实施例中,所述装置还包括:图像切割模块,用于对所述待分析文档进行图像切割处理,得到至少两个切割图像;图像特征提取模块,用于对至少两个切割图像进行图像特征提取,得到至少两个图像特征向量;对应地,序列化处理模块603还用于根据所述待分析文档中的全部文字对应的所述二维位置信息,对相应的所述分析向量进行序列化处理,得到初始向量序列;将所述至少两个图像特征向量添加至所述初始向量序列中,得到待分析向量序列。
在一些实施例中,分类处理模块604还用于根据每一分析向量在所述待分析向量序列中的序列位置信息,依次对所述待分析向量序列中的每一分析向量进行分类处理,得到分类序列;对所述分类序列进行归一化处理,得到每一分析向量对应文字的类别属性。
在一些实施例中,文档分析模块605还用于根据所述目标文字的类别属性,将所述待分析文档中的全部文字进行分类处理,得到每一类别属性对应的文字集合;根据所述目标文字的二维位置信息,对所述文字集合中的文字进行排序处理,得到每一类别属性对应的文字类别序列;根据所述文字类别序列,确定所述待分析文档中每一类别属性对应的信息。
在一些实施例中,所述待分析文档为多页合同文档,所述二维位置信息至少包括第一方向位置信息;所述装置还包括:归一化处理模块,用于对所述目标文字的二维位置信息进行归一化处理,得到归一化后的二维位置信息;添加权重信息模块,用于根据所述多页合同文档的页码顺序,依次对每一页合同文档中目标文字对应的所述归一化后的二维位置信息中的第一方向位置信息添加权重信息,得到所述多页合同文档中目标文字对应的第一方向位置信息;对应地,多模态信息融合处理模块,还用于对所述文字信息和包括所述第一方向位置信息的二维位置信息进行多模态信息融合处理,得到所述目标文字对应的分析向量。
以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
若本申请技术方案涉及个人信息,应用本申请技术方案的产品在处理个人信息前,已明确告知个人信息处理规则,并取得个人自主同意。若本申请技术方案涉及敏感个人信息,应用本申请技术方案的产品在处理敏感个人信息前,已取得个人单独同意,并且同时满足“明示同意”的要求。例如,在摄像头等个人信息采集装置处,设置明确显著的标识告知已进入个人信息采集范围,将会对个人信息进行采集,若个人自愿进入采集范围即视为同意对其个人信息进行采集;或者在个人信息处理的装置上,利用明显的标识/信息告知个人信息处理规则的情况下,通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权;其中,个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式、处理的个人信息种类等信息。
需要说明的是,本申请实施例中,如果以软件功能模块的形式实现上述文档分析方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。
本申请实施例提供一种电子设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述文档分析方法。
本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述文档分析方法。所述计算机可读存储介质可以是瞬时性的,也可以是非瞬时性的。
本申请实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序被计算机读取并执行时,实现上述方法中的部分或全部步骤。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software DevelopmentKit,SDK)等等。
需要说明的是,图7是本申请实施例提供的一种文档分析设备的硬件实体示意图,如图7所示,该电子设备70的硬件实体包括:处理器701、通信接口702和存储器703,其中:
处理器701通常控制电子设备70的总体操作。
通信接口702可以使电子设备通过网络与其他终端或服务器通信。
存储器703配置为存储由处理器701可执行的指令和应用,还可以缓存待处理器701以及电子设备70中各模块待处理或已经处理的数据(例如,图像数据、音频数据、语音通信数据和视频通信数据),可以通过闪存(FLASH)或随机访问存储器(Random AccessMemory,RAM)实现。处理器701、通信接口702和存储器703之间可以通过总线704进行数据传输。
这里需要指出的是:以上存储介质和设备实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请存储介质和设备实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。

Claims (15)

1.一种文档分析方法,其特征在于,所述方法包括:
获取待分析文档中目标文字的文字信息和二维位置信息;
对所述文字信息和所述二维位置信息进行多模态信息融合处理,得到所述目标文字对应的分析向量;
根据所述待分析文档中的全部文字对应的所述二维位置信息,对相应的所述分析向量进行序列化处理,得到待分析向量序列;
根据所述分析向量在所述待分析向量序列中的序列位置信息,对所述待分析向量序列的每一分析向量进行分类处理,得到每一分析向量对应文字的类别属性;
根据所述目标文字的类别属性,对所述待分析文档进行文档分析。
2.根据权利要求1所述的方法,其特征在于,所述获取待分析文档中目标文字的文字信息和二维位置信息,包括:
响应于所述待分析文档中第一文字段落的文字数量小于第一预设数量,对所述第一文字段落进行文本识别处理,得到所述第一文字段落中目标文字对应的文字信息和识别框;
根据每一识别框在所述待分析文档上的位置,确定所述目标文字对应的所述二维位置信息。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
响应于所述待分析文档中第二文字段落的文字数量大于第二预设数量,从所述第二文字段落的起始位置起,以第一长度为滑动步长,通过具有第二长度的滑窗对所述第二文字段落进行切割,得到至少两个文字序列;其中,所述第一长度小于或等于所述第二长度;
对所述至少两个文字序列进行文本识别处理,确定出所述至少两个文字序列中目标文字的所述文字信息和所述识别框。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
响应于所述第一长度小于所述第二长度,确定相邻两个文字序列之间具有重合文字;
针对具有重合文字的相邻两个文字序列,去除任一文字序列中与另一文字序列相同的重合文字,得到清除后的文字序列;
对应地,所述对所述至少两个文字序列进行文本识别处理,确定出所述至少两个文字序列中目标文字的所述文字信息和所述识别框,包括:
对所述清除后的文字序列进行文本识别处理,确定出所述清除后的文字序列中目标文字的所述文字信息和所述识别框。
5.根据权利要求4所述的方法,其特征在于,任一相邻两个文字序列包括第一文字序列和第二文字序列;所述方法还包括:
针对任一具有重合文字的相邻两个文字序列,确定所述第一文字序列或所述第二文字序列中重合文字的重合数量;
根据所述重合数量,将所述重合文字分为第一重合文字和第二重合文字;
响应于所述第一重合文字与所述第一文字序列的序列中心之间的距离,小于所述第一重合文字与所述第二文字序列的序列中心,去除所述第一文字序列中的第二重合文字;
响应于所述第二重合文字与所述第二文字序列的序列中心之间的距离,小于所述第二重合文字与所述第一文字序列的序列中心,去除所述第二文字序列中的第一重合文字;
将清除后的全部第一文字序列和全部第二文字序列,确定为清除后的文字序列。
6.根据权利要求1至5任一所述的方法,其特征在于,所述待分析文档至少包括多页文档;所述二维位置信息至少包括第一方向位置信息;
所述方法还包括:
对每一所述目标文字的二维位置信息进行归一化处理,得到归一化后的二维位置信息;
根据所述多页文档的页码顺序,依次对每一页文档中目标文字对应的所述归一化后的二维位置信息中的第一方向位置信息添加权重信息,得到所述多页文档中目标文字对应的第一方向位置信息。
7.根据权利要求1至6任一所述的方法,其特征在于,所述对所述文字信息和所述二维位置信息进行多模态信息融合处理,得到每一文字对应的分析向量,包括:
对所述目标文字对应的所述文字信息进行文字特征提取,得到文字特征向量;
对所述目标文字对应的所述二维位置信息进行位置特征提取,得到二维位置特征向量;
对同一文字分别对应的所述文字特征向量和所述二维位置特征向量进行多模态特征融合处理,得到所述目标文字对应的分析向量。
8.根据权利要求7所述的方法,其特征在于,所述二维位置信息至少包括第一方向位置信息和第二方向位置信息;
对所述目标文字对应的所述二维位置信息进行位置特征提取,得到二维位置特征向量,包括:
分别对所述目标文字对应的所述第一方向位置信息和所述第二方向位置信息进行编码处理,得到第一方向注意力矩阵和第二方向注意力矩阵;
将所述第一方向注意力矩阵和所述第二方向注意力矩阵进行叠加处理,得到所述目标文字对应的二维位置矩阵;
对所述二维位置矩阵进行特征提取,得到所述二维位置特征向量。
9.根据权利要求1至8任一所述的方法,其特征在于,所述方法还包括:
对所述待分析文档进行图像切割处理,得到至少两个切割图像;
对至少两个切割图像进行图像特征提取,得到至少两个图像特征向量;
对应地,所述根据所述待分析文档中的全部文字对应的所述二维位置信息,对相应的所述分析向量进行序列化处理,得到待分析向量序列,包括:
根据所述待分析文档中的全部文字对应的所述二维位置信息,对相应的所述分析向量进行序列化处理,得到初始向量序列;
将所述至少两个图像特征向量添加至所述初始向量序列中,得到待分析向量序列。
10.根据权利要求1至9任一所述的方法,其特征在于,所述根据每一分析向量在所述待分析向量序列中的序列位置信息,对所述待分析向量序列的每一分析向量进行分类处理,得到每一分析向量对应文字的类别属性,包括:
根据每一分析向量在所述待分析向量序列中的序列位置信息,依次对所述待分析向量序列中的每一分析向量进行分类处理,得到分类序列;
对所述分类序列进行归一化处理,得到每一分析向量对应文字的类别属性。
11.根据权利要求1至10任一所述的方法,其特征在于,所述根据所述目标文字的类别属性,对所述待分析文档进行文档分析,包括:
根据所述目标文字的类别属性,将所述待分析文档中的全部文字进行分类处理,得到每一类别属性对应的文字集合;
根据所述目标文字的二维位置信息,对所述文字集合中的文字进行排序处理,得到每一类别属性对应的文字类别序列;
根据所述文字类别序列,确定所述待分析文档中每一类别属性对应的信息。
12.根据权利要求1所述的方法,其特征在于,所述待分析文档为多页合同文档,所述二维位置信息至少包括第一方向位置信息;所述方法还包括:
对所述目标文字的二维位置信息进行归一化处理,得到归一化后的二维位置信息;
根据所述多页合同文档的页码顺序,依次对每一页合同文档中目标文字对应的所述归一化后的二维位置信息中的第一方向位置信息添加权重信息,得到所述多页合同文档中目标文字对应的第一方向位置信息;
对应地,所述对所述文字信息和所述二维位置信息进行多模态信息融合处理,得到所述目标文字对应的分析向量,包括:
对所述文字信息和包括所述第一方向位置信息的二维位置信息进行多模态信息融合处理,得到所述目标文字对应的分析向量。
13.一种文档分析装置,其特征在于,所述装置包括:
获取模块,用于获取待分析文档中目标文字的文字信息和二维位置信息;
多模态信息融合处理模块,用于对所述文字信息和所述二维位置信息进行多模态信息融合处理,得到所述目标文字对应的分析向量;
序列化处理模块,用于根据所述待分析文档中的全部文字对应的所述二维位置信息,对相应的所述分析向量进行序列化处理,得到待分析向量序列;
分类处理模块,用于根据所述分析向量在所述待分析向量序列中的序列位置信息,对所述待分析向量序列的每一分析向量进行分类处理,得到每一分析向量对应文字的类别属性;
文档分析模块,用于根据所述目标文字的类别属性,对所述待分析文档进行文档分析。
14.一种文档分析设备,包括处理器和存储器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12任一项所述方法。
15.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1至12中任一项所述方法。
CN202210980239.4A 2022-08-16 2022-08-16 文档分析方法、装置、设备及存储介质 Pending CN115294594A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210980239.4A CN115294594A (zh) 2022-08-16 2022-08-16 文档分析方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210980239.4A CN115294594A (zh) 2022-08-16 2022-08-16 文档分析方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115294594A true CN115294594A (zh) 2022-11-04

Family

ID=83830199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210980239.4A Pending CN115294594A (zh) 2022-08-16 2022-08-16 文档分析方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115294594A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116738967A (zh) * 2023-08-08 2023-09-12 北京华品博睿网络技术有限公司 一种文档解析系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116738967A (zh) * 2023-08-08 2023-09-12 北京华品博睿网络技术有限公司 一种文档解析系统及方法
CN116738967B (zh) * 2023-08-08 2023-11-24 北京华品博睿网络技术有限公司 一种文档解析系统及方法

Similar Documents

Publication Publication Date Title
CN111488931B (zh) 文章质量评估方法、文章推荐方法及其对应的装置
CN113011186B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
US20130036113A1 (en) System and Method for Automatically Providing a Graphical Layout Based on an Example Graphic Layout
CN113469067B (zh) 一种文档解析方法、装置、计算机设备和存储介质
Kestemont et al. Artificial paleography: computational approaches to identifying script types in medieval manuscripts
CN115917613A (zh) 文档中文本的语义表示
CN115564469A (zh) 广告创意选取和模型训练方法、装置、设备及存储介质
CN112801099B (zh) 一种图像处理方法、装置、终端设备及介质
CN116152840A (zh) 文件分类方法、装置、设备和计算机存储介质
Arafat et al. Urdu signboard detection and recognition using deep learning
Singh et al. Statistical comparison of classifiers for script identification from multi-script handwritten documents
CN114821590A (zh) 文档信息提取方法、装置、设备及介质
JP5433396B2 (ja) マンガ画像からテキストを抽出するマンガ画像解析装置、プログラム、検索装置及び方法
CN115115049A (zh) 神经网络模型的训练方法、装置、设备、介质及程序产品
CN115294594A (zh) 文档分析方法、装置、设备及存储介质
CN114708595A (zh) 图像文献结构化解析方法、系统、电子设备、存储介质
CN114639109A (zh) 一种图像处理方法、装置、电子设备和存储介质
CN111241329A (zh) 基于图像检索的古文字考释方法和装置
Lin et al. Multilingual corpus construction based on printed and handwritten character separation
CN115880702A (zh) 数据处理方法、装置、设备、程序产品及存储介质
CN114090630A (zh) 基于分布式微服务集群商品数据整合方法
CN116756306A (zh) 对象分类方法、装置、计算机设备及计算机可读存储介质
CN114511741A (zh) 图像的识别方法、装置、设备、存储介质及程序产品
CN112069792A (zh) 命名实体识别方法、装置、设备
CN115659964A (zh) 一种基于多模态信息的表格实体抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination