CN115131804A - 文档识别方法、装置、电子设备和计算机可读存储介质 - Google Patents

文档识别方法、装置、电子设备和计算机可读存储介质 Download PDF

Info

Publication number
CN115131804A
CN115131804A CN202210425659.6A CN202210425659A CN115131804A CN 115131804 A CN115131804 A CN 115131804A CN 202210425659 A CN202210425659 A CN 202210425659A CN 115131804 A CN115131804 A CN 115131804A
Authority
CN
China
Prior art keywords
layout
content
document
formula
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210425659.6A
Other languages
English (en)
Inventor
赵志勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210425659.6A priority Critical patent/CN115131804A/zh
Publication of CN115131804A publication Critical patent/CN115131804A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明实施例公开了一种文档识别方法、装置、电子设备和计算机可读存储介质;本发明实施例在显示文档识别页面后,响应于针对文档识别页面中的识别控件的触发操作,在文档识别页面中的待识别文档图像中提取出版面结构特征和版面内容特征,然后,根据版面结构特征和版面内容特征,在待识别文档图像中检测出至少一个版面内容区域和版面内容区域的内容类型,在待识别文档图像中识别出版面内容区域对应的文本内容,并基于文本内容和内容类型,确定版面内容区域的版面内容,然后,根据版面内容,生成待识别文档图像对应的目标文档,并展示目标文档,该目标文档为可编辑文档;该方案可以提升文档识别的准确性。

Description

文档识别方法、装置、电子设备和计算机可读存储介质
技术领域
本发明涉及通信技术领域,具体涉及一种文档识别方法、装置、电子设备和计算机可读存储介质。
背景技术
近年来,随着互联网技术的飞速发展,图像中内容也日益丰富,针对图像的识别方式也越来越多,除了识别图像的类型以外,还可以在图像中识别出文档。现有的文档识别方法往往采用连通域分割和语义分割的方式对待识别文档图像进行分割,从而识别出目标文档。
在对现有技术的研究和实践中,本发明的发明人发现采用连通域分割的方式和语义分割在文档识别过程中,往往按照阅读顺序对待识别文档图像进行版面还原,在复杂版面结构下,往往无法准确识别出版面结构信息,因此,导致文档识别的准确性较低。
发明内容
本发明实施例提供一种文档识别方法、装置、电子设备和计算机可读存储介质,可以提高文档识别的准确性。
一种文档识别方法,包括:
显示文档识别页面,所述文档识别页面包括待识别文档图像和识别控件;
响应于针对所述识别控件的触发操作,在所述待识别文档图像中提取出版面结构特征和版面内容特征;
根据所述版面结构特征和版面内容特征,在所述待识别文档图像中检测出至少一个版面内容区域和所述版面内容区域的内容类型;
在所述待识别文档图像中识别出所述版面内容区域对应的文本内容,并基于所述文本内容和内容类型,确定所述版面内容区域的版面内容;
根据所述版面内容,生成所述待识别文档图像对应的目标文档,并展示所述目标文档,所述目标文档为可编辑文档。
相应的,本发明实施例提供一种文档识别装置,包括:
显示单元,用于显示文档识别页面,所述文档识别页面包括待识别文档图像和识别控件;
提取单元,用于响应于针对所述识别控件的触发操作,在所述待识别文档图像中提取出版面结构特征和版面内容特征;
检测单元,用于根据所述版面结构特征和版面内容特征,在所述待识别文档图像中检测出至少一个版面内容区域和所述版面内容区域的内容类型;
确定单元,用于在所述待识别文档图像中识别出所述版面内容区域对应的文本内容,并基于所述文本内容和内容类型,确定所述版面内容区域的版面内容;
生成单元,用于根据所述版面内容,生成所述待识别文档图像对应的目标文档,并展示所述目标文档,所述目标文档为可编辑文档。
可选的,在一些实施例中,所述提取单元,具体可以用于对所述待识别文档图像进行版面矫正,得到矫正后文档图像;对所述矫正后文档图像的图像尺寸进行调整,得到调整后文档图像;在所述调整后文档图像中提取出版面结构特征和版面内容特征。
可选的,在一些实施例中,所述提取单元,具体可以用于采用训练后版面检测模型对所述调整后文档图像进行图像特征提取,得到基础图像特征;对所述基础图像特征进行多维度版面特征提取,得到每一维度的基础版面特征;基于所述基础版面特征,对所述基础图像特征进行多维度版面特征提取,以得到所述待识别文档图像的版面结构特征和版面内容特征。
可选的,在一些实施例中,所述提取单元,具体可以用于将所述基础版面特征与所述基础图像特征进行融合,得到融合后图像特征;对所述融合后图像特征进行版面特征提取,得到目标维度对应的初始版面特征;在所述初始版面特征中识别出所述待识别文档图像的版面结构特征和版面内容特征。
可选的,在一些实施例中,所述提取单元,具体可以用于对所述基础版面特征的维度信息进行排序,并根据排序信息,在所述基础版面特征中筛选出超过所述目标维度的目标基础版面特征;将所述目标基础版面特征和所述初始版面特征进行融合,得到融合后版面特征;在所述融合后版面特征中提取出所述待识别文档图像的版面结构特征和版面内容特征。
可选的,在一些实施例中,所述提取单元,具体可以用于将所述融合后版面特征作为所述融合后图像特征,并返回执行所述对所述融合后图像特征进行版面特征提取,得到目标维度对应的初始版面特征的步骤,直至不存在所述目标基础版面特征时为止,得到每一维度对应的版面特征;获取每一维度对应的加权系数,并基于所述加权系数,对所述版面特征进行加权,得到加权后版面特征;在所述加权后版面特征中识别出所述待识别文档图像的版面结构特征和版面内容特征。
可选的,在一些实施例中,所述文档识别装置还可以包括训练单元,所述训练单元,具体可以用于获取文档图像样本,并采用预设版面检测模型对所述文档图像样本进行版面特征提取,得到基础样本版面特征;在所述基础样本版面特征中识别出目标样本版面特征,并基于目标样本版面特征,确定所述文档图像样本的主干损失信息;根据所述基础样本版面特征,确定所述文档图像样本的辅助损失信息,并基于所述主干损失信息和辅助损失信息,对所述预设版面检测模型进行收敛,得到所述训练后版面检测模型。
可选的,在一些实施例中,所述检测单元,具体可以用于根据所述版面结构特征,在所述待识别文档图像中检测出至少一个版面结构区域和所述版面结构区域对应的区域类型;根据所述区域类型,确定所述版面结构区域的版面结构类型;基于所述版面内容特征和版面结构类型,在所述版面结构区域中识别出至少一个版面内容区域和所述版面内容区域的内容类型。
可选的,在一些实施例中,所述检测单元,具体可以用于当所述版面结构类型为分栏结构区域时,基于所述版面内容特征,在所述版面结构区域中识别出至少一个版面内容区域和所述版面内容区域的内容类型,所述分栏结构区域为所述待识别文档图像包含的文档中用于进行内容分栏的区域;当所述版面结构类型为非分栏结构区域时,将所述版面结构区域作为版面内容区域,并将所述区域类型作为所述版面内容区域的内容类型。
可选的,在一些实施例中,所述检测单元,具体可以用于基于所述版面内容特征,在所述版面结构区域中识别出至少一个版面内容区域和所述版面内容区域的初始内容类型;当所述初始内容类型为公式时,获取所述公式对应的版面内容区域的公式位置信息和公式格式信息,并根据所述公式位置信息和公式格式信息,确定所述公式的公式类型,得到所述版面内容区域的内容类型;当所述初始内容类型为非公式时,将所述初始内容类型作为所述版面内容区域的内容类型。
可选的,在一些实施例中,所述确定单元,具体可以用于当所述内容类型为图像时,在所述待识别文档图像中识别出所述版面内容区域对应的图像,得到版面内容;当所述内容类型为非图像时,根据所述内容类型,确定所述版面内容的文本类型,并将所述文本内容转换为所述文本类型对应的版面内容。
可选的,在一些实施例中,所述确定单元,具体可以用于当所述文本类型为基础文本时,获取所述版面内容区域的文本格式,并基于所述文本格式,对所述文本内容进行格式调整,得到所述版面内容;当所述文本类型为表格文本时,将所述文本内容转换为表格内容,并将所述表格内容作为所述版面内容;当所述文本类型为公式文本时,根据所述公式文本对应的公式类型,将所述文本内容转换为公式内容,并将所述公式内容作为所述版面内容。
可选的,在一些实施例中,所述确定单元,具体可以用于获取所述版面内容区域的版面信息,并在所述版面信息中提取出基础公式格式;当所述公式类型为行内公式时,将所述基础公式格式作为所述版面内容的公式格式,所述行内公式为在文本段落中的公式;当所述公式类型为行间公式时,根据所述行间公式的类型,对所述基础公式格式进行调整,得到所述版面内容的公式格式,所述行间公式为在所述文本段落之间的公式;将所述文本内容转换为所述公式格式对应的公式内容。
可选的,在一些实施例中,所述确定单元,具体可以用于根据所述行间公式的类型,确定所述行间公式的文本对齐方式;将所述文本对齐方式添加至所述基础公式格式,得到所述版面内容的公式格式。
可选的,在一些实施例中,所述生成单元,具体可以用于获取每一所述版面内容区域的区域位置信息,并根据所述区域位置信息,对所述版面内容进行排序;创建预设格式的初始文档,并基于所述排序信息,将所述版面内容写入至所述初始文档,得到所述待识别文档图像对应的目标文档。
此外,本发明实施例还提供一种电子设备,包括处理器和存储器,所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序实现本发明实施例提供的文档识别方法。
此外,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例所提供的任一种文档识别方法中的步骤。
本发明实施例在显示文档识别页面后,响应于针对文档识别页面中的识别控件的触发操作,在文档识别页面中的待识别文档图像中提取出版面结构特征和版面内容特征,然后,根据版面结构特征和版面内容特征,在待识别文档图像中检测出至少一个版面内容区域和版面内容区域的内容类型,在待识别文档图像中识别出版面内容区域对应的文本内容,并基于文本内容和内容类型,确定版面内容区域的版面内容,然后,根据版面内容,生成待识别文档图像对应的目标文档,并展示目标文档,该目标文档为可编辑文档;由于该方案可以在待识别文档图像中直接提取出版面结构特征和版面内容特征,然后,根据版面结构特征和版面内容特征可以直接检测出版面内容区域,从而可以在复杂版面结构中准确识别出版面内容区域,因此,可以提升文档识别的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的文档识别方法的场景示意图;
图2是本发明实施例提供的文档识别方法的流程;
图3是本发明实施例提供的文档图像拍照页面的页面示意图;
图4是本发明实施例提供的提取每一维度的版面特征的流程示意图;
图5是本发明实施例提供的待识别文档图像中识别出的双栏区域的示意图;
图6是本发明实施例提供的待识别文档图像中不同类型公式的示意图;
图7是本发明实施例提供的对待识别文档图像进行版面还原的流程示意图;
图8是本发明实施例提供的CBNetV2的主要算法框架的示意图;
图9是本发明实施例提供的scaled-yolov4的算法结构的示意图;
图10是本发明实施例提供的对版面检测模型进行改进的结构示意图;
图11是本发明实施例提供的文档识别方法的另一流程示意图;
图12是本发明实施例提供的文档识别装置的结构示意图;
图13是本发明实施例提供的文档识别装置的另一结构示意图;
图14是本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种文档识别方法、装置、电子设备和计算机可读存储介质。其中,该文档识别装置可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备。
其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
例如,参见图1,以文档识别装置集成在电子设备中为例,电子设备在显示文档识别页面后,响应于针对文档识别页面中的识别控件的触发操作,在文档识别页面中的待识别文档图像中提取出版面结构特征和版面内容特征,然后,根据版面结构特征和版面内容特征,在待识别文档图像中检测出至少一个版面内容区域和版面内容区域的内容类型,在待识别文档图像中识别出版面内容区域对应的文本内容,并基于文本内容和内容类型,确定版面内容区域的版面内容,然后,根据版面内容,生成待识别文档图像对应的目标文档,并展示目标文档,进而提升文档识别的准确性。
其中,响应于,用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
其中,可以理解的是,在本申请的具体实施方式中,涉及到对象的待识别文档图像等相关数据,当本申请以下实施例运用到具体产品或技术中时,需要获得许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
其中,本申请实施例提供的关键词识别方法涉及到人工智能领域的计算机视觉技术,即在本申请中可以利用人工智能的机器视觉技术对待识别文档图像进行版面特征提取,以及基于提取出的版面结构特征和版面内容特征在待识别文档图像中检测出至少一个版面内容区域和该版面内容区域的区域类型,并基于检测出的版面内容区域和区域类型,将待识别文档图像还原为目标文档。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。其中,人工智能软件技术主要包括计算机视觉技术、机器学习/深度学习等方向。
其中,计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
以下分别进行详细说明。需要说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从文档识别装置的角度进行描述,该文档识别装置具体可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备;其中,该终端可以包括平板电脑、笔记本电脑、以及个人计算机(PC,Personal Computer)、可穿戴设备、虚拟现实设备或其他可以进行文档识别的智能设备等设备。
一种文档识别方法,包括:
显示文档识别页面,该文档识别页面包括待识别文档图像和识别控件,响应于针对识别控件的触发操作,在待识别文档图像中提取出版面结构特征和版面内容特征,根据版面结构特征和版面内容特征,在待识别文档图像中检测出至少一个版面内容区域和版面内容区域的内容类型,在待识别文档图像中识别出版面内容区域对应的文本内容,并基于文本内容和内容类型,确定版面内容区域的版面内容,根据版面内容,生成待识别文档图像对应的目标文档,并展示目标文档,该目标文档为可编辑文档。
如图2所示,该文档识别方法的具体流程如下:
101、显示文档识别页面。
其中,文档识别页面为在待识别文档图像中识别出目标文档的页面,该文档识别页面包括待识别文档图像和识别控件,待识别文档图像可以为包含文档的图像,所谓文档可以理解为包含至少一种类型的内容的电子档案文件,该文档的类型可以多种,比如,可以为文本文档、表格文档和幻灯片文档等等。
其中,显示文档识别页面的方式可以有多种,具体可以如下:
例如,显示文档图像采集页面,该图像采集页面包括采集控件,响应于针对采集控件的触发操作,采集当前文档图像,并显示采集图像预览页面,该采集图像预览页面包括当前文档图像和确认控件,响应于针对确认控件的触发操作,将当前文档图像作为待识别文档图像,并显示文档识别页面,或者,显示用户操作页面,该用户操作页面包括上传控件,响应于针对上传控件的触发操作,显示候选文档图像列表,响应于针对候选文档图像列表的选择操作,在候选文档图像列表中筛选出选择操作对应的候选文档图像,得到待识别文档图像,并基于待识别文档图像,显示文档识别页面。
其中,采集控件可以有多种,针对采集不同的内容可以存在不同的采集控件,比如,采集控件可以包括提取文字的采集控件、拍照扫描的采集控件、扫码对应的采集控件和扫一扫对应的采集控件,等等。以采集控件为拍照控件为例,显示文档识别页面的方式可以为在显示文档图像拍照页面之后,用户通过触发拍照控件,对文档或者包含文档的内容进行拍照,从而就可以得到待识别文档图像,然后,显示文档识别页面,文档图像拍照页面可以如图3所示。
其中,显示文档识别页面的方式可以发现待识别文档图像的来源可以有两种,一种是在现有的文档图像中选择出待识别文档图像,另一种就是通过图像采集控件直接采集包含文档的图像,从而得到待识别文档图像。
102、响应于针对识别控件的触发操作,在待识别文档图像中提取出版面结构特征和版面内容特征。
其中,版面结构特征可以理解为表征待识别文档图像中文档的版面结构的特征信息,所谓版面结构可以理解为文档中版面的结构,比如,可以包括文档的版面分栏(单栏、双栏或多栏)、页眉、页脚和标题等等。
其中,版面内容特征可以为表针待识别文档图像中文档的版面内容的特征信息,所谓版面内容可以理解为文档版面中各个内容区域的内容,比如,可以包括段落、表格、图像和公式等等。
其中,响应于针对待识别控件的触发操作,在待识别文档图像中提取出版面结构特征和版面内容特征的方式可以有多种,具体可以如下:
例如,响应于针对待识别控件的触发操作,对待识别文档图像进行版面矫正,得到矫正后文档图像,对矫正后文档图像的图像尺寸进行调整,得到调整后文档图像,在调整后文档图像中提取出版面结构特征和版面内容特征。
其中,对待识别文档图像进行版面矫正的方式,比如,针对待识别文档图像的畸变或倾斜进行矫正,从而得到矫正后文档图像。
在对带识别文档图像进行版面矫正之后,便可以对矫正后文档图像的图像尺寸进行调整,调整的方式可以有多种,比如,获取矫正后文档图像的当前图像尺寸信息,在当前图像尺寸信息中筛选出最长边和最短边,将最长边缩放至第一预设尺寸,并将最短边缩放至第二预设尺寸,从而就可以得到调整后文档图像。第一预设尺寸和第二预设尺寸可以根据实际应用进行设定,比如,第一预设尺寸可以为1280,第二预设尺寸就可以为128的倍数,等等。
在对矫正后文档图像的图像尺寸进行调整之后,便可以在调整后文档图像中提取出版面结构特征和版面内容特征的方式可以有多种,比如,可以采用训练后版面检测模型对调整后文档图像进行图像特征提取,得到基础图像特征,对基础图像特征进行多维度版面特征提取,得到每一维度的基础版面特征,基于基础版面特征,对基础图像特征进行多维度版面特征提取,以得到待识别文档图像的版面结构特征和版面内容特征。
其中,基于版面特征,对基础图像特征进行多维度版面特征提取的方式可以有多种,比如,可以将基础版面特征与基础图像特征进行融合,得到融合后图像特征,对融合后图像特征进行版面特征提取,得到目标维度对应的初始版面特征,在初始版面特征中识别出待识别文档图像的版面结构特征和版面内容特征。
其中,在初始版面特征中识别出待识别文档图像的版面结构特征和版面内容特征的方式可以有多种,比如,对基础版面特征的维度信息进行排序,并根据排序信息,在基础版面特征中筛选出超过目标维度的目标基础版面特征,将目标基础版面特征和初始版面特征进行融合,得到融合后版面特征,在融合后版面特征中提取出待识别文档图像的版面结构特征和版面内容特征。
其中,在融合后版面特征中提取出待识别文档图像的版面结构特征和版面内容特征的方式可以有多种,比如,将融合后版面特征作为融合后图像特征,并返回执行对融合后图像特征进行版面特征提取,得到目标维度对应的初始版面特征的步骤,直至不存在目标基础版面特征时为止,得到每一维度对应的版面特征,获取每一维度对应的加权系数,并基于加权系数,对版面特征进行加权,得到加权后版面特征,在加权后版面特征中识别出待识别文档图像的版面结构特征和版面内容特征。
其中,在对基础图像特征进行多维度版面特征提取时,以特征提取维度为4个维度为例,在基础图像特征中提取出每一维度对应的版面特征的过程可以如图4所示,对调整后文档图像进行卷积处理,得到基础图像特征,第一主干网络(Backbone 1)对基础图像特征进行多维版面特征提取,得到每一维度对应的基础版面特征,将第一维度至第四维度的基础版面特征与基础图像特征进行融合,得到融合后图像特征,第二主干网络(Backbone 2)对融合后图像特征进行第一维度的版面特征提取,得到第一维度对应的初始版面特征,然后,将第二维度至第四位置的基础版面特征与第一维度对应的初始版面特征进行融合,得到第一维度对应的融合后版面特征,第二主干网络对第一维度对应的融合后版面特征进行第二维度的版面特征提取,得到第二维度对应的初始版面特征,然后,将第三维度至第四维度的基础版面特征与第二维度对应的初始版面特征进行融合,得到第二维度对应的融合后版面特征,依次类推,从而可以得到每一维度对应的版面特征。
可选的,该训练后版面检测模型可以根据实际应用进行设置,另外,需要说明的是,该训练后版面检测模型可以由维护人员预先设置,也可以由文档识别装置自行进行训练,即步骤“采用训练后版面检测模型对调整后文档图像进行图像特征提取,得到基础图像特征”之前,该文档识别方法还可以包括:
获取文档图像样本,并采用预设版面检测模型对文档图像样本进行版面特征提取,得到基础样本版面特征,在基础样本版面特征中识别出目标样本版面特征,并基于目标样本版面特征,确定文档图像样本的主干损失信息,根据基础样本版面特征,确定文档图像样本的辅助损失信息,并基于主干损失信息和辅助损失信息,对预设版面检测模型进行收敛,得到训练后版面检测模型。
其中,文档图像样本包含标注版面内容区域和版面内容区域的内容类型的文档图像,采用预设版面检测模型对文档图像样本进行版面特征提取的方式可以有多种,比如,可以采用预设版面检测模型对文档图像样本进行图像特征提取,得到样本图像特征,采用预设版面检测模型的第一主干网络(Backbone 1)对样本图像特征进行多维版面特征提取,得到基础样本版面特征。
在提取出基础样本版面特征之后,便可以在基础版面特征中识别出目标样本版面特征,识别出目标样本版面特征的方式可以有多种,比如,可以采用第二主干网络(Backbone 1)对样本图像特征和基础样本版面特征进行多维版面特征提取,从而得到目标样本版面特征。
其中,第一主干网络和第二主干网络可以进行复合连接,另外,第一主干网络和第二主干网络的网络结构可以相同,在预设版面检测模型中主干网络的数量可以为2个,也可以为多个,在多个的情况下,每一个主干网络之间采用复合连接。
在识别出目标样本版面特征之后,便可以确定文档图像样本主干损失信息,确定主干损失信息的方式可以有多种,比如,基于目标样本版面特征,在文档图像样本中预测出至少一个版面内容区域和该版面内容区域的内容类型,得到第一预测版面内容区域和第一预测内容类型,将第一预测版面内容区域和第一预测内容类型分别与标注版面内容区域和标注内容类型进行对比,从而得到文档图像样本的主干损失信息。
其中,根据基础样本版面特征,确定文档图像样本的辅助信息的方式可以有多种,比如,基于基础样本版面特征,在文档图像样本中预测出至少一个版面内容区域和该版面内容区域的内容类型,得到第二预测版面内容区域和第二预测内容类型,将第二预测版面内容区域和第二预测内容类型分别与标注版面内容区域和标注内容类型进行对比,从而得到文档图像样本的辅助损失信息。
在确定出主干损失信息和辅助损失信息之后,便可以基于主干损失信息和辅助损失信息,对预设版面检测模型进行收敛,收敛的方式可以有多种,比如,将主干损失信息和辅助损失信息进行融合,得到融合后损失信息,采用融合后损失信息对预设版面检测模型进行收敛,得到训练后版面检测模型,或者,还可以获取主干损失信息和辅助损失信息分别对应的加权系数,基于该加权系数,分别对主干损失信息和辅助损失信息进行加权,得到加权后主干损失信息和加权后辅助损失信息,将加权后主干损失信息和加权后辅助损失信息进行融合,得到融合后损失信息,基于融合后损失信息对预设版面检测模型进行收敛,得到训练后版面检测模型。
103、根据版面结构特征和版面内容特征,在待识别文档图像中检测出至少一个版面内容区域和版面内容区域的内容类型。
其中,版面内容区域可以为待识别文档图像中文档版面的内容区域,该版面内容区域的区域类型可以有多种,比如,可以包括分栏结构区域(单栏或多栏)、页眉页脚、标题、段落等等。版面内容区域的内容类型可以理解为版面内容区域内包含的内容的类型,该内容类型也可以有多种,比如,可以包括图像、文本、表格、公式等等。
其中,根据版面结构特征和版面内容特征,在待识别文档图像中检测出至少一个版面内容区域和版面内容区域的内容类型的方式可以有多种,具体可以如下:
例如,可以根据版面结构特征,在待识别文档图像中检测出至少一个版面结构区域和该版面结构区域对应的区域类型,根据区域类型,确定版面结构区域的版面结构类型,基于版面内容特征和版面结构类型,在版面结构区域中识别出至少一个版面内容区域和版面内容区域的内容类型。
其中,版面结构区域可以为待识别文档图像中包含的文档的版面的结构区域,版面结构区域的版面结构区域类型可以有多种,比如,可以包括分栏结构区域、页眉页脚、标题等等。基于版面内容特征和版面结构类型,在版面结构区域中识别出至少一个版面内容区域和该版面内容区域的内容类型的方式可以有多种,比如,当版面结构类型为分栏结构区域时,基于版面内容特征,在版面结构区域中识别出至少一个版面内容区域和版面内容区域的内容类型,当版面结构类型为非分栏结构区域时,将版面结构区域作为版面内容区域,并将区域类型作为版面内容区域的内容类型。
其中,分栏结构区域为待识别文档图像包含的文档中用于进行内容分栏的区域,分栏结构区域的类型可以有多种,比如,可以包含单栏结构区域、双栏结构区域和多栏结构区域。以分类结构区域为双栏结构区域为例,就可以在待识别文档图像中分别标注出双栏区域中的两栏区域,具体可以如图5所示。当版面结构类型为分栏结构区域时,基于版面内容特征,在版面结构区域中识别出至少一个版面内容区域和该版面内容区域的内容类型的方式可以有多种,比如,可以基于版面内容特征,在版面结构区域中识别出至少一个版面内容区域和版面内容区域的初始内容类型,当初始内容类型为公式时,获取公式对应的版面内容区域的公式位置信息和公式格式信息,并根据公式位置信息和公式格式信息,确定公式的公式类型,得到版面内容区域的内容类型,当初始内容类型为非公式时,将初始内容类型作为版面内容区域的内容类型。
其中,公式位置信息用于指示公式对应的版面内容区域在待识别文档图像中的位置信息,公式格式信息用于指示公式对应的版面内容区域中的包含的格式信息,根据公式位置信息和公式格式信息,确定公式的公式类型的方式可以有多种,比如,在版面内容区域中筛选出初始内容类型为段落的版面内容区域,得到段落内容区域,获取段落内容区域的段落位置信息,在段落位置信息中提取出段落内容区域的段落位置,并在公式位置信息中提取出公式位置,将公式位置与段落位置进行对比,当公式位置在段落位置内时,确定公式的公式类型为行内公式,当公式位置在段落位置外时,确定公式的公式类型为行间公式。在公式格式信息中筛选出行间公式对应的目标公式格式信息,当目标公式格式信息中包含公式序号时,确定该行间公式为有序号行间公式,当目标公式格式信息中不包含公式序号时,确定该行间公式为无序号行间公式。
其中,本方案中的公式类型可以有多种,比如,可以包括行内公式、无序号行间公式和有序号行间公式。相对于现有的版面区域检测来说,往往只考虑版面内的内容区域的分割,而且这些区域往往是不考虑重叠的情况,也就是说一个区域必须是上述版面内容区域之一。但是这样的设计无法解决行内公式的情况,也就是说如果一个段落内部有公式,那么该区域既属于一个文本段落同时还是属于行内公式,因此,本方案在设计版面类别时,添加了行内公式、无序号行间公式、有序号行间公式,之所以将有、无序号分开考虑,是因为带序号的行间公式对齐方式往往比较特殊,公式一般居中对齐,序号一般右对齐,具体可以如图6所示,行内公式为公式处在正常文本中间,而且在同一行出现,无序号行间公式跟行内公式的区别在于行间公式往往单独成行,而且该公式没有序号,有序号行间公式与不带序号行间公式的区别在于该公式往往在所在行的末尾带有公式需要如(2-1),(2),(式2)等等。
可选的,在待识别文本图像中检测出至少一个版面内容区域和版面内容区域的内容类型之后,还可以显示文档识别预览页面,该文档识别预览页面用于展示检测出的版面内容区域和版面内容区域的区域类型,比如,可以显示文档识别预览页面,该文档识别预览页面包括还原控件和在待识别文档图像中标注出的版面内容区域和版面内容区域的内容类型,响应于针对还原控件的触发操作,在待识别文档图像中识别出版面内容区域对应的文本内容,并基于文本内容和内容类型,确定每一版面内容区域的版面内容。
104、在待识别文档图像中识别出版面内容区域对应的文本内容,并基于文本内容和内容类型,确定版面内容区域的版面内容。
其中,版面内容为在待识别文档图像中进行版面还原,还原出的版面内容区域内的内容。
其中,在待识别文档图像中识别出版面内容区域对应的文本内容的方式可以有多种,具体可以如下:
例如,可以在待识别文档图像中进行文本识别,得到文本内容集合和文本内容集合中每一文本内容对应的文本位置,将文本位置与每一版面内容区域的区域位置进行匹配,在文本内容集合中筛选出与版面内容区域的区域位置匹配的文本内容,从而得到版面内容区域对应的文本内容。
其中,对待识别文档图像进行文本识别的方式可以有多种,比如,可以采用OCR(光学字符识别)网络对文本行检测及识别用于对待识别文档图像中的文字进行提取,从而得到文本内容集合和文本内容集合中每一文本内容对应的文本位置,或者,还可以采用其他文本识别网络对待识别文档图像进行文本识别,从而得到文本内容集合和文本内容集合中每一文本内容对应的文本位置。
在识别出版面内容区域对应的文本内容之后,便可以基于文本内容和内容类型,确定每一版面内容区域的版面内容,确定版面内容的方式可以有多种,比如,当内容类型为图像时,在待识别文档图像中识别出版面内容区域对应的图像,得到版面内容,当内容类型为非图像时,根据内容类型,确定版面内容的文本类型,并将文本内容转换为文本类型对应的版面内容。
其中,文本类型用于指示版面内容中表征文本的类型,该文本类型可以有多种,比如,可以包括基础文本、表格文本和公式文本。根据内容类型,确定版面内容的文本类型的方式可以有多种,比如,当内容类型为表格时,就可以确定该版面内容的文本类型为表格文本,当内容类型为公式时,就可以确定该版面内容的文本类型为公式文本,当内容类型为除表格和公式以外的内容类型时,譬如,标题、页眉页脚或段落,就可以确定该版面内容的文本类型为基础文本。
在确定出文本类型之后,便可以将文本内容转换为文本类型对应的版面内容,抓换的方式可以有多种,比如,当文本类型为基础文本时,获取版面内容区域的文本格式,并基于文本格式,对文本内容进行格式调整,得到版面内容,当文本类型为表格文本时,将文本内容转换为表格内容,并将表格内容作为版面内容,当文本类型为公式文本时,根据公式文本对应的公式类型,将文本内容转换为公式内容,并将公式内容作为版面内容。
其中,基于文本格式,对文本内容进行格式调整的方式可以有多种,比如,可以基于文本格式,对文本内容中的文本进行字体、段落等基础文本格式进行调整,从而就可以得到格式调整后的文本内容,并将格式调整后的文本内容作为版面内容。
其中,将文本内容转换为表格内容的方式可以有多种,比如,可以获取版面内容区域的表格格式,并基于表格格式,创建基础表格,然后,将文本内容添加至基础表格,从而得到表格内容。
其中,根据公式文本对应的公式类型,将文本内容抓换为公式内容的方式可以有多种,比如,可以获取版面内容区域的版面信息,并在版面信息中提取出基础公式格式,当公式类型为行内公式时,将基础公式格式作为版面内容的公式格式,当公式类型为行间公式时,根据行间公式的类型,对基础公式格式进行调整,得到版面内容的公式格式,将文本内容转换为公式格式对应的公式内容。
其中,行内公式为在文本段落中的公式,行间公式为在文本段落之间的公式。基础公式格式可以为公式的一些基础格式,比如,可以为字体、大小、段落、公式的字符串格式等等。根据行间公式的类型,对基础公式格式进行调整的方式可以有多种,比如,可以根据行间公式的类型,确定行间公式的文本对齐方式,将文本对齐方式添加至基础公式格式,得到版面内容的公式格式。
其中,文本对齐方式可以为表征公式文本在分栏结构区域中的对齐位置,根据行间公式的类型,确定行间公式的文本对齐方式的方式可以有多种,比如,当行间公式为有序号行间公式时,就可以确定行间公式的文本对齐方式为右对齐,当行间公式为无序号行间公式时,就可以确定行间公式的文本对齐方式为居中对齐。
105、根据版面内容,生成待识别文档图像对应的目标文档,并展示目标文档。
其中,目标文档为可编辑文档,所谓可编辑文档就可以理解为该文档可以进行编辑操作,根据版面内容,生成待识别文档图像对应的目标文档的方式可以有多种,具体可以如下:
例如,可以获取每一版面内容区域的区域位置信息,并根据区域位置信息,对版面内容进行排序,创建预设格式的初始文档,并基于排序信息,将版面内容写入至初始文档,得到待识别文档图像对应的目标文档。
其中,初始文档可以为创建的预设格式的空白文档或者初始化后的文档,基于排序信息,将版面内容写入至初始文档的方式可以有多种,比如,可以基于排序信息,将版面内容直接添加至初始文档对应的位置,从而得到待识别文档图像对应的目标文档。譬如,以初始文档为docx格式的word文档为例,就可以将段落内容、表格内容、公式内容、标题内容、页眉页脚内容按照从上到下,从左到右的顺序写入至docx格式的word文档,从而就可以得到目标文档。
在生成待识别文档图像对应的目标文档之后,便可以展示目标文档,展示目标文档的方式可以有多种,比如,可以直接展示目标文档,该目标文档为可编辑文档,或者,还可以显示文档识别结果页面,该文档识别结果页面包括目标文档的缩略信息和该目标文档的展示控件,响应于针对展示控件的触发操作,展示目标文档。
可选的,在展示目标文档之后,还可以响应针对该目标文档的编辑操作,对目标文档进行编辑,从而得到编辑后文档。对目标文档进行编辑的方式可以有多种,比如,可以增加或删除文本内容,或者,对公式内容或表格内容进行编辑,或者,还可以对目标文档的文档格式进行调整等等。
其中,在待识别文档图像中识别出目标文档的过程可以看作对待识别文档图像进行版面还原,以目标文档为docx格式的word文档为例,版面还原的过程可以如图7所示,用户输入待识别文档图像,通过图像矫正模块对待识别文档图像进行矫正,采用训练后版面检测模型在待识别文档图像中检测出至少一个版面内容区域和该版面区域内容的内容类型,采用OCR文本行检测及识别模块在待识别文档图像中识别出文本内容,将版面检测结果与文本内容进行匹配,将段落、正文标题、图表标题、表格与文本内容进行匹配,然后将版面检测结果,譬如表格区域以及表格内对应的文本内容送入表格识别模块获取表格识别结果,同时将公式区域分割后送入公式识别模块获取公式识别的结果,最后将版面框中的信息根据版面坐标按照从上到下,从左到右的顺序写入docx格式的word文档中。
其中,需要说明的是,在整个版面还原过程中,本方案提出了全新的版面内容区域定义逻辑,也就是版面检测数据标注设计方案,同时采用改进后的版面检测模型完成对版面内容区域进行检测,具体可以如下:
(1)版面内容区域定义逻辑;
例如,现有技术中往往只考虑版面内的内容区域的分割,譬如,段落、表格、图片、公式、页眉页脚等等,而且这些区域往往是不考虑重叠的情况,也就是说一个区域必须是上述版面内容区域之一。但是这样的设计无法解决行内公式的情况,也就是说如果一个段落内部有公式,那么该区域既属于一个文本段落同时还是属于行内公式;为了解决这个问题,本方案在设计版面内容区域的类别时,添加了行内公式、无序号行间公式、有序号行间公式,之所以将有、无序号分开考虑,是因为带序号的行间公式对齐方式往往比较特殊,公式一般居中对齐,序号一般右对齐。另外,现有技术中对于带有分栏结构的版面还原往往依赖于规则和策略,本方案中直接将单栏和多栏等的结构信息纳入版面检测模型中,从而可以大大提升版面内容区域检测的准确性。
(2)对版面检测模型的改进
例如,在版面内容区域检测中版面区域是存在重叠现象的,同一个图片中的像素是可能属于多个版面区域的,所以采用语义分割的方法无法达到版面区域一次性提取的效果。为了实现对版面区域的提取,本方案中采取基于scaled-yolov4(一种目标检测模型)以及CBNetV2(一种基于主干网络的目标检测模型)相结合的方案,不仅仅可以一次性提取所有版面信息,而且可以针对不同尺寸,不同复杂背景的提取。图8为CBNetV2的主要算法框架,图9为scaled-yolov4的主要算法结构,其中yolov4-p5、yolov4-p6和yolov4-p7分别对应不同深度和规模的网络。本方案中对版面检测模型进行改进主要是将caled-yolov4中的主干网络(backbone)替换为CBNetV2的主干网络(backbone),具体可以如图10所示,通过CBNetV2的主干网络(backbone)对待识别文档图像进行特征提取,得到待识别文档图像的版面结构特征和版面内容特征,然后,采用scaled-yolov4中的检测网络基于版面结构特征和版面内容特征,在待识别文档图像中检测出至少一个版面内容区域和该版面内容区域的内容类型。通过结构改进后的版面检测模型有助于对复杂版面信息的提取,同时对于多尺度的版面区域也能够得到的很好的结果,因此,在文档识别过程中可以一次性提取多种的版面区域信息和带有复杂版面结构的版面信息,从而使得在还原word文档时,能够完美还原结构信息,还可以提取行内公式和行间公式,同时能够对带有序号的公式做到完美对齐还原,进而大大提升文档识别的准确性。
其中,需要说明的是,对结构改进后得到的版面检测模型进行训练的方式主要采用于传统的CBNetv2类似的方法。虽然在改进的scaled-yolov4中使用两个相同的之前的backbone,但是两个backbone出来的特征都需要经过scaled-yolov4的neck部分和head部分,并进行监督训练,也被称之为辅助监督训练,从而得到训练后版面检测模型。
可选的,对于版面检测模型的选型,除了scaled-yolov4以外,还可以为其他目标检测模型,比如,cascade-rcnn(一种目标检测模型)和DERT(一种目标检测模型)等等。另外,替换的主干网络(backbone)也可以为其他的特征提取网络。
可选的,版面检测模型可以部署在终端,也可以部署在服务器,当部署在终端侧时,终端就可以直接在待识别文档图像提取出版面结构特征和版面内容特征,然后,基于版面内容特征和版面内容,在待识别文档图像中检测出至少一个版面内容区域和版面内容区域的内容类型,在待识别文档图像中识别出每一版面内容区域对应的文本内容,基于文本内容和内容类型,确定每一版面内容区域对应的版面内容,根据版面内容生成待识别文档图像对应的目标文档,然后,展示目标文档,当部署在服务器侧时,终端可以对待识别文档图像进行版面矫正,将矫正后文档图像发送至服务器,以便服务器在待识别文档图像提取出版面结构特征和版面内容特征,然后,基于版面内容特征和版面内容,在待识别文档图像中检测出至少一个版面内容区域和版面内容区域的内容类型,在待识别文档图像中识别出每一版面内容区域对应的文本内容,基于文本内容和内容类型,确定版面内容区域对应的版面内容,根据版面内容生成待识别文档图像对应的目标文档,然后,终端接收服务器返回的目标文档,并展示目标文档。
由以上可知,本申请实施例在显示文档识别页面后,响应于针对文档识别页面中的识别控件的触发操作,在文档识别页面中的待识别文档图像中提取出版面结构特征和版面内容特征,然后,根据版面结构特征和版面内容特征,在待识别文档图像中检测出至少一个版面内容区域和版面内容区域的内容类型,在待识别文档图像中识别出版面内容区域对应的文本内容,并基于文本内容和内容类型,确定版面内容区域的版面内容,然后,根据版面内容,生成待识别文档图像对应的可编辑的目标文档,并展示目标文档;由于该方案可以在待识别文档图像中直接提取出版面结构特征和版面内容特征,然后,根据版面结构特征和版面内容特征可以直接检测出版面内容区域,从而可以在复杂版面结构中准确识别出版面内容区域,因此,可以提升文档识别的准确性。
根据上面实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该文档识别装置具体集成在电子设备,电子设备为终端,目标文档为word文档为例进行说明。
如图11所示,一种文档识别方法,具体流程如下:
201、终端显示文档识别页面。
例如,终端显示文档图像采集页面,该图像采集页面包括采集控件,响应于针对采集控件的触发操作,采集当前文档图像,并显示采集图像预览页面,该采集图像预览页面包括当前文档图像和确认控件,响应于针对确认控件的触发操作,将当前文档图像作为待识别文档图像,并显示文档识别页面,或者,显示用户操作页面,该用户操作页面包括上传控件,响应于针对上传控件的触发操作,显示候选文档图像列表,响应于针对候选文档图像列表的选择操作,在候选文档图像列表中筛选出选择操作对应的候选文档图像,得到待识别文档图像,并基于待识别文档图像,显示文档识别页面。
202、终端响应于针对识别控件的触发操作,在待识别文档图像中提取出版面结构特征和版面内容特征。
例如,终端针对待识别文档图像的畸变或倾斜进行矫正,从而得到矫正后文档图像,获取矫正后文档图像的当前图像尺寸信息,在当前图像尺寸信息中筛选出最长边和最短边,将最长边缩放至1280,并将最短边缩放至128的倍数,从而就可以得到调整后文档图像。
终端采用训练后版面检测模型对调整后文档图像进行卷积处理,得到基础图像特征,第一主干网络(Backbone 1)对基础图像特征进行多维版面特征提取,得到每一维度对应的基础版面特征,将第一维度至第四维度的基础版面特征与基础图像特征进行融合,得到融合后图像特征,第二主干网络(Backbone2)对融合后图像特征进行第一维度的版面特征提取,得到第一维度对应的初始版面特征,然后,将第二维度至第四位置的基础版面特征与第一维度对应的初始版面特征进行融合,得到第一维度对应的融合后版面特征,第二主干网络对第一维度对应的融合后版面特征进行第二维度的版面特征提取,得到第二维度对应的初始版面特征,然后,将第三维度至第四维度的基础版面特征与第二维度对应的初始版面特征进行融合,得到第二维度对应的融合后版面特征,依次类推,从而可以得到每一维度对应的版面特征。
可选的,该训练后版面检测模型可以根据实际应用进行设置,另外,需要说明的是,该训练后版面检测模型可以由维护人员预先设置,也可以由文档识别装置自行进行训练,训练过程可以如下:
终端获取文档图像样本,采用预设版面检测模型对文档图像样本进行图像特征提取,得到样本图像特征,采用预设版面检测模型的第一主干网络(Backbone 1)对样本图像特征进行多维版面特征提取,得到基础样本版面特征。采用第二主干网络(Backbone 1)对样本图像特征和基础样本版面特征进行多维版面特征提取,从而得到目标样本版面特征。
终端基于目标样本版面特征,在文档图像样本中预测出至少一个版面内容区域和该版面内容区域的内容类型,得到第一预测版面内容区域和第一预测内容类型,将第一预测版面内容区域和第一预测内容类型分别与标注版面内容区域和标注内容类型进行对比,从而得到文档图像样本的主干损失信息。基于基础样本版面特征,在文档图像样本中预测出至少一个版面内容区域和该版面内容区域的内容类型,得到第二预测版面内容区域和第二预测内容类型,将第二预测版面内容区域和第二预测内容类型分别与标注版面内容区域和标注内容类型进行对比,从而得到文档图像样本的辅助损失信息。
终端将主干损失信息和辅助损失信息进行融合,得到融合后损失信息,采用融合后损失信息对预设版面检测模型进行收敛,得到训练后版面检测模型,或者,还可以获取主干损失信息和辅助损失信息分别对应的加权系数,基于该加权系数,分别对主干损失信息和辅助损失信息进行加权,得到加权后主干损失信息和加权后辅助损失信息,将加权后主干损失信息和加权后辅助损失信息进行融合,得到融合后损失信息,基于融合后损失信息对预设版面检测模型进行收敛,得到训练后版面检测模型。
203、终端根据版面结构特征和版面内容特征,在待识别文档图像中检测出至少一个版面内容区域和版面内容区域的内容类型。
例如,终端采用训练后版面检测模型中的检测网络根据版面结构特征,在待识别文档图像中检测出至少一个版面结构区域和该版面结构区域对应的区域类型,根据区域类型,确定版面结构区域的版面结构类型。当版面结构类型为非分栏结构区域时,将版面结构区域作为版面内容区域,并将区域类型作为版面内容区域的内容类型。当版面结构类型为分栏结构区域时,基于版面内容特征,在版面结构区域中识别出至少一个版面内容区域和版面内容区域的初始内容类型,当初始内容类型为非公式时,将初始内容类型作为版面内容区域的内容类型,当初始内容类型为公式时,获取公式对应的版面内容区域的公式位置信息和公式格式信息,在版面内容区域中筛选出初始内容类型为段落的版面内容区域,得到段落内容区域,获取段落内容区域的段落位置信息,在段落位置信息中提取出段落内容区域的段落位置,并在公式位置信息中提取出公式位置,将公式位置与段落位置进行对比,当公式位置在段落位置内时,确定公式的公式类型为行内公式,当公式位置在段落位置外时,确定公式的公式类型为行间公式。在公式格式信息中筛选出行间公式对应的目标公式格式信息,当目标公式格式信息中包含公式序号时,确定该行间公式为有序号行间公式,当目标公式格式信息中不包含公式序号时,确定该行间公式为无序号行间公式,从而得到每一版面内容区域的内容类型。
可选的,在待识别文本图像中检测出至少一个版面内容区域和版面内容区域的内容类型之后,终端可以显示文档识别预览页面,该文档识别预览页面包括还原控件和在待识别文档图像中标注出的版面内容区域和版面内容区域的内容类型,响应于针对还原控件的触发操作,在待识别文档图像中识别出版面内容区域对应的文本内容,并基于文本内容和内容类型,确定每一版面内容区域的版面内容。
204、终端在待识别文档图像中识别出版面内容区域对应的文本内容。
例如,终端采用OCR网络对文本行检测及识别用于对待识别文档图像中的文字进行提取,从而得到文本内容集合和文本内容集合中每一文本内容对应的文本位置,或者,还可以采用其他文本识别网络对待识别文档图像进行文本识别,从而得到文本内容集合和文本内容集合中每一文本内容对应的文本位置。将文本位置与每一版面内容区域的区域位置进行匹配,在文本内容集合中筛选出与版面内容区域的区域位置匹配的文本内容,从而得到版面内容区域对应的文本内容。
205、终端基于文本内容和内容类型,确定版面内容区域的版面内容。
例如,终端当内容类型为图像时,在待识别文档图像中识别出版面内容区域对应的图像,得到版面内容,当内容类型为非图像时,当内容类型为表格时,就可以确定该版面内容的文本类型为表格文本,当内容类型为公式时,就可以确定该版面内容的文本类型为公式文本,当内容类型为除表格和公式以外的内容类型时,譬如,标题、页眉页脚或段落,就可以确定该版面内容的文本类型为基础文本。
当文本类型为基础文本时,终端基于文本格式,对文本内容中的文本进行字体、段落等基础文本格式进行调整,从而就可以得到格式调整后的文本内容,并将格式调整后的文本内容作为版面内容。当文本类型为表格文本时,获取版面内容区域的表格格式,并基于表格格式,创建基础表格,然后,将文本内容添加至基础表格,从而得到表格内容。当文本类型为公式文本时,获取版面内容区域的版面信息,并在版面信息中提取出基础公式格式,当公式类型为行内公式时,将基础公式格式作为版面内容的公式格式,当公式类型为行间公式,且行间公式为有序号行间公式时,就可以确定行间公式的文本对齐方式为右对齐,当行间公式为无序号行间公式时,就可以确定行间公式的文本对齐方式为居中对齐,将文本对齐方式添加至基础公式格式,得到版面内容的公式格式,将文本内容转换为公式格式对应的公式内容。
206、终端根据版面内容,生成待识别文档图像对应的word文档。
例如,终端可以获取每一版面内容区域的区域位置信息,并根据区域位置信息,对版面内容进行排序,创建docx格式的初始word文档,并将段落内容、表格内容、公式内容、标题内容、页眉页脚内容按照从上到下,从左到右的顺序写入至docx格式的初始word文档,从而就可以得到待识文档图像对应的word文档。
207、终端展示待识文档图像对应的word文档。
例如,终端可以直接展示待识文档图像对应的word文档,该word文档为可编辑文档,或者,还可以显示文档识别结果页面,该文档识别结果页面包括目标文档的缩略信息和该目标文档的展示控件,响应于针对展示控件的触发操作,展示待识文档图像对应的word文档。
可选的,在展示目标文档之后,终端还可以响应针对该目标文档的编辑操作,对目标文档进行编辑的方式可以有多种,比如,可以增加或删除文本内容,或者,对公式内容或表格内容进行编辑,或者,还可以对目标文档的文档格式进行调整等等,从而得到编辑后文档。由以上可知,本实施例终端在显示文档识别页面后,响应于针对文档识别页面中的识别控件的触发操作,在文档识别页面中的待识别文档图像中提取出版面结构特征和版面内容特征,然后,根据版面结构特征和版面内容特征,在待识别文档图像中检测出至少一个版面内容区域和版面内容区域的内容类型,在待识别文档图像中识别出版面内容区域对应的文本内容,并基于文本内容和内容类型,确定版面内容区域的版面内容,然后,根据版面内容,生成待识别文档图像对应的可编辑的目标文档,并展示目标文档;由于该方案可以在待识别文档图像中直接提取出版面结构特征和版面内容特征,然后,根据版面结构特征和版面内容特征可以直接检测出版面内容区域,从而可以在复杂版面结构中准确识别出版面内容区域,因此,可以提升文档识别的准确性。
为了更好地实施以上方法,本发明实施例还提供一种文档识别装置,该文档识别装置可以集成在电子设备,比如服务器或终端等设备中,该终端可以包括平板电脑、笔记本电脑和/或个人计算机等。
例如,如图12所示,该文档识别装置可以包括显示单元301、提取单元302、检测单元303、确定单元304和生成单元305,如下:
(1)显示单元301;
显示单元301,用于显示文档识别页面,该文档识别页面包括待识别文档图像和识别控件。
例如,显示单元301,具体可以用于显示文档图像采集页面,该图像采集页面包括采集控件,响应于针对采集控件的触发操作,采集当前文档图像,并显示采集图像预览页面,该采集图像预览页面包括当前文档图像和确认控件,响应于针对确认控件的触发操作,将当前文档图像作为待识别文档图像,并显示文档识别页面,或者,显示用户操作页面,该用户操作页面包括上传控件,响应于针对上传控件的触发操作,显示候选文档图像列表,响应于针对候选文档图像列表的选择操作,在候选文档图像列表中筛选出选择操作对应的候选文档图像,得到待识别文档图像,并基于待识别文档图像,显示文档识别页面。
(2)提取单元302;
提取单元302,用于响应于针对识别控件的触发操作,在待识别文档图像中提取出版面结构特征和版面内容特征。
例如,提取单元302,具体可以用于响应于针对待识别控件的触发操作,对待识别文档图像进行版面矫正,得到矫正后文档图像,对矫正后文档图像的图像尺寸进行调整,得到调整后文档图像,采用训练后版面检测模型对调整后文档图像进行图像特征提取,得到基础图像特征,对基础图像特征进行多维度版面特征提取,得到每一维度的基础版面特征,基于基础版面特征,对基础图像特征进行多维度版面特征提取,以得到待识别文档图像的版面结构特征和版面内容特征。
(3)检测单元303;
检测单元303,用于根据版面结构特征和版面内容特征,在待识别文档图像中检测出至少一个版面内容区域和版面内容区域的内容类型。
例如,检测单元303,具体可以用于根据版面结构特征,在待识别文档图像中检测出至少一个版面结构区域和该版面结构区域对应的区域类型,根据区域类型,确定版面结构区域的版面结构类型,基于版面内容特征和版面结构类型,在版面结构区域中识别出至少一个版面内容区域和版面内容区域的内容类型。
(4)确定单元304;
确定单元304,用于在待识别文档图像中识别出版面内容区域对应的文本内容,并基于文本内容和内容类型,确定版面内容区域的版面内容。
例如,确定单元304,具体可以用于在待识别文档图像中进行文本识别,得到文本内容集合和文本内容集合中每一文本内容对应的文本位置,将文本位置与每一版面内容区域的区域位置进行匹配,在文本内容集合中筛选出与版面内容区域的区域位置匹配的文本内容,从而得到版面内容区域对应的文本内容。当内容类型为图像时,在待识别文档图像中识别出版面内容区域对应的图像,得到版面内容,当内容类型为非图像时,根据内容类型,确定版面内容的文本类型,并将文本内容转换为文本类型对应的版面内容。
(5)生成单元305;
生成单元305,用于根据版面内容,生成待识别文档图像对应的目标文档,并展示目标文档,该目标文档为可编辑文档。
例如,生成单元305,具体可以用于获取每一版面内容区域的区域位置信息,并根据区域位置信息,对版面内容进行排序,创建预设格式的初始文档,并基于排序信息,将版面内容写入至初始文档,得到待识别文档图像对应的目标文档,并直接展示目标文档,该目标文档为可编辑文档,或者,还可以显示文档识别结果页面,该文档识别结果页面包括目标文档的缩略信息和该目标文档的展示控件,响应于针对展示控件的触发操作,展示目标文档。
可选的,文档识别装置还可以包括训练单元306,如图13所示,具体可以如下:
训练单元306,用于对预设版面检测模型进行训练,得到训练后版面检测模型。
例如,训练单元306,具体可以用于获取文档图像样本,并采用预设版面检测模型对文档图像样本进行版面特征提取,得到基础样本版面特征,在基础样本版面特征中识别出目标样本版面特征,并基于目标样本版面特征,确定文档图像样本的主干损失信息,根据基础样本版面特征,确定文档图像样本的辅助损失信息,并基于主干损失信息和辅助损失信息,对预设版面检测模型进行收敛,得到训练后版面检测模型。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由以上可知,本实施例在显示单元301显示文档识别页面后,提取单元302响应于针对文档识别页面中的识别控件的触发操作,在文档识别页面中的待识别文档图像中提取出版面结构特征和版面内容特征,然后,检测单元303根据版面结构特征和版面内容特征,在待识别文档图像中检测出至少一个版面内容区域和版面内容区域的内容类型,确定单元304在待识别文档图像中识别出版面内容区域对应的文本内容,并基于文本内容和内容类型,确定版面内容区域的版面内容,然后,生成单元305根据版面内容,生成待识别文档图像对应的可编辑的目标文档,并展示目标文档;由于该方案可以在待识别文档图像中直接提取出版面结构特征和版面内容特征,然后,根据版面结构特征和版面内容特征可以直接检测出版面内容区域,从而可以在复杂版面结构中准确识别出版面内容区域,因此,可以提升文档识别的准确性。
本发明实施例还提供一种电子设备,如图14所示,其示出了本发明实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图14中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
电子设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
显示文档识别页面,该文档识别页面包括待识别文档图像和识别控件,响应于针对识别控件的触发操作,在待识别文档图像中提取出版面结构特征和版面内容特征,根据版面结构特征和版面内容特征,在待识别文档图像中检测出至少一个版面内容区域和版面内容区域的内容类型,在待识别文档图像中识别出版面内容区域对应的文本内容,并基于文本内容和内容类型,确定版面内容区域的版面内容,根据版面内容,生成待识别文档图像对应的目标文档,并展示目标文档,该目标文档为可编辑文档。
例如,电子设备显示文档图像采集页面,该图像采集页面包括采集控件,响应于针对采集控件的触发操作,采集当前文档图像,并显示采集图像预览页面,该采集图像预览页面包括当前文档图像和确认控件,响应于针对确认控件的触发操作,将当前文档图像作为待识别文档图像,并显示文档识别页面,或者,显示用户操作页面,该用户操作页面包括上传控件,响应于针对上传控件的触发操作,显示候选文档图像列表,响应于针对候选文档图像列表的选择操作,在候选文档图像列表中筛选出选择操作对应的候选文档图像,得到待识别文档图像,并基于待识别文档图像,显示文档识别页面。响应于针对待识别控件的触发操作,对待识别文档图像进行版面矫正,得到矫正后文档图像,对矫正后文档图像的图像尺寸进行调整,得到调整后文档图像,采用训练后版面检测模型对调整后文档图像进行图像特征提取,得到基础图像特征,对基础图像特征进行多维度版面特征提取,得到每一维度的基础版面特征,基于基础版面特征,对基础图像特征进行多维度版面特征提取,以得到待识别文档图像的版面结构特征和版面内容特征。根据版面结构特征,在待识别文档图像中检测出至少一个版面结构区域和该版面结构区域对应的区域类型,根据区域类型,确定版面结构区域的版面结构类型,基于版面内容特征和版面结构类型,在版面结构区域中识别出至少一个版面内容区域和版面内容区域的内容类型。在待识别文档图像中进行文本识别,得到文本内容集合和文本内容集合中每一文本内容对应的文本位置,将文本位置与每一版面内容区域的区域位置进行匹配,在文本内容集合中筛选出与版面内容区域的区域位置匹配的文本内容,从而得到版面内容区域对应的文本内容。当内容类型为图像时,在待识别文档图像中识别出版面内容区域对应的图像,得到版面内容,当内容类型为非图像时,根据内容类型,确定版面内容的文本类型,并将文本内容转换为文本类型对应的版面内容。获取每一版面内容区域的区域位置信息,并根据区域位置信息,对版面内容进行排序,创建预设格式的初始文档,并基于排序信息,将版面内容写入至初始文档,得到待识别文档图像对应的目标文档,并直接展示目标文档,该目标文档为可编辑文档,或者,还可以显示文档识别结果页面,该文档识别结果页面包括目标文档的缩略信息和该目标文档的展示控件,响应于针对展示控件的触发操作,展示目标文档。当检测到针对目标文档的编辑操作时,响应针对该目标文档的编辑操作,对目标文档进行编辑,从而得到编辑后文档。
以上各个操作的具体实施可参见前面的实施例,在此不作赘述。
由以上可知,本申请实施例在显示文档识别页面后,响应于针对文档识别页面中的识别控件的触发操作,在文档识别页面中的待识别文档图像中提取出版面结构特征和版面内容特征,然后,根据版面结构特征和版面内容特征,在待识别文档图像中检测出至少一个版面内容区域和版面内容区域的内容类型,在待识别文档图像中识别出版面内容区域对应的文本内容,并基于文本内容和内容类型,确定版面内容区域的版面内容,然后,根据版面内容,生成待识别文档图像对应的可编辑的目标文档,并展示目标文档;由于该方案可以在待识别文档图像中直接提取出版面结构特征和版面内容特征,然后,根据版面结构特征和版面内容特征可以直接检测出版面内容区域,从而可以在复杂版面结构中准确识别出版面内容区域,因此,可以提升文档识别的准确性。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种文档识别方法中的步骤。例如,该指令可以执行如下步骤:
显示文档识别页面,该文档识别页面包括待识别文档图像和识别控件,响应于针对识别控件的触发操作,在待识别文档图像中提取出版面结构特征和版面内容特征,根据版面结构特征和版面内容特征,在待识别文档图像中检测出至少一个版面内容区域和版面内容区域的内容类型,在待识别文档图像中识别出版面内容区域对应的文本内容,并基于文本内容和内容类型,确定版面内容区域的版面内容,根据版面内容,生成待识别文档图像对应的目标文档,并展示目标文档,该目标文档为可编辑文档。
例如,显示文档图像采集页面,该图像采集页面包括采集控件,响应于针对采集控件的触发操作,采集当前文档图像,并显示采集图像预览页面,该采集图像预览页面包括当前文档图像和确认控件,响应于针对确认控件的触发操作,将当前文档图像作为待识别文档图像,并显示文档识别页面,或者,显示用户操作页面,该用户操作页面包括上传控件,响应于针对上传控件的触发操作,显示候选文档图像列表,响应于针对候选文档图像列表的选择操作,在候选文档图像列表中筛选出选择操作对应的候选文档图像,得到待识别文档图像,并基于待识别文档图像,显示文档识别页面。响应于针对待识别控件的触发操作,对待识别文档图像进行版面矫正,得到矫正后文档图像,对矫正后文档图像的图像尺寸进行调整,得到调整后文档图像,采用训练后版面检测模型对调整后文档图像进行图像特征提取,得到基础图像特征,对基础图像特征进行多维度版面特征提取,得到每一维度的基础版面特征,基于基础版面特征,对基础图像特征进行多维度版面特征提取,以得到待识别文档图像的版面结构特征和版面内容特征。根据版面结构特征,在待识别文档图像中检测出至少一个版面结构区域和该版面结构区域对应的区域类型,根据区域类型,确定版面结构区域的版面结构类型,基于版面内容特征和版面结构类型,在版面结构区域中识别出至少一个版面内容区域和版面内容区域的内容类型。在待识别文档图像中进行文本识别,得到文本内容集合和文本内容集合中每一文本内容对应的文本位置,将文本位置与每一版面内容区域的区域位置进行匹配,在文本内容集合中筛选出与版面内容区域的区域位置匹配的文本内容,从而得到版面内容区域对应的文本内容。当内容类型为图像时,在待识别文档图像中识别出版面内容区域对应的图像,得到版面内容,当内容类型为非图像时,根据内容类型,确定版面内容的文本类型,并将文本内容转换为文本类型对应的版面内容。获取每一版面内容区域的区域位置信息,并根据区域位置信息,对版面内容进行排序,创建预设格式的初始文档,并基于排序信息,将版面内容写入至初始文档,得到待识别文档图像对应的目标文档,并直接展示目标文档,该目标文档为可编辑文档,或者,还可以显示文档识别结果页面,该文档识别结果页面包括目标文档的缩略信息和该目标文档的展示控件,响应于针对展示控件的触发操作,展示目标文档。当检测到针对目标文档的编辑操作时,响应针对该目标文档的编辑操作,对目标文档进行编辑,从而得到编辑后文档。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本发明实施例所提供的任一种文档识别方法中的步骤,因此,可以实现本发明实施例所提供的任一种文档识别方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
其中,根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述文档识别方面或者文档还原方面的各种可选实现方式中提供的方法。
以上对本发明实施例所提供的一种文档识别方法、装置、电子设备和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (19)

1.一种文档识别方法,其特征在于,包括:
显示文档识别页面,所述文档识别页面包括待识别文档图像和识别控件;
响应于针对所述识别控件的触发操作,在所述待识别文档图像中提取出版面结构特征和版面内容特征;
根据所述版面结构特征和版面内容特征,在所述待识别文档图像中检测出至少一个版面内容区域和所述版面内容区域的内容类型;
在所述待识别文档图像中识别出所述版面内容区域对应的文本内容,并基于所述文本内容和内容类型,确定所述版面内容区域的版面内容;
根据所述版面内容,生成所述待识别文档图像对应的目标文档,并展示所述目标文档,所述目标文档为可编辑文档。
2.根据权利要求1所述的文档识别方法,其特征在于,所述在所述待识别文档图像中提取出版面结构特征和版面内容特征,包括:
对所述待识别文档图像进行版面矫正,得到矫正后文档图像;
对所述矫正后文档图像的图像尺寸进行调整,得到调整后文档图像;
在所述调整后文档图像中提取出版面结构特征和版面内容特征。
3.根据权利要求2所述的文档识别方法,其特征在于,所述在所述调整后文档图像中提取出版面结构特征和版面内容特征,包括:
采用训练后版面检测模型对所述调整后文档图像进行图像特征提取,得到基础图像特征;
对所述基础图像特征进行多维度版面特征提取,得到每一维度的基础版面特征;
基于所述基础版面特征,对所述基础图像特征进行多维度版面特征提取,以得到所述待识别文档图像的版面结构特征和版面内容特征。
4.根据权利要求3所述的文档识别方法,其特征在于,所述基于所述基础版面特征,对所述基础图像特征进行多维度版面特征提取,以得到所述待识别文档图像的版面结构特征和版面内容特征,包括:
将所述基础版面特征与所述基础图像特征进行融合,得到融合后图像特征;
对所述融合后图像特征进行版面特征提取,得到目标维度对应的初始版面特征;
在所述初始版面特征中识别出所述待识别文档图像的版面结构特征和版面内容特征。
5.根据权利要求4所述的文档识别方法,其特征在于,所述在所述初始版面特征中识别出所述待识别文档把图像的版面结构特征和版面内容特征,包括:
对所述基础版面特征的维度信息进行排序,并根据排序信息,在所述基础版面特征中筛选出超过所述目标维度的目标基础版面特征;
将所述目标基础版面特征和所述初始版面特征进行融合,得到融合后版面特征;
在所述融合后版面特征中提取出所述待识别文档图像的版面结构特征和版面内容特征。
6.根据权利要求5所述的文档识别方法,其特征在于,所述在所述融合后版面特征中提取出所述待识别文档图像的版面结构特征和版面内容特征,包括:
将所述融合后版面特征作为所述融合后图像特征,并返回执行所述对所述融合后图像特征进行版面特征提取,得到目标维度对应的初始版面特征的步骤,直至不存在所述目标基础版面特征时为止,得到每一维度对应的版面特征;
获取每一维度对应的加权系数,并基于所述加权系数,对所述版面特征进行加权,得到加权后版面特征;
在所述加权后版面特征中识别出所述待识别文档图像的版面结构特征和版面内容特征。
7.根据权利要求3所述的文档识别方法,其特征在于,所述采用训练后版面检测模型对所述调整后文档图像进行图像特征提取,得到基础图像特征之前,还包括:
获取文档图像样本,并采用预设版面检测模型对所述文档图像样本进行版面特征提取,得到基础样本版面特征;
在所述基础样本版面特征中识别出目标样本版面特征,并基于目标样本版面特征,确定所述文档图像样本的主干损失信息;
根据所述基础样本版面特征,确定所述文档图像样本的辅助损失信息,并基于所述主干损失信息和辅助损失信息,对所述预设版面检测模型进行收敛,得到所述训练后版面检测模型。
8.根据权利要求1至7任一项所述的文档识别方法,其特征在于,所述根据所述版面结构特征和版面内容特征,在所述待识别文档图像中检测出至少一个版面内容区域和所述版面内容区域的内容类型,包括:
根据所述版面结构特征,在所述待识别文档图像中检测出至少一个版面结构区域和所述版面结构区域对应的区域类型;
根据所述区域类型,确定所述版面结构区域的版面结构类型;
基于所述版面内容特征和版面结构类型,在所述版面结构区域中识别出至少一个版面内容区域和所述版面内容区域的内容类型。
9.根据权利要求8所述的文档识别方法,其特征在于,所述基于所述版面内容特征和版面结构类型,在所述版面结构区域中识别出至少一个版面内容区域和所述版面内容区域的内容类型,包括:
当所述版面结构类型为分栏结构区域时,基于所述版面内容特征,在所述版面结构区域中识别出至少一个版面内容区域和所述版面内容区域的内容类型,所述分栏结构区域为所述待识别文档图像包含的文档中用于进行内容分栏的区域;
当所述版面结构类型为非分栏结构区域时,将所述版面结构区域作为版面内容区域,并将所述区域类型作为所述版面内容区域的内容类型。
10.根据权利要求9所述的文档识别方法,其特征在于,所述基于所述版面内容特征,在所述版面结构区域中识别出至少一个版面内容区域和所述版面内容区域的内容类型,包括:
基于所述版面内容特征,在所述版面结构区域中识别出至少一个版面内容区域和所述版面内容区域的初始内容类型;
当所述初始内容类型为公式时,获取所述公式对应的版面内容区域的公式位置信息和公式格式信息,并根据所述公式位置信息和公式格式信息,确定所述公式的公式类型,得到所述版面内容区域的内容类型;
当所述初始内容类型为非公式时,将所述初始内容类型作为所述版面内容区域的内容类型。
11.根据权利要求1至7任一项所述的文档识别方法,其特征在于,所述基于所述文本内容和内容类型,确定所述版面内容区域的版面内容,包括:
当所述内容类型为图像时,在所述待识别文档图像中识别出所述版面内容区域对应的图像,得到版面内容;
当所述内容类型为非图像时,根据所述内容类型,确定所述版面内容的文本类型,并将所述文本内容转换为所述文本类型对应的版面内容。
12.根据权利要求11所述的文档识别方法,其特征在于,所述将所述文本内容转换为所述文本类型对应的版面内容,包括:
当所述文本类型为基础文本时,获取所述版面内容区域的文本格式,并基于所述文本格式,对所述文本内容进行格式调整,得到所述版面内容;
当所述文本类型为表格文本时,将所述文本内容转换为表格内容,并将所述表格内容作为所述版面内容;
当所述文本类型为公式文本时,根据所述公式文本对应的公式类型,将所述文本内容转换为公式内容,并将所述公式内容作为所述版面内容。
13.根据权利要求12所述的文档识别方法,其特征在于,所述根据所述公式文本对应的公式类型,将所述文本内容转换为公式内容,包括:
获取所述版面内容区域的版面信息,并在所述版面信息中提取出基础公式格式;
当所述公式类型为行内公式时,将所述基础公式格式作为所述版面内容的公式格式,所述行内公式为在文本段落中的公式;
当所述公式类型为行间公式时,根据所述行间公式的类型,对所述基础公式格式进行调整,得到所述版面内容的公式格式,所述行间公式为在所述文本段落之间的公式;
将所述文本内容转换为所述公式格式对应的公式内容。
14.根据权利要求13所述的文档识别方法,其特征在于,所述根据所述行间公式的类型,对所述基础公式格式进行调整,得到所述版面内容的公式格式,包括:
根据所述行间公式的类型,确定所述行间公式的文本对齐方式;
将所述文本对齐方式添加至所述基础公式格式,得到所述版面内容的公式格式。
15.根据权利要求1至7任一项所述的文档识别方法,其特征在于,所述根据所述版面内容,生成所述待识别文档图像对应的目标文档,包括:
获取每一所述版面内容区域的区域位置信息,并根据所述区域位置信息,对所述版面内容进行排序;
创建预设格式的初始文档,并基于所述排序信息,将所述版面内容写入至所述初始文档,得到所述待识别文档图像对应的目标文档。
16.一种文档识别装置,其特征在于,包括:
显示单元,用于显示文档识别页面,所述文档识别页面包括待识别文档图像和识别控件;
提取单元,用于响应于针对所述识别控件的触发操作,在所述待识别文档图像中提取出版面结构特征和版面内容特征;
检测单元,用于根据所述版面结构特征和版面内容特征,在所述待识别文档图像中检测出至少一个版面内容区域和所述版面内容区域的内容类型;
确定单元,用于在所述待识别文档图像中识别出所述版面内容区域对应的文本内容,并基于所述文本内容和内容类型,确定所述版面内容区域的版面内容;
生成单元,用于根据所述版面内容,生成所述待识别文档图像对应的目标文档,并展示所述目标文档,所述目标文档为可编辑文档。
17.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序,以执行权利要求1至15任一项所述的文档识别方法中的步骤。
18.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至15任一项所述文档识别方法中的步骤。
19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至15任一项所述的文档识别方法中的步骤。
CN202210425659.6A 2022-04-21 2022-04-21 文档识别方法、装置、电子设备和计算机可读存储介质 Pending CN115131804A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210425659.6A CN115131804A (zh) 2022-04-21 2022-04-21 文档识别方法、装置、电子设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210425659.6A CN115131804A (zh) 2022-04-21 2022-04-21 文档识别方法、装置、电子设备和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN115131804A true CN115131804A (zh) 2022-09-30

Family

ID=83376834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210425659.6A Pending CN115131804A (zh) 2022-04-21 2022-04-21 文档识别方法、装置、电子设备和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN115131804A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306575A (zh) * 2023-05-10 2023-06-23 杭州恒生聚源信息技术有限公司 文档解析方法、文档解析模型训练方法、装置和电子设备
CN116704523A (zh) * 2023-08-07 2023-09-05 山东成信彩印有限公司 一种用于出版印刷设备的文字排版图像识别系统
CN117473980A (zh) * 2023-11-10 2024-01-30 中国医学科学院医学信息研究所 一种便携式文档格式文件的结构化解析方法及相关产品

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306575A (zh) * 2023-05-10 2023-06-23 杭州恒生聚源信息技术有限公司 文档解析方法、文档解析模型训练方法、装置和电子设备
CN116306575B (zh) * 2023-05-10 2023-08-29 杭州恒生聚源信息技术有限公司 文档解析方法、文档解析模型训练方法、装置和电子设备
CN116704523A (zh) * 2023-08-07 2023-09-05 山东成信彩印有限公司 一种用于出版印刷设备的文字排版图像识别系统
CN116704523B (zh) * 2023-08-07 2023-10-20 山东成信彩印有限公司 一种用于出版印刷设备的文字排版图像识别系统
CN117473980A (zh) * 2023-11-10 2024-01-30 中国医学科学院医学信息研究所 一种便携式文档格式文件的结构化解析方法及相关产品

Similar Documents

Publication Publication Date Title
Zhang et al. A gated peripheral-foveal convolutional neural network for unified image aesthetic prediction
CN115131804A (zh) 文档识别方法、装置、电子设备和计算机可读存储介质
CN111382717A (zh) 一种表格识别方法、装置和计算机可读存储介质
CN110781347A (zh) 一种视频处理方法、装置、设备以及可读存储介质
CN103577818B (zh) 一种图像文字识别的方法和装置
CN111950424B (zh) 一种视频数据处理方法、装置、计算机及可读存储介质
CN111476067A (zh) 图像的文字识别方法、装置、电子设备及可读存储介质
EP2164009A2 (en) Architecture for mixed media reality retrieval of locations and registration of images
US20070195344A1 (en) System, apparatus, method, program and recording medium for processing image
JP2007513413A (ja) 強調画像を選択するための内容認識
CN111738280A (zh) 一种图像识别方法、装置、设备及可读存储介质
WO2021042505A1 (zh) 基于文字识别技术的笔记生成方法、装置和计算机设备
US20230027412A1 (en) Method and apparatus for recognizing subtitle region, device, and storage medium
CN113378710A (zh) 图像文件的版面分析方法、装置、计算机设备和存储介质
CN111723784A (zh) 一种风险视频识别方法、装置和电子设备
CN112749606A (zh) 一种文本定位方法和装置
CN112084812A (zh) 图像处理方法、装置、计算机设备及存储介质
CN112699758A (zh) 基于动态手势识别的手语翻译方法、装置、计算机设备及存储介质
CN109726369A (zh) 一种基于标准文献的智能模板化题录技术实现方法
CN113628181A (zh) 图像处理方法、装置、电子设备及存储介质
CN112052352A (zh) 视频排序方法、装置、服务器及存储介质
US20220414393A1 (en) Methods and Systems for Generating Composite Image Descriptors
CN115565178A (zh) 一种字体识别的方法及装置
CN113065619A (zh) 数据处理方法、装置、计算机可读存储介质及设备
JP2021033743A (ja) 情報処理装置、文書識別方法、及び情報処理システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination