CN115131803A - 文档字号的识别方法、装置、计算机设备和存储介质 - Google Patents
文档字号的识别方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN115131803A CN115131803A CN202210416911.7A CN202210416911A CN115131803A CN 115131803 A CN115131803 A CN 115131803A CN 202210416911 A CN202210416911 A CN 202210416911A CN 115131803 A CN115131803 A CN 115131803A
- Authority
- CN
- China
- Prior art keywords
- text
- document
- processed
- line
- block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本申请涉及一种文档字号的识别方法、装置、计算机设备、存储介质和计算机程序产品,结合人工智能技术进行计算机视觉识别和处理,可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。所述方法包括:获取待处理的文档图片,检测文档图片中各文本行的初始行高度;根据文档图片的文档版面信息确定至少一个待处理的文本块;根据初始行高度确定行高度统计信息,并基于行高度统计信息确定与相应待处理的文本块对应的目标行高度;基于预先设置的字号映射规则、以及各待处理的文本块分别对应的目标行高度,得到文档图片中各文本块分别对应的目标字号。采用本方法能够解决出现原本相同字号的标题或段落识别到的字号大小不一的问题。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种文档字号的识别方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
文字识别是计算机视觉研究领域的分支之一,归属于模式识别和人工智能,是计算机科学的重要组成部分。计算机文字识别(Optical Character Recognition,OCR)是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。
现有技术方案主要通过OCR技术进行文本行检测,并基于OCR的识别结果直接得到文本行的字号。这种方式对于文本行检测精度的依赖较高,文本行字号的识别效果具有比较大的波动性,识别出的字号准确性较低,导致文档还原时出现原本文档字号相同但是还原出的文档字号不同的情况,进而影响文档还原的准确性。
发明内容
基于此,有必要针对上述技术问题,提供一种文档字号的识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
一方面,本申请提供了一种文档字号的识别方法。所述方法包括:
获取待处理的文档图片,检测所述文档图片中各文本行的初始行高度;
识别所述文档图片的文档版面信息,并根据所述文档版面信息确定至少一个待处理的文本块,每个待处理的文本块中包括有至少一个相连续的文本行;
对于任一待处理的文本块,根据相应待处理的文本块所包括的文本行的初始行高度,确定行高度统计信息,并基于所述行高度统计信息确定与相应待处理的文本块对应的目标行高度;
基于预先设置的字号映射规则、以及各待处理的文本块分别对应的目标行高度,得到所述文档图片中各文本块分别对应的目标字号。
另一方面,本申请还提供了一种文档字号的识别装置。所述装置包括:
获取模块,用于获取待处理的文档图片,检测所述文档图片中各文本行的初始行高度;
处理模块,用于识别所述文档图片的文档版面信息,并根据所述文档版面信息确定至少一个待处理的文本块,每个待处理的文本块中包括有至少一个相连续的文本行;
所述处理模块,还用于对于任一待处理的文本块,根据相应待处理的文本块所包括的文本行的初始行高度,确定行高度统计信息,基于所述行高度统计信息确定与相应待处理的文本块对应的目标行高度;
输出模块,用于基于预先设置的字号映射规则、以及各待处理的文本块分别对应的目标行高度,得到所述文档图片中各文本块分别对应的目标字号。
另一方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述文档字号的识别方法的步骤。
另一方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述文档字号的识别方法的步骤。
另一方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述文档字号的识别方法的步骤。
上述文档字号的识别方法、装置、计算机设备、存储介质和计算机程序产品,通过对文档图片进行检测与识别,得到文档图片中的文本行和文档版面信息,根据文档版面信息对各个文本行进行分组,从而确定待处理的文本块,由此可以并行处理各分组以提高效率,并方便后续的统计分析;基于文本行的初始行高度确定行高度统计信息,再基于行高度统计信息计算得到目标行高度,使得文本块中各个文本行的高度统一,由此,在基于预先设置的字号映射规则得到目标字号时,所得到的各个文本行的字号也相应统一,由此能够解决出现原本相同字号的标题或段落识别到的字号大小不一的问题,文档还原的准确性更高。
附图说明
图1为一个实施例中文档字号的识别方法的应用环境图;
图2为一个实施例中文档字号的识别方法的流程示意图;
图3为一个实施例中文本行的示意图;
图4为一个实施例中检测框的示意图;
图5为一个实施例中文档图片包括的文本块的示意图;
图6为一个实施例中计算行高度统计信息的示意图;
图7为一个实施例中文档字号的识别方法的架构示意图;
图8为一个实施例中文档字号的识别方法的处理步骤的流程示意图;
图9为一个实施例中对文本块的字号进行标记的示意图;
图10为一个实施例中文档字号的识别装置的结构框图;
图11为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在文档还原和文档重建等领域,通常需要将非可编辑格式的文档转换成可编辑格式的文档。非可编辑格式例如为PDF(Portable Document Format,可携带文档格式)、图片格式等。图片格式例如包括JPG/JPEG(Joint Photographic Experts Group,联合图像专家组)、PNG(Portable Network Graphics,便携式网络图形)、以及TIF(Tag Image FileFormat,标签图像文件格式)等。
对于PDF文档,现有方式中通常是将PDF文档按页逐一转换成文档图片,再通过OCR技术识别文档图片中的文字,按照识别到的文字的字号等信息在新建的可编辑格式的空文档中输入相应的文字,并根据所识别到的文字的位置进行排版。对于图片格式的文档也是类似的处理方式。对于字号的识别,现有方式中基于OCR识别技术识别文字高度,并根据字号映射规则直接得到各个文本行的字号。通过这种方式得到的可编辑文档的可读性和易读性严重依赖于OCR识别的精度,而由于原文档中文字内容及形式的多样化,对于字号的识别效果具有较大的波动性,往往出现原文档中文字的字号相同、但还原或重建得到的可编辑文档中字号大小不一的情况,导致文档还原的准确性降低,并且严重影响了还原后的文档的可读性和美观性。
有鉴于此,本申请实施例提供一种结合人工智能技术的文档字号的识别方法,通过对文档图片进行检测识别文本行,并基于文档版面信息基于文档版面信息对各个文本行进行重组,得到待处理的文本块,并按照不同的处理策略对不同的文本块进行处理,根据文本块的行高度统计信息计算文本块中文本行的目标行高度,再基于字号映射规则进行字号映射和优化修正,由此得到各个文本块在实际文档中的字号。由此,通过上述方式对原本可能不统一的、存在波动的文本行的高度信息进行规整,可以更贴切地还原出原始文档图片的样貌和风格,优化整体的文档字号还原效果,同时文档还原的准确性高,所还原的文档具有较强的可读性和美观性。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟进和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition,光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
其中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、以及式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、以及智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
下面阐述本申请实施例提供的涉及人工智能的文档字号的识别方法的技术方案。
本申请实施例提供的文档字号的识别方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他服务器上。
在一些实施例中,终端102或服务器104可以单独执行上述文档字号的识别方法。例如,终端102或服务器104获取待处理的文档图片,检测其中包含的文本行及文本行的初始行高度,并通过识别文档图片的文档版面信息,提取其中的文本块并确定待处理的文本块,再根据对该文本块计算得到的行高度统计信息得到该文本块对应的目标行高度,最后基于预先设置的字号映射规则映射得到该文本块分别对应的目标字号。由此,即可根据该目标字号在文档还原的过程中保证字号的统一性。
在一些实施例中,终端102和服务器104也可以协同执行上述文档字号的识别方法。例如,可以由终端102将待处理的文档图片传输至服务器104,由服务器104进行相应处理并返回目标字号,以供终端102进行文档还原;或者,由服务器102基于所得到的目标字号进行文档还原,并将还原后的文档发送至终端102等。
示例性地,终端102上可装载有APP(Application)应用程序或具备文档还原功能的应用程序,包括传统需要单独安装的应用程序、以及不需要下载安装即可使用的小程序应用。终端可以通过应用程序执行文档还原处理等。
其中,终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、智能语音交互设备、智能家电、车载终端、飞行器、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。
其中,服务器104可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
本申请实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、以及辅助驾驶等。
在一些实施例中,如图2所示,提供了一种文档字号的识别方法,该方法可以由终端或服务器执行,也可以由终端和服务器协同执行。下面以该方法应用于计算机设备(该计算机设备具体可以是图1中的终端或服务器)为例进行说明,包括以下步骤:
步骤S202,获取待处理的文档图片,检测文档图片中各文本行的初始行高度。
其中,文档图片为图片格式的文档,例如可以为PDF文档转化得到的文档图片等。文档图片可以是计算机设备在互联网中获取的,也可以是其接收来自其他计算机设备的传输而得到的。在一些实施例中,计算机设备可以通过对电子版本的文档进行拍照、截图、或格式转换等操作,或者,通过对印刷版本的文档进行影印或扫描等操作,获取该文档的文档图片。
其中,文本行指的是文档中以一定规则排列的文字组合的最小单元。一个标题、一行或一列文字、一个页眉或页脚均可以是一个文字组合。例如图3中的(a)所示,对于文档中的整段文字而言,每一行文字即为一行文本行。当然并非局限于文字以横排的形式排列,例如图3中的(b)所示,在一些文档中文字以竖排的形式排列,则每一列文字也可以被认为是一行文本行。
具体地,计算机设备获取文档图片后,对该文档图片进行文本检测,并将检测到的文本行通过检测框进行标记,文本行的初始行高度即为检测框的高度。其中,检测框为包围文本行的封闭形状,该封闭形状可以为规则形状或不规则形状,通常为矩形。在一些情况下,文本行中的各个文字以相同的大小、间隔、以及格式等整齐地排列,如图4中(a)所示,该文本行的初始高度即为检测框的高度H。在另一些情况下,如图4中(b)所示,文本行中的各个文字之间的排布经过旋转、扭曲、或翻转等变形,则该文本行的检测框为文本行的外切矩形,该文本行的初始高度为检测框的高度H。
在一些实施例中,计算机设备可以通过神经网络模型来对文档图片进行检测,从而获取文档图片中的文本行。示例性地,计算机设备可以利用EAST(An Efficient andAccurate Scene Text Detector,高效精准场景文本检测)模型来检测文档图片中的文本行,提取文本行的检测框并获取检测框的高度。具体地,计算机设备通过EAST模型中的全卷积网络(Fully Convolutional Networks,FCN)直接预测文本行并生成检测框(可以是旋转的矩形或者不规则四边形),再对生成的检测框进行非极大值抑制(Non-MaximumSuppression,NMS),从而产生最终结果。
当然并不局限于上述模型,容易理解的是,任何可以识别文本行并获取检测框的算法或模型均可以用于本申请实施例,例如,神经网络模型还可以是FTSN(Fused TextSegmentation Networks,融合文本分割网络)模型、RRPN(Rotation Region ProposalNetworks,旋转区域候选网络)模型、DMPNet(Deep Matching Prior Network,深度匹配先验网络)模型、CTPN(Connectionist Text Proposal Network,连接文本提议网络)模型等中的一种或多种。以CTPN模型为例,具体地,计算机设备通过CTPN模型首先提取各文字的局部图像特征,并提取文字序列的上下文特征,然后通过全连接层输出各个文字的坐标值和分类结果概率值,然后在数据后处理阶段将相邻的文字合并为文本行。
步骤S204,识别文档图片的文档版面信息,并根据文档版面信息确定至少一个待处理的文本块,每个待处理的文本块中包括有至少一个相连续的文本行。
其中,文档版面信息是对文档中可见内容的属性描述,该属性描述表征了文档中包括的文本块、以及文本块的版块类别。示例性地,文档常见的属性包括但不限于正文标题、正文段落、图表标题、页眉、页脚、图片、公式、表格、以及无意义文本等中的一种或多种。相应地,文档的版块类别包括但不限于标题版块类别、段落版块类别、页边版块类别、图片版块类别、公式版块类别、以及表格版块类别等中的一种或多种。其中,标题板块类别还包括正文标题板块类别和图标标题板块类别等中的一种或多种。
举例而言,如图5所示,一个标题构成一个文本块,例如文本块501、文本块502、文本块503、以及文本块504,这些文本块属于标题版块类别。在一些实施例中,类别相同且连续的文本行可以合并成一个文本块,例如文本块511中由4行文本行构成。对于文本块511、文本块512、文本块513、文本块514和文本块515,每个文本块中包含多个相连续的文本行,这些文本块属于段落版块类别。一个页眉或页脚构成一个文本块,例如文本块521,该文本块属于页边版块类别。
需要说明的是,当文本行之间不连续或者存在间断,则应划分为不同的文本块;换言之,下一段落的文本行构成另一个文本块,例如,文本块511与文本块512虽均属于段落版块类别,但文本行之间不连续,因此为两个不同的文本块;类似地,文本块514和文本块515也是两个不同的文本块。
具体地,计算机设备通过对文档图片进行版面分析,得到文档图片的文档版面信息。根据所识别得到的文档版面信息,计算机设备确定文档图片中包括的一或多个文本块,并从该一或多个文本块中,选择至少一个文本块作为后续待处理的文本块。示例性地,计算机设备基于文档版面信息,从所识别到的多个文本块中,选择属于标题版块类别和段落版块类别的文本块作为待处理的文本块,并进行后续的处理。
在一些实施例中,计算机设备可以通过神经网络模型来对文档图片进行识别,从而获取文档图片的文档版面信息。示例性地,计算机设备可以利用Scaled YOLOV4(实时目标检测)模型来检测文档图片中的文档版面信息。具体地,计算机设备通过将文档图片输入至Scaled YOLOV4模型,由该模型首先将图片划分网格,并基于网格的位置信息生成检测框,每个网格预测属于各类别的概率分数,由此得到文档图片的文档版面信息。
当然并不局限于上述模型,容易理解的是,任何可以识别文本行并获取检测框的算法或模型均可以用于本申请实施例,例如,神经网络模型还可以是YOLO系列的神经网络模型(包括YOLOv1~YOLOv6等)、RCNN(Region with CNN features,区域卷积神经网络)等中的一种或多种。
步骤S206,对于任一待处理的文本块,根据相应待处理的文本块所包括的文本行的初始行高度,确定行高度统计信息,并基于行高度统计信息确定与相应待处理的文本块对应的目标行高度。
出于各种因素的影响,例如文档图片不清晰或者存在扭曲、变形等缺陷,或者受限于检测精度,各个文本行的初始行高度可能不尽相同。具体地,根据各个文本行的初始行高度,计算机设备通过各种计算即可得到行高度统计信息,根据行高度统计信息,计算机再确定文本块对应的目标行高度。其中,行高度统计信息指的是基于文本行的初始行高度进行计算得到的统计信息,包括但不限于和、均值、极值(包括极大值和极小值)、标准差、方差、众数、中位数、以及中程数等中的一种或多种。文本块对应的目标行高度,即文本块中各个文本行的目标行高度。
在一些实施例中,计算机设备根据各个文本行的初始行高度,计算得到一个文本块中文本行的行高度均值,并将文本块中各文本行的行高度统一为该行高度均值,得到文本块对应的目标行高度。
示例性地,如图6所示,对于一个待处理的文本块60,该文本块60中包含文本行601~605,每个文本行的初始行高度为检测框的高度,即,文本行601的初始行高度为H1,文本行602的初始行高度为H2,文本行603的初始行高度为H3,文本行604的初始行高度为H4,文本行605的初始行高度为H5。计算机设备可通过计算各个文本行的行高度均值并将该行高度均值作为该文本块对应的目标行高度。
在另一些实施例中,计算机设备根据各个文本行的初始行高度,计算得到一个文本块中文本行的行高度均值,并统计各文本块的高度变化极值。根据行高度均值与高度变化极值之间的差异,计算机设备确定文本块对应的目标行高度。
其中,高度变化极值基于文本块内初始行高度的最大值和最小值得到。示例性地,高度变化极值基于文本块内初始行高度的最大值与最小值的差异,并基于该差异与预设的默认值之间的最大值得到,高度变化极值hr可如下公式所示:
其中,h为文本行的初始行高度,h0是预设的默认值,默认为2。
对于文本块中仅有一个文本行的情况,该文本块的高度变化极值即为该预设的默认值2。
在另一些实施例中,计算机设备还取一个统计值作为参照,并据此统一文本块内文本行的高度。示例性地,计算机设备统计各个文本块的行高度均值的众数,并将该众数作为参照行高度;对于一文本块,计算机设备根据其行高度均值与参照行高度之间的差异,根据差异确定文本块对应的目标行高度。
应当理解,上述实施例仅为举例说明,并非限制本申请的范围,在不违背本申请的发明构思的前提下对上述示例进行任何适应性地修改或变形,均应当在本申请的保护范围之内。例如,作为参照的参照行高度还可以是各个文本块的行高度均值的中位数,或者一个预先设定的固定值等。
步骤S208,基于预先设置的字号映射规则、以及各待处理的文本块分别对应的目标行高度,得到文档图片中各文本块分别对应的目标字号。
其中,字号映射规则用于建立文本行的高度与字号之间的映射关系。字号映射规则可以是人为设定的,也可以是通过机器学习训练得到的。示例性地,文本行的高度小于8的映射为字号5.5,文本行的高度大于等于8小于等于9的映射为字号6.5,文本行的高度大于9小于等于11的映射为字号7.5,文本行的高度大于11小于等于13的映射为字号9,文本行的高度大于13小于等于15的映射为字号10.5,文本行的高度大于15小于等于17的映射为字号12,文本行的高度大于17小于等于19的映射为字号14,文本行的高度大于19小于21的映射为字号15,文本行的高度大于等于21小于23的映射为字号16,文本行的高度大于等于23小于等于26的映射为字号18,文本行的高度大于26小于31的映射为字号22,文本行的高度大于等于31小于等于33的映射为字号24,文本行的高度大于33小于40的映射为字号26,文本行的高度大于等于40小于等于50的映射为字号36,文本行的高度大于50的映射为字号42。
具体地,计算机设备通过上述步骤得到各个待处理的文本块对应的目标行高度后,基于预先设置的字号映射规则,确定目标行高度与相应的字号之间的映射关系,从而确定文本块分别对应的字号。在一些实施例中,计算机设备可以将基于字号映射规则映射到的字号作为文本块对应的目标字号;在另一些实施例中,计算机设备还可以对映射到的字号进行进一步地修正和美化,并将修正后的字号作为文本块对应的目标字号。
上述文档字号的识别方法中,通过对文档图片进行检测与识别,得到文档图片中的文本行和文档版面信息,根据文档版面信息对各个文本行进行分组,从而确定待处理的文本块,由此可以并行处理各分组以提高效率,并方便后续的统计分析;基于文本行的初始行高度确定行高度统计信息,再基于行高度统计信息计算得到目标行高度,使得文本块中各个文本行的高度统一,由此,在基于预先设置的字号映射规则得到目标字号时,所得到的各个文本行的字号也相应统一,由此能够解决出现原本相同字号的标题或段落识别到的字号大小不一的问题,文档还原的准确性更高。上述方法具备较高的识别精度,并且具有较高的处理效率。
为了便于理解本申请的发明构思,下面以一个简要的框架图进行说明。如图7所示,本申请实施例提供的文档字号的识别方法可以由一个整体的系统来实现,即,将整张文档图片作为系统的输入,分别经过文本行检测模块和文档版面分析模块,并将文本行检测模块输出的结果与文档版面模块输出的结果,一并输入至文本字号识别处理模块中,通过该文本字号识别处理模块处理得到文本块的字号,并输出最终的文本块字号。文本字号识别处理模块的处理步骤即为上述步骤S206~S208的内容。具体的步骤和流程可参照前述实施例的内容,此处不再赘述。由此,可以对原本可能不统一的存在波动的文本行高度信息进行规整,优化整体的文档字号还原效果,进而能够在文档还原时,更贴切地还原出原始的文档图片的样式。
承前所述,检测文本行的步骤可以通过神经网络模型来实现。为此,在一些实施例中,检测文档图片中各文本行的初始行高度,包括:对文档图片进行特征提取,得到多张不同尺度的特征图;对多张不同尺度的特征图进行特征融合,得到融合特征图;基于融合特征图进行文本行检测处理,得到包括有包围文本行的目标检测框,并将目标检测框的高度作为文本行的初始行高度。
具体地,计算机设备利用神经网络对文档图片进行特征提取,得到多张不同尺度的特征图,再对这些不同尺度的特征图进行特征融合,得到融合特征图;基于融合特征图进行文本行检测处理,例如在融合特征图的基础上进行预测,从而生成一或多个检测框。示例性地,计算机设备可以利用例如全卷积神经网络进行特征提取、特征融合、以及检测框预测的步骤。在此过程中,计算机设备也可以通过连续多次上采样对不同尺度的特征图进行特征融合等。
然后,计算机设备可以通过非极大值抑制等方式对所生成的检测框进行筛选,由此得到包括有包围文本行的目标检测框。计算机设备即可将该目标检测框的高度作为文本行的初始行高度。
上述实施例中,通过对文档图片进行特征提取和特征融合,并进行文本行检测处理,由此生成文档图片中每个文本行的检测框,能够精准地识别出各个文本行并获得各个文本行的初始行高度。
类似地,计算机设备对文档图片进行版面分析,从而识别文档图片的文档版面信息的步骤,也可以通过神经网络模型来实现。为此,在一些实施例中,识别文档图片的文档版面信息,并根据文档版面信息确定至少一个待处理的文本块,包括:基于文档图片进行文档版面识别处理,得到文档图片中包括的多个文本块,以及每个文本块各自对应的版块类别;获取目标版块类别,目标版块类别至少包括标题版块类别和段落版块类别中的一种;将与目标版块类别对应的文本块,作为待处理的文本块。
具体地,计算机设备通过对文档图片进行文档版面识别处理,该文档版面识别处理可以是常用的版面分析方式,例如通过目标检测算法进行版面分析等。通过对文档图片进行版面分析,计算机设备识别出文档图片中包含的版面信息(例如标题、正文、表格等),并基于版面信息确定文档图片中包括的多个文本块,且每个文本块分别属于各自的版块类别。例如,确定为标题的一或多个文本行构成一个文本块,该文本块属于标题板块类别。在一些情况下,计算机设备无需对文档图片中的所有文本块进行字号的转换,可以对文档中的重点内容进行转换;在另一些情况下,计算机设备对文档中篇幅占比较大的内容,计算行高度统计信息并进行字号的转换,对于其他篇幅占比较少的内容(例如页眉、页脚等)则直接设置为预设的字号。由于文档中大部分内容均为标题或段落,在本实施例中,计算机设备从各个板块类别的文本块中,将属于标题版块类别和段落版块类别的文本块作为目标版块类别,并将属于该目标板块类别的一或多个文本块,作为待处理的文本块,并对这些待处理的文本块执行后续S206的步骤。对于其他文本块(相对于待处理的文本块而言,可以被称为未处理的文本块),计算机设备可以不作任何处理,也可以直接为这些文本块设置预设的字号。由此,通过对文档图片进行版面分析,得到文档图片中属于不同版块类别的文本块,便于后续将属于相同文本块的文本行归组,便于后续统一进行分析和处理,提高了处理效率。
示例性地,对于其他未处理的文本块,计算机设备可以不作任何处理,以保持文档图片中原有的样式,也可以按照该未处理的文本块的初始行高度确定目标字号。为此,为此,在一些实施例中,上述方法还包括:基于预先设置的字号映射规则,对文档图片中未处理的文本块分别对应的初始行高度进行转换,得到未处理的各文本块分别对应的目标字号。具体地,计算机设备通过对文档图片进行文本行检测得到多个文本块,并从该多个文本块中确定未处理的文本块。对于该未处理的文本块,计算机设备根据预先设置的字号映射规则,查找与其初始行高度相对应的字号,并将该字号作为未处理的各文本块分别对应的目标字号。由此,对于特定版块类别的文本块无需进行确定行高度统计信息并据此确定目标行高度,简化了处理流程并提高了处理效率。
示例性地,对于其他未处理的文本块,计算机设备亦可以按照预设的固定值直接设置该文本块的文本字号。为此,在一些实施例中,上述方法还包括:将对应于页边版块类别的预设文本字号,作为页边版块类别所对应的文本块对应的文本字号。具体地,对于页边版块类别的文本块,计算机设备直接将预设的文本字号作为该文本块的文本字号,无需进行后续确定行高度统计信息并据此确定目标行高度的步骤,由此提高了文档还原的处理效率,并且对于页边版块类别的文本块的文本字号进行统一处理,所得到的大小统一,进而还原的文档更加美观。
为了提高文档处理的效率,计算机设备还可以对各个文本行进行归组,并对每个分组并行处理,从而缩短对文档图片的处理时长。相应地,在一些实施例中,上述方法还包括:基于文档图片的文档版面信息,建立以待处理的文本块为索引的数据存储结构,数据存储结构中包括有多个分组,每个分组对应一个待处理的文本块;将属于同一待处理的文本块的文本行,均存储至数据存储结构中相应待处理的文本块对应的分组中;各个分组用于并行对各自所存储的文本行进行行高度的调整,得到相应文本块所对应的目标行高度。
具体地,计算机设备基于文档图片的文档版面信息,对于各个待处理的文本块,建立数据存储结构。数据存储结构例如可以建立在缓存中。在该数据存储结构中,计算机设备为每一个文本块分别建立一个分组,并以文本块为分组的索引(或主键),并将属于同一文本块的一或多个文本行,存储至与该文本块对应的分组中。例如,对于标题A,计算机设备将文本块A对应的文本行a1,存储至分组A中;对于文本段落B构成的文本块B,计算机设备将文本块B中的文本行b1、b2存储至分组B中,等等。
在对各个文本行进行归组之后,计算机设备即可并行处理每个分组,例如通过运行多个线程同时对各个分组中所存储的文本行进行行高度的调整,从而得到各个文本块所对应的目标行高度。
上述实施例中,通过建立分组形式的数据存储结构,对于各个分组并行处理,一方面便于后续的统计和分析,另一方面提高了对文档图片的处理效率。
承前所述,通过行高度统计信息确定目标行高度具有多种实现方式。在一些实施例中,根据相应待处理的文本块所包括的文本行的初始行高度,确定行高度统计信息,并基于行高度统计信息确定与相应待处理的文本块对应的目标行高度,包括:根据相应待处理的文本块所包括的文本行的初始行高度,计算相应待处理的文本块中文本行的行高度均值;基于相应待处理的文本块中文本行的行高度均值,确定相应待处理的文本块对应的目标行高度。
具体地,对于一待处理的文本块,计算机设备根据该文本块中所包括的一或多个文本行,统计该文本块包括的文本行数,并基于该一或多个文本行各自的初始行高度,计算该文本块中文本行的行高度均值。即,基于该一或多个文本行各自的初始行高度的和与文本行数的比值,得到行高度均值。基于所得到的行高度均值,计算机设备即可根据该行高度均值进行进一步地计算,从而确定相应待处理的文本块对应的目标行高度。示例性地,计算机设备可以将计算得到的行高度均值,作为该文本块对应的目标行高度。
上述实施例中,通过行高度统计信息对文本块内文本行的高度进行统一,有效地避免了原始的文档图片识别过程中可能存在的字号波动,使得属于同一文本块的文本行的高度统一,相应还原得到的字号大小也统一,优化了整体的文档字号还原效果和准确性,提高了还原文档的可读性和美观性。
在此基础上,在一些实施例中,基于相应待处理的文本块中文本行的行高度均值,确定相应待处理的文本块对应的目标行高度,包括:根据相应待处理的文本块所包括的文本行的初始行高度,确定相应待处理的文本块所对应的高度变化极值;基于各个待处理的文本块对应的行高度均值确定参照行高度;确定参照行高度与相应待处理的文本块的行高度均值的差异,根据差异与高度变化极值,确定相应待处理的文本块的目标行高度。
具体地,对于一待处理的文本块,计算机设备可以根据上述实施例中的步骤计算得到该文本块中文本行的行高度均值。同时,对于该文本块,计算机设备根据其中每个文本行的初始行高度,统计得到文本块中文本行的初始行高度的最大值和最小值,并基于该最大值和最小值计算得到该文本块对应的高度变化极值。示例性地,高度变化极值hr可如下公式所示:
计算机设备根据全部待处理的文本块的行高度均值,从中确定参照行高度,并以该参照行高度和高度变化极值作为参照,来对文本块对应的行高度进行调整。
具体地,计算机设备在全部待处理的文本块的行高度均值中,将行高度均值的众数作为参照行高度,对于一个待处理的文本块,计算机设备比较该文本块的行高度均值与该参照行高度之间的差异,再基于该差异与高度变化极值确定相应该文本块的目标行高度。在一些实施例中,根据差异与高度变化极值,确定相应待处理的文本块的目标行高度,包括:在差异小于高度变化极值的情况下,将参照行高度作为相应待处理的文本块对应的目标行高度;在差异大于或等于高度变化极值的情况下,将相应待处理的文本块的行高度均值作为相应文本块对应的目标行高度。
具体地,对于一个待处理的文本块,计算机设备计算该文本块的行高度均值与参照行高度之间的差值,并比较该差值与高度变化极值的数值大小关系。在该文本块的行高度均值与参照行高度之间的差值小于高度变化极值的情况下,计算机设备将参照行高度作为该文本块对应的目标行高度;反之,在该文本块的行高度均值与参照行高度之间的差值大于或等于高度变化极值的情况下,计算机设备将相应待处理的文本块的行高度均值作为相应文本块对应的目标行高度。由此,通过高度变化极值衡量各个文本行的高度变化的波动范围,并以该波动范围结合参照行高度作为参照,综合确定文本块对应的目标行高度,使得各个文本行的高度调整更加准确,进而提高字号还原的准确性。
上述实施例中,通过行高度统计信息对文本块内文本行的高度进行统一,有效地避免了原始的文档图片识别过程中可能存在的字号波动,使得属于同一文本块的文本行的高度统一,相应还原得到的字号大小也统一,优化了整体的文档字号还原效果和准确性,提高了还原文档的可读性和美观性。
为了进一步提高字号还原的准确性,上述方法还包括:基于预先设置的字号映射规则,确定参照行高度所映射得到的字号参照值,参照行高度基于所有待处理的文本块各自对应的行高度统计信息确定得到;确定字号参照值与预设基础字号之间的差异,并根据差异对各文本块分别对应的目标字号进行修正,得到各文本块分别对应的文本字号。
具体地,计算机设备基于预先设置的字号映射规则,查找得到所确定的参照行高度所映射的字号,从而确定该参照行高度对应的字号参照值。计算机设备根据该字号参照值与预设基础字号之间的差异,对所有文本块对应的目标字号进行修正,从而得到修正后的目标字号。在一些实施例中,计算机设备根据字号参照值与预设基础字号之间的差异,确定字号参照值与预设基础字号相差的字号等级,并根据该相差的字号等级,对所有文本块对应的目标字号进行修正。
以中文文档版面为例,通常中文文字的预设基础字号为12,假设参照行高度映射得到的字号参照值为10,该字号参照值与预设基础字号之间相差2个字号等级,则计算机设备将所有文本块对应的目标字号均相应调大2个字号等级,从而得到各文本块分别对应的文本字号。又如,以英文文档版面为例,通常英文文字的预设基础字号为10,假设参照行高度映射得到的字号参照值为13,该字号参照值与预设基础字号之间相差3个字号等级,则计算机设备将所有文本块对应的目标字号均调小3个字号等级。
上述实施例中,通过以通常使用的文档版面的字号作为参照,对目标字号进行进一步地修正得到文本字号,使得文档在还原时更加贴近和符合文档规范,不仅字号还原更加准确,所得到的文档也更加美观,可读性强。
在一个典型的应用场景中,计算机设备在得到文本块对应的目标字号后,可以进行文档还原、重建等处理,例如对文档图片进行还原得到可编辑格式的文档等。通过上述方法所还原得到的文档中各个文本行的字号大小统一,具有较强的可读性和美观性。
为此,在一些实施例中,上述方法还包括:基于文档图片中的各文本块分别对应的文本字号,将各文本块中所包括的文本行按照相应的文本字号进行转换,得到与文档图片对应的、且属于文本格式的目标文档。
具体地,计算机设备根据上述处理得到文档图片中的各文本块分别对应的目标字号,并根据预设的文档版面及预设基础字号,对该目标字号进行进一步地修正,得到符合文档版面美观性和规范的文本字号。计算机设备根据文本字号的信息,并利用诸如OCR识别等方式对文档图片进行转换,以得到属于文本格式的目标文档,该目标文档中的文字的字号为处理得到的文本字号。文本格式例如为doc(document,文档)格式等。
上述实施例中,通过行高度统计信息对文本块内文本行的高度进行统一,在文档还原时,有效地避免了原始的文档图片识别过程中可能存在的字号波动,使得属于同一文本块的文本行的高度统一,相应还原得到的字号大小也统一,优化了整体的文档字号还原效果和准确性,提高了还原文档的可读性和美观性。
本申请还提供一种应用场景,该应用场景应用上述的文档字号的识别方法。具体地,该文档字号的识别方法在该应用场景的应用例如如下所述:在通过合法或经授权的各种方式(例如下载、拍照、截图等)获取文档图片后,计算机设备通过其运行的网站或应用程序执行上述文档字号的识别方法,获取文档图片中文本块的字号,并进行文档还原等处理,将文档图片转换为可编辑文本格式的文档,例如word文档等。当然并不局限于此,本申请提供的文档字号的识别方法还可以应用在其他应用场景中,例如电子书转换、地图展示等等。
为了便于更好地理解本申请,下面以一个具体的示例进行举例说明。如图8所示,以对标题版块类别和段落版块类别进行处理为例,首先通过检测得到各个文本行及相应的初始行高度,并识别得到文档图片的文档版面信息。根据检测得到的文本行和文档版面信息,计算机设备遍历文档图片中的每一个文本行,判断其是否属于待处理的版块类别(即标题和段落)。若是,则进入后面的步骤,否则继续遍历下一个文本行。为了提高处理效率,计算机设备在遍历文本行时,基于文档版面信息,新增数据存储结构,将同一段落或标题的文本行的信息存放到同一分组,方便后续统计分析。
对于每一个分组,计算机设备统计该组的文本行数和行高度均值,并统计行数大于1的组的高度变化极值hr,同时统计各个分组的行高度均值的众数作为参照行高度。在获取这些行高度统计信息后,计算机设备计算每个分组的行高度均值与参照行高度的差值,若行高度均值与参照行高度的差值小于高度变化极值hr,则将该分组的高度统一为该参照行高度,即目标行高度。若行高度均值与参照行高度的差值小于高度变化极值hr,则保持该分组的高度不变。为了保证同一级图表标题的字号相同,对于图表标题的文本块,将其内文本行的高度统一为行高度均值。
在得到全部分组的目标行高度后,计算机设备按照字号映射规则对目标行高度进行映射得到目标字号。例如,将目标行高度大于11小于等于13的映射为字号9,将目标行高度大于13小于等于15的映射为字号10.5等等。
在此基础上,为了进一步提高可读性并优化文档可视化效果,计算机设备基于字号映射规则确定参照行高度所映射的字号参照值,并根据字号参照值与预设基础字号的差距,对所有文本块的目标字号进行偏移修正。例如,对于中文文档版面而言,通常的预设基础字号为12;对于英文文档版面而言,通常的预设基础字号为10.5。因此,计算机设备将字号参照值与预设基础字号进行比对,并将所有文本块的目标字号按照比对的结果和字号映射规则进行偏移修正。偏移修正的规则例如为:若字号参照值大于或小于预设基础字号n个等级,则将所有文本块的目标字号也调小或调大n个等级,但是调整的范围不能字号映射规则里的上下限,例如上限为最大字号为42,下限为最小字号6.5。最后,计算机设备将偏移修正后的目标字号作为文本块最终输出的目标字号,并进行存储。示例性地,计算机设备将文本块的目标字号存储为包含文档版面信息的结构体,以供后续使用。
示例性地,计算机设备还可以将处理得到的目标字号与各个文本块共同展示,以呈现可视化的处理结果。如图9所示,所展示的图为在原始输入的文档图片上,标注出检测得到的文本行的检测框,并且各个检测框周围标注有该文本行的字号。文本行的字号即为文本行中各个文字的字号。例如,文本块901中仅一个文本行,该文本块901的字号为24。类似地,文本块902中文本行的字号为18。又如,文本行911和912属于同一个文本块,其字号均为14。再如,文本块921对应的字号为8。根据各个文本块、文本行的字号,计算机设备可进一步地进行文档还原等处理。
通过上述方法,不仅能够准确地识别出文档图片中每个文本行的字号,并且通过字号映射与修正,实现了原本相同字号的段落文本识别出相同的字号的效果,解决了识别出的字号大小不一的问题,提高了文档的可读性。并且,通过上述方法能够有效地区分文本标题、图表标题、以及正文段落之间的字号差异,有效地提升了文档还原的美观性。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的文档字号的识别方法的文档字号的识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个文档字号的识别装置实施例中的具体限定可以参见上文中对于文档字号的识别方法的限定,在此不再赘述。
在一些实施例中,如图10所示,提供了一种文档字号的识别装置1000,包括:获取模块1001、处理模块1002和输出模块1003,其中:
获取模块1001,用于获取待处理的文档图片,检测文档图片中各文本行的初始行高度。
处理模块1002,用于识别文档图片的文档版面信息,并根据文档版面信息确定至少一个待处理的文本块,每个待处理的文本块中包括有至少一个相连续的文本行。
处理模块1002,还用于对于任一待处理的文本块,根据相应待处理的文本块所包括的文本行的初始行高度,确定行高度统计信息,并基于行高度统计信息确定与相应待处理的文本块对应的目标行高度。
输出模块1003,用于基于预先设置的字号映射规则、以及各待处理的文本块分别对应的目标行高度,得到文档图片中各文本块分别对应的目标字号。
在一些实施例中,获取模块还用于对文档图片进行特征提取,得到多张不同尺度的特征图;对多张不同尺度的特征图进行特征融合,得到融合特征图;基于融合特征图进行文本行检测处理,得到包括有包围文本行的目标检测框,并将目标检测框的高度作为文本行的初始行高度。
在一些实施例中,处理模块还用于基于文档图片进行文档版面识别处理,得到文档图片中包括的多个文本块,以及每个文本块各自对应的版块类别;获取目标版块类别,目标版块类别至少包括标题版块类别和段落版块类别中的一种;将与目标版块类别对应的文本块,作为待处理的文本块。
在一些实施例中,上述装置还包括归组模块,用于基于文档图片的文档版面信息,建立以待处理的文本块为索引的数据存储结构,数据存储结构中包括有多个分组,每个分组对应一个待处理的文本块;将属于同一待处理的文本块的文本行,均存储至数据存储结构中相应待处理的文本块对应的分组中;各个分组用于并行对各自所存储的文本行进行行高度的调整,得到相应文本块所对应的目标行高度。
在一些实施例中,文档版面信息包括文档图片中包括的多个文本块,以及每个文本块各自对应的版块类别,版块类别包括页边版块类别;处理模块还用于将对应于页边版块类别的预设文本字号,作为页边版块类别所对应的文本块对应的文本字号。
在一些实施例中,处理模块还用于根据相应待处理的文本块所包括的文本行的初始行高度,计算相应待处理的文本块中文本行的行高度均值;基于相应待处理的文本块中文本行的行高度均值,确定相应待处理的文本块对应的目标行高度。
在一些实施例中,处理模块还用于根据相应待处理的文本块所包括的文本行的初始行高度,确定相应待处理的文本块所对应的高度变化极值;基于各个待处理的文本块对应的行高度均值确定参照行高度;确定参照行高度与相应待处理的文本块的行高度均值的差异,根据差异与高度变化极值,确定相应待处理的文本块的目标行高度。
在一些实施例中,处理模块还用于在差异小于高度变化极值的情况下,将参照行高度作为相应待处理的文本块对应的目标行高度;在差异大于或等于高度变化极值的情况下,将相应待处理的文本块的行高度均值作为相应文本块对应的目标行高度。
在一些实施例中,上述装置还包括转换模块,用于基于预先设置的字号映射规则,对文档图片中未处理的文本块分别对应的初始行高度进行转换,得到未处理的各文本块分别对应的目标字号。
在一些实施例中,上述装置还包括修正模块,用于基于预先设置的字号映射规则,确定参照行高度所映射得到的字号参照值,参照行高度基于所有待处理的文本块各自对应的行高度统计信息确定得到;确定字号参照值与预设基础字号之间的差异,并根据差异对各文本块分别对应的目标字号进行修正,得到各文本块分别对应的文本字号。
在一些实施例中,上述装置还包括还原模块,用于基于文档图片中的各文本块分别对应的文本字号,将各文本块中所包括的文本行按照相应的文本字号进行转换,得到与文档图片对应的、且属于文本格式的目标文档。
上述文档字号的识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一些实施例中,提供了一种计算机设备,该计算机设备可以是终端或服务器,其内部结构图可以如图11所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种文档字号的识别方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一些实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一些实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一些实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (15)
1.一种文档字号的识别方法,其特征在于,所述方法包括:
获取待处理的文档图片,检测所述文档图片中各文本行的初始行高度;
识别所述文档图片的文档版面信息,并根据所述文档版面信息确定至少一个待处理的文本块,每个待处理的文本块中包括有至少一个相连续的文本行;
对于任一待处理的文本块,根据相应待处理的文本块所包括的文本行的初始行高度,确定行高度统计信息,并基于所述行高度统计信息确定与相应待处理的文本块对应的目标行高度;
基于预先设置的字号映射规则、以及各待处理的文本块分别对应的目标行高度,得到所述文档图片中各文本块分别对应的目标字号。
2.根据权利要求1所述的方法,其特征在于,所述检测所述文档图片中各文本行的初始行高度,包括:
对所述文档图片进行特征提取,得到多张不同尺度的特征图;
对所述多张不同尺度的特征图进行特征融合,得到融合特征图;
基于所述融合特征图进行文本行检测处理,得到包括有包围文本行的目标检测框,并将所述目标检测框的高度作为所述文本行的初始行高度。
3.根据权利要求1所述的方法,其特征在于,所述识别所述文档图片的文档版面信息,并根据所述文档版面信息确定至少一个待处理的文本块,包括:
基于所述文档图片进行文档版面识别处理,得到所述文档图片中包括的多个文本块,以及每个文本块各自对应的版块类别;
获取目标版块类别,所述目标版块类别至少包括标题版块类别和段落版块类别中的一种;
将与所述目标版块类别对应的文本块,作为待处理的文本块。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述文档图片的文档版面信息,建立以待处理的文本块为索引的数据存储结构,所述数据存储结构中包括有多个分组,每个分组对应一个待处理的文本块;
将属于同一待处理的文本块的文本行,均存储至所述数据存储结构中相应待处理的文本块对应的分组中;各个分组用于并行对各自所存储的文本行进行行高度的调整,得到相应文本块所对应的目标行高度。
5.根据权利要求1所述的方法,其特征在于,所述文档版面信息包括所述文档图片中包括的多个文本块,以及每个文本块各自对应的版块类别,所述版块类别包括页边版块类别;所述方法还包括:
将对应于页边版块类别的预设文本字号,作为所述页边版块类别所对应的文本块对应的文本字号。
6.根据权利要求1所述的方法,其特征在于,所述根据相应待处理的文本块所包括的文本行的初始行高度,确定行高度统计信息,并基于所述行高度统计信息确定与相应待处理的文本块对应的目标行高度,包括:
根据相应待处理的文本块所包括的文本行的初始行高度,计算相应待处理的文本块中文本行的行高度均值;
基于相应待处理的文本块中文本行的行高度均值,确定相应待处理的文本块对应的目标行高度。
7.根据权利要求6所述的方法,其特征在于,所述基于相应待处理的文本块中文本行的行高度均值,确定相应待处理的文本块对应的目标行高度,包括:
根据相应待处理的文本块所包括的文本行的初始行高度,确定相应待处理的文本块所对应的高度变化极值;
基于各个待处理的文本块对应的行高度均值确定参照行高度;
确定所述参照行高度与相应待处理的文本块的行高度均值的差异,根据所述差异与所述高度变化极值,确定相应待处理的文本块的目标行高度。
8.根据权利要求7所述的方法,其特征在于,所述根据所述差异与所述高度变化极值,确定相应待处理的文本块的目标行高度,包括:
在所述差异小于所述高度变化极值的情况下,将所述参照行高度作为相应待处理的文本块对应的目标行高度;
在所述差异大于或等于所述高度变化极值的情况下,将相应待处理的文本块的行高度均值作为相应文本块对应的目标行高度。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于预先设置的字号映射规则,对所述文档图片中未处理的文本块分别对应的初始行高度进行转换,得到未处理的各文本块分别对应的目标字号。
10.根据权利要求1至9中任一项所述的方法,其特征在于,所述方法还包括:
基于预先设置的字号映射规则,确定参照行高度所映射得到的字号参照值,所述参照行高度基于所有待处理的文本块各自对应的行高度统计信息确定得到;
确定所述字号参照值与预设基础字号之间的差异,并根据所述差异对各文本块分别对应的目标字号进行修正,得到各文本块分别对应的文本字号。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
基于所述文档图片中的各文本块分别对应的文本字号,将各文本块中所包括的文本行按照相应的文本字号进行转换,得到与所述文档图片对应的、且属于文本格式的目标文档。
12.一种文档字号的识别装置,其特征在于,所述装置包括:
获取模块,用于获取待处理的文档图片,检测所述文档图片中各文本行的初始行高度;
处理模块,用于识别所述文档图片的文档版面信息,并根据所述文档版面信息确定至少一个待处理的文本块,每个待处理的文本块中包括有至少一个相连续的文本行;
所述处理模块,还用于对于任一待处理的文本块,根据相应待处理的文本块所包括的文本行的初始行高度,确定行高度统计信息,基于所述行高度统计信息确定与相应待处理的文本块对应的目标行高度;
输出模块,用于基于预先设置的字号映射规则、以及各待处理的文本块分别对应的目标行高度,得到所述文档图片中各文本块分别对应的目标字号。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
15.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210416911.7A CN115131803A (zh) | 2022-04-20 | 2022-04-20 | 文档字号的识别方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210416911.7A CN115131803A (zh) | 2022-04-20 | 2022-04-20 | 文档字号的识别方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115131803A true CN115131803A (zh) | 2022-09-30 |
Family
ID=83376639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210416911.7A Pending CN115131803A (zh) | 2022-04-20 | 2022-04-20 | 文档字号的识别方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115131803A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115830600A (zh) * | 2023-02-22 | 2023-03-21 | 杭州金诚信息安全科技有限公司 | 一种图文设计页面识别整理方法 |
CN116090417A (zh) * | 2023-04-11 | 2023-05-09 | 福昕鲲鹏(北京)信息科技有限公司 | 版式文档文本选择渲染方法、装置、电子设备及存储介质 |
-
2022
- 2022-04-20 CN CN202210416911.7A patent/CN115131803A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115830600A (zh) * | 2023-02-22 | 2023-03-21 | 杭州金诚信息安全科技有限公司 | 一种图文设计页面识别整理方法 |
CN116090417A (zh) * | 2023-04-11 | 2023-05-09 | 福昕鲲鹏(北京)信息科技有限公司 | 版式文档文本选择渲染方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304835B (zh) | 文字检测方法和装置 | |
CN110532834B (zh) | 基于富文本格式文档的表格提取方法、装置、设备和介质 | |
CN114155543B (zh) | 神经网络训练方法、文档图像理解方法、装置和设备 | |
US10878173B2 (en) | Object recognition and tagging based on fusion deep learning models | |
CN110874618B (zh) | 基于小样本的ocr模板学习方法、装置、电子设备及介质 | |
EP3937124A1 (en) | Image processing method, device and apparatus, and storage medium | |
CN115131803A (zh) | 文档字号的识别方法、装置、计算机设备和存储介质 | |
CN111428457A (zh) | 数据表的自动格式化 | |
CN113378710A (zh) | 图像文件的版面分析方法、装置、计算机设备和存储介质 | |
CN115393872B (zh) | 一种训练文本分类模型的方法、装置、设备及存储介质 | |
CN113159013B (zh) | 基于机器学习的段落识别方法、装置、计算机设备和介质 | |
CN114239508A (zh) | 表格还原方法和装置、存储介质及电子设备 | |
CN113204659A (zh) | 多媒体资源的标签分类方法、装置、电子设备及存储介质 | |
KR102083786B1 (ko) | 문자열 식별 방법 및 장치, 그리고 이를 이용한 디스플레이 영상 식별 시스템 | |
CN114332484A (zh) | 关键点检测方法、装置、计算机设备和存储介质 | |
CN112016592B (zh) | 基于交叉领域类别感知的领域适应语义分割方法及装置 | |
CN112380978A (zh) | 基于关键点定位的多人脸检测方法、系统及存储介质 | |
CN113537187A (zh) | 文本识别方法、装置、电子设备及可读存储介质 | |
CN117058554A (zh) | 电力设备目标检测方法、模型训练方法和装置 | |
Yu et al. | Filling gaps of cartographic polylines by using an encoder–decoder model | |
CN115880702A (zh) | 数据处理方法、装置、设备、程序产品及存储介质 | |
CN114692715A (zh) | 一种样本标注方法及装置 | |
CN113763313A (zh) | 文本图像的质量检测方法、装置、介质及电子设备 | |
CN117408259B (zh) | 一种信息提取方法、装置、计算机设备和存储介质 | |
US11600028B1 (en) | Semantic resizing of line charts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |