CN111507267B - 文档朝向检测方法、装置、设备以及存储介质 - Google Patents

文档朝向检测方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN111507267B
CN111507267B CN202010306638.3A CN202010306638A CN111507267B CN 111507267 B CN111507267 B CN 111507267B CN 202010306638 A CN202010306638 A CN 202010306638A CN 111507267 B CN111507267 B CN 111507267B
Authority
CN
China
Prior art keywords
document
sub
orientation detection
block
orientation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010306638.3A
Other languages
English (en)
Other versions
CN111507267A (zh
Inventor
曲福
庞敏辉
韩光耀
姜泽青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010306638.3A priority Critical patent/CN111507267B/zh
Publication of CN111507267A publication Critical patent/CN111507267A/zh
Application granted granted Critical
Publication of CN111507267B publication Critical patent/CN111507267B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

本申请实施例公开了文档朝向检测方法、装置、设备以及存储介质,涉及云计算领域、人工智能技术领域。该方法的一具体实施方式包括:获取M种文档朝向检测模型;将文档影像切分成N个文档影像子块;利用M种文档朝向检测模型中的至少部分对N个文档影像子块中的至少部分进行检测,生成至少部分文档影像子块的子块朝向检测结果;基于至少部分文档影像子块的子块朝向检测结果,生成文档影像的文档朝向检测结果。该实施方式通过多种文档朝向检测模型对多个文档影像子块进行检测,来生成文档朝向检测结果,提升了文档朝向检测的通用性和准确度。

Description

文档朝向检测方法、装置、设备以及存储介质
技术领域
本申请实施例涉及计算机技术领域,具体涉及人工智能技术领域。
背景技术
随着AI(Artificial Intelligence,人工智能)技术的不断进步,使用AI来进行文档影像的智能分析越来越多。AI可以对文档影像进行方向和歪斜矫正、布局分析、内容识别等等,这些能力可以极大地方便各类涉及对文档影像进行录入、审核等的工作人员,极大地提升各类业务流程的智能化。而对文档影像进行方向和歪斜校正依赖于准确的文档朝向检测。因此,文档朝向检测能够为文档方向和歪斜的成功校正等应用提供强有力的保障。
发明内容
本申请实施例提出了文档朝向检测方法、装置、设备以及存储介质。
第一方面,本申请实施例提出了一种文档朝向检测方法,包括:获取M种文档朝向检测模型;将文档影像切分成N个文档影像子块;利用M种文档朝向检测模型中的至少部分对N个文档影像子块中的至少部分进行检测,生成至少部分文档影像子块的子块朝向检测结果;基于至少部分文档影像子块的子块朝向检测结果,生成文档影像的文档朝向检测结果。
第二方面,本申请实施例提出了一种文档朝向检测装置,包括:检测模型获取模块,被配置成获取M种文档朝向检测模型;文档影像切分模块,被配置成将文档影像切分成N个文档影像子块;子块朝向检测模块,被配置成利用M种文档朝向检测模型中的至少部分对N个文档影像子块中的至少部分进行检测,生成至少部分文档影像子块的子块朝向检测结果;文档朝向生成模块,被配置成基于至少部分文档影像子块的子块朝向检测结果,生成文档影像的文档朝向检测结果。
第三方面,本申请实施例提出了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面中任一实现方式描述的方法。
第四方面,本申请实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面中任一实现方式描述的方法。
本申请实施例提供的文档朝向检测方法、装置、设备以及存储介质,首先获取M种文档朝向检测模型;之后将文档影像切分成N个文档影像子块;然后利用M种文档朝向检测模型中的至少部分对N个文档影像子块中的至少部分进行检测,生成至少部分文档影像子块的子块朝向检测结果;最后基于至少部分文档影像子块的子块朝向检测结果,生成文档影像的文档朝向检测结果。通过多种文档朝向检测模型对多个文档影像子块进行检测,来生成文档朝向检测结果,提升了文档朝向检测的通用性和准确度。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显。附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请可以应用于其中的示例性系统架构;
图2是根据本申请的文档朝向检测方法的一个实施例的流程图;
图3是根据本申请的子块朝向检测步骤的一个实施例的流程图;
图4是根据本申请的文档朝向生成步骤的一个实施例的流程图;
图5是根据本申请的文档朝向检测装置的一个实施例的结构示意图;
图6是用来实现本申请实施例的文档朝向检测方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的文档朝向检测方法或文档朝向检测装置的实施例的示例性系统架构100。
如图1所示,系统架构100中可以包括终端设备101、网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101通过网络102与服务器103交互,以接收或发送消息等。终端设备101上可以安装有各种客户端应用,例如文档朝向检测应用、影像处理应用等等。
终端设备101可以是硬件,也可以是软件。当终端设备101为硬件时,可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101为软件时,可以安装在上述电子设备中。其可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
服务器103可以提供各种服务。例如,服务器103可以对从终端设备101获取到的文档影像等数据进行分析等处理,并生成处理结果(例如文档朝向检测结果)。
需要说明的是,服务器103可以是硬件,也可以是软件。当服务器103为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器103为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,本申请实施例所提供的文档朝向检测方法一般由服务器103执行,相应地,文档朝向检测装置一般设置于服务器103中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。在服务器103中存储有文档影像的情况下,系统架构100可以不设置终端设备101和网络102。
继续参考图2,其示出了根据本申请的文档朝向检测方法的一个实施例的流程200。该文档朝向检测方法包括以下步骤:
步骤201,获取M种文档朝向检测模型。
在本实施例中,文档朝向检测方法的执行主体(例如图1所示的服务器103)可以获取M(M为大于1的整数)种文档朝向检测模型。
通常,M种文档朝向检测模型均可以用于对文档影像中的文档朝向进行检测。M种文档朝向检测模型可以包括但不限于文字字形检测模型、深度学习分类模型、光学字符识别模型、文档排版检测模型和表格检测模型等中的至少两项。不同的文档朝向检测模型适用于不同的场景,因此单独的文档朝向检测模型会存在各种技术缺陷。
文字字形检测模型可以基于文字字形的特点进行文档朝向检测。例如,根据标点符号基本都在文本行的下部的特点,通过识别标点符号的相对位置,来进行文档朝向的检测。而单独的文字字形检测模型检测速度快,但检测效果难以保障。这是由于文字字形的特点是基于一些明显的统计假设的。例如,假设标点符号基本在文本行下部,对于出现很少的逗号,但出现较多的引号的文本,文字字形检测模型的通用性不强。
深度学习分类模型可以基于深度学习进行文档朝向检测。例如,根据计算机视觉预训练模型和4分类的损失函数进行模型训练,进而得到能够进行文档朝向检测的深度学习分类模型。而单独的深度学习分类模型不但检测速度较文字字形检测模型慢,而且检测效果受训练时的数据分布影响很大。例如,对于基于密集文字文档影像训练出的深度学习分类模型,在进行稀疏文字文档影像进行检测时,其检测准确度较差。
光学字符识别(Optical Character Recognition,OCR)模型可以基于光学字符识别技术进行文档朝向检测。例如,将文档影像分别旋转四个方向后进行学字符识别,将识别效果好的方向确定为文档朝向。由于利用一个朝向上的文档影像训练出来的光学字符识别模型,其仅对该朝向上的文档影像进行响应识别,因此光学字符识别模型的检测效果较好。但是由于文档影像需要旋转四个方向,就需要进行四次光学字符识别,其检测速度较慢。
文档排版检测模型可以基于文档排版的特点进行文档朝向检测。例如,根据文档排版的缩进基本都在文档左方的特点,来进行文档朝向的检测。而单独的文档排版检测模型检测速度快,但检测效果难以保障。例如,对于仅存在一个长段内容的中间部分的文档影像,文档排版检测模型的通用性不强。
表格检测模型可以基于表格的特点进行文档朝向检测。例如,根据表格的上方或下方基本会存在表格标题的特点,通过表格与表格标题的相对位置,来进行文档朝向的检测。而单独的表格检测模型检测速度快,但检测效果难以保障。例如,对于不存在表格的文档影像,表格检测模型的通用性不强。
步骤202,将文档影像切分成N个文档影像子块。
在本实施例中,上述执行主体可以将文档影像切分成N(N为大于1的整数)个文档影像子块。例如,通过随机或指定位置方式从文档影像中切分出N个文档影像子块。
步骤203,利用M种文档朝向检测模型中的至少部分对N个文档影像子块中的至少部分进行检测,生成至少部分文档影像子块的子块朝向检测结果。
在本实施例中,上述执行主体可以利用M种文档朝向检测模型中的至少部分对N个文档影像子块中的至少部分进行检测,生成至少部分文档影像子块的子块朝向检测结果。其中,子块朝向检测结果可以包括文档影像子块的子块朝向。子块朝向可以包括朝上、朝下、朝左和朝右四个朝向。
通常,上述执行主体可以利用全部文档朝向检测模型对全部文档影像子块进行检测,也可以利用全部文档朝向检测模型对部分文档影像子块进行检测,也可以利用部分文档朝向检测模型对全部文档影像子块进行检测,也可以利用部分文档朝向检测模型对部分文档影像子块进行检测。此外,上述执行主体可以利用M种文档朝向检测模型中的至少部分对N个文档影像子块中的至少部分进行串行检测或并行检测。本申请实施例对上述两个方面的检测方式均不进行限定。然而并行检测对GPU(Graphics Processing Unit,图形处理器)等资源要求较高,在实际应用中,通常采用串行检测的方式。
步骤204,基于至少部分文档影像子块的子块朝向检测结果,生成文档影像的文档朝向检测结果。
在本实施例中,上述执行主体可以基于至少部分文档影像子块的子块朝向检测结果,生成文档影像的文档朝向检测结果。其中,文档朝向检测结果可以包括文档影像的文档朝向。文档朝向可以包括朝上、朝下、朝左和朝右四个朝向。
通常,通过统计至少部分文档影像子块的子块朝向检测结果,能够得到各个朝向对应的文档朝向检测结果数。基于各个朝向对应的文档朝向检测结果数,能够确定文档影像的文档朝向检测结果。例如,将文档朝向检测结果数最大的朝向作为文档影像的文档朝向。
本申请实施例提供的文档朝向检测方法,首先获取M种文档朝向检测模型;之后将文档影像切分成N个文档影像子块;然后利用M种文档朝向检测模型中的至少部分对N个文档影像子块中的至少部分进行检测,生成至少部分文档影像子块的子块朝向检测结果;最后基于至少部分文档影像子块的子块朝向检测结果,生成文档影像的文档朝向检测结果。通过多种文档朝向检测模型对多个文档影像子块进行检测,来生成文档朝向检测结果,提升了文档朝向检测的通用性和准确度。
进一步地,本申请实施例提供的文档朝向检测方法可以集成到各种文档智能处理平台中,作为平台功能的扩展,帮助平台在矫正、检测、识别等任务中获取更好的效果。
进一步参考图3,其示出了根据本申请的子块朝向检测步骤的一个实施例的流程300。该子块朝向检测步骤包括:
步骤301,对M种文档朝向检测模型进行排序,生成文档朝向检测模型序列。
在本实施例中,子块朝向检测步骤的执行主体(例如图1所示的服务器103)可以对M种文档朝向检测模型进行排序,生成文档朝向检测模型序列。
这里,对M种文档朝向检测模型进行排序的方式可以不进行限定。例如,按照性能对M种文档朝向检测模型进行排序。性能越好的文档朝向检测模型排序越靠前。性能越好的文档朝向检测模型的检测速度越快。因此,若利用按照性能排序的文档朝向检测模型序列对文档影像子块进行检测,能够提高文档影像子块的检测效率。又例如,按照效果对M种文档朝向检测模型进行排序。效果越好的文档朝向检测模型排序越靠前。效果越好的文档朝向检测模型的检测准确度越高。若利用按照效果排序的文档朝向检测模型序列对文档影像子块进行检测,能够提升文档影像子块的检测准确度。为了便于理解,以M种文档朝向检测模型包括文字字形检测模型、深度学习分类模型和光学字符识别模型为例,其中,文字字形检测模型、深度学习分类模型和光学字符识别模型的性能依次变差,但效果依次变好。
步骤302,对于N个文档影像子块中的文档影像子块,将该文档影像子块输入至文档朝向检测模型序列中的当前文档朝向检测模型,输出子块朝向检测结果。
在本实施例中,对于N个文档影像子块中的文档影像子块,上述执行主体可以将该文档影像子块输入至文档朝向检测模型序列中的当前文档朝向检测模型,输出子块朝向检测结果。
通常,文档朝向检测模型序列可以对该文档影像子块进行串行检测。当前对该文档影像子块进行检测的文档朝向检测模型是当前文档朝向检测模型。具体地,若文档朝向检测模型序列中的所有文档朝向检测模型均未对该文档影像子块进行检测,排序在文档朝向检测模型序列中的第一位的文档朝向检测模型是当前文档朝向检测模型。在排序在第一位的文档朝向检测模型对该文档影像子块进行检测,且检测完成后,排序在第二位的文档朝向检测模型就成为了当前文档朝向检测模型。以此类推,直至确定出该文档影像子块的子块朝向为止。
步骤303,统计已输出的子块朝向检测结果,得到各个朝向对应的子块朝向检测结果数。
在本实施例中,上述执行主体可以统计已输出的子块朝向检测结果,得到各个朝向对应的子块朝向检测结果数。其中,子块朝向可以包括朝上、朝下、朝左和朝右四个朝向。
步骤304,确定是否存在对应的子块朝向检测结果数不小于第一预设数目阈值的朝向。
在本实施例中,上述执行主体可以将各个朝向对应的子块朝向检测结果数分别与第一预设数目阈值进行比较,以确定是否存在不小于第一预设数目阈值的朝向。若存在不小于第一预设数目阈值的朝向,执行步骤305;若不存在不小于第一预设数目阈值的朝向,执行步骤306。
通常,第一预设数目阈值是不大于M的正整数,其值是根据检测准确度需求设置的。若对检测准确度需求高,设置的第一预设数目阈值相对较大;若对检测准确度需求低,设置的第一预设数目阈值相对较小。在默认情况下,第一预设数目阈值可以等于M/2。
步骤305,将该朝向作为该文档影像子块的子块朝向。
在本实施例中,若存在对应的子块朝向检测结果数不小于第一预设数目阈值的朝向,上述执行主体可以将该朝向作为该文档影像子块的子块朝向。此时,尚未对该文档影像子块的进行检测的文档朝向检测模型将不再继续进行检测。
步骤306,将文档朝向检测模型序列中的下一文档朝向检测模型作为当前文档朝向检测模型。
在本实施例中,若不存在对应的子块朝向检测结果数不小于第一预设数目阈值的朝向,上述执行主体可以将文档朝向检测模型序列中的下一文档朝向检测模型作为当前文档朝向检测模型,以及继续执行步骤302。如此循环检测,直至存在对应的子块朝向检测结果数不小于第一预设数目阈值的朝向,或者所有文档朝向检测模型对该文档影像子块均检测完毕为止。
此外,若文档朝向检测模型序列中的所有文档朝向检测模型对该文档影像子块检测完毕,且不存在对应的子块朝向检测结果数不小于第一预设数目阈值的朝向,说明该文档影像子块的内容具有很强的迷惑性。例如,被印章覆盖的文字。此时,通常是确定该文档影像子块朝向异常,随后将该文档影像子块丢弃。
本申请实施例提供的子块朝向检测步骤,利用排序后的文档朝向检测模型序列依次对文档影像子块进行检测。直至存在对应的子块朝向检测结果数不小于第一预设数目阈值的朝向,停止检测,且将不小于第一预设数目阈值的朝向确定为子块朝向。从而提高了子块朝向的检测效率。
进一步参考图4,其示出了根据本申请的文档朝向生成步骤的一个实施例的流程400。该文档朝向生成步骤包括:
步骤401,对N个文档影像子块进行排序,生成文档影像子块序列。
在本实施例中,文档朝向生成步骤的执行主体(例如图1所示的服务器103)可以对N个文档影像子块进行排序,生成文档影像子块序列。这里,对N个文档影像子块进行排序的方式可以不进行限定。
步骤402,统计已生成的文档朝向检测结果,得到各个朝向对应的文档朝向检测结果数。
在本实施例中,每当出现新生成的子块朝向检测结果,上述执行主体可以统计已生成的文档朝向检测结果,得到各个朝向对应的文档朝向检测结果数。其中,文档朝向可以包括朝上、朝下、朝左和朝右四个朝向。
步骤403,确定是否存在对应的文档朝向检测结果数不小于第二预设数目阈值的朝向。
在本实施例中,上述执行主体可以将各个朝向对应的文档朝向检测结果数分别与第二预设数目阈值进行比较,以确定是否存在不小于第二预设数目阈值的朝向。若存在不小于第二预设数目阈值的朝向,执行步骤404;若不存在不小于第二预设数目阈值的朝向,执行步骤405。
通常,第二预设数目阈值是不大于N的正整数,其值是根据检测准确度需求设置的。若对检测准确度需求高,设置的第二预设数目阈值相对较大;若对检测准确度需求低,设置的第二预设数目阈值相对较小。在默认情况下,第二预设数目阈值可以等于N/2。
步骤404,将该朝向作为文档影像的文档朝向。
在本实施例中,若存在对应的文档朝向检测结果数不小于第二预设数目阈值的朝向,上述执行主体可以将该朝向作为文档影像的文档朝向。此时,尚未检测的文档影像子块将不再继续进行检测。
步骤405,利用M种文档朝向检测模型中的至少部分对文档影像子块序列中的下一个文档影像子块进行检测。
在本实施例中,若不存在对应的文档朝向检测结果数不小于第二预设数目阈值的朝向,上述执行主体可以利用M种文档朝向检测模型中的至少部分对文档影像子块序列中的下一个文档影像子块进行检测,以及继续执行步骤402。如此循环检测,直至存在对应的文档朝向检测结果数不小于第二预设数目阈值的朝向,或者所有文档影像子块均检测完毕为止。
此外,若文档影像子块序列中的全部文档影像子块检测完毕,且不存在对应的文档朝向检测结果数不小于第二预设数目阈值的朝向,上述执行主体可以确定文档影像朝向异常。例如,文档影像的内容不包含文字。
本申请实施例提供的文档朝向生成步骤,对排序后的文档影像子块依次进行检测。直至存在对应的文档朝向检测结果数不小于第二预设数目阈值的朝向,停止检测,且将不小于第二预设数目阈值的朝向确定为文档朝向。从而提高了文档朝向的检测效率。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种文档朝向检测装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的文档朝向检测装置500可以包括:检测模型获取模块501、文档影像切分模块502、子块朝向检测模块503和文档朝向生成模块504。其中,检测模型获取模块501,被配置成获取M种文档朝向检测模型;文档影像切分模块502,被配置成将文档影像切分成N个文档影像子块;子块朝向检测模块503,被配置成利用M种文档朝向检测模型中的至少部分对N个文档影像子块中的至少部分进行检测,生成至少部分文档影像子块的子块朝向检测结果;文档朝向生成模块504,被配置成基于至少部分文档影像子块的子块朝向检测结果,生成文档影像的文档朝向检测结果。
在本实施例中,文档朝向检测装置500中:检测模型获取模块501、文档影像切分模块502、子块朝向检测模块503和文档朝向生成模块504的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-204的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,子块朝向检测模块503包括:检测模型排序子模块(图中未示出),被配置成对M种文档朝向检测模型进行排序,生成文档朝向检测模型序列;子块朝向检测子模块(图中未示出),被配置成执行以下子块朝向检测步骤:将该文档影像子块输入至文档朝向检测模型序列中的当前文档朝向检测模型,输出子块朝向检测结果,统计已输出的子块朝向检测结果,得到各个朝向对应的子块朝向检测结果数,若存在对应的子块朝向检测结果数不小于第一预设数目阈值的朝向,将该朝向作为该文档影像子块的子块朝向。
在本实施例的一些可选的实现方式中,子块朝向检测模块504还包括:子块检测循环子模块(图中未示出),被配置成若不存在对应的子块朝向检测结果数不小于第一预设数目阈值的朝向,将文档朝向检测模型序列中的下一文档朝向检测模型作为当前文档朝向检测模型,以及继续执行下子块朝向检测步骤。
在本实施例的一些可选的实现方式中,子块朝向检测模块503还包括:子块异常确定子模块(图中未示出),被配置成若文档朝向检测模型序列中的所有文档朝向检测模型对该文档影像子块检测完毕,且不存在对应的子块朝向检测结果数不小于第一预设数目阈值的朝向,确定该文档影像子块朝向异常。
在本实施例的一些可选的实现方式中,检测模型排序子模块进一步被配置成:按照性能对M种文档朝向检测模型进行排序。
在本实施例的一些可选的实现方式中,文档朝向检测装置500还包括:影像子块排序子模块(图中未示出),被配置成对N个文档影像子块进行排序,生成文档影像子块序列;以及文档朝向生成模块504包括:文档朝向检测子模块(图中未示出),被配置成执行以下文档朝向检测步骤:统计已生成的文档朝向检测结果,得到各个朝向对应的文档朝向检测结果数,若存在对应的文档朝向检测结果数不小于第二预设数目阈值的朝向,将该朝向作为文档影像的文档朝向。
在本实施例的一些可选的实现方式中,文档朝向生成模块504还包括:文档检测循环子模块(图中未示出),被配置成若不存在对应的文档朝向检测结果数不小于第二预设数目阈值的朝向,利用M种文档朝向检测模型中的至少部分对文档影像子块序列中的下一个文档影像子块进行检测,以及继续执行文档朝向检测步骤。
在本实施例的一些可选的实现方式中,文档朝向生成模块504还包括:文档异常确定子模块(图中未示出),被配置成若文档影像子块序列中的全部文档影像子块检测完毕,且不存在对应的文档朝向检测结果数不小于第二预设数目阈值的朝向,确定文档影像朝向异常。
在本实施例的一些可选的实现方式中,M种文档朝向检测模型包括以下至少两项:文字字形检测模型、深度学习分类模型、光学字符识别模型、文档排版检测模型和表格检测模型。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图6所示,是根据本申请实施例文档朝向检测方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的文档朝向检测方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的文档朝向检测方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的文档朝向检测方法对应的程序指令/模块(例如,附图5所示的检测模型获取模块501、文档影像切分模块502、子块朝向检测模块503和文档朝向生成模块504)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的文档朝向检测方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据文档朝向检测方法的电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至文档朝向检测方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
文档朝向检测方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与文档朝向检测方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请的技术方案,首先获取M种文档朝向检测模型;之后将文档影像切分成N个文档影像子块;然后利用M种文档朝向检测模型中的至少部分对N个文档影像子块中的至少部分进行检测,生成至少部分文档影像子块的子块朝向检测结果;最后基于至少部分文档影像子块的子块朝向检测结果,生成文档影像的文档朝向检测结果。通过多种文档朝向检测模型对多个文档影像子块进行检测,来生成文档朝向检测结果,提升了文档朝向检测的通用性和准确度。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (18)

1.一种文档朝向检测方法,包括:
获取M种文档朝向检测模型;
将文档影像切分成N个文档影像子块;
利用所述M种文档朝向检测模型中的至少部分对所述N个文档影像子块中的至少部分进行检测,生成至少部分文档影像子块的子块朝向检测结果,其中,所述M种文档朝向检测模型按照性能进行排序,对所述N个文档影像子块中的至少部分进行串行检测,并且,不同的文档朝向检测模型适用于不同的场景;
基于所述至少部分文档影像子块的子块朝向检测结果,生成所述文档影像的文档朝向检测结果。
2.根据权利要求1所述的方法,其中,所述利用所述M种文档朝向检测模型中的至少部分对所述N个文档影像子块中的至少部分进行检测,生成至少部分文档影像子块的子块朝向检测结果,包括:
对所述M种文档朝向检测模型进行排序,生成文档朝向检测模型序列;
对于所述N个文档影像子块中的文档影像子块,执行以下子块朝向检测步骤:将该文档影像子块输入至所述文档朝向检测模型序列中的当前文档朝向检测模型,输出子块朝向检测结果,统计已输出的子块朝向检测结果,得到各个朝向对应的子块朝向检测结果数,若存在对应的子块朝向检测结果数不小于第一预设数目阈值的朝向,将该朝向作为该文档影像子块的子块朝向。
3.根据权利要求2所述的方法,其中,所述利用所述M种文档朝向检测模型中的至少部分对所述N个文档影像子块中的至少部分进行检测,生成至少部分文档影像子块的子块朝向检测结果,还包括:
若不存在对应的子块朝向检测结果数不小于所述第一预设数目阈值的朝向,将所述文档朝向检测模型序列中的下一文档朝向检测模型作为当前文档朝向检测模型,以及继续执行所述子块朝向检测步骤。
4.根据权利要求3所述的方法,其中,所述利用所述M种文档朝向检测模型中的至少部分对所述N个文档影像子块中的至少部分进行检测,生成至少部分文档影像子块的子块朝向检测结果,还包括:
若所述文档朝向检测模型序列中的所有文档朝向检测模型对该文档影像子块检测完毕,且不存在对应的子块朝向检测结果数不小于所述第一预设数目阈值的朝向,确定该文档影像子块朝向异常。
5.根据权利要求1所述的方法,其中,在所述将文档影像切分成N个文档影像子块之前,还包括:
对所述N个文档影像子块进行排序,生成文档影像子块序列;以及
所述基于所述至少部分文档影像子块的子块朝向检测结果,生成所述文档影像的文档朝向检测结果,包括:
执行以下文档朝向检测步骤:统计已生成的文档朝向检测结果,得到各个朝向对应的文档朝向检测结果数,若存在对应的文档朝向检测结果数不小于第二预设数目阈值的朝向,将该朝向作为所述文档影像的文档朝向。
6.根据权利要求5所述的方法,其中,所述基于所述至少部分文档影像子块的子块朝向检测结果,生成所述文档影像的文档朝向检测结果,还包括:
若不存在对应的文档朝向检测结果数不小于所述第二预设数目阈值的朝向,利用所述M种文档朝向检测模型中的至少部分对所述文档影像子块序列中的下一个文档影像子块进行检测,以及继续执行所述文档朝向检测步骤。
7.根据权利要求6所述的方法,其中,所述基于所述至少部分文档影像子块的子块朝向检测结果,生成所述文档影像的文档朝向检测结果,还包括:
若所述文档影像子块序列中的全部文档影像子块检测完毕,且不存在对应的文档朝向检测结果数不小于所述第二预设数目阈值的朝向,确定所述文档影像朝向异常。
8.根据权利要求1-7之一所述的方法,其中,所述M种文档朝向检测模型包括以下至少两项:文字字形检测模型、深度学习分类模型、光学字符识别模型、文档排版检测模型和表格检测模型。
9.一种文档朝向检测装置,包括:
检测模型获取模块,被配置成获取M种文档朝向检测模型;
文档影像切分模块,被配置成将文档影像切分成N个文档影像子块;
子块朝向检测模块,被配置成利用所述M种文档朝向检测模型中的至少部分对所述N个文档影像子块中的至少部分进行检测,生成至少部分文档影像子块的子块朝向检测结果,其中,所述M种文档朝向检测模型按照性能进行排序,对所述N个文档影像子块进行串行检测,并且,不同的文档朝向检测模型适用于不同的场景;
文档朝向生成模块,被配置成基于所述至少部分文档影像子块的子块朝向检测结果,生成所述文档影像的文档朝向检测结果。
10.根据权利要求9所述的装置,其中,所述子块朝向检测模块包括:
检测模型排序子模块,被配置成对所述M种文档朝向检测模型进行排序,生成文档朝向检测模型序列;
子块朝向检测子模块,被配置成对于所述N个文档影像子块中的文档影像子块,执行以下子块朝向检测步骤:将该文档影像子块输入至所述文档朝向检测模型序列中的当前文档朝向检测模型,输出子块朝向检测结果,统计已输出的子块朝向检测结果,得到各个朝向对应的子块朝向检测结果数,若存在对应的子块朝向检测结果数不小于第一预设数目阈值的朝向,将该朝向作为该文档影像子块的子块朝向。
11.根据权利要求10所述的装置,其中,所述子块朝向检测模块还包括:
子块检测循环子模块,被配置成若不存在对应的子块朝向检测结果数不小于所述第一预设数目阈值的朝向,将所述文档朝向检测模型序列中的下一文档朝向检测模型作为当前文档朝向检测模型,以及继续执行所述子块朝向检测步骤。
12.根据权利要求11所述的装置,其中,所述子块朝向检测模块还包括:
子块异常确定子模块,被配置成若所述文档朝向检测模型序列中的所有文档朝向检测模型对该文档影像子块检测完毕,且不存在对应的子块朝向检测结果数不小于所述第一预设数目阈值的朝向,确定该文档影像子块朝向异常。
13.根据权利要求9所述的装置,其中,所述装置还包括:
影像子块排序子模块,被配置成对所述N个文档影像子块进行排序,生成文档影像子块序列;以及
所述文档朝向生成模块包括:
文档朝向检测子模块,被配置成执行以下文档朝向检测步骤:统计已生成的文档朝向检测结果,得到各个朝向对应的文档朝向检测结果数,若存在对应的文档朝向检测结果数不小于第二预设数目阈值的朝向,将该朝向作为所述文档影像的文档朝向。
14.根据权利要求13所述的装置,其中,所述文档朝向生成模块还包括:
文档检测循环子模块,被配置成若不存在对应的文档朝向检测结果数不小于所述第二预设数目阈值的朝向,利用所述M种文档朝向检测模型中的至少部分对所述文档影像子块序列中的下一个文档影像子块进行检测,以及继续执行所述文档朝向检测步骤。
15.根据权利要求14所述的装置,其中,所述文档朝向生成模块还包括:
文档异常确定子模块,被配置成若所述文档影像子块序列中的全部文档影像子块检测完毕,且不存在对应的文档朝向检测结果数不小于所述第二预设数目阈值的朝向,确定所述文档影像朝向异常。
16.根据权利要求9-15之一所述的装置,其中,所述M种文档朝向检测模型包括以下至少两项:文字字形检测模型、深度学习分类模型、光学字符识别模型、文档排版检测模型和表格检测模型。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。
CN202010306638.3A 2020-04-17 2020-04-17 文档朝向检测方法、装置、设备以及存储介质 Active CN111507267B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010306638.3A CN111507267B (zh) 2020-04-17 2020-04-17 文档朝向检测方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010306638.3A CN111507267B (zh) 2020-04-17 2020-04-17 文档朝向检测方法、装置、设备以及存储介质

Publications (2)

Publication Number Publication Date
CN111507267A CN111507267A (zh) 2020-08-07
CN111507267B true CN111507267B (zh) 2023-05-26

Family

ID=71864124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010306638.3A Active CN111507267B (zh) 2020-04-17 2020-04-17 文档朝向检测方法、装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN111507267B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354735A (zh) * 2015-07-22 2017-01-25 杭州海康威视数字技术股份有限公司 一种图像中目标的检索方法和装置
CN107491547A (zh) * 2017-08-28 2017-12-19 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
CN110569755A (zh) * 2019-08-26 2019-12-13 浙江工商大学 一种基于视频的智能积水检测方法
CN110633461A (zh) * 2019-09-10 2019-12-31 北京百度网讯科技有限公司 文档检测处理方法、装置、电子设备和存储介质
CN110705509A (zh) * 2019-10-16 2020-01-17 上海眼控科技股份有限公司 人脸方向识别方法、装置、计算机设备和存储介质
US10616443B1 (en) * 2019-02-11 2020-04-07 Open Text Sa Ulc On-device artificial intelligence systems and methods for document auto-rotation

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130339846A1 (en) * 2012-06-18 2013-12-19 Gbl Systems Corporation Multiparty document generation and management
CN105335372B (zh) * 2014-06-12 2019-01-22 富士通株式会社 文档处理装置、方法以及确定文档图像的朝向的设备
US10708795B2 (en) * 2016-06-07 2020-07-07 TUPL, Inc. Artificial intelligence-based network advisor
CN108334805B (zh) * 2017-03-08 2020-04-03 腾讯科技(深圳)有限公司 检测文档阅读顺序的方法和装置
CN109582946B (zh) * 2018-11-28 2019-10-25 龙马智芯(珠海横琴)科技有限公司 文字区域排版方向的确定方法及装置
CN110378287A (zh) * 2019-07-19 2019-10-25 腾讯科技(深圳)有限公司 文档方向识别方法、装置及存储介质
CN110569846A (zh) * 2019-09-16 2019-12-13 北京百度网讯科技有限公司 图像文字识别方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354735A (zh) * 2015-07-22 2017-01-25 杭州海康威视数字技术股份有限公司 一种图像中目标的检索方法和装置
CN107491547A (zh) * 2017-08-28 2017-12-19 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
US10616443B1 (en) * 2019-02-11 2020-04-07 Open Text Sa Ulc On-device artificial intelligence systems and methods for document auto-rotation
CN110569755A (zh) * 2019-08-26 2019-12-13 浙江工商大学 一种基于视频的智能积水检测方法
CN110633461A (zh) * 2019-09-10 2019-12-31 北京百度网讯科技有限公司 文档检测处理方法、装置、电子设备和存储介质
CN110705509A (zh) * 2019-10-16 2020-01-17 上海眼控科技股份有限公司 人脸方向识别方法、装置、计算机设备和存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
基于有向图模型的多模态新闻图像检索研究;相子喜;吕学强;张凯;;科学技术与工程(03);83-89+104 *
基于深度剥离的三维打印模型朝向优化算法;王继东;计算机辅助设计与图形学学报;第30卷(第9期);1741-1747 *
基于粒子滤波的视觉目标跟踪方法关键技术研究;王宁;中国博士学位论文全文数据库信息科技辑(第2期);I138-37 *
基于粗糙集数据挖掘和分类集成学习的网络入侵检测模型;王艳芳;张连华;白英彩;;计算机应用与软件(04);122-124 *

Also Published As

Publication number Publication date
CN111507267A (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
CN111539514B (zh) 用于生成神经网络的结构的方法和装置
US11694461B2 (en) Optical character recognition method and apparatus, electronic device and storage medium
US11899710B2 (en) Image recognition method, electronic device and storage medium
CN111931591B (zh) 用于构建关键点学习模型的方法、装置、电子设备及可读存储介质
CN111488740B (zh) 一种因果关系的判别方法、装置、电子设备及存储介质
CN111832396B (zh) 文档布局的解析方法、装置、电子设备和存储介质
CN112149741B (zh) 图像识别模型的训练方法、装置、电子设备及存储介质
CN111695519B (zh) 关键点定位方法、装置、设备以及存储介质
CN112508003B (zh) 字符识别处理方法和装置
CN111078878B (zh) 文本处理方法、装置、设备及计算机可读存储介质
JP7222040B2 (ja) モデル訓練、画像処理方法及びデバイス、記憶媒体、プログラム製品
CN112507946A (zh) 用于处理图像的方法、装置、设备以及存储介质
CN111582375A (zh) 数据增强策略搜索方法、装置、设备以及存储介质
CN110852379B (zh) 用于目标物体识别的训练样本生成方法及装置
CN111611990A (zh) 用于识别图像中表格的方法和装置
CN111935506B (zh) 用于确定重复视频帧的方法和装置
CN111666771B (zh) 文书的语义标签抽取、装置、电子设备及可读存储介质
CN111241838B (zh) 文本实体的语义关系处理方法、装置及设备
CN110532415B (zh) 图像搜索处理方法、装置、设备及存储介质
CN111640103A (zh) 图像检测方法、装置、设备以及存储介质
CN111753964A (zh) 神经网络的训练方法和装置
CN111737966A (zh) 文档重复度检测方法、装置、设备和可读存储介质
CN111563541B (zh) 图像检测模型的训练方法和装置
CN112560854A (zh) 用于处理图像的方法、装置、设备以及存储介质
CN111507267B (zh) 文档朝向检测方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant