CN113762054A - 图像识别方法、装置、设备及可读存储介质 - Google Patents

图像识别方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN113762054A
CN113762054A CN202110530133.XA CN202110530133A CN113762054A CN 113762054 A CN113762054 A CN 113762054A CN 202110530133 A CN202110530133 A CN 202110530133A CN 113762054 A CN113762054 A CN 113762054A
Authority
CN
China
Prior art keywords
text
text region
region
attribute
form image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110530133.XA
Other languages
English (en)
Inventor
吴潘安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110530133.XA priority Critical patent/CN113762054A/zh
Publication of CN113762054A publication Critical patent/CN113762054A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Input (AREA)

Abstract

本申请公开了一种图像识别方法、装置、设备及可读存储介质,属于图像处理技术领域。方法包括:获取第一表格图像,第一表格图像包含至少一个第一文本区域;确定各个第一文本区域的第一位置信息;根据各个第一文本区域的第一位置信息,确定各个第一文本区域各自的表格属性,表格属性包括行属性或列属性中的至少一项;对各个第一文本区域进行文本识别,得到文本识别结果;根据各个第一文本区域的文本识别结果以及表格属性,获取第一表格图像对应的表格识别结果。本申请实施例根据表格图像中的各个文本区域的位置信息还原出的表格结构准确性较高,能够准确的将文本区域的文本识别结果放入对应的单元格内,提高表格识别结果的准确性。

Description

图像识别方法、装置、设备及可读存储介质
技术领域
本申请实施例涉及图像处理技术领域,特别涉及一种图像识别方法、装置、设备及可读存储介质。
背景技术
随着数字化的推进,许多数据以图像数据的格式进入了数字设备。对于图像数据中包含文本的情况,通常采用光学字符识别(Optical Character Recognition,OCR)技术识别图像数据中的文本。
以需要识别的图像数据为包含表格的表格图像为例,相关技术中,采用OCR技术先识别出表格图像中的行列线条框,还原出表格结构,即得到表格图像中的各个单元格,然后识别表格中每个单元格内的纯文本数据,并将识别出的纯文本数据放在对应的单元格内,得到既包含表格结构又包含文本的表格识别结果。
上述方式仅是针对具有行列线条框的表格图像,可以通过识别出表格图像中的行列线条框,还原出表格结构。针对不具备行列线条框的表格图像,采用上述方式还原出的表格结构不准确,导致每个单元格内的纯文本数据无法准确放在对应的单元格内,从而得到的表格识别结果的准确性不高。
发明内容
本申请实施例提供了一种图像识别方法、装置、设备及可读存储介质,可以提高表格识别结果的准确性。所述技术方案如下:
一方面,本申请实施例提供了一种图像识别方法,所述方法包括:
获取第一表格图像,所述第一表格图像包含至少一个第一文本区域;
确定各个第一文本区域的第一位置信息;
根据所述各个第一文本区域的第一位置信息,确定所述各个第一文本区域各自的表格属性,所述表格属性包括行属性或列属性中的至少一项;
对所述各个第一文本区域进行文本识别,得到文本识别结果;
根据所述各个第一文本区域的文本识别结果以及表格属性,获取所述第一表格图像对应的表格识别结果。
在一种可能的实现方式中,所述第一表格图像包括购物单图像、车票图像、检查报告图像以及化验单图像中的至少一项。
另一方面,本申请实施例提供了一种图像识别装置,所述装置包括:
第一获取模块,用于获取第一表格图像,所述第一表格图像包含至少一个第一文本区域;
第一确定模块,用于确定各个第一文本区域的第一位置信息;
第二确定模块,用于根据所述各个第一文本区域的第一位置信息,确定所述各个第一文本区域各自的表格属性,所述表格属性包括行属性或列属性中的至少一项;
识别模块,用于对所述各个第一文本区域进行文本识别,得到文本识别结果;
第二获取模块,用于根据所述各个第一文本区域的文本识别结果以及表格属性,获取所述第一表格图像对应的表格识别结果。
在一种可能的实现方式中,所述第一获取模块,用于获取第二表格图像,所述第二表格图像中包含倾斜的表格图像区域;识别所述表格图像区域包含的至少一个第二文本区域;根据各个第二文本区域的第二位置信息,确定所述表格图像区域的旋转角度;按照所述表格图像区域的旋转角度,对所述表格图像区域进行旋转矫正,将矫正后的表格图像区域作为目标表格图像区域;基于所述目标表格图像区域获取所述第一表格图像。
在一种可能的实现方式中,所述第一获取模块,用于根据所述各个第二文本区域的第二位置信息,确定所述各个第二文本区域的旋转角度;将所述各个第二文本区域的旋转角度中排序位于中间位置的旋转角度作为所述表格图像区域的旋转角度,或者,将所述各个第二文本区域的旋转角度的平均值作为所述表格图像区域的旋转角度。
在一种可能的实现方式中,所述第一获取模块,用于获取用户输入的关键内容;响应于所述目标表格图像区域中不包含所述关键内容,按照目标旋转角度将所述目标表格图像区域进行旋转矫正,基于矫正后的目标表格图像区域获取所述第一表格图像;响应于所述目标表格图像区域中包含所述关键内容,基于所述目标表格图像区域获取所述第一表格图像。
在一种可能的实现方式中,所述各个第二文本区域与所述各个第一文本区域一一对应,所述第一确定模块,用于确定所述表格图像区域的中心位置信息;根据所述中心位置信息和所述表格图像区域的旋转角度,确定各个第二文本区域的位置旋转信息;根据任一个第二文本区域的位置旋转信息和第二位置信息,确定所述任一个第二文本区域对应的第一文本区域的第一位置信息。
在一种可能的实现方式中,若所述表格属性包括行属性或列属性,所述第二确定模块,用于基于所述各个第一文本区域重复执行以下操作,直至确定所述各个第一文本区域各自的表格属性:
根据所述各个第一文本区域的第一位置信息,从所述各个第一文本区域中确定第三文本区域,并确定所述第三文本区域的表格属性;
计算所述第三文本区域与各个其他文本区域之间的表格属性相似度,任一个其他文本区域为所述各个第一文本区域中除所述第三文本区域之外的第一文本区域;
根据所述第三文本区域与所述各个其他文本区域之间的表格属性相似度,从所述各个其他文本区域中确定目标文本区域,确定所述目标文本区域的表格属性为所述第三文本区域的表格属性。
在一种可能的实现方式中,所述第二确定模块,用于以下任一项:
对于任一个其他文本区域,利用所述第三文本区域的顶点位置信息和所述任一个其他文本区域的顶点位置信息,计算所述第三文本区域与任一个其他文本区域之间的表格属性相似度;
利用所述第三文本区域的中心位置信息和所述任一个其他文本区域的中心位置信息,计算所述第三文本区域与任一个其他文本区域之间的表格属性相似度。
在一种可能的实现方式中,所述第一表格图像包括购物单图像、车票图像、检查报告图像以及化验单图像中的至少一项。
另一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令在被所述处理器执行时使所述计算机设备实现上述任一所述的图像识别方法。
另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行,以使计算机实现上述任一所述的图像识别方法。
另一方面,还提供了一种计算机程序或计算机程序产品,所述计算机程序或计算机程序产品中存储有至少一条计算机指令,所述至少一条计算机指令由处理器加载并执行,以使计算机实现上述任一种图像识别方法。
本申请实施例提供的技术方案至少带来如下有益效果:
本申请实施例提供的技术方案是根据表格图像包含的各个文本区域的位置信息,确定各个文本区域的表格属性,该表格属性包括行属性或列属性中的至少一项,从而还原出表格结构。由于无论是具有行列线条框的表格图像,还是不具有行列线条框的表格图像,表格图像中的各个文本区域均是规范有规律排列的,因此,根据表格图像中的各个文本区域的位置信息还原出的表格结构准确性较高,进一步识别各个文本区域中的文本,根据各个文本区域的文本识别结果以及表格属性,得到表格图像对应的表格识别结果,实现了准确的将文本区域的文本识别结果放入对应的单元格内,提高表格识别结果的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种图像识别方法的实施环境示意图;
图2是本申请实施例提供的一种图像识别方法的流程图;
图3是本申请实施例提供的一种倾斜的表格图像区域的示意图;
图4是本申请实施例提供的一种旋转矫正后的表格图像区域的示意图;
图5是本申请实施例提供的一种第一文本区域的位置示意图;
图6是本申请实施例提供的一种确定第一文本区域表格属性的示意图;
图7是本申请实施例提供的另一种图像识别方法的流程图;
图8是本申请实施例提供的一种两次行对齐操作的流程图;
图9是本申请实施例提供的一种图像识别装置的结构图;
图10是本申请实施例提供的一种计算机设备的结构示意图;
图11是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
图1是本申请实施例提供的一种图像识别方法的实施环境示意图,如图1所示该实施环境包括计算机设备11,本申请实施例中的图像识别方法可以由计算机设备11执行。示例性地,计算机设备11可以包括终端设备或者服务器中的至少一项。
终端设备可以是智能手机、游戏主机、台式计算机、平板电脑和膝上型便携计算机中的至少一种。服务器可以为一台服务器,或者为多台服务器组成的服务器集群,或者为云计算平台和虚拟化中心中的任意一种,本申请实施例对此不加以限定。服务器可以与终端设备通过有线网络或无线网络进行通信连接。服务器可以具有数据处理、数据存储以及数据收发等功能,在本申请实施例中不加以限定。
本申请实施例的图像识别方法,可以基于人工智能技术实现,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
本申请实施例的图像识别方法所涉及到的数据,可以基于云技术实现,在方案实施时所涉及的数据处理/数据计算可以基于云计算实现,在方案实施时所涉及的数据可保存于区块链上。
云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术(Cloudtechnology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as a Service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。
按照逻辑功能划分,在IaaS(Infrastructure as a Service,基础设施即服务)层上可以部署PaaS(Platform as a Service,平台即服务)层,PaaS层之上再部署SaaS(Software as a Service,软件即服务)层,也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台,如数据库、web容器等。SaaS为各式各样的业务软件,如web门户网站、短信群发器等。一般来说,SaaS和PaaS相对于IaaS是上层。
云计算(cloud computing)指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。云计算是网格计算(Grid Computing)、分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network StorageTechnologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。
随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。
基于上述实施环境,本申请实施例提供了一种图像识别方法,以图2所示的本申请实施例提供的一种图像识别方法的流程图为例,该方法可由图1中的计算机设备11执行。如图2所示,该方法包括步骤S21-步骤S25。
步骤S21,获取第一表格图像,第一表格图像包含至少一个第一文本区域。
本申请实施例中,第一表格图像可以是具有行列条框的表格图像,也可以是不具有行列条框的表格图像,例如,第一表格图像包括购物单图像、车票图像、检查报告图像以及化验单图像中的至少一项。其中,购物单图像是购物票的图像,车票图像包括但不限于火车票的图像、汽车票的图像、飞机票的图像以及船票的图像等,检测报告图像是医院检测报告的图像,化验单图像是医院化验单的图像等。
在一种可能的实现方式中,第一表格图像是用户拍摄的原始图像,或者是对用户拍摄的原始图像进行旋转矫正后的图像。对于用户拍摄的原始图像,由于拍摄角度、原始纸张不平整等原因,用户拍摄的原始图像中可能包含倾斜的表格图像区域,也就是说,用户拍摄的原始图像中包含倾斜的表格图像区域或者未倾斜的表格图像区域中的至少一项。当用户拍摄的原始图像中包含倾斜的表格图像区域时,本申请实施例将用户拍摄的原始图像作为第二表格图像,对第二表格图像中倾斜的表格图像区域进行旋转矫正。
本申请实施例的一种可能实现方式,获取第一表格图像,包括:获取第二表格图像,第二表格图像中包含倾斜的表格图像区域;识别表格图像区域包含的至少一个第二文本区域;根据各个第二文本区域的第二位置信息,确定表格图像区域的旋转角度;按照表格图像区域的旋转角度,对表格图像区域进行旋转矫正,将矫正后的表格图像区域作为目标表格图像区域;基于目标表格图像区域获取第一表格图像。
第二表格图像包括但不限于是用户拍摄的原始图像,且第二表格图像中包含至少一个倾斜的表格图像区域。在实际应用时,第二表格图像中还可以包含至少一个未倾斜的表格图像区域。
对于任一个倾斜的表格图像区域,通过OCR技术识别该任一个倾斜的表格图像区域中的至少一个暗区域,暗区域是包含至少一个字符的区域,暗区域即为第二文本区域,即通过OCR技术识别该任一个倾斜的表格图像区域中的至少一个第二文本区域。本申请实施例中,第二文本区域的形状不做限定,示例性的,第二文本区域为矩形。
当识别出任一个第二文本区域后,基于设定的坐标轴,确定该任一个第二文本区域的第二位置信息。其中,当第二文本区域为矩形时,第二位置信息是第二文本区域的至少三个顶点的坐标信息,或者第二位置信息是第二文本区域的两个边长信息、以及一个顶点的坐标信息,或者第二位置信息是第二文本区域的两个对角顶点的坐标信息。
本申请实施例中,对于任一个倾斜的表格图像区域,根据该任一个倾斜的表格图像区域中的各个第二文本区域的第二位置信息,计算出该任一个倾斜的表格图像区域的旋转角度。在一种可能的实现方式中,根据各个第二文本区域的第二位置信息,确定表格图像区域的旋转角度,包括:根据各个第二文本区域的第二位置信息,确定各个第二文本区域的旋转角度;将各个第二文本区域的旋转角度中排序位于中间位置的旋转角度作为表格图像区域的旋转角度,或者,将各个第二文本区域的旋转角度的平均值作为表格图像区域的旋转角度。
对于任一个第二文本区域,根据该任一个第二文本区域的第二位置信息,确定该任一个第二文本区域的最小外接矩形,从而确定该任一个第二文本区域的旋转角度。示例性的,任一个第二文本区域的第二位置信息为四个顶点的坐标,将四个顶点的坐标通过OpenCV(一个提供图像处理和计算机视觉方面的算法的软件)计算出最小外接矩形,并获取OpenCV返回的任一个第二文本区域的旋转角度。
对于任一个倾斜的表格图像区域,根据该任一个倾斜的表格图像区域中的各个第二文本区域的旋转角度,确定该任一个倾斜的表格图像区域的旋转角度。示例性的,将该任一个倾斜的表格图像区域中的各个第二文本区域的旋转角度进行排序,将排序位于中间位置的旋转角度作为该任一个倾斜的表格图像区域的旋转角度;或者,计算该任一个倾斜的表格图像区域中的各个第二文本区域的旋转角度的平均值,将计算出的平均值作为该任一个倾斜的表格图像区域的旋转角度。
进一步的,按照任一个倾斜的表格图像区域的旋转角度,对任一个倾斜的表格图像区域进行旋转矫正,将矫正后的表格图像区域作为目标表格图像区域。若第二表格图像中包含一个倾斜的表格图像区域,则将目标表格图像区域作为第一表格图像;若第二表格图像中包含至少两个倾斜的表格图像区域,则将至少两个倾斜的表格图像区域各自对应的目标表格图像区域进行拼接,将拼接后的图像作为第一表格图像;若第二表格图像中包含倾斜的表格图像区域和未倾斜的表格图像区域,则将目标表格图像区域和未倾斜的表格图像区域进行拼接,将拼接后的图像作为第一表格图像区域。
如图3和图4所示,图3是本申请实施例提供的一种倾斜的表格图像区域的示意图,图4是本申请实施例提供的一种旋转矫正后的表格图像区域的示意图。对于图3所示倾斜的表格图像区域,根据该倾斜的表格图像区域中的标号31所指示的第二文本区域的四个顶点的坐标,利用OpenCV获取标号31所指示的第二文本区域的旋转角度、以及根据该倾斜的表格图像区域中的标号32所指示的第二文本区域的四个顶点的坐标,利用OpenCV获取标号32所指示的第二文本区域的旋转角度。计算标号31所指示的第二文本区域的旋转角度和标号32所指示的第二文本区域的旋转角度之间的旋转角度平均值,将旋转角度平均值作为图3所示的倾斜的表格图像区域的旋转角度,并按照图3所示的倾斜的表格图像区域的旋转角度,对该倾斜的表格图像区域进行旋转矫正,旋转矫正后的表格图像区域如图4所示,该旋转矫正后的表格图像区域即为目标表格图像区域。
在一种可能的实现方式中,基于目标表格图像区域获取第一表格图像,包括:获取用户输入的关键内容;响应于目标表格图像区域中不包含关键内容,按照目标旋转角度将目标表格图像区域进行旋转矫正,基于矫正后的目标表格图像区域获取第一表格图像;响应于目标表格图像区域中包含关键内容,基于目标表格图像区域获取第一表格图像。
本申请实施例中,响应于用户输入关键内容,且目标表格图像区域中不包含该关键内容,说明目标表格图像区域未完全矫正,按照目标旋转角度将该目标表格图像区域进行旋转矫正,基于旋转矫正后的目标表格图像区域获取第一表格图像。示例性的,目标旋转角度为180度,即目标表格图像区域中不包含用户输入的关键内容,说明目标表格图像区域是倒的,将该目标表格图像区域旋转180度矫正,得到正的目标表格图像区域,基于正的目标表格图像区域获取第一表格图像。
在实际应用时,可以进一步判断旋转矫正后的目标表格图像区域中是否存在关键内容,若旋转矫正后的目标表格图像区域中存在关键内容,则基于旋转矫正后的目标表格图像区域获取第一表格图像;若旋转矫正后的目标表格图像区域中不存在关键内容,说明用户输入的关键内容并非是目标表格图像区域中的内容,则生成提示信息并显示,示例性的,提示信息是提示用户重新输入关键内容的信息,或者是提示更换表格图像的信息。
响应于用户输入关键内容,且目标表格图像区域中包含该关键内容,说明目标表格图像区域是完全矫正的,可以基于目标表格图像区域获取第一表格图像。
本申请实施例中,基于旋转矫正后的目标表格图像区域,或者基于目标表格图像区域,获取第一表格图像时,若第二表格图像中包含一个倾斜的表格图像区域,则将旋转矫正后的目标表格图像区域、或者目标表格图像区域作为第一表格图像;若第二表格图像中包含至少两个倾斜的表格图像区域,则将至少两个倾斜的表格图像区域各自对应的目标表格图像区域、或者旋转矫正后的目标表格图像区域进行拼接,将拼接后的图像作为第一表格图像;若第二表格图像中包含倾斜的表格图像区域和未倾斜的表格图像区域,则将目标表格图像区域和未倾斜的表格图像区域进行拼接、或者将旋转矫正后的目标表格图像区域和未倾斜的表格图像区域进行拼接,将拼接后的图像作为第一表格图像区域。
步骤S22,确定各个第一文本区域的第一位置信息。
在一种可能的实现方式中,利用OCR技术识别出第一表格图像中的至少一个暗区域,任一个暗区域中包含至少一个字符,暗区域为第一文本区域。即通过OCR技术识别第一表格图像中的至少一个第一文本区域。本申请实施例中,第一文本区域的形状不做限定,示例性的,第一文本区域为矩形。当识别出任一个第一文本区域后,基于设定的坐标轴,可以确定该任一个第一文本区域的第一位置信息。
在另一种可能的实现方式中,各个第二文本区域与各个第一文本区域一一对应,确定各个第一文本区域的第一位置信息,包括:确定表格图像区域的中心位置信息;根据中心位置信息和表格图像区域的旋转角度,确定各个第二文本区域的位置旋转信息;根据任一个第二文本区域的位置旋转信息和第二位置信息,确定任一个第二文本区域对应的第一文本区域的第一位置信息。
本申请实施例中,对于任一个倾斜的表格图像区域,基于设定的坐标轴,可以确定出任一个倾斜的表格图像区域的中心位置信息,根据任一个倾斜的表格图像区域的中心位置信息和旋转角度,利用OpenCV中的仿射变换算法计算各个第二文本区域的位置旋转信息,各个第二文本区域的位置旋转信息相同,均为一个旋转矩阵,该旋转矩阵如下式所示:
Figure BDA0003067300690000111
α=scale·cosangle
β=scale·sinangle
其中,Mat为旋转矩阵,即第二文本区域的位置旋转信息,α为第一旋转矩阵系数,β为第二旋转矩阵系数,center.x为任一个倾斜的表格图像区域的中心位置信息中的横坐标,center.y为任一个倾斜的表格图像区域的中心位置信息中的纵坐标,scale为第三旋转矩阵系数,其值是根据人工经验设定的,示例性的,scale的值为1,angle为任一个倾斜的表格图像区域的旋转角度。
本申请实施例中,根据任一个第二文本区域的位置旋转信息和第二位置信息,按照如下所示的公式计算该任一个第二文本区域对应的第一文本区域的第一位置信息:
x′=Mat[0][0]x+Mat[0][1]y+Mat[0][2]
y′=Mat[1][0]x+Mat[1][1]y+Mat[1][2]
其中,x′为任一个第二文本区域对应的第一文本区域的第一位置信息的横坐标,y′为任一个第二文本区域对应的第一文本区域的第一位置信息的纵坐标,x为任一个第二文本区域的第二位置信息的横坐标,y为任一个第二文本区域的第二位置信息的横坐标,Mat为一个两行三列的旋转矩阵,Mat[0][0]为旋转矩阵中第0行第0例的数值,即前文提及的α,Mat[0][1]为旋转矩阵中第0行第1例的数值,即前文提及的β,Mat[0][2]为旋转矩阵中第0行第2例的数值,即前文提及的(1-α)center.x-βcenter.y,Mat[1][0]为旋转矩阵中第1行第0例的数值,即前文提及的-β,Mat[1][1]为旋转矩阵中第1行第1例的数值,即前文提及的α,Mat[1][2]为旋转矩阵中第1行第2例的数值,即前文提及的βcenter.x+(1-α)center.y。
示例性的,第二文本区域的第二位置信息为第二文本区域的四个顶点的横纵坐标,第一文本区域的第一位置信息为第一文本区域的四个顶点的横纵坐标,按照上述公式,根据第二文本区域的四个顶点的横纵坐标以及旋转矩阵,计算变换后的第一文本区域的四个顶点的横纵坐标。
步骤S23,根据各个第一文本区域的第一位置信息,确定各个第一文本区域各自的表格属性,表格属性包括行属性或列属性中的至少一项。
在实际应用中,由于旋转矫正、用户拍摄时纸张折叠等原因,确定出各个第一文本区域的第一位置信息之后,可能出现第一文本区域的位置不平整的现象,即,识别出各个第一文本区域的位置后,第一文本区域的行、列之间并不规整,如图5所示,图5是本申请实施例提供的一种第一文本区域的位置示意图,图5中包括四个第一文本区域,分别为第一文本区域1-4。在实际应用时,倾向于第一文本区域1、3、4是同一行,只是由于纸张折叠、旋转矫正等原因,导致第一文本区域2与第一文本区域1、3之间存在部分重合,从而导致第一文本区域2与第一文本区域1、3在水平上比较接近。但实际上,第一文本区域2与第一文本区域1、3并不是同一行的数据,倾向于第一文本区域2是第一文本区域1、3的上一行。基于上述原因,本申请实施例提供了一种根据各个第一文本区域的第一位置信息,确定各个第一文本区域各自的表格属性的方式,具体如下:
在一种可能的实现方式中,若表格属性包括行属性或列属性,根据各个第一文本区域的第一位置信息,确定各个第一文本区域各自的表格属性,包括:基于各个第一文本区域重复执行表格属性确定操作,直至确定各个第一文本区域各自的表格属性。
表格属性确定操作,包括但不限于:根据各个第一文本区域的第一位置信息,从各个第一文本区域中确定第三文本区域,并确定第三文本区域的表格属性;计算第三文本区域与各个其他文本区域之间的表格属性相似度,任一个其他文本区域为各个第一文本区域中除第三文本区域之外的第一文本区域;根据第三文本区域与各个其他文本区域之间的表格属性相似度,从各个其他文本区域中确定目标文本区域,确定目标文本区域的表格属性为第三文本区域的表格属性。
本申请实施例中,采用链式查找算法确定各个第一文本区域各自的表格属性。具体的,对各个第一文本区域的第一位置信息进行排序,得到各个第一文本区域的序号。在每一次的表格属性确定操作过程中,从各个第一文本区域中确定出序号与表格属性确定操作的次数相同的第一文本区域,将确定出的第一文本区域作为第三文本区域,根据已确定文本区域的表格属性,确定第三文本区域的表格属性。计算第三文本区域与各个其他文本区域之间的表格属性相似度,根据第三文本区域与各个其他文本区域之间的表格属性相似度,从各个其他文本区域中确定目标文本区域,确定目标文本区域的表格属性为第三文本区域的表格属性。
在实际应用中,可以基于各个第一文本区域的目标顶点横纵坐标之和,对各个第一文本区域进行排序,例如,基于第一文本区域1-9的左上顶点横纵坐标之和,对第一文本区域1-9进行排序。
本申请实施例提供了一个具体实例,如图6所示,图6是本申请实施例提供的一种确定第一文本区域表格属性的示意图,对各个第一文本区域的第一位置信息进行排序后,得到如图6所示的各个第一文本区域的序号,即当前文本区域集中包括图6中的第一文本区域1-9。在第一次的表格属性确定操作过程中,从第一文本区域1-9中确定出第一文本区域1为第三文本区域,确定第一文本区域1的行属性为第一行,计算第一文本区域1分别与第一文本区域2-9之间的表格属性相似度,根据第一文本区域1分别与第一文本区域2-9之间的表格属性相似度,从第一文本区域2-9中确定目标文本区域,即确定第一文本区域2为目标文本区域,确定第一文本区域2的行属性为第一行。
在第二次的表格属性确定操作过程中,从第一文本区域1-9中确定第一文本区域2为第三文本区域,计算第一文本区域2分别与第一文本区域1、3-9之间的表格属性相似度,根据第一文本区域2分别与第一文本区域1、3-9之间的表格属性相似度,从第一文本区域1、3-9中确定目标文本区域,即确定第一文本区域1、3为目标文本区域,确定第一文本区域1、3的行属性为第一行,以此类推,直至确定出所有的第一文本区域的行属性为止。
在实际应用时,在每一次的表格属性确定操作过程中,可以计算第三文本区域与除第三文本区域之外的其他未确定表格属性的文本区域之间的表格属性相似度,根据第三文本区域与除第三文本区域之外的其他未确定表格属性的文本区域之间的表格属性相似度,从除第三文本区域之外的其他未确定表格属性的文本区域中确定目标文本区域,确定目标文本区域的表格属性为第三文本区域的表格属性。可以理解的是,在任一次的表格属性确定操作过程中,存在无法从除第三文本区域之外的其他未确定表格属性的文本区域中确定出目标文本区域的情况。
例如,如图6中,在第二次的表格属性确定操作过程中,从第一文本区域1-9中确定第一文本区域2为第三文本区域,由于在第一次的表格属性确定操作过程中已确定第一文本区域1、2的表格属性为第一行,因此,除第三文本区域之外的其他未确定表格属性的文本区域包括第一文本区域3-9。计算第一文本区域2分别与第一文本区域3-9之间的表格属性相似度,根据第一文本区域2分别与第一文本区域3-9之间的表格属性相似度,从第一文本区域3-9中确定目标文本区域,即确定第一文本区域3为目标文本区域,确定第一文本区域3的行属性为第一行。
在第三次的表格属性确定操作过程中,从第一文本区域1-9中确定第一文本区域3为第三文本区域,由于在前两次的表格属性确定操作过程中已确定第一文本区域1、2、3的表格属性为第一行,因此,除第三文本区域之外的其他未确定表格属性的文本区域包括第一文本区域4-9。计算第一文本区域3分别与第一文本区域4-9之间的表格属性相似度,根据第一文本区域3分别与第一文本区域4-9之间的表格属性相似度,无法从第一文本区域4-9中确定出目标文本区域,也就是说,第一文本区域4-9的表格属性均不是第一行,此时,第三次的表格属性确定操作过程结果,进入第四次的表格属性确定操作过程。
在第四次的表格属性确定操作过程中,从第一文本区域1-9中确定第一文本区域4为第三文本区域,由于在前三次的表格属性确定操作过程中已确定第一文本区域1、2、3的表格属性为第一行,因此,除第三文本区域之外的其他未确定表格属性的文本区域包括第一文本区域5-9。确定第一文本区域4的表格属性为第二行,计算第一文本区域4分别与第一文本区域5-9之间的表格属性相似度,根据第一文本区域4分别与第一文本区域5-9之间的表格属性相似度,从第一文本区域5-9中确定出目标文本区域,即确定第一文本区域5为目标文本区域,确定第一文本区域5的行属性为第二行。以此类推,直至确定出所有的第一文本区域的行属性为止。
在一种可能的实现方式中,计算第三文本区域与各个其他文本区域之间的表格属性相似度,包括以下任一项:对于任一个其他文本区域,利用第三文本区域的顶点位置信息和任一个其他文本区域的顶点位置信息,计算第三文本区域与任一个其他文本区域之间的表格属性相似度;利用第三文本区域的中心位置信息和任一个其他文本区域的中心位置信息,计算第三文本区域与任一个其他文本区域之间的表格属性相似度。
本申请实施例中,表格属性相似度包括行属性相似度和列属性相似度中的至少一项。
在一种可能的实现方式中,计算第三文本区域与任一个其他文本区域之间的行属性相似度时,利用第三文本区域的上(或者下)顶点位置信息和任一个其他文本区域的上(或者下)顶点位置信息,计算第三文本区域与任一个其他文本区域之间的行属性相似度。其中,上顶点位置信息包括左上顶点坐标和右上顶点坐标,下顶点位置信息包括左下顶点坐标和右下顶点坐标,任一个坐标包括横坐标和纵坐标,行属性相似度包括第一行属性相似度和第二行属性相似度中的至少一项。
在实际实现时,计算第三文本区域的右上顶点纵坐标和任一个其他文本区域的左上顶点纵坐标之间的绝对值,将计算得到的绝对值作为第三文本区域和任一个其他文本区域之间的第一行属性相似度;计算第三文本区域的右下顶点纵坐标和任一个其他文本区域的左下顶点纵坐标之间的绝对值,将计算得到的绝对值作为第三文本区域和任一个其他文本区域之间的第二行属性相似度。上述过程可以采用如下所示的公式表示:
scoretop=abs(Oright_topy-Rleft_topy)
scorebottom=abs(Oright_bottomy-Rleft_bottomy)
其中,scoretop为第一行属性相似度,scorebottom为第二行属性相似度,abs为绝对值函数符号,Oright_topy为第三文本区域的右上顶点纵坐标,Oright_bottomy为第三文本区域的右下顶点纵坐标,Rleft_topy为任一个其他文本区域的左上顶点纵坐标,Rleft_bottomy为任一个其他文本区域的左下顶点纵坐标。
当然,在实际实现时,还可以将第三文本区域的左上顶点纵坐标和任一个其他文本区域的左上顶点纵坐标之间的绝对值,作为第三文本区域和任一个其他文本区域之间的第一行属性相似度,或者,将第三文本区域的左上顶点纵坐标和任一个其他文本区域的右上顶点纵坐标之间的绝对值,作为第三文本区域和任一个其他文本区域之间的第一行属性相似度,或者,将第三文本区域的右上顶点纵坐标和任一个其他文本区域的右上顶点纵坐标之间的绝对值,作为第三文本区域和任一个其他文本区域之间的第一行属性相似度;将第三文本区域的左下顶点纵坐标和任一个其他文本区域的左下顶点纵坐标之间的绝对值,作为第三文本区域和任一个其他文本区域之间的第二行属性相似度,或者,将第三文本区域的左下顶点纵坐标和任一个其他文本区域的右下顶点纵坐标之间的绝对值,作为第三文本区域和任一个其他文本区域之间的第二行属性相似度,或者,将第三文本区域的右下顶点纵坐标和任一个其他文本区域的右下顶点纵坐标之间的绝对值,作为第三文本区域和任一个其他文本区域之间的第二行属性相似度。
本申请实施例中,若满足第一行属性相似度小于或等于第一行属性相似度阈值,和/或,满足第二行属性相似度小于或等于第二行属性相似度阈值,则确定任一个其他文本区域为目标文本区域。其中,第一行属性相似度阈值和第二行属性相似度阈值可以为同一个值,也可以为不同值,第一行属性相似度阈值和第二行属性相似度阈值是根据人工经验确定的。
在另一种可能的实现方式中,利用第三文本区域的中心位置信息和任一个其他文本区域的中心位置信息,计算第三文本区域与任一个其他文本区域之间的行属性相似度。其中,中心位置信息为中心坐标,中心坐标包括中心横坐标和中心纵坐标。
在实际实现时,计算第三文本区域的中心纵坐标和任一个其他文本区域的中心纵坐标之间的绝对值,将计算得到的绝对值作为第三文本区域和任一个其他文本区域之间的行属性相似度。若满足行属性相似度小于或等于第三行属性相似度阈值,则确定任一个其他文本区域为目标文本区域。
在另一种可能的实现方式中,计算第三文本区域与任一个其他文本区域之间的列属性相似度时,利用第三文本区域的左顶点位置信息和任一个其他文本区域的左顶点位置信息,计算第三文本区域与任一个其他文本区域之间的第一列属性相似度,和/或,利用第三文本区域的右顶点位置信息和任一个其他文本区域的右顶点位置信息,计算第三文本区域与任一个其他文本区域之间的第二列属性相似度。其中,左顶点位置信息包括左上顶点坐标和左下顶点坐标,右顶点位置信息包括右上顶点坐标和右下顶点坐标,任一个坐标包括横坐标和纵坐标,列属性相似度包括第一列属性相似度和第二列属性相似度中的至少一项。
在实际实现时,计算第三文本区域的左顶点横坐标和任一个其他文本区域的左顶点横坐标之间的绝对值,将计算得到的绝对值作为第三文本区域和任一个其他文本区域之间的第一列属性相似度;计算第三文本区域的右顶点横坐标和任一个其他文本区域的右顶点横坐标之间的绝对值,将计算得到的绝对值作为第三文本区域和任一个其他文本区域之间的第二列属性相似度。
本申请实施例中,若满足第一列属性相似度小于或等于第一列属性相似度阈值,和/或,满足第二列属性相似度小于或等于第二列属性相似度阈值,则确定任一个其他文本区域为目标文本区域。其中,第一列属性相似度阈值和第二列属性相似度阈值可以为同一个值,也可以为不同值,第一列属性相似度阈值和第二列属性相似度阈值是根据人工经验确定的。
在另一种可能的实现方式中,利用第三文本区域的中心位置信息和任一个其他文本区域的中心位置信息,计算第三文本区域与任一个其他文本区域之间的列属性相似度。其中,中心位置信息为中心坐标,中心坐标包括中心横坐标和中心纵坐标。
在实际实现时,计算第三文本区域的中心横坐标和任一个其他文本区域的中心横坐标之间的绝对值,将计算得到的绝对值作为第三文本区域和任一个其他文本区域之间的第三列属性相似度阈值。若满足列属性相似度小于或等于第三列属性相似度阈值,则确定任一个其他文本区域为目标文本区域。
步骤S24,对各个第一文本区域进行文本识别,得到文本识别结果。
本申请实施例中,对任一个第一文本区域进行文本识别,得到该任一个第一文本区域的文本识别结果。对第一文本区域进行文本识别的方式不做限定,例如,采用OCR技术或者文本识别模型对第一文本区域进行文本识别。
步骤S25,根据各个第一文本区域的文本识别结果以及表格属性,获取第一表格图像对应的表格识别结果。
采用本申请实施例的方式,可以确定任一个第一文本区域的文本识别结果和表格属性,将任一个第一文本区域的文本识别结果按照该任一个第一文本区域的表格属性进行排列,从而得到第一表格图像对应的表格识别结果。
本申请实施例提供的技术方案是根据表格图像包含的各个文本区域的位置信息,确定各个文本区域的表格属性,该表格属性包括行属性或列属性中的至少一项,从而还原出表格结构,由于无论是具有行列线条框的表格图像,还是不具有行列线条框的表格图像,表格图像中的各个文本区域均是规范有规律排列的,因此,根据表格图像中的各个文本区域的位置信息还原出的表格结构准确性较高,进一步识别各个文本区域中的文本,根据各个文本区域的文本识别结果以及表格属性,得到表格图像对应的表格识别结果,实现了准确的将文本区域的文本识别结果放入对应的单元格内,提高表格识别结果的准确性。
上述从方法步骤的角度详细阐述了本申请实施例的图像识别方法,下面将结合一个具体的场景进行详细说明。在该场景中,第二表格图像为用户拍摄的化验单图像,且化验单图像中包含倾斜的化验单表格图像区域,表格属性为行属性。如图7所示,图7是本申请实施例提供的另一种图像识别方法的流程图。该方法包括步骤S71-步骤S78。
步骤S71,获取用户拍摄的化验单图像,化验单图像中包含倾斜的化验单表格图像区域。
步骤S72,识别化验单表格图像区域中包含的各个文本区域。
步骤S73,根据各个文本区域的位置信息,确定化验单表格图像区域的旋转角度,按照旋转角度对化验单表格图像区域进行旋转矫正,将矫正后的化验单表格图像区域作为目标表格图像区域。
步骤S74,获取用户输入的关键内容。
若目标表格图像区域中不包含关键内容,则执行步骤S75,将目标表格图像区域旋转180度,基于矫正后的目标表格图像区域获取第一表格图像,然后执行步骤S76和步骤S77;若目标表格图像区域中包含关键内容,基于目标表格图像区域获取第一表格图像,则执行步骤S78,基于目标表格图像区域获取第一表格图像,然后执行步骤S76和步骤S77。
步骤S76,根据第一表格图像中各个文本区域的位置信息,确定各个文本区域各自的行属性。
步骤S77,对各个文本区域进行文本识别,得到文本识别结果,并根据各个文本区域的文本识别结果和行属性,整合成化验单图像的表格识别结果。
本申请实施例中,步骤S71-步骤S75的实现方式可以见前述实施例的相关描述,在此不再赘述。
在步骤S76中,确定第一表格图像中各个文本区域的行属性时,行属性确定操作分为两次行对齐操作,通过两次行对齐操作,实现准确的确定文本区域的行属性。如图8所示,图8是本申请实施例提供的一种两次行对齐操作的流程图。具体地,先执行步骤S81,对第一表格图像中的各个文本区域的位置信息进行排序,得到各个文本区域的序号,然后,执行第一次行对齐操作。第一次行对齐操作包括步骤S82-步骤S84。
在第一次行对齐操作过程中,先执行步骤S82,从各个文本区域中确定出序号与循环次数相同的文本区域,将确定出的文本区域作为第三文本区域,根据已确定文本区域的行属性,确定第三文本区域的行属性,其中,循环次数为第一次行对齐操作的次数。然后执行步骤S83,计算第三文本区域与各个其他文本区域之间的第一行属性相似度和第二行属性相似度,任一个其他文本区域为各个文本区域中除第三文本区域之外的文本区域。其中,第一行属性相似度和第二行属性相似度的计算方式见前述实施例有关第一行属性相似度和第二行属性相似度的说明,在此不再赘述。接着执行步骤S84,若任一个其他文本区域对应的第一行属性相似度小于或等于第一行属性相似度阈值,且第二行属性相似度小于或等于第二行属性相似度阈值,则确定任一个其他文本区域为目标文本区域,确定目标文本区域的行属性为第三文本区域的行属性。
若存在未确定行属性的文本区域,则执行下一次的第一次行对齐操作,也就是重新执行步骤S82-步骤S84;若不存在未确定行属性的文本区域,则执行第二次行对齐操作,第二次行对齐操作包括步骤S85-步骤S86。
在第二次行对齐操作过程中,先执行步骤S85,基于各个文本区域的行属性,确定各个行属性对应的文本区域数量,从而确定出文本区域数量为1的行属性所对应的文本区域,作为第四文本区域,其中,第四文本区域的数量为至少一个。然后执行步骤S86,计算第四文本区域与各个第五文本区域之间的第一行属性相似度和第二行属性相似度,任一个第五文本区域为各个文本区域中除第四文本区域之外的文本区域。接着执行步骤S87,若任一个第五文本区域对应的第一行属性相似度小于或等于第一行属性相似度阈值,或者,第二行属性相似度小于或等于第二行属性相似度阈值,则确定任一个第五文本区域为第六文本区域,修改第四文本区域的行属性为第六文本区域的行属性;否则,确定第四文本区域的行属性不变。即若第四文本区域满足修改条件,则修改第四文本区域的行属性为第六文本区域的行属性;若第四文本区域不满足修改条件,则确定第四文本区域的行属性不变,修改条件为:第四文本区域对应的、任一个第五文本区域对应的第一行属性相似度小于或等于第一行属性相似度阈值,或者,第二行属性相似度小于或等于第二行属性相似度阈值。
若存在未重新确定行属性的第四文本区域,则执行下一次的第二次行对齐操作,也就是重新执行步骤S85-步骤S87;若不存在未重新确定行属性的第四文本区域,则第二次行对齐操作结束,执行步骤S77。
本申请实施例中,第一次行对齐操作、第二次行对齐操作的实现原理与前述有关表格属性确定操作的实现原理相类似,在此不再赘述。
在实际执行时,修改条件还可以为:任一个第五文本区域对应的第一行属性相似度小于或等于第四行属性相似度阈值,且,第二行属性相似度小于或等于第五行属性相似度阈值,其中,第四行属性相似度阈值与第五行属性相似度阈值相同或者不同,第四行属性相似度阈值大于第一行属性相似度阈值和/或大于第二行属性相似度阈值,第五行属性相似度阈值大于第一行属性相似度阈值和/或大于第二行属性相似度阈值。
本申请实施例中,通过第一次行对齐操作,实现准确的确定各个文本区域的行属性,以准确的还原出表格结构,通过第二次行对齐操作,重新确定文本区域数量为1的行属性所对应的文本区域,即重新确定单独成一行的文本区域的行属性,以修正单独成一行的文本区域的行属性,提高表格结构的准确度,以便准确的将文本区域的文本识别结果放入对应的单元格内,提高表格识别结果的准确性。
如图9所示,图9是本申请实施例提供的一种图像识别装置90的结构图,该图像识别装置90包括:
第一获取模块91,用于获取第一表格图像,第一表格图像包含至少一个第一文本区域。
第一确定模块92,用于确定各个第一文本区域的第一位置信息。
第二确定模块93,用于根据各个第一文本区域的第一位置信息,确定各个第一文本区域各自的表格属性,表格属性包括行属性或列属性中的至少一项。
识别模块94,用于对各个第一文本区域进行文本识别,得到文本识别结果。
第二获取模块95,用于根据各个第一文本区域的文本识别结果以及表格属性,获取第一表格图像对应的表格识别结果。
在一种可能的实现方式中,第一获取模块91,用于获取第二表格图像,第二表格图像中包含倾斜的表格图像区域;识别表格图像区域包含的至少一个第二文本区域;根据各个第二文本区域的第二位置信息,确定表格图像区域的旋转角度;按照表格图像区域的旋转角度,对表格图像区域进行旋转矫正,将矫正后的表格图像区域作为目标表格图像区域;基于目标表格图像区域获取第一表格图像。
在一种可能的实现方式中,第一获取模块91,用于根据各个第二文本区域的第二位置信息,确定各个第二文本区域的旋转角度;将各个第二文本区域的旋转角度中排序位于中间位置的旋转角度作为表格图像区域的旋转角度,或者,将各个第二文本区域的旋转角度的平均值作为表格图像区域的旋转角度。
在一种可能的实现方式中,第一获取模块91,用于获取用户输入的关键内容;响应于目标表格图像区域中不包含关键内容,按照目标旋转角度将目标表格图像区域进行旋转矫正,基于矫正后的目标表格图像区域获取第一表格图像;响应于目标表格图像区域中包含关键内容,基于目标表格图像区域获取第一表格图像。
在一种可能的实现方式中,各个第二文本区域与各个第一文本区域一一对应,第一确定模块92,用于确定表格图像区域的中心位置信息;根据中心位置信息和表格图像区域的旋转角度,确定各个第二文本区域的位置旋转信息;根据任一个第二文本区域的位置旋转信息和第二位置信息,确定任一个第二文本区域对应的第一文本区域的第一位置信息。
在一种可能的实现方式中,若表格属性包括行属性或列属性,第二确定模块93,用于基于各个第一文本区域重复执行以下操作,直至确定各个第一文本区域各自的表格属性:
根据各个第一文本区域的第一位置信息,从各个第一文本区域中确定第三文本区域,并确定第三文本区域的表格属性;
计算第三文本区域与各个其他文本区域之间的表格属性相似度,任一个其他文本区域为各个第一文本区域中除所述第三文本区域之外的第一文本区域;
根据第三文本区域与各个其他文本区域之间的表格属性相似度,从各个其他文本区域中确定目标文本区域,确定目标文本区域的表格属性为第三文本区域的表格属性。
在一种可能的实现方式中,第二确定模块93,用于以下任一项:
对于任一个其他文本区域,利用第三文本区域的顶点位置信息和任一个其他文本区域的顶点位置信息,计算第三文本区域与任一个其他文本区域之间的表格属性相似度;
利用第三文本区域的中心位置信息和任一个其他文本区域的中心位置信息,计算第三文本区域与任一个其他文本区域之间的表格属性相似度。
在一种可能的实现方式中,第一表格图像包括购物单图像、车票图像、检查报告图像以及化验单图像中的至少一项。
应理解的是,上述图9提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图10示出了本申请一个示例性实施例提供的计算机设备1000的结构框图。该计算机设备1000可以是便携式移动终端,比如:智能手机、平板电脑、MP3播放器(MovingPicture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。计算机设备1000还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,计算机设备1000包括有:处理器1001和存储器1002。
处理器1001可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1001可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1001可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1001还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1002可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1002中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1001所执行以实现本申请中方法实施例提供的图像识别方法。
在一些实施例中,计算机设备1000还可选包括有:外围设备接口1003和至少一个外围设备。处理器1001、存储器1002和外围设备接口1003之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1003相连。具体地,外围设备包括:射频电路1004、显示屏1005、摄像头组件1006、音频电路1007、定位组件1008和电源1009中的至少一种。
外围设备接口1003可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1001和存储器1002。在一些实施例中,处理器1001、存储器1002和外围设备接口1003被集成在同一芯片或电路板上;在一些其他实施例中,处理器1001、存储器1002和外围设备接口1003中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1004用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1004通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1004将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1004包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1004可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1004还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏1005用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1005是触摸显示屏时,显示屏1005还具有采集在显示屏1005的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1001进行处理。此时,显示屏1005还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1005可以为一个,设置在计算机设备1000的前面板;在另一些实施例中,显示屏1005可以为至少两个,分别设置在计算机设备1000的不同表面或呈折叠设计;在另一些实施例中,显示屏1005可以是柔性显示屏,设置在计算机设备1000的弯曲表面上或折叠面上。甚至,显示屏1005还可以设置成非矩形的不规则图形,也即异形屏。显示屏1005可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(OrganicLight-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件1006用于采集图像或视频。可选地,摄像头组件1006包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1006还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1007可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1001进行处理,或者输入至射频电路1004以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在计算机设备1000的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1001或射频电路1004的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1007还可以包括耳机插孔。
定位组件1008用于定位计算机设备1000的当前地理位置,以实现导航或LBS(Location Based Service,基于位置的服务)。定位组件1008可以是基于美国的GPS(Global Positioning System,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
电源1009用于为计算机设备1000中的各个组件进行供电。电源1009可以是交流电、直流电、一次性电池或可充电电池。当电源1009包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,计算机设备1000还包括有一个或多个传感器1010。该一个或多个传感器1010包括但不限于:加速度传感器1011、陀螺仪传感器1012、压力传感器1013、指纹传感器1014、光学传感器1015以及接近传感器1016。
加速度传感器1011可以检测以计算机设备1000建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1011可以用于检测重力加速度在三个坐标轴上的分量。处理器1001可以根据加速度传感器1011采集的重力加速度信号,控制显示屏1005以横向视图或纵向视图进行用户界面的显示。加速度传感器1011还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1012可以检测计算机设备1000的机体方向及转动角度,陀螺仪传感器1012可以与加速度传感器1011协同采集用户对计算机设备1000的3D动作。处理器1001根据陀螺仪传感器1012采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1013可以设置在计算机设备1000的侧边框和/或显示屏1005的下层。当压力传感器1013设置在计算机设备1000的侧边框时,可以检测用户对计算机设备1000的握持信号,由处理器1001根据压力传感器1013采集的握持信号进行左右手识别或快捷操作。当压力传感器1013设置在显示屏1005的下层时,由处理器1001根据用户对显示屏1005的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器1014用于采集用户的指纹,由处理器1001根据指纹传感器1014采集到的指纹识别用户的身份,或者,由指纹传感器1014根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1001授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1014可以被设置在计算机设备1000的正面、背面或侧面。当计算机设备1000上设置有物理按键或厂商Logo时,指纹传感器1014可以与物理按键或厂商Logo集成在一起。
光学传感器1015用于采集环境光强度。在一个实施例中,处理器1001可以根据光学传感器1015采集的环境光强度,控制显示屏1005的显示亮度。具体地,当环境光强度较高时,调高显示屏1005的显示亮度;当环境光强度较低时,调低显示屏1005的显示亮度。在另一个实施例中,处理器1001还可以根据光学传感器1015采集的环境光强度,动态调整摄像头组件1006的拍摄参数。
接近传感器1016,也称距离传感器,通常设置在计算机设备1000的前面板。接近传感器1016用于采集用户与计算机设备1000的正面之间的距离。在一个实施例中,当接近传感器1016检测到用户与计算机设备1000的正面之间的距离逐渐变小时,由处理器1001控制显示屏1005从亮屏状态切换为息屏状态;当接近传感器1016检测到用户与计算机设备1000的正面之间的距离逐渐变大时,由处理器1001控制显示屏1005从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图10中示出的结构并不构成对计算机设备1000的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图11为本申请实施例提供的服务器的结构示意图,该服务器1100可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(Central Processing Units,CPU)1101和一个或多个的存储器1102,其中,该一个或多个存储器1102中存储有至少一条程序代码,该至少一条程序代码由该一个或多个处理器1101加载并执行以实现上述各个方法实施例提供的图像识别方法。当然,该服务器1100还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器1100还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,该存储介质中存储有至少一条指令,该至少一条指令由处理器加载并执行,以使计算机实现上述任一种图像识别方法。
可选地,上述计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read-OnlyMemory,CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品中存储有至少一条计算机指令,该至少一条计算机指令由处理器加载并执行,以使计算机实现上述任一种图像识别方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种图像识别方法,其特征在于,所述方法包括:
获取第一表格图像,所述第一表格图像包含至少一个第一文本区域;
确定各个第一文本区域的第一位置信息;
根据所述各个第一文本区域的第一位置信息,确定所述各个第一文本区域各自的表格属性,所述表格属性包括行属性或列属性中的至少一项;
对所述各个第一文本区域进行文本识别,得到文本识别结果;
根据所述各个第一文本区域的文本识别结果以及表格属性,获取所述第一表格图像对应的表格识别结果。
2.根据权利要求1所述的方法,其特征在于,所述获取第一表格图像,包括:
获取第二表格图像,所述第二表格图像中包含倾斜的表格图像区域;
识别所述表格图像区域包含的至少一个第二文本区域;
根据各个第二文本区域的第二位置信息,确定所述表格图像区域的旋转角度;
按照所述表格图像区域的旋转角度,对所述表格图像区域进行旋转矫正,将矫正后的表格图像区域作为目标表格图像区域;
基于所述目标表格图像区域获取所述第一表格图像。
3.根据权利要求2所述的方法,其特征在于,所述根据各个第二文本区域的第二位置信息,确定所述表格图像区域的旋转角度,包括:
根据所述各个第二文本区域的第二位置信息,确定所述各个第二文本区域的旋转角度;
将所述各个第二文本区域的旋转角度中排序位于中间位置的旋转角度作为所述表格图像区域的旋转角度,或者,将所述各个第二文本区域的旋转角度的平均值作为所述表格图像区域的旋转角度。
4.根据权利要求2所述的方法,其特征在于,所述基于所述目标表格图像区域获取所述第一表格图像,包括:
获取用户输入的关键内容;
响应于所述目标表格图像区域中不包含所述关键内容,按照目标旋转角度将所述目标表格图像区域进行旋转矫正,基于矫正后的目标表格图像区域获取所述第一表格图像;
响应于所述目标表格图像区域中包含所述关键内容,基于所述目标表格图像区域获取所述第一表格图像。
5.根据权利要求2-4任一项所述的方法,其特征在于,所述各个第二文本区域与所述各个第一文本区域一一对应,所述确定各个第一文本区域的第一位置信息,包括:
确定所述表格图像区域的中心位置信息;
根据所述中心位置信息和所述表格图像区域的旋转角度,确定各个第二文本区域的位置旋转信息;
根据任一个第二文本区域的位置旋转信息和第二位置信息,确定所述任一个第二文本区域对应的第一文本区域的第一位置信息。
6.根据权利要求1-4任一项所述的方法,其特征在于,若所述表格属性包括行属性或列属性,所述根据所述各个第一文本区域的第一位置信息,确定所述各个第一文本区域各自的表格属性,包括:
基于所述各个第一文本区域重复执行以下操作,直至确定所述各个第一文本区域各自的表格属性:
根据所述各个第一文本区域的第一位置信息,从所述各个第一文本区域中确定第三文本区域,并确定所述第三文本区域的表格属性;
计算所述第三文本区域与各个其他文本区域之间的表格属性相似度,任一个其他文本区域为所述各个第一文本区域中除所述第三文本区域之外的第一文本区域;
根据所述第三文本区域与所述各个其他文本区域之间的表格属性相似度,从所述各个其他文本区域中确定目标文本区域,确定所述目标文本区域的表格属性为所述第三文本区域的表格属性。
7.根据权利要求6所述的方法,其特征在于,所述计算所述第三文本区域与各个其他文本区域之间的表格属性相似度,包括以下任一项:
对于任一个其他文本区域,利用所述第三文本区域的顶点位置信息和所述任一个其他文本区域的顶点位置信息,计算所述第三文本区域与任一个其他文本区域之间的表格属性相似度;
利用所述第三文本区域的中心位置信息和所述任一个其他文本区域的中心位置信息,计算所述第三文本区域与任一个其他文本区域之间的表格属性相似度。
8.一种图像识别装置,其特征在于,所述装置包括:
第一获取模块,用于获取第一表格图像,所述第一表格图像包含至少一个第一文本区域;
第一确定模块,用于确定各个第一文本区域的第一位置信息;
第二确定模块,用于根据所述各个第一文本区域的第一位置信息,确定所述各个第一文本区域各自的表格属性,所述表格属性包括行属性或列属性中的至少一项;
识别模块,用于对所述各个第一文本区域进行文本识别,得到文本识别结果;
第二获取模块,用于根据所述各个第一文本区域的文本识别结果以及表格属性,获取所述第一表格图像对应的表格识别结果。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令在被所述处理器执行时使所述计算机设备实现如权利要求1至7任一所述的图像识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行,以使计算机实现如权利要求1至7任一所述的图像识别方法。
CN202110530133.XA 2021-05-14 2021-05-14 图像识别方法、装置、设备及可读存储介质 Pending CN113762054A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110530133.XA CN113762054A (zh) 2021-05-14 2021-05-14 图像识别方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110530133.XA CN113762054A (zh) 2021-05-14 2021-05-14 图像识别方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN113762054A true CN113762054A (zh) 2021-12-07

Family

ID=78787202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110530133.XA Pending CN113762054A (zh) 2021-05-14 2021-05-14 图像识别方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113762054A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114842489A (zh) * 2022-05-13 2022-08-02 北京百度网讯科技有限公司 表格解析方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114842489A (zh) * 2022-05-13 2022-08-02 北京百度网讯科技有限公司 表格解析方法及装置

Similar Documents

Publication Publication Date Title
US11205282B2 (en) Relocalization method and apparatus in camera pose tracking process and storage medium
CN110083791B (zh) 目标群组检测方法、装置、计算机设备及存储介质
CN110059685B (zh) 文字区域检测方法、装置及存储介质
CN110841285B (zh) 界面元素的显示方法、装置、计算机设备及存储介质
CN109815150B (zh) 应用测试方法、装置、电子设备及存储介质
CN111489378B (zh) 视频帧特征提取方法、装置、计算机设备及存储介质
CN111931877B (zh) 目标检测方法、装置、设备及存储介质
CN112884770B (zh) 图像分割处理方法、装置及计算机设备
CN112966124B (zh) 知识图谱对齐模型的训练方法、对齐方法、装置及设备
US20220383511A1 (en) Video data processing method and apparatus, computer device, and storage medium
CN111178343A (zh) 基于人工智能的多媒体资源检测方法、装置、设备及介质
CN110647881A (zh) 确定图像对应的卡片类型的方法、装置、设备及存储介质
CN112053360B (zh) 图像分割方法、装置、计算机设备及存储介质
CN113762054A (zh) 图像识别方法、装置、设备及可读存储介质
CN112717393B (zh) 虚拟场景中的虚拟物件显示方法、装置、设备及存储介质
CN114817709A (zh) 排序方法、装置、设备及计算机可读存储介质
CN114791971A (zh) 信息聚合方法、装置、设备及计算机可读存储介质
CN113592997A (zh) 基于虚拟场景的物体绘制方法、装置、设备及存储介质
CN111294320B (zh) 数据转换的方法和装置
CN113920222A (zh) 获取地图建图数据的方法、装置、设备及可读存储介质
CN113343709A (zh) 意图识别模型的训练方法、意图识别方法、装置及设备
CN111859549A (zh) 单一配置整车重量与重心信息的确定方法及相关设备
CN111444945A (zh) 样本信息过滤方法、装置、计算机设备及存储介质
CN112699906A (zh) 获取训练数据的方法、装置及存储介质
CN111984738A (zh) 数据关联方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination