CN115273113A

CN115273113A - 表格类文本语义识别方法及装置

Info

Publication number: CN115273113A
Application number: CN202211177653.8A
Authority: CN
Inventors: 闫恺; 杜向阳
Original assignee: Shenzhen Qingdun Information Technology Co ltd
Current assignee: Shenzhen Qingdun Information Technology Co ltd
Priority date: 2022-09-27
Filing date: 2022-09-27
Publication date: 2022-11-01
Anticipated expiration: 2042-09-27
Also published as: CN115273113B

Abstract

本公开提供一种表格类文本语义识别方法及装置。所述方法包括：检测待处理图像中的表格中的文本框位置；根据文本框位置，对待处理图像进行角度校正，获得第一图像；对第一图像中的文本内容进行识别，获得文本内容的语义信息。根据本公开，能够确定文本内容的文本框，并根据文本框的角度对待处理图像进行角度校正，从而减少字迹等原因对于识别的文本的干扰，提升对于手写文本的识别准确性。

Description

表格类文本语义识别方法及装置

技术领域

本公开涉及计算机技术领域，具体涉及一种表格类文本语义识别方法及装置。

背景技术

光学字符识别（Optical Character Recognition，OCR）技术已广泛应用于将图像中代表文字的像素点转换为可编辑的文字，更进一步，在特定的场景中，通过对文字在图片上位置关系的解析，还可将图片中的文字以特殊的形式组合起来，比如办公场景（印刷体识别、手写文字识别、表格识别），交通场景（驾驶证识别、车牌识别、车辆合格证识别），卡证场景（身份证识别、银行卡识别、户口本识别、营业执照识别）等等。

在销售场景中，供货方会提供关于商品详细信息的供货单，如商品名称、数量、单价等等，这样的货物单据往往以手写表格的形式呈现，经过实践发现目前手写表格的识别技术存在一些弊端：对于表格单元格的识别不够准确，如多单元格被识别为单元格，且单元格的识别易受到图片阴影、折痕的影响；对表格中文字的识别不够准确，目前大部分表格识别的功能是基于印刷体表格图片进行训练的，故而对表格中的手写字体的识别准确率不能达到生产要求。

公开于本申请背景技术部分的信息仅仅旨在加深对本申请的一般背景技术的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

发明内容

本公开实施例提供一种表格类文本语义识别方法及装置，能够确定文本内容的文本框，并根据文本框的角度对待处理图像进行角度校正，从而减少字迹等原因对于识别的文本的干扰，提升对于手写文本的识别准确性。

本公开实施例的第一方面，提供一种表格类文本语义识别方法,包括：检测待处理图像中的表格中的文本框位置，其中，所述待处理图像为包括表格的图像，所述表格中包括文本内容，所述文本框为包围所述表格的单元格中的文本内容的矩形框；

根据所述文本框位置，对所述待处理图像进行角度校正，获得第一图像；

对所述第一图像中的文本内容进行识别，获得所述表格中各文本内容的语义信息。

根据本公开的实施例，检测待处理图像中的表格中的文本框位置，包括：

获取单元格的角点坐标；

根据所述角点坐标，获取单元格的二值化图像；

根据所述二值化图像的各像素点的像素值，确定所述文本内容在二值化图像中的第一位置信息；

根据所述第一位置信息，确定所述文本框位置。

根据本公开的实施例，根据所述角点坐标，获取单元格的二值化图像，包括：

通过numpy工具，对各单元格进行截图，获取各单元格的第二图像；

通过cv2.cvtColor工具，将所述第二图像转换为单通道灰度图；

通过cv2.bitwise_not工具，将所述单通道灰度图转换为所述二值化图像。

根据本公开的实施例，根据所述二值化图像的各像素点的像素值，确定所述文本内容在二值化图像中的第一位置信息，包括：

通过np.where工具，获取所述二值化图像中像素值不等于0的像素点的坐标信息；

根据所述二值化图像中像素值不等于0的像素点的坐标信息，确定所述第一位置信息。

根据本公开的实施例，根据所述第一位置信息，确定所述文本框位置，包括：

通过cv2.minAreaRect工具，以及所述第一位置信息，获取文本内容的最小外接矩形；

将所述最小外接矩形确定为所述文本框，并确定所述文本框位置。

根据本公开的实施例，根据所述文本框位置，对所述待处理图像进行角度校正，获得第一图像，包括：

根据所述文本框位置，确定所述文本框相对于所述待处理图像的偏移角度；

确定偏移角度小于或等于预设角度阈值的目标文本框；

确定所述目标文本框的平均偏移角度；

根据所述平均偏移角度，对所述待处理图像进行角度校正，获得第一图像。

根据本公开的实施例，对所述第一图像中的文本内容进行识别，获得所述表格中各文本内容的语义信息，包括：

将所述第一图像编码为base64格式；

将base64格式的第一图像打包为json格式；

通过OCR识别接口，对json格式的第一图像进行识别，获得各文本内容的语义信息。

本公开实施例的第二方面，提供一种表格类文本语义识别装置，包括：

检测模块，用于检测待处理图像中的表格中的文本框位置，其中，所述待处理图像为包括表格的图像，所述表格中包括文本内容，所述文本框为包围所述表格的单元格中的文本内容的矩形框；

校正模块，用于根据所述文本框位置，对所述待处理图像进行角度校正，获得第一图像；

语义模块，用于对所述第一图像中的文本内容进行识别，获得所述表格中各文本内容的语义信息。

根据本公开的实施例，所述检测模块进一步用于：获取单元格的角点坐标；根据所述角点坐标，获取单元格的二值化图像；根据所述二值化图像的各像素点的像素值，确定所述文本内容在二值化图像中的第一位置信息；根据所述第一位置信息，确定所述文本框位置。

根据本公开的实施例，所述检测模块进一步用于：通过numpy工具，对各单元格进行截图，获取各单元格的第二图像；通过cv2.cvtColor工具，将所述第二图像转换为单通道灰度图；通过cv2.bitwise_not工具，将所述单通道灰度图转换为所述二值化图像。

根据本公开的实施例，所述检测模块进一步用于：通过np.where工具，获取所述二值化图像中像素值不等于0的像素点的坐标信息；根据所述二值化图像中像素值不等于0的像素点的坐标信息，确定所述第一位置信息。

根据本公开的实施例，所述检测模块进一步用于：通过cv2.minAreaRect工具，以及所述第一位置信息，获取文本内容的最小外接矩形；将所述最小外接矩形确定为所述文本框，并确定所述文本框位置。

根据本公开的实施例，所述校正模块进一步用于：根据所述文本框位置，确定所述文本框相对于所述待处理图像的偏移角度；确定偏移角度小于或等于预设角度阈值的目标文本框；确定所述目标文本框的平均偏移角度；根据所述平均偏移角度，对所述待处理图像进行角度校正，获得第一图像。

根据本公开的实施例，所述语义模块进一步用于：将所述第一图像编码为base64格式；将base64格式的第一图像打包为json格式；通过OCR识别接口，对json格式的第一图像进行识别，获得各文本内容的语义信息。

本公开实施例的第三方面，提供一种表格类文本语义识别设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器存储的指令，以执行上述方法。

本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现上述方法。

附图说明

图1示例性地示出本公开实施例的表格类文本语义识别方法的流程示意图；

图2示例性地示出本公开实施例的表格类文本语义识别装置的框图；

图3是根据一示例性实施例示出的一种表格类文本语义识别设备的框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

应当理解，在本公开的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。

应当理解，在本公开中，“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本公开中，“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含，“包含A、B或C”是指包含A、B、C三者之一，“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。

应当理解，在本公开中，“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”，表示B与A相关联，根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。A与B的匹配，是A与B的相似度大于或等于预设的阈值。

取决于语境，如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。

下面以具体地实施例对本公开的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1示例性地示出本公开实施例的表格类文本语义识别方法的流程示意图，如图1所示，所述方法包括：

步骤S101，检测待处理图像中的表格中的文本框位置，其中，所述待处理图像为包括表格的图像，所述表格中包括文本内容，所述文本框为包围所述表格的单元格中的文本内容的矩形框；

步骤S102，根据所述文本框位置，对所述待处理图像进行角度校正，获得第一图像；

步骤S103，对所述第一图像中的文本内容进行识别，获得所述表格中各文本内容的语义信息。

根据本公开的实施例，待检测图像可以是包括表格的图像，该表格可以是企业生产经营中的表格，例如，销售表格，库存表格、财务表格等，本公开对表格的类型不做限制。该表格中的文本内容可以是手写的，即，工整程度低于打印体。待检测图像可以是对表格进行拍照或扫描获得的图像。本公开对待检测图像的获取方式不做限制。

根据本公开的实施例，在步骤S101中，可检测待处理图像中表格中的文本框的位置。所述文本框为包围所述表格的单元格中的文本内容的矩形框。所述表格中可包括单元格，所述文本内容可填写在单元格中，所述文本框为包围文本内容的矩形框，因此，文本框为单元格中包围文本内容的矩形框。例如，用于包围文本内容的最小矩形框。

根据本公开的实施例，步骤S101可包括：获取单元格的角点坐标；根据所述角点坐标，获取单元格的二值化图像；根据所述二值化图像的各像素点的像素值，确定所述文本内容在二值化图像中的第一位置信息；根据所述第一位置信息，确定所述文本框位置。

根据本公开的实施例，可获取单元格的角点坐标，即，各个单元格均为矩形单元格，均包括四个角点，可获得四个角点的坐标。例如，可通过图像识别算法、像素识别算法等方法，获得角点坐标。

根据本公开的实施例，在获得角点坐标后，可确定每个单元格的位置，因此，可基于每个单元格的位置，获得每个单元格的二值化图像。根据所述角点坐标，获取单元格的二值化图像，包括：通过numpy工具，对各单元格进行截图，获取各单元格的第二图像；通过cv2.cvtColor工具，将所述第二图像转换为单通道灰度图；通过cv2.bitwise_not工具，将所述单通道灰度图转换为所述二值化图像。

根据本公开的实施例，以上获取了每个单元格的角点坐标，因此可获得每个单元格的位置和尺寸，从而可对每个单元格进行截图，例如，通过numpy工具，对各单元格进行截图，获取各单元格的第二图像，该第二图像正好包括一个单元格，即，截图时不会超出单元格，截图的范围也不会小于单元格。

根据本公开的实施例，在获得第二图像后，可通过cv2.cvtColor工具，将所述第二图像转换为单通道灰度图。即，将第二图像（例如，RGB图像）进行转换，例如，通过cv2.cvtColor工具进行转换，将第二图像转换为单通道灰度图，使其不再具有色彩。从而可降低噪声干扰，提升对文本内容的位置识别的正确率，还可提升文本框的位置的准确性。

根据本公开的实施例，在获得单通道灰度图后，可将单通道灰度图转换为二值化图像，即，仅包括像素值为0或1的两种像素点的图像。其中，像素值为0的区域为空白区域，像素值为1的区域为文本内容所在的区域（即，背景白色，字为黑色），并且，经过上述转换为单通道灰度图的处理，使得噪声信息减少，即，干扰像素减少，在非文本内容所在区域中，像素值为1的像素点的数量减少，从而提升了文本内容的检测准确性，也可提升文本框的位置准确性。在示例中，可通过cv2.bitwise_not工具，将所述单通道灰度图转换为所述二值化图像。本公开对使用的工具不做限制。

根据本公开的实施例，在获得二值化图像后，可确定文本内容在二值化图像中的第一位置信息。如上所述，像素值为0的区域为空白区域，像素值为1的区域为文本内容所在的区域，因此，可根据所述二值化图像的各像素点的像素值，确定所述文本内容在二值化图像中的第一位置信息，该步骤可包括：通过np.where工具，获取所述二值化图像中像素值不等于0的像素点的坐标信息；根据所述二值化图像中像素值不等于0的像素点的坐标信息，确定所述第一位置信息。

根据本公开的实施例，可通过np.where工具，获取所述二值化图像中像素值不等于0的像素点的坐标信息，像素值不等于0的像素点即为文本内容所在区域的像素点。可通过np.where工具，确定所有像素值不等于0的像素点，获得的像素点集合即为文本内容所在区域，因此，像素值不为0的像素点的坐标信息的集合即为文本内容的第一位置信息。

根据本公开的实施例，在确定第一位置信息后，可基于文本内容的第一位置信息，确定包围文本内容的文本框的位置。例如，可对文本内容进行框选，获得文本框，或者，可确定对文本内容进行框选的最小矩形框，作为上述文本框。

根据本公开的实施例，根据所述第一位置信息，确定所述文本框位置，包括：通过cv2.minAreaRect工具，以及所述第一位置信息，获取文本内容的最小外接矩形；将所述最小外接矩形确定为所述文本框，并确定所述文本框位置。

根据本公开的实施例，可通过cv2.minAreaRect工具，对位置信息为所述第一位置信息的文本内容进行框选，例如，通过对像素点位置的识别，获得其最外侧的像素点，并对最外侧的像素点进行框选，获得能够框选文本内容的最小外接矩形，该最小外接矩形即可作为对文本内容进行框选的最小矩形框，亦可作为所述文本框。

根据本公开的实施例，进一步地，还可同时获得文本框位置，例如，文本框的角点的坐标，文本框的中心坐标等。本公开对文本框位置所包括的信息不做限制。

根据本公开的实施例，可根据以上方法，确定所有单元格中的文本内容的文本框，以及文本框位置。即，将上述方法迭代执行或并行执行多次，从而获得所有单元格中的文本内容的文本框以及文本框位置。

根据本公开的实施例，在步骤S102中，在获得所有文本框位置后，可根据所述文本框位置，对所述待处理图像进行角度校正，获得第一图像。待处理图像中的表格或文本内容可能存在角度偏移，例如，拍摄表格时相机未对准，或者扫描时表格未正对扫描仪等。因此，可基于文本框相对于待处理图像的偏移角度，确定待处理图像中表格的偏移角度，从而进行角度校正，获得文本内容正对相机或扫描仪视角的第一图像。

根据本公开的实施例，步骤S102可包括：根据所述文本框位置，确定所述文本框相对于所述待处理图像的偏移角度；确定偏移角度小于或等于预设角度阈值的目标文本框；确定所述目标文本框的平均偏移角度；根据所述平均偏移角度，对所述待处理图像进行角度校正，获得第一图像。

根据本公开的实施例，所述文本框位置可包括文本框的角点坐标，从而可基于角点坐标确定文本框的角点的连线，即，文本框的边线。因此，可确定文本框的边线相对于待处理图像的偏移角度。

根据本公开的实施例，可设置角度阈值，例如5°，从而可排除字体歪斜严重的文本框，保留字体较端正的目标文本框，从而减小角度误差。当然，也可保留全部文本框，即，将全部文本框均作为目标文本框。本公开对是否设置角度阈值，以及角度阈值的具体数值不做限制。

根据本公开的实施例，可求解目标文本框的平均偏移角度，并将其作为表格的偏移角度。当然，也可统计偏移角度的中位数等，本公开对此不做限制。

根据本公开的实施例，可基于以上平均偏移角度，对待处理图像进行角度校正，获得第一图像。所述第一图像为文本内容正对相机或扫描仪视角的图像，即，如果文本内容相对于表格仍有一定偏移，则第一图像以文本内容的角度为准，获得文本内容正对相机或扫描仪视角的图像。当然，也可利用表格单元格的倾斜角度对待处理图像进行角度校正，可获得表格正对相机或扫描仪视角的图像。

根据本公开的实施例，在进行角度校正后，文本内容的角度端正，有利于提升对文本内容的识别准确性。在步骤S103中，可对第一图像中的文本内容进行识别，获得各文本内容的语义信息。

根据本公开的实施例，步骤S103可包括：将所述第一图像编码为base64格式；将base64格式的第一图像打包为json格式；通过OCR识别接口，对json格式的第一图像进行识别，获得各文本内容的语义信息。

根据本公开的实施例，为了便于图像识别，可使用第三方OCR识别接口对第一图像进行识别，例如，可将第一图像编码为base64格式，并打包，获得json格式的第一图像，从而通过第三方OCR识别接口对第一图像进行识别，获得文本内容的语义信息。例如，可通过第三方OCR识别接口进行识别，获得各文本内容的多种识别结果，以及各识别结果的置信度，并从中选择置信度高于阈值（例如，50%）的识别结果，作为文本内容语义信息。

根据本公开的实施例，也可至今通过OCR算法，或者文本识别算法对第一图像进行直接识别，获得文本内容的语义信息，本公开对此不做限制。

根据本公开，能够确定文本内容的文本框，并根据文本框的角度对待处理图像进行角度校正，从而减少字迹等原因对于识别的文本的干扰，提升对于手写文本的识别准确性。

图2示例性地示出本公开实施例的表格类文本语义识别装置的框图，如图2所示，所述装置包括：检测模块，用于检测待处理图像中的表格中的文本框位置，其中，所述待处理图像为包括表格的图像，所述表格中包括文本内容，所述文本框为包围所述表格的单元格中的文本内容的矩形框；校正模块，用于根据所述文本框位置，对所述待处理图像进行角度校正，获得第一图像；语义模块，用于对所述第一图像中的文本内容进行识别，获得所述表格中各文本内容的语义信息。

图3是根据一示例性实施例示出的一种表格类文本语义识别设备的框图。例如，所述设备1600可以被提供为一终端或服务器。设备1600包括处理组件1602，以及由存储器1603所代表的存储器资源，用于存储可由处理组件1602的执行的指令，例如应用程序。存储器1603中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1602被配置为执行指令，以执行上述方法。

设备1600还可以包括一个电源组件1606被配置为执行设备1600的电源管理，一个有线或无线网络接口1605被配置为将设备1600连接到网络，和一个输入输出(I/O)接口1608。设备1600可以操作基于存储在存储器1603的操作系统，例如Windows ServerTM，MacOS XTM，UnixTM，LinuxTM，FreeBSDTM或类似。

本发明可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、静态随机存取存储器（SRAM）、便携式压缩盘只读存储器（CD-ROM）、数字多功能盘（DVD）、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波（例如，通过光纤电缆的光脉冲）、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构（ISA）指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列（FPGA）或可编程逻辑阵列（PLA），该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

注意，除非另有直接说明，否则本说明书(包含任何所附权利要求、摘要和附图)中所揭示的所有特征皆可由用于达到相同、等效或类似目的的可替代特征来替换。因此，除非另有明确说明，否则所公开的每一个特征仅是一组等效或类似特征的一个示例。在使用到的情况下，进一步地、较优地、更进一步地和更优地是在前述实施例基础上进行另一实施例阐述的简单起头，该进一步地、较优地、更进一步地或更优地后带的内容与前述实施例的结合作为另一实施例的完整构成。在同一实施例后带的若干个进一步地、较优地、更进一步地或更优地设置之间可任意组合的组成又一实施例。

本领域的技术人员应理解，上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明。本发明的目的已经完整并有效地实现。本发明的功能及结构原理已在实施例中展示和说明，在没有背离所述原理下，本发明的实施方式可以有任何变形或修改。

最后应说明的是：以上各实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述各实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

Claims

1.一种表格类文本语义识别方法，其特征在于，包括：

检测待处理图像中的表格中的文本框位置，其中，所述待处理图像为包括表格的图像，所述表格中包括文本内容，所述文本框为包围所述表格的单元格中的文本内容的矩形框；

2.根据权利要求1所述的方法，其特征在于，检测待处理图像中的表格中的文本框位置，包括：

获取单元格的角点坐标；

根据所述角点坐标，获取单元格的二值化图像；

根据所述第一位置信息，确定所述文本框位置。

3.根据权利要求2所述的方法，其特征在于，根据所述角点坐标，获取单元格的二值化图像，包括：

通过cv2.cvtColor工具，将所述第二图像转换为单通道灰度图；

4.根据权利要求2所述的方法，其特征在于，根据所述二值化图像的各像素点的像素值，确定所述文本内容在二值化图像中的第一位置信息，包括：

5.根据权利要求2所述的方法，其特征在于，根据所述第一位置信息，确定所述文本框位置，包括：

6.根据权利要求1所述的方法，其特征在于，根据所述文本框位置，对所述待处理图像进行角度校正，获得第一图像，包括：

确定偏移角度小于或等于预设角度阈值的目标文本框；

确定所述目标文本框的平均偏移角度；

7.根据权利要求1所述的方法，其特征在于，对所述第一图像中的文本内容进行识别，获得所述表格中各文本内容的语义信息，包括：

将所述第一图像编码为base64格式；

将base64格式的第一图像打包为json格式；

8.一种表格类文本语义识别装置，其特征在于，包括：

9.一种表格类文本语义识别设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器存储的指令，以执行权利要求1至7中任意一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至7中任意一项所述的方法。