CN116740740A

CN116740740A - 同行文本判定方法、文档排序方法及其应用

Info

Publication number: CN116740740A
Application number: CN202311009385.3A
Authority: CN
Inventors: 陶提
Original assignee: Zhejiang Taimei Medical Technology Co Ltd
Current assignee: Zhejiang Taimei Medical Technology Co Ltd
Priority date: 2023-08-11
Filing date: 2023-08-11
Publication date: 2023-09-12
Anticipated expiration: 2043-08-11
Also published as: CN116740740B

Abstract

本申请公开了一种同行文本判定方法、文档排序方法及其应用，该同行文本判定方法包括确定第一文本段的第一主方向，以及确定第二文本段的第二主方向；基于第一主方向和第二主方向，确定第一文本段和第二文本段的目标重叠投影和目标偏差角，目标重叠投影表示第一文本段和第二文本段在所述第一主方向和/或第二主方向上垂直投影范围的重叠程度，目标偏差角表示第一文本段和第二文本段延伸方向的差异；基于目标重叠投影和目标偏差角，判定第一文本段和第二文本段是否同行。如此，可以提高文档图像同行文本判定的准确度，进而确保对文档中文本段排序的可靠性。

Description

同行文本判定方法、文档排序方法及其应用

技术领域

本申请属于计算机技术领域，具体涉及一种同行文本判定方法、文档排序方法、以及应用其的装置、电子设备和存储介质。

背景技术

文档图像的内容识别中，通常会先获取文档图像中的文本段，进而通过对文本段的排序，获得正确的阅读顺序。在此过程中，会涉及对同属于一行的文本的判定过程。然而，经常会因拍摄或者扫描的原因，导致文档图像中的内容扭曲或者倾斜。因为上述的原因，若单独使用Y轴信息进行同行文本判定，则可能不够鲁棒，而若先对这些扭曲或倾斜的内容进行矫正，则可能耗时过长，且矫正后的文本段内容可能存在失真现象或矫正效果不理想的情况，影响对后续对同行文本的查找。

公开于该背景技术部分的信息仅仅旨在增加对本申请的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

发明内容

本申请的目的在于提供一种同行文本判定方法，其用于解决现有技术中文档图像的内容识别过程中，同行文本判定准确度和效率不能满足文档排序需求的问题。

为实现上述目的，本申请提供了一种同行文本判定方法，所述方法包括：

确定第一文本段的第一主方向，以及确定第二文本段的第二主方向；

基于所述第一主方向和第二主方向，确定所述第一文本段和第二文本段的目标重叠投影和目标偏差角，其中，所述目标重叠投影表示所述第一文本段和第二文本段在所述第一主方向和/或第二主方向上垂直投影范围的重叠程度，所述目标偏差角表示所述第一文本段和第二文本段延伸方向的差异；

基于所述目标重叠投影和目标偏差角，判定所述第一文本段和第二文本段是否同行。

一实施例中，基于所述第一主方向和第二主方向，确定所述第一文本段和第二文本段的目标重叠投影，具体包括：

确定第一文本段和第二文本段在第一主方向上的第一重叠垂直投影、以及在第二主方向上的第二重叠垂直投影；

基于所述第一重叠垂直投影和第二重叠垂直投影，确定所述目标重叠投影。

一实施例中，基于所述第一重叠垂直投影和第二重叠垂直投影，确定所述目标重叠投影，具体包括：

分别计算所述第一重叠垂直投影和第二重叠垂直投影的投影长度；

确定所述第一重叠垂直投影和第二重叠垂直投影中投影长度较大者为所述目标重叠投影。

一实施例中，基于所述第一主方向和第二主方向，确定所述第一文本段和第二文本段的目标偏差角，具体包括：

分别获取所述第一文本段和第二文本段上目标参考点的坐标；

基于所述第一文本段和第二文本段目标参考点的坐标差值向量，确定参考角；

基于所述第一主方向计算所述第一文本段在参考坐标中的第一方向角，以及基于所述第二主方向计算所述第二文本段在参考坐标中的第二方向角；

基于所述第一方向角和第二方向角相对所述参考角的偏差，确定所述目标偏差角。

一实施例中，基于所述第一方向角和第二方向角相对所述参考角的偏差，确定所述目标偏差角，具体包括：

计算所述第一方向角和参考角的差值绝对值，以及计算所述第二方向角和参考角的差值绝对值；

确定所述第一方向角和第二方向角中和参考角的差值绝对值较大者为所述目标偏差角。

一实施例中，所述第一文本段和第二文本段上目标参考点为文本段几何中心点。

一实施例中，基于所述目标重叠投影和目标偏差角，判定所述第一文本段和第二文本段是否同行，具体包括：

判断所述目标重叠投影是否小于第一阈值、且所述目标偏差角是否小于第二阈值；若是，

判定所述第一文本段和第二文本段同行。

本申请还提供一种文档排序方法，所述方法包括：

获取目标文档中若干文本段的坐标，所述坐标包括X轴值和Y轴值；

基于如上所述的同行文本判定方法，确定所述若干文本段中的同行文本段；

基于所述X轴值对各同行文本段内的文本段进行排序，以及基于所述Y轴值对各同行文本段进行排序。

本申请还提供一种同行文本判定装置，包括：

第一确定模块，用于确定第一文本段的第一主方向，以及确定第二文本段的第二主方向；

第二确定模块，用于基于所述第一主方向和第二主方向，确定所述第一文本段和第二文本段的目标重叠投影和目标偏差角，其中，所述目标重叠投影表示所述第一文本段和第二文本段在所述第一主方向和/或第二主方向上垂直投影范围的重叠程度，所述目标偏差角表示所述第一文本段和第二文本段延伸方向的差异；

判定模块，用于基于所述目标重叠投影和目标偏差角，判定所述第一文本段和第二文本段是否同行。

本申请还提供一种文档排序装置，包括：

获取模块，用于获取目标文档中若干文本段的坐标，所述坐标包括X轴值和Y轴值；

第三确定模块，用于基于如上所述的同行文本判定方法，确定所述若干文本段中的同行文本段；

排序模块，用于基于所述X轴值对各同行文本段内的文本段进行排序，以及基于所述Y轴值对各同行文本段进行排序。

本申请还提供一种电子设备，包括：

至少一个处理器；以及

存储器，所述存储器存储指令，当所述指令被所述至少一个处理器执行时，使得所述至少一个处理器执行如上所述的同行文本判定方法或文档排序方法。

本申请还提供一种机器可读存储介质，其存储有可执行指令，所述指令当被执行时使得所述机器执行如上所述的同行文本判定方法或文档排序方法。

与现有技术相比，根据本申请的同行文本判定方法，通过第一文本段的第一主方向和第二文本段的第二主方向确定目标重叠投影和目标偏差角，目标重叠投影可以表示第一文本段和第二文本段在第一主方向和/或第二主方向上垂直投影范围的重叠程度，目标偏差角可以表示第一文本段和第二文本段延伸方向的差异，也即，从同行文本的本身特性出发，同时基于目标重叠投影和目标偏差角判定文本是否同行，方法更加鲁棒且无需预先进行文本段矫正。

在另一个方面，目标偏差角的确定过程中，通过第一文本段和第二文本段上的目标参考点的坐标差值向量确定参考角，再分别基于第一主方向和第二主方向计算第一文本段的第一方向角和第二文本段的第二方向角，通过第一方向角和第二方向角相对参考角的偏差确定目标偏差角，这样，目标偏差角中包含了文本段本身的角度信息及两文本段间的角度信息，从而提高分辨非同行文本段的精度和准确度。

附图说明

图1是根据本申请一实施例同行文本判定方法和文档排序方法的应用场景示意图；

图2是根据本申请一实施例同行文本判定方法的流程图；

图3至图9是本申请同行文本判定方法应用于不同场景的示意图；

图10是根据本申请一实施例文档排序方法的流程图；

图11是根据本申请一实施例同行文本判定装置的模块图；

图12是根据本申请一实施例文档排序装置的模块图；

图13是根据本申请一实施方式电子设备的硬件结构图。

具体实施方式

以下将结合附图所示的各实施方式对本申请进行详细描述。但该等实施方式并不限制本申请，本领域的普通技术人员根据该等实施方式所做出的结构、方法、或功能上的变换均包含在本申请的保护范围内。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术（Computer Vision，CV），计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等。除此之外，人工智能技术还可以在其他领域得到应用，例如，本申请的各实施例中，利用计算机视觉技术，计算OCR过程获得的文本段的主方向，并基于主方向衡量文本段之间延伸范围的重叠程度和文本段延伸方向的差异，进而判定文本段是否同行。在此基础上，可以进一步对文档中的若干文本段进行排序，获得正确的阅读顺序。

参图1，在一个实施环境场景示例中，服务器和终端通过网络连接。终端上运行有EDC系统（Electronic Data CaptureSystem,电子数据捕获系统），EDC系统具有多种形式的数据采集功能，也可以将IWRS中央随机系统、药物警戒系统、数据分析和报告系统等整合为一体。具体而言，EDC系统的基础功能包括电子临床病例报告表（eCRF）构建、中央随机（RCT或PCT对照组研究）、药物供应、患者入组和立体随访、数据管理（自动逻辑核查、人工逻辑核查）、统计分析、文档管理、患者管理、患者宣教、AI辅助功能（OCR识别）等。其中，用户在上传文档图像时，OCR识别功能模块可以通过运行本申请实施例提供的同行文本判定方法和文档排序方法，对识别出的文本段进行同行文本段判定和文本段排序，进而获得正确阅读顺序的文档内容。

又或者，在其它的实施场景中，本实施例提供的同行文本判定方法和文档排序方法也可以是由服务器和终端共同运行。例如，终端在获取到目标文档后，上传至服务器对其中的同行文本段进行判定，终端可以接收服务器返回的同行文本判定结果，对文本段进行排序，本申请对此不作限制。

以上实施环境中，终端与服务器之间通过通信网络进行数据通信，可选地，通信网络可以是有线网络也可以是无线网络，且该通信网络可以是局域网、城域网以及广域网中的至少一种。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content Delivery Network，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器以及终端设备可以为彼此独立的设备，也可以是集成于同一个系统内，此处不做限定。

基于上述同行文本判定方法和文档排序方法相关描述可以看出，本申请实施例提出的同行文本判定方法和文档排序方法可以由任意合适的计算机设备（终端或服务器）执行；或者，该同行文本判定方法和文档排序方法可由终端和服务器共同执行。为便于阐述，后续均以计算机设备执行同行文本判定方法和文档排序方法为例进行说明。

参图2，介绍本申请同行文本判定方法的一实施例。在本实施例中，该方法包括：

S111、确定第一文本段的第一主方向，以及确定第二文本段的第二主方向。

配合参图3，示范的一个文档中可能包括分布于多行的文本内容，每行文本内容中可能包括两段或者两段以上的“连续文本”，这里的“连续文本”可以是以文本间距作为参考。例如，图3中第二行文本内容包括：“姓名：XX”、“性别：XX”、“科别：XX”，由于这三段文本之间的间距大于预设间距，因此将这间隔开的三段文本分别确认为“连续文本”。

又或者，“连续文本”还可以是以标点符号作为切分依据，这里的标点符号可以包括“、”、“；”、“。”等。例如，图3中的文本内容“心房正位，心室右袢，双房、右室增大，左室内径正常”，以“，”为切分依据可以获得四段连续文本：“心房正位”、“心室右袢”、“双房、右室增大”、“左室内径正常”。

本实施例中，可以将上述的“连续文本”定义为文本段。具体的实施例中，文本段可以由CTPN（Connectionist Text ProposalNetwork，连接文本提案网络）、PSENet（Progressive Scale ExpansionNetwork，渐进尺度扩展网络）、 DBNet（DifferentialBinarization Network，可微的二值化网络）等文本检测模型定位获得，也可以使用传统CV方法，将文档转化为二值化图像后获得。

CTPN模型是在Faster-RCNN（Faster-Regions withConvolutional NeuralNetworks，快速区域卷积神经网络）模型的基础上串联LSTM（Long Short-termMemory，长短期记忆网络）模块和CNN（Convolutional Neural Networks，卷积神经网络）模块得到的。

具体地，CTPN模型在通过CNN模型和LSTM模型学习到文档图像的空间特征和序列特征之后，可以将这些特征输入FC(Fully Connected Layer，全连接层)。其中，FC的卷积层之后可以存在一RPN(Region Propodal network，区域建议网络)。RPN可以包括两个分支，第一个分支可以为边界框回归(Bounding boxregression)层，即用于基于设置的文本候选框从FC的卷积层输出的特征图中提取对应的文本候选区域。其中，第一个分支为FC的卷积层输出的特征图中的每个像素点设置了高度不同、宽度一致的多个(比如，10个)文本候选框，这里的文本候选框又可以称为锚点(anchor)。RPN的第二个分支可以是分类层(如，Softmax层)，用于对锚点进行分类，并输出基于锚点提取的文本候选区域内是否含有文本的得分。锚点对应的得分越高，表示基于该锚点提取的文本候选区域内含有文本的概率越大。基于CTPN模型，得到的是基于锚点识别出的一个个单独的包含文本的区域，可以通过文本线构造法，将这些包含文本的区域连接成一个文本检测框，文本检测框和其中的文本内容即可视为一个文本段。

PSENet模型由两部分组成，前端通过ResNet和特征金字塔网络(Feature PyramidNetwork，FPN)得到融合多尺度特征的特征图，后端为多分支预测结构。

具体地，ResNet可以提取文档中不同特征层级的视觉特征，每个特征层级对应的图像中携带不同的特征。ResNet中输出的小尺寸的特征图在FPN进行多尺度特征融合，以提取特征图中的低维度特征，并融合得到多尺度特征的特征图。得到不同层级的融合特征之后，将这些具有多尺度特征的特征图进行融合处理，并在多分支预测结构中投影到多个分支中，以产生多个文本分割结果。每个分割结果同样可以由边框框选，这里边框和其中的文本内容即可视为一个文本段。

类似地，DBNet同样可以通过连续文本的坐标检测，并为文档中的连续文本匹配对应的文本框，从而将这些文本框和其中的文本内容确定为一个文本段，在此不再赘述。

基于以上示范的实施例可知，本申请各实施例中提及的文本段，可以视为包括文本内容的文本字条，匹配该文本字条的外轮廓可以有一个文本框（或称之为建议框），从而可以将文本段当做一个具有规则外轮廓的图形进行相关信息的获取。对应至本实施例中，计算机设备首先对需要进行同行文本判定的第一文本段和第二文本段进行主方向的确定。

本实施例中，计算机设备可以通过计算第一文本段和第二文本段的中心矩，根据中心矩构建一个协方差矩阵，并进行奇异值分解，进而确定分别对应的第一主方向和第二主方向。

图像矩(Image moments)是指图像的某些特定像素灰度的加权平均值（矩），将像素的坐标看成是一个二维随机变量(x,y)，对于灰度图像f可以用二维灰度密度函数进行表示，其（p+q）阶矩(原始矩)，定义如下：

中心矩是以质心为中心的矩，相比原始矩，要添加一个平移即可，中心矩的定义如下：

其中，c_x、c_y为图像的几何中心（质心），并可以表示为：

基于推导可知，M₀₀为图像像素总和；基于中心矩，可以得到图像f的协方差矩阵：

计算该协方差矩阵的特征向量，最大特征值对应的特征向量就是图像长轴的角度，我们可以将其定义为物体的方向，也即主方向。该角度计算公式如下:

对应至本实施例，计算机设备可以将第一文本段和第二文本段都视为图像进行处理，进而分别获得对应的第一主方向和第二主方向。

S112、基于第一主方向和第二主方向，确定第一文本段和第二文本段的目标重叠投影和目标偏差角。

S113、基于目标重叠投影和目标偏差角，判定第一文本段和第二文本段是否同行。

目标重叠投影表示第一文本段和第二文本段在第一主方向和/或第二主方向上垂直投影范围的重叠程度。在理想情况下，若第一文本段和第二文本段同属于一行，则第一文本段和第二文本段在无论第一主方向还是第二主方向上的垂直投影之间都不应当存在重叠。

配合参图4，文本段A和文本段B同属于一行，文本段A具有主方向a，文本段B具有主方向b，且主方向a和主方向b平行。文本段A在主方向a的垂直投影A1与文本段B在主方向a的垂直投影B1之间不存在重叠，文本段B在主方向b的垂直投影A2与文本段B在主方向b的垂直投影B2之间也不存在重叠。

配合参图5，示出的文本段A和文本段B仍然同属于一行，区别在于，文本段B由于文档成像时候的扭曲，导致主方向b与主方向a之间存在一定的夹角。此时，文本段A在主方向a的垂直投影A1与文本段B在主方向a的垂直投影B1之间不存在重叠，文本段B在主方向b的垂直投影A2与文本段B在主方向b的垂直投影B2之间也不存在重叠。

配合参图6，示出的文本段A和文本段B仍然同属于一行，区别在于，文本段B由于文档成像时候的扭曲，导致主方向b与主方向a之间存在一定的夹角，且文本段A和文本段B之间更加临近。此时，文本段A在主方向a的垂直投影A2与文本段B在主方向a的垂直投影B2之间存在重叠，文本段B在主方向b的垂直投影A2与文本段B在主方向b的垂直投影B2之间也存在重叠。

基于以上场景的示意，本申请提出：若第一文本段和第二文本段同属于一行，则第一文本段和第二文本段在无论第一主方向还是第二主方向上的垂直投影范围的重叠程度都应当在一定范围之内。

一实施例中，计算机设备可以将第一文本段和第二文本段在第一主方向或第二主方向中任一上的重叠垂直投影作为目标重叠投影。又或者，一实施例中，计算机设备可以将第一文本段和第二文本段在第一主方向和第二主方向上的重叠垂直投影之和作为目标重叠投影。又或者，一实施例中，计算机设备可以先比较第一文本段和第二文本段在第一主方向和第二主方向上重叠垂直投影的大小，并根据比较结果确定其中之一作为目标重叠投影，本申请对此不作限制。

本实施例中，计算机设备可以确定第一文本段和第二文本段在第一主方向上的第一重叠垂直投影、以及在第二主方向上的第二重叠垂直投影，在基于第一重叠垂直投影和第二重叠垂直投影，确定目标重叠投影。其中，计算机设备可以分别计算第一重叠垂直投影和第二重叠垂直投影的投影长度，并确定第一重叠垂直投影和第二重叠垂直投影中投影长度较大者为目标重叠投影。

目标偏差角表示第一文本段和第二文本段延伸方向的差异。在理想情况下，若第一文本段和第二文本段同属于一行，则第一文本段和第二文本段的延伸方向应当一致。

配合参图7，文本段A和文本段B同属于一行，文本段A具有主方向a，文本段B具有主方向b。可以将主方向a和主方向b分别视为文本段A和文本段B的延伸方向，主方向a和主方向b的延伸方向一致。

继续配合参图7，文本段C和文本段D同属于一行，文本段C具有主方向c，文本段D具有主方向d。可以将主方向c和主方向d分别视为文本段C和文本段D的延伸方向，主方向c和主方向d的延伸方向平行。

继续配合参图7，示出的文本段E和文本段F仍然同属于一行，区别在于，文本段F由于文档成像时候的扭曲，导致主方向f与主方向e之间存在一定的夹角。此时，仍然可以将主方向e和主方向f分别视为文本段E和文本段F的延伸方向，也即文本段 E和文本段F的延伸方向之间存在一定的夹角。

可以看出，目标偏差角在一些场景下可以直接视为第一主方向和第二主方向之间的夹角。

基于以上场景的示意，本申请提出：若第一文本段和第二文本段同属于一行，则第一文本段和第二文本段延伸方向的差异应当在一定范围之内。进一步地，继续配合参图7，本申请注意到，针对文本段E和文本段C，若主方向e和主方向c平行，且将目标偏差角直接视为文本段主方向之间的夹角，则计算机设备在目标偏差角的维度可能认定文本段E和文本段C符合文本段同行的条件。因此，在一些实施例中，还可以将文本段之间的最大距离作为目标偏差角的一个度量参数。例如，将文本段之间最大距离视为文本段延伸范围内目标偏差角的最大开口距离。

继续配合参图7，文本段E和文本段C的距离为4cm，可以将4cm视为文本段E和文本段C在延伸范围内目标偏差角的最大开口距离。通过合理的设置该最大开口距离的阈值，可以排除文本段E和文本段C为同行文本段。类似地，文本段F和文本段D的目标偏差角的最大开口距离W为5cm，同样可以排除文本段F和文本段D为同行文本的可能。

本实施例中，计算机设备可以分别获取第一文本段和第二文本段上目标参考点的坐标；基于第一文本段和第二文本段目标参考点的坐标差值向量，确定参考角；基于第一主方向计算第一文本段在参考坐标中的第一方向角，以及基于第二主方向计算所述第二文本段在参考坐标中的第二方向角；最终，基于第一方向角和第二方向角相对参考角的偏差，确定目标偏差角。

配合参图8，计算机设备可以将文本段与对应主方向的初始交点作为这里的参考点。在一参考坐标中，假设文本段A的参考点坐标为（3,4），文本段B的参考点坐标为（7,5），则文本段A和文本段B的坐标差值向量的坐标为（4,1），对应参考角的角度为arctan(1/4)。文本段A对应的第一方向角的角度为α，文本段B对应的第二方向角的角度为β。第一方向角相对参考角的偏差为α-arctan(1/4)，第二方向角相对参考角的偏差为β-arctan(1/4)。计算机设备可以将此时任意的一个偏差的绝对值作为目标偏差角，又或者，计算机设备可以将偏差的绝对值之和作为目标偏差角，本申请对此不作限制。

本实施例中，计算机设备计算第一方向角和参考角的差值绝对值，以及计算第二方向角和参考角的差值绝对值，并确定第一方向角和第二方向角中和参考角的差值绝对值较大者为目标偏差角。同时，本实施例中计算机设备可以将文本段几何中心点确定为第一文本段和第二文本段上的目标参考点。

计算机设备在确定目标重叠投影和目标偏差角后，可以为目标重叠投影设置对应的第一阈值、且为目标偏差角设置对应的第二阈值。可以理解，计算机设备判断目标重叠投影小于第一阈值、且目标偏差角小于第二阈值时，会判定第一文本段和第二文本段同行。

本实施例中，通过先设定目标参考点确定参考角，再基于文本段的方向角和参考角的角度差确定目标偏差角，参考角和最终的目标偏差角中都包含了文本段本身的角度信息及两文本段间的角度信息，从而提高分辨非同行文本段的精度和准确度。

配合参图9，示出的文档中包括同行的文本段A和文本段B，以及位于文本段A和文本段B下一行的文本段C。文本段A和文本段C的主方向都与参考坐标x轴平行，文本段B的主方向与参考坐标x轴夹角为5°，文本段A的几何中心点为（2,7），文本段B的几何中心点为（9,8），文本段C的几何中心点为（5,3）。

对于文本段A和文本段B：

参考点坐标为(7,1)，参考角=arctan(1/7)=8°，文本段A的第一方向角=0，文本段B的第二方向角=5°。则，第一方向角与参考角的差值绝对值=8°，第二方向角与参考角的差值绝对值=3°。该场景下，计算机设备将目标偏差角确定为8°，同时，可以确定文本段A和文本段B在主方向a和主方向b上的垂直投影都没有重叠。

假设针对目标重叠投影的第一阈值为1.5cm，针对目标偏差角的第二阈值为10°。由于文本段A和文本段B的目标重叠投影为0cm，且目标偏差角为5°（小于第二阈值10°），计算机设备在此场景下会判断文本段A和文本段B同行。

对于文本段A和文本段C：

参考点坐标为(3,-4)，参考角=arctan(-4/3)=-53°，文本段C的第二方向角=0。则，第一方向角与参考角的差值绝对值=53°，第二方向角与参考角的差值绝对值=53°；文本段A和文本段B在主方向a和主方向c上的投影重叠长度都为2cm。该场景下，计算机设备将目标偏差角确定为53°，同时，可以确定文本段A和文本段B的目标重叠投影长度为2cm。

同样假设针对目标重叠投影的第一阈值为1.5cm，针对目标偏差角的第二阈值为10°。由于文本段A和文本段B的目标重叠投影为2cm（大于第一阈值1.5cm）、且目标偏差角为53°（大于第二阈值10°），计算机设备在此场景下会判断文本段A和文本段C不同行。

参图10，介绍本申请文档排序方法的一具体实施例。在本实施例中，该方法包括：

S121、获取目标文档中若干文本段的坐标，坐标包括X轴值和Y轴值。

计算机设备获取的文档可以是用户上传的多种格式的电子数据，例如PDF文档格式，PNG、JPEG、JPG、BMP等图片格式。在一些场景中，用户可以是将多张文档图片打包进行上传。计算机设备在接收到压缩包后，解压出其中的文档图片并分别进行识别，从而提升操作效率。

对于不同格式的文档而言，计算机设备可以利用不同的方式获取其中文本段的坐标。例如，对于PDF文档这类包括文本坐标信息的文档数据，计算机设备可以使用PDF解析器获得文本段各自对应的坐标。而若是本身不包括文本坐标信息的文档数据，计算机设备也可以将其转换为图像，并按图像数据处理获得文本段各自对应的坐标，本申请对此不作限制。

文本段的坐标可以是文本段上设定基准点的坐标，例如，可以将限定文本段的文本框的左上角坐标确定为文本段的坐标，也可以将限定文本段的文本框的几何中心坐标确定为文本段的坐标，本申请对此不作限制。

S122、基于同行文本判定方法，确定若干文本段中的同行文本段。

S123、基于X轴值对各同行文本段内的文本段进行排序，以及基于Y轴值对各同行文本段进行排序。

计算机设备可以基于上述实施例提供的同行文本判定方法，确定目标文本段中的同行文本段。每组同行文本段中至少包括一个文本段，每个文本段具有对应的坐标，例如，A组同行文本段包括：[文本段1(2,11)，文本段3(4,11)，文本段4(7,11)]，B组同行文本段包括：[文本段2(2,9)，文本段7(5,9)，文本段9(7,8.5)]，C组同行文本段包括：[文本段5(1,7)，文本段(5,7)，文本段8(9,7)，文本段10(11,7)]，D组同行文本段包括：[文本段11(3,5)]。

计算机设备可以首先根据Y轴值，确定A组同行文本段为首行文本，B组、C组、D组同行文本段依次为第二至四行文本。再根据X轴值，计算机设备确定首行文本中文档排序为文本段1-文本段3-文本段4，如此类推，直至所有文本段排序完毕。

又或者，计算机设备也可以先基于Y轴值对文本段进行排序，例如从小到大的顺序。随后，基于上述实施例的同行文本判定方法，判断与Y轴值最小的一文本段同行的其它文本段，以确定一组同行文本段，并对该同行文本段内的文本段基于X轴进行排序。以此类推，再以上述同行文本判定过程中，第一个非同行文本段为比较对象，确定与其同行的另一组同行文本段，直至所有文本段排序完毕。

参图11，介绍本申请同行文本判定装置的一实施例。在本实施例中，该同行文本判定装置包括第一确定模块211、第二确定模块212以及判定模块213。

第一确定模块211用于确定第一文本段的第一主方向，以及确定第二文本段的第二主方向；第二确定模块212用于基于所述第一主方向和第二主方向，确定所述第一文本段和第二文本段的目标重叠投影和目标偏差角，其中，所述目标重叠投影表示所述第一文本段和第二文本段在所述第一主方向和/或第二主方向上垂直投影范围的重叠程度，所述目标偏差角表示所述第一文本段和第二文本段延伸方向的差异；判定模块213用于基于所述目标重叠投影和目标偏差角，判定所述第一文本段和第二文本段是否同行。

一实施例中，第二确定模块212具体用于确定第一文本段和第二文本段在第一主方向上的第一重叠垂直投影、以及在第二主方向上的第二重叠垂直投影；基于所述第一重叠垂直投影和第二重叠垂直投影，确定所述目标重叠投影。

一实施例中，第二确定模块212具体用于分别计算所述第一重叠垂直投影和第二重叠垂直投影的投影长度；确定所述第一重叠垂直投影和第二重叠垂直投影中投影长度较大者为所述目标重叠投影。

一实施例中，第二确定模块212具体用于分别获取所述第一文本段和第二文本段上目标参考点的坐标；基于所述第一文本段和第二文本段目标参考点的坐标差值向量，确定参考角；基于所述第一主方向计算所述第一文本段在参考坐标中的第一方向角，以及基于所述第二主方向计算所述第二文本段在参考坐标中的第二方向角；基于所述第一方向角和第二方向角相对所述参考角的偏差，确定所述目标偏差角。

一实施例中，第二确定模块212具体用于计算所述第一方向角和参考角的差值绝对值，以及计算所述第二方向角和参考角的差值绝对值；确定所述第一方向角和第二方向角中和参考角的差值绝对值较大者为所述目标偏差角。

一实施例中，判定模块213具体用于判断所述目标重叠投影是否小于第一阈值、且所述目标偏差角是否小于第二阈值；若是，判定所述第一文本段和第二文本段同行。

参图12，介绍本申请文本排序装置的一实施例。在本实施例中，该文档排序装置包括获取模块221、第三确定模块222以及排序模块223。

获取模块221用于获取目标文档中若干文本段的坐标，所述坐标包括X轴值和Y轴值；第三确定模块222用于基于上述同行文本确定方法，确定所述若干文本段中的同行文本段；排序模块223用于基于所述X轴值对各同行文本段内的文本段进行排序，以及基于所述Y轴值对各同行文本段进行排序。

如上参照图1到图10，对根据本说明书实施例同行文本判定方法以及文本排序方法进行了描述。在以上对方法实施例的描述中所提及的细节，同样适用于本说明书实施例的同行文本判定装置以及文本排序装置。上面的同行文本判定装置以及文本排序装置可以采用硬件实现，也可以采用软件或者硬件和软件的组合来实现。

图13示出了根据本说明书的实施例的电子设备的硬件结构图。如图13所示，电子设备30可以包括至少一个处理器31、存储器32（例如非易失性存储器）、内存33和通信接口34，并且至少一个处理器31、存储器32、内存33和通信接口34经由总线35连接在一起。至少一个处理器31执行在存储器32中存储或编码的至少一个计算机可读指令。

应该理解，在存储器32中存储的计算机可执行指令当执行时使得至少一个处理器31进行本说明书的各个实施例中以上结合图1到图10描述的各种操作和功能。

在本说明书的实施例中，电子设备30可以包括但不限于：个人计算机、服务器计算机、工作站、桌面型计算机、膝上型计算机、笔记本计算机、移动电子设备、智能电话、平板计算机、蜂窝电话、个人数字助理（PDA）、手持装置、消息收发设备、可佩戴电子设备、消费电子设备等等。

根据一个实施例，提供了一种比如机器可读介质的程序产品。机器可读介质可以具有指令（即，上述以软件形式实现的元素），该指令当被机器执行时，使得机器执行本说明书的各个实施例中以上结合图1到图10描述的各种操作和功能。具体地，可以提供配有可读存储介质的系统或者装置，在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。

在这种情况下，从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此机器可读代码和存储机器可读代码的可读存储介质构成了本说明书的一部分。

可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘（如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW）、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上或云上下载程序代码。

本领域技术人员应当理解，上面公开的各个实施例可以在不偏离发明实质的情况下做出各种变形和修改。因此，本说明书的保护范围应当由所附的权利要求书来限定。

需要说明的是，上述各流程和各系统结构图中不是所有的步骤和单元都是必须的，可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的，可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构，也可以是逻辑结构，即，有些单元可能由同一物理客户实现，或者，有些单元可能分由多个物理客户实现，或者，可以由多个独立设备中的某些部件共同实现。

以上各实施例中，硬件单元或模块可以通过机械方式或电气方式实现。例如，一个硬件单元、模块或处理器可以包括永久性专用的电路或逻辑（如专门的处理器，FPGA或ASIC）来完成相应操作。硬件单元或处理器还可以包括可编程逻辑或电路（如通用处理器或其它可编程处理器），可以由软件进行临时的设置以完成相应操作。具体的实现方式（机械方式、或专用的永久性电路、或者临时设置的电路）可以基于成本和时间上的考虑来确定。

上面结合附图阐述的具体实施方式描述了示例性实施例，但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”，并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的，具体实施方式包括具体细节。然而，可以在没有这些具体细节的情况下实施这些技术。在一些实例中，为了避免对所描述的实施例的概念造成难以理解，公知的结构和装置以框图形式示出。

本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说，对本公开内容进行的各种修改是显而易见的，并且，也可以在不脱离本公开内容的保护范围的情况下，将本文所对应的一般性原理应用于其它变型。因此，本公开内容并不限于本文所描述的示例和设计，而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims

1.一种同行文本判定方法，其特征在于，所述方法包括：

2.根据权利要求1所述的同行文本判定方法，其特征在于，基于所述第一主方向和第二主方向，确定所述第一文本段和第二文本段的目标重叠投影，具体包括：

3.根据权利要求2所述的同行文本判定方法，其特征在于，基于所述第一重叠垂直投影和第二重叠垂直投影，确定所述目标重叠投影，具体包括：

4.根据权利要求1所述的同行文本判定方法，其特征在于，基于所述第一主方向和第二主方向，确定所述第一文本段和第二文本段的目标偏差角，具体包括：

5.根据权利要求4所述的同行文本判定方法，其特征在于，基于所述第一方向角和第二方向角相对所述参考角的偏差，确定所述目标偏差角，具体包括：

6.根据权利要求4所述的同行文本判定方法，其特征在于，所述第一文本段和第二文本段上目标参考点为文本段几何中心点。

7.根据权利要求1所述的同行文本判定方法，其特征在于，基于所述目标重叠投影和目标偏差角，判定所述第一文本段和第二文本段是否同行，具体包括：

判定所述第一文本段和第二文本段同行。

8.一种文档排序方法，其特征在于，所述方法包括：

基于权利要求1至7任一项所述的方法，确定所述若干文本段中的同行文本段；

9.一种同行文本判定装置，其特征在于，包括：

10.一种文档排序装置，其特征在于，包括：

第三确定模块，用于基于权利要求1至7任一项所述的方法，确定所述若干文本段中的同行文本段；

11.一种电子设备，包括：

至少一个处理器；以及

存储器，所述存储器存储指令，当所述指令被所述至少一个处理器执行时，使得所述至少一个处理器执行如权利要求1至7任一项所述的同行文本判定方法或权利要求8所述的文档排序方法。

12.一种机器可读存储介质，其存储有可执行指令，所述指令当被执行时使得所述机器执行如权利要求1至7任一项所述的同行文本判定方法或权利要求8所述的文档排序方法。