CN110929647A

CN110929647A - 一种文本检测方法、装置、设备及存储介质

Info

Publication number: CN110929647A
Application number: CN201911154899.1A
Authority: CN
Inventors: 马皓; 何春江
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2020-03-27
Anticipated expiration: 2039-11-22
Also published as: CN110929647B

Abstract

本申请提供了一种文本检测方法、装置、设备及存储介质，其中，方法包括：获取目标文档；对目标文档进行文本行检测，检测得到的文本行作为候选文本行；根据文本行间的语义关系，从候选文本行中确定出误检文本行；将误检文本行从候选文本行中剔除，剩余的文本行作为目标文档的文本检测结果。本申请提供的文本检测方法具有较高的检测准确率，检测效果较好。

Description

一种文本检测方法、装置、设备及存储介质

技术领域

本申请涉及电子文档识别技术领域，尤其涉及一种文本检测方法、装置、设备及存储介质。

背景技术

随着计算机视觉技术的飞速发展，电子文档识别迅速兴起并蓬勃发展，其应用已遍及国民经济与社会生活的各个角落，正在对人类的生产方式、工作方式乃至生活方式带来巨大的变革。

文本检测是电子文档识别的第一步，其检测效果直接影响电子文档识别效果。电子文档中往往含有一些歧义文本，歧义文本指的是，难以与正常文本区分的文本，比如插图内部的注释性文本，对于包含歧义文本的电子文档，在对其进行文本检测时，很容易出现误检问题，即，将歧义文本检测为正常文本。

发明内容

有鉴于此，本申请提供了一种文本检测方法、装置、设备及存储介质，用以解决对包含歧义文本的电子文档进行文本检测时，很容易出现误检的问题，其技术方案如下：

一种文本检测方法，包括：

获取目标文档；

对所述目标文档进行文本行检测，检测得到的文本行作为候选文本行；

根据文本行间的语义关系，从所述候选文本行中确定误检文本行；

将所述误检文本行从所述候选文本行中剔除，剩余的文本行作为所述目标文档的文本检测结果。

可选的，所述对所述目标文档进行文本行检测，包括：

根据水平方向上文本间的关联性以及竖直方向上文本间的关联性，从所述目标文档中检测出文本行。

可选的，所述根据水平方向上文本间的关联性以及竖直方向上文本间的关联性，从所述目标文档中检测出文本行，包括：

对所述目标文档提取特征，获得目标特征图；

对所述目标特征图在宽度的维度上切分，获得宽度维度上的多个特征子图，将所述宽度维度上的多个特征子图处理成包含所述目标文档水平方向上文本间关联性信息的多个特征子图，并由处理后的特征子图组成第一特征图；

对所述目标特征图在高度的维度上切分，获得高度维度上的多个特征子图，将所述高度维度上的多个特征子图处理成包含所述目标文档竖直方向上文本间关联性信息的多个特征子图，并由处理后的特征子图组成第二特征图；

将所述第一特征图与所述第二特征图融合，根据融合后的特征图进行文本行检测。

可选的，所述根据文本行间的语义关系，从所述候选文本行中确定误检文本行，包括：

根据所述候选文本行的分布情况，从所述候选文本行中确定疑似误检文本行；

根据文本行间的语义关系，从所述疑似误检文本行中确定出误检文本行。

可选的，所述根据所述候选文本行的分布情况，从所述候选文本行中确定疑似误检文本行，包括：

根据所述候选文本行的分布情况，对所述候选文本行进行聚类，通过聚类获得至少一个文本行簇，其中，一个文本行簇包括至少一个文本行；

从所述至少一个文本行簇中确定出满足预设条件的文本行簇作为目标文本行簇，其中，所述预设条件为，文本行的数量小于预设数量；

将所述目标文本行簇中的文本行确定为疑似误检文本行。

可选的，所述根据文本行间的语义关系，从所述疑似误检文本行中确定出误检文本行，包括：

若所述目标文本行簇中包括一个文本行，则获取该文本行的前后文本行，并根据该文本行与其前后文本行的语义相关性确定该文本行是否为误检文本行；

若所述目标文本行簇中包括多个文本行，则根据所述目标文本行簇中多个文本行的语义相关性确定所述目标文本行簇中的多个文本行是否为误检文本行。

可选的，所述根据该文本行与其前后文本行的语义相关性确定该文本行是否为误检文本行，包括：

将该文本行与其前后文本行中的文本信息按顺序组成一个句子，通过该句子确定该文本行与其前后文本行在语义上是否连续，若否，则确定该文本行为误检文本行；

所述根据所述目标文本行簇中多个文本行的语义相关性确定所述目标文本行簇中的多个文本行是否为误检文本行，包括：

将所述目标文本行簇中的多个文本行中的文本信息按顺序组成一个句子，通过该句子确定所述目标文本行簇中的多个文本行在语义上是否连续，若否，则确定所述目标文本行簇中的多个文本行均为误检文本行。

可选的，若所述目标文本行簇中的多个文本行在语义上连续，则所述方法还包括：

根据所述目标文本行簇中的多个文本行与该多个文本行的前后文本行的语义相关性，确定所述目标文本行簇中的多个文本行是否为误检文本行。

一种文本检测装置，包括：文本获取模块、文本行检测模块、误检文本行确定模块和文本检测结果确定模块；

所述文本获取模块，用于获取目标文档；

所述文本行检测模块，用于对所述目标文档进行文本行检测，检测得到的文本行作为候选文本行；

所述误检文本行确定模块，用于根据文本行间的语义关系，从所述候选文本行中确定出误检文本行；

所述文本检测结果确定模块，用于将所述误检文本行从所述候选文本行中剔除，将剩余的文本行作为所述目标文档的文本检测结果。

可选的，所述文本行检测模块，具体用于根据水平方向上文本间的关联性以及竖直方向上文本间的关联性，从所述目标文档中检测出文本行。

可选的，所述误检文本行确定模块包括：疑似误检文本行确定子模块和误检文本行确定子模块；

所述疑似误检文本行确定子模块，用于根据所述候选文本行的分布情况，从所述候选文本行中确定疑似误检文本行；

所述误检文本行确定子模块，用于根据文本行间的语义关系，从所述疑似误检文本行中确定出误检文本行。

一种文本检测设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现上述任一项所述的文本检测方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现上述任一项所述的文本检测方法的各个步骤。

经由上述方案可知，本申请提供的文本检测方法、装置、设备及存储介质，首先获取待检测的目标文档，然后对目标文档进行文本行检测，检测得到的文本行作为候选文本行，接着根据文本行间的语义关系，从候选文本行中确定出误检文本行，最后将误检文本行从候选文本行中剔除，剩余的文本行作为目标文档的文本检测结果，由此可见，本申请提供的文本检测方法在检测得到文本行后，可根据文本行间的语义关系将误检文本行确定出来，进而将误检文本行剔除，从而获得准确的文本检测结果。即，本申请提供的文本检测方法具有较高的检测准确率，检测效果较好。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的文本检测方法的流程示意图；

图2为本申请实施例提供的根据水平方向上文本间的关联性以及竖直方向上文本间的关联性，从目标文档中检测出文本行的流程示意图；

图3为本申请实施例提供的对目标文档提取特征，并对提取的特征图进行处理的示意图；

图4a和图4b为采用本申请实施例提供的两种文本行检测方法对一文档进行文本行检测获得的文本行检测结果的一示例的示意图；

图5a和图5b为采用本申请实施例提供的两种文本行检测方法对一文档进行文本行检测获得的文本行检测结果的另一示例的示意图；

图6为本申请实施例提供的包含误检文本行的文本行检测结果的一示例的示意图；

图7为本申请实施例提供的根据文本行间的语义关系，从候选文本行中确定误检文本行的流程示意图；

图8为本申请实施例提供的根据候选文本行的分布情况，从候选文本行中确定疑似误检文本行的流程示意图；

图9为本申请实施例提供的文本检测装置的结构示意图；

图10为本申请实施例提供的文本检测设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本案发明人在实现本发明的过程中发现，现有的文本检测方法大多为基于连接候选框网络的自然场景文本检测方法，采用现有的文本检测方法对包含歧义文本的文档进行检测时，很容易出现误检问题(比如，将文档中插图内部的文本误检为正常文本)，鉴于该问题，本案发明人进行了深入研究，最终提出了一种检测效果较好的文本检测方法，该文本检测方法可应用于具有数据处理能力终端(比如智能手机、PAD、笔记本、PC等)，也可应用于服务器(服务器可以为一个，也可以为多个)。接下来通过下述实施例对本申请提供的文本检测方法进行介绍。

请参阅图1，示出了本申请实施例提供的文本检测方法的流程示意图，该方法可以包括：

步骤S101：获取目标文档。

其中，目标文档可以为通过各种方式获得的电子文档，目标文档中可以包含插图、表格等，插图内部可以包含注释性文本。

步骤S102：对目标文档进行文本行检测，检测得到的文本行作为候选文本行。

本步骤的目的在于，从目标文档中检测出文本行，本步骤检测出的文本行除了包括正常的文本行之外，还可能包括非正常的文本行，即误检文本行，比如，插图内部的文本行。

步骤S103：根据文本行间的语义关系，从候选文本行中确定出误检文本行。

其中，候选文本行可能为一个，也可能为多个，通常为多个。

考虑到正常文本间存在着语义上的相关性，并且一个文本与其前后文本间存在语义上的连续性和关联性，本实施例根据文本行间的语义关系，从候选文本行中确定出误检文本行。

步骤S104：将误检文本行从候选文本行中剔除，剩余的文本行作为目标文档的文本检测结果。

本申请实施例提供的文本检测方法，在获得待检测的目标文档后，首先对目标文档进行文本行检测，检测得到的文本行作为候选文本行，考虑到候选文本行中可能包含误检文本行，接着根据文本行间的语义关系，从候选文本行中确定出误检文本行，最后将误检文本行从候选文本行中剔除，剩余的文本行作为目标文档的文本检测结果，由此可见，本申请实施例提供的文本检测方法在检测得到文本行后，可根据文本行间的语义关系将误检文本行确定出来，进而将误检文本行剔除。本申请提供的文本检测方法具有较高的检测准确率，检测效果较好。

以下对上述实施例中的“步骤S102：对目标文档进行文本行检测，检测得到的文本行作为候选文本行”进行介绍。

对目标文档进行文本行检测的实现方式有多种：

在一种可能的实现方式中，可根据水平方向上文本间的关联性，从目标文档中检测出文本行。

具体的，根据水平方向上文本间的关联性，从目标文档中检测出文本行的过程可以包括：对目标文档提取特征，获得目标特征图；对目标特征图在宽度的维度上切分，获得宽度维度上的多个特征子图，将宽度维度上的多个特征子图处理成包含目标文档水平方向上文本间关联性信息的多个特征子图，并由处理后的特征子图组成第一特征图；根据第一特征图检测目标文档中的文本行。

其中，将宽度维度上的多个特征子图处理成包含目标文档的每一行中文本间关联性信息的多个特征子图的过程包括：将宽度维度上的每个特征子图展开成为一个列向量，从而获得多个列向量，将各个列向量依次输入双向的长短时记忆网络LSTM，获得经双向LSTM处理后的多个列向量，将处理后的每个列向量转换为特征子图。

对于上述实现方式而言，由于能够获得水平方向上文本间的关联性，因此能够获得较好的检测效果。然而，上述实现方式会存在漏检问题，比如，插图上方或下方的文字经常被遗漏。

鉴于上述实现方式存在的问题，本案发明人进行了研究，通过研究发现，上述实现方式存在漏检问题的原因在于，其未考虑文本与其上下方插图之间的关联性，从这点出发，本申请提供了对目标文档进行文本行检测的另一种实现方式，即，根据水平方向上文本间的关联性以及竖直方向上文本间的关联性，从目标文档中检测文本行，该实现方式能够解决漏检问题。

请参阅图2，示出了根据水平方向上文本间的关联性以及竖直方向上文本间的关联性，从目标文档中检测出文本行的流程示意图，可以包括：

步骤S201：对目标文档提取特征，获得目标特征图。

具体的，可利用卷积神经网络VGG对目标文档提取特征，以获得目标特征图。

步骤S202：对目标特征图在宽度的维度上切分，获得宽度维度上的多个特征子图，将宽度维度上的多个特征子图处理成包含目标文档水平方向上文本间关联性信息的多个特征子图，并由处理后的特征子图组成第一特征图。

假设对目标文档提取特征，可获得尺寸为N*C*H*W的目标特征图，如图3所示，将其在宽度的维度上切分，可获得W个N*C*H维的特征子图，将W个N*C*H维的特征子图分别处理成列向量，可得到W个列向量，将W个列向量按顺序依次输入水平方向上的双向LSTM，获得经双向LSTM处理后的W个列向量，经双向LSTM处理后的W个列向量包含了目标文档水平方向上文本间的关联性信息，将经LSTM处理后的每个列向量处理成N*C*H维的特征子图，从而得到W个N*C*H维的特征子图，将这W个N*C*H维的特征子图按顺序组成N*C*H*W的第一特征图。

步骤S203：对目标特征图在高度的维度上切分，获得高度维度上的多个特征子图，将高度维度上的多个特征子图处理成包含目标文档竖直方向上文本间关联性信息的多个特征子图，并由处理后的特征子图组成第二特征图。

对于上述尺寸为N*C*H*W的目标特征图，如图3所示，将其在高度的维度上切分，可获得H个N*C*W维的特征子图，H个N*C*W维的特征子图按从上到下的顺序排序，将H个N*C*W维的特征子图分别处理成行向量，可得到H个行向量，将H个行向量按顺序依次输入竖直方向上的双向LSTM，获得经双向LSTM处理后的H个行向量，经双向LSTM处理后的H个行向量包含了目标文档竖直方向上文本间的关联性信息，将经双向LSTM处理后的每个行向量处理成N*C*W维的特征子图，从而得到H个N*C*W维的特征子图，将这H个N*C*W维的特征子图按顺序组成N*C*H*W的第二特征图。

另外，需要说明的是，本实施例并不限定步骤S202与步骤S203的执行顺序，可先执行步骤S202后执行步骤S203，也可先执行步骤S203后执行步骤S202，还可并行执行步骤S202和步骤S203，也就是说，只要包括步骤S202和步骤S203，都属于本申请的保护范围。

步骤S204：将第一特征图与第二特图融合，根据融合后的特征图进行文本行检测。

将第一特征图与第二特图融合的实现方式有多种：

在一种可能的实现方式中，可将第一特征图与第二特征图在深度维度上进行拼接，假设第一特征图和第二特征图的尺寸均为N*C*H*W，则第一特征图与第二特征图在深度维度上进行拼接后可得到N*2C*H*W的特征图。

在另一种可能的实现方式中，可将第一特征图与第二特征图进行像素相加，即，将第一特征图和第二特征图中对应像素位置的像素值相加，假设第一特征图和第二特征图的尺寸均为N*C*H*W，则将第一特征图和第二特征图进行像素相加可得到N*C*H*W的特征图。

请参阅图4a，示出了采用上述第一种文本行检测方法对一文档进行文本行检测的检测结果，由图4a可以看出，文档中的文本行基本被检测出来，但插图下方的文本“第9题”未检测出来，即存在遗漏问题，请参阅图4b，示出了采用上述第二种文本行检测方法对相同文档进行文本行检测的检测结果，由图4b可以看出，插图上方的文本行和插图下方的文本行均被检测了出来，即上述的第二种实现方式能够解决遗漏问题，进而能够提升文本检测效果。

另外，根据水平方向上文本间的关联性以及竖直方向上文本间的关联性对目标文档进行文本行检测，在一定程度还能够改善误检问题，对于一些歧义文本，根据水平方向上文本间的关联性信息无法判定其为歧义文本，但结合上竖直方向上文本间的关联性信息后，可很容易将其判定为歧义文本。请参阅图5a，示出了采用上述第一种文本行检测方法对一文档进行文本行检测的检测结果，图5a中的201～208被当作正常文本检测出来，即201～208为误检文本行，请参阅图5b，示出了采用上述第二种文本行检测方法对相同文档进行文本行检测的检测结果，由图5b可以看出，插图中的文本行并未被作为正常文本行检测出来。

上述的第二种文本行检测方式(即根据水平方向上文本间的关联性以及竖直方向上文本间的关联性对目标文档进行文本行检测)虽然在一定程度上能够改善误检问题，但并不能彻底解决误检问题，也就是说通过上述文本行检测方式检测出的文本行中仍然会存在误检文本行，如图6所示，图6中的601和602仍然会被作为正常文本而检测出来，为了能够彻底解决误检问题，本申请将检测出的文本行作为候选文本行，进一步根据文本行间的语义关系，从候选文本行中确定出误检文本行，以提升文本检测效果。

根据文本行间的语义关系，从候选文本行中检测误检文本行的实现方式有多种：

在一种可能的实现方式中，可根据每个候选文本与其前后文本行的语义关系，确定每个候选文本行是否为误检文本行。

考虑到上述从候选文本行中确定误检文本行的方式需要针对每个候选文本行进行判断，且只能确定出少量的误检文本行，为了提升误检文本行的检测效率和检测效果，本申请提供了另一种较为优选的实现方式，请参阅图7，示出了该优选的实现方式的流程示意图，可以包括：

步骤S701：根据候选文本行的分布情况，从候选文本行中确定疑似误检文本行。

考虑到歧义文本(比如插图中的文本)与正常文本的距离较远，分布比较稀疏，本实施例根据候选文本行的分布情况，从候选文本行中确定疑似误检文本行。

步骤S702：根据文本行间的语义关系，从疑似误检文本行中确定出误检文本行。

步骤S701的目的在于从候选文本行中粗略地筛选出所有可能的误检文本行，以缩小范围，提高误检文本行的确定效率，步骤S702的目的在于从可能的误检文本行中准确确定出误检文本行。

以下分别对上述步骤S701和步骤S702的具体实现过程进行介绍。

请参阅图8，示出了“步骤S701：根据候选文本行的分布情况，从候选文本行中确定疑似误检文本行”的流程示意图，可以包括：

步骤S801：根据候选文本行的分布情况，对候选文本行进行聚类，通过聚类获得至少一个文本行簇。

其中，文本行簇为位置分布比较近的一些文本行组成的文本行集合，一个文本行簇中包括至少一个文本行。

具体的，根据候选文本行的分布情况，对候选文本行进行聚类的过程可以包括：

步骤S8011、确定每个候选文本行的中心点。

步骤S8012、从尚未划入文本行簇的所有候选文本行中随机选取一个文本行作为目标文本行。

步骤S8013、由目标文本行构成一个文本行簇，并将目标文本行的中心点作为该文本行簇的中心点。

步骤S8014、将到该文本行簇的中心点的距离小于预设距离阈值d1的文本行划入该文本行簇。

其中，距离阈值d1可根据实际情况设定。

步骤S8015、对该文本行簇的中心点进行更新。

具体的，将该文本行簇的中心点更新为该文本行簇中所包含的所有文本行的中心点的中心点。

步骤S8016、将与已构成的文本行簇的中心点的距离小于预设距离阈值d1的候选文本行划入对应的文本行簇中。

重复执行步骤S8015和步骤S8016，直至文本行簇稳定，即文本行簇中的文本行不再变化，然后执行步骤S8017。

步骤S8017、判断是否还有未划入文本行簇的候选文本行，若是，则返回执行步骤S8012，直至每个候选文本行都划入文本行簇，若否，则结束聚类过程。

步骤S802：从至少一个文本簇中确定出满足预设条件的文本行簇，将满足预设条件的文本行簇作为目标文本行簇。

其中，预设条件为，文本行的数量小于预设数量，即，若一个文本行簇所包括的文本行的数量小于预设的数量(比如5)，则确定该文本行簇为目标文本行簇。

步骤S803：将目标文本行簇中的文本行确定为疑似误检文本行。

经由上述过程可从候选文本行中确定出疑似误检文本行，在获得疑似误检文本行后，根据文本行间的语义关系，从疑似误检文本行中确定出误检文本行。

接下来对“步骤S702：根据文本行间的语义关系，从疑似误检文本行中确定出误检文本行”进行介绍。

本申请以文本行簇为单位确定误检文本行，通过上述过程确定的目标文本行簇中可能包括一个文本行，也可能包括多个文本行，以下分情况对确定误检文本行的过程进行介绍。

1、目标文本行簇包括一个文本行

若目标文本行簇中包括一个文本行，则获取该文本行的前后文本行，并根据该文本行与其前后文本行的语义相关性，确定该文本行是否为误检文本行。

其中，获取该文本行的前后文本行的过程可以包括：寻找与该文本行的距离小于预设距离阈值d2的文本行，将与该文本行的距离小于预设距离阈值d2的文本行确定为该文本行的前后文本行。

需要说明的是，若未找到与该文本行的距离小于预设距离阈值d2的文本行，则将该文本行确定为正常文本行，即非误检文本行。其中，距离阈值d2可根据实际情况设定。

根据该文本行与其前后文本行的语义相关性，确定该文本行是否为误检文本行的过程包括：将该文本行与其前后文本行中的文本信息按顺序组成一个句子，通过该句子确定该文本行与其前后文本行在语义上是否连续，若否，则确定该文本行为误检文本行。

具体的，首先将该文本行和其前后文本行输入文本识别模型，获得该文本行和其前后文本行中的文本信息，然后将该文本行和其前后文本行中的文本信息按顺序组成一个句子，接着，确定该句子为正常文本的概率，若该句子为正常文本的概率大于预设的概率阈值(比如0.6)，则确定该文本行和其前后文本行在语义上连续，否则，确定该文本行和其前后文本行在语义上不连续。

需要说明的是，一个句子为正常文本的概率可通过语言模型确定，可选的，语言模型可以为BERT模型(Bidirectional Encoder Representation from Transformers，双向Transformer的编码器表示)，语言模型的输入为句子中各个词分别对应的向量组成的序列，输出为句子中每个词对应的概率，其中，一个词对应的向量可以为该词在语料库中的位置对应的one-hot向量，一个词对应的概率表示该词在其前面词已经存在的情况下出现的概率。

在获得句子中每个词对应的概率后，可根据下式确定该句子为正常文本的概率：

p(w₁,w₂,...,w_n-1)＝p(w₁)p(w₂|w₁)...p(w_n|w₁,w₂,...,w_n-1) (1)

其中，p(w₁,w₂,...,w_n-1)为包含词w₁,w₂,...,w_n-1的句子为正常文本的概率，p(w_n|w₁,w₂,...,w_n-1)表示词w_n在其前面的词w₁,w₂,...,w_n-1已经存在的情况下出现的概率。

另外，需要说明的是，若该文本行与其前后文本行在语义上连续，则确定该文本行为正常文本行，即非误检文本行。

2、目标文本行簇中包括多个文本行

若目标文本行簇中包括多个文本行，则根据目标文本行簇中多个文本行的语义相关性，确定目标文本行簇中的多个文本行是否为误检文本行。

具体的，根据目标文本行簇中多个文本行的语义相关性，确定目标文本行簇中的多个文本行是否为误检文本行的过程包括：将目标文本行簇中的多个文本行中的文本信息按顺序(按从上到下、从左到右的顺序)组成一个语句，通过该句子确定目标文本行簇中的多个文本行在语义上是否连续，若否，则确定目标文本行簇中的多个文本行均为误检文本行。

具体的，首先可将目标文本行簇中的多个文本行分别输入文本识别模型，获得每个文本行中的文本信息，然后将目标文本行簇中各个文本行中的文本信息按顺序组成一个句子，接着，利用语言模型(比如，BERT模型)确定该句子为正常文本的概率，若该句子为正常文本的概率大于预设的概率阈值(比如0.6)，则确定目标文本行簇中的多个文本行在语义上连续，否则，确定目标文本行簇中的多个文本行在语义上不连续。

若目标文本行簇中的多个文本行在语义上不连续，可直接判定目标文本行簇中的多个文本行均为误检文本行，若目标文本行簇中的多个文本行在语义上连续，可按如下两种方式中的任一种方式处理：

其一，直接判定目标文本行簇中的多个文本行均为非误检文本行，即正常的文本行。

其二，考虑到多个文本行在语义上连续并不能完全说明多个文本行为正常文本行，为了能够确定出所有的误检文本行，进一步根据目标文本行簇中多个文本行与这多个文本行的前后文本行的语义相关性，确定目标文本行簇中多个文本行是否为误检文本行。

在本实施例中，可获取与多个文本行的中心点距离小于预设的距离阈值d3的文本行，作为多个文本行的前后文本行，需要说明的是，若不存在与多个文本行的中心点距离小于预设的距离阈值d3的文本行，则确定多个文本行为正常文本行。其中，距离阈值d3可根据实际情况设定。

具体的，根据目标文本行簇中多个文本行与这多个文本行的前后文本行的语义相关性，确定目标文本行簇中多个文本行是否为误检文本行的过程可以包括：确定目标文本行簇中多个文本行与这多个文本行的前后文本行在语义上是否连续，若否，则确定目标文本行簇中多个文本行为误检文本行，若是，则确定目标文本行簇中的多个文本行为非误检文本行，即正常文本行。

同样的，可将目标文本行簇中多个文本行与这多个文本行的前后文本行中的文本信息按顺序组成一个句子，利用语言模型(比如，BERT模型)，确定该句子为正常文本的概率，若该句子为正常文本的概率大于预设的概率阈值(比如0.6)，则确定目标文本行簇中多个文本行与这多个文本行的前后文本行在语义上连续，否则，确定目标文本行簇中多个文本行与这多个文本行的前后文本行在语义上不连续。

本申请实施例提供的文本检测方法中，根据目标文档水平方向上文本间的关联性信息以及竖直方向上文本间的关联性信息进行文本行检测，能够解决文本行漏检问题，还能在一定程度上改善文本行误检问题，根据文本行间的语义相关性能够从检测出的文本行中准确确定出误检文本行，进而能够获得准确的文本检测结果，即，本申请实施例提供的文本检测方法具有较高的检测准确率，检测效果较好。

下面对本申请实施例提供的文本检测装置进行描述，下文描述的文本检测装置与上文描述的文本检测方法可相互对应参照。

请参阅图9，示出了本申请实施例提供的一种文本检测装置的结构示意图，该文本检测装置可以包括：文本获取模块901、文本行检测模块902、误检文本行确定模块903和文本检测结果确定模块904。

文本获取模块901，用于获取目标文档。

文本行检测模块902，用于对所述目标文档进行文本行检测，检测得到的文本行作为候选文本行。

误检文本行确定模块903，用于根据文本行间的语义关系，从所述候选文本行中确定出误检文本行。

文本检测结果确定模块904，用于将所述误检文本行从所述候选文本行中剔除，将剩余的文本行作为所述目标文档的文本检测结果。

本申请实施例提供的文本检测装置在从目标文档中检测出文本行后，可根据文本行间的语义关系从检测出的文本行中将误检文本行确定出来，进而将误检文本行剔除，从而获得最终的文本检测结果。本申请实施例提供的文本检测装置具有较高的文本检测准确率，检测效果较好。

在一种可能的实现方式中，为了避免文本行漏检，上述实施例提供的文本检测装置中的文本行检测模块902，具体用于根据水平方向上文本间的关联性以及竖直方向上文本间的关联性，从所述目标文档中检测出文本行。

在一种可能的实现方式中，上述的文本行检测模块902可以包括：特征提取子模块、第一特征处理子模块、第二特征处理子模块和文本行检测子模块。

特征提取子模块，用于对所述目标文档提取特征，获得目标特征图。

第一特征处理子模块，用于对所述目标特征图在宽度的维度上切分，获得宽度维度上的多个特征子图，将所述宽度维度上的多个特征子图处理成包含所述目标文档水平方向上文本间关联性信息的多个特征子图，并由处理后的特征子图组成第一特征图。

第二特征处理子模块，用于对所述目标特征图在高度的维度上切分，获得高度维度上的多个特征子图，将所述高度维度上的多个特征子图处理成包含所述目标文档竖直方向上文本间关联性信息的多个特征子图，并由处理后的特征子图组成第二特征图。

文本行检测子模块，用于将所述第一特征图与所述第二特征图融合，根据融合后的特征图进行文本行检测。

在一种可能的实现方式中，为了提高误检文本行的确定效率和确定效果，上述实施例提供的文本检测装置中的误检文本行确定模块903可以包括疑似误检文本行确定子模块和误检文本行确定子模块。

疑似误检文本行确定子模块，用于根据所述候选文本行的分布情况，从所述候选文本行中确定疑似误检文本行。

误检文本行确定子模块，用于根据文本行间的语义关系，从所述疑似误检文本行中确定出误检文本行。

在一种可能的实现方式中，上述的疑似误检文本行确定子模块包括聚类子模块、第一确定子模块和第二确定子模块。

聚类子模块，用于根据所述候选文本行的分布情况，对所述候选文本行进行聚类，通过聚类获得至少一个文本行簇，其中，一个文本行簇包括至少一个文本行。

第一确定子模块，用于从所述至少一个文本行簇中确定出满足预设条件的文本行簇作为目标文本行簇。

其中，所述预设条件为，文本行的数量小于预设数量。

第二确定子模块，用于将所述目标文本行簇中的文本行确定为疑似误检文本行。

在一种可能的实现方式中，上述的误检文本行确定子模块包括：第一误检文本行确定子模块和第二误检文本行确定子模块。

第一误检文本行确定子模块，用于若所述目标文本行簇中包括一个文本行，则获取该文本行的前后文本行，并根据该文本行与其前后文本行的语义相关性确定该文本行是否为误检文本行；

第二误检文本行确定子模块，用于若所述目标文本行簇中包括多个文本行，则根据所述目标文本行簇中多个文本行的语义相关性确定所述目标文本行簇中的多个文本行是否为误检文本行。

在一种可能的实现方式中，第一误检文本行确定子模块，在根据该文本行与其前后文本行的语义相关性确定该文本行是否为误检文本行时，具体用于将该文本行与其前后文本行中的文本信息按顺序组成一个句子，通过该句子确定该文本行与其前后文本行在语义上是否连续，若否，则确定该文本行为误检文本行。

在一种可能的实现方式中，第二误检文本行确定子模块在根据所述目标文本行簇中多个文本行的语义相关性确定所述目标文本行簇中的多个文本行是否为误检文本行时，具体用于将所述目标文本行簇中的多个文本行中的文本信息按顺序组成一个句子，通过该句子确定所述目标文本行簇中的多个文本行在语义上是否连续，若否，则确定所述目标文本行簇中的多个文本行均为误检文本行。

在一种可能的实现方式中，第二误检文本行确定子模块，还用于若所述目标文本行簇中的多个文本行在语义上连续，根据所述目标文本行簇中的多个文本行与所述目标文本行簇中的多个文本行的前后文本行的语义相关性，确定所述目标文本行簇中的多个文本行是否为误检文本行。

本申请实施例还提供了一种文本检测设备，请参阅图10，示出了该文本检测设备的结构示意图，该文本检测设备可以包括：至少一个处理器1001，至少一个通信接口1002，至少一个存储器1003和至少一个通信总线1004；

在本申请实施例中，处理器1001、通信接口1002、存储器1003、通信总线1004的数量为至少一个，且处理器1001、通信接口1002、存储器1003通过通信总线1004完成相互间的通信；

处理器1001可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器1003可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

获取目标文档；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

获取目标文档；

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本检测方法，其特征在于，包括：

获取目标文档；

2.根据权利要求1所述的文本检测方法，其特征在于，所述对所述目标文档进行文本行检测，包括：

根据水平方向上文本间的关联性以及竖直方向上文本间的关联性，从所述目标文档中检测文本行。

3.根据权利要求2所述的文本检测方法，其特征在于，所述根据水平方向上文本间的关联性以及竖直方向上文本间的关联性，从所述目标文档中检测出文本行，包括：

对所述目标文档提取特征，获得目标特征图；

4.根据权利要求1所述的文本检测方法，其特征在于，所述根据文本行间的语义关系，从所述候选文本行中确定误检文本行，包括：

根据文本行间的语义关系，从所述疑似误检文本行中确定误检文本行。

5.根据权利要求4所述的文本检测方法，其特征在于，所述根据所述候选文本行的分布情况，从所述候选文本行中确定疑似误检文本行，包括：

从所述至少一个文本行簇中确定出满足预设条件的文本行簇，作为目标文本行簇，其中，所述预设条件为，文本行的数量小于预设数量；

将所述目标文本行簇中的文本行确定为疑似误检文本行。

6.根据权利要求5所述的文本检测方法，其特征在于，所述根据文本行间的语义关系，从所述疑似误检文本行中确定出误检文本行，包括：

7.根据权利要求6所述的文本检测方法，其特征在于，所述根据该文本行与其前后文本行的语义相关性确定该文本行是否为误检文本行，包括：

8.根据权利要求7所述的文本检测方法，其特征在于，若所述目标文本行簇中的多个文本行在语义上连续，则所述方法还包括：

根据所述目标文本行簇中的多个文本行与所述目标文本行簇中的多个文本行的前后文本行的语义相关性，确定所述目标文本行簇中的多个文本行是否为误检文本行。

9.一种文本检测装置，其特征在于，包括：文本获取模块、文本行检测模块、误检文本行确定模块和文本检测结果确定模块；

所述文本获取模块，用于获取目标文档；

10.根据权利要求9所述的文本检测装置，其特征在于，所述文本行检测模块，具体用于根据水平方向上文本间的关联性以及竖直方向上文本间的关联性，从所述目标文档中检测出文本行。

11.根据权利要求9所述的文本检测装置，其特征在于，所述误检文本行确定模块包括：疑似误检文本行确定子模块和误检文本行确定子模块；

12.一种文本检测设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～8中任一项所述的文本检测方法的各个步骤。

13.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～8中任一项所述的文本检测方法的各个步骤。