CN114973291B

CN114973291B - 文本行图像文字切分方法及装置

Info

Publication number: CN114973291B
Application number: CN202210900830.4A
Authority: CN
Inventors: 李凤伟
Original assignee: Beijing Heren Guangzhi Technology Co ltd
Current assignee: Beijing Heren Guangzhi Technology Co ltd
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2022-11-04
Anticipated expiration: 2042-07-28
Also published as: CN114973291A

Abstract

本公开提供一种文本行图像文字切分方法及装置。所述方法包括：对待处理图像进行特征提取，获得第一特征图；根据第一特征图，获得第二特征图；根据第二特征图，获得将第二特征图的各列进行融合的第一行向量；对第一行向量进行激活，获得第二行向量；根据第二行向量的元素，确定文本之间的间隙所在的目标列；根据目标列，将待处理图像中的文本行进行切分，获得目标图像。根据本公开，能够基于第一特征图中的语义相关性来降低将同一文本的多个部分误拆分的概率，并可降低背景的干扰，并可获取表示待处理图像中的列是否为文本间隙的第二行向量，从而提升对文本的拆分效率和拆分准确率。

Description

文本行图像文字切分方法及装置

技术领域

本公开涉及计算机技术领域，尤其涉及一种文本行图像文字切分方法及装置。

背景技术

在图像中的内容为一行文字的情况下，可将一行文字切分成单个文字，并逐一识别单个文字，例如，在识别具有大段文字的图像的过程中，可基于中文常按照行方向书写的特点，将大段文字分为多个行，并分别识别各行中的文字。然而，通过计算机自动将各行中的多个文字拆分成单个文字，则具有一定困难。

在相关技术中，可使用基于连通区域的切分方法。首先选定文字上的一个点，然后由此点向外扩展，将所有能与此点连通的点都认为是属于同一个文字，然后将能包含这些点的最小矩形认为是该字的外边框。此方法最大的缺点是，由于汉字很多左右结构或上下结构，而这些结构之间是不连通的，因而很容易把一个字符切成两部分甚至更多，造成误切分。

公开于本申请背景技术部分的信息仅仅旨在加深对本申请的一般背景技术的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

发明内容

本公开实施例提供一种文本行图像文字切分方法及装置，能够基于第一特征图中的语义相关性来降低将同一文本的多个部分误拆分的概率，并可降低背景的干扰，并可获取表示待处理图像中的列是否为文本间隙的第二行向量，从而提升对文本的拆分效率和拆分准确率。

本公开实施例的第一方面，提供一种文本行图像文字切分方法，包括：

将待处理图像输入深度学习神经网络模型进行特征提取处理，获得待处理图像的第一特征图，其中，所述待处理图像为三通道RGB图像，所述待处理图像的内容包括一个文本行，所述文本行包括多个文本，文本之间存在间隙，所述第一特征图为三通道RGB图像，所述第一特征图的尺寸与所述待处理图像的尺寸相同；

根据所述第一特征图，获得第二特征图；

根据第二特征图，获得将所述第二特征图的各列进行融合的第一行向量，所述第一行向量的元素数量与所述第二特征图的列数相同；

对所述第一行向量进行激活处理，获得第二行向量，所述第二行向量的元素数量与所述第一行向量相同；

根据所述第二行向量的元素，确定所述文本之间的间隙所在的目标列，所述目标列为将文本行中的文本按照所述间隙切分成单个文本的切分列；

根据所述目标列，将所述待处理图像中的文本行进行切分，获得至少一个具有单个文本的目标图像。

根据本公开的实施例，根据所述第一特征图，获得单通道的第二特征图，包括：

对所述第一特征图的三个通道进行卷积处理，获得第二特征图。

根据本公开的实施例，根据第二特征图，获得将所述第二特征图的各行进行融合的第一行向量，包括：

根据公式

，获得第一行向量，其中，

为第二特征图中坐标为

的像素点，

为第二特征图的总列数，

为第一行向量中的第i个元素。

根据本公开的实施例，对所述第一行向量进行激活处理，获得第二行向量，包括：

通过sigmod激活函数对所述第一行向量的各个元素进行激活处理，获得所述第二行向量，其中，所述第二行向量中的各个元素的数值的取值区间为[0，1]。

根据本公开的实施例，根据所述第二行向量的元素，确定所述文本之间的间隙所在的目标列，包括：

确定出所述第二行向量的元素中，小于预设阈值的目标元素；

将所述目标元素在所述第二行向量中的索引，确定为所述目标列的列数。

根据本公开的实施例，在所述第一特征图中，所述单个文本的不同部分之间存在语义关联性，所述语义关联性表示所述不同部分属于同一文本。

根据本公开的实施例，所述方法还包括：

对所述目标图像进行识别处理，获得所述单个文本的语义信息。

根据本公开的第二方面，提供一种文本行图像文字切分装置，包括：

特征提取模块，用于将待处理图像输入深度学习神经网络模型进行特征提取处理，获得待处理图像的第一特征图，其中，所述待处理图像为三通道RGB图像，所述待处理图像的内容包括一个文本行，所述文本行包括多个文本，文本之间存在间隙，所述第一特征图为三通道RGB图像，所述第一特征图的尺寸与所述待处理图像的尺寸相同；

通道融合模块，用于根据所述第一特征图，获得第二特征图；

行融合模块，用于根据第二特征图，获得将所述第二特征图的各列进行融合的第一行向量，所述第一行向量的元素数量与所述第二特征图的列数相同；

激活模块，用于对所述第一行向量进行激活处理，获得第二行向量，所述第二行向量的元素数量与所述第一行向量相同；

目标列确定模块，用于根据所述第二行向量的元素，确定所述文本之间的间隙所在的目标列，所述目标列为将文本行中的文本按照所述间隙切分成单个文本的切分列；

切分模块，用于根据所述目标列，将所述待处理图像中的文本行进行切分，获得至少一个具有单个文本的目标图像。

根据本公开的实施例，所述通道融合模块进一步配置为：对所述第一特征图的三个通道进行卷积处理，获得第二特征图。

根据本公开的实施例，所述行融合模块进一步配置为：根据公式

，获得第一行向量，其中，

为第二特征图中坐标为

的像素点，

为第二特征图的总列数，

为第一行向量中的第i个元素。

根据本公开的实施例，所述激活模块进一步配置为：通过sigmod激活函数对所述第一行向量的各个元素进行激活处理，获得所述第二行向量，其中，所述第二行向量中的各个元素的数值的取值区间为[0，1]。

根据本公开的实施例，所述目标列确定模块进一步配置为：确定出所述第二行向量的元素中，小于预设阈值的目标元素；

根据本公开的实施例，所述装置还包括：识别模块，用于对所述目标图像进行识别处理，获得所述单个文本的语义信息。

本公开实施例的第三方面，提供一种文本行图像文字切分设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器存储的指令，以执行上述方法。

本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现上述方法。

附图说明

图1示例性地示出本公开实施例文本行图像文字切分方法的流程图；

图2示例性地示出本公开实施例文本行图像文字切分方法的案例示意图；

图3示例性地示出本公开实施例文本行图像文字切分装置的框图；

图4是根据一示例性实施例示出的一种文本行图像文字切分设备的框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

应当理解，在本公开的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。

应当理解，在本公开中，“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本公开中，“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含，“包含A、B或C”是指包含A、B、C三者之一，“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。

应当理解，在本公开中，“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”，表示B与A相关联，根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。A与B的匹配，是A与B的相似度大于或等于预设的阈值。

取决于语境，如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。

下面以具体地实施例对本公开的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

针对上述问题，本公开提出一种文本行图像文字切分方法，可有效提升切分准确性。

图1示例性地示出本公开实施例文本行图像文字切分方法的流程图，如图1所示，所述方法包括：

步骤S101，将待处理图像输入深度学习神经网络模型进行特征提取处理，获得待处理图像的第一特征图，其中，所述待处理图像为三通道RGB图像，所述待处理图像的内容包括一个文本行，所述文本行包括多个文本，文本之间存在间隙，所述第一特征图为三通道RGB图像，所述第一特征图的尺寸与所述待处理图像的尺寸相同；

步骤S102，根据所述第一特征图，获得第二特征图；

步骤S103，根据第二特征图，获得将所述第二特征图的各列进行融合的第一行向量，所述第一行向量的元素数量与所述第二特征图的列数相同；

步骤S104，对所述第一行向量进行激活处理，获得第二行向量，所述第二行向量的元素数量与所述第一行向量相同；

步骤S105，根据所述第二行向量的元素，确定所述文本之间的间隙所在的目标列，所述目标列为将文本行中的文本按照所述间隙切分成单个文本的切分列；

步骤S106，根据所述目标列，将所述待处理图像中的文本行进行切分，获得至少一个具有单个文本的目标图像。

根据本公开的实施例，在步骤S101中，可通过深度学习神经网络模型对待处理图像进行特征提取处理。所述待处理图像可包括一个文本行。例如，待处理图像可以是包括多个文本行的图像中的一部分，例如，截图获得的具有一个文本行的图像，或者，待处理图像可以是仅包括一个文本行的独立图像。本公开对待处理图像的类型不做限制。

根据本公开的实施例，所述文本行可包括至少一个文本，例如，包括至少一个汉字、字母、数字等，本公开对文本行包括的文本的类型不做限制。

根据本公开的实施例，所述深度学习神经网络模型可以是卷积神经网络模型，可包括多个编码层和多个解码层。所述编码层可包括卷积层、激活层、池化层等层级，解码层可包括反卷积层、激活层、池化层等层级，还可包括全连接层等层级，编码层和解码层中的至少一种还可具有注意力机制，即，将模型运算的权值集中于待处理图像中的文本所在区域的机制，例如，提升文本所在区域的权值，降低背景区域的权值。本公开对深度学习神经网络模型的具体结构不做限制。

根据本公开的实施例，待处理图像为三通道的RGB图像，即，彩色图像，每个像素点可具有R值、G值和B值，文本可以是彩色文本。当然，待处理图像也可以是黑白图像，包括的文本也可以是黑白文本，本公开对此不做限制。

根据本公开的实施例，待处理图像的尺寸为M×N（其中，M和N均为大于1的整数，M为图像宽度、N为图像高度）。在通过深度学习神经网络模型进行处理时，每通过一个编码层的处理，获得的特征图的尺寸均会缩小，但通道数均会增大，可扩大深度学习神经网络模型的感受野，从而提升对图像的处理精度。在示例中，每通过一个编码层的处理，特征图的宽度和高度均降低为该编码层之前的特征图的1/2，同时通道数增大2倍。在示例中，所述编码层共可包括三层，因此，编码层最终可获得长度和宽度均为待处理图像的1/8的特征图，且通道数增大为24个，从而获得足够的特征信息和感受野，以对文本进行更准确地切分。

根据本公开的实施例，在编码层之后，获得的特征图可输入解码层进行处理，每经过一个解码层的处理，获得的特征图的尺寸均会增大，但通道数均会缩小，可逐步还原成与待处理图像一致的尺寸和通道数。在示例中，每通过一个解码层的处理，特征图的宽度和高度均增大为该解码层之前的特征图的2倍，同时通道数下降为1/2。在示例中，所述解码层共可包括三层，因此，解码层最终可获得长度和宽度均与待处理图像的相等的第一特征图，且第一特征图的通道数也为三个，例如，第一特征图也为RGB图像。

根据本公开的实施例，在步骤S102中，可根据以上获得的第一特征图，获得单通道的第二特征图。步骤S102包括：对所述第一特征图的三个通道进行卷积处理，获得第二特征图。

根据本公开的实施例，根据以上卷积处理，可将第一特征图的三个通道进行融合，获得第二特征图。

根据本公开的实施例，在步骤S103中，可根据第二特征图，获得将第二特征图的各列进行融合的第一行向量。步骤S103包括：根据公式（1），获得第一行向量：

（1）

其中，

为第二特征图中坐标为

的像素点，

为第二特征图的总列数，亦为第二特征图的宽度，

为第一行向量中的第i个元素。

根据本公开的实施例，根据以上公式（1），可在第二特征图中，按照竖直方向（即，按照列方向或高度方向）进行求和，将每列的像素点的数值进行求和，获得的该列的数值总和，即为第一行向量中的元素，例如，第二特征图的第i列中共包括N个数据，可将该N个数据进行求和，获得的总和即为第一行向量中第i个元素，最终获得的第一行向量中元素的个数与第二特征图中的列数相等，即，第一行向量共包括M个元素。

根据本公开的实施例，在步骤S104中，可对第一行向量进行激活处理，获得第二行向量，步骤S104可包括：通过sigmod激活函数对所述第一行向量的各个元素进行激活处理，获得所述第二行向量，其中，所述第二行向量中的各个元素的数值的取值区间为[0，1]。

根据本公开的实施例，可将第一行向量的M个元素对应于sigmod激活函数的函数曲线总，从而将M个元素映射至[0，1]区间中的数值，获得第二行向量。当然，也可对第一行向量进行归一化处理，也可获得元素数值属于区间[0，1]的第二行向量。本公开对第二行向量的获取方式不做限制。

根据本公开的实施例，在步骤S105中，基于第二行向量的元素，来确定文本之间的间隙所在的目标列。步骤105可包括：确定出所述第二行向量的元素中，小于预设阈值的目标元素；将所述目标元素在所述第二行向量中的索引，确定为所述目标列的列数。

根据本公开的实施例，第二行向量的元素数量与第二特征图的列数相等，与待处理图像的列数也相等，因此，第二行向量的每个元素可对应于待处理图像中的一列像素点。而如果待处理图像中的某一列像素点为文本所在区域中的一列，则该列中由于存在内容，从而导致第二特征图中该列也存在内容，进而使得最终获得的第二行向量中与该列对应的元素的数值较大。而如果待处理图像中的某一列像素点为文本之间的间隙所在位置中的一列，则该列中由于不存在内容，从而导致第二特征图中该列也不存在内容，进而使得最终获得的第二行向量中与该列对应的元素的数值较小。

根据本公开的实施例，可设置预设阈值，例如，0.5，如果第二行向量的某个元素小于0.5，则该元素对应的待处理图像中的列处于文本之间的间隙，否则，则该元素对应的待处理图像中的列处于文本所在位置中。因此，确定第二行向量中小于预设阈值的目标元素，与目标元素的索引（即，目标元素的序号）对应的待处理图像中的目标列的列数，即，文本之间的间隙所在的列的列数。

根据本公开的实施例，在步骤S106中，在切分本行时，可基于文本之间的间隙，将多个文本组成的文本行切分成单一文本，因此，可基于以上确定的目标列，来切分待处理图像中的文本行，获得至少一个具有单个文本的目标图像，目标图像中仅具有一个文本，例如，一个汉字，一个数据或一个字母等。本公开对此不做限制。

根据本公开的实施例，在所述第一特征图中，所述单个文本的不同部分之间存在语义关联性，所述语义关联性表示所述不同部分属于同一文本。由于语义关联性的存在，可使得具有多个部分的文本可被识别为一个文本，而减少被误识别为多个文本的概率。

例如，如果使用原图，即，待处理图像直接进行按列求和，并基于求和后的向量来确定间隙所在的列，则如果遇到“刂”“卜”“川”等存在多个部分的汉字，则很容易将同一汉字的不同部分之间的间隙（例如，左右结构的汉字之间的间隙），误识别为不同汉字之间的间隙，从而将同一汉字误拆分为多个汉字，当然，字母（例如，多个字母组成的单词）或数字（例如，奥阔多个数据位的数字）也可能由于类似原因被误拆分为多个文本。

又例如，在进行了上述特征提取，获得了具有上述同一个文本内不同部分之间的语义关联性的第一特征图后，基于语义关联性可将同一文本的不同部分识别为同一文本，因此，减少上述误拆分的可能性。并且，基于第一特征图进行拆分，还可降低待处理图像的背景中的杂质干扰，例如，第一特征图中可降低背景中的权值，从而减少背景中杂质的干扰。

根据本公开的实施例，由于以上使用深度学习神经网络模型的过程可获得第二行向量，从而寻找拆分的依据，而并非直接使用深度学习神经网络模型识别文字，因此，还可降低深度学习神经网络模型的运算复杂度和训练复杂度，提升对文本的拆分效率。

根据本公开的实施例，所述方法还包括：对所述目标图像进行识别处理，获得所述单个文本的语义信息。基于只具有单个文本的目标图像进行识别处理，可快速获得单个文本的语义信息，例如，快速识别出汉字、数字、字母等的实际含义，相对于直接识别大段文本，可提升识别效率和识别准确率。

通过使用本公开的实施例的文本行图像文字切分方法，可基于第一特征图中的语义相关性来降低将同一文本的多个部分误拆分的概率，并可降低背景的干扰，并可获取表示待处理图像中的列是否为文本间隙的第二行向量，从而提升对文本的拆分效率和拆分准确率。

图2示例性地示出本公开实施例文本行图像文字切分方法的案例示意图。如图2所示，待处理图像中可包括一个文本行，该文本行的可包括“X”，“Y”，“Z”，“川”几个文本。

根据本公开的实施例，可将待处理图像输入深度学习神经网络模型进行特征提取处理，获得第一特征图，第一特征图中单个文本的不同部分之间存在语义关联性，例如，“川”的多个部分之间具有语义关联性，可减少被误拆分成多个部分的概率。

根据本公开的实施例，可将第一特征图三个通道进行卷积处理，获得第二特征图，并将第二特征图根据公式（1）进行按列求和处理，获得第一行向量，进而对第一行向量通过sigmod激活函数进行激活处理，获得第二行向量，第二行向量中各个元素的数值的取值区间为[0，1]。且第二行向量中的元素可表示待处理图像中对应的列是否处于文本之间的间隙。

根据本公开的实施例，可基于第二行向量中小于0.5的元素的索引，确定在待处理图像中进行拆分的列数，并按此列数对待处理图像进行拆分，获得多个仅包括一个文本的目标图像。即，仅包括“X”的目标图像，仅包括“Y”的目标图像，仅包括“Z”的目标图像，仅包括“川”的目标图像。

根据本公开的实施例，可分别对上述四个仅包括一个文本的图像进行识别，分别确定每个图像中包括的文本的语义信息，即，识别出仅包括“X”的目标图像中的文本为“X”，仅包括“Y”的目标图像中的文本为“Y”，仅包括“Z”的目标图像中的文本为“Z”，仅包括“川”的目标图像中的文本为“川”。

图3示例性地示出本公开实施例文本行图像文字切分装置的框图，如图3所示，所述装置包括：

特征提取模块101，用于将待处理图像输入深度学习神经网络模型进行特征提取处理，获得待处理图像的第一特征图，其中，所述待处理图像为三通道RGB图像，所述待处理图像的内容包括一个文本行，所述文本行包括多个文本，文本之间存在间隙，所述第一特征图为三通道RGB图像，所述第一特征图的尺寸与所述待处理图像的尺寸相同；

通道融合模块102，用于根据所述第一特征图，获得第二特征图，所述第二特征图的尺寸与所述第一特征图相同；

行融合模块103，用于根据第二特征图，获得将所述第二特征图的各列进行融合的第一行向量，所述第一行向量的元素数量与所述第二特征图的列数相同；

激活模块104，用于对所述第一行向量进行激活处理，获得第二行向量，所述第二行向量的元素数量与所述第一行向量相同；

目标列确定模块105，用于根据所述第二行向量的元素，确定所述文本之间的间隙所在的目标列，所述目标列为将文本行中的文本按照所述间隙切分成单个文本的切分列；

切分模块106，用于根据所述目标列，将所述待处理图像中的文本行进行切分，获得至少一个具有单个文本的目标图像。

，获得第一行向量，其中，

为第二特征图中坐标为

的像素点，

为第二特征图的总列数，

为第一行向量中的第i个元素。

图4是根据一示例性实施例示出的一种文本行图像文字切分设备的框图；如图所示，所述设备包括以下一个或多个组件：处理组件1502，存储器1504，电源组件1506，多媒体组件1508，音频组件1510，输入/输出(I/O)的接口1512，传感器组件1514，以及通信组件1516。

处理组件1502通常控制设备1500的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1502可以包括一个或多个处理器1520来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1502可以包括一个或多个模块，便于处理组件1502和其他组件之间的交互。例如，处理组件1502可以包括多媒体模块，以方便多媒体组件1508和处理组件1502之间的交互。

存储器1504被配置为存储各种类型的数据以支持在设备1500的操作。这些数据的示例包括用于在设备1500上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图像，视频等。存储器1504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1506为设备1500的各种组件提供电力。电源组件1506可以包括电源管理系统，一个或多个电源，及其他与为设备1500生成、管理和分配电力相关联的组件。

多媒体组件1508包括在设备1500和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1508包括一个前置摄像头和/或后置摄像头。当设备1500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1510被配置为输出和/或输入音频信号。例如，音频组件1510包括一个麦克风(MIC)，当设备1500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1504或经由通信组件1516发送。在一些实施例中，音频组件1510还包括一个扬声器，用于输出音频信号。

I/O接口1512为处理组件1502和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1514包括一个或多个传感器，用于为设备1500提供各个方面的状态评估。例如，传感器组件1514可以检测到设备1500的打开/关闭状态，组件的相对定位，例如组件为设备1500的显示器和小键盘，传感器组件1514还可以检测设备1500或设备1500一个组件的位置改变，用户与设备1500接触的存在或不存在，设备1500方位或加速/减速和设备1500的温度变化。传感器组件1514可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1514还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1514还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1516被配置为便于设备1500和其他设备之间有线或无线方式的通信。设备1500可以接入基于通信标准的无线网络，如WiFi、2G、3G、4G、5G或它们的组合、或对讲网络。在一个示例性实施例中，通信组件1516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件1516还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，设备1500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子组件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1504，上述指令可由设备1500的处理器1520执行以完成上述方法。例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD ROM、磁带、软盘和光数据存储设备等。

本发明可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、静态随机存取存储器（SRAM）、便携式压缩盘只读存储器（CD-ROM）、数字多功能盘（DVD）、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波（例如，通过光纤电缆的光脉冲）、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构（ISA）指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列（FPGA）或可编程逻辑阵列（PLA），该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

注意，除非另有直接说明，否则本说明书(包含任何所附权利要求、摘要和附图)中所揭示的所有特征皆可由用于达到相同、等效或类似目的的可替代特征来替换。因此，除非另有明确说明，否则所公开的每一个特征仅是一组等效或类似特征的一个示例。在使用到的情况下，进一步地、较优地、更进一步地和更优地是在前述实施例基础上进行另一实施例阐述的简单起头，该进一步地、较优地、更进一步地或更优地后带的内容与前述实施例的结合作为另一实施例的完整构成。在同一实施例后带的若干个进一步地、较优地、更进一步地或更优地设置之间可任意组合的组成又一实施例。

本领域的技术人员应理解，上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明。本发明的目的已经完整并有效地实现。本发明的功能及结构原理已在实施例中展示和说明，在没有背离所述原理下，本发明的实施方式可以有任何变形或修改。

最后应说明的是：以上各实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述各实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

Claims

1.一种文本行图像文字切分方法，其特征在于，包括：

根据所述第一特征图，获得第二特征图；包括：对所述第一特征图的三个通道进行卷积处理，获得单通道的第二特征图；

对所述第一行向量进行激活处理，获得第二行向量，所述第二行向量的元素数量与所述第一行向量相同，其中，通过sigmod激活函数对所述第一行向量的各个元素进行激活处理，获得所述第二行向量，其中，所述第二行向量中的各个元素的数值的取值区间为[0，1]；

根据所述第二行向量的元素，确定所述文本之间的间隙所在的目标列，所述目标列为将文本行中的文本按照所述间隙切分成单个文本的切分列，其中，根据所述第二行向量的元素，确定所述文本之间的间隙所在的目标列，包括：确定出所述第二行向量的元素中，小于预设阈值的目标元素；将所述目标元素在所述第二行向量中的索引，确定为所述目标列的列；

2.根据权利要求1所述的方法，其特征在于，根据第二特征图，获得将所述第二特征图的各行进行融合的第一行向量，包括：

根据公式

=

，获得第一行向量，其中，

为第二特征图中坐标为

的像素点，

为第二特征图的总列数，

为第一行向量中的第i个元素。

3.根据权利要求1所述的方法，其特征在于，在所述第一特征图中，所述单个文本的不同部分之间存在语义关联性，所述语义关联性表示所述不同部分属于同一文本。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.一种文本行图像文字切分装置，其特征在于，包括：

通道融合模块，用于根据所述第一特征图，获得第二特征图；包括：对所述第一特征图的三个通道进行卷积处理，获得单通道的第二特征图；

激活模块，用于对所述第一行向量进行激活处理，获得第二行向量，所述第二行向量的元素数量与所述第一行向量相同，其中，通过sigmod激活函数对所述第一行向量的各个元素进行激活处理，获得所述第二行向量，其中，所述第二行向量中的各个元素的数值的取值区间为[0，1]；

目标列确定模块，用于根据所述第二行向量的元素，确定所述文本之间的间隙所在的目标列，所述目标列为将文本行中的文本按照所述间隙切分成单个文本的切分列，其中，根据所述第二行向量的元素，确定所述文本之间的间隙所在的目标列，包括：确定出所述第二行向量的元素中，小于预设阈值的目标元素；将所述目标元素在所述第二行向量中的索引，确定为所述目标列的列；

6.一种文本行图像文字切分设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器存储的指令，以执行权利要求1至4中任意一项所述的方法。

7.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至4中任意一项所述的方法。