CN113569838A

CN113569838A - 基于文本检测算法的文本识别方法及装置

Info

Publication number: CN113569838A
Application number: CN202111007565.9A
Authority: CN
Inventors: 杨紫崴
Original assignee: Ping An Medical and Healthcare Management Co Ltd
Current assignee: Shenzhen Ping An Medical Health Technology Service Co Ltd
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2021-10-29

Abstract

本申请公开一种基于文本检测算法的文本识别方法、装置、计算机设备及存储介质，涉及人工智能领域，用于提高文本识别的识别速度。该文本识别方法包括：获取待检测文本的图像数据；基于FPN算法，将待检测文本的图像数据进行特征图处理，以得到第一分割图和第二分割图；利用可微分二值化处理模型，对第一分割图和第二分割图中每个点的像素值，进行二值化处理，以得到第一目标结果；对功能区域进行计算识别，以得到与至少三个功能区域一一对应的至少三个识别轮廓；从至少三个识别轮廓中，识别并输出与识别轮廓对应的文本检测结果。

Description

基于文本检测算法的文本识别方法及装置

技术领域

本发明涉及人工智能领域，尤其是一种基于文本检测算法的文本识别方法、装置、计算机设备及存储介质。

背景技术

随着科技的发展与进步，人工智能技术的日趋完善，商保理赔以及医保报销中，医疗发票的文本识别成为业界主流方向，医疗票据的文本识别有效地节省人力成本投入，提升服务效率。

传统的文本识别方法只能区分“文本”与“非文本”区域。而在实际业务场景中，比如医疗票据识别，不仅要区分“文本”与“非文本”两种类别，还要区分底版文字、印刷文字以及印章文字。传统的文本识别方法是训练三个文本检测模型，分别用来检测底版文字、印刷文字以及印章文字区域，这就造成了极大的资源浪费以及增加了文本识别的耗时时间，减低了文本识别的识别速度，减低了服务效率。

发明内容

本发明提供一种基于文本检测算法的文本识别方法、装置、计算机设备及存储介质，用于解决传统的文本识别方法造成了极大的资源浪费以及增加了文本识别的耗时时间，减低了文本识别的识别速度，减低了服务效率的技术问题。

为解决上述技术问题，本发明提供一种基于文本检测算法的文本识别方法，包括：获取待检测文本的图像数据；待检测文本的图像数据包括：底版文字的图像数据、印刷文字的图像数据或印章文字的图像数据中的至少一项；基于特征图金字塔网络FPN算法，将待检测文本的图像数据进行特征图处理，以得到第一分割图和第二分割图；第一分割图为待检测文本的图像数据中，文本区域向内收缩得到的分割图；第二分割图为待检测文本的图像数据中，文本区域向外扩张得到的分割图；利用可微分二值化处理模型，对第一分割图和第二分割图中每个点的像素值，进行二值化处理，以得到第一目标结果；第一目标结果包括对待检测文本的图像数据分割生成至少三个功能区域；至少三个功能区域包括：底版文字区域、印刷文字区域和印章文字区域；可微分二值化处理模型为根据文本检测算法预先训练至收敛状态，用于识别图像数据中的功能区域的文本检测模型；对功能区域进行计算识别，以得到与至少三个功能区域一一对应的至少三个识别轮廓；至少三个识别轮廓包括：底版文字轮廓、印刷文字轮廓和印章文字轮廓；从至少三个识别轮廓中，识别并输出与识别轮廓对应的文本检测结果；文本检测结果包括底版文字、印刷文字或印章文字中的至少一项。

可选的，该文本识别方法还包括：获取多个训练图像数据，并将获取到的多个训练图像数据作为训练集；获取多个验证文本数据，并将获取到的多个验证文本数据作为测试集；根据训练集和所述测试集，训练得到可微分二值化处理模型。

可选的，利用可微分二值化处理模型，对第一分割图和第二分割图中每个点的像素值，进行二值化处理，以得到第一目标结果的方法具体包括：第一目标结果、第一分割图和第二分割图中每个点的像素值满足下述公式：

其中，Bi，j为第一目标结果；Pi,j为第一分割图中的每个像素点值，Ti,j为第二分割图中的每个像素点值；k为放大因子。

可选的，对功能区域进行计算识别，以得到与至少三个功能区域一一对应的至少三个识别轮廓的方法具体包括：通过收缩算法缩小至少三个功能区域，以得到收缩后的至少三个功能区域，并将收缩后的至少三个功能区域确定为至少三个识别轮廓；收缩偏移量D、周长L和面积A满足下述公式：D＝(A*r)/L；其中，r为收缩因子。

可选的，收缩算法的缩放比例满足下述公式：

其中，di为边距属性，Area(pn)为第pn个多边形的面积，Perimeter(pn)为第pn个多边形的周长，ri为常数。

可选的，该文本识别方法还包括：基于损失函数L对第一目标结果进行优化处理，损失函数L满足下述公式：L＝Ls×αLB×βLT；其中，Ls是收缩之后文本实例的损失函数，LB为二值化处理之后的收缩文本实例损失函数，LT是二值化阈值的损失函数，α和β为常数。

为解决上述技术问题，本发明实施例还提供一种基于文本检测算法的文本识别装置，包括：获取模块，用于获取待检测文本的图像数据；待检测文本的图像数据包括：底版文字的图像数据、印刷文字的图像数据或印章文字的图像数据中的至少一项；处理模块，用于基于特征图金字塔网络FPN算法，将待检测文本的图像数据进行特征图处理，以得到第一分割图和第二分割图；第一分割图为待检测文本的图像数据中，文本区域向内收缩得到的分割图；第二分割图为待检测文本的图像数据中，文本区域向外扩张得到的分割图；处理模块，还用于利用可微分二值化处理模型，对第一分割图和第二分割图中每个点的像素值，进行二值化处理，以得到第一目标结果；第一目标结果包括对待检测文本的图像数据分割生成至少三个功能区域；至少三个功能区域包括：底版文字区域、印刷文字区域和印章文字区域；可微分二值化处理模型为根据文本检测算法预先训练至收敛状态，用于识别图像数据中的功能区域的文本检测模型；处理模块，还用于对功能区域进行计算识别，以得到与至少三个功能区域一一对应的至少三个识别轮廓；至少三个识别轮廓包括：底版文字轮廓、印刷文字轮廓和印章文字轮廓；处理模块，还用于从至少三个识别轮廓中，识别并输出与识别轮廓对应的文本检测结果；文本检测结果包括底版文字、印刷文字或印章文字中的至少一项。

可选的，获取模块还用于获取多个训练图像数据，并将获取到的多个训练图像数据作为训练集；获取模块还用于获取多个验证文本数据，并将获取到的多个验证文本数据作为测试集；处理模块还用于根据训练集和测试集，训练得到可微分二值化处理模型。

可选的，处理模块具体用于：第一目标结果、第一分割图和第二分割图中每个点的像素值满足下述公式：

可选的，处理模块具体用于：通过收缩算法缩小至少三个功能区域，以得到收缩后的至少三个功能区域，并将收缩后的至少三个功能区域确定为至少三个识别轮廓；收缩偏移量D、周长L和面积A满足下述公式：D＝(A*r)/L；其中，r为收缩因子。

可选的，收缩算法的缩放比例满足下述公式：

可选的，处理模块，还用于基于损失函数L对第一目标结果进行优化处理，损失函数L满足下述公式：L＝Ls×αLB×βLT；其中，Ls是收缩之后文本实例的损失函数，LB为二值化处理之后的收缩文本实例损失函数，LT是二值化阈值的损失函数，α和β为常数。

为解决上述技术问题本发明实施例还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述所述基于文本检测算法的文本识别方法的步骤。

为解决上述技术问题本发明实施例还提供一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述所述基于文本检测算法的文本识别方法的步骤。

本申请的有益效果是：在获取待检测文本的图像数据后，可以基于特征图金字塔网络FPN算法，将所述待检测文本的图像数据进行特征图处理，以得到第一分割图(待检测文本的图像数据中，文本区域向内收缩得到的分割图)和第二分割图(待检测文本的图像数据中，文本区域向外扩张得到的分割图)，接着，可以利用可微分二值化处理模型，对第一分割图和第二分割图中每个点的像素值，进行二值化处理，以得到第一目标结果。由于第一目标结果包括对待检测文本的图像数据分割生成至少三个功能区域，至少三个功能区域包括：底版文字区域、印刷文字区域和印章文字区域，因此，本申请可以对待检测文本的不同区域进行检测，提高了检测效率。

此外，由于可微分二值化处理模型为根据文本检测算法预先训练至收敛状态，用于识别图像数据中的功能区域的文本检测模型，因此，本申请可以快速、准确的识别图像数据中的功能区域，以便于后续对功能区域进行计算识别，以得到与至少三个功能区域一一对应的至少三个识别轮廓，并从至少三个识别轮廓中，识别并输出与识别轮廓对应的文本检测结果，解决了传统的文本识别方法造成了极大的资源浪费以及增加了文本识别的耗时时间，减低了文本识别的识别速度，减低了服务效率的技术问题，提高了文本识别的效率。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请一个具体实施例的基于文本检测算法的文本识别方法的流程示意图之一；

图2为本申请一个具体实施例的基于文本检测算法的文本识别方法的流程示意图之二；

图3为本申请一个实施例的基于文本检测算法的文本识别装置基本结构示意图；

图4为本申请一个实施例的计算机设备的基本结构框图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

针对上述技术问题，本申请提供了一种基于文本检测算法的文本识别方法，

在获取待检测文本的图像数据后，可以基于特征图金字塔网络FPN算法，将所述待检测文本的图像数据进行特征图处理，以得到第一分割图(待检测文本的图像数据中，文本区域向内收缩得到的分割图)和第二分割图(待检测文本的图像数据中，文本区域向外扩张得到的分割图)，接着，可以利用可微分二值化处理模型，对第一分割图和第二分割图中每个点的像素值，进行二值化处理，以得到第一目标结果。由于第一目标结果包括对待检测文本的图像数据分割生成至少三个功能区域，至少三个功能区域包括：底版文字区域、印刷文字区域和印章文字区域，因此，本申请可以对待检测文本的不同区域进行检测，提高了检测效率。

上述基于文本检测算法的文本识别方法可以应用于计算机设备。该计算机设备可以为用于表单生成的设备，也可以为该设备中的芯片，还可以为该设备中的片上系统。

可选的，该设备可以是物理机，例如：台式电脑，又称台式机或桌面机(desktopcomputer)、手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等终端设备。

可选的，上述计算机设备也可以通过部署在物理机上的虚拟机(virtualmachine，VM)，实现上述计算机设备所要实现的功能。

可选的，上述计算机设备也可以是服务器。服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

下面结合附图对本申请实施例提供的基于文本检测算法的文本识别方法进行详细介绍。如图1所示，基于文本检测算法的文本识别方法包括：S101-S105。

S101、获取待检测文本的图像数据。

具体的，用户在对文本进行识别时，可以获取待检测文本的图像数据。

其中，待检测文本的图像数据包括：底版文字的图像数据、印刷文字的图像数据或印章文字的图像数据中的至少一项。

可选的，待检测文本的图像数据可以是医疗票据，如个人健康档案、处方、检查报告等票据。

对于常见的医疗票据，一般包括底版文字、印刷文字和印章文字。

底板文字是指医疗票据上自带的票据底板文字。示例性的，医疗票据上的抬头“票据”二字，即为底板文字。

印刷文字是指在医疗票据上印刷好的文字。示例性的，医疗票据上的姓名栏中的“张三”二字，即为印刷文字。

印章文字是指在医疗票据上进行盖章后显示的印章上的文字。示例性的，医疗票据上的印章栏中的“**医院”，即为印章文字。

可选的，用户可以通过照相机、手机或者其他带有拍照功能的电子设备，对待检测文本进行拍照，并将拍照后的图像数据上传到用于进行文本识别的电子设备中，以使得该电子设备获取到待检测文本的图像数据。

可选的，待检测文本的图像数据可以预先存储在服务器的数据库中。用户还可以通过信息查询的方式获取待检测文本的图像数据。信息查询成为很多场景中用户快速获取所需信息的渠道。例如在医疗领域中，可以基于人工智能模型从海量的电子病历中查询用户所需的病历信息，有助于为用户提供病历参考。

S102、基于特征图金字塔网络FPN算法，将待检测文本的图像数据进行特征图处理，以得到第一分割图和第二分割图。

其中，第一分割图为待检测文本的图像数据中，文本区域向内收缩得到的分割图；第二分割图为待检测文本的图像数据中，文本区域向外扩张得到的分割图。

具体的，在进行文本检测时，可以基于特征图金字塔网络FPN算法，将待检测文本的图像数据进行特征图处理，以得到第一分割图和第二分割图。

在对待检测文本的图像数据进行特征图处理时，一般是对同一个尺寸的图片进行网络训练。为了网络能够适应更多尺寸的图片，传统的做法使用图像金字塔，但是这种做法从侧面提升了计算的复杂度。在这种情况下，可以基于特征图金字塔网络FPN算法，将待检测文本的图像数据进行特征图处理，以得到第一分割图和第二分割图。

FPN算法是将待检测文本的图像数据通过特征金字塔结构的backbone，通过上采样的方式将特征金字塔的输出变换为同一尺寸，并级联(cascade)产生特征F；然后，通过特征图F预测概率图(P)和阈值图(T)；最后，通过概率图P和阈值图T生成近似的二值图(B)。

在训练阶段，监督被应用在阈值图、概率图和近似的二值图上，其中后两者共享同一个监督；在推理阶段，则可以从后两者轻松获取边界框。

现有技术中，特征图后的输出的三张图，原本都是channel为1的分割图，因此只能表示为“文本区域”和“非文本区域”两类。而本申请实施例中，输出的图修改为channel＝3，第一个channel分割图表示的印刷文本的区域分类，第二个channel分割图表示的底版文本的区域分类,第三个channel分割图表示的是印章的文本的区域分类。这样一来，文本检测结果可以包括底版文字、印刷文字或印章文字中的至少一项。

S103、利用可微分二值化处理模型，对第一分割图和第二分割图中每个点的像素值，进行二值化处理，以得到第一目标结果。

其中，第一目标结果包括对待检测文本的图像数据分割生成至少三个功能区域；至少三个功能区域包括：底版文字区域、印刷文字区域和印章文字区域。可微分二值化处理模型为根据文本检测算法预先训练至收敛状态，用于识别图像数据中的功能区域的文本检测模型。

具体的，在基于特征图金字塔网络FPN算法，将待检测文本的图像数据进行特征图处理，以得到第一分割图和第二分割图后，可以利用可微分二值化处理模型，对第一分割图和第二分割图中每个点的像素值，进行二值化处理，以得到第一目标结果。

利用可微分二值化处理模型，对第一分割图和第二分割图中每个点的像素值，进行二值化处理，以得到第一目标结果时，首先要设置固定的阈值，将分割网络产生的概率图转换为二值图像。

然后，通过一些启发式技术(如像素聚类)将像素分组到文本实例中；或者，将二值化操作插入到分割网络中以进行联合优化。通过这种方法，可以自适应地预测图像中每个位置的阈值，从而能够完全区分像素的前景和背景。然而，标准的二值化函数是不可微的，因此，本申请实施例利用可微分二值化处理模型，对第一分割图和第二分割图中每个点的像素值，进行二值化处理。该可微分二值化处理模型与分割网络一起训练时是完全可微的。

可选的，第一目标结果、第一分割图和第二分割图中每个点的像素值满足下述公式：

可选的，在利用可微分二值化处理模型，对第一分割图和第二分割图中每个点的像素值，进行二值化处理，以得到第一目标结果之后，还包括：

基于损失函数对第一目标结果进行优化处理。

其中，损失函数L满足下述公式：

L＝L_s×αL_B×βL_T；

其中，L_s是收缩之后文本实例的损失函数，L_B为二值化处理之后的收缩文本实例损失函数，L_T是二值化阈值的损失函数，α和β为常数。

具体的，损失函数用来评价模型的预测值和真实值不一样的程度，损失函数越好，通常模型的性能越好。不同的模型用的损失函数一般也不一样。

可选的，损失函数分为经验风险损失函数和结构风险损失函数。经验风险损失函数指预测结果和实际结果的差别，结构风险损失函数是指经验风险损失函数加上正则项。

S104、对功能区域进行计算识别，以得到与至少三个功能区域一一对应的至少三个识别轮廓。

具体的，在利用可微分二值化处理模型，对第一分割图和第二分割图中每个点的像素值，进行二值化处理，以得到第一目标结果后，还可以对功能区域进行计算识别，以得到与至少三个功能区域一一对应的至少三个识别轮廓。

其中，至少三个识别轮廓包括：底版文字轮廓、印刷文字轮廓和印章文字轮廓。

示例性的，待检测文本的图像数据包括医疗票据上的抬头区域、姓名栏区域以及印章栏区域。在利用可微分二值化处理模型，对第一分割图和第二分割图中每个点的像素值，进行二值化处理，以得到第一目标结果后，还可以对功能区域进行计算识别，以得到与至少三个功能区域一一对应的至少三个识别轮廓：抬头区域的轮廓、姓名栏区域的轮廓以及印章栏区域的轮廓。

可选的，对功能区域进行计算识别，以得到与至少三个功能区域一一对应的至少三个识别轮廓的方法具体包括：

通过收缩算法缩小至少三个功能区域，以得到收缩后的至少三个功能区域，并将收缩后的至少三个功能区域确定为至少三个识别轮廓。

其中，收缩偏移量D、周长L和面积A满足下述公式：

D＝(A*r)/L；

其中，r为收缩因子。

可选的，收缩算法的缩放比例满足下述公式：

其中，d_i为边距属性，Area(p_n)为第p_n个多边形的面积，Perimeter(p_n)为第p_n个多边形的周长，r_i为常数。

S105、从至少三个识别轮廓中，识别并输出与识别轮廓对应的文本检测结果。

具体的，在对功能区域进行计算识别，以得到与至少三个功能区域一一对应的至少三个识别轮廓后，可以从至少三个识别轮廓中，识别与识别轮廓对应的文本检测结果。

接着，从抬头区域的轮廓、姓名栏区域的轮廓以及印章栏区域的轮廓中，识别与识别轮廓对应的文本检测结果分别为：抬头区域的轮廓中的“票据”文本、姓名栏区域的轮廓中的“张三”文本以及印章栏区域的轮廓中的“**医院”文本。

可选的，如图2所示，本申请实施例提供的基于文本检测算法的文本识别方法还包括：

S201、获取多个训练图像数据，并将获取到的多个训练图像数据作为训练集。

具体的，在训练得到可微分二值化处理模型时，需要获取大量的历史数据作为训练集。在这种情况下，可以获取多个训练图像数据，并将获取到的多个训练图像数据作为训练集。

可选的，多个训练图像数据可以为历史数据库中已存储的图像数据，也可以通过其他电子设备获取训练图像数据，本申请对此不作限定。

可选的，训练图像数据可以预先存储在服务器的数据库中。用户还可以通过信息查询的方式获取训练图像数据。

S202、获取多个验证文本数据，并将获取到的多个验证文本数据作为测试集。

具体的，在训练得到可微分二值化处理模型时，还需要获取大量的验证文本数据作为测试集。在这种情况下，可以获取多个验证文本数据，并将获取到的多个验证文本数据作为测试集

获取多个验证文本数据的方式与获取多个训练图像数据的方式相同，在此不再赘述。

需要说明的是，多个验证文本数据与多个训练图像数据是一一对应的关系。即每个训练图像数据都有与之对应的验证文本数据。这样才能利用训练集和测试集，训练得到可微分二值化处理模型。

S203、根据训练集和测试集，训练得到可微分二值化处理模型。

具体的，在获取多个训练图像数据，并将获取到的多个训练图像数据作为训练集，以及获取多个验证文本数据，并将获取到的多个验证文本数据作为测试集后，可以根据训练集和测试集进行监督训练，至可微分二值化处理模型训练至收敛状态时，训练得到用于识别图像数据中的文本内容的文本检测模型。

可选的，收敛状态可以是可微分二值化处理模型执行训练的次数达到预设次数，也可以是可微分二值化处理模型中的目标数据长时间未发生变化，还可以是其他收敛条件，本申请对此不作限定。

本申请公开一种基于文本检测算法的文本识别方法，用于提高文本识别的识别速度。该文本识别方法包括：获取待检测文本的图像数据；待检测文本的图像数据包括：底版文字的图像数据、印刷文字的图像数据或印章文字的图像数据中的至少一项；基于特征图金字塔网络FPN算法，将待检测文本的图像数据进行特征图处理，以得到第一分割图和第二分割图；第一分割图为待检测文本的图像数据中，文本区域向内收缩得到的分割图；第二分割图为待检测文本的图像数据中，文本区域向外扩张得到的分割图；利用可微分二值化处理模型，对第一分割图和第二分割图中每个点的像素值，进行二值化处理，以得到第一目标结果；第一目标结果包括对待检测文本的图像数据分割生成至少三个功能区域；至少三个功能区域包括：底版文字区域、印刷文字区域和印章文字区域；可微分二值化处理模型为根据文本检测算法预先训练至收敛状态，用于识别图像数据中的功能区域的文本检测模型；对功能区域进行计算识别，以得到与至少三个功能区域一一对应的至少三个识别轮廓；至少三个识别轮廓包括：底版文字轮廓、印刷文字轮廓和印章文字轮廓；从至少三个识别轮廓中，识别并输出与识别轮廓对应的文本检测结果；文本检测结果包括底版文字、印刷文字或印章文字中的至少一项。

由上可知，在获取待检测文本的图像数据后，可以基于特征图金字塔网络FPN算法，将所述待检测文本的图像数据进行特征图处理，以得到第一分割图(待检测文本的图像数据中，文本区域向内收缩得到的分割图)和第二分割图(待检测文本的图像数据中，文本区域向外扩张得到的分割图)，接着，可以利用可微分二值化处理模型，对第一分割图和第二分割图中每个点的像素值，进行二值化处理，以得到第一目标结果。由于第一目标结果包括对待检测文本的图像数据分割生成至少三个功能区域，至少三个功能区域包括：底版文字区域、印刷文字区域和印章文字区域，因此，本申请可以对待检测文本的不同区域进行检测，提高了检测效率。

需要说明的是，本申请实施例提供的基于文本检测算法的文本识别方法，执行主体可以为基于文本检测算法的文本识别装置，或者该基于文本检测算法的文本识别装置中的用于执行基于文本检测算法的文本识别方法的控制模块。本申请实施例中以基于文本检测算法的文本识别装置执行基于文本检测算法的文本识别方法为例，说明本申请实施例提供的基于文本检测算法的文本识别装置。

需要说明的是，本申请实施例中，上述各个方法附图所示的基于文本检测算法的文本识别方法均是以结合本申请实施例中的一个附图为例示例性的说明的。具体实现时，上述各个方法附图所示的基于文本检测算法的文本识别方法还可以结合上述实施例中示意的其它可以结合的任意附图实现，此处不再赘述。

具体请参阅图3，图3为本实施例基于文本检测算法的文本识别装置基本结构示意图。

如图3所示，一种基于文本检测算法的文本识别装置，包括：

获取模块301，用于获取待检测文本的图像数据；待检测文本的图像数据包括：底版文字的图像数据、印刷文字的图像数据或印章文字的图像数据中的至少一项；

处理模块302，用于基于特征图金字塔网络FPN算法，将待检测文本的图像数据进行特征图处理，以得到第一分割图和第二分割图；第一分割图为待检测文本的图像数据中，文本区域向内收缩得到的分割图；第二分割图为待检测文本的图像数据中，文本区域向外扩张得到的分割图；

处理模块302，还用于利用可微分二值化处理模型，对第一分割图和第二分割图中每个点的像素值，进行二值化处理，以得到第一目标结果；第一目标结果包括对待检测文本的图像数据分割生成至少三个功能区域；至少三个功能区域包括：底版文字区域、印刷文字区域和印章文字区域；可微分二值化处理模型为根据文本检测算法预先训练至收敛状态，用于识别图像数据中的功能区域的文本检测模型；

处理模块302，还用于对功能区域进行计算识别，以得到与至少三个功能区域一一对应的至少三个识别轮廓；至少三个识别轮廓包括：底版文字轮廓、印刷文字轮廓和印章文字轮廓；

处理模块302，还用于从至少三个识别轮廓中，识别并输出与识别轮廓对应的文本检测结果；文本检测结果包括底版文字、印刷文字或印章文字中的至少一项。

可选的，获取模块301还用于获取多个训练图像数据，并将获取到的多个训练图像数据作为训练集；

获取模块301还用于获取多个验证文本数据，并将获取到的多个验证文本数据作为测试集；

处理模块302还用于根据训练集和测试集，训练得到可微分二值化处理模型。

可选的，处理模块402具体用于：

通过收缩算法缩小至少三个功能区域，以得到收缩后的至少三个功能区域，并将收缩后的至少三个功能区域确定为至少三个识别轮廓；

收缩偏移量D、周长L和面积A满足下述公式：

D＝(A*r)/L；

其中，r为收缩因子。

可选的，收缩算法的缩放比例满足下述公式：

可选的，处理模块402，还用于基于损失函数L对第一目标结果进行优化处理，

损失函数L满足下述公式：

L＝Ls×αLB×βLT；

其中，Ls是收缩之后文本实例的损失函数，LB为二值化处理之后的收缩文本实例损失函数，LT是二值化阈值的损失函数，α和β为常数。

本申请实施例中的基于文本检测算法的文本识别装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例提供的基于文本检测算法的文本识别装置能够实现图1至图2的方法实施例中。装置实现的各个过程，为避免重复，这里不再赘述。

本实施例中各种实现方式具有的有益效果具体可以参见上述方法实施例中相应实现方式所具有的有益效果，为避免重复，此处不再赘述。

本申请实施例提供的基于文本检测算法的文本识别装置，在获取待检测文本的图像数据后，可以基于特征图金字塔网络FPN算法，将所述待检测文本的图像数据进行特征图处理，以得到第一分割图(待检测文本的图像数据中，文本区域向内收缩得到的分割图)和第二分割图(待检测文本的图像数据中，文本区域向外扩张得到的分割图)，接着，可以利用可微分二值化处理模型，对第一分割图和第二分割图中每个点的像素值，进行二值化处理，以得到第一目标结果。由于第一目标结果包括对待检测文本的图像数据分割生成至少三个功能区域，至少三个功能区域包括：底版文字区域、印刷文字区域和印章文字区域，因此，本申请可以对待检测文本的不同区域进行检测，提高了检测效率。

为解决上述技术问题，本发明实施例还提供一种计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

如图4所示，计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中，该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种基于文本检测算法的文本识别方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种基于文本检测算法的文本识别方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图3中获取模块301、处理模块302的具体功能，存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有基于文本检测算法的文本识别装置中执行所有子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

本实施例提供的计算机设备，在获取待检测文本的图像数据后，可以基于特征图金字塔网络FPN算法，将所述待检测文本的图像数据进行特征图处理，以得到第一分割图(待检测文本的图像数据中，文本区域向内收缩得到的分割图)和第二分割图(待检测文本的图像数据中，文本区域向外扩张得到的分割图)，接着，可以利用可微分二值化处理模型，对第一分割图和第二分割图中每个点的像素值，进行二值化处理，以得到第一目标结果。由于第一目标结果包括对待检测文本的图像数据分割生成至少三个功能区域，至少三个功能区域包括：底版文字区域、印刷文字区域和印章文字区域，因此，本申请可以对待检测文本的不同区域进行检测，提高了检测效率。

本发明还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任一实施例基于文本检测算法的文本识别方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

本技术领域技术人员可以理解，本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种基于文本检测算法的文本识别方法，其特征在于，包括：

获取待检测文本的图像数据；所述待检测文本的图像数据包括：底版文字的图像数据、印刷文字的图像数据或印章文字的图像数据中的至少一项；

基于特征图金字塔网络FPN算法，将所述待检测文本的图像数据进行特征图处理，以得到第一分割图和第二分割图；所述第一分割图为所述待检测文本的图像数据中，文本区域向内收缩得到的分割图；所述第二分割图为所述待检测文本的图像数据中，所述文本区域向外扩张得到的分割图；

利用可微分二值化处理模型，对所述第一分割图和所述第二分割图中每个点的像素值，进行二值化处理，以得到第一目标结果；所述第一目标结果包括对所述待检测文本的图像数据分割生成至少三个功能区域；所述至少三个功能区域包括：底版文字区域、印刷文字区域和印章文字区域；所述可微分二值化处理模型为根据文本检测算法预先训练至收敛状态，用于识别图像数据中的功能区域的文本检测模型；

对所述功能区域进行计算识别，以得到与所述至少三个功能区域一一对应的至少三个识别轮廓；所述至少三个识别轮廓包括：底版文字轮廓、印刷文字轮廓和印章文字轮廓；

从所述至少三个识别轮廓中，识别并输出与识别轮廓对应的文本检测结果；所述文本检测结果包括所述底版文字、所述印刷文字或所述印章文字中的至少一项。

2.根据权利要求1所述的文本识别方法，其特征在于，还包括：

获取多个训练图像数据，并将获取到的所述多个训练图像数据作为训练集；

获取多个验证文本数据，并将获取到的所述多个验证文本数据作为测试集；

根据所述训练集和所述测试集，训练得到所述可微分二值化处理模型。

3.根据权利要求1所述的文本识别方法，其特征在于，所述利用可微分二值化处理模型，对所述第一分割图和所述第二分割图中每个点的像素值，进行二值化处理，以得到第一目标结果，包括：

所述第一目标结果、所述第一分割图和所述第二分割图中每个点的像素值满足下述公式：

其中，Bi，j为所述第一目标结果；Pi,j为所述第一分割图中的每个像素点值，Ti,j为所述第二分割图中的每个像素点值；k为放大因子。

4.根据权利要求1所述的文本识别方法，其特征在于，所述对所述功能区域进行计算识别，以得到与所述至少三个功能区域一一对应的至少三个识别轮廓，包括：

通过收缩算法缩小所述至少三个功能区域，以得到收缩后的至少三个功能区域，并将所述收缩后的至少三个功能区域确定为所述至少三个识别轮廓；

收缩偏移量D、周长L和面积A满足下述公式：

D＝(A*r)/L；

其中，r为收缩因子。

5.根据权利要求4所述的文本识别方法，其特征在于，所述收缩算法的缩放比例满足下述公式：

其中，d_i为边距属性，Area(p_n)为第p_n个多边形的面积，Perimeter(p_n)为所述第p_n个多边形的周长，r_i为常数。

6.根据权利要求4所述的文本识别方法，其特征在于，还包括：

基于损失函数L对第一目标结果进行优化处理，所述损失函数L满足下述公式：

L＝L_s×αL_B×βL_T；

其中，L_s是收缩之后文本实例的损失函数，L_B为所述二值化处理之后的收缩文本实例损失函数，L_T是二值化阈值的损失函数，α和β为常数。

7.一种基于文本检测算法的文本识别装置，其特征在于，包括：

获取模块，用于获取待检测文本的图像数据；所述待检测文本的图像数据包括：底版文字的图像数据、印刷文字的图像数据或印章文字的图像数据中的至少一项；

处理模块，用于基于特征图金字塔网络FPN算法，将所述待检测文本的图像数据进行特征图处理，以得到第一分割图和第二分割图；所述第一分割图为所述待检测文本的图像数据中，文本区域向内收缩得到的分割图；所述第二分割图为所述待检测文本的图像数据中，所述文本区域向外扩张得到的分割图；

处理模块，还用于利用可微分二值化处理模型，对所述第一分割图和所述第二分割图中每个点的像素值，进行二值化处理，以得到第一目标结果；所述第一目标结果包括对所述待检测文本的图像数据分割生成至少三个功能区域；所述至少三个功能区域包括：底版文字区域、印刷文字区域和印章文字区域；所述可微分二值化处理模型为根据文本检测算法预先训练至收敛状态，用于识别图像数据中的功能区域的文本检测模型；

处理模块，还用于对所述功能区域进行计算识别，以得到与所述至少三个功能区域一一对应的至少三个识别轮廓；所述至少三个识别轮廓包括：底版文字轮廓、印刷文字轮廓和印章文字轮廓；

处理模块，还用于从所述至少三个识别轮廓中，识别并输出与识别轮廓对应的文本检测结果；所述文本检测结果包括所述底版文字、所述印刷文字或所述印章文字中的至少一项。

8.根据权利要求7所述的文本识别装置，其特征在于，

所述获取模块，还用于获取多个训练图像数据，并将获取到的所述多个训练图像数据作为训练集；

所述获取模块，还用于获取多个验证文本数据，并将获取到的所述多个验证文本数据作为测试集；

所述处理模块，还用于根据所述训练集和所述测试集，训练得到所述可微分二值化处理模型。

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至6中任一项权利要求所述基于文本检测算法的文本识别方法的步骤。

10.一种存储有计算机可读指令的存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至6中任一项权利要求所述基于文本检测算法的文本识别方法的步骤。