CN114529914A

CN114529914A - 一种图像处理方法及其设备

Info

Publication number: CN114529914A
Application number: CN202011197601.8A
Authority: CN
Inventors: 周正中; 滕益华; 施烈航
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2022-05-24

Abstract

本申请实施例公开了一种图像处理方法，用于分离印刷体图像和手写体图像。本申请实施例方法包括：第一设备获取第一图像，第一图像包含印刷体图像和手写体图像，第一设备将第一图像输入第一模型中，以得到印刷体图像和手写体图像，第一模型用于对第一图像进行语义分割。本申请实施例中，通过第一模型对第一图像进行语义分割，以得到印刷体图像和手写体图像。

Description

一种图像处理方法及其设备

技术领域

本申请实施例涉及计算机技术领域，具体涉及一种图像处理方法及其设备。

背景技术

光学字符识别(optical character recognition，OCR)作为计算机视觉领域的重要组成部分，一直以来都是研究焦点。OCR通过对文本资料的图像进行分析识别处理，获取文字及其它版面信息。

手写体文本检测(handwritten text detection)和印刷体文本检测是OCR文本区域检测的细分领域。在实际应用过程中，印刷体和手写体经常是同时出现在文本资料里的，对于这种情况，一般要先将手写体和印刷体分离，再对应的做文本检测。

而对于将手写体和印刷体分离的方法，一般是预先取得印刷体文本模板，并将它与印刷体和手写体的文本作对比，从而剔除印刷体和手写体的文本中印刷体的那部分文本，只保留手写体文本。而当缺乏印刷体文本模板时，则不能将印刷体和手写体进行分离，因此降低了文本检测的效率。

发明内容

本申请实施例提供了一种图像处理方法及其设备，通过第一模型对第一图像进行语义分割，以得到印刷体图像和手写体图像，此过程中，不需要用到印刷体文本模板就可以将印刷体图像和手写体图像进行分离，提升了文本检测的效率。

本申请实施例第一方面提供了一种图像处理方法。

第一设备获取第一图像，第一图像包含印刷体图像和手写体图像，第一设备将第一图像输入第一模型中，以得到印刷体图像和手写体图像，第一模型用于对第一图像进行语义分割。

本申请实施例中，通过第一模型对第一图像进行语义分割，以得到印刷体图像和手写体图像，此过程中，不需要用到印刷体文本模板就可以将印刷体图像和手写体图像进行分离，提升了文本检测的效率。

基于本申请实施例第一方面的方法，在一种可能的实现方式中，第一模型为双分支网络结构，第一模型包括第一分支网络，第一设备将第一图像输入第一模型中，以得到印刷体图像和手写体图像包括：第一设备通过第一分支网络对第一图像进行语义分割，以得到第一掩模区域，第一掩模区域对应手写体图像，第一设备根据第一掩模区域和第一图像得到印刷体图像和手写体图像。

本申请实施例中，通过第一分支网络对第一图像进行语义分割，提升了方案的可实现性。

基于本申请实施例第一方面的方法，在一种可能的实现方式中，第一模型还包括第二分支网络，方法还包括：第一设备通过第二分支网络对印刷体图像进行检测，以得到n个第一文本框标注的图像，n为大于或者等于1的正整数，第一文本框中包括至少一个印刷体子图像，印刷体子图像属于印刷体图像。

本申请实施例中，通过第二分支网络对印刷体图像进行检测，提升了印刷体图像检测的准确率。

基于本申请实施例第一方面的方法，在一种可能的实现方式中，手写体图像包括手写体文本图像和手写体特殊符号图像，第一设备将第一图像输入第一模型中，以得到印刷体图像和手写体图像之后，方法还包括：第一设备将手写体图像输入到第二模型中，以得到手写体文本图像和手写体特殊符号图像，第二模型用于对手写体图像进行语义分割。

本申请实施例中，通过第二模型对手写体图像进行语义分割，提升了方案的可实现性。

基于本申请实施例第一方面的方法，在一种可能的实现方式中，第二模型为双分支网络结构，第二模型包括第三分支网络，第一设备将手写体图像输入到第二模型中，以得到手写体文本图像和手写体特殊符号图像包括：第一设备通过第三分支网络对手写体图像进行语义分割，以得到第二掩模区域，第二掩模区域对应手写体特殊符号图像，第一设备根据第二掩模区域和手写体图像得到手写体文本图像和手写体特殊符号图像。

本申请实施例中，通过第三分支网络对手写体图像进行语义分割，提升了方案的可实现性。

基于本申请实施例第一方面的方法，在一种可能的实现方式中，第二模型还包括第四分支网络，方法还包括：第一设备通过第四分支网络对手写体文本图像进行检测，以得到m个第二文本框标注的图像，m为大于或者等于1的正整数，第二文本框中包括至少一个手写体文本子图像，手写体文本子图像属于手写体文本图像。

本申请实施例中，通过第四分支网络对手写体文本图像进行检测，提升了手写体文本图像检测的准确率。

基于本申请实施例第一方面的方法，在一种可能的实现方式中，第一设备将手写体图像输入到第二模型中，以得到手写体文本图像和手写体特殊符号图像之后，方法还包括：第一设备将手写体特殊符号图像输入到第三模型中，以得到q个第三文本框标注的图像，q为大于或者等于1的正整数，第三文本框中包括至少一个手写体特殊符号子图像，手写体特殊符号子图像属于手写体特殊符号图像。

本申请实施例中，通过第三模型对手写体特殊符号图像进行检测，提升了手写体特殊符号图像检测的准确率。

本申请实施例第二方面提供了一种图像处理设备。

一种图像处理设备，包括：

获取单元，用于获取第一图像，第一图像包含印刷体图像和手写体图像；

输入单元，用于将第一图像输入第一模型中，以得到印刷体图像和手写体图像，第一模型用于对第一图像进行语义分割。

可选地，第一模型为双分支网络结构，第一模型包括第一分支网络，图像处理设备还包括：

处理单元，用于通过第一分支网络对第一图像进行语义分割，以得到第一掩模区域，第一掩模区域对应手写体图像；

处理单元还用于根据第一掩模区域和第一图像得到印刷体图像和手写体图像。

可选地，处理单元还用于通过第二分支网络对印刷体图像进行检测，以得到n个第一文本框标注的图像，n为大于或者等于1的正整数，第一文本框中包括至少一个印刷体子图像，印刷体子图像属于印刷体图像。

可选地，手写体图像包括手写体文本图像和手写体特殊符号图像，输入单元还用于将手写体图像输入到第二模型中，以得到手写体文本图像和手写体特殊符号图像，第二模型用于对手写体图像进行语义分割。

可选地，第二模型为双分支网络结构，第二模型包括第三分支网络，处理单元还用于通过第三分支网络对手写体图像进行语义分割，以得到第二掩模区域，第二掩模区域对应手写体特殊符号图像；

处理单元还用于根据第二掩模区域和手写体图像得到手写体文本图像和手写体特殊符号图像。

可选地，处理单元还用于通过第四分支网络对手写体文本图像进行检测，以得到m个第二文本框标注的图像，m为大于或者等于1的正整数，第二文本框中包括至少一个手写体文本子图像，手写体文本子图像属于手写体文本图像。

可选地，输入单元还用于将手写体特殊符号图像输入到第三模型中，以得到q个第三文本框标注的图像，q为大于或者等于1的正整数，第三文本框中包括至少一个手写体特殊符号子图像，手写体特殊符号子图像属于手写体特殊符号图像。

本申请第三方面提供了一种计算机存储介质，计算机存储介质中存储有指令，指令在计算机上执行时，使得计算机执行如本申请第一方面实施方式的方法。

本申请第四方面提供了一种计算机程序产品，计算机程序产品在计算机上执行时，使得计算机执行如本申请第一方面实施方式的方法。

本申请第五方面提供了一种图像处理设备，图像处理设备包括处理器和存储器，存储器中存储有计算机程序，处理器执行存储器中存储的计算机程序，以使图像处理设备执行如本申请第一方面实施方式的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，第一设备通过第一模型对第一图像进行语义分割，以得到印刷体图像和手写体图像，此过程中，不需要用到印刷体文本模板就可以将印刷体图像和手写体图像进行分离，提升了文本检测的效率。

附图说明

图1为本申请实施例提供的一个神经网络框架示意图；

图2为本申请实施例提供的另一神经网络框架示意图；

图3为本申请实施例提供的另一神经网络框架示意图；

图4为本申请实施例提供的另一神经网络框架示意图；

图5为本申请实施例提供的一个芯片结构示意图；

图6为本申请实施例提供的一个系统架构示意图；

图7为本申请实施例提供的一个应用场景示意图；

图8为本申请实施例提供的图像处理方法一个流程示意图；

图9为本申请实施例提供的一个模型网络结构示意图；

图10为本申请实施例提供的模型网络处理一个流程示意图；

图11为本申请实施例提供的模型网络处理另一流程示意图；

图12为本申请实施例提供的模型网络处理另一流程示意图；

图13为本申请实施例提供的模型网络处理另一流程示意图；

图14为本申请实施例提供的模型网络处理另一流程示意图；

图15为本申请实施例提供的图像处理方法一个效果示意图；

图16为本申请实施例提供的图像处理方法另一效果示意图；

图17为本申请实施例提供的图像处理方法另一效果示意图；

图18为本申请实施例提供的图像处理方法另一效果示意图；

图19为本申请实施例提供的图像处理设备一个结构示意图；

图20为本申请实施例提供的图像处理设备另一结构示意图；

图21为本申请实施例提供的图像处理设备另一结构示意图。

具体实施方式

本申请实施例提供了一种图像处理方法，通过第一模型对第一图像进行语义分割，得到印刷体图像和手写体图像，提升了文本检测的效率。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1示出一种人工智能主体框架示意图，该主体框架描述了人工智能系统总体工作流程，适用于通用的人工智能领域需求。

下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。

“智能信息链”反映从数据的获取到处理的一列过程。举例来说，可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中，数据经历了“数据—信息—知识—智慧”的凝练过程。

“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程，反映人工智能为信息技术产业带来的价值。

(1)基础设施：

基础设施为人工智能系统提供计算能力支持，实现与外部世界的沟通，并通过基础平台实现支撑。通过传感器与外部沟通；计算能力由智能芯片(CPU、NPU、GPU、ASIC、FPGA等硬件加速芯片)提供；基础平台包括分布式计算框架及网络等相关的平台保障和支持，可以包括云存储和计算、互联互通网络等。举例来说，传感器和外部沟通获取数据，这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。

(2)数据

基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、视频、文本，还涉及到传统设备的物联网数据，包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。

(3)数据处理

数据处理通常包括数据训练，机器学习，深度学习，搜索，推理，决策等方式。

其中，机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。

推理是指在计算机或智能系统中，模拟人类的智能推理方式，依据推理控制策略，利用形式化的信息进行机器思维和求解问题的过程，典型的功能是搜索与匹配。

决策是指智能信息经过推理后进行决策的过程，通常提供分类、排序、预测等功能。

(4)通用能力

对数据经过上面提到的数据处理后，进一步基于数据处理的结果可以形成一些通用的能力，比如可以是算法或者一个通用系统，例如，翻译，文本的分析，计算机视觉的处理(如图像识别、目标检测等)，语音识别等等。

(5)智能产品及行业应用

智能产品及行业应用指人工智能系统在各领域的产品和应用，是对人工智能整体解决方案的封装，将智能信息决策产品化、实现落地应用，其应用领域主要包括：智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶，平安城市，智能终端等。

参见附图2，本申请实施例提供了一种系统架构200。该系统架构中包括数据库230、客户设备240。数据采集设备260用于采集数据并存入数据库230，训练模块220基于数据库230中维护的数据生成目标模型/规则201。

深度神经网络中的每一层的工作可以用数学表达式y＝a(W*x+b)来描述：从物理层面深度神经网络中的每一层的工作可以理解为通过五种对输入空间(输入向量的集合)的操作，完成输入空间到输出空间的变换(即矩阵的行空间到列空间)，这五种操作包括：1、升维/降维；2、放大/缩小；3、旋转；4、平移；5、“弯曲”。其中1、2、3的操作由W*x完成，4的操作由+b完成，5的操作则由a()来实现。这里之所以用“空间”二字来表述是因为被分类的对象并不是单个事物，而是一类事物，空间是指这类事物所有个体的集合。其中，W是权重向量，该向量中的每一个值表示该层神经网络中的一个神经元的权重值。该向量决定着上文的输入空间到输出空间的空间变换，即每一层的权重控制着如何变换空间。训练深度神经网络的目的，也就是最终得到训练好的神经网络的所有层的权重矩阵。

因为期望深度神经网络的输出尽可能的接近目标值，所以可以通过比较当前网络的预测值和目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)。例如，如果网络的预测值过高，则调整权重矩阵中的权重的值从而降低预测值，经过不断的调整，直到神经网络输出的值接近目标值或者等于目标值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，即损失函数(loss function)或目标函数(objectivefunction)，损失函数是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，神经网络的训练可以理解为尽可能缩小loss的过程。

计算模块可以包括训练模块220，训练模块220得到的目标模型/规则可以应用不同的系统或设备中。在附图2中，执行设备210配置收发器212，该收发器212可以是无线收发器、光收发器或有线接口(如I/O接口)等，与外部设备进行数据交互，“用户”可以通过客户设备240向收发器212输入数据，例如，本申请以下实施方式，客户设备240可以向执行设备210发送目标任务，请求执行设备构建神经网络，并向执行设备210发送用于训练的数据库。

执行设备210可以调用数据存储系统250中的数据、代码等，也可以将数据、指令等存入数据存储系统250中。

计算模块211使用目标模型/规则201对输入的数据进行处理。

最后，收发器212将构建得到的神经网络返回给客户设备240，以在客户设备240或者其他设备中部署该神经网络。

更深层地，训练模块220可以针对不同的目标任务，基于不同的数据得到相应的目标模型/规则201，以给用户提供更佳的结果。

在附图2中所示情况下，用户可以手动指定输入执行设备210中的数据，例如，在收发器212提供的界面中操作。另一种情况下，客户设备240可以自动地向收发器212输入数据并获得结果，如果客户设备240自动输入数据需要获得用户的授权，用户可以在客户设备240中设置相应权限。用户可以在客户设备240查看执行设备210输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备240也可以作为数据采集端将采集到与目标任务关联的数据存入数据库230。

需要说明的是，附图2仅是本申请实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制。例如，在附图2中，数据存储系统250相对执行设备210是外部存储器，在其它场景中，也可以将数据存储系统250置于执行设备210中。

示例性地，下面以卷积神经网络(CNN，Convolutional neuron network)为例。

CNN是一种带有卷积结构的深度神经网络，是一种深度学习(deep learning)架构，深度学习架构是指通过机器学习的算法，在不同的抽象层级上进行多个层次的学习。作为一种深度学习架构，CNN是一种前馈(feed-forward)人工神经网络，该前馈人工神经网络中的各个神经元对输入其中的图像中的重叠区域作出响应。

如图3所示，卷积神经网络(CNN)100可以包括输入层110，卷积层/池化层120，其中池化层为可选的，以及神经网络层130。

如图3所示卷积层/池化层120可以包括如示例121-126层，在一种实现中，121层为卷积层，122层为池化层，123层为卷积层，124层为池化层，125为卷积层，126为池化层；在另一种实现方式中，121、122为卷积层，123为池化层，124、125为卷积层，126为池化层。即卷积层的输出可以作为随后的池化层的输入，也可以作为另一个卷积层的输入以继续进行卷积操作。

以卷积层121为例，卷积层121可以包括很多个卷积算子，卷积算子也称为核，其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器，卷积算子本质上可以是一个权重矩阵，这个权重矩阵通常被预先定义。在对图像进行卷积操作的过程中，权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素……这取决于步长stride的取值)的进行处理，从而完成从图像中提取特定特征的工作。该权重矩阵的大小应该与图像的大小相关。需要注意的是，权重矩阵的纵深维度(depthdimension)和输入图像的纵深维度是相同的，在进行卷积运算的过程中，权重矩阵会延伸到输入图像的整个深度。因此，和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出，但是大多数情况下不使用单一权重矩阵，而是应用维度相同的多个权重矩阵。每个权重矩阵的输出被堆叠起来形成卷积图像的纵深维度。不同的权重矩阵可以用来提取图像中不同的特征，例如一个权重矩阵用来提取图像边缘信息，另一个权重矩阵用来提取图像的特定颜色，又一个权重矩阵用来对图像中不需要的噪点进行模糊化等。该多个权重矩阵维度相同，经过该多个维度相同的权重矩阵提取后的特征图维度也相同，再将提取到的多个维度相同的特征图合并形成卷积运算的输出。

这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到，通过训练得到的权重值形成的各个权重矩阵可以从输入图像中提取信息，从而帮助卷积神经网络100进行正确的预测。

当卷积神经网络100有多个卷积层的时候，初始的卷积层(例如121)往往提取较多的一般特征，该一般特征也可以称之为低级别的特征；随着卷积神经网络100深度的加深，越往后的卷积层(例如126)提取到的特征越来越复杂，比如高级别的语义之类的特征，语义越高的特征越适用于待解决的问题。

池化层：

由于常常需要减少训练参数的数量，因此卷积层之后常常需要周期性的引入池化层，即如图3中120所示例的121-126各层，可以是一层卷积层后面跟一层池化层，也可以是多层卷积层后面接一层或多层池化层。在图像处理过程中，池化层的唯一目的就是减少图像的空间大小。池化层可以包括平均池化算子和/或最大池化算子，以用于对输入图像进行采样得到较小尺寸的图像。平均池化算子可以在特定范围内对图像中的像素值进行计算产生平均值。最大池化算子可以在特定范围内取该范围内值最大的像素作为最大池化的结果。另外，就像卷积层中用权重矩阵的大小应该与图像大小相关一样，池化层中的运算符也应该与图像的大小相关。通过池化层处理后输出的图像尺寸可以小于输入池化层的图像的尺寸，池化层输出的图像中每个像素点表示输入池化层的图像的对应子区域的平均值或最大值。

神经网络层130：

在经过卷积层/池化层120的处理后，卷积神经网络100还不足以输出所需要的输出信息。因为如前，卷积层/池化层120只会提取特征，并减少输入图像带来的参数。然而为了生成最终的输出信息(所需要的类信息或别的相关信息)，卷积神经网络100需要利用神经网络层130来生成一个或者一组所需要的类的数量的输出。因此，在神经网络层130中可以包括多层隐含层(如图3所示的131、132至13n)以及输出层140。在本申请中，该卷积神经网络为：以延迟预测模型的输出作为约束条件对超级单元进行搜索得到至少一个第一构建单元，并对该至少一个第一构建单元进行堆叠得到。该卷积神经网络可以用于图像识别，图像分类，图像超分辨率重建等等。

在神经网络层130中的多层隐含层之后，也就是整个卷积神经网络100的最后层为输出层140，该输出层140具有类似分类交叉熵的损失函数，具体用于计算预测误差，一旦整个卷积神经网络100的前向传播(如图3由110至140的传播为前向传播)完成，反向传播(如图3由140至110的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差，以减少卷积神经网络100的损失及卷积神经网络100通过输出层输出的结果和理想结果之间的误差。

需要说明的是，如图3所示的卷积神经网络100仅作为一种卷积神经网络的示例，在具体的应用中，卷积神经网络还可以以其他网络模型的形式存在，例如，如图4所示的多个卷积层/池化层并行，将分别提取的特征均输入给全神经网络层130进行处理。

图5，是本发明实施例提供的一种芯片硬件结构图。

神经网络处理器NPU 50 NPU作为协处理器挂载到主CPU(Host CPU)上，由HostCPU分配任务。NPU的核心部分为运算电路503，通过控制器504控制运算电路503提取存储器中的矩阵数据并进行乘法运算。

在一些实现中，运算电路503内部包括多个处理单元(Process Engine，PE)。在一些实现中，运算电路503是二维脉动阵列。运算电路503还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路503是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路从权重存储器502中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入存储器501中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器508accumulator中。

统一存储器506用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器505Direct Memory Access Controller，DMAC被搬运到权重存储器502中。输入数据也通过DMAC被搬运到统一存储器506中。

BIU为Bus Interface Unit即，总线接口单元510，用于AXI总线与DMAC和取指存储器509Instruction Fetch Buffer的交互。

总线接口单元510(Bus Interface Unit，简称BIU)，用于取指存储器509从外部存储器获取指令，还用于存储单元访问控制器505从外部存储器获取输入矩阵A或者权重矩阵B的原数据。

DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器506或将权重数据搬运到权重存储器502中或将输入数据数据搬运到输入存储器501中。

向量计算单元507多个运算处理单元，在需要的情况下，对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。主要用于神经网络中非卷积/FC层网络计算，如Pooling(池化)，Batch Normalization(批归一化)，Local ResponseNormalization(局部响应归一化)等。

在一些实现中，向量计算单元507能将经处理的输出的向量存储到统一缓存器506。例如，向量计算单元507可以将非线性函数应用到运算电路503的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元507生成归一化的值、合并值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路503的激活输入，例如用于在神经网络中的后续层中的使用。

控制器504连接的取指存储器(instruction fetch buffer)509，用于存储控制器504使用的指令；

统一存储器506，输入存储器501，权重存储器502以及取指存储器509均为On-Chip存储器。外部存储器私有于该NPU硬件架构。

其中，图3和图4所示的卷积神经网络中各层的运算可以由矩阵计算单元或向量计算单元507执行。

参见附图6，本申请实施例提供了一种系统架构300。执行设备210由一个或多个服务器实现，可选的，与其它计算设备配合，例如：数据存储、路由器、负载均衡器等设备；执行设备210可以布置在一个物理站点上，或者分布在多个物理站点上。执行设备210可以使用数据存储系统250中的数据，或者调用数据存储系统250中的程序代码实现本申请以下图7对应的图像压缩方法的步骤。

用户可以操作各自的用户设备(例如本地设备301和本地设备302)与执行设备210进行交互。每个本地设备可以表示任何计算设备，例如个人计算机、计算机工作站、智能手机、平板电脑、智能摄像头、智能汽车或其他类型蜂窝电话、媒体消费设备、可穿戴设备、机顶盒、游戏机等。

每个用户的本地设备可以通过任何通信机制/通信标准的通信网络与执行设备210进行交互，通信网络可以是广域网、局域网、点对点连接等方式，或它们的任意组合。具体地，该通信网络可以包括无线网络、有线网络或者无线网络与有线网络的组合等。该无线网络包括但不限于：第五代移动通信技术(5th-Generation，5G)系统，长期演进(long termevolution，LTE)系统、全球移动通信系统(global system for mobile communication，GSM)或码分多址(code division multiple access，CDMA)网络、宽带码分多址(widebandcode division multiple access，WCDMA)网络、无线保真(wireless fidelity，WiFi)、蓝牙(bluetooth)、紫蜂协议(Zigbee)、射频识别技术(radio frequency identification，RFID)、远程(Long Range，Lora)无线通信、近距离无线通信(near field communication，NFC)中的任意一种或多种的组合。该有线网络可以包括光纤通信网络或同轴电缆组成的网络等。

在另一种实现中，执行设备210的一个方面或多个方面可以由每个本地设备实现，例如，本地设备301可以为执行设备210提供本地数据或反馈计算结果。

需要注意的，执行设备210的所有功能也可以由本地设备实现。例如，本地设备301实现执行设备210的功能并为自己的用户提供服务，或者为本地设备302的用户提供服务。

请参阅图7，为本申请实施例提供的应用场景示意图。

手写体文本检测(handwritten text detection)是OCR文本区域检测的一个细分领域。最近几十年来得到了广泛的研究与关注，随着深度学习新技术的出现。今年来基于深度学习的手写文本检测在方法和性能上得到了突破性的进展。

手写体文本检测由于数据采集方式不同可以划分为静态(离线)手写体文本检测和动态(在线)手写体文本检测两大类。动态手写检测所处理的文字是书写者通过物理设备(如数字笔、数字手写板或者触摸屏)在线书写获取的文字信号，书写的轨迹通过定时采样即时输入到计算机中。而静态手写检测所处理的手写文字是通过扫描仪或摄像头等图像捕捉设备采集到的手写文字二维图片。由于检测对象不同，使得这两类检测技术所采用的方法和策略也不尽相同。前侧的检测对象是一系列的按时间先后排列的采样点信息，而后者则是丢失了书写笔顺信息的二维像素信息，由于没有笔顺信息，加之由于拍照扫描设备在不同光照、分辨率、书写纸张等条件下，数字化会带来一定的噪声干扰。一般来说，静态手写文本检测比动态手写文本检测技术难度更大，但应用场景更广泛(如AI教育、AI办公)，潜在价值更高。

本申请实施例提供的方法主要应用于静态手写体文本检测领域。如图7所示，为一个印刷体和手写体检测的应用场景。图7左1所示的图像中，印刷体和手写体重叠，在检测时需要从印刷体和手写体的混合图像中分别识别出印刷体和手写体。图7中间所示的图像中，手写体书写随意、字迹潦草，文本行存在倾斜弯曲。图7右1所示的图像中，还包含了特殊符号，特殊符号对检测算法的准确性和鲁棒性上有很高的要求。

本申请实施例中的第一设备可以是有线设备，也可以是无线设备。具体的，可以是台式电脑、笔记本电脑、或者是内置有芯片的穿戴设备，具体此处不做限定。

下面基于前述的应用场景，对本申请提供的图像处理方法进行说明。

请参阅图8，为本申请实施例提供的图像处理方法一个流程示意图。

在步骤801中，第一设备获取第一图像。

第一设备通过采集的方式或者从第一设备的内存总获取待识别的第一图像，该第一图像包含了印刷体图像和手写体图像。

具体的，该第一图像还可以包括手写体特殊符号图像，即该第一图像同时包含有印刷体图像、手写体图像，其中，手写体图像还可以包括手写体文本图像和手写体特殊符号图像。在实际应用过程中，第一图像可以只包含有印刷体图像，或者只包含手写体图像，或者只包含印刷体图像和手写体文本图像，具体第一图像的组成形式具体此处不做限定。例如图15所示，该第一图像为包含了印刷体图像和手写体图像的图像。

在一种可能的实现方式中，若第一设备获取到的图像的大小超过了要输入第一模型中的大小，则第一设备可以对获取到的图像进行缩放，以得到适合输入第一模型的第一图像。例如，第一设备获取到的图像大小是1280*1280的，而第一模型的输入图像大小为640*640，则第一设备将图像大小是1280*1280的图像缩放至640*640的第一图像。

在步骤802中，第一设备将第一图像输入到第一模型中，以得到印刷体图像和手写体图像。

第一设备在获取到第一图像之后，第一设备将第一图像输入到第一模型中，以得到印刷体图像和手写体图像，该第一模型用于对第一图像进行语义分割。

在一种可能的实现方式中，该第一模型为共主干双分支网络结构。其中，第一模型的主干网络可以是采用特征金字塔网络(feature pyramid networks，FPN)和Resnet传插网络的结构，还可以是其他网络结构的组合，例如，还可以是特征金字塔网络和稠密连接网络的结构，具体此处不做限定。第一模型的主干网络可以有效提取第一图像高层语义信息。

如图9所示，为本申请实施例提供的主干网络结构中主干网络卷积块的结构图。图9中，通过Relu激活函数进行计算，再通过两组不同的卷积层进行卷积计算，第一组卷积层包括(1*1)的卷积和一个(3*3)的卷积，第二组卷积层包括(1*1)的卷积和两个(3*3)的卷积，再经过concate函数进行统一运算。

在一种可能的实现方式这种，第一模型包括第一分支网络，该第一分支网络为手写体提取分支，它通过语义分割像素级分离印刷体和手写体，进而提取手写体图像。具体的，第一设备通过第一分支网络对第一图像进行语义分割，得到第一掩模区域，该第一掩模区域对应的是手写体图像。第一设备再将第一图像和第一掩模区域进行对比，将第一图像中第一掩模区域对应的图像去除，则得到了印刷体图像。从而，第一设备通过第一分支网络得到了印刷体图像和手写体图像。需要说明的是，在实际应用过程中，还可以通过其他方法得到印刷体图像和手写体图像，例如通过第一分支网络对第一图像进行语义分割，得到印刷体掩模区域和第一掩模区域，并根据印刷体掩模区域和第一掩模区域从第一图像中分别分离出印刷体图像和手写体图像，对于通过第一分支网络获得印刷体图像和手写体图像的方式本申请不做限定。

举例来说，主干网络与手写体提取分支的结构可以是如图11所示的网络结构，即第一分支网络可以是由focal loss网络和动态平衡交叉熵网络组成。其中，通过多个卷积层的运算，最终获得第一图像中的印刷体图像和手写体图像。

在一种可能的实现方式中，第一模型还包括第二分支网络。该第二分支网络为印刷体检测分支，它分别预测印刷体图像的文本中心线，角度和边框回归值，通过处理后得到n个任意形状的第一文本框标注的图像，该第一文本框中包括至少一个印刷体子图像，该印刷体子图像属于印刷体图像。如图10所示，为本申请实施例提供的主干网络与印刷体检测分支的一个结构示意图。图10中，输入的图像为一个(640*640*3)的图像大小，其中，3为图像信道数，通过几个卷积层的卷积运算，最终输出(160*160*128)的图像，该图像中即包含了n个第一文本框标注的图像，如图16所示，印刷体图像中包含了多个第一文本框，第一文本框中包含来了印刷体子图像。

如图12所示，为本申请实施例提供的一个第一模型的结构示意图。其中，输入的图像为(640*640*3)的大小，输入进第一模型之后，通过第一分支网络得到手写体图像和印刷体图像，手写体图像和印刷体图像大小为(160*160*2)，通过第二分支网络得到包含了n个第一文本框的印刷体图像，其中，n为大于或者等于1的正整数，包含了n个第一文本框的印刷体图像的大小为(160*160*2)。

在步骤803中，第一设备将手写体图像输入到第二模型中，以得到手写体文本图像和手写体特殊符号图像。

第一设备在获取到手写体图像之后，第一设备将手写体图像输入到第二模型中，以得到手写体文本图像和手写体特殊符号图像，该第二模型用于对手写体图像进行语义分割。

在实际应用过程中，手写体图像可以只包括手写体文本图像或者手写体特殊符号图像，本实施例中以手写体图像包括手写体文本图像和手写体特殊符号图像为例进行说明。

具体的，在一种可能的实现方式中，该第二模型为共主干双分支网络结构。其中，第二模型的主干网络可以是采用特征金字塔网络(feature pyramid networks，FPN)和Resnet传插网络的结构，还可以是其他网络结构的组合，例如，还可以是特征金字塔网络和稠密连接网络的结构，具体此处不做限定。第二模型的主干网络可以有效提取手写体图像高层语义信息。

在一种可能的实现方式这种，第二模型包括第三分支网络，该第三分支网络为手写体特殊符号体提取分支，它通过语义分割像素级分离手写体文本图像和手写体特殊符号图像，进而提取手写体特殊符号图像。具体的，第一设备通过第三分支网络对手写体图像进行语义分割，得到第二掩模区域，该第二掩模区域对应的是手写体特殊符号图像。第一设备再将第二图像和第二掩模区域进行对比，将第二图像中第二掩模区域对应的图像去除，则得到了手写体文本图像。从而，第一设备通过第三分支网络得到了手写体文本图像和手写体特殊符号图像。需要说明的是，在实际应用过程中，还可以通过其他方法得到手写体文本图像和手写体特殊符号图像，例如通过第三分支网络对手写体图像进行语义分割，得到手写体文本掩模区域和第二掩模区域，并根据手写体文本掩模区域和第二掩模区域从手写体图像中分别分离出手写体文本图像和手写体特殊符号图像，对于通过第三分支网络获得手写体文本图像和手写体特殊符号图像的方式本申请不做限定。

在一种可能的实现方式中，第二模型还包括第四分支网络。该第四分支网络为手写体文本检测分支，它分别预测手写体文本图像的文本中心线，角度和边框回归值，通过处理后得到m个任意形状的第二文本框标注的图像，该第二文本框中包括至少一个手写体文本子图像，该手写体文本子图像属于手写体文本图像。如图17所示，手写体文本图像中包含了多个第二文本框，第二文本框中包含来了手写体文本子图像。

如图13所示，为本申请实施例提供的一个第二模型的结构示意图。其中，输入的图像为(160*160*3)的大小，输入进第二模型之后，通过第三分支网络得到手写体文本图像和手写体特殊符号图像，手写体文本图像和手写体特殊符号图像大小为(160*160*2)，通过第四分支网络得到包含了m个第二文本框的手写体文本图像，其中，m为大于或者等于1的正整数，包含了m个第二文本框的手写体文本图像的大小为(160*160*6)。

在步骤804中，第一设备将手写体特殊符号图像输入到第三模型中，以得到q个第三文本框标注的图像。

第一设备在获取到手写体特殊符号图像之后，第一设备将手写体特殊符号图像输入到第三模型中，以得到q个第三文本框标注的图像。

在一种可能的实现方式中，该第三模型为单支网络结构。其中，第三模型的网络可以是采用特征金字塔网络(feature pyramid networks，FPN)和Resnet传插网络的结构，还可以是其他网络结构的组合，例如，还可以是特征金字塔网络和稠密连接网络的结构，具体此处不做限定。

在一种可能的实现方式中，第三模型分别预测手写体特殊符号图像的文本中心线，角度和边框回归值，通过处理后得到q个任意形状的第三文本框标注的图像，该第三文本框中包括至少一个手写体特殊符号子图像，该手写体特殊符号子图像属于手写体特殊符号图像。如图18所示，手写体特殊符号图像中包含了多个第三文本框，第三文本框中包含来了手写体特殊符号子图像。

如图14所示，为本申请实施例提供的一个第三模型的结构示意图。其中，输入的图像为(160*160*3)的大小，输入进第三模型之后，得到包含了q个第三文本框的手写体特殊符号图像，其中，q为大于或者等于1的正整数，包含了q个第三文本框的手写体特殊符号图像的大小为(160*160*6+k)。

需要说明的是，本实施例中，当第一图像中只包含了印刷体图像时，则只需要执行步骤801至步骤802。当第一图像中只包含了印刷体图像和手写体文本图像时，只需要执行步骤801至803。

还需要说明的是，本申请实施例中，第一模型、第二模型和第三模型可以是独立的模型，还可以是合并在一起的模型，具体此处不做限定。可以理解的是，第一模型、第二模型和第三模型可以分别进行训练，也可以一起进行训练，例如通过同一组图像进行训练，具体此处不做限定。

上面对本申请实施例中的图像处理方法进行了描述，下面对本申请实施例中的图像处理设备进行描述，请参阅图19，为本申请提供的图像处理设备的一个结构示意图。

一种图像处理设备，包括：

获取单元1901，用于获取第一图像，第一图像包含印刷体图像和手写体图像；

输入单元1902，用于将第一图像输入第一模型中，以得到印刷体图像和手写体图像，第一模型用于对第一图像进行语义分割。

本实施例中，图像处理设备各单元所执行的操作与前述图8所示实施例中第一设备所执行的步骤类似，具体此处不再赘述。

请参阅图20，为本申请提供的图像处理设备的另一结构示意图。

一种图像处理设备，包括：

获取单元2001，用于获取第一图像，第一图像包含印刷体图像和手写体图像；

输入单元2002，用于将第一图像输入第一模型中，以得到印刷体图像和手写体图像，第一模型用于对第一图像进行语义分割。

处理单元2003，用于通过第一分支网络对第一图像进行语义分割，以得到第一掩模区域，第一掩模区域对应手写体图像；

处理单元2003还用于根据第一掩模区域和第一图像得到印刷体图像和手写体图像。

可选地，处理单元2003还用于通过第二分支网络对印刷体图像进行检测，以得到n个第一文本框标注的图像，n为大于或者等于1的正整数，第一文本框中包括至少一个印刷体子图像，印刷体子图像属于印刷体图像。

可选地，手写体图像包括手写体文本图像和手写体特殊符号图像，输入单元2002还用于将手写体图像输入到第二模型中，以得到手写体文本图像和手写体特殊符号图像，第二模型用于对手写体图像进行语义分割。

可选地，第二模型为双分支网络结构，第二模型包括第三分支网络，处理单元2003还用于通过第三分支网络对手写体图像进行语义分割，以得到第二掩模区域，第二掩模区域对应手写体特殊符号图像；

处理单元2003还用于根据第二掩模区域和手写体图像得到手写体文本图像和手写体特殊符号图像。

可选地，处理单元2003还用于通过第四分支网络对手写体文本图像进行检测，以得到m个第二文本框标注的图像，m为大于或者等于1的正整数，第二文本框中包括至少一个手写体文本子图像，手写体文本子图像属于手写体文本图像。

可选地，输入单元2002还用于将手写体特殊符号图像输入到第三模型中，以得到q个第三文本框标注的图像，q为大于或者等于1的正整数，第三文本框中包括至少一个手写体特殊符号子图像，手写体特殊符号子图像属于手写体特殊符号图像。

请参阅图21，为本申请实施例提供的图像处理设备另一结构示意图。

处理器2101、存储器2102、总线2105、接口2104，处理器2101与存储器2102、接口2104相连，总线2105分别连接处理器2101、存储器2102以及接口2104，接口2104用于接收或者发送数据，处理器2101是单核或多核中央处理单元，或者为特定集成电路，或者为被配置成实施本发明实施例的一个或多个集成电路。存储器2102可以为随机存取存储器(randomaccess memory，RAM)，也可以为非易失性存储器(non-volatile memory)，例如至少一个硬盘存储器。存储器2102用于存储计算机执行指令。具体的，计算机执行指令中可以包括程序2103。

本实施例中，该处理器2101调用程序2103时，可以使图21中的图像处理设备执行前述图8所示实施例中第一设备所执行的操作，具体此处不再赘述。

应理解，本申请以上实施例中的图像处理设备中提及的处理器，或者本申请上述实施例提供的处理器，可以是中央处理单元(central processing unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application-specific integrated circuit，ASIC)、现成可编程门阵列(fieldprogrammable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请中以上实施例中的图像处理设备中的处理器的数量可以是一个，也可以是多个，可以根据实际应用场景调整，此处仅仅是示例性说明，并不作限定。本申请实施例中的存储器的数量可以是一个，也可以是多个，可以根据实际应用场景调整，此处仅仅是示例性说明，并不作限定。

还需要说明的是，当图像处理设备包括处理器(或处理单元)与存储器时，本申请中的处理器可以是与存储器集成在一起的，也可以是处理器与存储器通过接口连接，可以根据实际应用场景调整，并不作限定。

本申请提供了一种芯片系统，该芯片系统包括处理器，用于支持图像处理设备实现上述方法中所涉及的控制器的功能，例如处理上述方法中所涉及的数据和/或信息。在一种可能的设计中，芯片系统还包括存储器，存储器，用于保存必要的程序指令和数据。该芯片系统，可以由芯片构成，也可以包括芯片和其他分立器件。

在另一种可能的设计中，当该芯片系统为用户设备或接入网等内的芯片时，芯片包括：处理单元和通信单元，处理单元例如可以是处理器，所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令，以使该图像处理设备等内的芯片执行上述图8中任一项实施例中图像处理设备执行的步骤。可选地，所述存储单元为所述芯片内的存储单元，如寄存器、缓存等，所述存储单元还可以是所述图像处理设备等内的位于所述芯片外部的存储单元，如只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random accessmemory，RAM)等。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被计算机执行时实现上述任一方法实施例中与图像处理设备的控制器执行的方法流程。对应的，该计算机可以为上述图像处理设备。

应理解，本申请以上实施例中的提及的控制器或处理器，可以是中央处理单元(central processing unit，CPU)，还可以是其他通用处理器、数字信号处理器(digitalsignal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等中的一种或多种的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请中以上实施例中的图像处理设备或芯片系统等中的处理器或控制器的数量可以是一个，也可以是多个，可以根据实际应用场景调整，此处仅仅是示例性说明，并不作限定。本申请实施例中的存储器的数量可以是一个，也可以是多个，可以根据实际应用场景调整，此处仅仅是示例性说明，并不作限定。

还应理解，本申请实施例中以上实施例中的图像处理设备等中提及的存储器或可读存储介质等，可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlinkDRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

本领域普通技术人员可以理解实现上述实施例的全部或部分由图像处理设备或者处理器2102执行的步骤可以通过硬件或程序来指令相关的硬件完成。程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，随机接入存储器等。具体地，例如：上述处理单元或处理器可以是中央处理器，通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。上述的这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

当使用软件实现时，上述实施例描述的方法步骤可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质等。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本申请实施例中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，在本申请的描述中，除非另有说明，“/”表示前后关联的对象是一种“或”的关系，例如，A/B可以表示A或B；本申请中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A，B可以是单数或者复数。

取决于语境，如在此所使用的词语“如果”或“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种图像处理方法，其特征在于，包括：

第一设备获取第一图像，所述第一图像包含印刷体图像和手写体图像；

所述第一设备将所述第一图像输入第一模型中，以得到所述印刷体图像和所述手写体图像，所述第一模型用于对所述第一图像进行语义分割。

2.根据权利要求1所述的方法，其特征在于，所述第一模型为双分支网络结构，所述第一模型包括第一分支网络，所述第一设备将所述第一图像输入第一模型中，以得到所述印刷体图像和所述手写体图像包括：

所述第一设备通过所述第一分支网络对所述第一图像进行语义分割，以得到第一掩模区域，所述第一掩模区域对应所述手写体图像；

所述第一设备根据所述第一掩模区域和所述第一图像得到所述印刷体图像和所述手写体图像。

3.根据权利要求2所述的方法，其特征在于，所述第一模型还包括第二分支网络，所述方法还包括：

所述第一设备通过所述第二分支网络对所述印刷体图像进行检测，以得到n个第一文本框标注的图像，所述n为大于或者等于1的正整数，所述第一文本框中包括至少一个印刷体子图像，所述印刷体子图像属于所述印刷体图像。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述手写体图像包括手写体文本图像和手写体特殊符号图像，所述第一设备将所述第一图像输入第一模型中，以得到所述印刷体图像和所述手写体图像之后，所述方法还包括：

所述第一设备将所述手写体图像输入到第二模型中，以得到所述手写体文本图像和所述手写体特殊符号图像，所述第二模型用于对所述手写体图像进行语义分割。

5.根据权利要求4所述的方法，其特征在于，所述第二模型为双分支网络结构，所述第二模型包括第三分支网络，所述第一设备将所述手写体图像输入到第二模型中，以得到所述手写体文本图像和所述手写体特殊符号图像包括：

所述第一设备通过所述第三分支网络对所述手写体图像进行语义分割，以得到第二掩模区域，所述第二掩模区域对应所述手写体特殊符号图像；

所述第一设备根据所述第二掩模区域和所述手写体图像得到所述手写体文本图像和所述手写体特殊符号图像。

6.根据权利要求5所述的方法，其特征在于，所述第二模型还包括第四分支网络，所述方法还包括：

所述第一设备通过所述第四分支网络对所述手写体文本图像进行检测，以得到m个第二文本框标注的图像，所述m为大于或者等于1的正整数，所述第二文本框中包括至少一个手写体文本子图像，所述手写体文本子图像属于所述手写体文本图像。

7.根据权利要求4至6中任一项所述的方法，其特征在于，所述第一设备将所述手写体图像输入到第二模型中，以得到所述手写体文本图像和所述手写体特殊符号图像之后，所述方法还包括：

所述第一设备将所述手写体特殊符号图像输入到第三模型中，以得到q个第三文本框标注的图像，所述q为大于或者等于1的正整数，所述第三文本框中包括至少一个手写体特殊符号子图像，所述手写体特殊符号子图像属于所述手写体特殊符号图像。

8.一种图像处理设备，其特征在于，包括：

获取单元，用于获取第一图像，所述第一图像包含印刷体图像和手写体图像；

输入单元，用于将所述第一图像输入第一模型中，以得到所述印刷体图像和所述手写体图像，所述第一模型用于对所述第一图像进行语义分割。

9.根据权利要求8所述的图像处理设备，其特征在于，所述第一模型为双分支网络结构，所述第一模型包括第一分支网络，所述图像处理设备还包括：

处理单元，用于通过所述第一分支网络对所述第一图像进行语义分割，以得到第一掩模区域，所述第一掩模区域对应所述手写体图像；

所述处理单元还用于根据所述第一掩模区域和所述第一图像得到所述印刷体图像和所述手写体图像。

10.根据权利要求9所述的图像处理设备，其特征在于，所述处理单元还用于通过所述第二分支网络对所述印刷体图像进行检测，以得到n个第一文本框标注的图像，所述n为大于或者等于1的正整数，所述第一文本框中包括至少一个印刷体子图像，所述印刷体子图像属于所述印刷体图像。

11.根据权利要求8至10中任一项所述的图像处理设备，其特征在于，所述手写体图像包括手写体文本图像和手写体特殊符号图像，所述输入单元还用于将所述手写体图像输入到第二模型中，以得到所述手写体文本图像和所述手写体特殊符号图像，所述第二模型用于对所述手写体图像进行语义分割。

12.根据权利要求11所述的图像处理设备，其特征在于，所述第二模型为双分支网络结构，所述第二模型包括第三分支网络，所述处理单元还用于通过所述第三分支网络对所述手写体图像进行语义分割，以得到第二掩模区域，所述第二掩模区域对应所述手写体特殊符号图像；

所述处理单元还用于根据所述第二掩模区域和所述手写体图像得到所述手写体文本图像和所述手写体特殊符号图像。

13.根据权利要求12所述的图像处理设备，其特征在于，所述处理单元还用于通过所述第四分支网络对所述手写体文本图像进行检测，以得到m个第二文本框标注的图像，所述m为大于或者等于1的正整数，所述第二文本框中包括至少一个手写体文本子图像，所述手写体文本子图像属于所述手写体文本图像。

14.根据权利要求11至13中任一项所述的图像处理设备，其特征在于，所述输入单元还用于将所述手写体特殊符号图像输入到第三模型中，以得到q个第三文本框标注的图像，所述q为大于或者等于1的正整数，所述第三文本框中包括至少一个手写体特殊符号子图像，所述手写体特殊符号子图像属于所述手写体特殊符号图像。

15.一种可读存储介质，用于存储有指令，当所述指令被执行时，使如权利要求1-7中任一项所述的方法被实现。