CN111723815B

CN111723815B - 模型训练方法、图像处理方法、装置、计算机系统和介质

Info

Publication number: CN111723815B
Application number: CN202010583283.2A
Authority: CN
Inventors: 周静玲; 罗伟; 胡锐明; 江子扬
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2023-06-30
Anticipated expiration: 2040-06-23
Also published as: CN111723815A

Abstract

本公开提供了一种模型训练方法，应用于计算机系统。该方法包括：构建初始网络模型。获取包含冠字号字符的多个样本图像和该多个样本图像各自的标签集，多个样本图像中的每个样本图像的标签集包括：针对该样本图像中每个像素点的类别标签。然后，基于多个样本图像和多个样本图像各自的标签集，对初始网络模型进行训练，以得到目标网络模型，目标网络模型用于进行冠字号字符的分割。本公开还提供了一种模型训练装置、图像处理方法、图像处理装置、计算机系统和介质。

Description

模型训练方法、图像处理方法、装置、计算机系统和介质

技术领域

本公开涉及计算机技术领域，更具体地，涉及一种模型训练方法及装置、图像处理方法及装置、计算机系统和介质。

背景技术

为了保障社会的公平，打击违法犯罪行为，对纸币的流通进行有效的监督具有重要的现实意义。冠字号作为纸币唯一识别标志，冠字号的监控是监控纸币流通过程的重要环节。为了能够正确识别冠字号，需要得到完整且准确的单个字符的位置。因此，研究出高速且有效的纸币冠字号区域字符分割方法是监控纸币冠字号过程中不可或缺的一步。

传统的方法一般采用基于阈值的分割方法区分出字符像素和背景像素，再采用投影等方法确定单个字符的位置，从而实现字符的分割。由于纸币图像的复杂性，很难通过阈值完全分割开字符像素和背景像素，二值图像会出现字符间粘粘或者字符笔画断裂等情况。传统的投影分割法的结果太依赖于二值化的结果，因此传统的分割算法存在很多的局限性。

发明内容

本公开的一个方面提供了一种模型训练方法，应用于计算机系统。该方法包括：构建初始网络模型。获取包含冠字号字符的多个样本图像和该多个样本图像各自的标签集，多个样本图像中的每个样本图像的标签集包括：针对该样本图像中每个像素点的类别标签。然后，基于多个样本图像和多个样本图像各自的标签集，对初始网络模型进行训练，以得到目标网络模型，目标网络模型用于进行冠字号字符的分割。

可选地，上述基于多个样本图像和多个样本图像各自的标签集，对初始网络模型进行训练包括：针对多个样本图像中的任一样本图像，将该样本图像输入至初始网络模型，以由初始网络模型输出针对该样本图像中每个像素点的分类预测得分。基于该样本图像中每个像素点的分类预测得分和该样本图像的标签集，计算预定损失函数的损失值。基于预定损失函数的损失值，对初始网络模型的参数进行调整，以得到更新的初始网络模型。针对更新的初始网络模型，重复上述训练过程，直至基于预定损失函数的损失值确定预定损失函数实现收敛。将预定损失函数实现收敛时所针对的初始网络模型作为目标网络模型。

可选地，上述初始网络模型包括：多个第一卷积层、第二卷积层、第三卷积层、第四卷积层、第一反卷积层、第二反卷积层和输出层。上述将任一样本图像输入至所述初始网络模型，以由初始网络模型输出针对该样本图像中每个像素点的分类预测得分包括：针对任一样本图像，依次利用上述多个第一卷积层和上述第二卷积层进行处理，以得到第一特征图，第一特征图的尺寸与该样本图像的尺寸相同。利用上述第三卷积层对多个第一卷积层中的一个第一卷积层的输出进行处理，以得到第二特征图，第二特征图的尺寸小于该样本图像的尺寸。利用第一反卷积层对第二特征图进行处理，以得到第三特征图，第三特征图的尺寸大于等于该样本图像的尺寸。利用第四卷积层对上述第二卷积层的输出进行处理，以得到第四特征图，第四特征图的尺寸小于该样本图像的尺寸。利用第二反卷积层对第四特征图进行处理，以得到第五特征图，第五特征图的尺寸大于等于该样本图像的尺寸。接着，对第三特征图和第五特征图进行融合，以得到融合结果。利用上述输出层基于融合结果，得到针对该样本图像中每个像素点的分类预测得分。

可选地，初始网络模型还包括随机失活层，随机失活层位于上述第二卷积层之后。上述基于多个样本图像和多个样本图像各自的标签集，对初始网络模型进行训练还包括：将多个样本图像划分为多个训练批次，逐训练批次地对初始网络模型进行训练。当基于多个训练批次中的每个训练批次对初始网络模型进行训练时，利用随机失活层设置初始网络模型中的一个或多个神经元失活。

可选地，第三特征图和第五特征图的尺寸均大于该样本图像的尺寸。上述基于多个样本图像和多个样本图像各自的标签集，对初始网络模型进行训练还包括：在对第三特征图和第五特征图进行融合之前，对第三特征图和第五特征图进行裁剪，使得裁剪后的第三特征图的尺寸、裁剪后的第五特征图的尺寸均与该样本图像的尺寸相同。

可选地，上述对第三特征图和第五特征图进行融合包括：将第三特征图和第五特征图中位于相同通道的特征值进行相加，以得到初步融合图，并利用预定卷积核对初步融合图进行卷积操作，以得到融合结果。

可选地，上述多个第一卷积层中的每个第一卷积层包括多个第一卷积核，上述多个第一卷积核中的每个第一卷积核的尺寸为3×3，填充为1，步长为1。上述第二卷积层包括多个第二卷积核，多个第二卷积核中的每个第二卷积核的尺寸为1×1，填充为0，步长为1。

可选地，上述第三卷积层和上述第四卷积层各自包括2个第三卷积核，每个第三卷积核的尺寸为1×1。上述第一反卷积层和上述第二反卷积层各自包括一个第四卷积核，每个第四卷积核的尺寸为3×3。

可选地，上述多个第一卷积层采用第一激活函数，上述第二卷积层采用第二激活函数，上述输出层采用第三激活函数。

可选地，预定损失函数包括：交叉熵损失函数。

本公开的另一个方面提供了一种图像处理方法，应用于计算机系统。该方法包括：获取待处理图像。获取根据上文所述的模型训练方法训练得到的目标网络模型。将待处理图像输入至目标网络模型，以由目标网络模型输出针对待处理图像中每个像素点的分类预测得分。基于每个像素点的分类预测得分，确定该像素点的类别。再基于每个像素点的类别，从待处理图像中分割出冠字号字符。

本公开的另一个方面提供了一种模型训练装置，应用于计算机系统。该装置包括：网络构建模块、样本获取模块和训练模块。网络构建模块用于构建初始网络模型。样本获取模块用于获取包含冠字号字符的多个样本图像和该多个样本图像各自的标签集，多个样本图像中的每个样本图像的标签集包括：针对该样本图像中每个像素点的类别标签。训练模块用于基于多个样本图像和多个样本图像各自的标签集，对初始网络模型进行训练，以得到目标网络模型，目标网络模型用于进行冠字号字符的分割。

本公开的另一个方面提供了一种图像处理装置，应用于计算机系统。该装置包括：第一获取模块、第二获取模块、预测模块、确定模块和分割模块。第一获取模块用于获取待处理图像。第二获取模块用于获取根据上文所述的模型训练方法训练得到的目标网络模型。预测模块用于将待处理图像输入至目标网络模型，以由目标网络模型输出针对待处理图像中每个像素点的分类预测得分。确定模块用于基于每个像素点的分类预测得分，确定该像素点的类别。分割模块用于基于每个像素点的类别，从待处理图像中分割出冠字号字符。

本公开的另一方面提供了一种计算机系统，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时用于实现如上所述的方法。

本公开的另一方面提供了一种计算机可读存储介质，存储有计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

本公开的另一方面提供了一种计算机程序，所述计算机程序包括计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

根据本公开的实施例，根据本公开实施例的模型训练方法采用深度学习方法构建并训练网络模型，以使网络模型具备针对图像中每个像素点进行较为精确地分类的性能。由于作为训练样本的多个样本图像包含冠字号字符，且多个样本图像可以是各种场景下获取到的图像，样本图像中所包含的噪声和干扰可以被网络模型所学习以与有效图像特征加以区分。使得后续在根据本公开实施例的图像处理方法中利用训练得到的网络模型进行冠字号字符分割过程能够适应于整张复杂的图片信息，且能够灵活地应对复杂背景和噪声的干扰，具有较高的鲁棒性差。

附图说明

为了更完整地理解本公开及其优势，现在将参考结合附图的以下描述，其中：

图1示意性示出了根据本公开实施例的应用模型训练方法和图像处理方法的示例性系统架构；

图2示意性示出了根据本公开实施例的业务数据处理方法的流程图；

图3示意性示出了根据本公开实施例的初始网络模型的示例结构图；

图4示意性示出了根据本公开实施例的随机失活操作的示例示意图；

图5示意性示出了根据本公开实施例的网络模型中特征图变换过程的示例示意图；

图6示意性示出了根据本公开实施例的图像处理方法的流程图；

图7示意性示出了根据本公开实施例的模型训练装置的框图；

图8示意性示出了根据本公开实施例的图像处理装置的框图；以及

图9示意性示出了根据本公开实施例的计算机系统的框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

本公开的实施例提供了一种模型训练方法和装置以及图像处理方法和装置，应用于计算机系统。模型训练方法可以包括：网络构建过程、样本获取过程和训练过程。在网络构建过程，构建初始网络模型。在样本获取过程，获取包含冠字号字符的多个样本图像和该多个样本图像各自的标签集。其中多个样本图像中的每个样本图像的标签集包括：针对该样本图像中每个像素点的类别标签。然后可以进行训练过程，基于多个样本图像和多个样本图像各自的标签集，对初始网络模型进行训练，以得到目标网络模型，该目标网络模型用于进行冠字号字符的分割。

图1示意性示出了根据本公开实施例的可以应用模型训练方法和图像处理方法的示例性系统架构100。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，根据该实施例的系统架构100可以包括终端设备101、102、103，网络104和服务器/服务器集群105。网络104用以在终端设备101、102、103和服务器/服务器集群105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

终端设备101、102、103上可以安装有各种客户端应用，例如业务建模工具(仅为示例)。终端设备101、102、103可以通过各种客户端应用与服务器/服务器集群105进行交互，以向服务器/服务器集群105发送各种请求或接收服务器/服务器集群105返回的结果。

终端设备101、102、103可以是各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器服务器/服务器集群105是可以提供各种服务支持的后台管理服务器或服务器集群(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

需要说明的是，本公开实施例所提供的模型训练方法一般可以由服务器/服务器集群105执行。相应地，本公开实施例所提供的模型训练装置一般可以设置于服务器/服务器集群105中。本公开实施例所提供的模型训练方法也可以由终端设备101、102、103执行。相应地，本公开实施例所提供的模型训练装置一般可以设置于终端设备101、102、103中。本公开实施例所提供的模型训练方法也可以由不同于服务器/服务器集群105且能够与终端设备101、102、103和/或服务器/服务器集群105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的模型训练装置也可以设置于不同于服务器/服务器集群105且能够与终端设备101、102、103和/或服务器/服务器集群105通信的服务器或服务器集群中。

本公开实施例所提供的图像处理方法一般可以由服务器/服务器集群105执行。相应地，本公开实施例所提供的图像处理装置一般可以设置于服务器/服务器集群105中。本公开实施例所提供的图像处理方法也可以由终端设备101、102、103执行。相应地，本公开实施例所提供的图像处理装置一般可以设置于终端设备101、102、103中。本公开实施例所提供的图像处理方法也可以由不同于服务器/服务器集群105且能够与终端设备101、102、103和/或服务器/服务器集群105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的图像处理装置也可以设置于不同于服务器/服务器集群105且能够与终端设备101、102、103和/或服务器/服务器集群105通信的服务器或服务器集群中。

根据本实施例的模型训练方法和图像处理方法可以在同一设备中实施，也可以在不同设备中实施，本公开对此不做限制。

应该理解，图1中的终端设备、网络和服务器/服务器集群的数目仅仅是示意性的。根据实际需要，可以具有任意数目的终端设备、网络和服务器/服务器集群。

字符分割方法是指输入定位好的冠字号字符区域确定单个字符位置的一种技术手段。由于纸币冠字号字符位置相对较为规律，所以在得到定位良好的冠字号区域图像之后，传统的方法一般采用基于阈值的分割方法区分出字符像素和背景像素，再采用投影等方法确定单个字符的位置，从而实现字符的分割。区分字符像素和背景像素的过程被称二值化，常见的二值化方法分为全局二值化方法和局部二值化方法。其中，全局二值化是指对于输入的整张图片，基于全局信息综合考量确定一个阈值T，然后利用T对整张图像进行二值化。其中最具有代表性的例如包括Otsu二值化方法。对于全局二值化的方法来说，虽然计算简单实现容易，但往往算法的鲁棒性差，单一的阈值不能适应于整张复杂的图片信息，不能灵活地应对复杂背景和噪声的干扰。对于大部分实际应用场景中的图片来说，在采集过程中由于光照不均匀而导致的图片区域亮度不均的情况，此时局部二值化利用周围的像素点信息，对不同的区域选取不相同的阈值，相较于全局阈值来说，可以取得更好的实验结果。常用的局部二值化的方法包括Bernsen二值化、Niblack二值化和Wolf二值化。虽然局部二值化在某些特定的应用场景中可以取得不错的结果，但是需要对于每个像素点进行计算，时间消耗过大。除此之外，该类方法只考虑了局部特性，会造成字符边缘不清晰或者字符间粘粘等情况。

由于纸币图像的复杂性，很难通过阈值完全分割开字符像素和背景像素，二值图像会出现字符间粘粘或者字符笔画断裂等情况。传统的投影分割法的结果太依赖于二值化的结果，因此传统的分割算法存在很多的局限性。

根据本公开的实施例，提供了一种模型训练方法和图像处理方法，基于深度学习算法训练得到能够针对图像中的冠字号字符进行分割的网络模型，并利用该网络模型针对待处理图像进行冠字号字符分割。下面结合附图进行示例性说明。应注意，以下方法中各个操作的序号仅作为该操作的表示以便描述，而不应被看作表示该各个操作的执行顺序。除非明确指出，否则该方法不需要完全按照所示顺序来执行。

图2示意性示出了根据本公开实施例的模型训练方法的流程图，可以应用于计算机系统，该计算机系统可以作为服务器或终端设备。

如图2所示，该模型训练方法可以包括操作S210～S230。

在操作S210，构建初始网络模型。

根据本公开的实施例，可以基于语义分割(semantic segmentation)来针对冠字号字符的分割。语义分割在处理图像时可以具体到像素级别，即可以将图像中每个像素分配到对应的类别中，从而可以根据每个像素的类别确定每个像素属于字符或背景。示例性地，初始网络模型可以为各种可以实现语义分割的各种类型神经网络，例如全卷积网络(Fully Convolutional Network，FCN)、SegNet网络、空洞卷积网络、DeepLab网络等，在此不做限制。

在操作S220，获取包含冠字号字符的多个样本图像和该多个样本图像各自的标签集。

其中，所获取的多个样本图像中的每个样本图像的标签集包括：针对该样本图像中每个像素点的类别标签。在一个样本图像中，每个像素点的类别标签的取值表征了该像素点所对应的真实类别。例如，在进行二分类(背景和字符)的应用场景中，类别标签的取值包括0和1。当一个像素点的类别标签的取值为0时，表征该像素点属于背景；当一个像素点的类别标签的取值为1时，表征该像素点属于冠字号字符。

在操作S230，基于多个样本图像和多个样本图像各自的标签集，对初始网络模型进行训练，以得到目标网络模型。

其中，由于目标网络模型是基于包含冠字号字符的多个样本图像和该多个样本图像各自的标签集训练得到的，该目标网络模型具有对图像中每个像素点进行分类的性能。标签集中包括表征冠字号字符类别的类别标签，使得目标网络模型包括冠字号字符类别，故可以利用该目标网络模型进行冠字号字符的分割。

本领域技术人员可以理解，根据本公开实施例的模型训练方法采用深度学习方法并结合纸币自身的图像特征，提出了一种新的网络结构方法用于纸币冠字号区域字符分割。该方案构建并训练网络模型，以使网络模型具备针对图像中每个像素点进行分类的性能，从而可以更为清晰地区分出图像中不同类别物体的边界。由于作为训练样本的多个样本图像包含冠字号字符，且多个样本图像可以是各种场景下获取到的图像，样本图像中的冠字号字符特征可以被网络模型所学习，样本图像中所包含的噪声和干扰也可以被网络模型所学习以与有效冠字号字符特征加以区分。后续在根据本公开实施例的图像处理方法中利用训练得到的网络模型进行冠字号字符分割过程能够适应于整张复杂的图片信息，且能够灵活地应对复杂背景和噪声的干扰，具有较高的鲁棒性差。

根据本公开的实施例，上述基于多个样本图像和多个样本图像各自的标签集，对初始网络模型进行训练的过程可以包括：针对多个样本图像中的任一样本图像，将该样本图像输入至初始网络模型，以由初始网络模型输出针对该样本图像中每个像素点的分类预测得分。然后，基于该样本图像中每个像素点的分类预测得分和该样本图像的标签集，计算预定损失函数的损失值。接着，基于预定损失函数的损失值，对初始网络模型的参数进行调整，以得到更新的初始网络模型。针对更新的初始网络模型，重复上述训练过程，直至基于预定损失函数的损失值确定预定损失函数实现收敛。当预定损失函数实现收敛时，将此时所针对的初始网络模型作为目标网络模型。可以理解，对于样本图像中的每个像素点，可以确定该像素点的分类预测得分相比于该像素点的标签类别所指示的实际类别的预测差异，基于一个样本图像中各杨素点的预测差异可以计算预定损失函数的损失值，从而评价当前网络模型的性能。基于上述评价结果不断调整网络模型的参数，在预定损失函数实现收敛时，说明当前网络模型的性能达到最优，从而确定训练过程结束，得到目标网络模型。

图3示意性示出了根据本公开实施例的初始网络模型的示例结构图。如图3所示，上述初始网络模型300可以在全卷积网络基础上构建。初始网络模型300可以包括：多个第一卷积层301、第二卷积层302、第三卷积层303、第四卷积层304、第一反卷积层305、第二反卷积层306和输出层307。

示例性地，上述将任一样本图像X输入至初始网络模型，以由初始网络模型输出针对该样本图像X中每个像素点的分类预测得分的过程可以包括：针对任一样本图像X，依次利用上述多个第一卷积层301和上述第二卷积层302进行处理，以得到第一特征图。其中，第一特征图的数量取决于第一卷积层301和第二卷积层302中卷积核的具体设置。每个第一特征图的尺寸与被输入初始网络模型的样本图像X的尺寸相同。然后，一方面，利用上述第三卷积层303对多个第一卷积层301中的一个第一卷积层301的输出进行处理，以得到第二特征图。其中，第二特征图的数量取决于第三卷积层303中卷积核的具体设置。每个第二特征图的尺寸小于样本图像X的尺寸。另一方面，利用第四卷积层304对上述第二卷积层302的输出进行处理，以得到第四特征图。其中，第四特征图的数量取决于第四卷积层304中卷积核的具体设置。第四特征图的尺寸小于该样本图像X的尺寸。接着，利用第一反卷积层305对第二特征图进行处理，以得到第三特征图，第三特征图的尺寸大于等于该样本图像X的尺寸。并且，利用第二反卷积层306对第四特征图进行处理，以得到第五特征图，第五特征图的尺寸大于等于该样本图像X的尺寸。进一步地，对第三特征图和第五特征图进行融合，以得到融合结果。再利用上述输出层307基于融合结果，得到针对该样本图像X中每个像素点的分类预测得分。

下面结合具体例子进行示例性说明。

本例中，由于输入样本图像包含较多噪声信息，为避免网络结构中因为填充操作而引入多余噪声的情形，本例所构建的网络结构的层数不应该过多。除此之外，网络结构深必将带来时间复杂度的增多，所以出于对于算法实时性的考虑，也应该选择浅层且有效的网络。其次，字符分割任务最后得到结果中，对于字符边缘的界定，往往只在1-2个像素之间，因此对于图像中细节信息的获取就极为重要，因此卷积核的尺寸也不宜过大。最后，由于池化层一般是起一个特征筛选的作用，但筛选特征的同时就意味着会降低所获取的特征数量，而纸币冠字号区域本身分辨率低所带有的特征信息少且分割主要依靠局部细节信息，因此考虑在网络结构中不采用池化操作。

例如，如图3所示，多个第一卷积层301可以包括cov1层、cov2层、cov3层和cov4层。第二卷积层302可以为fc5层。第三卷积层303和第四卷积层304可以分别为score_fr4层和score_fr5层。第一反卷积层305和第二反卷积层306可以分别为upscore4层和upscore5层。输出层307可以为score层。

示例性地，在将样本图像X输入初始网络模型300后，通过卷积操作提取图像特征。为了更加细致地提取图像特征，选取了最小可以获得像素中心点八方向上领域信息的卷积核，因此在前4层第一卷积层301的卷积过程中，每个第一卷积层301选取了10个尺寸为3×3的第一卷积核，卷积过程中填充为1，步长为1，经过这4层卷积操作之后，所得到的特征图的尺寸大小和输入图片X的尺寸一致。其中，第一卷积核的数量可以根据需要进行设置，在此不做限制。

经过4层第一卷积层301得到特征图之后，紧接着的fc5层302取代传统卷积神经网络中的全连接层，例如可以采用了12个尺寸为1×1的第二卷积核，以在提取特征操作的最后，进一步扩大网络的广度，从而获得更多的特征信息。在这层卷积操作的参数中填充为0，步长为1，所得到的特征图和输入图片的尺寸依旧保持不变。fc5层302输出的特征图即为上文提到的第一特征图。

根据本公开的实施例，初始网络模型的网络结构中所有隐含层都可以采用激活函数，例如cov1层、cov2层、cov3层和cov4层可以分别采用relu1激活函数、relu2激活函数、relu3激活函数和relu4激活函数。fc5层可以采用relu5激活函数。相较于其他激活函数，比如sigmoid函数、tanh函数等，relu函数由于会使一部分输出的为0，减少了用于分割冠字号字符的网络模型中参数的相互依存关系，可以很好地缓解过拟合的现象。除此之外，relu函数的形式相对简单，在网络中反向传播求误差梯度的时候的计算量相对较小，可以减少整个训练过程的计算量。

进一步地，根据本公开的实施例，初始网络模型还可以包括随机失活层。上述基于多个样本图像和多个样本图像各自的标签集，对初始网络模型进行训练还包括：将多个样本图像划分为多个训练批次，每个训练批次预定大小(batchsize)，逐训练批次地对初始网络模型进行训练。当基于多个训练批次中的每个训练批次对初始网络模型进行训练时，利用随机失活层设置初始网络模型中的一个或多个神经元失活。

在图3所示的网络结构图中，例如在fc5层302后面有一个随机失活层(drop5层)，它用于在该层训练结束之后进行随机失活(dropout)操作。dropout操作是指在网络训练过程中按照一定的概率，将部分神经网络单元暂时从网络中剔除。所以每次在做完dropout操作之后，相当于从初始网络模型中找到一个更瘦的结构，经过多轮训练，基于dropout操作可以筛选出一个最优的模型结构，如图4所示。

图4示意性示出了根据本公开实施例的随机失活操作的示例示意图。例如，左侧展示了初始网络模型的网络结构，经过dropout操作后可以得到右侧所示的网络结构。由于每次是随机丢弃神经网络单元，故而每次小批次训练都是在训练不同的网络，因此可以达到多个模型组合的效果，可以有效地解决网络训练过程中过拟合的现象。

根据本公开的实施例，利用第三卷积层303对多个第一卷积层301中的一个第一卷积层301的输出进行处理，并且，利用第四卷积层304对上述第二卷积层302的输出进行处理。然后可以采用反卷积和裁剪操作获得和输入图像尺寸一致的得分图，即上文提到的第三特征图和第五特征图。

例如，考虑到本实施例所训练的网络模型的任务是区分字符和背景，可以看作一个二分类的问题。继续参考图3，因此设置score_fr4层303和score_fr5层304各自包括2个第三卷积核，每个第三卷积核的尺寸为1×1，从而计算出每个类别所对应的热图(heatmap)。而upscore4层305和upscore5层306则是对已有的得分图像进行反卷积，从而获得大于或者等于输入图像X尺寸的输出。upscore4层305和upscore5层306各自包括一个第四卷积核，每个第四卷积核的尺寸为3×3。上述第三卷积核和第四卷积核的数量可以根据需要进行设置，在此不做限制。假设输入的样本图像的尺寸为，则根据公式(1)得到输出的大小为：

H_out＝(input-1)*S+K＝H+2 公式(1)

其中，假设输入的样本图像的尺寸为H，H_out表示输出图像的尺寸，input表示输入图像尺寸H，S表示卷积过程的步长，K表示卷积核的大小。本例中，S＝1，K＝3时，基于公式(1)可以得到：H_out＝H+2。

可以理解，此时得到的得分图像与输入图像大小是有差别的，不能直接与相对应的标签集进行损失函数计算，所以在这里需要进行裁剪操作。因为图像在卷积过程中的填充都是在图片周围均匀填充的，为了尽可能保证特征信息不被丢失，所以裁剪操作需要基于中心点裁剪边缘信息的。而upscore4层305和upscore5层306各自的输出比原图多了2个像素，所以从输出图偏移量为1的位置开始裁剪到原始尺寸的大小。

进一步地，根据本公开的实施例，可以将浅层和高层的特征图进行融合，即将第三特征图和第五特征图进行融合，避免特征丢失，进一步提高分割准确性。

在传统的卷积神经网络用作分类任务中，往往需要通过语义特征信息从而确定该物体的类别。一般情况下，网络层次越多，获得的语义信息越全面，分类的准确性也就越高。在图像分割任务，在获得最终的包含语义信息的特征图之后需要经过反卷积的操作，使特征图的尺寸和输入图片大小一致的时候，才能对单个像素点进行分类预测。整个过程可以看作由自底向上和自顶相下两条路径组成。自底向上的路径指的就是通常的卷积提取特征的过程，空间分辨率递减，检测更多高层结构，网络层的语义内容相应增加；相对应的，自顶相下的路径通常是反卷积的过程，空间分辨率增加，网络层的语义值减少，空间位置信息相对应增加，具体流程如图5所示。可以理解，包含高层的语义特征图在反卷积的过程中不可避免会损失掉很多位置细节信息，从而影响到最终的准确率。但分割任务也属于分类任务，不能为了过分追求位置细节信息的保留而放弃高层语义特征的提取。

因此，在保证分割准确率的情况下，为了进一步提高网络分割的精度，提出了特征融合的策略，将浅层的高分辨率低语义信息的图和深层低分辨率高语义的进行特征融合。

本公开实施例所采用的融合方式，例如可以是将通道数对应的特征图相加，再经过一步尺寸为1×1的预定卷积核，从而对应的特征图共享一个卷积核。具体计算公式如公式(2)。

其中，Z_combine表示特征融合之后的特征图，C表示特征值的个数，X_i表示特征融合前待融合的一层特征图(例如第三特征图)的第i个特征值，Y_i表示特征融合前待融合的另一层特征图(例如第五特征图)的第i个特征值，以及K表示尺寸为1×1的预定卷积核。

在特征融合的过程中是直接增加描述图像的特征信息量，并没有增加图像本身的维度，只是图像每一维的特征信息在增加，所以对于最终的图像的分类是有益的。

在网络训练过程中，每轮前向传播结束后，即网络结构图中的score层307输出之后需要衡量模型预测的好坏，计算预测值与实际数据的差距程度，从而通过方向传播相应地修改权重。用来表达这个误差的就是损失函数，在模型训练的过程中，当损失函数的值越小的时候，模型预测的准确性就越高。

在网络模型训练中，真实的标签集采用one-hot编码，属于该类则为1，不属于则为0，而输出的得分图的值没有确定的范围。因此，训练过程中并不是直接将网络最后的得分图与标签集进行计算，而是采用softmax激活函数，将所有神经元的输出映射到(0，1)区间内，具体过程如公式(3)所示。

其中，z表示softmax层的输入，f(z_k)则为该层的输出，k表示所针对的像素点的序号。因为函数是单调递增的，既不会改变特征值原本的相对大小，也可以很好地模拟“最大化”的行为，扩大两个神经元输出值的差距。

至此，特征值经过softmax激活函数之后成为了一个概率分布，而原始的分类标签也可以被看作是一个概率分布。而交叉熵就是描述了两个概率分布之间的距离，当交叉熵的值越小的时候，则说明两者概率分布越近。具体的，交叉熵函数计算过程如公式(4)所示。

其中，yk表示给定的标签中的第k个像素点的标签类别的真实值，f(z_k)为softmax层的输出，即为分类预测得分，C为特征值的个数。例如二分类问题中标签类别的真实值只有可能会是0或者1(取值为0或1)，当标签类别的取值为1时表征一个像素点对应于冠字号字符。根据本公开的实施例，预定损失函数可以采用交叉熵损失函数。从直观的角度上考虑，交叉熵损失函数最后的结果只和分类正确的预测结果有关，符合本公开实施例的需求。而平方和损失函数还和错误的分类有关，这对于只关注最终预测结果的正确性有关的分类问题来说，对于本公开实施例的分类任务来说不是很有必要。

在该网络结构中，是将和交叉熵计算组合而成损失函数，使得两者的数值计算更加稳定，结合上面两个公式(3)和(4)，可得损失函数的表示式为公式(5)。

在网络训练过程中，为提升训练效率，往往是采取的小批次梯度下降，即每batchsize张样本图进入网络训练，累加批次中所有样本的loss值进行梯度更新。而在我们的网络中，因为每张图片上每一个像素点都对应一个标签，每一个像素点都是一个分类任务。所以，在网络输入中的batchsize为1，每张图片中就有像素点个样本，累加所有像素点上的分类损失值，进行一次梯度的更新。

在训练得到目标网络模型后，可以利用该目标网络模型进行图像处理。下面参考图6对根据本公开实施例的图像处理过程进行示例性说明。

图6示意性示出了根据本公开实施例的图像处理方法的流程图，可以应用于计算机系统，该计算机系统可以作为服务器或终端设备。

如图6所示，该图像处理方法可以包括操作S610～S650。

在操作S610，获取待处理图像。

在操作S620，获取目标网络模型。

获取根据上文所述的模型训练方法训练得到的目标网络模型。

在操作S630，将待处理图像输入至目标网络模型，以由目标网络模型输出针对待处理图像中每个像素点的分类预测得分。

在操作S640，基于每个像素点的分类预测得分，确定该像素点的类别。

在操作S650，基于每个像素点的类别，从待处理图像中分割出冠字号字符。

本领域技术人员可以理解，根据本公开实施例，提供了模型训练方法和基于训练得到的模型的图像分析方法，以进行冠字号字符分割。采用卷积过程提图像特征信息，得到对应的特征图像。其中，为了更加细致地提取图像特征，选取了最小的卷积核进行操作。并且，采用上采样的操作将特征图放缩到和输入图片相同的尺寸，保留原始图像的空间信息。进一步地，为了保证特征信息的不损失，还提出了特征融合的策略，将浅层的高分辨率低语义信息的图和深层低分辨率高语义的进行特征融合。最后，每一个像素点都相当于一个训练样本，逐个像素进行损失函数计算分类损失，最后对每一个像素点都产生了一个类别的预测。本公开实施例可以具有如下优点：网络结构中层次较浅，可以较好地解决输入图片分辨率较低的问题，同时可以降低图像处理过程的时间复杂度；在每层卷积过程中，设计了多个卷积核从不同角度进行特征提取，保证了提取特征的完整性；为了进一步提高分割边缘的精准度，在特征提取结束后增加了特征融合的结构，兼顾浅层的位置细节信息和深层全局语义特征。

图7示意性示出了根据本公开实施例的模型训练装置的框图，可以应用于各种类型的计算机系统。

如图7所示，该模型训练装置700可以包括：网络构建模块710、样本获取模块720和训练模块730。

网络构建模块710用于构建初始网络模型。

样本获取模块720用于获取包含冠字号字符的多个样本图像和该多个样本图像各自的标签集，多个样本图像中的每个样本图像的标签集包括：针对该样本图像中每个像素点的类别标签。

训练模块730用于基于多个样本图像和多个样本图像各自的标签集，对初始网络模型进行训练，以得到目标网络模型，目标网络模型用于进行冠字号字符的分割。

图8示意性示出了根据本公开实施例的图像处理装置的框图，可以应用于各种类型的计算机系统。

如图8所示，该图像处理装置800可以包括：第一获取模块810、第二获取模块820、预测模块830、确定模块840和分割模块850。

第一获取模块810用于获取待处理图像。第二获取模块820用于获取根据上文所述的模型训练方法训练得到的目标网络模型。预测模块830用于将待处理图像输入至目标网络模型，以由目标网络模型输出针对待处理图像中每个像素点的分类预测得分。确定模块840用于基于每个像素点的分类预测得分，确定该像素点的类别。分割模块850用于基于每个像素点的类别，从待处理图像中分割出冠字号字符。

需要说明的是，装置部分实施例中各模块/单元/子单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似，在此不再赘述。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，网络构建模块710、样本获取模块720和训练模块730中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，网络构建模块710、样本获取模块720和训练模块730中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，网络构建模块710、样本获取模块720和训练模块730中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图9示意性示出了根据本公开实施例的适于实现上文描述的方法的计算机系统的方框图。图9示出的计算机系统仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图9所示，根据本公开实施例的计算机系统900包括处理器901，其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。处理器901例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器901还可以包括用于缓存用途的板载存储器。处理器901可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 903中，存储有系统900操作所需的各种程序和数据。处理器901、ROM 902以及RAM 903通过总线904彼此相连。处理器901通过执行ROM 902和/或RAM 903中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 902和RAM 903以外的一个或多个存储器中。处理器901也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，系统900还可以包括输入/输出(I/O)接口905，输入/输出(I/O)接口905也连接至总线904。系统900还可以包括连接至I/O接口905的以下部件中的一项或多项：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

根据本公开的实施例，根据本公开实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被处理器901执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，尽管已经参照本公开的特定示例性实施例示出并描述了本公开，但是本领域技术人员应该理解，在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下，可以对本公开进行形式和细节上的多种改变。因此，本公开的范围不应该限于上述实施例，而是应该不仅由所附权利要求来进行确定，还由所附权利要求的等同物来进行限定。

Claims

1.一种模型训练方法，应用于计算机系统，所述方法包括：

构建初始网络模型；

获取包含冠字号字符的多个样本图像和所述多个样本图像各自的标签集，所述多个样本图像中的每个样本图像的标签集包括：针对所述每个样本图像中每个像素点的类别标签；

基于所述多个样本图像和所述多个样本图像各自的标签集，对所述初始网络模型进行训练，以得到目标网络模型，所述目标网络模型用于进行冠字号字符的分割；

其中，所述初始网络模型包括：多个第一卷积层、第二卷积层、第三卷积层、第四卷积层、第一反卷积层、第二反卷积层和输出层；

将所述任一样本图像输入至所述初始网络模型，以由所述初始网络模型输出针对所述任一样本图像中每个像素点的分类预测得分包括：

针对所述任一样本图像，依次利用所述多个第一卷积层和所述第二卷积层进行处理，以得到第一特征图，所述第一特征图的尺寸与所述任一样本图像的尺寸相同；

利用所述第三卷积层对所述多个第一卷积层中的一个第一卷积层的输出进行处理，以得到第二特征图，所述第二特征图的尺寸小于所述任一样本图像的尺寸；

利用所述第一反卷积层对所述第二特征图进行处理，以得到第三特征图，所述第三特征图的尺寸大于等于所述任一样本图像的尺寸；

利用所述第四卷积层对所述第二卷积层的输出进行处理，以得到第四特征图，所述第四特征图的尺寸小于所述任一样本图像的尺寸；

利用所述第二反卷积层对所述第四特征图进行处理，以得到第五特征图，所述第五特征图的尺寸大于等于所述任一样本图像的尺寸；以及

对所述第三特征图和所述第五特征图进行融合，以得到融合结果；以及

利用所述输出层基于所述融合结果，得到针对所述任一样本图像中每个像素点的分类预测得分。

2.根据权利要求1所述的方法，其中，所述基于所述多个样本图像和所述多个样本图像各自的标签集，对所述初始网络模型进行训练包括：

针对所述多个样本图像中的任一样本图像，

将所述任一样本图像输入至所述初始网络模型，以由所述初始网络模型输出针对所述任一样本图像中每个像素点的分类预测得分；

基于所述任一样本图像中每个像素点的分类预测得分和所述任一样本图像的标签集，计算预定损失函数的损失值；

基于预定损失函数的损失值，对所述初始网络模型的参数进行调整，以得到更新的初始网络模型；

针对所述更新的初始网络模型，重复上述训练过程，直至基于预定损失函数的损失值确定预定损失函数实现收敛；以及

将预定损失函数实现收敛时所针对的初始网络模型作为所述目标网络模型。

3.根据权利要求1所述的方法，其中，所述初始网络模型还包括随机失活层，所述随机失活层位于所述第二卷积层之后；

所述基于所述多个样本图像和所述多个样本图像各自的标签集，对所述初始网络模型进行训练还包括：

将所述多个样本图像划分为多个训练批次，逐训练批次地对所述初始网络模型进行训练；以及

当基于所述多个训练批次中的每个训练批次对所述初始网络模型进行训练时，利用所述随机失活层设置所述初始网络模型中的一个或多个神经元失活。

4.根据权利要求3所述的方法，其中，所述第三特征图和所述第五特征图的尺寸均大于所述任一样本图像的尺寸；

所述基于所述多个样本图像和所述多个样本图像各自的标签集，对所述初始网络模型进行训练还包括：在对所述第三特征图和所述第五特征图进行融合之前，对所述第三特征图和所述第五特征图进行裁剪，使得裁剪后的第三特征图的尺寸、裁剪后的第五特征图的尺寸均与所述任一样本图像的尺寸相同。

5.根据权利要求3所述的方法，其中，所述对所述第三特征图和所述第五特征图进行融合包括：

将所述第三特征图和所述第五特征图中位于相同通道的特征值进行相加，以得到初步融合图；以及

利用预定卷积核对所述初步融合图进行卷积操作，以得到融合结果。

6.根据权利要求3所述的方法，其中，

所述多个第一卷积层中的每个第一卷积层包括多个第一卷积核，所述多个第一卷积核中的每个第一卷积核的尺寸为3×3，填充为1，步长为1；

所述第二卷积层包括多个第二卷积核，所述多个第二卷积核中的每个第二卷积核的尺寸为1×1，填充为0，步长为1。

7.根据权利要求3所述的方法，其中，

所述第三卷积层和所述第四卷积层各自包括2个第三卷积核，每个第三卷积核的尺寸为1×1；

所述第一反卷积层和所述第二反卷积层各自包括一个第四卷积核，每个第四卷积核的尺寸为3×3。

8.根据权利要求3所述的方法，其中，所述多个第一卷积层采用第一激活函数，所述第二卷积层采用第二激活函数，所述输出层采用第三激活函数。

9.根据权利要求2所述的方法，其中，所述预定损失函数包括：交叉熵损失函数。

10.一种图像处理方法，应用于计算机系统，所述方法包括：

获取待处理图像；

获取根据权利要求1~9之一训练得到的目标网络模型；

将所述待处理图像输入至所述目标网络模型，以由所述目标网络模型输出针对所述待处理图像中每个像素点的分类预测得分；

基于所述每个像素点的分类预测得分，确定所述每个像素点的类别；以及

基于所述每个像素点的类别，从所述待处理图像中分割出冠字号字符。

11.一种模型训练装置，应用于计算机系统，所述装置包括：

网络构建模块，用于构建初始网络模型；

样本获取模块，用于获取包含冠字号字符的多个样本图像和所述多个图像各自的标签集，所述多个样本图像中的每个样本图像的标签集包括：针对所述每个样本图像中每个像素点的类别标签；

训练模块，用于基于所述多个样本图像和所述多个样本图像各自的标签集，对所述初始网络模型进行训练，以得到目标网络模型，所述目标网络模型用于进行冠字号字符的分割；

12.一种图像处理装置，应用于计算机系统，所述装置包括：

第一获取模块，用于获取待处理图像；

第二获取模块，用于获取根据权利要求1~9之一训练得到的目标网络模型；

预测模块，用于将所述待处理图像输入至所述目标网络模型，以由所述目标网络模型的输出针对所述待处理图像中每个像素点的分类预测得分；以及

确定模块，用于基于所述每个像素点的分类预测得分，确定所述每个像素点的类别；以及

分割模块，用于基于所述每个像素点的类别，从所述待处理图像中分割出冠字号字符。

13.一种计算机系统，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时用于实现如权利要求1~10任一项所述的方法。

14.一种计算机可读存储介质，存储有计算机可执行指令，所述指令在被执行时用于实现如权利要求1~10任一项所述的方法。