CN112418206A

CN112418206A - 基于位置检测模型的图片分类方法及其相关设备

Info

Publication number: CN112418206A
Application number: CN202011310566.6A
Authority: CN
Inventors: 谢达荣
Original assignee: Ping An Puhui Enterprise Management Co Ltd
Current assignee: Shanghai Shengye Network Technology Co ltd; Shenzhen Lian Intellectual Property Service Center
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2021-02-26
Anticipated expiration: 2040-11-20
Also published as: CN112418206B

Abstract

本申请实施例属于人工智能领域，应用于智慧医疗领域中，涉及一种基于位置检测模型的图片分类方法及其相关设备，训练后的位置检测模型、场景文字检测模型以及图片分类模型可存储于区块链中。本申请经过多模型分工的方式，分别训练不同的模型，包括位置检测模型、场景文字检测模型以及图片分类模型对图片进行识别，有效提升图片分类的准确率；通过生成的重叠文字图片和模糊文字图片训练图片分类模型，有效提升了图片分类模型对于图片分类的准确率和效率。

Description

基于位置检测模型的图片分类方法及其相关设备

技术领域

本申请涉及人工智能技术领域，尤其涉及基于位置检测模型的图片分类方法及其相关设备。

背景技术

图片分类问题一直是深度学习领域一个重要的研究内容，随着人工智能的不断发展，计算机对图片的智能分类已经在各行各业中得到广泛的应用。

目前，各公司的大量数据单通常通过图片的形式上传至计算机网络进行分类，常用的方法包括OCR(Optical Character Recognition,光学字符识别)技术。但是数据单的种类繁杂，且许多时候以图片形式上传的数据单的分辨率较低，而OCR识别技术对于模糊的图片，图片倾斜等情况敏感度高，因此很难取得较高的分类准确率。此外，部分图片中存在字体打印重叠等问题，OCR对于重叠文字识别难度高，容易出现图片分类错误的情况。

发明内容

本申请实施例的目的在于提出一种基于位置检测模型的图片分类方法及其相关设备，有效提升了图片分类模型对于图片分类的准确率和效率。

为了解决上述技术问题，本申请实施例提供一种基于位置检测模型的图片分类方法，采用了如下所述的技术方案：

一种基于位置检测模型的图片分类方法，包括下述步骤：

接收用户终端发送的携带有数据单位置信息的多张标准数据单图片，并基于预设的角度多次平面旋转所述标准数据单图片，生成第一训练图片；

基于所述第一训练图片训练预设的位置检测模型，获得训练后的位置检测模型，其中，所述位置检测模型用于修正图片的方向；

将所述第一训练图片输入至所述训练后的位置检测模型中，获得方向修正图片；

对所述方向修正图片进行关键区域标注操作，得到携带有关键文字区域的第二训练图片，并基于所述第二训练图片训练预设的场景文字检测模型，获得训练后的场景文字检测模型；

将所述第二训练图片输入至所述训练后的场景文字检测模型中，获得目标关键文字区域，并基于所述目前关键文字区域生成文字图片；

基于所述文字图片和预设的分类标识生成重叠文字图片和模糊文字图片，并基于所述重叠文字图片和模糊文字图片训练预设的图片分类模型，获得训练后的图片分类模型；

接收待分类数据单图片，将所述待分类数据单图片依次经过所述训练后的位置检测模型、训练后的场景文字检测模型以及训练后的图片分类模型，获得所述待分类数据单图片的类别。

进一步的，所述基于所述目标关键文字区域生成文字图片的步骤包括：

基于所述目标关键文字区域对所述方向修正图片进行切割操作，获得区域图片；

对所述区域图片进行仿射变换，获得文字图片。

进一步的，所述基于所述文字图片和预设的分类标识生成重叠文字图片和模糊文字图片的步骤包括：

将所述文字图片输出至所述用户终端的显示设备，以进行文字图片展示；

向所述用户终端输出请求选择预设的分类标识的信号；

当接收到所述用户终端发送的目标分类标识的信号时，基于所述目标分类标识的信号生成已标注的文字图片，其中，所述目标分类标识的信号与所述请求选择预设的分类标识的信号相对应；

基于预设的最大稳定值区域算法调整所述已标注的文字图片，获得初始二值化图片；

对所述初始二值化图片进行去噪操作，以去除文字之外的噪声，获得目标二值化图片；

提取所述目标二值化图片中的文字图层，叠加所述文字图层和所述已标注的文字图片，获得重叠文字图片；

基于预设的随机大小和内容的卷积核，对所述已标注的文字图片进行卷积操作，获得模糊文字图片。

进一步的，所述基于所述第二训练图片训练预设的场景文字检测模型，获得训练后的场景文字检测模型的步骤包括：

基于所述关键文字区域对所述第二训练图片进行随机裁剪，获得裁剪图片；

基于所述裁剪图片训练预设的场景文字检测模型，获得训练后的场景文字检测模型。

进一步的，所述基于所述关键文字区域所述对所述第二训练图片进行随机裁剪，获得裁剪图片的步骤包括：

识别关键文字区域的相对两角的坐标(X₁,Y₁)和(X₂,Y₂)，并识别所述第二训练图片的长度h和宽度w；

生成不可裁剪区域的相对两角的坐标(X₁–z×w,Y₁–z×h)和(X₂–z×w,Y₂–z×h)，其中，z为预设的不可裁剪阈值；

基于所述不可裁剪区域的相对两角的坐标确定不可裁剪区域和可裁剪区域；

基于预设的随机值对所述可裁剪区域进行裁剪，获得裁剪图片。

进一步的，所述基于所述重叠文字图片和模糊文字图片训练预设的图片分类模型的步骤包括：

将所述重叠文字图片和模糊文字图片转化为灰度图；

基于预设的比例调整所述灰度图的尺寸，获得调整后的灰度图；

基于所述调整后的灰度图训练预设的图片分类模型。

进一步的，所述接收用户终端发送的携带有数据单位置信息的多张标准数据单图片，并基于预设的角度多次平面旋转所述标准数据单图片，生成第一训练图片的步骤包括：

对所述数据单图片进行三次90度旋转，分别生成0度、90度、180度和270度对应的第一训练图片，其中，所述第一训练图片中包含0度、90度、180度和270度所对应的数据单位置信息。

为了解决上述技术问题，本申请实施例还提供一种基于位置检测模型的图片分类装置，采用了如下所述的技术方案：

一种基于位置检测模型的图片分类装置，包括：

旋转模块，用于接收用户终端发送的携带有数据单位置信息的多张标准数据单图片，并基于预设的角度多次平面旋转所述标准数据单图片，生成第一训练图片；

第一训练模块，用于基于所述第一训练图片训练预设的位置检测模型，获得训练后的位置检测模型，其中，所述位置检测模型用于修正图片的方向；

输入模块，用于将所述第一训练图片输入至所述训练后的位置检测模型中，获得方向修正图片；

第二训练模块，用于对所述方向修正图片进行关键区域标注操作，得到携带有关键文字区域的第二训练图片，并基于所述第二训练图片训练预设的场景文字检测模型，获得训练后的场景文字检测模型；

获得模块，用于将所述第二训练图片输入至所述训练后的场景文字检测模型中，获得关键文字区域，并基于所述关键文字区域生成文字图片；

生成模块，用于基于所述文字图片和预设的分类标识生成重叠文字图片和模糊文字图片，并基于所述重叠文字图片和模糊文字图片训练预设的图片分类模型，获得训练后的图片分类模型；以及

接收模块，用于接收待分类数据单图片，将所述待分类数据单图片依次经过所述训练后的位置检测模型、训练后的场景文字检测模型以及训练后的图片分类模型，获得所述待分类数据单图片的类别。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现上述的基于位置检测模型的图片分类方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现上述的基于位置检测模型的图片分类方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请经过多模型分工的方式，分别训练不同的模型，包括位置检测模型、场景文字检测模型以及图片分类模型对图片进行识别，有效提升图片分类的准确率。在实际应用过程中，只需要基于训练的场景文字检测模型识别出待分类数据单图片的关键文字区域，然后基于训练后图片分类模型对关键文字区域对应的文字图片进行分类即可，不需要对整张待分类数据单图片进行分类，大大降低分类的难度，提升计算机的分类效率。通过生成的重叠文字图片和模糊文字图片训练图片分类模型，有效提升了图片分类模型对于模糊的图片和字体重叠的图片识别的准确率。且本申请中各模型之间的耦合程度低，对于新增的类别的兼容性高。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的基于位置检测模型的图片分类方法的一个实施例的流程图；

图3是根据本申请的基于位置检测模型的图片分类装置的一个实施例的结构示意图；

图4是根据本申请的计算机设备的一个实施例的结构示意图。

附图标记：200、计算机设备；201、存储器；202、处理器；203、网络接口；300、基于位置检测模型的图片分类装置；301、旋转模块；302、第一训练模块；303、输入模块；304、第二训练模块；305、获得模块；306、生成模块；307、接收模块。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的基于位置检测模型的图片分类方法一般由服务器/终端设备执行，相应地，基于位置检测模型的图片分类装置一般设置于服务器/终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的基于位置检测模型的图片分类方法的一个实施例的流程图。所述的基于位置检测模型的图片分类方法，包括以下步骤：

S1：接收用户终端发送的携带有数据单位置信息的多张标准数据单图片，并基于预设的角度多次平面旋转所述标准数据单图片，生成第一训练图片。

在本实施例中，在数据单图片中，除了有数据单的图像，还有数据单的背景图像。需要预先将数据单图片摆正，并预先在数据单图片中标注数据单的位置，即数据单位置信息。相关人员在前端页面中对数据单图片进行摆正，并手动标注数据单图片中数据单的位置信息，即标注数据单图片中数据单的当前位置，生成标准数据单图片，其中，摆正是指将数据单图片人为进行角度调整，将数据单图片调整至目标方向。服务器接收用户终端传输的已经完成摆正并标注位置信息的标准数据单图片。通过对标注好的标准数据单图片进行多次的平面旋转，获得第一训练图片，其中，平面旋转是指在平行于液晶显示面板中的阵列基板和/或彩膜基板的方向上，持续顺时针或者持续逆时针的旋转。便于后续通过第一训练图片来训练模型，使得模型可以学习到旋转后的图片的特征。本申请中的数据单可以为保单或者医院的医疗单等。数据单图片为包含保单或者医疗单的图片。

在本实施例中，基于位置检测模型的图片分类方法运行于其上的电子设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式接收上述多张数据单图。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

具体的，所述接收用户终端发送的携带有数据单位置信息的多张标准数据单图片，并基于预设的角度多次平面旋转所述标准数据单图片，生成第一训练图片的步骤包括：

在本实施例中，对标注好位置信息的标准数据单图片顺时针转90度，每一次旋转都获得新的角度信息。其中，角度信息是作为后续训练检测模型时，训练图片的标签。可以理解的是：由于预先对数据单位置信息进行了标注，故每一次旋转之后，计算机都可以获知当前角度信息所对应的数据单位置信息。最终获得0度、90度、180度、270度的数据单位置信息。由于本申请的检测模型简单，故不需要对数据单图片进行较多次的旋转。若旋转的次数过多，则会导致训练图片之间的角度相差较小，导致模型难以区分图片的角度，不利于模型的学习。

需要说明的是：在实际应用的过程中，根据实际情况中检测模型的不同，也可以选择旋转其他的角度来实现本方案，适用即可。

S2：基于所述第一训练图片训练预设的位置检测模型，获得训练后的位置检测模型，其中，所述位置检测模型用于修正图片的方向。

在本实施例中，通过多次旋转的数据单图片所生成的第一训练图片训练位置检测模型，使得训练后的位置检测模型具有检测图片的方向，定位图片位置的能力。其中，位置检测模型为YOLO神经网络模型。通过训练YOLO神经网络模型，能够实现对数据单图片进行方向修正，并且获取主体数据单位置信息，去除复杂背景等干扰项。

S3：将所述第一训练图片输入至所述训练后的位置检测模型中，获得方向修正图片。

在本实施例中，将所述第一训练图片输入至所述训练后的位置检测模型中，获得的方向修正图片用于后续的进一步处理生成第二训练图片。

S4：对所述方向修正图片进行关键区域标注操作，得到携带有关键文字区域的第二训练图片，并基于所述第二训练图片训练预设的场景文字检测模型，获得训练后的场景文字检测模型。

在本实施例中，基于训练后的位置检测模型输出的方向修正图片生成第二训练图片，实现加强位置检测模型和场景文字检测模型之间的关联性，便于实际生产中的应用。

具体的，所述对所述方向修正图片进行关键区域标注操作，得到携带有关键文字区域的第二训练图片的步骤包括：

将所述方向修正图片输出至所述用户终端的显示设备，以进行方向修正图片展示；

向所述用户终端输出请求标注关键文字区域的信号；

当识别到用户完成标注或接收到用户终端发送的标注完成指令时，基于用户对所述方向修正图片中的关键文字区域的标注，生成携带有关键文字区域的第二训练图片。

在本实施例中，通过用户的对关键文字区域的标注，生成携带有标注信息的第二训练图片，用于训练场景文字检测模型，使得训练后的场景文字检测模型能够有效的准确识别图片的关键文字区域。

对应的，所述基于所述第二训练图片训练预设的场景文字检测模型，获得训练后的场景文字检测模型的步骤包括：

在本实施例中，本申请的随机裁剪仅用于模型训练过程中，对第二训练图片进行随机裁剪后训练场景文字检测模型。通过随机裁剪实现每次裁剪的图片不一样，通过随机裁剪后的图片训练场景文字检测模型，有利于提高场景文字检测模型的泛化能力。

在本实施例中，本申请的裁剪部分用0值填充。在训练场景文字检测模型的过程中，对第二训练图片先进行随机裁剪操作，再训练场景文字检测模型。具体操作流程包括：获取关键文字区域的左上角(X₁,Y₁)和右下角(X₂,Y₂)坐标,第二训练图片的长宽分别为h和w，为防止对标注区域的裁剪，先设定一个不可裁剪阈值z，不可裁剪区域左上角为(X₁–z×w,Y₁–z×h),右下角为(X₂–z×w,Y₂–z×h),对于其余的可裁剪区域，设定随机值进行裁剪。通过计算确定不可裁剪区域避免过度裁剪。

S5：将所述第二训练图片输入至所述训练后的场景文字检测模型中，获得目标关键文字区域，并基于所述目标关键文字区域生成文字图片。

在本实施例中，场景文字检测模型为AdvancedEAST(Advanced Efficient andAccuracy Scene Text，自然场景文本检测)，AdvancedEAST对于长文本检测效果明显，减少长文字中断等问题。通过场景文字检测模型确定出关键文字区域，再通过关键文字区域生成文字图片，实现定位出需要的文字图片。

具体的，所述基于所述目标关键文字区域生成文字图片的步骤包括：

对所述区域图片进行仿射变换，获得文字图片。

在本实施例中，基于目标关键文字区域对方向修正图片进行切割操作，将该目标关键文字区域对应的图片区域切割出来，作为区域图片。通过切割操作能够快速提取出区域图片，有效的提升计算机的处理效率。仿射变换(Affine Transformation或Affine Map)是一种二维坐标到二维坐标之间的线性变换。具体指在几何中，一个向量空间进行一次线性变换并接上一个平移，变换为另一个向量空间的过程。它保持了二维图形的“平直性”(即：直线经过变换之后依然是直线)和“平行性”(即：二维图形之间的相对位置关系保持不变，平行线依然是平行线，且直线上点的位置顺序不变)。本申请基于位置检测模型所定位到的方向修正图片，利用场景文字检测模型定位目标关键文字区域，获取带有偏转移角度的位置信息数据，其中，偏转角度是指在垂直于显示面板方向上的图片的偏转角度。场景文字检测模型会对文字区域进行一定的偏移修正，但主要的偏移修正依然是通过仿射变换完成。本申请中仿射变换能够有效的修正图片，将侧向图片修正为正向图片。通过仿射变换有效的修正图片的在垂直于显示面板方向上的偏转角度。

S6：基于所述文字图片和预设的分类标识生成重叠文字图片和模糊文字图片，并基于所述重叠文字图片和模糊文字图片训练预设的图片分类模型，获得训练后的图片分类模型。

在本实施例中，本申请中的图像分类模型为DenseNet121(密集卷积神经网络)。基于所述重叠文字图片和模糊文字图片训练预设的图片分类模型，获得训练后的图片分类模型，其中，生成的所述重叠文字图片和模糊文字图片均携带有所述分类标识。例如，在保单分类场景中，分类标识指不同的保险公司名称和/或不同的保险险种。其中，保险险种可以包括人寿保险和财产保险等，保险公司名称可以包括保诚集团和太平洋集团等。本申请中图片类别可以为保险公司加保险险种组成，对图片精确进行分类。或者也可以只依照保险公司对图片进行分类。或者还可以指依照保险险种对图片进行分类。

具体的，所述基于所述文字图片和预设的分类标识生成重叠文字图片和模糊文字图片的步骤包括：

向所述用户终端输出请求选择预设的分类标识的信号；

在本实施例中，基于已标注的文字图片生成重叠文字图片和模糊文字图片，由于已标注的文字图片中包含分类标识，则重叠文字图片和模糊文字图片中也包含分类标识。能够直接用于后续对图片分类模型的训练过程中。对于文字图片的增广，主要增广的内容是生成重叠文字效果的图片和生成模糊效果的图片，实现步骤如下：选取业务上比较清晰的数据单图片，利用最大稳定极值区域算法获取初始二值化图片(即真实文字二值化图片)，使用去噪操作去除文字之外的噪声，最终获取目标二值化图片，提取文字图层，利用文字图层与步骤二文字检测模型定位的文字图片(即仿射变换后的图片)进行叠加，最终获取重叠效果的文字图片，其中，最大稳定值区域算法(Maximally Stable Extremal Regions，MSER)是用于得到使用不同的灰度阈值对图像进行二值化处理时的最稳定的区域。最大稳定值区域算法是基于分水岭的概念，具体为，对图像进行二值化，二值化阈值取[0,255]，这样二值化图像就经历一个从全黑到全白的过程。在这个过程中，有些连通区域面积随阈值上升的变化很小，这种区域即称为MSER区域。本申请将该MSER区域作为初始二值化图片。去噪操作具体可以使用开操作，开操作能够使图像的轮廓变得光滑，断开较窄的狭颈和消除细的突出物。具体为，使用预设的结构元对初始二值化图片进行腐蚀，然后用结构元对腐蚀结果进行膨胀。模糊图片的生成实现步骤如下：生成随机大小和内容的卷积核，对文字图片进行卷积操作，最终获取带有模糊效果的文字图片。其中，随机大小指卷积核的大小不同，可以为1×1大小的卷积核、3×3大小的卷积核、5×5大小的卷积核，甚至可以为3×5大小的卷积核。卷积核大小和内容不同，导致生成的图片的模糊程度不同。随机内容可以指卷积核的通道数不同，例如，卷积核的通道数为8通道或16通道。通过卷积操作生成模糊文字图片，实现模糊文字图片的生成过程方便快捷。

需要说明的是：由于在生成重叠文字图片和模糊文字图片中，已完成了对重叠文字图片和模糊文字图片的标注，则图片分类模型在实际的分类应用过程中仅需要根据之前训练时候学习到的重叠文字图片和模糊文字图片中的分类标识，即可完成图片分类，无需识别具体的文字内容，有效的规避了OCR识别的缺陷。当有新的类别加入时，则需要增添训练样本，即增添新类别的重叠文字图片和模糊文字图片来训练图片分类模型，并且新类别的重叠文字图片和模糊文字图片中需要有对应新类别的标注。

此外，所述基于所述重叠文字图片和模糊文字图片训练预设的图片分类模型的步骤包括：

将所述重叠文字图片和模糊文字图片转化为灰度图；

基于所述调整后的灰度图训练预设的图片分类模型。

在本实施例中，将重叠文字图片和模糊文字图片转为灰度图，利用内边距(padding)操作将灰度图的长宽比例调整为8：1，作为图片分类模型的输入。其中，可以调整设定长宽输入调整为256*32，填充的部分设置为0。通过调整灰度图的尺寸，实现符合模型的输入要求。

S7：接收待分类数据单图片，将所述待分类数据单图片依次经过所述训练后的位置检测模型、训练后的场景文字检测模型以及训练后的图片分类模型，获得所述待分类数据单图片的类别。

在本实施例中，应用过程运用上述的所有模型。通过本申请的方式，分类过程不再需要文字识别，而是图像识别。每次有新的公司或者保单类型等出现时，只需要需要添加进训练样本中，并训练图片分类模型即可，即在训练样本中添加新的标识分类。无需修改检测模型和场景文字检测模型。

具体的，所述接收待分类数据单图片，将所述待分类数据单图片依次经过所述训练后的位置检测模型、训练后的场景文字检测模型以及训练后的图片分类模型，获得所述待分类数据单图片的类别的步骤包括：将所述待分类数据单图片依次经过所述训练后的位置检测模型、训练后的场景文字检测模型、切割操作、仿射变换以及训练后的图片分类模型，获得所述待分类数据单图片的分类标识。本申请的具体的应用过程如下：接收待分类数据单图片，将所述待分类数据单图片输入至训练后的位置检测模型中，获得待分类方向修正图片，其中，所述位置检测模型用于检测检测输入图片的方向并修正；将所述待分类方向修正图片输入至训练后的场景文字检测模型中，获得待分类关键文字区域；基于所述待分类关键文字区域对所述待分类方向修正图片进行切割操作，获得待分类文字图片，并对所述待分类文字图片进行仿射变换，获得修正后的待分类文字图片；将修正后的待分类文字图片输入至训练后的图片分类模型中，获得待分类数据单图片的类别，以完成图像分类。

此外，本申请还包括：所述基于所述文字图片和预设的分类标识生成重叠文字图片和模糊文字图片的步骤包括：

基于所述文字图片和预设的分类标识生成重叠文字图片和模糊文字图片，其中，每张重叠文字图片和模糊文字图片中均包括多个所述分类标识；

所述将所述待分类数据单图片依次经过所述训练后的位置检测模型、训练后的场景文字检测模型以及训练后的图片分类模型，获得所述待分类数据单图片的类别的步骤包括：

将所述待分类数据单图片依次经过所述训练后的位置检测模型、训练后的场景文字检测模型、切割操作、仿射变换以及训练后的图片分类模型，获得所述待分类数据单图片的分类标识，其中，所述分类标识为多个；

对比所述待分类数据单图片的多个分类标识与预设的类别对应的多个标签；

当所述待分类数据单图片的多个分类标识与当前的所述类别对应的多个标签全部相同时，将当前的所述类别作为所述待分类数据单图片的类别；

当所述待分类数据单图片的多个分类标识与当前的所述类别对应的多个标签全部不相同或者部分不相同时，对比所述待分类数据单图片的多个分类标识与下一个所述类别对应的多个标签，直至获得所述待分类数据单图片的类别或完成所有类别的对比。

在本实施例中，当所述待分类数据单图片的多个分类标识与当前的所述类别对应的多个标签全部不相同或者部分不相同时，对比所述待分类数据单图片的多个分类标识与下一个所述类别对应的多个标签，直到确定待分类数据单图片的类别，完成分类。当完成所有类别的对比，待分类数据单图片的多个分类标识与所有预设的类别对应的多个标签均全部不相同或者部分不相同时，向相关人员发送分类报错通知，其中，所述分类报错通知中携带有所述待分类数据单图片。本申请的分类标识设置为多个，预设类别对应的标签同样为多个。当且仅当模型输出的分类标识与预设类别对应的标签全部一致时，才将待分类数据单图片分至该类别下。在模型分类的基础上，实现了更加严谨的分类。例如，在保单分类场景中，模型输出两个分类标识，分别为保险公司名称--M保险公司和保单所属险种--N险种。预设的第一个类别对应的两个标签为保险公司名称--A保险公司和保单所属险种--B险种；预设的第二个类别对应的两个标签为保险公司名称--A保险公司和保单所属险种--B险种；预设的第三个类别对应的两个标签为保险公司名称--P保险公司和保单所属险种--Q险种。由于模型输出两个分类标识与预设的第二个类别对应的两个标签一致，将第二个类别作为待分类数据单图片的类别。

需要强调的是，为进一步保证上述训练后的位置检测模型、场景文字检测模型以及图片分类模型的私密和安全性，训练后的位置检测模型、场景文字检测模型以及图片分类模型还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本申请可应用于智慧医疗领域中，具体可以用于对医院的疾病诊断单进行分类，从而推动智慧城市的建设。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3，作为对上述图2所示方法的实现，本申请提供了一种基于位置检测模型的图片分类装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例所述的基于位置检测模型的图片分类装置300包括：旋转模块301、第一训练模块302、输入模块303、第二训练模块304、获得模块305、生成模块306以及接收模块307。其中：旋转模块301，用于接收用户终端发送的携带有数据单位置信息的多张标准数据单图片，并基于预设的角度多次平面旋转所述标准数据单图片，生成第一训练图片；第一训练模块302，用于基于所述第一训练图片训练预设的位置检测模型，获得训练后的位置检测模型，其中，所述位置检测模型用于修正图片的方向；输入模块303，用于将所述第一训练图片输入至所述训练后的位置检测模型中，获得方向修正图片；第二训练模块304，用于对所述方向修正图片进行关键区域标注操作，得到携带有关键文字区域的第二训练图片，并基于所述第二训练图片训练预设的场景文字检测模型，获得训练后的场景文字检测模型；获得模块305，用于将所述第二训练图片输入至所述训练后的场景文字检测模型中，获得目标关键文字区域，并基于所述目标关键文字区域生成文字图片；生成模块306，用于基于所述文字图片和预设的分类标识生成重叠文字图片和模糊文字图片，并基于所述重叠文字图片和模糊文字图片训练预设的图片分类模型，获得训练后的图片分类模型；以及接收模块307，用于接收待分类数据单图片，将所述待分类数据单图片依次经过所述训练后的位置检测模型、训练后的场景文字检测模型以及训练后的图片分类模型，获得所述待分类数据单图片的类别。

在本实施例中，本申请经过多模型分工的方式，分别训练不同的模型，包括位置检测模型、场景文字检测模型以及图片分类模型对图片进行识别，有效提升图片分类的准确率。在实际应用过程中，只需要基于训练的场景文字检测模型识别出待分类数据单图片的关键文字区域，然后基于训练后图片分类模型对关键文字区域对应的文字图片进行分类即可，不需要对整张待分类数据单图片进行分类，大大降低分类的难度，提升计算机的分类效率。通过生成的重叠文字图片和模糊文字图片训练图片分类模型，有效提升了图片分类模型对于模糊的图片和字体重叠的图片识别的准确率。且本申请中各模型之间的耦合程度低，对于新增的类别的兼容性高。

在本实施例的一些可选的实现方式中，上述旋转模块进一步用于：对所述数据单图片进行三次90度旋转，分别生成0度、90度、180度和270度对应的第一训练图片，其中，所述第一训练图片中包含0度、90度、180度和270度所对应的数据单位置信息。

第二训练模块304包括第一输出子模块、第二输出子模块和标注子模块。其中，第一输出子模块用于将所述方向修正图片输出至所述用户终端的显示设备，以进行方向修正图片展示；第二输出子模块用于向所述用户终端输出请求标注关键文字区域的信号；标注子模块用于当识别到用户完成标注或接收到用户终端发送的标注完成指令时，基于用户对所述方向修正图片中的关键文字区域的标注，生成携带有关键文字区域的第二训练图片。

第二训练模块304还包括裁剪子模块和训练子模块。其中，裁剪子模块用于基于所述关键文字区域对所述第二训练图片进行随机裁剪，获得裁剪图片；训练子模块用于基于所述裁剪图片训练预设的场景文字检测模型，获得训练后的场景文字检测模型。

裁剪子模块包括识别单元、生成单元、确定单元和裁剪单元。其中，识别单元用于识别关键文字区域的相对两角的坐标(X₁,Y₁)和(X₂,Y₂)，并识别所述第二训练图片的长度h和宽度w；生成单元用于生成不可裁剪区域的相对两角的坐标(X₁–z×w,Y₁–z×h)和(X₂–z×w,Y₂–z×h)，其中，z为预设的不可裁剪阈值；确定单元用于基于所述不可裁剪区域的相对两角的坐标确定不可裁剪区域和可裁剪区域；裁剪单元用于基于预设的随机值对所述可裁剪区域进行裁剪，获得裁剪图片。

获得模块305包括切割子模块和变换子模块。其中，切割子模块用于基于所述目标关键文字区域对所述方向修正图片进行切割操作，获得区域图片；变换子模块用于对所述区域图片进行仿射变换，获得文字图片。

生成模块306包括第三输出子模块、第四输出子模块、生成子模块、调整子模块、去噪子模块、提取子模块和卷积子模块。其中，第三输出子模块用于将所述文字图片输出至所述用户终端的显示设备，以进行文字图片展示；第四输出子模块用于向所述用户终端输出请求选择预设的分类标识的信号；生成子模块用于当接收到所述用户终端发送的目标分类标识的信号时，基于所述目标分类标识的信号生成已标注的文字图片，其中，所述目标分类标识的信号与所述请求选择预设的分类标识的信号相对应；调整子模块用于基于预设的最大稳定值区域算法调整所述已标注的文字图片，获得初始二值化图片；去噪子模块用于对所述初始二值化图片进行去噪操作，以去除文字之外的噪声，获得目标二值化图片；提取子模块用于提取所述目标二值化图片中的文字图层，叠加所述文字图层和所述已标注的文字图片，获得重叠文字图片；卷积子模块用于基于预设的随机大小和内容的卷积核，对所述已标注的文字图片进行卷积操作，获得模糊文字图片。

生成模块306还包括转化子模块、比例调整子模块和灰度图训练子模块。其中，转化子模块用于将所述重叠文字图片和模糊文字图片转化为灰度图；比例调整子模块用于基于预设的比例调整所述灰度图的尺寸，获得调整后的灰度图；灰度图训练子模块用于基于所述调整后的灰度图训练预设的图片分类模型。

在本实施例的一些可选的实现方式中，上述生成模块306进一步用于：基于所述文字图片和预设的分类标识生成重叠文字图片和模糊文字图片，其中，每张重叠文字图片和模糊文字图片中均包括多个所述分类标识。上述接收模块307包括分类标识子模块、对比子模块、标签相同子模块和标签不同子模块。分类标识子模块用于将所述待分类数据单图片依次经过所述训练后的位置检测模型、训练后的场景文字检测模型、切割操作、仿射变换以及训练后的图片分类模型，获得所述待分类数据单图片的分类标识，其中，所述分类标识为多个；对比子模块用于对比所述待分类数据单图片的多个分类标识与预设的类别对应的多个标签；标签相同子模块用于当所述待分类数据单图片的多个分类标识与当前的所述类别对应的多个标签全部相同时，将当前的所述类别作为所述待分类数据单图片的类别；标签不同子模块用于当所述待分类数据单图片的多个分类标识与当前的所述类别对应的多个标签全部不相同或者部分不相同时，对比所述待分类数据单图片的多个分类标识与下一个所述类别对应的多个标签，直至获得所述待分类数据单图片的类别或完成所有类别的对比。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备200包括通过系统总线相互通信连接存储器201、处理器202、网络接口203。需要指出的是，图中仅示出了具有组件201-203的计算机设备200，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器201至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器201可以是所述计算机设备200的内部存储单元，例如该计算机设备200的硬盘或内存。在另一些实施例中，所述存储器201也可以是所述计算机设备200的外部存储设备，例如该计算机设备200上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器201还可以既包括所述计算机设备200的内部存储单元也包括其外部存储设备。本实施例中，所述存储器201通常用于存储安装于所述计算机设备200的操作系统和各类应用软件，例如基于位置检测模型的图片分类方法的计算机可读指令等。此外，所述存储器201还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器202在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器202通常用于控制所述计算机设备200的总体操作。本实施例中，所述处理器202用于运行所述存储器201中存储的计算机可读指令或者处理数据，例如运行所述基于位置检测模型的图片分类方法的计算机可读指令。

所述网络接口203可包括无线网络接口或有线网络接口，该网络接口203通常用于在所述计算机设备200与其他电子设备之间建立通信连接。

在本实施例中，本申请经过多模型分工的方式，分别训练位置检测模型、场景文字检测模型以及图片分类模型，有效提升图片分类的准确率。通过生成的重叠文字图片和模糊文字图片训练图片分类模型，有效提升了图片分类模型对于模糊的图片和字体重叠的图片识别的准确率。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的基于位置检测模型的图片分类方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种基于位置检测模型的图片分类方法，其特征在于，包括下述步骤：

将所述第二训练图片输入至所述训练后的场景文字检测模型中，获得目标关键文字区域，并基于所述目标关键文字区域生成文字图片；

2.根据权利要求1所述的基于位置检测模型的图片分类方法，其特征在于，所述基于所述目标关键文字区域生成文字图片的步骤包括：

对所述区域图片进行仿射变换，获得文字图片。

3.根据权利要求1所述的基于位置检测模型的图片分类方法，其特征在于，所述基于所述文字图片和预设的分类标识生成重叠文字图片和模糊文字图片的步骤包括：

向所述用户终端输出请求选择预设的分类标识的信号；

4.根据权利要求1所述的基于位置检测模型的图片分类方法，其特征在于，所述基于所述第二训练图片训练预设的场景文字检测模型，获得训练后的场景文字检测模型的步骤包括：

5.根据权利要求4所述的基于位置检测模型的图片分类方法，其特征在于，所述基于所述关键文字区域所述对所述第二训练图片进行随机裁剪，获得裁剪图片的步骤包括：

6.根据权利要求1所述的基于位置检测模型的图片分类方法，其特征在于，所述基于所述重叠文字图片和模糊文字图片训练预设的图片分类模型的步骤包括：

将所述重叠文字图片和模糊文字图片转化为灰度图；

基于所述调整后的灰度图训练预设的图片分类模型。

7.根据权利要求1所述的基于位置检测模型的图片分类方法，其特征在于，所述接收用户终端发送的携带有数据单位置信息的多张标准数据单图片，并基于预设的角度多次平面旋转所述标准数据单图片，生成第一训练图片的步骤包括：

8.一种基于位置检测模型的图片分类装置，其特征在于，包括：

获得模块，用于将所述第二训练图片输入至所述训练后的场景文字检测模型中，获得目标关键文字区域，并基于所述目标关键文字区域生成文字图片；

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的基于位置检测模型的图片分类方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的基于位置检测模型的图片分类方法的步骤。