CN116311282A

CN116311282A - 一种图片智能分类方法及系统

Info

Publication number: CN116311282A
Application number: CN202310261356.XA
Authority: CN
Inventors: 周显恩; 陈家泳; 王耀南; 周新城; 王飞文; 朱青; 汪志成; 吴成中
Original assignee: Jiangxi Communication Terminal Industry Technology Research Institute Co ltd
Current assignee: Jiangxi Communication Terminal Industry Technology Research Institute Co ltd
Priority date: 2023-03-17
Filing date: 2023-03-17
Publication date: 2023-06-23

Abstract

本发明提供了一种图片智能分类方法及系统。其中，所述方法包括：对待识别的图片的第一区域进行第一处理，以得出第一识别结果；若所述第一识别结果满足第一条件，则对所述待识别的图片的第二区域进行第二处理，以得出第二识别结果；根据所述第一识别结果和/或第二识别结果确定所述图片的分类。本发明通过设置两级识别方式，从待识别图像的不同区域来综合确定图片的类别，能够有效提升图片分类的准确性及效率。

Description

一种图片智能分类方法及系统

技术领域

本发明涉及图像识别及文档管理技术领域，具体而言，涉及一种图片智能分类方法及系统。

背景技术

随着科技的发展，人们的阅读方式也发生了翻天覆地的变化，电子阅读越来越成为人们阅读的主要方式。为了满足人们的电子阅读需求，越来越多的书籍及其它文献资料被电子化处理，而电子化处理一般包括文档扫描、字符识别、归类存储等，其中，为了提升字符识别的准确性，还会给文档扫描后获得的图片进行分类，进而确定不同的后续处理策略。对现有技术进行检索后，发现了如下专利文献：专利文献1（CN113721513A）公开了一种多标签图像分类方法，包括：获取预先标注好标签的已分类图像中的标签，并调用预先训练好的语义转换模型处理所述标签，得到所述标签对应的标签语义向量；调用预先训练好的特征提取模型处理所述已分类图像，得到所述已分类图像对应的特征语义向量；根据所述标签语义向量与所述特征语义向量计算实际相关性值；将所述已分类图像作为输入向量，所述已分类图像对应的标签作为输出向量训练多标签图像分类模型，其中，根据所述实际相关性值与预先设置的目标相关性值确定所述多标签图像分类模型的损失函数，以收敛所述损失函数为目标，直至所述多标签图像分类模型训练完成；调用所述多标签图像分类模型处理待分类图像，得到所述待分类图像包含的初始标签集；调用所述语义转换模型处理所述初始标签集，得到所述初始标签集中每一初始标签对应的目标标签语义向量；获取每一所述目标标签语义向量间的语义关系，并根据所述语义关系输出所述待分类图像对应的目标标签集。专利文献2（CN113688267A）公开了一种基于移动终端的图片分类方法，包括：若判断获知待分类图片的数量大于阈值，则获取所述待分类图片的属性信息；其中，所述待分类图片中每张图片的属性信息包括时间信息和位置信息；根据预设时间段和所述待分类图片的每张图片的时间信息，获得第一类图片；根据预设位置和所述第一类图片的每张图片的位置信息，获得第二类图片；根据所述第二类图片以及图片分类模型，获得所述第二类图片中每张图片所属的类别；其中，所述图片分类模型是预先训练获得并迁移到本地的。经过对上述现有技术进行分析可以看出，上述专利文献1-2属于同一识别方式，即基于预设的图片属性来进行分类，但这类分类方式需要耗费大量的资源来添加属性，实施成本较高，难以快速应用于不同的场景。综上分析可知，现有技术中尚不存在一种稳定、准确、高效的图片分类方式，无法满足纸质文档数字化转化过程的需要，亟需改进。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供了一种图片智能分类方法、系统、电子设备及存储介质，以满足纸质文档数字化转化过程的需要。

本发明的第一方面提供了一种图片智能分类方法,包括如下步骤：

对待识别的图片的第一区域进行第一处理，以得出第一识别结果；

若所述第一识别结果满足第一条件，则对所述待识别的图片的第二区域进行第二处理，以得出第二识别结果；

根据所述第一识别结果和/或第二识别结果确定所述图片的分类。

可选地，所述对待识别的图片的第一区域进行第一处理，以得出第一识别结果，包括：

根据第一数值确定所述待识别的图片的边框区域，将所述边框区域作为第一区域；

对所述第一区域进行字符识别，以得出第一识别结果。

可选地，所述对待识别的图片的第一区域进行第一处理，以得出第一识别结果，还包括：

对所述待识别图片的第三区域进行字符识别，以确定所述字符的尺寸，根据所述尺寸确定所述第一数值；

其中，所述第一数值与所述尺寸呈正相关。

可选地，所述第三区域为标题所在区域。

可选地，所述对所述待识别的图片的第二区域进行第二处理，以得出第二识别结果，包括：

对所述第二区域的左侧区域进行缩进检测，并对检测到的缩进位置进行标记；

根据所述标记确定所述第二区域的右侧区域关联位置，并对所述关联位置进行批注检测,根据所述批注检测结果得出第二识别结果。

可选地，所述根据所述标记确定所述第二区域的右侧区域关联位置，包括：根据所述标记进行上溯处理，将位于所述标记的上方第一行的右侧区域作为所述右侧区域关联位置。

可选地，所述对所述关联位置进行批注检测,根据所述批注检测结果得出第二识别结果，包括：对所述右侧区域关联位置进行字符检测以得出若干字符，若所述字符的行数大于一，则第二识别结果为存在批注；

若所述字符的行数为一，则对所述字符的字体类型进行检测，若所述字体类型大于一，则第二识别结果为存在批注；否则设置第二识别结果为不存在批注。

本发明的第二方面提供了一种图片智能分类系统，包括处理模块、存储模块、通信模块，所述处理模块与所述存储模块、所述通信模块连接；其中，

所述存储模块，用于存储可执行的计算机程序代码；

所述通信模块，用于获取待识别的图片并传输给所述处理模块，以及输出所述处理模块得出的所述待识别的图片的分类结果；

所述处理模块，用于通过调用所述存储模块中的所述可执行的计算机程序代码，执行如前任一项所述的方法。

本发明的第三方面提供了一种电子设备，包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如前任一项所述的方法。

本发明的第四方面提供了一种计算机存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上任一项所述的方法。

本发明的方案，对待识别的图片的第一区域进行第一处理，以得出第一识别结果；若所述第一识别结果满足第一条件，则对所述待识别的图片的第二区域进行第二处理，以得出第二识别结果；根据所述第一识别结果和/或第二识别结果确定所述图片的分类。本发明通过设置两级识别方式，从待识别图像的不同区域来综合确定图片的类别，能够有效提升图片分类的准确性及效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施例公开的一种图片智能分类方法的流程示意图；

图2是本发明实施例公开的一种图片智能分类系统的结构示意图；

图3是本发明实施例公开一种电子设备的结构示意图。

具体实施方式

现在将参考附图来更加全面地描述本发明的示例性实施例，虽然各示例性实施例能够以多种具体的方式实施，但不应理解为本发明仅限于在此阐述的实施例。相反，提供这些示例性实施例是为了使本发明的内容更加完整，更加便于将发明构思全面地传达给本领域的技术人员。

在符合本发明的技术构思的前提下，在某个特定的实施例中描述的结构、性能、效果或者其他特征可以以任何合适的方式结合到一个或更多其他的实施例中。

在对于具体实施例的介绍过程中，对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是，并不排除本领域技术人员可以在特定情况下，以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。

附图中的流程图仅是一种示例性的流程演示，不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤，也不代表必须按照图中所显示的的顺序执行。例如，流程图中有的操作/步骤可以分解，有的操作/步骤可以合并或部分合并，等等，在不脱离本发明的发明主旨的情况下，流程图中显示的执行顺序可以根据实际情况改变。

附图中的框图一般表示的是功能实体，并不一定必然与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

各附图中相同的附图标记表示相同或类似的元件、组件或部分，因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解，虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分，但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说，这些定语仅是用来将一者与另一者区分。例如，第一器件亦可称为第二器件，但不偏离本发明实质的技术方案。此外，术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。

实施例一

请参阅图1，图1是本发明实施例公开的一种图片智能分类方法的流程示意图。如图1所示，本发明实施例的一种图片智能分类方法,包括如下步骤：

在本发明实施例中，如背景技术所述，现有技术中的图片分类方法都是基于给图片预设的标识或属性来实现，但这类方法需要耗费大量的资源来完成标识或属性的预设。为了解决现有技术中的上述问题，本发明的方案先对待识别的图片的第一区域进行第一处理进而得出第一识别结果，在第一识别结果满足第一条件时，继续对待识别图片的第二区域进行第二处理，基于两次处理的结果来综合判断待识别图像的类别，于是，本发明通过设置两级识别方式，从待识别图像的不同区域来综合确定图片的类别，能够有效提升图片分类的准确性及效率。

为便于对本发明的理解，现举例说明如下：

图片分类的目标是识别出对应的图片是否带有批注，相应地，图片的分类结果即为带批注图片、不带批注图片。接着，先对待识别图片中批注大概率出现的区域进行第一处理，从而得出该区域是否具有批注内容的第一识别结果，如果没有或识别失败（满足第一条件），则初步判定该待识别图片为不带批注图片；为了进一步提升识别准确性，接着对待识别图片中批注存在概率较小或难以识别的区域进行第二处理从而得出该区域是否具有批注内容的第二识别结果，再基于第一识别结果和第二识别结果就可以准确确定该待识别图片的类别，从而完成图片的智能分类。

其中，需要进行说明的是，本发明的方案既可以实现服务器端，也可以实现于设备端，服务器端可以是文档数字化转化的平台，设备端可以是用于实现文档数字化转化的现场转化用的设备。其中，服务器可单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器；设备端可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(PersonalDigital Assistant，PDA)、手持设备、计算机设备、车载设备或可穿戴设备等，其他设备可以为存储设备，比如：硬盘或存储卡；以及，终端设备与云端服务器通信连接。

对所述第一区域进行字符识别，以得出第一识别结果。

在本发明实施例中，本发明中的第一区域为待识别图片的边框区域，这些区域属于各类文档的空白区域，例如批注等内容一般也会被记录在该边框区域内，所以，本发明先对边框区域进行字符识别，以确定是否存在批注。其中，第一识别结果可以为存在字符、不存在字符、识别失败等。另外，边框区域一般与边线具有一定的距离，所以，本发明基于例如描述距离的第一数值来确定边框区域。

其中，所述第一数值与所述尺寸呈正相关。

在本发明实施例中，不同类型的文档其边框区域的大小是存在较大区别的，例如，报纸的边框区域就一般会比学术论文的边框区域要大，显然，设置固定的第一数值是容易导致识别错误的。针对于此，本发明进一步计算待识别图片第三区域的字符尺寸，字符尺寸越大，则第一数值越大。

可选地，所述第三区域为标题所在区域。

在本发明实施例中，标题的大小一般是与页面的大小相适应的，例如，学术论文的封面标题一般是小二号，而报纸的标题多采用二号，有的还会更大。基于该特点，本发明将第三区域确定为标题所在区域，而标题一般处于首行位置（横向排版），所以，可以进一步把第三区域确定为首行区域。当然，上述仅为举例，尤其对于报纸来说，其标题所处的位置有多种形式，而且同一版面中也会存在不同尺寸的多个不同级别的标题，所以，在确定标题时可以将大于正文字号（一般为固定字号）的字符所在区域均确定为标题区域，再将字号最大的作为前述的用于确定第三区域的标题区域。

在本发明实施例中，正文的左侧存在段落的首行缩进，在检测到首行缩进时就可以将该位置标记为段落的起始点，接着，基于该标记点就可以在右侧区域找到可能存在批注内容的正文中的空白区域，对该空白区域进行批注检测即可得出第二识别结果，最终确定待识别图片的类别。其中，第二区域可以为待识别的图片去掉第一区域后的剩余区域。

在本发明实施例中，正文中的批注一般存在于短尾，即段首标记点的上一行的句尾。

在本发明实施例中，在确定出右侧区域关联位置之后，本发明进一步对该位置进行字符检测，如果字符行数为多行，则说明肯定是批注内容，而对于单行情况，则进一步检测字体类型，若字体类型相同，则可认定为这些字符全部是印刷的正文内容，即不存在批注，反之则存在批注。本发明通过上述识别策略，可以使得正文中批注的识别更为准确，从而准确确定待识别的图片的类型，以完成图片的分类。

实施例二

请参阅图2，图2是本发明实施例公开的一种图片智能分类系统的结构示意图。如图2所示，本发明实施例的一种图片智能分类系统(100)，包括处理模块(101)、存储模块(102)、通信模块(103)，所述处理模块(101)与所述存储模块(102)、所述通信模块(103)连接；其中，

所述存储模块(102)，用于存储可执行的计算机程序代码；

所述通信模块(103)，用于获取待识别的图片并传输给所述处理模块(101)，以及输出所述处理模块(101)得出的所述待识别的图片的分类结果；

所述处理模块(101)，用于通过调用所述存储模块(102)中的所述可执行的计算机程序代码，执行如实施例一所述的方法。

该实施例中的一种图片智能分类系统的具体功能参照上述实施例一，由于本实施例中的系统采用了上述实施例的全部技术方案，因此至少具有上述实施例的技术方案所带来的所有有益效果，在此不再一一赘述。

实施例三

请参阅图3，图3是本发明实施例公开的一种电子设备，包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如实施例一所述的方法。

实施例四

本发明实施例还公开了一种计算机存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如实施例一所述的方法。

计算机可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。当所述计算机程序被一个或多个数据处理设备执行时，使得该计算机可读介质能够实现本发明的上述方法，即：服务端提供的配置服务管理，生成与域名相关的配置文件；当请求业务服务期间出现域名故障时，客户端通过根据所述配置文件进行的配置更新以实现域名访问的自动切换。

通过以上的实施方式的描述，本领域的技术人员易于理解，本发明描述的示例性实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台数据处理设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明的上述方法。

所述计算机可读介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

综上所述，本发明可以执行计算机程序的方法、系统、电子装置或计算机可读介质来实现。可以在实践中使用微处理器或者数字信号处理器(DSP)等通用数据处理设备来实现本发明的一些或者全部功能。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，本发明不与任何特定计算机、虚拟装置或者电子设备固有相关，各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图片智能分类方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种图片智能分类方法，其特征在于：所述对待识别的图片的第一区域进行第一处理，以得出第一识别结果，包括：

对所述第一区域进行字符识别，以得出第一识别结果。

3.根据权利要求2所述的一种图片智能分类方法，其特征在于：所述对待识别的图片的第一区域进行第一处理，以得出第一识别结果，还包括：

其中，所述第一数值与所述尺寸呈正相关。

4.根据权利要求3所述的一种图片智能分类方法，其特征在于：所述第三区域为标题所在区域。

5.根据权利要求1或4所述的一种图片智能分类方法，其特征在于：所述对所述待识别的图片的第二区域进行第二处理，以得出第二识别结果，包括：

6.根据权利要求5所述的一种图片智能分类方法，其特征在于：所述根据所述标记确定所述第二区域的右侧区域关联位置，包括：根据所述标记进行上溯处理，将位于所述标记的上方第一行的右侧区域作为所述右侧区域关联位置。

7.根据权利要求6所述的一种图片智能分类方法，其特征在于：所述对所述关联位置进行批注检测,根据所述批注检测结果得出第二识别结果，包括：对所述右侧区域关联位置进行字符检测以得出若干字符，若所述字符的行数大于一，则第二识别结果为存在批注；

8.一种图片智能分类系统，包括处理模块、存储模块、通信模块，所述处理模块与所述存储模块、所述通信模块连接；其中，

所述存储模块，用于存储可执行的计算机程序代码；

其特征在于：所述处理模块，用于通过调用所述存储模块中的所述可执行的计算机程序代码，执行如权利要求1-7任一项所述的方法。

9.一种电子设备，包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

其特征在于：所述处理器调用所述存储器中存储的所述可执行程序代码，执行如权利要求1-7任一项所述的方法。

10.一种计算机存储介质，该存储介质上存储有计算机程序，其特征在于：该计算机程序被处理器运行时执行如权利要求1-7任一项所述的方法。