CN111881943A - 图像分类的方法、装置、设备和计算机可读介质 - Google Patents

图像分类的方法、装置、设备和计算机可读介质 Download PDF

Info

Publication number
CN111881943A
CN111881943A CN202010651526.1A CN202010651526A CN111881943A CN 111881943 A CN111881943 A CN 111881943A CN 202010651526 A CN202010651526 A CN 202010651526A CN 111881943 A CN111881943 A CN 111881943A
Authority
CN
China
Prior art keywords
image
input image
category
classification
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010651526.1A
Other languages
English (en)
Inventor
张秋晖
刘岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taikang Insurance Group Co Ltd
Original Assignee
Taikang Insurance Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taikang Insurance Group Co Ltd filed Critical Taikang Insurance Group Co Ltd
Priority to CN202010651526.1A priority Critical patent/CN111881943A/zh
Publication of CN111881943A publication Critical patent/CN111881943A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了图像分类的方法、装置、设备和计算机可读介质,涉及计算机技术领域。该方法的一具体实施方式包括:通过卷积神经网络提取输入图像多个尺寸的特征;融合所述多个尺寸的特征得到特征图像,所述特征图像包括所述输入图像多个尺寸的特征;采用光学字符识别技术,识别所述特征图像,以确定所述输入图像的类别。该实施方式能够提高图像分类的准确性。

Description

图像分类的方法、装置、设备和计算机可读介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种图像分类的方法、装置、设备和计算机可读介质。
背景技术
随着计算机视觉与深度神经网络的发展,图像识别技术得到了极大的发展,并在图像的分类处理中取得较好的应用效果。
在目前的应用中,通常采取支持向量机和k最邻近分类算法(K-NearestNeighbor,KNN)。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:上述分类方法在图像之间特征差异较大的情况下,能取得较好的分类效果。但对于图像之间特征差异较小,图像相似程度较高的情况下,则分类的准确性较低。
发明内容
有鉴于此,本发明实施例提供一种图像分类的方法、装置、设备和计算机可读介质,能够提高图像分类的准确性。
为实现上述目的,根据本发明实施例的一个方面,提供了一种图像分类的方法,包括:
通过卷积神经网络提取输入图像多个尺寸的特征;
融合所述多个尺寸的特征得到特征图像,所述特征图像包括所述输入图像多个尺寸的特征;
采用光学字符识别技术,识别所述特征图像,以确定所述输入图像的类别。
所述方法还包括:根据所述特征图像,确定所述输入图像的初次分类类别;
所述采用光学字符识别技术,识别所述特征图像,以确定所述输入图像的类别,包括:
采用光学字符识别技术,识别所述特征图像,确定所述输入图像的再次分类类别;
所述输入图像的初次分类类别与所述输入图像的再次分类类别,属于相同类别;
在所述输入图像的初次分类类别的子类别中,确定所述输入图像的类别。
所述方法还包括:根据所述特征图像确定所述输入图像的初次分类类别;
所述采用光学字符识别技术,识别所述特征图像,以确定所述输入图像的类别,包括:
采用光学字符识别技术,识别所述特征图像,确定所述输入图像的再次分类类别;
所述输入图像的初次分类类别与所述输入图像的再次分类,不属于相同类别;
将所述输入图像的再次分类,作为所述输入图像的类别。
所述采用光学字符识别技术,识别所述特征图像,确定所述输入图像的类别,包括:
采用光学字符识别技术,识别所述特征图像中的表格、文字、数字和印章中的一种或多种;
依据所述特征图像中识别出的内容,确定所述输入图像的类别。
所述采用光学字符识别技术,识别所述特征图像,以确定所述输入图像的类别,包括:
采用光学字符识别技术,识别出所述特征图像中的类别关键词;
按照所述类别关键词,确定所述输入图像的类别。
所述通过卷积神经网络提取输入图像多个尺寸的特征,包括:
通过卷积神经网络中的多个子卷积神经网络,提取输入图像多个尺寸的特征。
所述融合所述多个尺寸的特征得到特征图像,包括:
在所述子卷积神经网络的池化层做上采样操作后,将所述输入图像在所述池化层对应尺寸的特征,依次与前一个或多个子卷积神经网络采集的特征融合,得到所述特征图像。
根据本发明实施例的第二方面,提供了一种图像分类的装置,包括:
提取模块,用于通过卷积神经网络提取输入图像多个尺寸的特征;
融合模块,用于融合所述多个尺寸的特征得到特征图像,所述特征图像包括所述输入图像多个尺寸的特征;
识别模块,用于采用光学字符识别技术,识别所述特征图像,以确定所述输入图像的类别。
根据本发明实施例的第三方面,提供了一种图像分类的电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的方法。
根据本发明实施例的第四方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述的方法。
上述发明中的一个实施例具有如下优点或有益效果:通过卷积神经网络提取输入图像多个尺寸的特征;融合多个尺寸的特征得到特征图像,特征图像包括输入图像多个尺寸的特征;采用光学字符识别技术,识别特征图像,以确定输入图像的类别。卷积神经网络与光学字符识别技术相结合,确定图像类别,因而能够提高图像分类的准确性。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的图像分类的方法的主要流程的示意图;
图2是根据本发明实施例的卷积神经网络的结构示意图;
图3是根据本发明实施例的确定输入图像的类别的流程示意图;
图4是根据本发明实施例的另一个确定输入图像的类别的流程示意图;
图5是根据本发明实施例的依据识别出的内容确定输入图像的类别的流程示意图;
图6是根据本发明实施例的依据类别关键词确定输入图像的类别的流程示意图;
图7是根据本发明实施例的图像分类的装置的主要结构的示意图;
图8是本发明实施例可以应用于其中的示例性系统架构图;
图9是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
近年来,随着算法尤其是卷积神经网络算法的发展,图像分类识别的技术已得到了广泛应用。图像的分类,主要分为两类算法,一类是传统算法类,如:SVM,kNN和xgboost等。另一类是深度学习算法,如:卷积神经网络和自编码器等技术。
传统图像分类算法,需提取图像特征,然后再分类。这类方法需要在人工提取特征比较精确的情况下才能取得较好的分类效果。
而深度学习算法,如卷积神经网络算法,不需人工提取特征,只需提供训练图片及对应分类标签。神经网络就可通过训练得到一个分类器,这样的方法通常在图像间区别较明显的分类任务中,能取得较好的效果,如:区分猫的图像和狗的图像。而在图像间区别不明显的分类任务中,难以取得好的效果,如:柴犬的图像和秋田犬的图像。
因此,在图像之间特征差异较小,图像相似程度较高的情况下,存在分类的准确性较低的技术问题。
为了解决分类的准确性较低,可以采用以下本发明实施例中的技术方案。
参见图1,图1是根据本发明实施例的图像分类的方法主要流程的示意图,提取并融合输入图像多个尺寸的特征,再采用光学字符识别技术,确定输入图像的类别。如图1所示,具体包括以下步骤:
S101、通过卷积神经网络提取输入图像多个尺寸的特征。
在本发明实施例中,需要对图像进行分类。首先,对原始的RGB图像进行预处理操作。其中,预处理操作包括但不限于消除噪声和图像锐化等处理。预处理操作的目的在于:尽量减少非图像特征对分类的影响。
原始的RGB图像经预处理操作后得到输入图像。也就是说,输入图像是经过预处理操作后得到的图像。
卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类。
在本发明实施例中,将输入图像作为卷积神经网络的输入,卷积神经网络输出包括融合后的多个特征的特征图像。
下面简要介绍本发明实施例中的卷积神经网络。卷积神经网络从结构上来说包括输入层、隐含层和输出层。隐含层包括卷积层、池化层和全连接层。在本发明实施例中,着重说明卷积层和池化层,对于其他层不再重复说明。
卷积神经网络可以从输入图像中提取特征。为了能够提取多个不同尺寸的特征,卷积神经网络可以包括多个子卷积神经网络。可以理解的是,一个子卷积神经网络可以提取一个尺寸的特征。
作为一个示例,子卷积神经网络包括卷积层和池化层,采用预设池化层的参数,就可以获得对应尺寸的特征。
在卷积神经网络包括多个子卷积神经网络的情况下,多个子卷积神经网络依次顺序连接。
作为一个示例,卷积神经网络包括3个子卷积神经网络,第一子卷积神经网络连接第二子卷积神经网络,以及第二子卷积神经网络连接第三子卷积神经网络。将输入图像输入第一个子卷积神经网络,得到包括对应尺寸的输出图像,再将第一个子卷积神经网络输出对应尺寸的输出图像,输入第二子卷积神经网络,依次类推。最终,第三子卷积神经网络,输出对应尺寸的输出图像。也就是说,每个子卷积神经网络输出对应尺寸的输出图像。
可以理解的是,通过卷积神经网络中的多个子卷积神经网络,能够提取输入图像多个尺寸的特征。
参见图2,图2是根据本发明实施例的卷积神经网络的结构示意图。图2中的卷积神经网络包括5个子卷积神经网络。其中,第一子卷积神经网络至第五子卷积神经网络依次顺序连接。
可以预先设置每个子卷积神经网络的结构,下面分别说明每个子卷积神经网络。需要说明的是,每个子卷积神经网络中的输入层、全连接层和输出层,不再重复说明,仅就卷积层和池化层进行示例性的说明。可以将输入图像的尺寸缩放到512像素×512像素。
第一子卷积神经网络包括:1个卷积层和1个池化层。采用64个3×3的卷积核和1个maxpooling的池化层。
第二子卷积神经网络包括:2个卷积层和1个池化层。采用128个3×3的卷积核和1个maxpooling的池化层。
第三子卷积神经网络包括:3个卷积层和1个池化层。先采用2层256个3×3的卷积核,再使用1层256个1×1的卷积层和1个maxpooling的池化层。
第四子卷积神经网络包括:3个卷积层和1个池化层。先采用2层512个3×3的卷积核,再使用1层512个1×1的卷积层和1个maxpooling的池化层。
第五子卷积神经网络包括:3个卷积层和1个池化层。先采用2层512个3×3的卷积核,再使用1层512个1×1的卷积层和1个maxpooling的池化层。
在上述五个子卷积神经网络中的池化层参数是不同的,进而可以通过池化层提取输入图像不同尺寸的特征。
可以理解的是,图2中的卷积神经网络是通过训练获得的。具体来说,在训练卷积神经网络的过程中,将样本图像输入卷积神经网络中。
可以采用梯度下降法,改变图2中第一子卷积神经网络至第五子卷积神经网络中卷积核的具体参数,直到按照第五子卷积神经网络的输出图像所确定的图像分类与样本图像的实际分类一致,则记录第一子卷积神经网络至第五子卷积神经网络中卷积核的具体参数,并作为下一个样本图像的卷积神经网络的参数,继续训练卷积神经网络。
可以按照以下方式,由卷积神经网络的输出图像确定图像分类。具体包括,将第五子卷积神经网络的输出图像,依次做全连接操作,输出一个n×1的数组。其中,n为基于图像特征的分类种数。然后,采用sigmoid运算,使得数组内每个元素的数值在(0,1)之间,即该元素的值代表卷积神经网络输入图像在该下标分类标签种类的概率。可以选择最大概率对应的类别,作为卷积神经网络输入图像的图像分类。
S102、融合多个尺寸的特征得到特征图像,特征图像包括输入图像多个尺寸的特征。
对于一个子卷积神经网络而言,输出图像包括输入图像一个尺寸的特征。获取越多输入图像的特征,则所确定输入图像的类别越精准。
在本发明实施例中,可以融合多个尺寸的特征得到特征图像。可以理解的是,特征图像包括输入图像多个尺寸的特征。
在本发明的一个实施例中,在一个子卷积神经网络的池化层做上采样操作后,将输入图像在该池化层对应尺寸的特征,依次与前一个或多个子卷积神经网络采集的特征融合,得到特征图像。
其中,上采样是可以让图像变成更高分辨率的技术。作为一个示例,通过重采样和插值实现上采样。将输入图片重新调整到一个预设尺寸,而且计算每个像素点,使用双线性插值等插值方法对其余像素点进行插值以完成上采样。
在本发明的一个实施例中,继续参数图2,可以融合第五子卷积神经网络和第四子卷积神经网络采集的特征。
具体来说,在第五子卷积神经网络的池化层做上采样操作后,将输入图像在第五个子卷积神经网络的池化层对应尺寸的特征,与第四子卷积神经网络采集的特征融合,得到特征图像,该特征图像包括第四子卷积神经网络采集的特征,以及第五子卷积神经网络采集的特征。
在本发明的一个实施例中,继续参数图2,可以融合第一子卷积神经网络至第五子卷积神经网络采集的特征。即,特征图像包括五个字卷积神经网络采集的特征。
具体来说,在第五子卷积神经网络的池化层做上采样操作后,将输入图像在第五个子卷积神经网络的池化层对应尺寸的特征,与第四子卷积神经网络采集的特征融合。
然后,在第四子卷积神经网络的池化层做上采样操作后,将融合后的特征,与第三子卷积神经网络采集的特征融合。
依次类推,将第五子卷积神经网络采集的特征至第一子卷积神经网络采集的特征,进行融合得到特征图像。该特征图像包括第一子卷积神经网络采集的特征至第五子卷积神经网络采集的特征。也就是说,该特征图像包括五个子卷积神经网络采集的特征。
每个子卷积神经网络采集不同尺寸的特征,因此能够融合多个尺寸的特征得到特征图像。其中,融合的尺寸越多,则分类准确性越高。
S103、采用光学字符识别技术,识别特征图像,以确定输入图像的类别。
在本发明实施例中,通过卷积神经网络得到特征图像之后,采用光学字符识别技术,识别特征图像。这是考虑到,特征图像中包括输入图像多个尺寸的特征。特征图像与输入图像相比,特征图像所包括特征更为明显。在特征图像的基础上进行识别,能够显著提高输入图像分类的准确性。
在本发明的一个实施例中,还可以结合特征图像进行初次分类,进而结合初次分类类别,确定输入图像的类别。
参见图3,图3是根据本发明实施例的确定输入图像的类别的流程示意图,具体包括:
S301、采用光学字符识别技术,识别特征图像,确定输入图像的再次分类类别。
在融合多个尺寸的特征得到特征图像后,可以根据特征图像,确定输入图像的初次分类类别。
作为一个示例,根据特征图像依次做全连接操作,输出一个n×1的数组。其中,n为基于图像特征的分类种数。然后,采用sigmoid运算,使得数组内每个元素的数值在(0,1)之间。将数值内最大值对应的类别,作为输入图像的初次分类类别。
然后,采用光学字符识别(OCR)技术,识别特征图像,确定输入图像的再次分类类别,具体可以参见图5中的技术方案。
S302、输入图像的初次分类类别与输入图像的再次分类类别,属于相同类别。
根据输入图像的初次分类类别与输入图像的再次分类,判断初次分类类别与再次分类类别是否属于相同类别。
初次分类类别与再次分类类别属于相同类别,则说明采用卷积神经网络,与采用OCR技术的识别类别一致,则可以执行S302。作为一个示例,初次分类列类别是:保险单据;再次分类类别是:医疗票据。
初次分类类别与再次分类类别不属于相同类别,则以再次分类类别为准。这是因为,利用OCR技术识别特征图像类别的准确性,高于采用卷积神经网络识别输入图像类别。因此,可以以ORC技术识别特征图像类别为准。
S303、在输入图像的初次分类类别的子类别中,确定输入图像的类别。
采用卷积神经网络,确定输入图像的初次分类类别。由于采用卷积神经网络分类可以包括多个类别。每个类别下属多个子类别。作为一个示例,医疗票据包括以下子类别:首页类、清单类、结算类、小结类和发票类。
输入图像的初次分类类别与输入图像的再次分类类别,属于相同类别的情况下,可以在输入图像的初次分类类别的子类别中,确定输入图像的类别。进而缩小输入图像所选择类别的范围。
作为一个示例,在输入图像的初次分类类别的子类别中,采用图5的技术方案,确定输入图像的类别。
在图3的实施例中,在初次分类类别与再次分类类别属于相同类别的情况下,可以在初次分类类别的子类别中,确定输入图像的类别,进而缩小选择类别的范围,进而能够提高分类的准确性。
参见图4,图4是根据本发明实施例的另一个确定输入图像的类别的流程示意图。图4方案与图3方案不同之处在于S402和S403。S401与S301一致。具体包括:
S401、采用光学字符识别技术,识别特征图像,确定输入图像的再次分类类别。
在融合多个尺寸的特征得到特征图像后,可以根据特征图像,确定输入图像的初次分类类别。
然后,采用OCR技术识别特征图像,确定输入图像的再次分类类别,具体可以参见图5中的技术方案。
S402、输入图像的初次分类类别与输入图像的再次分类,不属于相同类别。
初次分类类别与再次分类类别不属于相同类别,则以再次分类类别为准。这是因为,利用OCR技术识别特征图像类别的准确性,高于采用卷积神经网络识别输入图像类别。因此,可以以ORC技术识别特征图像类别为准。
S403、将输入图像的再次分类,作为输入图像的类别。
可以将输入图像的再次分类,作为输入图像的类别。
在图4的实施例中,在初次分类类别与再次分类类别不属于相同类别的情况下,可以将输入图像的再次分类,作为输入图像的类别。无需考虑初次分类类别。在特征图像的基础上,利用OCR技术识别类别的准确性较高,进而能够提高分类的准确性。
参见图5,图5是根据本发明实施例的依据识别出的内容确定输入图像的类别的流程示意图,具体包括:
S501、采用光学字符识别技术,识别特征图像中的表格、文字、数字和印章中的一种或多种。
在本发明实施例中,多涉及图像之间特征差异较小不明显的情况,如:住院发票与结算清单。
在实际应用过程中,输入数据具有以下特点:
特点1:病案首页类、清单类具有大量表格,且清单类的文字占比较大。
特点2:结算单、发票类字数较少,但数字占比较大。
特点3:小结类的数字占比小,无表格或少表格样式。
特点4:发票类几乎都含印章。
那么,可以采用光学字符识别技术,识别特征图像中的表格、文字、数字和印章中的一种或多种。
S502、依据特征图像中识别出的内容,确定输入图像的类别。
统计在特征图像中识别出的内容,即:统计表格、文字、数字和印章,并按照统计表格的数量、文字的数量、数字的数量和印章的数量中的一种或多种,确定输入图像的类别。
具体包括以下五种情况,对于不属于以下五种情况,则确定输入图像的类别识别失败。
情况一:表格数量大于预设表格阈值,且文字占比大于数字占比,则输入图像的类别是清单类。
情况二:表格数量大于预设表格阈值,且文字占比小于或等于数字占比,则输入图像的类别是首页类。
情况三:表格数量小于等于预设表格阈值,且文字占比小于等于数字占比,则输入图像的类别是结算类。
情况四:表格数量小于等于预设表格阈值,且文字占比大于数字占比,则输入图像的类别是小结类。
情况五:检测到印章,表格数量小于等于预设表格阈值,且文字占比等于或小于数字占比,则输入图像的类别是发票类。
在图5的实施例中,根据特征图像中识别出的内容,确定输入图像的类别,进而提高类别识别的精准性。
参见图6,图6是根据本发明实施例的依据类别关键词确定输入图像的类别的流程示意图,具体包括:
S601、采用光学字符识别技术,识别出特征图像中的类别关键词。
采用OCR技术识别特征图像中,包括预设类别关键词,则无需再识别特征图像中的表格、文字、数字和印章中的一种或多种。
S602、按照类别关键词,确定输入图像的类别。
将类别关键词对应的类别,确定为输入图像的类别。作为一个示例,采用OCR技术,识别出特征图像中包含字符:住院发票,则确定输入图像的类别是住院发票。
在图6的实施例中,可以按照类别关键词确定输入图像的类别。
以提高识别类别的准确性。
在上述实施例中,通过卷积神经网络提取输入图像多个尺寸的特征;融合多个尺寸的特征得到特征图像,特征图像包括输入图像多个尺寸的特征;采用光学字符识别技术,识别特征图像,以确定输入图像的类别。
采用卷积神经网络,获取输入图像的多个特征。在融合后的多个特征的基础上识别特征图像,避免非特征带来的识别干扰,进而以特征分类,因此能够提高图像分类的准确性。
在保险理赔领域,客户需将保险单和医疗票据等文档拍照上传。保险公司需要录入上传图像,以进行理赔核算。目前除已有人工录入方式外,还可以利用OCR技术识别保险单据和医疗票据的图像。但目前的识别模型是按不同图像类别部署的。客户在上传图像时,往往会多传、或者少传所需种类的票据。因此,采用本发明实施例中的技术方案能够准确识别输入图像的类别,对提升类别识别的精度具有良好的效果,能节省大量的人力成本,推进了智能理赔的应用。
参见图7,图7是根据本发明实施例的图像分类的装置的主要结构的示意图,图像分类的装置可以实现图像分类的方法,如图7所示,图像分类的装置具体包括:
提取模块701,用于通过卷积神经网络提取输入图像多个尺寸的特征。
融合模块702,用于融合所述多个尺寸的特征得到特征图像,所述特征图像包括所述输入图像多个尺寸的特征。
识别模块703,用于采用光学字符识别技术,识别所述特征图像,以确定所述输入图像的类别。
在本发明的一个实施例中,融合模块702,还用于根据所述特征图像,确定所述输入图像的初次分类类别;
识别模块703,具体用于采用光学字符识别技术,识别所述特征图像,确定所述输入图像的再次分类类别;
所述输入图像的初次分类类别与所述输入图像的再次分类类别,属于相同类别;
在所述输入图像的初次分类类别的子类别中,确定所述输入图像的类别。
在本发明的一个实施例中,融合模块702,还用于根据所述特征图像确定所述输入图像的初次分类类别;
识别模块703,具体用于采用光学字符识别技术,识别所述特征图像,确定所述输入图像的再次分类类别;
所述输入图像的初次分类类别与所述输入图像的再次分类,不属于相同类别;
将所述输入图像的再次分类,作为所述输入图像的类别。
在本发明的一个实施例中,识别模块703,具体用于采用光学字符识别技术,识别所述特征图像中的表格、文字、数字和印章中的一种或多种;
依据所述特征图像中识别出的内容,确定所述输入图像的类别。
在本发明的一个实施例中,识别模块703,具体用于采用光学字符识别技术,识别出所述特征图像中的类别关键词;
按照所述类别关键词,确定所述输入图像的类别。
在本发明的一个实施例中,提取模块701,具体用于通过卷积神经网络中的多个子卷积神经网络,提取输入图像多个尺寸的特征。
在本发明的一个实施例中,融合模块702,具体用于在所述子卷积神经网络的池化层做上采样操作后,将所述输入图像在所述池化层对应尺寸的特征,依次与前一个或多个子卷积神经网络采集的特征融合,得到所述特征图像。
图8示出了可以应用本发明实施例的图像分类的方法或图像分类的装置的示例性系统架构800。
如图8所示,系统架构800可以包括终端设备801、802、803,网络804和服务器805。网络804用以在终端设备801、802、803和服务器805之间提供通信链路的介质。网络804可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备801、802、803通过网络804与服务器805交互,以接收或发送消息等。终端设备801、802、803上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备801、802、803可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器805可以是提供各种服务的服务器,例如对用户利用终端设备801、802、803所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的图像分类的方法一般由服务器805执行,相应地,图像分类的装置一般设置于服务器805中。
应该理解,图8中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图9,其示出了适于用来实现本发明实施例的终端设备的计算机系统900的结构示意图。图9示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,计算机系统900包括中央处理单元(CPU)901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中,还存储有系统900操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
以下部件连接至I/O接口905:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括发送单元、获取单元、确定单元和第一处理单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,发送单元还可以被描述为“向所连接的服务端发送图片获取请求的单元”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:
通过卷积神经网络提取输入图像多个尺寸的特征;
融合所述多个尺寸的特征得到特征图像,所述特征图像包括所述输入图像多个尺寸的特征;
采用光学字符识别技术,识别所述特征图像,以确定所述输入图像的类别。
根据本发明实施例的技术方案,通过卷积神经网络提取输入图像多个尺寸的特征;融合多个尺寸的特征得到特征图像,特征图像包括输入图像多个尺寸的特征;采用光学字符识别技术,识别特征图像,以确定输入图像的类别。卷积神经网络与光学字符识别技术相结合,确定图像类别,因而能够提高图像分类的准确性。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种图像分类的方法,其特征在于,包括:
通过卷积神经网络提取输入图像多个尺寸的特征;
融合所述多个尺寸的特征得到特征图像,所述特征图像包括所述输入图像多个尺寸的特征;
采用光学字符识别技术,识别所述特征图像,以确定所述输入图像的类别。
2.根据权利要求1所述图像分类的方法,其特征在于,所述方法还包括:根据所述特征图像,确定所述输入图像的初次分类类别;
所述采用光学字符识别技术,识别所述特征图像,以确定所述输入图像的类别,包括:
采用光学字符识别技术,识别所述特征图像,确定所述输入图像的再次分类类别;
所述输入图像的初次分类类别与所述输入图像的再次分类类别,属于相同类别;
在所述输入图像的初次分类类别的子类别中,确定所述输入图像的类别。
3.根据权利要求1所述图像分类的方法,其特征在于,所述方法还包括:根据所述特征图像确定所述输入图像的初次分类类别;
所述采用光学字符识别技术,识别所述特征图像,以确定所述输入图像的类别,包括:
采用光学字符识别技术,识别所述特征图像,确定所述输入图像的再次分类类别;
所述输入图像的初次分类类别与所述输入图像的再次分类,不属于相同类别;
将所述输入图像的再次分类,作为所述输入图像的类别。
4.根据权利要求1所述图像分类的方法,其特征在于,所述采用光学字符识别技术,识别所述特征图像,确定所述输入图像的类别,包括:
采用光学字符识别技术,识别所述特征图像中的表格、文字、数字和印章中的一种或多种;
依据所述特征图像中识别出的内容,确定所述输入图像的类别。
5.根据权利要求1所述图像分类的方法,其特征在于,所述采用光学字符识别技术,识别所述特征图像,以确定所述输入图像的类别,包括:
采用光学字符识别技术,识别出所述特征图像中的类别关键词;
按照所述类别关键词,确定所述输入图像的类别。
6.根据权利要求1或4所述图像分类的方法,其特征在于,所述通过卷积神经网络提取输入图像多个尺寸的特征,包括:
通过卷积神经网络中的多个子卷积神经网络,提取输入图像多个尺寸的特征。
7.根据权利要求6所述图像分类的方法,其特征在于,所述融合所述多个尺寸的特征得到特征图像,包括:
在所述子卷积神经网络的池化层做上采样操作后,将所述输入图像在所述池化层对应尺寸的特征,依次与前一个或多个子卷积神经网络采集的特征融合,得到所述特征图像。
8.一种图像分类的装置,其特征在于,包括:
提取模块,用于通过卷积神经网络提取输入图像多个尺寸的特征;
融合模块,用于融合所述多个尺寸的特征得到特征图像,所述特征图像包括所述输入图像多个尺寸的特征;
识别模块,用于采用光学字符识别技术,识别所述特征图像,以确定所述输入图像的类别。
9.一种图像分类的电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202010651526.1A 2020-07-08 2020-07-08 图像分类的方法、装置、设备和计算机可读介质 Pending CN111881943A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010651526.1A CN111881943A (zh) 2020-07-08 2020-07-08 图像分类的方法、装置、设备和计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010651526.1A CN111881943A (zh) 2020-07-08 2020-07-08 图像分类的方法、装置、设备和计算机可读介质

Publications (1)

Publication Number Publication Date
CN111881943A true CN111881943A (zh) 2020-11-03

Family

ID=73150437

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010651526.1A Pending CN111881943A (zh) 2020-07-08 2020-07-08 图像分类的方法、装置、设备和计算机可读介质

Country Status (1)

Country Link
CN (1) CN111881943A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906774A (zh) * 2021-02-05 2021-06-04 智慧芽信息科技(苏州)有限公司 一种文件信息提取方法及电子设备
CN114332844A (zh) * 2022-03-16 2022-04-12 武汉楚精灵医疗科技有限公司 医学图像的智能分类应用方法、装置、设备和存储介质
CN114565044A (zh) * 2022-03-01 2022-05-31 北京九章云极科技有限公司 印章识别方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059814A (zh) * 2006-04-17 2007-10-24 株式会社理光 图像处理设备与图像处理方法
WO2018039970A1 (zh) * 2016-08-31 2018-03-08 富士通株式会社 用于字符识别的分类网络的训练装置、字符识别装置及方法
CN110298338A (zh) * 2019-06-20 2019-10-01 北京易道博识科技有限公司 一种文档图像分类方法及装置
CN110533041A (zh) * 2019-09-05 2019-12-03 重庆邮电大学 基于回归的多尺度场景文本检测方法
CN111046879A (zh) * 2019-10-15 2020-04-21 平安科技(深圳)有限公司 证件图像分类方法、装置、计算机设备及可读存储介质
CN111191614A (zh) * 2020-01-02 2020-05-22 中国建设银行股份有限公司 一种单据分类方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059814A (zh) * 2006-04-17 2007-10-24 株式会社理光 图像处理设备与图像处理方法
WO2018039970A1 (zh) * 2016-08-31 2018-03-08 富士通株式会社 用于字符识别的分类网络的训练装置、字符识别装置及方法
CN110298338A (zh) * 2019-06-20 2019-10-01 北京易道博识科技有限公司 一种文档图像分类方法及装置
CN110533041A (zh) * 2019-09-05 2019-12-03 重庆邮电大学 基于回归的多尺度场景文本检测方法
CN111046879A (zh) * 2019-10-15 2020-04-21 平安科技(深圳)有限公司 证件图像分类方法、装置、计算机设备及可读存储介质
CN111191614A (zh) * 2020-01-02 2020-05-22 中国建设银行股份有限公司 一种单据分类方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906774A (zh) * 2021-02-05 2021-06-04 智慧芽信息科技(苏州)有限公司 一种文件信息提取方法及电子设备
CN114565044A (zh) * 2022-03-01 2022-05-31 北京九章云极科技有限公司 印章识别方法及系统
CN114565044B (zh) * 2022-03-01 2022-08-16 北京九章云极科技有限公司 印章识别方法及系统
CN114332844A (zh) * 2022-03-16 2022-04-12 武汉楚精灵医疗科技有限公司 医学图像的智能分类应用方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
US10783367B2 (en) System and method for data extraction and searching
KR101462289B1 (ko) 모바일 장치 시스템을 이용한 디지털 이미지 아카이빙 및 검색
EP3869385B1 (en) Method for extracting structural data from image, apparatus and device
CN110942061A (zh) 文字识别方法、装置、设备和计算机可读介质
WO2020005731A1 (en) Text entity detection and recognition from images
CN111881943A (zh) 图像分类的方法、装置、设备和计算机可读介质
US20160210347A1 (en) Classification and storage of documents
CN114298845A (zh) 一种理赔票据处理方法和装置
CN116664465A (zh) 一种多模态图像融合方法、装置及计算机设备
US20160162639A1 (en) Digital image analysis and classification
CN111783572B (zh) 一种文本检测方法和装置
CN114328884A (zh) 一种图文去重方法及装置
CN113486148A (zh) Pdf文件的转换方法、装置、电子设备以及计算机可读介质
CN111881778B (zh) 文本检测的方法、装置、设备和计算机可读介质
CN111401137A (zh) 证件栏位识别的方法和装置
CN115563289B (zh) 行业分类标签生成方法、装置、电子设备和可读介质
CN117635236A (zh) 一种金融业务的宣传海报生成方法、装置、设备及介质
CN113191422A (zh) 一种识别方法及装置
CN113901817A (zh) 文档分类方法、装置、计算机设备和存储介质
CN114860667A (zh) 文件分类方法、装置、电子设备及计算机可读存储介质
CN117874269A (zh) 一种图像的推送方法、装置、电子设备及可读存储介质
CN117523586A (zh) 支票印章的验证方法、装置、电子设备和介质
CN110991270A (zh) 文本识别的方法、装置、电子设备和存储介质
CN117421641A (zh) 一种文本分类的方法、装置、电子设备及可读存储介质
CN114998903A (zh) 文本遮挡区域检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination