CN112861985B - 基于人工智能的图书自动分类方法 - Google Patents

基于人工智能的图书自动分类方法 Download PDF

Info

Publication number
CN112861985B
CN112861985B CN202110209964.7A CN202110209964A CN112861985B CN 112861985 B CN112861985 B CN 112861985B CN 202110209964 A CN202110209964 A CN 202110209964A CN 112861985 B CN112861985 B CN 112861985B
Authority
CN
China
Prior art keywords
color
model
cover image
pixels
combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110209964.7A
Other languages
English (en)
Other versions
CN112861985A (zh
Inventor
陈淑慧
陈柯明
张艳婷
张旭朣
胡稳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University of Light Industry
Original Assignee
Zhengzhou University of Light Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University of Light Industry filed Critical Zhengzhou University of Light Industry
Priority to CN202110209964.7A priority Critical patent/CN112861985B/zh
Publication of CN112861985A publication Critical patent/CN112861985A/zh
Application granted granted Critical
Publication of CN112861985B publication Critical patent/CN112861985B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于人工智能的图书自动分类方法,该方法包括:采集封面图像并转换色彩空间,获取HSV色彩模型并选取底色;根据底色构建底色邻域模型,输出非底色模型和其中的预选像素。根据三维空间中和封面图像中预选像素的位置进行聚类,获得若干个第二集合。检测第二集合中像素外接矩形的特征序列,分析得到文字类型,选择各种第二集合组成集合组合,获得集合组合中对应的字符感兴趣区域面积并计算集合组合面积评价指数,再根据外接矩形中心点计算集合组合的离散度评价指数。判断是否需要调整底色,输出最佳集合组合。根据最佳集合组合中第二集合对应外接矩形从封面图像中分割出字符检测区域,检测关键词并获得图书的类别。

Description

基于人工智能的图书自动分类方法
技术领域
本申请涉及图书馆资料管理领域、计算机视觉领域,具体涉及一种基于人工智能的图书自动分类方法。
背景技术
如今全民阅读的风气盛行,得益于图书馆等阅读的基础设施趋于完善。图书馆中的藏书数量庞大,但如何高效地管理藏书,更好地为读者提供服务成为图书馆服务人员要面临的课题。图书馆藏书繁多,读者在选择图书时一般是通过图书分类索引进行检索,来获取感兴趣类型的图书。但是现在图书馆对图书的分类往往是粗略的分类,分类信息不够细致、丰富。对读者检索感兴趣的书籍造成了一定的困难,不利于读者高效快速地检索书籍。
现有图书分类方法一般为人工预先对图书进行分类,并将各图书的分类信息导入数据库中,通过扫码读出图书的分类信息,存在效率低下的问题。而且人工分类考虑的分类维度受限,导致分类信息比较单一,不够丰富,无法为读者提供足够的参考信息。
发明内容
针对以上问题,本发明提出一种基于人工智能的图书自动分类方法,该方法包括:采集封面图像并转换色彩空间,获取HSV色彩模型并选取底色;根据底色构建底色邻域模型,输出非底色模型和其中的预选像素。根据三维空间中和封面图像中预选像素的位置进行聚类,获得若干个第二集合。检测第二集合中像素外接矩形的特征序列,分析得到文字类型,选择各种第二集合组成集合组合,获得集合组合中对应的字符感兴趣区域面积并计算集合组合面积评价指数,再根据外接矩形中心点计算集合组合的离散度评价指数。判断是否需要调整底色,输出最佳集合组合。根据最佳集合组合中第二集合对应外接矩形从封面图像中分割出字符检测区域,检测关键词并获得图书的类别。
一种基于人工智能的图书自动分类方法,该方法包括:
S1、采集封面图像并转换色彩空间,再将色彩空间映射到三维空间中得到HSV色彩模型,统计各颜色值包含像素的数量并选取底色;
S2、根据底色的颜色值得到底色邻域模型,去除HSV色彩模型中属于底色邻域模型的区域,得到非底色模型和其中的预选像素;其中,所述底色邻域模型的获取方法为:
统计各颜色值包含像素的数量,按从大到小排列得到像素数量序列,选择像素数量序列中第a个颜色值作为底色,底色的坐标为(x′a,y′a,z′a),初始的a为1;
设置x轴方向阈值mx′、y轴方向阈值my′、z轴方向阈值mz′,底色邻域模型所占空间为[x′a-mx′,x′a+mx′]、[y′a-my′,y′a+my′]、[z′a-mz′,z′a+mz′];
S3、根据预选像素集合中像素点在三维空间中的颜色值进行第一密度聚类,获得若干个第一集合;
S4、根据各第一集合中像素点在封面图像对应图像坐标系中的位置进行第二密度聚类,获得若干个第二集合;
S5、检测第二集合中像素在封面图像中的外接矩形的特征序列,分析特征序列对应第二集合的文字类型,从各文字类型中选择一个第二集合组成集合组合,获得集合组合中对应的字符感兴趣区域并根据字符感兴趣区域的面积占比计算集合组合面积评价指数,再根据第二集合外接矩形中心点计算集合组合的离散度评价指数;
判断是否需要调整底色,若需要调整底色,选择所述像素数量序列中第a+1个颜色值为底色后转到S2;若不需要调整底色,输出最佳集合组合,执行S6;
S6、根据最佳集合组合中第二集合对应外接矩形从封面图像中分割出字符检测区域,检测关键词并获得图书的类别;其中,所述第一密度聚类的半径调整系数为
Figure GDA0003907525430000021
式中,V表示模型的体积;阈值调整系数为
Figure GDA0003907525430000022
式中,N表示模型中包含的像素个数;第一密度聚类的初始半径设置为r,初始阈值设置为n,经过调整后的聚类半径为r′=r×α1,调整后的聚类阈值为n′=n×α2
所述第二密度聚类的初始半径设置为
Figure GDA0003907525430000023
式中k2为第二阈值调整参数,I×J为封面图像的尺寸,所述第二密度聚类的初始阈值设置为
Figure GDA0003907525430000024
所述色彩空间转换,具体包括:将封面图像转换到HSV色彩空间,得到各像素在HSV色彩空间中的位置,所述HSV色彩空间为圆锥形空间;将HSV色彩空间映射到三维空间中,得到三维空间中的HSV色彩模型和像素的颜色值。
所述得到非底色模型和其中的预选像素的方法为:获得三维空间中HSV色彩模型与底色邻域模型的交集F,将底色邻域模型减去F得到非底色模型,非底色模型中像素为预选像素。
所述检测第二集合中像素在封面图像中的外接矩形的特征序列,具体包括:
对第二集合标注序号,在封面图像坐标系中,统计第二集合中像素x坐标的最大值xmax、最小值xmin;y坐标的最大值ymax、最小值ymin
以x坐标范围为[xmin,xmax],y坐标范围为[ymin,ymax]的矩形为该第二集合的外接矩形。
外接矩形的尺寸为Ih×Jh,Ih=xmax-xmin,Jh=ymax-ymin;外接矩形的中心点坐标为(xh,yh),
Figure GDA0003907525430000025
第二集合中包含像素数量为Nh,h为第二集合的序号,序号h的第二集合对应的特征序列为[Nh,xh,yh,Ih,Jh]。
所述获得集合组合中对应的字符感兴趣区域并根据字符感兴趣区域的面积占比计算集合组合面积评价指数,具体包括:以集合组合中各第二集合外接矩形的中心为圆心,
Figure GDA0003907525430000026
为半径生成圆区域,对一个集合组合中圆区域求并集,并计算并集和封面图像的交集,得到字符感兴趣区域R,k2为第二阈值调整参数,I×J为封面图像的尺寸;集合组合的面积评价指数为
Figure GDA0003907525430000027
SR为集合组合对应字符感兴趣区域的面积,S为封面图像的面积。
所述根据第二集合外接矩形中心点计算集合组合的离散度评价指数,具体包括:统计集合组合对应β的最大值βmax,设置面积评价指数阈值mβ,若βmax≤mβ,需要调整底色;若βmax>mβ,则计算βmax对应集合组合中各第二集合外接矩形中心点与封面图像中心点的距离df,f为βmax集合组合中第二集合的序号,计算集合组合离散度评价指数
Figure GDA0003907525430000031
F为βmax对应集合组合中第二集合的数量,If×Jf为第f个第二集合对应外接矩形的尺寸;设置离散度评价指数阈值mγ,若γ<mγ,需要调整底色;若γ≥mγ,不需要调整底色,该集合组合为最佳集合组合。
本发明和现有技术相比有如下有益效果:
(1)通过底色邻域模型去除和底色颜色相近的像素点,有效地得到非底色的像素,提高了寻找字符像素的准确率。
(2)通过第二集合对应外接矩形特征序列分析得到集合的文字类型,将属于不同文字类型的第二集合组合起来,判断是否是文字区域,减少了计算量,提高了系统效率。
(3)根据集合组合对应字符检测区域的面积占比得到面积评价指数,和第二集合中心点到封面图像中心点的距离得到离散度评价指数,来评价字符检测区域内是否是封面上的文字区域,既考虑了整个字符检测区域的面积,又考虑了不同文字类型之间的离散度,提高了检测的准确度。
(4)判断需要调整底色时,调整底色,避免底色选取不合适去除了属于字符的像素,提高了系统的鲁棒性。
附图说明
图1为方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一:
本发明的主要目的是实现图书封面中文字提取和图书分类。
为了实现本发明所述内容,本发明设计了一种基于人工智能的图书自动分类方法,方法流程图如图1所示。
本发明通过对图书封面图像进行检测,并分割出封面中的题目、作者、系列标识、介绍性文字以及出版信息这5种文字区域,最后通过OCR字符识别技术来检测文字区域内的文字信息来对图书进行分类。
步骤S1:
通过相机采集图书的封面图像,用于后续的处理。
接着通过对像素的色彩分析获取封面图像的底色,所述封面图像为RGB图像,RGB颜色空间中,像素包含红色(R),绿色(G)和蓝色(B)三个通道的值。可以利用R、G、B值来表示任何一种颜色。但由于亮度变化导致颜色连续变化时,R、G、B值的变换是不连贯的。所以RGB颜色空间对颜色的表示不够直观。为了方便处理封面图像,本发明将封面图像转换到HSV颜色空间,HSV颜色空间更接近人们对彩色的感知经验。可以直观地表达颜色的色调(H)、饱和度(S)和明度(V),方便进行颜色的对比。
将封面图像转换到HSV色彩空间后,得到各像素在HSV色彩空间中的位置,所述HSV色彩空间为圆锥型空间,获得各个像素的H、S、V值。将HSV色彩看空间映射在三维空间中,得到在三维空间中的HSV色彩模型和各像素的颜色值,所述颜色值有x、y、z三个维度。HSV色彩空间中未设置圆锥的底面半径,本发明设置圆锥的底面半径为0.5,则三维空间中HSV色彩模型D以(0,0,0)为顶点,以(0,0,1)为底面圆心,0.5为底面圆半径。
获得三维空间中各个颜色值对应的像色在三维空间中颜色值为(x′a,y′a,z′a),初始的a为1。
步骤S2:
以(x′a,y′a,z′a)为中心构建底色邻域模型E,设置x轴方向阈值mx′、y轴方向阈值my′、z轴方向阈值mz′。所述底色邻域模型为长方体,在三维空间中三个轴上所占区间为[x′a-mx′,x′a+mx′]、[y′a-my′,y′a+my′]、[z′a-mz′,z′a+mz′]。本实施例设置mx′=0.1、my′=0.1,mz′=0.1。底色邻域模型表征和底色相近的颜色值,若像素在三维空间中的颜色值在底色邻域模型的范围里,说明该像素的颜色与底色相近。
为了筛选出非底色的像素,在三维空间中将模型D与模型E进行交运算得到交集F,再将模型D减去模型F得到非底色模型G。保留模型G范围内的像素,得到预选像素集合。
步骤S3:
对于预选像素集合中像素,根据其在三维空间中的颜色值,通过DBSCAN进行第一密度聚类,半径调整系数
Figure GDA0003907525430000041
式中V表示模型的体积;阈值调整系数
Figure GDA0003907525430000042
式中N表示模型中包含的像素个数,第一密度聚类的初始半径设置为r,初始阈值设置为n。经过调整后的聚类半径为r′=r×α1,n′=n×α2,在本实施例中初始半径r设置为0.3,初始阈值设置为
Figure GDA0003907525430000043
I×J为封面图像的尺寸,I、J分别为封面图像的长度和宽度,k1为第一阈值调整参数,本实施例中设置k1=10。进行第一密度聚类后得到若干个第一集合。
本发明通过步骤S1和S2,将底色和与底色相近颜色的像素去除,并将剩下的像素中颜色相近的像素放入到若干个第一集合中去。
步骤S4:
步骤S3已经根据像素的颜色对像素进行了聚类,而图书封面图像中属于字体的像素不仅颜色相近,位置也是相近的。所以本步骤基于像素在封面图像对应图像坐标系中的位置进行聚类。
获取各第一集合中像素在图像坐标系中的坐标,对于一个第一集合中所有的像素,通过DBSCAN进行第二密度聚类,第二密度聚类的初始半径设置为
Figure GDA0003907525430000051
k2为第二阈值调整参数,本实施例中设置k2=8。第二密度聚类的初始阈值设置为
Figure GDA0003907525430000052
进行第二密度聚类并获得若干个第二集合,每个第一集合对应若干个第二集合。第二集合中像素颜色类似,且在封面图像中位置相近。
步骤S5:
大部分图书封面底色为一种颜色,但是有些图书中底色为两种或以上的底色,如果其中一种颜色值的底色与字体的颜色值相近,则底色邻域模型中可能包含字体的颜色值,进而把字体像素筛除,导致封面字体识别错误。为了减小这种误差,本发明通过步骤S5对聚类的结果进行评价,判断是否需要调整底色。
对于每个第二集合,根据其中的像素在图像坐标系中坐标生成外接矩形。首先对第二集合标注序号,统计第二集合中像素x坐标的最大值xmax,最小值xmin;y坐标的最大值ymax,最小值ymin。则x坐标范围为[xmin,xmax],且y坐标范围为[ymin,ymax]的矩形为该第二集合的外接矩形。序号为h的外接矩形的长度和宽度分别为Ih、Jh,外接矩形的中心点坐标为(xh,yh),第二集合中包含像素数量为Nh,h为第二集合的序号。
构建第二集合的特征序列[Nh,xh,yh,Ih,Jh],训练全连接网络来对特征序列进行分类,检测第二集合中像素属于那种文字类型。图书封面中的文字主要分为以下五类:题目、作者、系列标识、全书介绍、出版信息。所以全连接网络的训练方法为:以若干个特征序列为数据集;对数据集中序列的文字类型进行标注,生成标注数据;使用交叉熵损失函数对全连接网络进行训练。
将各第二集合的特征序列输入全连接网络,输出为特征序列的文字类型,也即特征序列对应第二集合中像素的文字类型。统计各文字类型中第二集合的数量,设5种文字类型中第二集合数量分别为Z1、Z2、Z3、Z4、Z5。则从每种文字类型中挑一个第二集合并组合起来,共有G=Z1*Z2*Z3*Z4*Z5种组合方式。
对于任意一种组合中的5个第二集合,以其外接矩形的中心(xh,yh)为圆心,
Figure GDA0003907525430000053
为半径生成圆区域。对一个组合中的圆区域取并集,得到并集区域,进一步地,获得并集区域与封面图像的交集区域,本发明称为字符感兴趣区域R。根据字符感兴趣区域R计算组合的面积评价指数β,
Figure GDA0003907525430000061
SR为字符感兴趣区域R的面积,S为封面图像面积,所以S=I×J。统计各个组合对应的β得到最大值βmax
设置面积评价指数阈值mβ,若βmax≤mβ,说明该组合对应的字符感兴趣区域占封面图像的比例较低,字符感兴趣区域内不是封面图像中的题目、作者、系列标识、全书介绍、出版信息,需要重新选取底色,即将步骤S1中的a加上1之后重新执行步骤S2、S3、S4、S5。本实施例设置mβ=0.1。
若βmax>mβ,则进一步对字符感兴趣区域进行评价:设置离散度评价指数γ,计算βmax组合中各第二集合对应外接矩形中心点与封面图像中心点的距离df,f为βmax组合中第二集合的序号,则
Figure GDA0003907525430000062
F为βmax组合中第二集合的数量,If、Jf分别为第f个第二集合对应外接矩形的长度和宽度;
Figure GDA0003907525430000063
为面积比例权值,其取值范围为(0,1],外接矩形面积占封面图像比例越大,则其对应的df占的权重越大,设置离散度评价指数阈值mγ,当γ<mγ时,说明βmax组合中各第二集合分布比较集中,需要修正底色,将a加上1之后重新执行步骤S2、S3、S4、S5;当γ≥mγ时,说明βmax组合中各第二集合分布比较分散,符合要求,继续执行步骤S6。本实施例设置mγ=0.5。
步骤S6:
根据βmax组合对应的各个第二集合的外接矩形从封面图像中分割出字符检测区域,并进行字符提取,利用OCR(光学字符识别)技术来检测字符并提取关键词。OCR技术为公知技术,不作为本发明的保护内容。
获取各个第二集合对应的字符后,基于置信度函数对图书进行分类。
将βmax组合中每个第二集合提取出的关键词与数据库进行对比,分析获取关键词的类别。设置文字类别的置信权值,题目、作者、系列标识、全书介绍以及出版信息的权值分别为
Figure GDA0003907525430000064
令置信权值满足
Figure GDA0003907525430000065
将相同类别关键词对应的置信权值相加,统计各类别置信权值之和并选择最大的置信权值和对应的类别作为该图书的类别。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于人工智能的图书自动分类方法,其特征在于,该方法包括:
S1、采集封面图像并转换色彩空间,再将色彩空间映射到三维空间中得到HSV色彩模型,统计各颜色值包含像素的数量并选取底色;
S2、根据底色的颜色值得到底色邻域模型,去除HSV色彩模型中属于底色邻域模型的区域,得到非底色模型和其中的预选像素;其中,所述底色邻域模型的获取方法为:
统计各颜色值包含像素的数量,按从大到小排列得到像素数量序列,选择像素数量序列中第a个颜色值作为底色,底色的坐标为(x′a,y′a,z′a),初始的a为1;
设置x轴方向阈值mx′、y轴方向阈值my′、z轴方向阈值mz′,底色邻域模型所占空间为[x′a-mx′,x′a+mx′]、[y′a-my′,y′a+my′]、[z′a-mz′,z′a+mz′];
S3、根据预选像素集合中像素点在三维空间中的颜色值进行第一密度聚类,获得若干个第一集合;
S4、根据各第一集合中像素点在封面图像对应图像坐标系中的位置进行第二密度聚类,获得若干个第二集合;
S5、检测第二集合中像素在封面图像中的外接矩形的特征序列,分析特征序列对应第二集合的文字类型,从各文字类型中各选择一个第二集合组成集合组合,获得集合组合中对应的字符感兴趣区域并根据字符感兴趣区域的面积占比计算集合组合面积评价指数,再根据第二集合外接矩形中心点计算集合组合的离散度评价指数;
判断是否需要调整底色,若需要调整底色,选择所述像素数量序列中第a+1个颜色值为底色后转到S2;若不需要调整底色,输出最佳集合组合,执行S6;
S6、根据最佳集合组合中第二集合对应外接矩形从封面图像中分割出字符检测区域,检测关键词并获得图书的类别;
其中,所述第一密度聚类的半径调整系数为
Figure FDA0003907525420000011
式中,V表示模型的体积;阈值调整系数为
Figure FDA0003907525420000012
式中,N表示模型中包含的像素个数;第一密度聚类的初始半径设置为r,初始阈值设置为n,经过调整后的聚类半径为r′=r×α1,调整后的聚类阈值为n′=n×α2
所述第二密度聚类的初始半径设置为
Figure FDA0003907525420000013
式中k2为第二阈值调整参数,I×J为封面图像的尺寸,所述第二密度聚类的初始阈值设置为
Figure FDA0003907525420000014
2.如权利要求1所述的方法,其特征在于,所述色彩空间转换,具体包括:
将封面图像转换到HSV色彩空间,得到各像素在HSV色彩空间中的位置,所述HSV色彩空间为圆锥形空间;
将HSV色彩空间映射到三维空间中,得到三维空间中的HSV色彩模型和像素的颜色值。
3.如权利要求1所述的方法,其特征在于,所述得到非底色模型和其中的预选像素的方法为:
获得三维空间中HSV色彩模型与底色邻域模型的交集F,将底色邻域模型减去F得到非底色模型,非底色模型中像素为预选像素。
4.如权利要求1所述的方法,其特征在于,所述检测第二集合中像素在封面图像中的外接矩形的特征序列,具体包括:
对第二集合标注序号,在封面图像坐标系中,统计第二集合中像素x坐标的最大值xmax、最小值xmin;y坐标的最大值ymax、最小值ymin
以x坐标范围为[xmin,xmax],y坐标范围为[ymin,ymax]的矩形为该第二集合的外接矩形;
第h个外接矩形的长度和宽度分别为Ih、Jh,Ih=xmax-xmin,Jh=ymax-ymin;外接矩形的中心点坐标为(xh,yh),
Figure FDA0003907525420000021
第二集合中包含像素数量为Nh,h为第二集合的序号,序号h的第二集合对应的特征序列为[Nh,xh,yh,Ih,Jh]。
5.如权利要求1所述的方法,其特征在于,所述获得集合组合中对应的字符感兴趣区域并根据字符感兴趣区域的面积占比计算集合组合面积评价指数,具体包括:
以集合组合中各第二集合外接矩形的中心为圆心,
Figure FDA0003907525420000022
为半径生成圆区域,对一个集合组合中圆区域求并集,并计算并集和封面图像的交集,得到字符感兴趣区域R,k2为第二阈值调整参数,I、J分别为封面图像的长度和宽度;
集合组合的面积评价指数为
Figure FDA0003907525420000023
SR为集合组合对应字符感兴趣区域的面积,S为封面图像的面积。
6.如权利要求5所述的方法,其特征在于,所述根据第二集合外接矩形中心点计算集合组合的离散度评价指数,具体包括:
统计集合组合对应β的最大值βmax,设置面积评价指数阈值mβ,若βmax≤mβ,需要调整底色;
若βmax>mβ,则计算βmax对应集合组合中各第二集合外接矩形中心点与封面图像中心点的距离df,f为βmax集合组合中第二集合的序号,计算集合组合离散度评价指数
Figure FDA0003907525420000024
F为βmax对应集合组合中第二集合的数量,If、Jf分别为第f个第二集合对应外接矩形的长度和宽度;
设置离散度评价指数阈值mγ,若γ<mγ,需要调整底色;若γ≥mγ,不需要调整底色,该集合组合为最佳集合组合。
CN202110209964.7A 2021-02-24 2021-02-24 基于人工智能的图书自动分类方法 Active CN112861985B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110209964.7A CN112861985B (zh) 2021-02-24 2021-02-24 基于人工智能的图书自动分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110209964.7A CN112861985B (zh) 2021-02-24 2021-02-24 基于人工智能的图书自动分类方法

Publications (2)

Publication Number Publication Date
CN112861985A CN112861985A (zh) 2021-05-28
CN112861985B true CN112861985B (zh) 2023-01-31

Family

ID=75991451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110209964.7A Active CN112861985B (zh) 2021-02-24 2021-02-24 基于人工智能的图书自动分类方法

Country Status (1)

Country Link
CN (1) CN112861985B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115174807B (zh) * 2022-06-28 2024-08-02 上海艾为电子技术股份有限公司 防抖检测方法、装置、终端设备和可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006065581A (ja) * 2004-08-26 2006-03-09 Matsushita Electric Works Ltd 文字・図形の認識方法および検査方法
JP2013024586A (ja) * 2011-07-15 2013-02-04 Univ Of Yamanashi モノスペクトル・マーカならびにその検出方法および装置
CN105653548A (zh) * 2014-11-12 2016-06-08 北大方正集团有限公司 一种电子文档页面类型识别方法和系统
CN108038506A (zh) * 2017-12-13 2018-05-15 四川九鼎智远知识产权运营有限公司 一种图书自动分类方法
CN110188764A (zh) * 2019-05-31 2019-08-30 浙江口碑网络技术有限公司 字符颜色识别处理方法及装置
CN111125416A (zh) * 2019-12-27 2020-05-08 郑州轻工业大学 一种基于多特征融合的图像检索方法
CN111860035A (zh) * 2019-04-25 2020-10-30 北京京东尚科信息技术有限公司 图书封面检测方法、装置及存储介质和电子设备
CN112131924A (zh) * 2020-07-10 2020-12-25 国网河北省电力有限公司雄安新区供电公司 一种基于密度聚类分析的变电站设备图像识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3422254B1 (en) * 2017-06-29 2023-06-14 Samsung Electronics Co., Ltd. Method and apparatus for separating text and figures in document images

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006065581A (ja) * 2004-08-26 2006-03-09 Matsushita Electric Works Ltd 文字・図形の認識方法および検査方法
JP2013024586A (ja) * 2011-07-15 2013-02-04 Univ Of Yamanashi モノスペクトル・マーカならびにその検出方法および装置
CN105653548A (zh) * 2014-11-12 2016-06-08 北大方正集团有限公司 一种电子文档页面类型识别方法和系统
CN108038506A (zh) * 2017-12-13 2018-05-15 四川九鼎智远知识产权运营有限公司 一种图书自动分类方法
CN111860035A (zh) * 2019-04-25 2020-10-30 北京京东尚科信息技术有限公司 图书封面检测方法、装置及存储介质和电子设备
CN110188764A (zh) * 2019-05-31 2019-08-30 浙江口碑网络技术有限公司 字符颜色识别处理方法及装置
CN111125416A (zh) * 2019-12-27 2020-05-08 郑州轻工业大学 一种基于多特征融合的图像检索方法
CN112131924A (zh) * 2020-07-10 2020-12-25 国网河北省电力有限公司雄安新区供电公司 一种基于密度聚类分析的变电站设备图像识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Consensus-based clustering for document image segmentation;Soumyadeep Dey1 etal.;《IJDAR》;20160921;全文 *
基于改进型YOLO网络的商品包装类型检测;方仁渊等;《电子测量技术》;20200430;第43卷(第7期);全文 *

Also Published As

Publication number Publication date
CN112861985A (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN106529380B (zh) 图像的识别方法及装置
JP4663013B2 (ja) 色類別方法、色認識方法及び色認識装置
US7558426B2 (en) Device for outputting character recognition results, character recognition device, and program therefor
EP1936536B1 (en) System and method for performing classification through generative models of features occuring in an image
US8326029B1 (en) Background color driven content retrieval
EP1271403B1 (en) Method and device for character location in images from digital camera
US20070201749A1 (en) Image Processing Device And Image Processing Method
JPH11288465A (ja) カラー画像処理装置及びパターン抽出装置
CN109948566A (zh) 一种基于权重融合与特征选择的双流人脸反欺诈检测方法
US20110050723A1 (en) Image processing apparatus and method, and program
JP2000172849A (ja) 画像処理装置及びパターン抽出装置
CA2502529A1 (en) Model of documents and method for automatically classifying a document
JP5830338B2 (ja) 帳票認識方法および帳票認識装置
JPH1153525A (ja) 顔器官検出装置及び媒体
CN110956099B (zh) 一种动态手势指令识别方法
CN109740572A (zh) 一种基于局部彩色纹理特征的人脸活体检测方法
CN112434699A (zh) 手写汉字或偏旁、笔划的自动提取及智能评分系统
Čuljak et al. Classification of art paintings by genre
CN113450369B (zh) 一种基于人脸识别技术的课堂分析系统及方法
CN104361357B (zh) 基于图片内容分析的相片集分类系统及分类方法
JP2010244372A (ja) 帳票認識方法および装置
CN102521610B (zh) 图片过滤方法和装置
CN112861985B (zh) 基于人工智能的图书自动分类方法
JP4275866B2 (ja) カラー画像から文字列パターンを抽出する装置および方法
CN113723410B (zh) 一种数码管数字识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant