CN112861985B

CN112861985B - 基于人工智能的图书自动分类方法

Info

Publication number: CN112861985B
Application number: CN202110209964.7A
Authority: CN
Inventors: 陈淑慧; 陈柯明; 张艳婷; 张旭朣; 胡稳
Original assignee: Zhengzhou University of Light Industry
Current assignee: Zhengzhou University of Light Industry
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2023-01-31
Anticipated expiration: 2041-02-24
Also published as: CN112861985A

Abstract

本发明提出一种基于人工智能的图书自动分类方法，该方法包括：采集封面图像并转换色彩空间，获取HSV色彩模型并选取底色；根据底色构建底色邻域模型，输出非底色模型和其中的预选像素。根据三维空间中和封面图像中预选像素的位置进行聚类，获得若干个第二集合。检测第二集合中像素外接矩形的特征序列，分析得到文字类型，选择各种第二集合组成集合组合，获得集合组合中对应的字符感兴趣区域面积并计算集合组合面积评价指数，再根据外接矩形中心点计算集合组合的离散度评价指数。判断是否需要调整底色，输出最佳集合组合。根据最佳集合组合中第二集合对应外接矩形从封面图像中分割出字符检测区域，检测关键词并获得图书的类别。

Description

基于人工智能的图书自动分类方法

技术领域

本申请涉及图书馆资料管理领域、计算机视觉领域，具体涉及一种基于人工智能的图书自动分类方法。

背景技术

如今全民阅读的风气盛行，得益于图书馆等阅读的基础设施趋于完善。图书馆中的藏书数量庞大，但如何高效地管理藏书，更好地为读者提供服务成为图书馆服务人员要面临的课题。图书馆藏书繁多，读者在选择图书时一般是通过图书分类索引进行检索，来获取感兴趣类型的图书。但是现在图书馆对图书的分类往往是粗略的分类，分类信息不够细致、丰富。对读者检索感兴趣的书籍造成了一定的困难，不利于读者高效快速地检索书籍。

现有图书分类方法一般为人工预先对图书进行分类，并将各图书的分类信息导入数据库中，通过扫码读出图书的分类信息，存在效率低下的问题。而且人工分类考虑的分类维度受限，导致分类信息比较单一，不够丰富，无法为读者提供足够的参考信息。

发明内容

针对以上问题，本发明提出一种基于人工智能的图书自动分类方法，该方法包括：采集封面图像并转换色彩空间，获取HSV色彩模型并选取底色；根据底色构建底色邻域模型，输出非底色模型和其中的预选像素。根据三维空间中和封面图像中预选像素的位置进行聚类，获得若干个第二集合。检测第二集合中像素外接矩形的特征序列，分析得到文字类型，选择各种第二集合组成集合组合，获得集合组合中对应的字符感兴趣区域面积并计算集合组合面积评价指数，再根据外接矩形中心点计算集合组合的离散度评价指数。判断是否需要调整底色，输出最佳集合组合。根据最佳集合组合中第二集合对应外接矩形从封面图像中分割出字符检测区域，检测关键词并获得图书的类别。

一种基于人工智能的图书自动分类方法，该方法包括：

S1、采集封面图像并转换色彩空间，再将色彩空间映射到三维空间中得到HSV色彩模型，统计各颜色值包含像素的数量并选取底色；

S2、根据底色的颜色值得到底色邻域模型，去除HSV色彩模型中属于底色邻域模型的区域，得到非底色模型和其中的预选像素；其中，所述底色邻域模型的获取方法为：

统计各颜色值包含像素的数量，按从大到小排列得到像素数量序列，选择像素数量序列中第a个颜色值作为底色，底色的坐标为(x′_a,y′_a,z′_a)，初始的a为1；

设置x轴方向阈值m_x′、y轴方向阈值m_y′、z轴方向阈值m_z′，底色邻域模型所占空间为[x′_a-m_x′,x′_a+m_x′]、[y′_a-m_y′,y′_a+m_y′]、[z′_a-m_z′,z′_a+m_z′]；

S3、根据预选像素集合中像素点在三维空间中的颜色值进行第一密度聚类，获得若干个第一集合；

S4、根据各第一集合中像素点在封面图像对应图像坐标系中的位置进行第二密度聚类，获得若干个第二集合；

S5、检测第二集合中像素在封面图像中的外接矩形的特征序列，分析特征序列对应第二集合的文字类型，从各文字类型中选择一个第二集合组成集合组合，获得集合组合中对应的字符感兴趣区域并根据字符感兴趣区域的面积占比计算集合组合面积评价指数，再根据第二集合外接矩形中心点计算集合组合的离散度评价指数；

判断是否需要调整底色，若需要调整底色，选择所述像素数量序列中第a+1个颜色值为底色后转到S2；若不需要调整底色，输出最佳集合组合，执行S6；

S6、根据最佳集合组合中第二集合对应外接矩形从封面图像中分割出字符检测区域，检测关键词并获得图书的类别；其中，所述第一密度聚类的半径调整系数为

式中，V表示模型的体积；阈值调整系数为

式中，N表示模型中包含的像素个数；第一密度聚类的初始半径设置为r，初始阈值设置为n，经过调整后的聚类半径为r′＝r×α₁，调整后的聚类阈值为n′＝n×α₂；

所述第二密度聚类的初始半径设置为

式中k₂为第二阈值调整参数，I×J为封面图像的尺寸，所述第二密度聚类的初始阈值设置为

所述色彩空间转换，具体包括：将封面图像转换到HSV色彩空间，得到各像素在HSV色彩空间中的位置，所述HSV色彩空间为圆锥形空间；将HSV色彩空间映射到三维空间中，得到三维空间中的HSV色彩模型和像素的颜色值。

所述得到非底色模型和其中的预选像素的方法为：获得三维空间中HSV色彩模型与底色邻域模型的交集F，将底色邻域模型减去F得到非底色模型，非底色模型中像素为预选像素。

所述检测第二集合中像素在封面图像中的外接矩形的特征序列，具体包括：

对第二集合标注序号，在封面图像坐标系中，统计第二集合中像素x坐标的最大值x_max、最小值x_min；y坐标的最大值y_max、最小值y_min。

以x坐标范围为[x_min，x_max],y坐标范围为[y_min，y_max]的矩形为该第二集合的外接矩形。

外接矩形的尺寸为I_h×J_h，I_h＝x_max-x_min，J_h＝y_max-y_min；外接矩形的中心点坐标为(x_h，y_h)，

第二集合中包含像素数量为N_h，h为第二集合的序号，序号h的第二集合对应的特征序列为[N_h，x_h，y_h，I_h，J_h]。

所述获得集合组合中对应的字符感兴趣区域并根据字符感兴趣区域的面积占比计算集合组合面积评价指数，具体包括：以集合组合中各第二集合外接矩形的中心为圆心，

为半径生成圆区域，对一个集合组合中圆区域求并集，并计算并集和封面图像的交集，得到字符感兴趣区域R，k₂为第二阈值调整参数，I×J为封面图像的尺寸；集合组合的面积评价指数为

S_R为集合组合对应字符感兴趣区域的面积，S为封面图像的面积。

所述根据第二集合外接矩形中心点计算集合组合的离散度评价指数，具体包括：统计集合组合对应β的最大值β_max，设置面积评价指数阈值m_β，若β_max≤m_β，需要调整底色；若β_max>m_β，则计算β_max对应集合组合中各第二集合外接矩形中心点与封面图像中心点的距离d_f，f为β_max集合组合中第二集合的序号，计算集合组合离散度评价指数

F为β_max对应集合组合中第二集合的数量，I_f×J_f为第f个第二集合对应外接矩形的尺寸；设置离散度评价指数阈值m_γ，若γ＜m_γ，需要调整底色；若γ≥m_γ，不需要调整底色，该集合组合为最佳集合组合。

本发明和现有技术相比有如下有益效果：

(1)通过底色邻域模型去除和底色颜色相近的像素点，有效地得到非底色的像素，提高了寻找字符像素的准确率。

(2)通过第二集合对应外接矩形特征序列分析得到集合的文字类型，将属于不同文字类型的第二集合组合起来，判断是否是文字区域，减少了计算量，提高了系统效率。

(3)根据集合组合对应字符检测区域的面积占比得到面积评价指数，和第二集合中心点到封面图像中心点的距离得到离散度评价指数，来评价字符检测区域内是否是封面上的文字区域，既考虑了整个字符检测区域的面积，又考虑了不同文字类型之间的离散度，提高了检测的准确度。

(4)判断需要调整底色时，调整底色，避免底色选取不合适去除了属于字符的像素，提高了系统的鲁棒性。

附图说明

图1为方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一：

本发明的主要目的是实现图书封面中文字提取和图书分类。

为了实现本发明所述内容，本发明设计了一种基于人工智能的图书自动分类方法，方法流程图如图1所示。

本发明通过对图书封面图像进行检测，并分割出封面中的题目、作者、系列标识、介绍性文字以及出版信息这5种文字区域，最后通过OCR字符识别技术来检测文字区域内的文字信息来对图书进行分类。

步骤S1：

通过相机采集图书的封面图像，用于后续的处理。

接着通过对像素的色彩分析获取封面图像的底色，所述封面图像为RGB图像，RGB颜色空间中，像素包含红色(R)，绿色(G)和蓝色(B)三个通道的值。可以利用R、G、B值来表示任何一种颜色。但由于亮度变化导致颜色连续变化时，R、G、B值的变换是不连贯的。所以RGB颜色空间对颜色的表示不够直观。为了方便处理封面图像，本发明将封面图像转换到HSV颜色空间，HSV颜色空间更接近人们对彩色的感知经验。可以直观地表达颜色的色调(H)、饱和度(S)和明度(V)，方便进行颜色的对比。

将封面图像转换到HSV色彩空间后，得到各像素在HSV色彩空间中的位置，所述HSV色彩空间为圆锥型空间，获得各个像素的H、S、V值。将HSV色彩看空间映射在三维空间中,得到在三维空间中的HSV色彩模型和各像素的颜色值，所述颜色值有x、y、z三个维度。HSV色彩空间中未设置圆锥的底面半径，本发明设置圆锥的底面半径为0.5，则三维空间中HSV色彩模型D以(0，0，0)为顶点，以(0，0，1)为底面圆心，0.5为底面圆半径。

获得三维空间中各个颜色值对应的像色在三维空间中颜色值为(x′_a,y′_a,z′_a)，初始的a为1。

步骤S2：

以(x′_a,y′_a,z′_a)为中心构建底色邻域模型E，设置x轴方向阈值m_x′、y轴方向阈值m_y′、z轴方向阈值m_z′。所述底色邻域模型为长方体，在三维空间中三个轴上所占区间为[x′_a-m_x′,x′_a+m_x′]、[y′_a-m_y′,y′_a+m_y′]、[z′_a-m_z′,z′_a+m_z′]。本实施例设置m_x′＝0.1、m_y′＝0.1，m_z′＝0.1。底色邻域模型表征和底色相近的颜色值，若像素在三维空间中的颜色值在底色邻域模型的范围里，说明该像素的颜色与底色相近。

为了筛选出非底色的像素，在三维空间中将模型D与模型E进行交运算得到交集F，再将模型D减去模型F得到非底色模型G。保留模型G范围内的像素，得到预选像素集合。

步骤S3：

对于预选像素集合中像素，根据其在三维空间中的颜色值，通过DBSCAN进行第一密度聚类，半径调整系数

式中V表示模型的体积；阈值调整系数

式中N表示模型中包含的像素个数，第一密度聚类的初始半径设置为r，初始阈值设置为n。经过调整后的聚类半径为r′＝r×α₁，n′＝n×α₂，在本实施例中初始半径r设置为0.3，初始阈值设置为

I×J为封面图像的尺寸，I、J分别为封面图像的长度和宽度,k₁为第一阈值调整参数，本实施例中设置k₁＝10。进行第一密度聚类后得到若干个第一集合。

本发明通过步骤S1和S2，将底色和与底色相近颜色的像素去除，并将剩下的像素中颜色相近的像素放入到若干个第一集合中去。

步骤S4：

步骤S3已经根据像素的颜色对像素进行了聚类，而图书封面图像中属于字体的像素不仅颜色相近，位置也是相近的。所以本步骤基于像素在封面图像对应图像坐标系中的位置进行聚类。

获取各第一集合中像素在图像坐标系中的坐标，对于一个第一集合中所有的像素，通过DBSCAN进行第二密度聚类，第二密度聚类的初始半径设置为

k₂为第二阈值调整参数，本实施例中设置k₂＝8。第二密度聚类的初始阈值设置为

进行第二密度聚类并获得若干个第二集合，每个第一集合对应若干个第二集合。第二集合中像素颜色类似，且在封面图像中位置相近。

步骤S5：

大部分图书封面底色为一种颜色，但是有些图书中底色为两种或以上的底色，如果其中一种颜色值的底色与字体的颜色值相近，则底色邻域模型中可能包含字体的颜色值，进而把字体像素筛除，导致封面字体识别错误。为了减小这种误差，本发明通过步骤S5对聚类的结果进行评价，判断是否需要调整底色。

对于每个第二集合，根据其中的像素在图像坐标系中坐标生成外接矩形。首先对第二集合标注序号，统计第二集合中像素x坐标的最大值x_max，最小值x_min；y坐标的最大值y_max，最小值y_min。则x坐标范围为[x_min，x_max],且y坐标范围为[y_min，y_max]的矩形为该第二集合的外接矩形。序号为h的外接矩形的长度和宽度分别为I_h、J_h，外接矩形的中心点坐标为(x_h，y_h)，第二集合中包含像素数量为N_h，h为第二集合的序号。

构建第二集合的特征序列[N_h，x_h，y_h，I_h，J_h]，训练全连接网络来对特征序列进行分类，检测第二集合中像素属于那种文字类型。图书封面中的文字主要分为以下五类：题目、作者、系列标识、全书介绍、出版信息。所以全连接网络的训练方法为：以若干个特征序列为数据集；对数据集中序列的文字类型进行标注，生成标注数据；使用交叉熵损失函数对全连接网络进行训练。

将各第二集合的特征序列输入全连接网络，输出为特征序列的文字类型，也即特征序列对应第二集合中像素的文字类型。统计各文字类型中第二集合的数量，设5种文字类型中第二集合数量分别为Z₁、Z₂、Z₃、Z₄、Z₅。则从每种文字类型中挑一个第二集合并组合起来，共有G＝Z₁*Z₂*Z₃*Z₄*Z₅种组合方式。

对于任意一种组合中的5个第二集合，以其外接矩形的中心(x_h，y_h)为圆心，

为半径生成圆区域。对一个组合中的圆区域取并集，得到并集区域，进一步地，获得并集区域与封面图像的交集区域，本发明称为字符感兴趣区域R。根据字符感兴趣区域R计算组合的面积评价指数β，

S_R为字符感兴趣区域R的面积，S为封面图像面积，所以S＝I×J。统计各个组合对应的β得到最大值β_max。

设置面积评价指数阈值m_β，若β_max≤m_β，说明该组合对应的字符感兴趣区域占封面图像的比例较低，字符感兴趣区域内不是封面图像中的题目、作者、系列标识、全书介绍、出版信息，需要重新选取底色，即将步骤S1中的a加上1之后重新执行步骤S2、S3、S4、S5。本实施例设置m_β＝0.1。

若β_max>m_β，则进一步对字符感兴趣区域进行评价：设置离散度评价指数γ，计算β_max组合中各第二集合对应外接矩形中心点与封面图像中心点的距离d_f，f为β_max组合中第二集合的序号，则

F为β_max组合中第二集合的数量，I_f、J_f分别为第f个第二集合对应外接矩形的长度和宽度；

为面积比例权值，其取值范围为(0，1],外接矩形面积占封面图像比例越大，则其对应的d_f占的权重越大，设置离散度评价指数阈值m_γ，当γ＜m_γ时，说明β_max组合中各第二集合分布比较集中，需要修正底色，将a加上1之后重新执行步骤S2、S3、S4、S5；当γ≥m_γ时，说明β_max组合中各第二集合分布比较分散，符合要求，继续执行步骤S6。本实施例设置m_γ＝0.5。

步骤S6：

根据β_max组合对应的各个第二集合的外接矩形从封面图像中分割出字符检测区域，并进行字符提取，利用OCR(光学字符识别)技术来检测字符并提取关键词。OCR技术为公知技术，不作为本发明的保护内容。

获取各个第二集合对应的字符后，基于置信度函数对图书进行分类。

将β_max组合中每个第二集合提取出的关键词与数据库进行对比，分析获取关键词的类别。设置文字类别的置信权值，题目、作者、系列标识、全书介绍以及出版信息的权值分别为

令置信权值满足

将相同类别关键词对应的置信权值相加，统计各类别置信权值之和并选择最大的置信权值和对应的类别作为该图书的类别。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。