CN117523589B

CN117523589B - 基于计算机视觉的图书信息自动检测方法

Info

Publication number: CN117523589B
Application number: CN202311839879.4A
Authority: CN
Inventors: 范效亮; 杨卫军
Original assignee: Jining Polytechnic
Current assignee: Jining Polytechnic
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-03-26
Anticipated expiration: 2043-12-29
Also published as: CN117523589A

Abstract

本发明涉及图像处理领域，具体涉及基于计算机视觉的图书信息自动检测方法，包括：采集图书灰度图像；根据图书灰度图像得到边框连通域和边框的大致区域；根据边框的大致区域得到每个像素点的信息熵；根据水平灰度差异和每个像素点的信息熵得到每个像素点的水平灰度差异；根据竖直灰度差异和每个像素点的信息熵得到每个像素点的竖直灰度差异；根据水平灰度差异和竖直灰度差异得到每个像素点的灰度特征，得到边框的大致区域中的所有边框像素点；根据图书灰度图像中的所有边框像素点得到最佳滤波窗口的大小，根据最佳滤波窗口的大小进行滤波，获取滤波后的图书灰度图像的图书信息并显示。本发明用图像处理方法，提高了图书信息检测的准确性。

Description

基于计算机视觉的图书信息自动检测方法

技术领域

本发明涉及图像处理技术领域，具体涉及基于计算机视觉的图书信息自动检测方法。

背景技术

随着数字图书馆的建设和图书数字化的推进，越来越多的纸质图书被扫描和转换为数字格式。这些数字图书的质量和可用性对于用户的阅读体验和信息获取非常重要。图书边框的自动检测可以帮助准确定位图书页面的边界，提高数字图书的质量和读取效果。自动检测图书边框可以成为文档分割和后续处理的重要步骤，有效地区分图书页面和其他背景信息，为后续的文字识别、布局分析等工作提供准确的输入。

其中，对于边框检测，通常检测图书在一张图像中的具体像素大小，并通过相机与采集物之间的距离得到其实际大小。在检测过程中，通常会出现背景和图书封面像素值接近，从而无法判断图书边框具体位置的问题，所以此处需要进行增强的操作，增加图书边框和背景之间的对比度，方便后续的边框检测。

发明内容

本发明提供基于计算机视觉的图书信息自动检测方法，以解决现有的问题。

本发明的基于计算机视觉的图书信息自动检测方法采用如下技术方案：

本发明一个实施例提供了基于计算机视觉的图书信息自动检测方法，该方法包括以下步骤：

采集图书灰度图像；

根据图书灰度图像得到边缘检测图，根据边缘检测图得到边框连通域；根据边框连通域得到边框的大致区域；

根据边框的大致区域中每个像素点的滑窗窗口内的所有像素点的灰度值得到每个像素点的信息熵；根据边框的大致区域中每个像素点与水平相邻的两个像素点之间的灰度差异和每个像素点的信息熵得到每个像素点的水平灰度差异；根据边框的大致区域中每个像素点与竖直相邻的两个像素点之间的灰度差异和每个像素点的信息熵得到每个像素点的竖直灰度差异；

根据边框的大致区域中每个像素点的水平灰度差异和竖直灰度差异得到每个像素点的灰度特征；根据边框的大致区域中每个像素点的灰度特征得到边框的大致区域中的所有边框像素点；

根据图书灰度图像中的所有边框像素点得到最佳滤波窗口的大小，根据最佳滤波窗口的大小对图书灰度图像进行滤波得到滤波后的图书灰度图像；

获取滤波后的图书灰度图像的图书信息并显示。

进一步地，所述根据图书灰度图像得到边缘检测图，根据边缘检测图得到边框连通域，包括的具体步骤如下：

使用canny算子对图书灰度图像进行边缘检测，得到边缘检测图，获取边缘检测图中的所有边缘像素点，获取边缘检测图中的所有边缘像素点组成的连通域，对所有的连通域作最小外接矩形，获取每个最小外接矩形的长，计算每个连通域最小外接矩形的宽与长的比值，得到每个连通域最小外接矩形的长宽比；

将连通域最小外接矩形的长宽比小于预设阈值A时对应的连通域记为边框连通域。

进一步地，所述根据边框连通域得到边框的大致区域，包括的具体步骤如下：

将所有的边框连通域按照最小外接矩形的长的方向进行延申，直到与另一个边框连通域相交时停止，得到由边框连通域对应的最小外接矩形围成的一个大致边框；

对大致边框延最小外接矩形的宽的方向扩展上B个像素点得到边框的大致区域，B为预设像素点数量。

进一步地，所述每个像素点的信息熵的具体获取步骤如下：

将灰度值相同的像素点归为一类；

每个像素点的信息熵的公式为：

式中，表示边框的大致区域中的第i个像素点对应的滑窗窗口内第m类像素点个数与第i个像素点对应的滑窗窗口内所有像素点个数之间的比值，M表示边框的大致区域中的第i个像素点对应的滑窗窗口内的类别个数，/>表示边框的大致区域中的第i个像素点的灰度信息熵。

进一步地，所述每个像素点的水平灰度差异的具体获取步骤如下：

每个像素点的水平灰度差异的公式为：

式中，表示边框的大致区域中的第i个像素点的灰度信息熵，/>表示边框的大致区域中的第i个像素点的灰度值，/>表示与第i个像素点水平向右相邻的一个像素点的灰度值，/>表示与第i个像素点水平向左相邻的一个像素点的灰度值，/>表示第i个像素点的水平灰度差异。

进一步地，所述每个像素点的竖直灰度差异的具体获取步骤如下：

每个像素点的竖直灰度差异的公式为：

式中，表示边框的大致区域中的第i个像素点的灰度信息熵，/>表示边框的大致区域中的第i个像素点的灰度值，/>表示与第i个像素点竖直向上相邻的一个像素点的灰度值，/>表示与第i个像素点竖直向下相邻的一个像素点的灰度值，/>表示第i个像素点的竖直灰度差异。

进一步地，所述每个像素点的灰度特征的具体获取步骤如下：

每个像素点的灰度特征的公式为：

式中，表示边框的大致区域中的第i个像素点的灰度特征，/>表示第i个像素点在水平方向上的灰度差异，/>表示第i个像素点在竖直方向上的灰度差异，/>表示以自然常数为底的指数函数。

进一步地，所述根据边框的大致区域中每个像素点的灰度特征得到边框的大致区域中的所有边框像素点，包括的具体步骤如下：

将边框的大致区域中的第i个像素点的灰度特征记为；当/>大于预设阈值D时，则判定边框的大致区域中的第i个像素点为边框像素点；当/>小于等于预设阈值D时，则判定边框的大致区域中的第i个像素点不是边框像素点。

进一步地，所述根据图书灰度图像中的所有边框像素点得到最佳滤波窗口的大小，根据最佳滤波窗口的大小对图书灰度图像进行滤波得到滤波后的图书灰度图像，包括的具体步骤如下：

首先统计出图书灰度图像中每行和每列的边框像素点个数，使用正太分布的3原则进行筛选，将每行和每列的边框像素点个数在/>的行和列进行保留，将每行和每列的边框像素点个数不在/>的行和列进行去除，依次对每行每列进行筛选，得到保留之后的所有行和列的边框像素点个数；其中/>分别表示所有行和列的边框像素点个数的均值和标准差；

然后获取保留之后的所有行和列的边框像素点个数，计算保留之后的所有行和列的边框像素点个数的均值除以2之后的边框像素点个数作为最佳滤波窗口的大小；通过最佳滤波窗口的大小使用中值滤波对图书灰度图像进行滤波得到滤波后的图书灰度图像。

进一步地，所述获取滤波后的图书灰度图像的图书信息并显示，包括的具体步骤如下：

通过滤波后的图书灰度图像使用canny算子进行边缘检测，得到边缘图，对边缘图中的所有边缘进行霍夫直线检测，得到所有的直线，获取处于同一条直线上的边缘，记为直线边缘，将最长的两个直线边缘记为图书的长和宽，将图书的长和宽作为图书信息进行显示。

本发明的技术方案的有益效果是：本发明通过对图书灰度图像的每个像素点与周围像素点之间的灰度信息作为中心像素点的灰度信息熵，通过每个像素点的灰度信息熵可以初步判断每个像素点为边框像素点的可能性；通过每个像素点与水平和竖直相邻像素点之间的灰度差异分析，对每个像素点的灰度信息熵进行修正，提高对每个像素点是否为边框像素点判断的准确性，根据修正后的结果得到每个像素点的灰度特征，根据每个像素点的灰度特征获取所有的边框像素点，根据所有的边框像素点确定出最佳滤波窗口的大小，根据最佳滤波窗口的大小对图书灰度图像进行滤波得到滤波后的图像，提高后续对图书的实际尺寸大小判断的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于计算机视觉的图书信息自动检测方法的步骤流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的基于计算机视觉的图书信息自动检测方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的基于计算机视觉的图书信息自动检测方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的基于计算机视觉的图书信息自动检测方法的步骤流程图，该方法包括以下步骤：

步骤S001：采集图书图像并对图书图像进行预处理。

需要说明的是，为了准确定位图书页面的边界，将针对图书的边框进行检测识别，获取图书尺寸的大小。因此需要获取图书图像，通过图书图像进行分析处理，得到图书的尺寸大小。

具体地，在图书的正上方安装一个摄像机，用摄像机采集图书封面图像，并对采集到的图书封面图像进行灰度化预处理，得到图书灰度图像。

至此，得到图书灰度图像。

步骤S002：获取边框的大致区域，对边框的大致区域进行分析，得到边框的大致区域中的所有边框像素点。

需要说明的是，对于滤波去噪，不同的滤波窗口对滤波去噪的影响不同，即滤波窗口大小影响着后续滤波的效果，所以需要先确定滤波窗口的大小。对于图书灰度图像的边框来说，较小的滤波窗口可以更细致地处理图像细节，但可能无法充分平滑图像中的噪声或细小纹理；而较大的滤波窗口可以更有效地减少噪声，但可能会导致图像的平滑度增加，造成细节丢失。所以需要先获取最佳的滤波窗口大小，根据最佳的滤波窗口大小进行滤波。由于本实施例只是获取图书的边框，所以图书中的其余地方不进行处理，因此先获取边框的大致区域，根据边框的大致区域进行分析。

（1）获取边框的大致区域。

需要说明的是，由于只是针对图书灰度图像中的边框进行分析，所以先对图书灰度图像中的中间一部分进行去除，留下图书灰度图像中边框的大致区域，用图书灰度图像中边框的大致区域进行分析。

进一步需要说明的是，为了获取边框的大致区域，对图像进行边缘检测，得到所有边缘像素点组成的连通域，但是边缘像素点组成的连通域中包含图书灰度图像中的中间一部分里面由字所组成的连通域，因此需要对中间部分字组成的连通域和图书灰度图像中边框像素点所组成的连通域进行区分。由于中间部分字组成的连通域比较小且偏向于正方形，而图书灰度图像中边框像素点所组成的连通域偏向于长方形，且长度比较长，所以根据连通域的特征获取图书灰度图像中边框像素点所组成的连通域，以此来得到边框的大致区域。

具体地，使用canny算子对图书灰度图像进行边缘检测，得到边缘检测图，获取边缘检测图中的所有边缘像素点，获取边缘检测图中的所有边缘像素点组成的连通域，对所有的连通域作最小外接矩形，获取每个最小外接矩形的长，其中，将最小外接矩形中最长的一个边长作为最小外接矩形的长，将最小外接矩形中稍短的一个边长作为最小外接矩形的宽。获取每个连通域最小外接矩形的宽与长的比值，记为每个连通域最小外接矩形的长宽比。

预设一个阈值A，其中本实施例以A=0.2为例进行叙述，本实施例不进行具体限定，其中A可根据具体实施情况而定。当连通域最小外接矩形的长宽比小于预设阈值A时，则将对应的连通域记为边框连通域；当连通域最小外接矩形的长宽比大于等于预设阈值A时，则将对应的连通域记为中间连通域。将所有的边框连通域按照最小外接矩形的长的方向进行延申，直到与另一个边框连通域相交时停止，至此，得到由边框连通域对应的最小外接矩形围成的一个大致边框。

需要说明的是，由于由边框连通域对应的最小外接矩形围成的一个大致边框是图书边框中的一部分信息，有些边框信息还没有包括在里面，所以需要将大致边框进行扩展，得到边框的大致区域。

预设一个像素点数量B，其中本实施例以B=30为例进行叙述，本实施例不进行具体限定，其中B可根据具体实施情况而定。对大致边框延最小外接矩形的宽的方向扩展上预设阈值B个像素点得到边框的大致区域。其中，边框的大致区域中不包含图书封面的字，且边框的大致区域为图书灰度图像中的一部分。

至此，得到边框的大致区域。

（2）对边框的大致区域进行分析，得到边框的大致区域中的边框像素点。

需要说明的是，在图书灰度图像中没有字和变宽的部分的像素点，其对应的灰度值都是相同的，而在边框处的像素点的灰度值的变化比较大，在除了图书灰度图像中封面区域的背景区域中的像素点的灰度值也是变化不大的，又由于封面中的中间部分，即有字干扰的一部分仪被去除，所以针对边缘的大致区域分析时，根据对边框的大致区域中像素点的灰度值变化情况进行分析。

具体地，对边框的大致区域进行两次遍历，第一次是从左到右，再从上到下的遍历，另外一次是从上到下，再从左到右遍历；第两次都是以每一个像素点为滑窗窗口中心点，以预设滑窗窗口大小进行滑窗。

具体地，预设一个滑窗窗口的尺寸为C，其中本实施例以C=7为例进行叙述，本实施例不进行具体限定，其中C可根据具体实施情况而定。则对应的滑窗窗口的大小为。然后从左到右，从上到下依次遍历边框的大致区域中的每一个像素点，以每一个像素点为滑窗窗口的中心点进行对滑窗滑动。

以边框的大致区域中的任意一个像素点为例进行叙述，获取任意一个像素点的滑窗窗口，统计滑窗窗口内所有像素点的灰度值，记为一组序列，其中，/>表示边框的大致区域中的第i个像素点对应的滑窗窗口内所有像素点的灰度值组成的一组序列，/>表示边框的大致区域中的第i个像素点对应的滑窗窗口内的第j个像素点的灰度值，N表示第i个像素点对应的滑窗窗口内所有像素点的个数。

将中灰度值相同的像素点归为一类，得到序列/>中所有像素点的灰度类别，根据序列/>中所有的像素点的灰度类别计算第i个像素点的灰度信息熵。具体用公式表示为：

需要说明的是，对边框的大致区域中的上边框和下边框、与左边框和右边框中的像素点的灰度分布是不同的，对于上边框和下边框对其从左到右进行遍历分析时，其灰度值变化差异不大，而如果从上到下进行遍历分析时，其灰度值变化差异很大。对于左边框和右边框对其从左到右进行遍历分析时，其灰度值变化差异很大，而如果从上到下进行遍历分析时，其灰度值变化差异不大。因此，利用每个像素点与水平和竖直相邻像素点之间的灰度差异进行对每个像素点的灰度信息熵进行修正，才能将所有像素点的灰度分布特征确定出来。

具体地，以图书灰度图像的坐下角对应的像素点为坐标原点，以水平向右为横轴，以竖直向上为纵轴建立坐标系。首先在水平方向上通过与相邻的两个像素点的灰度差异进行修正，用公式表示为：

式中，表示边框的大致区域中的第i个像素点的灰度信息熵，/>表示边框的大致区域中的第i个像素点的灰度值，/>表示与第i个像素点水平向右相邻的一个像素点的灰度值，/>表示与第i个像素点水平向左相邻的一个像素点的灰度值，/>表示第i个像素点在水平方向上的灰度差异，记为水平灰度差异。

其中，表示在水平方向上的灰度差异，其值越大，表示第i个像素点为边框像素点的可能性越大；值越小，则表示第i个像素点为边框像素点的可能性越小。

然后在竖直方向上通过与相邻的两个像素点的灰度差异进行修正，用公式表示为：

式中，表示边框的大致区域中的第i个像素点的灰度信息熵，/>表示边框的大致区域中的第i个像素点的灰度值，/>表示与第i个像素点竖直向上相邻的一个像素点的灰度值，/>表示与第i个像素点竖直向下相邻的一个像素点的灰度值，/>表示第i个像素点在竖直方向上的灰度差异，记为竖直灰度差异。

其中，表示竖直方向上的灰度差异，其值越大，表示第i个像素点为边框像素点的可能性越大；值越小，则表示第i个像素点为边框像素点的可能性越小。

通过结合水平和竖直方向上相邻像素点的灰度差异的修正，将水平和竖直方向上的修正结果进行结合得到每个像素点的灰度特征。用公式表示为：

其中，当越大，表示水平相邻像素点的灰度值的差异越大，像素点的灰度特征越大，则表示像素点为边框像素点的可能性越大；当/>越大，表示竖直相邻像素点的灰度值的差异越大，像素点的灰度特征越大，则表示像素点为边框像素点的可能性越大。

预设一个判定阈值D，其中本实施例以D=0.8为例进行叙述，本实施例不进行具体限定，其中0.8可根据具体实施情况而定。当大于阈值D时，则判定边框的大致区域中的第i个像素点为边框像素点；当/>小于等于阈值D时，则判定边框的大致区域中的第i个像素点不是边框像素点。

至此，得到边框的大致区域中的所有边框像素点。

步骤S003：根据边框的大致区域中的所有边框像素点得到最佳滤波窗口的大小，根据最佳滤波窗口的大小对图像进行滤波得到滤波后的图书灰度图像。

需要说明的是，通过获取到的所有边框像素点可以确定出每行每列中的边框像素点的个数，通过分析每行每列中的边框像素点个数可以得到图书边框的宽度，但是在分析每行每列中的边框像素点个数时，在上下边框中获取水平行中的边框像素点个数显然是不行的，即统计出的每行每列的边框像素点的个数可能是图书的长和宽，为了避免统计出图书的长和宽一样长的像素点个数，将根据每行每列中的边框像素点个数对每行每列进行筛选。

具体地，首先统计出图书灰度图像中每行和每列的边框像素点个数，使用正太分布的3原则进行筛选，将每行和每列的边框像素点个数在/>的行和列进行保留，将每行和每列的边框像素点个数不在/>的行和列进行去除，依次对每行每列进行筛选，得到保留之后的所有行和列的边框像素点个数。其中/>分别表示所有行和列的边框像素点个数的均值和标准差。

然后获取保留之后的所有行和列的边框像素点个数，计算保留之后的所有行和列的边框像素点个数的均值除以2之后的边框像素点个数作为最佳滤波窗口的大小。通过最佳滤波窗口的大小使用中值滤波对图书灰度图像进行滤波得到滤波后的图书灰度图像。

至此，得到滤波后的图书灰度图像。

步骤S004：获取滤波后的图书灰度图像的图书信息并显示。

至此，本实施例完成。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于计算机视觉的图书信息自动检测方法，其特征在于，该方法包括以下步骤：

采集图书灰度图像；

获取滤波后的图书灰度图像的图书信息并显示；

所述每个像素点的水平灰度差异的具体获取步骤如下：

每个像素点的水平灰度差异的公式为：

式中，表示边框的大致区域中的第i个像素点的灰度信息熵，/>表示边框的大致区域中的第i个像素点的灰度值，/>表示与第i个像素点水平向右相邻的一个像素点的灰度值，/>表示与第i个像素点水平向左相邻的一个像素点的灰度值，/>表示第i个像素点的水平灰度差异；

所述每个像素点的竖直灰度差异的具体获取步骤如下：

每个像素点的竖直灰度差异的公式为：

式中，表示边框的大致区域中的第i个像素点的灰度信息熵，/>表示边框的大致区域中的第i个像素点的灰度值，/>表示与第i个像素点竖直向上相邻的一个像素点的灰度值，/>表示与第i个像素点竖直向下相邻的一个像素点的灰度值，/>表示第i个像素点的竖直灰度差异；

所述根据图书灰度图像中的所有边框像素点得到最佳滤波窗口的大小，根据最佳滤波窗口的大小对图书灰度图像进行滤波得到滤波后的图书灰度图像，包括的具体步骤如下：

首先统计出图书灰度图像中每行和每列的边框像素点个数，使用正态分布的3原则进行筛选，将每行和每列的边框像素点个数在/>的行和列进行保留，将每行和每列的边框像素点个数不在/>的行和列进行去除，依次对每行每列进行筛选，得到保留之后的所有行和列的边框像素点个数；其中/>分别表示所有行和列的边框像素点个数的均值和标准差；

2.根据权利要求1所述基于计算机视觉的图书信息自动检测方法，其特征在于，所述根据图书灰度图像得到边缘检测图，根据边缘检测图得到边框连通域，包括的具体步骤如下：

3.根据权利要求1所述基于计算机视觉的图书信息自动检测方法，其特征在于，所述根据边框连通域得到边框的大致区域，包括的具体步骤如下：

4.根据权利要求1所述基于计算机视觉的图书信息自动检测方法，其特征在于，所述每个像素点的信息熵的具体获取步骤如下：

将灰度值相同的像素点归为一类；

每个像素点的信息熵的公式为：

5.根据权利要求1所述基于计算机视觉的图书信息自动检测方法，其特征在于，所述每个像素点的灰度特征的具体获取步骤如下：

每个像素点的灰度特征的公式为：

6.根据权利要求1所述基于计算机视觉的图书信息自动检测方法，其特征在于，所述根据边框的大致区域中每个像素点的灰度特征得到边框的大致区域中的所有边框像素点，包括的具体步骤如下：

7.根据权利要求1所述基于计算机视觉的图书信息自动检测方法，其特征在于，所述获取滤波后的图书灰度图像的图书信息并显示，包括的具体步骤如下：