CN117475438A

CN117475438A - 基于ocr技术的扫描文件矢量化转换方法

Info

Publication number: CN117475438A
Application number: CN202311376888.4A
Authority: CN
Inventors: 范红达; 沙伏生; 赵云; 庄玉龙; 朱静宇; 杨瑞钦; 陆猛; 郭尚
Original assignee: Beijing Dianju Information Technology Co ltd
Current assignee: Beijing Dianju Information Technology Co ltd
Priority date: 2023-10-23
Filing date: 2023-10-23
Publication date: 2024-01-30
Anticipated expiration: 2043-10-23
Also published as: CN117475438B

Abstract

本发明涉及图像处理技术领域，提出了基于OCR技术的扫描文件矢量化转换方法，包括：对报纸的版式文件通过扫描，得到栅格文件；对栅格文件中所有栅格得到若干初始类别及每个初始类别的特征框；得到不同种尺度的特征框之间的相似程度及若干第一类别；根据特征框的分布通过聚类得到若干区域；得到若干起始特征框及每个区域的若干初始基准线；获取每个区域的波动范围并调整初始基准线得到若干第一基准线；获取每个区域的若干最佳分割框；对每个最佳分割框获取若干特征栅格点，作为采样点对报纸版式文件的栅格文件进行矢量化转换。本发明旨在解决新闻报纸等版式文件通过OCR扫描后由于精度影响会导致栅格出现偏差而导致矢量文件失真的问题。

Description

基于OCR技术的扫描文件矢量化转换方法

技术领域

本发明涉及图像处理技术领域，具体涉及基于OCR技术的扫描文件矢量化转换方法。

背景技术

在数字化时代，对于大量的纸质文档需要进行数字化处理，以方便搜索、存档和共享；而新闻报纸作为一种重要的传媒载体，需要对纸质文件进行扫描和转换，通过对图像进行矢量化处理转换为可编辑及可搜索的文本文件，而对于新闻报纸这种版式文件，通常采用OCR技术进行扫描转换实现数字化处理。

在对新闻报纸等版式文件经OCR扫描后得到的栅格文件进行矢量化的过程中，需要确定栅格文件中的关键的栅格点，但是在处理过程中，由于OCR扫描精度的影响，会使得出现的扫描文件出现较大的误差，进而会造成矢量化过程中一些关键的栅格点出现偏差，或者被错误的选取，则会导致矢量化转换后，原本的新闻报纸等版式文件的矢量文件出现严重失真，不利于后续的利用；即扫描得到的栅格文件具有随机性，受纸质版式文件折痕等影响，导致扫描文件中不同区域内文字识别出现偏差，进而影响矢量文件的生成，降低新闻报纸等版式文件通过OCR技术扫描并矢量化的准确性。

发明内容

本发明提供基于OCR技术的扫描文件矢量化转换方法，以解决现有的新闻报纸等版式文件通过OCR扫描后由于精度影响会导致栅格出现偏差而导致矢量文件失真的问题，所采用的技术方案具体如下：

本发明一个实施例提供了基于OCR技术的扫描文件矢量化转换方法，该方法包括以下步骤：

对报纸的版式文件通过OCR技术扫描，得到栅格文件；

对栅格文件中所有栅格根据灰度值及分布进行聚类，得到若干初始类别及每个初始类别的特征框；根据不同种尺度的特征框的分布及邻域范围内其他特征框的分布，得到不同种尺度的特征框之间的相似程度及若干第一类别；

根据特征框的分布通过聚类得到若干区域；根据特征框及邻域范围内特征框分布，得到若干起始特征框及每个区域的若干初始基准线；根据特征框所属第一类别，获取每个区域的波动范围并调整初始基准线得到若干第一基准线；根据同一区域内不同第一基准线上特征框的变化，获取每个区域的若干最佳分割框；

对每个最佳分割框获取若干特征栅格点，作为采样点对报纸版式文件的栅格文件进行矢量化转换。

进一步的，所述得到若干初始类别及每个初始类别的特征框，包括的具体方法为：

对于栅格文件中任意两个栅格，获取两个栅格的欧式距离；计算两个栅格的灰度值的差值绝对值，记为两个栅格的灰度差异；将两个栅格的欧式距离与灰度差异的L2范数，作为两个栅格的距离度量；

对所有栅格进行DBSCAN聚类，根据栅格之间的距离度量，得到若干聚簇，每个聚簇记为一个初始类别，得到若干初始类别；

对于任意一个初始类别，获取该初始类别中坐标分布在最上方、最下方、最左边及最右边的四个栅格，记为该初始类别的边界栅格，过最上方及最下方两个边界栅格分别作两条水平直线，过最左边及最右边两个边界栅格分别作两条竖直直线，四条直线包围的范围记为该初始类别的特征框。

进一步的，所述得到不同种尺度的特征框之间的相似程度及若干第一类别，包括的具体方法为：

将相同尺度的特征框作为同一种尺度的特征框；对每个特征框获取中心，将任意两个特征框的中心之间的欧式距离，作为两个特征框的距离；对于任意一个特征框，以水平向右为0°正方向，逆时针每旋转45°作为一个邻域方向区间，对该特征框得到共8个邻域方向区间；对每个邻域方向区间获取其中的特征框，获取的特征框中心与该特征框的中心连线之间没有其他特征框存在，将获取到的特征框记为该特征框的相邻特征框；

根据不同种尺度的特征框的距离、特征框及邻域方向区间中相邻特征框的面积，得到不同种尺度的特征框之间的相似程度；

若相似程度大于相似阈值，将两种尺度的特征框归为同一类别，记为第一类别，对所有尺度的特征框进行归类，得到若干第一类别。

进一步的，所述得到不同种尺度的特征框之间的相似程度，包括的具体方法为：

其中，Y_i,j表示第i种尺度的特征框与第j种尺度的特征框之间的相似程度，N(i,j)表示对第i种尺度的特征框与第j种尺度的特征框中不同尺度的特征框进行组合，得到的特征框组合的数量；和/>表示权重；D_n(i,j)表示两种尺度的特征框下第n个特征框组合的距离系数，具体计算方法为D_n(i,j)＝1-exp[-d_n(i,j)]，其中d_n(i,j)表示第n个特征框组合中两个特征框的距离，exp[]表示以自然常数为底的指数函数；s_n(i)表示第n个特征框组合中第i种尺度对应的特征框的面积，s_n(j)表示第n个特征框组合中第j种尺度对应的特征框的面积，s_max表示栅格文件的所有特征框中的面积最大值，||表示求绝对值；M表示邻域方向区间的数量；γ_n,m表示两种尺度的特征框下第n个特征框组合的第m个邻域方向区间的参考权重，具体计算方法为δ_n,m＝|a_n,m(i)-a_n,m(j)|，其中δ_n,m表示两种尺度的特征框下第n个特征框组合的第m个邻域方向区间的差异系数，a_n,m(i)表示第n个特征框组合中第i种尺度对应的特征框在第m个邻域方向区间中相邻特征框的数量，a_n,m(j)表示第n个特征框组合中第j种尺度对应的特征框在第m个邻域方向区间中相邻特征框的数量，对第n个特征框组合的每个邻域方向区间获取差异系数，对所有差异系数进行softmax归一化，得到的结果作为每个邻域方向区间的参考系数，获取1减去参考系数的差值，对所有差值再进行softmax归一化，得到的结果作为每个邻域方向区间的参考权重；/>表示第n个特征框组合的第m个邻域方向区间中两个不同种尺度的特征框的相邻特征框的面积差异的均值。

进一步的，所述根据特征框的分布通过聚类得到若干区域，包括的具体方法为：

对所有特征框进行K-means聚类，聚类距离采用特征框之间的距离，采用K＝6进行聚类，对所有特征框根据距离聚类得到6个聚簇，将每个聚簇作为一个区域，得到6个区域。

进一步的，所述得到若干起始特征框及每个区域的若干初始基准线，包括的具体方法为：

对于任意一个特征框，获取该特征框存在相邻特征框的邻域方向区间数量，将每个邻域方向区间中与该特征框的距离最小的相邻特征框，记为该特征框在每个邻域方向区间的邻域特征框，第c个特征框的起始程度β_c的计算方法为：

其中，p_c表示第c个特征框存在相邻特征框的邻域方向区间数量，M表示邻域方向区间的数量，q_c表示第c个特征框的邻域系数，具体的计算方法为：获取每个邻域特征框与该特征框的距离，将距离最小值对应的邻域特征框记为该特征框的近邻特征框，获取除近邻特征框之外每个邻域特征框与近邻特征框的距离，记为该特征框的若干邻域距离，将所有邻域距离的倒数的均值记为该特征框的邻域系数；exp()表示以自然常数为底的指数函数；

获取每个特征框的起始程度，将起始程度大于起始阈值的特征框作为起始特征框；根据起始特征框向其他特征框连接得到每个区域的若干初始基准线。

进一步的，所述根据起始特征框向其他特征框连接得到每个区域的若干初始基准线，包括的具体方法为：

对于任意一个区域的任意一个起始特征框，获取与该起始特征框距离最小的特征框，记为该起始特征框的第一特征框，连接起始特征框的中心与第一特征框的中心，得到一条直线；获取与第一特征框距离最小的特征框，并连接第一特征框与该特征框的中心，得到一条直线；逐步寻找连接到当前特征框时，距离最小的特征框，并继续连接中心，连接过程仅考虑该区域内的特征框，若距离最小的特征框不属于该区域，选择该区域内距离最小的特征框进行连接；

对连接得到的直线分别计算斜率，从第二条直线开始，获取每条直线的斜率与前一条连接得到的直线的斜率的差值绝对值，记为每条直线的变化程度，若连接到某条直线时，直线的变化程度大于变化阈值，停止后续连接，截止到当前连接的特征框停止，将已经连接得到的若干条直线组成的折线，记为该起始特征框的初始基准线。

进一步的，所述获取每个区域的波动范围并调整初始基准线得到若干第一基准线，包括的具体方法为：

对于任意一个区域，获取该区域中所有特征框所属第一类别的数量，记为该区域的区域尺度参数，获取该区域的区域尺度参数与第一类别总数量的比值，获取该区域内特征框所属的若干第一类别，记为该区域的若干包含第一类别，获取每个包含第一类别在该区域内存在的特征框的数量，对所有数量求方差，将比值与方差的乘积记为该区域的波动参数；

获取每个区域的波动参数，对所有波动参数进行线性归一化，得到的结果记为每个区域的波动权重；对于任意一个区域，获取该区域内每个特征框的宽值，对该区域所有宽值求均值，将均值与的乘积，作为该区域的波动基准值，将波动基准值与波动权重的乘积，记为该区域的波动范围；

对于任意一条初始基准线，从其中每条直线的端点开始判断，从第二条直线开始，若直线两个端点的纵坐标差值大于波动范围，对直线右侧端点对应的特征框的中心进行舍弃，并判断第三条直线右侧端点与第二条直线左侧端点的纵坐标差值，若纵坐标差值小于或等于波动范围，直接相连两个端点；若纵坐标差值仍大于波动范围，继续舍弃第三条直线的右侧端点对应的中心，继续与下一个中心判断纵坐标差值与波动范围；对该条初始基准线中每条直线进行端点的纵坐标差值判断，大于波动范围舍去直线右侧端点对应的中心，并与下一个中心继续判断纵坐标差值，大于舍去，小于或等于则直接相连，将保留的直线与重新连接的直线共同组成的折线，记为该条初始基准线的第一基准线。

进一步的，所述获取每个区域的若干最佳分割框，包括的具体方法为：

对于任意一个区域，获取该区域内每条第一基准线上直线端点的数量，记为每条第一基准线的连接系数；对每条第一基准线获取纵坐标序列，纵坐标序列中第一基准线上特征框中心的纵坐标按照连接顺序排列，对该区域除连接系数最大值对应的第一基准线之外每条第一基准线的纵坐标序列进行二次线性插值，使得插值后的纵坐标系列中元素数量等于连接系数最大值，插值后的纵坐标序列记为每条第一基准线的修正纵坐标序列，连接系数最大值对应的第一基准线的纵坐标序列记为参考纵坐标序列；对参考纵坐标序列与所有修正纵坐标序列求均值，得到的序列记为该区域的标准纵坐标序列；

对于该区域的任意一条第一基准线，对该条第一基准线的修正纵坐标序列或参考纵坐标序列，与标准纵坐标序列从第二个元素开始，对遍历到的局部序列计算皮尔逊相关系数；从第三个元素开始，若该元素为纵坐标序列中的元素，不是插值添加的元素，获取该元素相邻前一个元素得到的皮尔逊相关系数与该元素得到的皮尔逊相关系数的差值，若差值大于判断阈值，对该元素的纵坐标分别计算加上步长后对应的皮尔逊相关系数，以及减去步长后的皮尔逊相关系数，重新计算相邻前一个元素与该元素调整后的皮尔逊相关系数的差值，将得到的两个差值中最小的差值对应的运算方法作为调整方向，加上步长是对该元素对应中心上移两个栅格，减去步长是对该元素对应中心下移两个栅格；

迭代进行调整，每次调整后均重新计算一个差值，当差值第一次小于或等于停止阈值时，停止调整，根据该元素当前调整后的纵坐标，作为该元素的最终纵坐标，根据最终纵坐标作为中心，对该元素对应中心所在的特征框进行宽值的调整；若第三个元素是插值添加的元素，或是纵坐标序列中的元素但差值小于或等于判断阈值，继续向后判断；若第三个元素调整得到最终纵坐标，将该序列中该元素的元素值调整为最终纵坐标，再进行后续元素的皮尔逊相关系数的计算与判断；

对该条第一基准线的修正纵坐标序列或参考纵坐标序列中所有属于纵坐标序列中的元素进行判断及调整，并对相应的特征框进行调整，将该条第一基准线上所有直线端点对应中心所在的完成调整的若干特征框，记为最佳分割框。

进一步的，所述对每个最佳分割框获取若干特征栅格点，包括的具体方法为：

对于任意一个最佳分割框，对该最佳分割框进行角点检测，获取其中若干角点，将得到的角点记为特征栅格点。

本发明的有益效果是：本发明通过对新闻行业的报纸等版式文件通过OCR技术扫描得到栅格文件，对栅格文件的每个栅格进行聚类处理，获取不同大小的特征框，然后对不同尺度的特征框进行分类处理，避免由于聚簇的差异，造成部分特征框大小尺度是相同的变为不同的缺点；进而根据特征框的分布对栅格文件进行区域划分，通过获取单个区域中的基准线，并结合区域内基准线的偏差变化来对特征框的大小进行调整，最终得到最佳分割框，避免了由于扫描后栅格文件的随机性，会使得同一个区域中的特征框可能会出现分布位置上的偏差，使得确定的分割框更加准确，进而可以获取到准确的特征栅格点，进行精准的矢量化处理。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例所提供的基于OCR技术的扫描文件矢量化转换方法流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明一个实施例所提供的基于OCR技术的扫描文件矢量化转换方法流程图，该方法包括以下步骤：

步骤S001、对报纸的版式文件通过OCR技术扫描，得到栅格文件。

本实施例的目的是对新闻行业的报纸等版式文件通过OCR技术扫描得到栅格文件后，再对栅格文件进行矢量化转换，从而实现对报纸等纸质文件的数字化处理；因此首先需要将版式文件置于扫描仪上，本实施例以报纸为例进行叙述，通过OCR技术的扫描软件进行扫描，扫描仪将对报纸采集到的图像转化为数字形式，生成一个栅格文件；需要说明的是，栅格文件中包含若干栅格，每个栅格相当于一个像素点，栅格则具有相应的灰度值。

至此，对报纸的版式文件通过扫描得到了栅格文件。

步骤S002、对栅格文件中所有栅格根据灰度值及分布进行聚类，得到若干初始类别及每个初始类别的特征框；根据不同种尺度的特征框的分布及邻域范围内其他特征框的分布，得到不同种尺度的特征框之间的相似程度及若干第一类别。

需要说明的是，在对新闻行业的报纸等版式文件经OCR扫描后的栅格文件进行矢量化的过程中，需要确定栅格文件中的关键的栅格点；考虑到新闻报纸等版式文件的规则性，以及扫描后的栅格文件的随机性，即扫描过程中由于光线影响、折痕等造成规则性被打破，通过对扫描后的栅格文件的每个栅格进行聚类处理，获取不同尺度的特征框，然后对不同尺度的特征框进行分类处理，避免由于聚类造成部分特征框大小尺度本应是相同的变为不同的缺点，即由于栅格分布的差异，使得由于栅格文件随机性影响导致的特征框尺度变化参与到后续分析中，而导致实际相同尺度的特征框被误分为不同尺度的特征框；后续则再通过特征框的分布进行区域划分，并进行基准线的获取，通过基准线来最大程度得到相同版式下的特征框，进而得到最佳分割框。

进一步需要说明的是，报纸等版式文件中不同区域的字体大小存在差异，因此需要根据栅格的灰度值及分布进行聚类，得到若干类别，通过对每个类别获取特征框，特征框则包括了相同字体大小的单个文字或多个文字；然而受到扫描后的栅格文件的随机性影响，相同字体大小得到的特征框的尺度存在差异，即光照或折痕等影响，因此需要对不同尺度的特征框根据分布及邻域范围中特征框的分布，计算不同尺度的特征框之间的相似程度，通过相似程度重新划分第一类别，第一类别则反映了相同字体大小的文字，为后续区域划分及基准线获取提供基础。

具体的，对于栅格文件中任意两个栅格，栅格在栅格文件中具有横坐标及纵坐标，根据横纵坐标获取两个栅格的欧式距离，同时计算两个栅格的灰度值的差值绝对值，记为两个栅格的灰度差异；将两个栅格的欧式距离与灰度差异的L2范数，作为两个栅格的距离度量，获取任意两个栅格的距离度量，对所有栅格进行DBSCAN聚类，根据栅格之间的距离度量，得到若干聚簇，每个聚簇记为一个初始类别，则得到若干初始类别；需要说明的是，欧式距离、L2范数及DBSCAN聚类均为公知技术，本实施例不再赘述。

进一步的，对于任意一个初始类别，其包含若干栅格，获取该初始类别中坐标分布在最上方、最下方、最左边及最右边的四个栅格，记为该初始类别的边界栅格，过最上方及最下方两个边界栅格分别作两条水平直线，过最左边及最右边两个边界栅格分别作两条竖直直线，四条直线包围的范围记为该初始类别的特征框；按照上述方法获取每个初始类别的特征框。

进一步需要说明的是，对于相同字体大小的特征框的重分类处理，即获取第一类别，其重分类的规则为：特征框的尺度要相似，同时还需要考虑周围特征框之间的邻域分布要基本相同，其中特征框之间距离越远则越考虑特征框尺度的相似，即对应的距离越远，特征框的邻域范围内可能出现较大的差异；若特征框之间的距离越近越考虑邻域范围的特征框的分布，即对应的距离越近，特征框的邻域范围内需要保证基本相同。

具体的，对于得到的若干特征框，将相同尺度(特征框的长宽均相同)的特征框作为同一种尺度的特征框；同时对每个特征框获取中心，将任意两个特征框的中心之间的欧式距离，作为两个特征框的距离；对于任意一个特征框，以水平向右为0°正方向，逆时针每旋转45°作为一个邻域方向区间，则对该特征框得到了共8个邻域方向区间(本实施例以八邻域内的特征框进行分析，实施者可根据实际情况设置邻域数量)；对每个邻域方向区间获取其中的特征框，获取的特征框中心与该特征框的中心连线之间需要保证没有其他特征框存在，将获取到的特征框记为该特征框的相邻特征框；则第i种尺度的特征框与第j种尺度的特征框之间的相似程度Y_i,j的计算方法为(其中i≠j)：

其中，N(i,j)表示对第i种尺度的特征框与第j种尺度的特征框中不同尺度的特征框进行组合，得到的特征框组合的数量，即特征框组合中两个特征框分别为第i种尺度的特征框与第j种尺度的特征框；和/>表示权重；D_n(i,j)表示两种尺度的特征框下第n个特征框组合的距离系数，具体计算方法为D_n(i,j)＝1-exp[-d_n(i,j)]，其中d_n(i,j)表示第n个特征框组合中两个特征框的距离，exp[]表示以自然常数为底的指数函数，本实施例采用exp[-x]模型来呈现反比例关系及归一化处理，其中x表示模型的输入，实施者可根据实际情况设置反比例函数及归一化函数；s_n(i)表示第n个特征框组合中第i种尺度对应的特征框的面积，s_n(j)表示第n个特征框组合中第j种尺度对应的特征框的面积，s_max表示栅格文件的所有特征框中的面积最大值，||表示求绝对值；M表示邻域方向区间的数量，本实施例采用M＝8进行叙述；γ_n,m表示两种尺度的特征框下第n个特征框组合的第m个邻域方向区间的参考权重，具体计算方法为δ_n,m＝|a_n,m(i)-a_n,m(j)|，其中δ_n,m表示两种尺度的特征框下第n个特征框组合的第m个邻域方向区间的差异系数，a_n,m(i)表示第n个特征框组合中第i种尺度对应的特征框在第m个邻域方向区间中相邻特征框的数量，a_n,m(j)表示第n个特征框组合中第j种尺度对应的特征框在第m个邻域方向区间中相邻特征框的数量，对第n个特征框组合的每个邻域方向区间获取差异系数，对所有差异系数进行softmax归一化，得到的结果作为每个邻域方向区间的参考系数，获取1减去参考系数的差值，对所有差值再进行softmax归一化，得到的结果作为每个邻域方向区间的参考权重；/>表示第n个特征框组合的第m个邻域方向区间中两个不同种尺度的特征框的相邻特征框的面积差异的均值，即是对该特征框组合中不同种尺度的特征框的任意两个相邻特征框计算面积的差值绝对值，作为面积差异，再对所有面积差异求均值。

此时，根据特征框的距离得到距离系数，距离系数仅是对距离进行归一化处理，作为面积相似及邻域范围相似的权重参与计算；而一个特征框组合下两个特征框的面积差异越小，特征框可能越相似，相似程度越大；同时对邻域范围进行分析，对于不同邻域方向区间，根据两个特征框在该邻域方向区间中相邻特征框数量的差异，进行不同邻域方向区间的参考权重的量化，差异越小越需要分析其中相邻特征框的面积差异，相应的邻域方向区间的参考权重越大，而面积差异越小，该邻域方向区间的分布越相似，则相似程度越大。

进一步的，按照上述方法获取任意两种尺度的特征框之间的相似程度，预设一个相似阈值，本实施例相似阈值采用0.7进行叙述，若相似程度大于相似阈值，则将两种尺度的特征框归为同一类别，记为第一类别，对所有尺度的特征框进行归类，得到若干第一类别；需要说明的是，相同第一类别中任意两个不同种尺度的特征框之间的相似程度均大于相似阈值。

至此，对栅格文件得到了若干特征框，同时将相同字体大小的文字对应的特征框归入相同的第一类别中。

步骤S003、根据特征框的分布通过聚类得到若干区域；根据特征框及邻域范围内特征框分布，得到若干起始特征框及每个区域的若干初始基准线；根据特征框所属第一类别，获取每个区域的波动范围并调整初始基准线得到若干第一基准线；根据同一区域内不同第一基准线上特征框的变化，获取每个区域的若干最佳分割框。

需要说明的是，对特征框进行第一类别划分后，则需要根据特征框分布，即特征框之间的距离进行区域划分；而对每个区域中的特征框进行起始程度计算，起始程度表征特征框是否为一行文字的起始位置或终止位置，而后得到起始特征框，根据起始特征框向其他特征框连接得到若干初始基准线；再对区域通过其中特征框所属第一类别来计算区域的波动范围，根据波动范围来调整初始基准线，保证栅格文件的随机性不会导致初始基准线产生较大波动，避免不属于该初始基准线的特征框被分入其中；然后对同一区域的若干第一基准线进行偏差分析，通过不同第一基准线上特征框的中心变化比对并调整，结合同一区域内基准线下的特征框分布差异应该较小的特征，最终得到每条第一基准线上的若干最佳分割框。

具体的，对所有特征框进行K-means聚类，聚类距离采用特征框之间的距离，本实施例采用K＝6进行聚类，则对所有特征框根据距离聚类得到6个聚簇，将每个聚簇作为一个区域，得到6个区域；对于任意一个区域，获取该区域中所有特征框所属第一类别的数量，记为该区域的区域尺度参数。

进一步的，对于任意一个特征框，获取该特征框存在相邻特征框的邻域方向区间数量，将每个邻域方向区间中与该特征框的距离最小的相邻特征框，记为该特征框在每个邻域方向区间的邻域特征框，则第c个特征框的起始程度β_c的计算方法为：

其中，p_c表示第c个特征框存在相邻特征框的邻域方向区间数量，M表示邻域方向区间的数量，本实施例采用M＝8进行叙述，q_c表示第c个特征框的邻域系数，具体的计算方法为：获取每个邻域特征框与该特征框的距离，将距离最小值对应的邻域特征框记为该特征框的近邻特征框，获取除近邻特征框之外每个邻域特征框与近邻特征框的距离，记为该特征框的若干邻域距离，将所有邻域距离的倒数的均值记为该特征框的邻域系数；exp()表示以自然常数为底的指数函数，本实施例采用exp(-x)模型来呈现反比例关系及归一化处理，其中x表示模型的输入，实施者可根据实际情况设置反比例函数及归一化函数；该特征框存在相邻特征框的邻域方向区间越少，其越靠近文字边界部分，起始程度越大；同时通过邻域特征框与近邻特征框之间的距离来反映邻域方向区间的分布密度，距离越小，距离的倒数越大，均值越大，分布越密集，同时存在特征框的邻域方向区间数量越少，其他特征框越可能紧随该特征框分布，起始程度越大；按照上述方法获取每个特征框的起始程度，预设一个起始阈值，本实施例起始阈值采用0.7进行叙述，将起始程度大于起始阈值的特征框作为起始特征框。

进一步的，以任意一个区域的任意一个起始特征框为例，获取与该起始特征框距离最小的特征框，记为该起始特征框的第一特征框，连接起始特征框的中心与第一特征框的中心，得到一条直线；按照上述方法获取与第一特征框距离最小的特征框，并连接第一特征框与该特征框的中心，得到一条直线；按照上述方法逐步寻找连接到当前特征框时，距离最小的特征框，并继续连接中心；对连接得到的直线分别计算斜率(根据中心的坐标计算，斜率计算为公知技术，本实施例不再赘述)，从第二条直线开始，获取每条直线的斜率与前一条连接得到的直线的斜率的差值绝对值，记为每条直线的变化程度，预设一个变化阈值，本实施例变化阈值采用0.4进行叙述，若连接到某条直线时，直线的变化程度大于变化阈值，则停止后续连接，截止到当前连接的特征框停止，将已经连接得到的若干条直线组成的折线，记为该起始特征框的初始基准线；需要说明的是，连接过程中起始特征框及特征框仅参与一次连接，连接到初始基准线后则不再参与连接，同时连接过程仅考虑该区域内的特征框，若距离最小的特征框不属于该区域，则选择该区域内距离最小的特征框进行连接；按照上述方法对每个起始特征框获取初始基准线，得到每个区域的若干初始基准线。

进一步的，对于任意一个区域，获取该区域的区域尺度参数与第一类别总数量的比值，获取该区域内特征框所属的若干第一类别，记为该区域的若干包含第一类别，获取每个包含第一类别在该区域内存在的特征框的数量，对所有数量求方差，将比值与方差的乘积记为该区域的波动参数；按照上述方法获取每个区域的波动参数，对所有波动参数进行线性归一化，得到的结果记为每个区域的波动权重；对于任意一个区域，获取该区域内每个特征框的宽值，即特征框内最上方栅格与最下方栅格的纵坐标差值，对该区域所有宽值求均值，将均值与的乘积，作为该区域的波动基准值，将波动基准值与波动权重的乘积，记为该区域的波动范围；本实施例中/>为超参数，用于平衡不同尺度的特征框的宽值，实施者可根据实际情况自行设置；区域内特征框所属第一类别数量越多，且包含第一类别中数量的方差越大，允许的波动范围越大，结合波动基准值得到波动范围；按照上述方法获取每个区域的波动范围。

进一步的，对于任意一条初始基准线，从其中每条直线的端点开始判断，直线端点即为特征框的中心，从第二条直线开始，若直线两个端点的纵坐标差值(大值减小值)大于波动范围，则对直线右侧端点进行舍弃，即舍弃对应中心，并判断第三条直线右侧端点与第二条直线左侧端点的纵坐标差值，即判断下一个中心与当前判断的前一个中心的纵坐标差值，若纵坐标差值小于或等于波动范围，则直接相连两个端点，即舍弃第二条直线与第三条直线，对第二条直线的左侧端点与第三条直线的右侧端点直接相连；若纵坐标差值仍大于波动范围，则继续舍弃第三条直线的右侧端点对应的中心，继续与下一个中心判断纵坐标差值与波动范围；按照上述方法对该条初始基准线中每条直线进行端点的纵坐标差值判断，大于波动范围则舍去直线右侧端点对应的中心，并与下一个中心继续判断纵坐标差值，大于同样舍去，小于或等于则直接相连，若最后一条直线右侧端点同样需要舍去，则直接舍去最后一条直线，最终对该条初始基准线每条直线的左右端点都进行了纵坐标差值判断，将调整后的初始基准线，即保留的直线与重新连接的直线共同组成的折线，记为该条初始基准线的第一基准线；按照上述方法对每条初始基准线获取第一基准线。

进一步的，对于任意一个区域，获取该区域内每条第一基准线上直线端点的数量，即特征框中心的数量，记为每条第一基准线的连接系数；对每条第一基准线获取纵坐标序列，纵坐标序列中第一基准线上特征框中心的纵坐标按照连接顺序排列，元素数量即为连接系数，对该区域除连接系数最大值对应的第一基准线之外每条第一基准线的纵坐标序列进行二次线性插值，使得插值后的纵坐标系列中元素数量等于连接系数最大值，插值后的纵坐标序列记为每条第一基准线的修正纵坐标序列，连接系数最大值对应的第一基准线的纵坐标序列记为参考纵坐标序列；对参考纵坐标序列与所有修正纵坐标序列求均值，即相同位置的元素求均值，得到的序列记为该区域的标准纵坐标序列。

进一步的，对于该区域的任意一条第一基准线，对该条第一基准线的修正纵坐标序列(参考纵坐标序列)与标准纵坐标序列从第二个元素开始，对遍历到的局部序列计算皮尔逊相关系数，即对两个序列的前两个元素构成的局部序列计算皮尔逊相关系数，再对两个序列的前三个元素构成的局部序列计算皮尔逊相关系数，以此类推；从第三个元素开始，若该元素为纵坐标序列中的元素，不是插值添加的元素，则获取该元素相邻前一个元素得到的皮尔逊相关系数与该元素得到的皮尔逊相关系数的差值，预设一个判断阈值，本实施例判断阈值采用0.3进行叙述，若差值大于判断阈值，表明皮尔逊相关系数迅速减小，需要对该元素对应的特征框进行调整，本实施例采用迭代步长为2对该元素进行调整，对该元素的纵坐标分别计算加2后对应的皮尔逊相关系数，以及减2后的皮尔逊相关系数，重新计算相邻前一个元素与该元素调整后的皮尔逊相关系数的差值，将得到的两个差值中最小的差值对应的运算方法作为调整方向，加2即是对该元素对应中心上移两个栅格，减2即是对该元素对应中心下移两个栅格；获取到调整方向后，则迭代进行调整，预设一个停止阈值，本实施例停止阈值采用0.2进行叙述，每次调整后均重新计算一个差值，当差值第一次小于或等于停止阈值时，则停止调整，根据该元素当前调整后的纵坐标，作为该元素的最终纵坐标，根据最终纵坐标作为中心，对该元素对应中心所在的特征框进行宽值的调整；若第三个元素是插值添加的元素，或是纵坐标序列中的元素但差值小于或等于判断阈值，则继续向后判断；若第三个元素调整得到最终纵坐标，则将该序列中该元素的元素值调整为最终纵坐标，再进行后续元素的皮尔逊相关系数的计算与判断；按照上述方法对该条第一基准线的修正纵坐标序列(参考纵坐标序列)中所有属于纵坐标序列中的元素进行判断及调整，并对相应的特征框进行了调整，将该条第一基准线上所有直线端点对应中心所在的完成调整的若干特征框，记为最佳分割框；则按照上述方法对每个区域获取标准纵坐标序列，对每条第一基准线结合标准纵坐标序列，得到若干最佳分割框。

至此，获取到了栅格文件中若干最佳分割框。

步骤S004、对每个最佳分割框获取若干特征栅格点，作为采样点对报纸版式文件的栅格文件进行矢量化转换。

需要说明的是，最佳分割框的获取即是消除了扫描得到的栅格的随机性影响后，能够保证在第一基准线下将单个文字或多个文字通过最佳分割框提取，从而避免折痕等带来的版式文件发生错行或偏差的影响；而最佳分割框中包含若干文字，对栅格文件进行矢量化则主要基于文字的特征点，由于栅格文件即为图像形式，则可以对每个最佳分割框通过角点检测获取特征栅格点，再将特征栅格点作为采样点来完成矢量化转换。

具体的，以任意一个最佳分割框为例，对该最佳分割框进行角点检测，获取其中若干角点，将得到的角点记为特征栅格点；按照上述方法对每个最佳分割框获取若干特征栅格点，其中角点检测为公知技术，本实施例不再赘述。

进一步的，将得到的所有特征栅格点，作为采样点，参与对报纸版式文件扫描得到的栅格文件的矢量化转换，输出报纸版式文件的矢量化文件，实现报纸等纸质版式文件的数字化处理，其中矢量化转换方法为公知技术，本实施例不再赘述。

至此，通过OCR技术对新闻行业的报纸版式文件获取了栅格文件，再通过如上方法对栅格文件完成了矢量化转换，保证了报纸版式文件矢量化转换后的真实性及准确性。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于OCR技术的扫描文件矢量化转换方法，其特征在于，该方法包括以下步骤：

对报纸的版式文件通过OCR技术扫描，得到栅格文件；

2.根据权利要求1所述的基于OCR技术的扫描文件矢量化转换方法，其特征在于，所述得到若干初始类别及每个初始类别的特征框，包括的具体方法为：

3.根据权利要求1所述的基于OCR技术的扫描文件矢量化转换方法，其特征在于，所述得到不同种尺度的特征框之间的相似程度及若干第一类别，包括的具体方法为：

4.根据权利要求3所述的基于OCR技术的扫描文件矢量化转换方法，其特征在于，所述得到不同种尺度的特征框之间的相似程度，包括的具体方法为：

5.根据权利要求3所述的基于OCR技术的扫描文件矢量化转换方法，其特征在于，所述根据特征框的分布通过聚类得到若干区域，包括的具体方法为：

6.根据权利要求3所述的基于OCR技术的扫描文件矢量化转换方法，其特征在于，所述得到若干起始特征框及每个区域的若干初始基准线，包括的具体方法为：

7.根据权利要求6所述的基于OCR技术的扫描文件矢量化转换方法，其特征在于，所述根据起始特征框向其他特征框连接得到每个区域的若干初始基准线，包括的具体方法为：

8.根据权利要求7所述的基于OCR技术的扫描文件矢量化转换方法，其特征在于，所述获取每个区域的波动范围并调整初始基准线得到若干第一基准线，包括的具体方法为：

9.根据权利要求8所述的基于OCR技术的扫描文件矢量化转换方法，其特征在于，所述获取每个区域的若干最佳分割框，包括的具体方法为：

10.根据权利要求1所述的基于OCR技术的扫描文件矢量化转换方法，其特征在于，所述对每个最佳分割框获取若干特征栅格点，包括的具体方法为：