CN110826393B

CN110826393B - 钻孔柱状图信息自动提取方法

Info

Publication number: CN110826393B
Application number: CN201910876589.4A
Authority: CN
Inventors: 张军强; 章逸; 田宜平; 刘刚; 张志庭; 何珍文; 陈麒玉; 翁正平; 李章林
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2019-09-17
Filing date: 2019-09-17
Publication date: 2022-12-30
Anticipated expiration: 2039-09-17
Also published as: CN110826393A

Abstract

本发明公开了一种高效的钻孔柱状图信息自动提取方法，包括以下步骤：步骤1、对纸质钻孔柱状图依次进行扫描、矫正、消畸等预处理；步骤2、将预处理后的钻孔柱状图界面抽象为一系列矩形单元格，利用一系列矩形单元格将钻孔柱状图剖分为若干矩形图片；步骤3、训练矩形图片中的字符库，采用训练后的字符库识别矩形图片，将若干矩形图片的识别结果进行组合，得出钻孔柱状图信息提取结果。本发明具有有效解决钻孔柱状图中岩芯厚度和其描述信息高度不一致时的分层信息的提取问题，同时能解决专业词汇的识别效率低的问题，能提高钻孔柱状图信息提取的效率和准确性。

Description

钻孔柱状图信息自动提取方法

技术领域

本发明涉及地质信息处理技术领域。更具体地说，本发明涉及一种高效的钻孔柱状图信息自动提取方法。

背景技术

钻孔柱状图是根据对钻孔岩(矿)心(或岩屑、岩粉)的观察鉴定、取样分析及在钻孔内进行的各种测试所获资料而编制成的一种基础图件。它可以形象地表示出钻孔通过的岩层、矿体及其相互关系，是编制地质剖面图、综合类地质图件和三维地质建模的基础数据。由于历史的原因，我们能利用的往往是纸质版的或电子版的钻孔柱状图。为了钻孔数据的深入分析和应用，需要从钻孔柱状图中提取信息输入到结构化的表格中进行存储和管理。但该过程耗时耗力，为了减轻人力成本和提高效率，迫切需要研发钻孔柱状图信息的自动识别技术。

中国发明专利CN 201010157789.3，提出了一种对表格图像进行校正的方法。该方法包括匹配和映射两个步骤，把通过匹配步骤得到的匹配的待校正表格单元映射到与所述匹配的待校正表格单元相匹配的相应标准表格单元，以形成校正的表格图像，能校正扫描过程中图像的扭曲、旋转、缩放和平移等现象。中国发明专利201310148624.3，提出了一种表格文档图像中字符提取方法，该方法通过边缘检测与Hough变换算法提取出图像中的线段，根据线段的方向分布估计整幅图像的倾斜角度，对图像进行倾斜校正，对水平和垂直方向上的线段进行连接，定位出表格的单元格；针对每个单元格，采用最大类间方差方法进行图像二值化，分割出单元格中的整行字符，通过滑动窗口法提取出单元格中的每个字。中国发明专利201310148878.5，提出了一种融合全局和局部信息的表格线提取方法，该方法首先对灰度图像进行平滑去噪，然后进行基于交叠窗口的图像二值化，随后提取出前景区域中的局部轮廓，利用局部轮廓信息检测出图像中的直线段，最后，在网格范围内对直线段进行连接，从而提取出整个表格线。

尽管以上发明在一定程度上提高了复杂表格对象的信息提取效率，但若应用到钻孔柱状图信息的提取过程中，也存在不少问题。

发明内容

本发明的一个目的是解决至少上述问题，并提供至少后面将说明的优点。

本发明还有一个目的是提供一种高效的钻孔柱状图信息自动提取方法，该方法能有效解决钻孔柱状图中岩芯厚度和其描述信息高度不一致时的分层信息的提取问题，同时能解决专业词汇的识别效率低的问题，提高了钻孔柱状图信息提取的效率和准确性。

为了实现根据本发明的这些目的和其它优点，提供了一种高效的钻孔柱状图信息自动提取方法，包括以下步骤：

步骤1、对纸质钻孔柱状图依次进行扫描、矫正、消畸及预处理；

步骤2、将预处理的钻孔柱状图中的界面抽象为一些列矩形单元格，利用一些列单元格将钻孔柱状图剖分为若干矩形图片；

步骤3、训练矩形图片的字符库，采用训练后的字符库识别矩形图片，将若干矩形图片的识别结果进行组合，得出钻孔柱状图信息提取结果。

优选的是，还包括：步骤4、利用提取结果采用结构化编图的方法反向绘制矢量格式的钻孔柱状图，与原始钻孔柱状图进行对比，对矢量格式的钻孔柱状图进行修改。

优选的是，步骤2中基于角标的单元格切分方法将钻孔柱状图界面抽象为一系列矩形单元格。

优选的是，步骤2中单元格角标的获取方法为：通过角度将提取的钻孔柱状图表格线划分为n条表格横线和m条表格竖线，用两个端点分别表示表格横线和表格竖线，表述公式记为

其中x_r1<x_r2，y_c1<y_c2，x_r1、x_r2分别表示表格横线的横坐标，y_r表示表格横线的纵坐标，即与提取的钻孔柱状图上边界的距离，x_c表示表格横线的横坐标，即与提取的钻孔柱状图左边界的距离，y_c1、y_c2分别表示表格竖线的纵坐标；

表格横线与表格竖线产生一个交点，记为(x_c,y_r)，根据交点位置为每一个交点赋予角标编号，如若交点为表格横线的左端点且是表格竖线上端点，那么该交点位置记为1号角标，关系函数公式记为：

交点具备多个角标编号，如位于表格内部的交点极大概率是拥有三个或四个编号的复合角标，位于表格边界的点拥有一个或两个编号的复合角标；

角标的表达方式是在点坐标基础上添加一个长度为4，值为0或1的一位数组，即：Sign:{x,y,type[0,0,0,0]}，其中(x,y)存放的是角标的坐标，type存放的是角标编号。

优选的是，获取单元格角标后，采用3角标法进行单元格的构建，具体方法为：首先获取满足公式sign_i,j.type[0]＝1的(i,j)，其中sign是一个二维数组，按行存放交点，sign_i,j代表位于第i行第j列的1号角标；找出k使得sign_i,k.type[1]＝1，且不存在k′∈(j,k)使得sign_i,k′.type[1]＝1，sign_i,k是位于sign_i,j右侧最近的2号角标；找出l,r使得sign_l,r.type[3]＝1且sign_l,r.x＝sign_i,k.，且不存在l′∈(i,l)，r′∈N满足sign_l，,r′.type[3]＝1且sign_l′,r′.x＝sign_i,k.x，sign_l,r是位于sign_i,k下方最近的4号角标；利用获取的1、2、4号角组合得到对应的单元格。

优选的是，采取逐行逐列地对单元格进行判断，最终得到系列矩形单元格。

本发明至少包括以下有益效果：本发明采用基于角标的结构分析和基于机器学习的结构理解相结合的方法进行钻孔柱状图信息的自动提取。该方法能有效解决钻孔柱状图中岩芯厚度和描述信息高度不一致时的分层信息的提取问题，同时能解决专业词汇的识别效率低的问题，能提高钻孔柱状图信息提取的效率和准确性。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明的钻孔柱状图信息自动提取流程图；

图2为本发明3角标组合进行矩形单元格剖分示意图；

图3为本发明3角标组合法切割柱状流程图；

图4为基于Tesseract的字符库训练流程图。

具体实施方式

下面结合附图和实施例对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

钻孔柱状图在形式上是文本和符号的组合，具有简明和易于阅读的特点，其本质是复杂的表格图件。版面分析和版面理解是针对这类表格图件进行信息提取的两个层次。其中，版面分析侧重于研究表格图件的几何结构，主要进行结构层次的分析，将版面内的表格域、图域、文本域等信息定位并提取，为接下来的版面理解奠定基础。版面理解侧重于研究图面的逻辑结构，是对经过分析后的复杂版面做逻辑层次的分析，确定每个区域的逻辑编号和分类，针对不同的类别采取不同的处理方式。

本实施例提供一种高效的钻孔柱状图信息自动提取方法，如图1所示，包括以下步骤：

步骤1、对纸质钻孔柱状图依次进行扫描及预处理；

具体为：通过电子扫描仪扫描纸质钻孔柱状图，得到电子版的钻孔柱状图图像，并对其进行校正纠偏处理，消除扫描过程中产生的变形，对钻孔柱状图图像进行预处理，以消除图像中无关的信息，增强相关信息的可检测性和最大限度地简化数据，便于钻孔柱状图表格线的提取，从而增强特征抽取、图像切分、匹配和识别的可靠性。

步骤2、将预处理的钻孔柱状图中的界面基于角标的单元格切分方法抽象为一系列矩形单元格，利用一系列矩形单元格将钻孔柱状图剖分为若干矩形图片；

步骤2.1、单元格角标的获取方法为：通过角度将提取的钻孔柱状图表格线划分为n条表格横线和m条表格竖线，用两个端点分别表示表格横线和表格竖线，表述公式记为

其中x_r1<x_r2，y_c1<y_c2，x_r1、x_r2分别表示表格横线的横坐标，y_r表示表格横线的纵坐标，即与提取的钻孔柱状图上边界的距离，x_c分别表示表格横线的横坐标，即与提取的钻孔柱状图左边界的距离，y_c1、y_c2分别表示表格竖线的纵坐标；

角标的表达方式是在点坐标基础上添加一个长度为4，值为0或1的一位数组，即：Sign:{x,y,type[0,0,0,0]}，其中(x,y)存放的是角标的坐标，type存放的是角标编号，如存在一个角标s＝{point(50,100),type[1,0,1,0]}，那么代表位于(50,100)处的点是一个拥有1号角标和3号角标两种编号的复合角标。

步骤2.2、表格的基本元素是矩形单元格，单元格的最明显的特征是四个顶点。在钻孔柱状图中，一个正常的单元格由四个角标所组成，如附图2(a)所示。在普通的表格中，1号角标和距离1号角标最近的4号角标便可以定位出一个单元格，但是钻孔柱状图中的单元格排列并不是规律的，如图2(b)所示，阴影区域则是可能错误识别的区域，为了防止这种错误的发生，本文采取三角标(1号、2号、4号)组合的方式定位单元格，由于畸形单元格没有3号角标，所以通过1号角标、1号角标右侧最近的2号角标以及2号角标下方最近的4号角标来精准定位单元格。

故获取单元格角标后，采用3角标法进行单元格的构建，具体方法为：首先获取满足公式sign_i,j.type[0]＝1的(i,j)，其中sign是一个二维数组，按行存放交点，sign_i,j代表位于第i行第j列的1号角标；找出k使得sign_i,k.type[1]＝1，且不存在k′∈(j,k)使得sign_i,k′.type[1]＝1，sign_i,k是位于sign_i,j右侧最近的2号角标；找出l,r使得sign_l,r.type[3]＝1且sign_l,r.x＝sign_i,k.x，且不存在l′∈(i,l)，r′∈N满足sign_l′,r′.type[3]＝1且sign_l′,r′.x＝sign_i,k.x，sign_l,r是位于sign_i,k下方最近的4号角标；利用获取的1、2、4号角组合得到对应的单元格，如图2(c)所示；

采取逐行逐列地对单元格进行判断，最终得到系列矩形单元格，如图3所示。

步骤3、训练矩形图片的字符库，采用训练后的字符库识别矩形图片，将每个矩形图片的识别结果进行组合，得出钻孔柱状图信息提取结果；

采用开源的Tesseract-OCR作为识别工具，识别矩形图片中的汉字、数字、英文字母和特殊的地质符号，并且通过机器学习训练Tesseract-OCR，扩大其识别样本，减少由于原识别库对中文样本和地质符号训练程度不足的问题，提高Tesseract-OCR对用特殊地质符号的识别能力，训练过程如附图4所示，训练步骤如下所示；

1)生成训练图像

本发明使用的Tesseract版本，需要将图像转换成tif/tiff格式的图片，使用jTessBoxEditor工具将图片转换为tif文件，可以同时转换多个图片。

2)生成box文件

Tesseract使用.box后缀的文件存储tif图片中每个文字的坐标位置、尺寸信息，使用如下命令生成box文件。box文件中从左到右所代表的内容依次是①识别出的字符；②字符在图中的x坐标；③字符在图中的y坐标；④字符的宽度；⑤字符的高度；⑥字符所属的tif文件序号。如box文件中的“风”字的位置在点(38,113)，长宽分别为52和128，在0号tif文件中。在jTessBoxEditor工具中打开tif文件后，可以看到识别出的字符，并且可以在其中通过Merge、Split、Delete操作对被初步错误分割、合并的字符进行重新合并分割。

3)生成中间文件

在得到最终的训练样本文件之前还需要分别生成多个中间文件：

首先，运行Tesseract对tif和校正后的box文件进行训练，生成包含训练信息的tr文件；

然后，运行Tesseract自带的字符分割程序，对训练样本进行分割生成字符集unicharset，再运行其自带的聚类分析程序，对训练样本进行聚类分析，生成新的unicharset、字符原型文件inttemp以及字符特征文件pffmtable，紧接着运行其自带的特征提取程序，得到字符正常化特征文件normproto；

接着，创建包含训练的字体编号的font_properties文件，文件内容规范为：<fontname><italic><bold><fixed><serif><fraktur>，第一列与tr文件名相同，为字体名称，后面接着五个0或1代表着该训练集下的文字是否为斜体、粗体、固定、衬线、装饰弧线；

4)合并训练文件

修改特征文件名，将新字符库名添加到原特征文件名前，运行Tesseract自带的合并训练数据程序，合并训练文件。完成以上步骤即可得到针对特定试验表格集的字符库，使用此语字符库来替换默认的字符库进行钻孔柱状图内容识别，能够大大提高准确率。

步骤4、利用提取结果采用结构化编图的方法反向绘制矢量格式的钻孔柱状图，与原始钻孔柱状图进行对比，对矢量格式的钻孔柱状图进行修改。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例和实施例。

Claims

1.钻孔柱状图信息自动提取方法，其特征在于，包括以下步骤：

步骤1、对纸质钻孔柱状图依次进行扫描、矫正、消畸的预处理；

步骤2、将预处理的钻孔柱状图界面抽象为一系列矩形单元格，利用一系列矩形单元格将钻孔柱状图剖分为若干矩形图片；

步骤3、训练矩形图片中的字符库，采用训练后的字符库识别矩形图片，将若干矩形图片的识别结果进行组合，得出钻孔柱状图信息提取结果；

步骤4、利用提取结果采用结构化编图的方法反向绘制矢量格式的钻孔柱状图，与原始钻孔柱状图进行对比，对矢量格式的钻孔柱状图进行修改；

步骤2中基于角标的单元格切分方法将钻孔柱状图界面抽象为一系列矩形单元格；

步骤2中单元格角标的获取方法为：通过角度将提取的钻孔柱状图表格线划分为n条表格横线和m条表格竖线，用两个端点分别表示表格横线和表格竖线，表述公式记为

交点具备多个角标编号，位于表格内部的交点是拥有三个或四个编号的复合角标，位于表格边界的点拥有一个或两个编号的复合角标；

角标的表达方式是在点坐标基础上添加一个长度为4，值为0或1的一位数组，即：Sign:{x,y,type[0,0,0,0]}，其中(x,y)存放的是角标的坐标，type存放的是角标编号；

获取单元格角标后，采用3角标法进行单元格的构建，具体方法为：首先获取满足公式sign_i，j.type[0]＝1的(i，j)，其中sign是一个二维数组，按行存放交点，sign_i，j代表位于第i行第j列的1号角标；找出k使得sign_i，k.type[1]＝1，且不存在k′∈(j，k)使得sign_i，k′.type[1]＝1，sign_i，k是位于sign_i，j右侧最近的2号角标；找出l，r使得sign_l，r.type[3]＝1且sign_l，r.x＝sign_i，k.x，且不存在l′∈(i，l)，r′∈N满足sign_l′，r′.type[3]＝1且sign_l′，r′.x＝sign_i，k.x，sign_l，r是位于sign_i，k下方最近的4号角标；利用获取的1、2、4号角组合得到对应的单元格。

2.如权利要求1所述的钻孔柱状图信息自动提取方法，其特征在于，采取逐行逐列地对单元格进行判断，最终得到系列矩形单元格。