CN110826393B - 钻孔柱状图信息自动提取方法 - Google Patents

钻孔柱状图信息自动提取方法 Download PDF

Info

Publication number
CN110826393B
CN110826393B CN201910876589.4A CN201910876589A CN110826393B CN 110826393 B CN110826393 B CN 110826393B CN 201910876589 A CN201910876589 A CN 201910876589A CN 110826393 B CN110826393 B CN 110826393B
Authority
CN
China
Prior art keywords
sign
histogram
drilling
drilling histogram
rectangular
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910876589.4A
Other languages
English (en)
Other versions
CN110826393A (zh
Inventor
张军强
章逸
田宜平
刘刚
张志庭
何珍文
陈麒玉
翁正平
李章林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN201910876589.4A priority Critical patent/CN110826393B/zh
Publication of CN110826393A publication Critical patent/CN110826393A/zh
Application granted granted Critical
Publication of CN110826393B publication Critical patent/CN110826393B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • G06V30/422Technical drawings; Geographical maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种高效的钻孔柱状图信息自动提取方法,包括以下步骤:步骤1、对纸质钻孔柱状图依次进行扫描、矫正、消畸等预处理;步骤2、将预处理后的钻孔柱状图界面抽象为一系列矩形单元格,利用一系列矩形单元格将钻孔柱状图剖分为若干矩形图片;步骤3、训练矩形图片中的字符库,采用训练后的字符库识别矩形图片,将若干矩形图片的识别结果进行组合,得出钻孔柱状图信息提取结果。本发明具有有效解决钻孔柱状图中岩芯厚度和其描述信息高度不一致时的分层信息的提取问题,同时能解决专业词汇的识别效率低的问题,能提高钻孔柱状图信息提取的效率和准确性。

Description

钻孔柱状图信息自动提取方法
技术领域
本发明涉及地质信息处理技术领域。更具体地说,本发明涉及一种高效的钻孔柱状图信息自动提取方法。
背景技术
钻孔柱状图是根据对钻孔岩(矿)心(或岩屑、岩粉)的观察鉴定、取样分析及在钻孔内进行的各种测试所获资料而编制成的一种基础图件。它可以形象地表示出钻孔通过的岩层、矿体及其相互关系,是编制地质剖面图、综合类地质图件和三维地质建模的基础数据。由于历史的原因,我们能利用的往往是纸质版的或电子版的钻孔柱状图。为了钻孔数据的深入分析和应用,需要从钻孔柱状图中提取信息输入到结构化的表格中进行存储和管理。但该过程耗时耗力,为了减轻人力成本和提高效率,迫切需要研发钻孔柱状图信息的自动识别技术。
中国发明专利CN 201010157789.3,提出了一种对表格图像进行校正的方法。该方法包括匹配和映射两个步骤,把通过匹配步骤得到的匹配的待校正表格单元映射到与所述匹配的待校正表格单元相匹配的相应标准表格单元,以形成校正的表格图像,能校正扫描过程中图像的扭曲、旋转、缩放和平移等现象。中国发明专利201310148624.3,提出了一种表格文档图像中字符提取方法,该方法通过边缘检测与Hough变换算法提取出图像中的线段,根据线段的方向分布估计整幅图像的倾斜角度,对图像进行倾斜校正,对水平和垂直方向上的线段进行连接,定位出表格的单元格;针对每个单元格,采用最大类间方差方法进行图像二值化,分割出单元格中的整行字符,通过滑动窗口法提取出单元格中的每个字。中国发明专利201310148878.5,提出了一种融合全局和局部信息的表格线提取方法,该方法首先对灰度图像进行平滑去噪,然后进行基于交叠窗口的图像二值化,随后提取出前景区域中的局部轮廓,利用局部轮廓信息检测出图像中的直线段,最后,在网格范围内对直线段进行连接,从而提取出整个表格线。
尽管以上发明在一定程度上提高了复杂表格对象的信息提取效率,但若应用到钻孔柱状图信息的提取过程中,也存在不少问题。
发明内容
本发明的一个目的是解决至少上述问题,并提供至少后面将说明的优点。
本发明还有一个目的是提供一种高效的钻孔柱状图信息自动提取方法,该方法能有效解决钻孔柱状图中岩芯厚度和其描述信息高度不一致时的分层信息的提取问题,同时能解决专业词汇的识别效率低的问题,提高了钻孔柱状图信息提取的效率和准确性。
为了实现根据本发明的这些目的和其它优点,提供了一种高效的钻孔柱状图信息自动提取方法,包括以下步骤:
步骤1、对纸质钻孔柱状图依次进行扫描、矫正、消畸及预处理;
步骤2、将预处理的钻孔柱状图中的界面抽象为一些列矩形单元格,利用一些列单元格将钻孔柱状图剖分为若干矩形图片;
步骤3、训练矩形图片的字符库,采用训练后的字符库识别矩形图片,将若干矩形图片的识别结果进行组合,得出钻孔柱状图信息提取结果。
优选的是,还包括:步骤4、利用提取结果采用结构化编图的方法反向绘制矢量格式的钻孔柱状图,与原始钻孔柱状图进行对比,对矢量格式的钻孔柱状图进行修改。
优选的是,步骤2中基于角标的单元格切分方法将钻孔柱状图界面抽象为一系列矩形单元格。
优选的是,步骤2中单元格角标的获取方法为:通过角度将提取的钻孔柱状图表格线划分为n条表格横线和m条表格竖线,用两个端点分别表示表格横线和表格竖线,表述公式记为
Figure GDA0003954248740000021
其中xr1<xr2,yc1<yc2,xr1、xr2分别表示表格横线的横坐标,yr表示表格横线的纵坐标,即与提取的钻孔柱状图上边界的距离,xc表示表格横线的横坐标,即与提取的钻孔柱状图左边界的距离,yc1、yc2分别表示表格竖线的纵坐标;
表格横线与表格竖线产生一个交点,记为(xc,yr),根据交点位置为每一个交点赋予角标编号,如若交点为表格横线的左端点且是表格竖线上端点,那么该交点位置记为1号角标,关系函数公式记为:
Figure GDA0003954248740000031
交点具备多个角标编号,如位于表格内部的交点极大概率是拥有三个或四个编号的复合角标,位于表格边界的点拥有一个或两个编号的复合角标;
角标的表达方式是在点坐标基础上添加一个长度为4,值为0或1的一位数组,即:Sign:{x,y,type[0,0,0,0]},其中(x,y)存放的是角标的坐标,type存放的是角标编号。
优选的是,获取单元格角标后,采用3角标法进行单元格的构建,具体方法为:首先获取满足公式signi,j.type[0]=1的(i,j),其中sign是一个二维数组,按行存放交点,signi,j代表位于第i行第j列的1号角标;找出k使得signi,k.type[1]=1,且不存在k′∈(j,k)使得signi,k′.type[1]=1,signi,k是位于signi,j右侧最近的2号角标;找出l,r使得signl,r.type[3]=1且signl,r.x=signi,k.,且不存在l′∈(i,l),r′∈N满足signl,,r′.type[3]=1且signl′,r′.x=signi,k.x,signl,r是位于signi,k下方最近的4号角标;利用获取的1、2、4号角组合得到对应的单元格。
优选的是,采取逐行逐列地对单元格进行判断,最终得到系列矩形单元格。
本发明至少包括以下有益效果:本发明采用基于角标的结构分析和基于机器学习的结构理解相结合的方法进行钻孔柱状图信息的自动提取。该方法能有效解决钻孔柱状图中岩芯厚度和描述信息高度不一致时的分层信息的提取问题,同时能解决专业词汇的识别效率低的问题,能提高钻孔柱状图信息提取的效率和准确性。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
图1为本发明的钻孔柱状图信息自动提取流程图;
图2为本发明3角标组合进行矩形单元格剖分示意图;
图3为本发明3角标组合法切割柱状流程图;
图4为基于Tesseract的字符库训练流程图。
具体实施方式
下面结合附图和实施例对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
钻孔柱状图在形式上是文本和符号的组合,具有简明和易于阅读的特点,其本质是复杂的表格图件。版面分析和版面理解是针对这类表格图件进行信息提取的两个层次。其中,版面分析侧重于研究表格图件的几何结构,主要进行结构层次的分析,将版面内的表格域、图域、文本域等信息定位并提取,为接下来的版面理解奠定基础。版面理解侧重于研究图面的逻辑结构,是对经过分析后的复杂版面做逻辑层次的分析,确定每个区域的逻辑编号和分类,针对不同的类别采取不同的处理方式。
本实施例提供一种高效的钻孔柱状图信息自动提取方法,如图1所示,包括以下步骤:
步骤1、对纸质钻孔柱状图依次进行扫描及预处理;
具体为:通过电子扫描仪扫描纸质钻孔柱状图,得到电子版的钻孔柱状图图像,并对其进行校正纠偏处理,消除扫描过程中产生的变形,对钻孔柱状图图像进行预处理,以消除图像中无关的信息,增强相关信息的可检测性和最大限度地简化数据,便于钻孔柱状图表格线的提取,从而增强特征抽取、图像切分、匹配和识别的可靠性。
步骤2、将预处理的钻孔柱状图中的界面基于角标的单元格切分方法抽象为一系列矩形单元格,利用一系列矩形单元格将钻孔柱状图剖分为若干矩形图片;
步骤2.1、单元格角标的获取方法为:通过角度将提取的钻孔柱状图表格线划分为n条表格横线和m条表格竖线,用两个端点分别表示表格横线和表格竖线,表述公式记为
Figure GDA0003954248740000041
其中xr1<xr2,yc1<yc2,xr1、xr2分别表示表格横线的横坐标,yr表示表格横线的纵坐标,即与提取的钻孔柱状图上边界的距离,xc分别表示表格横线的横坐标,即与提取的钻孔柱状图左边界的距离,yc1、yc2分别表示表格竖线的纵坐标;
表格横线与表格竖线产生一个交点,记为(xc,yr),根据交点位置为每一个交点赋予角标编号,如若交点为表格横线的左端点且是表格竖线上端点,那么该交点位置记为1号角标,关系函数公式记为:
Figure GDA0003954248740000051
交点具备多个角标编号,如位于表格内部的交点极大概率是拥有三个或四个编号的复合角标,位于表格边界的点拥有一个或两个编号的复合角标;
角标的表达方式是在点坐标基础上添加一个长度为4,值为0或1的一位数组,即:Sign:{x,y,type[0,0,0,0]},其中(x,y)存放的是角标的坐标,type存放的是角标编号,如存在一个角标s={point(50,100),type[1,0,1,0]},那么代表位于(50,100)处的点是一个拥有1号角标和3号角标两种编号的复合角标。
步骤2.2、表格的基本元素是矩形单元格,单元格的最明显的特征是四个顶点。在钻孔柱状图中,一个正常的单元格由四个角标所组成,如附图2(a)所示。在普通的表格中,1号角标和距离1号角标最近的4号角标便可以定位出一个单元格,但是钻孔柱状图中的单元格排列并不是规律的,如图2(b)所示,阴影区域则是可能错误识别的区域,为了防止这种错误的发生,本文采取三角标(1号、2号、4号)组合的方式定位单元格,由于畸形单元格没有3号角标,所以通过1号角标、1号角标右侧最近的2号角标以及2号角标下方最近的4号角标来精准定位单元格。
故获取单元格角标后,采用3角标法进行单元格的构建,具体方法为:首先获取满足公式signi,j.type[0]=1的(i,j),其中sign是一个二维数组,按行存放交点,signi,j代表位于第i行第j列的1号角标;找出k使得signi,k.type[1]=1,且不存在k′∈(j,k)使得signi,k′.type[1]=1,signi,k是位于signi,j右侧最近的2号角标;找出l,r使得signl,r.type[3]=1且signl,r.x=signi,k.x,且不存在l′∈(i,l),r′∈N满足signl′,r′.type[3]=1且signl′,r′.x=signi,k.x,signl,r是位于signi,k下方最近的4号角标;利用获取的1、2、4号角组合得到对应的单元格,如图2(c)所示;
采取逐行逐列地对单元格进行判断,最终得到系列矩形单元格,如图3所示。
步骤3、训练矩形图片的字符库,采用训练后的字符库识别矩形图片,将每个矩形图片的识别结果进行组合,得出钻孔柱状图信息提取结果;
采用开源的Tesseract-OCR作为识别工具,识别矩形图片中的汉字、数字、英文字母和特殊的地质符号,并且通过机器学习训练Tesseract-OCR,扩大其识别样本,减少由于原识别库对中文样本和地质符号训练程度不足的问题,提高Tesseract-OCR对用特殊地质符号的识别能力,训练过程如附图4所示,训练步骤如下所示;
1)生成训练图像
本发明使用的Tesseract版本,需要将图像转换成tif/tiff格式的图片,使用jTessBoxEditor工具将图片转换为tif文件,可以同时转换多个图片。
2)生成box文件
Tesseract使用.box后缀的文件存储tif图片中每个文字的坐标位置、尺寸信息,使用如下命令生成box文件。box文件中从左到右所代表的内容依次是①识别出的字符;②字符在图中的x坐标;③字符在图中的y坐标;④字符的宽度;⑤字符的高度;⑥字符所属的tif文件序号。如box文件中的“风”字的位置在点(38,113),长宽分别为52和128,在0号tif文件中。在jTessBoxEditor工具中打开tif文件后,可以看到识别出的字符,并且可以在其中通过Merge、Split、Delete操作对被初步错误分割、合并的字符进行重新合并分割。
3)生成中间文件
在得到最终的训练样本文件之前还需要分别生成多个中间文件:
首先,运行Tesseract对tif和校正后的box文件进行训练,生成包含训练信息的tr文件;
然后,运行Tesseract自带的字符分割程序,对训练样本进行分割生成字符集unicharset,再运行其自带的聚类分析程序,对训练样本进行聚类分析,生成新的unicharset、字符原型文件inttemp以及字符特征文件pffmtable,紧接着运行其自带的特征提取程序,得到字符正常化特征文件normproto;
接着,创建包含训练的字体编号的font_properties文件,文件内容规范为:<fontname><italic><bold><fixed><serif><fraktur>,第一列与tr文件名相同,为字体名称,后面接着五个0或1代表着该训练集下的文字是否为斜体、粗体、固定、衬线、装饰弧线;
4)合并训练文件
修改特征文件名,将新字符库名添加到原特征文件名前,运行Tesseract自带的合并训练数据程序,合并训练文件。完成以上步骤即可得到针对特定试验表格集的字符库,使用此语字符库来替换默认的字符库进行钻孔柱状图内容识别,能够大大提高准确率。
步骤4、利用提取结果采用结构化编图的方法反向绘制矢量格式的钻孔柱状图,与原始钻孔柱状图进行对比,对矢量格式的钻孔柱状图进行修改。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例和实施例。

Claims (2)

1.钻孔柱状图信息自动提取方法,其特征在于,包括以下步骤:
步骤1、对纸质钻孔柱状图依次进行扫描、矫正、消畸的预处理;
步骤2、将预处理的钻孔柱状图界面抽象为一系列矩形单元格,利用一系列矩形单元格将钻孔柱状图剖分为若干矩形图片;
步骤3、训练矩形图片中的字符库,采用训练后的字符库识别矩形图片,将若干矩形图片的识别结果进行组合,得出钻孔柱状图信息提取结果;
步骤4、利用提取结果采用结构化编图的方法反向绘制矢量格式的钻孔柱状图,与原始钻孔柱状图进行对比,对矢量格式的钻孔柱状图进行修改;
步骤2中基于角标的单元格切分方法将钻孔柱状图界面抽象为一系列矩形单元格;
步骤2中单元格角标的获取方法为:通过角度将提取的钻孔柱状图表格线划分为n条表格横线和m条表格竖线,用两个端点分别表示表格横线和表格竖线,表述公式记为
Figure FDA0003954248730000011
其中xr1<xr2,yc1<yc2,xr1、xr2分别表示表格横线的横坐标,yr表示表格横线的纵坐标,即与提取的钻孔柱状图上边界的距离,xc表示表格横线的横坐标,即与提取的钻孔柱状图左边界的距离,yc1、yc2分别表示表格竖线的纵坐标;
表格横线与表格竖线产生一个交点,记为(xc,yr),根据交点位置为每一个交点赋予角标编号,如若交点为表格横线的左端点且是表格竖线上端点,那么该交点位置记为1号角标,关系函数公式记为:
Figure FDA0003954248730000012
交点具备多个角标编号,位于表格内部的交点是拥有三个或四个编号的复合角标,位于表格边界的点拥有一个或两个编号的复合角标;
角标的表达方式是在点坐标基础上添加一个长度为4,值为0或1的一位数组,即:Sign:{x,y,type[0,0,0,0]},其中(x,y)存放的是角标的坐标,type存放的是角标编号;
获取单元格角标后,采用3角标法进行单元格的构建,具体方法为:首先获取满足公式signi,j.type[0]=1的(i,j),其中sign是一个二维数组,按行存放交点,signi,j代表位于第i行第j列的1号角标;找出k使得signi,k.type[1]=1,且不存在k′∈(j,k)使得signi,k′.type[1]=1,signi,k是位于signi,j右侧最近的2号角标;找出l,r使得signl,r.type[3]=1且signl,r.x=signi,k.x,且不存在l′∈(i,l),r′∈N满足signl′,r′.type[3]=1且signl′,r′.x=signi,k.x,signl,r是位于signi,k下方最近的4号角标;利用获取的1、2、4号角组合得到对应的单元格。
2.如权利要求1所述的钻孔柱状图信息自动提取方法,其特征在于,采取逐行逐列地对单元格进行判断,最终得到系列矩形单元格。
CN201910876589.4A 2019-09-17 2019-09-17 钻孔柱状图信息自动提取方法 Active CN110826393B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910876589.4A CN110826393B (zh) 2019-09-17 2019-09-17 钻孔柱状图信息自动提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910876589.4A CN110826393B (zh) 2019-09-17 2019-09-17 钻孔柱状图信息自动提取方法

Publications (2)

Publication Number Publication Date
CN110826393A CN110826393A (zh) 2020-02-21
CN110826393B true CN110826393B (zh) 2022-12-30

Family

ID=69548011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910876589.4A Active CN110826393B (zh) 2019-09-17 2019-09-17 钻孔柱状图信息自动提取方法

Country Status (1)

Country Link
CN (1) CN110826393B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111583407B (zh) * 2020-06-05 2023-05-12 武汉正远岩土科技有限公司 一种高效的基于纸质钻孔的三维地质建模智能处理方法
CN113159086B (zh) * 2020-12-31 2024-04-30 南京太司德智能电气有限公司 一种高效的电力信号描述模型训练方法
CN112860926B (zh) * 2021-01-29 2023-07-28 北京城建勘测设计研究院有限责任公司 应用于岩土工程勘察行业的图形叠加生成的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156387A (zh) * 2015-04-14 2016-11-23 上海申通地铁集团有限公司 轨道交通线路图纸数据的自动导出方法
CN110008486A (zh) * 2018-01-05 2019-07-12 上海申通地铁集团有限公司 轨道交通闭塞设备数据提取方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150234069A1 (en) * 2014-02-14 2015-08-20 Schlumberger Technology Corporation System and Method for Quantifying Vug Porosity
CN106156761B (zh) * 2016-08-10 2020-01-10 北京交通大学 面向移动终端拍摄的图像表格检测与识别方法
CN109086714B (zh) * 2018-07-31 2020-12-04 国科赛思(北京)科技有限公司 表格识别方法、识别系统及计算机装置
CN109388683A (zh) * 2018-09-17 2019-02-26 中山大学 一种钻孔柱状图信息批量提取方法
CN109961008A (zh) * 2019-02-13 2019-07-02 平安科技(深圳)有限公司 基于文字定位识别的表格解析方法、介质及计算机设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156387A (zh) * 2015-04-14 2016-11-23 上海申通地铁集团有限公司 轨道交通线路图纸数据的自动导出方法
CN110008486A (zh) * 2018-01-05 2019-07-12 上海申通地铁集团有限公司 轨道交通闭塞设备数据提取方法

Also Published As

Publication number Publication date
CN110826393A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
Li et al. Script-independent text line segmentation in freestyle handwritten documents
CN110826393B (zh) 钻孔柱状图信息自动提取方法
US20230237040A1 (en) Automated document processing for detecting, extractng, and analyzing tables and tabular data
US20100303356A1 (en) Method for processing optical character recognition (ocr) data, wherein the output comprises visually impaired character images
CN112241730A (zh) 一种基于机器学习的表格提取方法和系统
Pintus et al. ATHENA: Automatic text height extraction for the analysis of text lines in old handwritten manuscripts
CN114694165A (zh) 一种pid图纸智能识别与重绘方法
Kemajou et al. Wellbore schematics to structured data using artificial intelligence tools
Kaundilya et al. Automated text extraction from images using OCR system
Majid et al. Character spotting and autonomous tagging: offline handwriting recognition for Bangla, Korean and other alphabetic scripts
Shafait et al. Layout analysis of Urdu document images
CN114386504A (zh) 一种工程图纸文字识别方法
Azmi et al. Digital paleography: Using the digital representation of Jawi manuscripts to support paleographic analysis
Magotra et al. A Comparative analysis for identification and classification of text segmentation challenges in Takri Script
CN115761782A (zh) 一种道路工程图纸标题栏信息提取方法
AU2020103315A4 (en) A method for digitizing writings in antiquity
CN115311666A (zh) 图文识别方法、装置、计算机设备及存储介质
Arroyo et al. Automatic detection and recognition of structural and connectivity objects in SVG-coded engineering documents
Nehra et al. Benchmarking of text segmentation in devnagari handwritten document
Oladayo Yorùbá language and numerals’ offline interpreter using morphological and template matching
Snoussi et al. Text lines segmentation of handwritten Arabic script using outer isothetic cover
Roy et al. Query driven word retrieval in graphical documents
Laumer et al. A Semi-automatic Label Digitization Workflow for the Siegfried Map
Kavitha et al. Skewness and nearest neighbour based approach for historical document classification
Bürgl et al. Digitizing Drilling Logs-Challenges of typewritten forms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant