CN109062921B - 一种提取船舶托盘管理信息的方法及系统 - Google Patents

一种提取船舶托盘管理信息的方法及系统 Download PDF

Info

Publication number
CN109062921B
CN109062921B CN201810556349.1A CN201810556349A CN109062921B CN 109062921 B CN109062921 B CN 109062921B CN 201810556349 A CN201810556349 A CN 201810556349A CN 109062921 B CN109062921 B CN 109062921B
Authority
CN
China
Prior art keywords
information
data
cell
tray
management file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810556349.1A
Other languages
English (en)
Other versions
CN109062921A (zh
Inventor
刘文波
谢五一
杨俊�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuchang Shipbuilding Industry Group Co Ltd
Original Assignee
Wuchang Shipbuilding Industry Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuchang Shipbuilding Industry Group Co Ltd filed Critical Wuchang Shipbuilding Industry Group Co Ltd
Priority to CN201810556349.1A priority Critical patent/CN109062921B/zh
Publication of CN109062921A publication Critical patent/CN109062921A/zh
Application granted granted Critical
Publication of CN109062921B publication Critical patent/CN109062921B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种提取船舶托盘管理信息的方法及系统,涉及船舶信息管理技术领域,该方法包括以下步骤:S1、获取托盘管理文件,托盘管理文件是EXCEL表格或CAD表格,托盘管理文件用于记录船舶托盘管理信息;S2、对托盘管理文件中的内容进行逐一识别,获取托盘管理文件内部的多个单元格数据;S3、根据多个单元格数据进行识别,获取多个符合管理要求的关键信息,关键信息包括:类别信息以及数据信息;S4、收集多个关键信息,根据管理规则进行收录。本发明对EXCEL表格或CAD表格形式的托盘管理文件进行筛选,获得进行船舶托盘管理的关键信息,便于进行船舶建造的管理工作,提高工作效率。

Description

一种提取船舶托盘管理信息的方法及系统
技术领域
本发明涉及船舶信息管理技术领域,具体涉及一种提取船舶托盘管理信息的方法及系统。
背景技术
随着信息化建设的不断深入,管理部门对生产设计信息的需求与日俱增。
在生产设计过程中,产生大量的产品数据,大量数据保存在数据库中,设计人员在抽取数据库数据形成安装托盘表后,托盘表生成过程中可能会手工修改一些数据,导致托盘表数据与数据库数据不一致,因此,急需一种能够保证托盘表数据的正确性与一致性,利于后期按分段、区域或全船进行材料汇总的方法和系统,从而提高工作效率。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种提取船舶托盘管理信息的方法及系统,对EXCEL表格或CAD表格形式的托盘管理文件进行筛选,获得进行船舶托盘管理的关键信息,便于进行船舶建造的管理工作,提高工作效率。
为达到以上目的,本发明采取的技术方案是:
一种提取船舶托盘管理信息的方法,所述方法包括以下步骤:
S1、获取托盘管理文件,所述托盘管理文件是EXCEL表格或CAD表格,所述托盘管理文件用于记录船舶托盘管理信息;
S2、对所述托盘管理文件中的内容进行逐一识别,获取托盘管理文件内部的多个单元格数据;
S3、根据多个所述单元格数据进行识别,获取多个符合管理要求的关键信息,所述关键信息包括:类别信息以及数据信息;
S4、收集多个所述关键信息,根据管理规则进行收录。
在上述技术方案的基础上,当所述托盘管理文件为EXCEL表格时,步骤S2具体包括以下步骤:
S201、识别托盘管理文件中的页面数量,对托盘管理文件中的每一页面进行识别;
S202、逐一识别各页面中的单元格,将各单元格中的类别信息与所述管理要求进行比对,将符合管理要求的单元格的类别信息以及数据信息组合成所述关键信息;
S203、将多个所述关键信息进行收录。
在上述技术方案的基础上,当所述托盘管理文件为EXCEL表格时,步骤S2还包括以下步骤:
识别页面中的单元格的行高,当行高为0时,则跳过该单元格,识别下一单元格。
在上述技术方案的基础上,当所述托盘管理文件为CAD表格时,步骤S2具体包括以下步骤:
S201、识别CAD表格中的直线以及文本内容;
S202、结合所述直线以及所述文本内容,形成预处理表格;
S203、逐一识别预处理表格中的单元格,将各单元格中的类别信息与所述管理要求进行比对,将符合管理要求的单元格的类别信息以及数据信息组合成所述关键信息;
S204、将多个所述关键信息进行收录。
在上述技术方案的基础上,所述S202具体包括以下步骤:
根据所述CAD表格中的所述直线,识别CAD表格中各直线的交点,并确定各文本内容的位置;
根据各直线以及各交点,形成第一预处理表格;
根据各文本内容的位置以及所述第一预处理表格形成所述预处理表格。
在上述技术方案的基础上,当所述托盘管理文件为CAD表格时,其特征在于,步骤S2具体包括以下步骤:
S201、手动根据CAD表格中的直线以及文本内容,形成预处理表格;
S202、逐一识别预处理表格中的单元格,将各单元格中的类别信息与所述管理要求进行比对,将符合管理要求的单元格的类别信息以及数据信息组合成所述关键信息;
S203、将多个所述关键信息进行收录。
本发明还公开一种提取船舶托盘管理信息的系统,所述系统包括:
托盘管理文件获取模块,其用于获取托盘管理文件,所述托盘管理文件可以是EXCEL表格或CAD表格;
托盘管理文件识别模块,其用于对所述托盘管理文件中的内容进行逐一识别,获取托盘管理文件内部的多个单元格数据;
关键信息提取模块,其用于根据多个所述单元格数据进行识别,获取多个符合管理要求的关键信息,所述关键信息包括:类别信息以及数据信息;
关键信息收录模块,其用于收集多个所述关键信息,根据管理规则进行收录。
在上述技术方案的基础上,当所述托盘管理文件为EXCEL表格时,托盘管理文件识别模块的工作流程具体包括以下步骤:
A1、识别托盘管理文件中的页面数量,对托盘管理文件中的每一页面进行识别;
A2、逐一识别各页面中的单元格,将各单元格中的类别信息与所述管理要求进行比对,将符合管理要求的单元格的类别信息以及数据信息组合成所述关键信息;
A3、将多个所述关键信息进行收录。
在上述技术方案的基础上,当所述托盘管理文件为EXCEL表格时,托盘管理文件识别模块的工作流程具体包括以下步骤:
B1、识别CAD表格中的直线以及文本内容;
B2、结合所述直线以及所述文本内容,形成预处理表格;
B3、逐一识别预处理表格中的单元格,将各单元格中的类别信息与所述管理要求进行比对,将符合管理要求的单元格的类别信息以及数据信息组合成所述关键信息;
B4、将多个所述关键信息进行收录。
在上述技术方案的基础上,托盘管理文件识别模块的进行步骤B2操作时,具体包括以下步骤:
根据所述CAD表格中的所述直线,识别CAD表格中各直线的交点,并确定各文本内容的位置;
根据各直线以及各交点,形成第一预处理表格;
根据各文本内容的位置以及所述第一预处理表格形成所述预处理表格。
与现有技术相比,本发明的优点在于:
(1)本发明对EXCEL表格或CAD表格形式的托盘管理文件进行筛选,获得进行船舶托盘管理的关键信息,便于进行船舶建造的管理工作,提高工作效率。
附图说明
图1为本发明实施例1中提取船舶托盘管理信息的方法的步骤图;
图2为本发明实施例2中提取船舶托盘管理信息的方法的步骤图;
图3为本发明实施例3中提取船舶托盘管理信息的方法中步骤S2的步骤流程图;
图4为本发明实施例4中提取船舶托盘管理信息的方法中步骤S2的步骤流程图;
具体实施方式
以下结合附图对本发明的实施例作进一步详细说明。
实施例1
参见图1所示,本发明实施例1提供一种提取船舶托盘管理信息的方法,该方法包括以下步骤:
S1、获取托盘管理文件,托盘管理文件是EXCEL表格或CAD表格,托盘管理文件用于记录船舶托盘管理信息;
S2、对托盘管理文件中的内容进行逐一识别,获取托盘管理文件内部的多个单元格数据;
S3、根据多个单元格数据进行识别,获取多个符合管理要求的关键信息,关键信息包括:类别信息以及数据信息;
S4、收集多个关键信息,根据管理规则进行收录。
本发明中,首先获取存储了船舶托盘管理信息的托盘管理文件,而托盘管理文件可以是EXCEL表格或CAD表格,具体根据数据采集设备等因素进行选择;
而后对托盘管理文件中的内容进行逐一识别,获取托盘管理文件内部的多个单元格数据,由于托盘管理文件可以是EXCEL表格或CAD表格,因此托盘管理文件内可以包含有表格数据以及其他数据,而船舶托盘管理信息都是根据存储规则存储于托盘管理文件的单元格中,因此需要进行逐一识别,从而获取托盘管理文件内部的多个单元格数据,以便进一步进行数据的筛选;
根据多个单元格数据进行识别,获取多个符合管理要求的关键信息,关键信息包括:类别信息以及数据信息,具体识别方式可以是识别关键字,从而对类别信息进行识别,从而寻找到需要获取数据的单元格,从而获取单元格的数据,即关键信息。
最终,收集多个关键信息,根据管理规则进行收录。
本发明对EXCEL表格或CAD表格形式的托盘管理文件进行筛选,获得进行船舶托盘管理的关键信息,便于进行船舶建造的管理工作,提高工作效率。
实施例2
参见图2所示,本发明实施例2提供一种提取船舶托盘管理信息的方法,在实施例1的基础上:
当托盘管理文件为EXCEL表格时,步骤S2具体包括以下步骤:
S201、识别托盘管理文件中的页面数量,对托盘管理文件中的每一页面进行识别;
S202、逐一识别各页面中的单元格,将各单元格中的类别信息与管理要求进行比对,将符合管理要求的单元格的类别信息以及数据信息组合成关键信息;
S203、将多个关键信息进行收录。
需要说明的是,以下提到的EXCEL表格的页面,均为EXCEL表格的sheet.
本实施例中,当托盘管理文件为EXCEL表格时,步骤S2还包括以下步骤:
识别页面中的单元格的行高,当行高为0时,则跳过该单元格,识别下一单元格。
在处理EXCEL表格时,存在以下几个特殊操作
1、面对合并单元格时,对于合并单元格,数据存放在这些单元格中行数和列数均为最小的单元格中,而因为格式要求,每一行的单元格的合并形式应该是一致的,因此,所有的数据与其相对应的数据项仍然在同一列;
亦即是说,通过引入整型数组resPos[]记录一行中不同数据项所在的列数,只取获得了数据项的列进行数据提取,便可排除其它无数据的单元格。因此,本文的数据提取方式能够应对普遍存在的合并单元格的情况而不受影响;
2、面对单元格的不同数据类型:
单元格的数据类型存在多种,有字符串列、数值列还有公式列;
引入一个获取单元格的值的方法,若单元格中的数据为字符串,则返回该字符串;
若单元格中的数据为数值,则返回该数值转换为的字符串,由于空白单元格不需要提取数据,所以该方法返回空字符串;
而在数据有效性的判别中,需要依照所提取的单元格中的数据所对应的数据项的格式要求来进行甄选,此时只需要该数据的值判定为非空字符串即可剔除掉空白行、空白列以及公式列;
3、面对隐藏行或列:
数据中存在隐藏行或隐藏列,这些行或列中的数据为暂时不用的数据,是不需要进行数据提取的;
根据隐藏行的行高以及隐藏列的列宽为0的特性可以在程序中加入判断从而达到忽略隐藏行或列的数据的目的;
一旦这些行或列取消隐藏,它们的行高或列宽便会发生变化,于是这些行或列中的数据便能通过程序进行提取了。
本实施例中,面对EXCEL表格时,在数据提取过程存在以下几个优势:
1、准确地找到数据所在的位置
由于数据所在的页面以及数据的起始行或起始列不确定,所以程序必须能够准确地找到数据所在的位置
EXCEL托盘表中的数据是以一个个数据表单的形式存放的,这些表单可能会在同一个页面中。
本发明的数据提取方式是通过设立关键字来定位数据所在的位置的,关键字分为类别关键字和属性关键字,其中类别关键字对应表单的类别,属性关键字则对应该类表单具有的数据项;
该数据提取方法的主要特点是通过这两类关键字进行匹配查找,可以实现对EXCEL表内容的全文检索,只要内部存在特定的信息并满足提取条件(根据船舶物料描述的有关信息要求,即描述属性的数目来衡量是数据的有效性),不论在文件中的任何地方,都能获取到信息;
通过对所有sheet的每一行的单元格进行遍历,分别找到包含类别关键字的单元格所在的行数以及包含属性关键字的单元格所在的列数,从而获取到数据所在的位置。同时,通过对找到的不同关键字的判别,还能确认数据所属的表单以及数据项,从而确保了数据提取的准确性;
本数据提取方式可在不破坏表单的完整性以及应有格式的前提下无论怎么改变数据所在的sheet、行数以及列数程序都能准确地找到数据所在的位置。
2、能够对图号进行提取:
托盘表内大多存在图号信息,图号中有产品代码、专业及分段或区域码,这些信息对于材料按产品、阶段统计是非常关键的。
图号提取过程如下:
由于封面所在的页面不定,因此需要先获取托盘表中页面的数目,然后依次对每个页面进行遍历,
获取页面包含的行数,然后循环取得一行,判断是否是隐藏行,如果是跳过执行下一行,若不是则获取其所包含的列数,循环取出一列,判断是否是隐藏列,如果是则跳过执行下一列,若不是,则获取其值,比较其内容是否是“生产设计”,若是则记下所在的列,往后循环五行(主要依据图表模板的规定的设计样式,图号信息所处的列与“生产设计”列相同,其信息在其行号后面五行之内,所以为了提高分析数据的效率,超过五行后的数据就不进行分析),取指定的列,取出其列中包含的值,判断其是否包含图号取名规则所用的字符串,若包含则,该值为图号,若循环完都没有找到图号则该文件格式不符合托盘表格式规范;
3、托盘信息的提取
托盘信息的数据提取过程如下:
1)定义关键字
在系统的配置文件中定义关键字,有利于程序的维护,即当关键字发生变化时只需要修改相应的配置文件,而不用修改程序代码,
类别关键字定义了EXCEL托盘表中可能出现的不同表单的表名,属性关键字则定义了这些表单中可能出现的数据项。
2)获取所有的页面
由于数据所在的页面不定,可能是第一个页面也可能是其它页面,因此需要先获取托盘表中页面的数目,然后依次对每个页面进行遍历。
3)获取页面中的行
在数据所在的页面中,逐行遍历,可以依次找到类别关键字所对应的表名和属性关键字所对应的数据项,利用这些关键字可以准确地提取EXCEL托盘表中不同表单的数据并存入相应的数据库表中。
具体过程如下:
获取EXCEL表格页面包含的行数,依次对行进行遍历,遍历过程中获取行高,当行高等于0时,可以判断此行为设计人员隐藏的行,对于这类行中的数据不需要进行提取,程序转到执行下一行数据的提取;
对于每一行,获取该行所包含的单元格数目,依次对行中的各单元格进行遍历,首先获取单元格类型,根据类型对值进行转换,尤其对于类型是公式的单元格,需按字符串的方式提取,再转化为数字;对于单元格的内容包含类别关键字所对应的字符串,则用整型变量currentType记录该类别关键字的序号,用以区分不同的数据表单;如若该值包含属性关键字所对应的字符串,则用整型数组的一个元素resPos[i]来记录该属性关键字所在的列数,该整型数组可记录遍历该行所有单元格获取的每个属性关键字所在的列数;
整型变量currentType的值在遍历单元格的过程中再次找到包含类别关键字(表名)的单元格时会发生改变,亦即是说currentType的值决定了提取的数据属于哪个表单;
整型数组的元素resPos[i],在遍历某一行单元格的过程中找到包含下标i对应的属性关键字(数据项)的值时会进行记录;
由于托盘表中各个表单中的数据项一般大于3个(即船舶零件的属性条目的数量),所以遍历一行所得的属性关键字的个数大于3,则表明下述内容为船舶零部件托盘清单信息,而对于关键字个数少于或等于3的数据是需要过滤的;
通过上述判断可以分析出托盘信息表的数据结构,依据此结构对信息进行全文检索,通过循环取得整型数组resPos[]每一个元素resPos[i]的值,获得其值对应的表格中的列数据。
采用本方法对EXCEL中的数据进行全文检索,只需要保证设计人员在设计船舶托盘表时采用定义的属性关键字,在托盘信息所在的SHEET,零件属性所在的列和顺序不确定的情况下,依然可以准确地提取到所需的信息。已在公司产品信息管理系统中进行了部署与应用,实现了设计部门与制造管理部门间的信息共享,提高了物资采购、集配的效率。
实施例3
参见图3所示,本发明实施例2提供一种提取船舶托盘管理信息的方法,在实施例1的基础上,
当托盘管理文件为CAD表格时,步骤S2具体包括以下步骤:
S201、识别CAD表格中的直线以及文本内容;
S202、结合直线以及文本内容,形成预处理表格;
S203、逐一识别预处理表格中的单元格,将各单元格中的类别信息与管理要求进行比对,将符合管理要求的单元格的类别信息以及数据信息组合成关键信息;
S204、将多个关键信息进行收录。
本实施例中,S202具体包括以下步骤:
根据CAD表格中的直线,识别CAD表格中各直线的交点,并确定各文本内容的位置;
根据各直线以及各交点,形成第一预处理表格;
根据各文本内容的位置以及第一预处理表格形成预处理表格。
在形成预处理表格时,需要进行以下几个步骤:
1、提取直线与文本
直线和文本是构成表格和数据的基本元素,由于存在设计人员将表格合成“块”的情况,因此必须首先将图中的“块”炸开,便于提取“直线”与“文本”实体,
提取“直线”与“文本”有两种方式,一种由程序自动提取,通过编历文件中的所有元素,依次判断其类别与位置属性;另一种方式是由设计人员手工框选,然后由程序对选择的元素进行遍历,再判断其类别与位置属性,分别将“水平线”、“垂直线“与“文本”归入水平线集合、垂直线集合与文本集合。
2、对文本排序
对文本集合内的文本按其插入点的位置按从上到下、从左到右排列,文本排序的目的是为了后期与单元格进行关联。
进一步,再对单元格计算及数据提取
1)直线交点计算及排序
取出所有的竖直线和水平线,在定义某一点及其坐标后,再判断是否满足此点既在取出的竖直线起点与终点之间又在取出的水平线起点与终点之间的条件,若条件满足即可判定为交点。这样就得到了所有交点,并为后续单元格的形成提供数据,
对交点集合中的数据应按交点从上到下、从左到右进行排列,便于计算单元格。
2)单元格计算及排序:
单元格的计算依据对集合内交点的处理,每个单元格存在四个交点,取左下点和右上点作为单元格的特征点;
单元格中交点的计算顺序如下:
(1)循环从交点集合中取出第一点;
(2)循环从交点集合中取出第一点之后的另一个交点,作为第二点;
(3)第一点与第二点进行比较计算,当第一点的Y值等于第二点的Y值,并且其X不等则该交点满足组成单元格第二点的要求,否则执行第二步;
(4)循环从交点集合中取出第二点之后的交点;
(5)第二点与第三点进行比较计算,当第二点的X值等于第三点的X值,并且其Y值不等则该交点满足第三点的要求,否则执行第四步;
(6)循环从交点集合中取出第三点之后的另一个交点,作为第四点;
(7)当第四点的Y值等于第三点的Y值,并且第四点的X值等于第一点的X值,则该点满足第四点的要求,否则执行第六步;
(8)当求得的四点满足条件时,创建单元格对象,单元格的左下点和右上点作为该单元格的特征点,并将单元格存入单元格集合;
(9)对单元格按从上到下,从左到右进行排列。
3)单元格与文本关联:
单元格与文本关联是通过判断文本的插入点是否在单元格内,当插入点在单元格内,将该文本赋值给该单元格,执行过程如下:
(1)循环从单元格集合中取出一个单元格;
(2)循环从文本集合中取出一个文本;
(3)当文本插入点的X值、Y值分别大于等于单元格的左下点的X值、Y值,并且分别小于单元格右上点的X值、Y值时满足条件进行关联,执行第一步;否则执行第二步取另一个文本进行判断。
4)提取表格信息:
单元格与文本关联后,则对单元格进行分析,将首尾相连的单元格组成单元行,行的特征点为第一列的左下点及最后一列的右上点。将单元行存放到行集合中,然后对集合内的单元行进行排序,排序的依据是单元行的左下点,按从上到下,从左到右的方式排列;
语义关系是指关键字与信息内容的位置关系,通常存在上下关系和左右关系,上图中关键字与信息内容是上下关系,并且它们所在表的列序号相同。
关键字是进行数据提取的基础,包含表格信息的图表文件一般都会含有关键字,对单元行集合进行遍历,检索关键字,根据关键字、语义关系等进行判断,当连续单元行关键字的数目达到指定的要求,下面的单元行就是提取信息开始的地方。
实施例4
参见图4所示,本发明实施例提供一种提取船舶托盘管理信息的方法,该方法在实施例1的基础上,当托盘管理文件为CAD表格时,步骤S2具体包括以下步骤:
S201、手动根据CAD表格中的直线以及文本内容,形成预处理表格;
S202、逐一识别预处理表格中的单元格,将各单元格中的类别信息与管理要求进行比对,将符合管理要求的单元格的类别信息以及数据信息组合成关键信息;
S203、将多个关键信息进行收录。
相对于EXCEL表格,AutoCAD格式的托盘表也可以看作是一个“表格”,尽管不是真正意义上的“表格”,它可能是“块”也可能是多个直线与文本组成,直线和文本之间除了位置关系之外,没有其它的任何联系,所以为提取数据信息,先提取所有直线与文本信息,同时按位置关系对直线与文本进行排序,便于形成单元格,以及单元格与文本进行关联。
实施例5
本发明实施例提供一种提取船舶托盘管理信息的系统,该系统包括:
托盘管理文件获取模块,其用于获取托盘管理文件,托盘管理文件可以是EXCEL表格或CAD表格;
托盘管理文件识别模块,其用于对托盘管理文件中的内容进行逐一识别,获取托盘管理文件内部的多个单元格数据;
关键信息提取模块,其用于根据多个单元格数据进行识别,获取多个符合管理要求的关键信息,关键信息包括:类别信息以及数据信息;
关键信息收录模块,其用于收集多个关键信息,根据管理规则进行收录。
本发明中,首先获取存储了船舶托盘管理信息的托盘管理文件,而托盘管理文件可以是EXCEL表格或CAD表格,具体根据数据采集设备等因素进行选择;
而后对托盘管理文件中的内容进行逐一识别,获取托盘管理文件内部的多个单元格数据,由于托盘管理文件可以是EXCEL表格或CAD表格,因此托盘管理文件内可以包含有表格数据以及其他数据,而船舶托盘管理信息都是根据存储规则存储于托盘管理文件的单元格中,因此需要进行逐一识别,从而获取托盘管理文件内部的多个单元格数据,以便进一步进行数据的筛选;
根据多个单元格数据进行识别,获取多个符合管理要求的关键信息,关键信息包括:类别信息以及数据信息,具体识别方式可以是识别关键字,从而对类别信息进行识别,从而寻找到需要获取数据的单元格,从而获取单元格的数据,即关键信息。
最终,收集多个关键信息,根据管理规则进行收录。
本发明对EXCEL表格或CAD表格形式的托盘管理文件进行筛选,获得进行船舶托盘管理的关键信息,便于进行船舶建造的管理工作,提高工作效率。
实施例6
本发明实施例提供一种提取船舶托盘管理信息的系统,在实施例5的基础上:
当托盘管理文件为EXCEL表格时,托盘管理文件识别模块的工作流程具体包括以下步骤:
A1、识别托盘管理文件中的页面数量,对托盘管理文件中的每一页面进行识别;
A2、逐一识别各页面中的单元格,将各单元格中的类别信息与管理要求进行比对,将符合管理要求的单元格的类别信息以及数据信息组合成关键信息;
A3、将多个关键信息进行收录。
本实施例中,当托盘管理文件为EXCEL表格时,托盘管理文件识别模块的工作流程具体包括以下步骤:
B1、识别CAD表格中的直线以及文本内容;
B2、结合直线以及文本内容,形成预处理表格;
B3、逐一识别预处理表格中的单元格,将各单元格中的类别信息与管理要求进行比对,将符合管理要求的单元格的类别信息以及数据信息组合成关键信息;
B4、将多个关键信息进行收录。
本实施例中,托盘管理文件识别模块的进行步骤B2操作时,具体包括以下步骤:
根据CAD表格中的直线,识别CAD表格中各直线的交点,并确定各文本内容的位置;
根据各直线以及各交点,形成第一预处理表格;
根据各文本内容的位置以及第一预处理表格形成预处理表格。
本发明不仅局限于上述最佳实施方式,任何人在本发明的启示下都可得出其他各种形式的产品,但不论在其形状或结构上作任何变化,凡是具有与本发明相同或相近似的技术方案,均在其保护范围之内。

Claims (8)

1.一种提取船舶托盘管理信息的方法,其特征在于,所述方法包括以下步骤:
S1、获取托盘管理文件,所述托盘管理文件是EXCEL表格或CAD表格,所述托盘管理文件用于记录船舶托盘管理信息;
S2、对所述托盘管理文件中的内容进行逐一识别,获取托盘管理文件内部的多个单元格数据;
S3、根据多个所述单元格数据进行识别,获取多个符合管理要求的关键信息,所述关键信息包括:类别信息以及数据信息;
S4、收集多个所述关键信息,根据管理规则进行收录;
当所述托盘管理文件为EXCEL表格时,步骤S2具体包括以下步骤:
S201、识别托盘管理文件中的页面数量,对托盘管理文件中的每一页面进行识别;
S202、逐一识别各页面中的单元格,将各单元格中的类别信息与所述管理要求进行比对,将符合管理要求的单元格的类别信息以及数据信息组合成所述关键信息;
S203、将多个所述关键信息进行收录;
所述对托盘管理文件中的内容进行逐一识别,获取托盘管理文件内部的多个单元格数据,包括:
S202-1通过整型数组记录同行单元格记录数据项所在的列数”
S202-2判断单元格的数据类型,若单元格的数据类型为字符串类型,则直接返回所述单元格的数据,若单元格的数据类型为数值类型,则以字符串类型返回所述单元格的数值,若单元格的为空,则以字符串类型返回空值;
S202-3判断EXCEL表格取消隐藏后,表格的行高、列宽是否变化,若变化则提取新增单元格的数据。
2.如权利要求1所述的提取船舶托盘管理信息的方法,其特征在于,当所述托盘管理文件为EXCEL表格时,步骤S2还包括以下步骤:
识别页面中的单元格的行高,当行高为0时,则跳过该单元格,识别下一单元格。
3.如权利要求1所述的提取船舶托盘管理信息的方法,其特征在于,当所述托盘管理文件为CAD表格时,步骤S2具体包括以下步骤:
S201、识别CAD表格中的直线以及文本内容;
S202、结合所述直线以及所述文本内容,形成预处理表格;
S203、逐一识别预处理表格中的单元格,将各单元格中的类别信息与所述管理要求进行比对,将符合管理要求的单元格的类别信息以及数据信息组合成所述关键信息;
S204、将多个所述关键信息进行收录。
4.如权利要求3所述的提取船舶托盘管理信息的方法,其特征在于,所述S202具体包括以下步骤:
根据所述CAD表格中的所述直线,识别CAD表格中各直线的交点,并确定各文本内容的位置;
根据各直线以及各交点,形成第一预处理表格;
根据各文本内容的位置以及所述第一预处理表格形成所述预处理表格。
5.如权利要求1所述的提取船舶托盘管理信息的方法,其特征在于,当所述托盘管理文件为CAD表格时,其特征在于,步骤S2具体包括以下步骤:
S201、手动根据CAD表格中的直线以及文本内容,形成预处理表格;
S202、逐一识别预处理表格中的单元格,将各单元格中的类别信息与所述管理要求进行比对,将符合管理要求的单元格的类别信息以及数据信息组合成所述关键信息;
S203、将多个所述关键信息进行收录。
6.一种提取船舶托盘管理信息的系统,其特征在于,所述系统包括:
托盘管理文件获取模块,其用于获取托盘管理文件,所述托盘管理文件可以是EXCEL表格或CAD表格;
托盘管理文件识别模块,其用于对所述托盘管理文件中的内容进行逐一识别,获取托盘管理文件内部的多个单元格数据;
关键信息提取模块,其用于根据多个所述单元格数据进行识别,获取多个符合管理要求的关键信息,所述关键信息包括:类别信息以及数据信息;
关键信息收录模块,其用于收集多个所述关键信息,根据管理规则进行收录;
当所述托盘管理文件为EXCEL表格时,托盘管理文件识别模块的工作流程具体包括以下步骤:
A1、识别托盘管理文件中的页面数量,对托盘管理文件中的每一页面进行识别;
A2、逐一识别各页面中的单元格,将各单元格中的类别信息与所述管理要求进行比对,将符合管理要求的单元格的类别信息以及数据信息组合成所述关键信息;
A3、将多个所述关键信息进行收录;
所述对托盘管理文件中的内容进行逐一识别,获取托盘管理文件内部的多个单元格数据,包括:
S202-1通过整型数组记录同行单元格记录数据项所在的列数
S202-2判断单元格的数据类型,若单元格的数据类型为字符串类型,则直接返回所述单元格的数据,若单元格的数据类型为数值类型,则以字符串类型返回所述单元格的数值,若单元格的为空,则以字符串类型返回空值;
S202-3判断EXCEL表格取消隐藏后,表格的行高、列宽是否变化,若变化则提取新增单元格的数据。
7.如权利要求6所述的提取船舶托盘管理信息的系统,其特征在于,当所述托盘管理文件为CAD时,托盘管理文件识别模块的工作流程具体包括以下步骤:
B1、识别CAD表格中的直线以及文本内容;
B2、结合所述直线以及所述文本内容,形成预处理表格;
B3、逐一识别预处理表格中的单元格,将各单元格中的类别信息与所述管理要求进行比对,将符合管理要求的单元格的类别信息以及数据信息组合成所述关键信息;
B4、将多个所述关键信息进行收录。
8.如权利要求7所述的提取船舶托盘管理信息的系统,其特征在于,托盘管理文件识别模块的进行步骤B2操作时,具体包括以下步骤:
根据所述CAD表格中的所述直线,识别CAD表格中各直线的交点,并确定各文本内容的位置;
根据各直线以及各交点,形成第一预处理表格;
根据各文本内容的位置以及所述第一预处理表格形成所述预处理表格。
CN201810556349.1A 2018-05-31 2018-05-31 一种提取船舶托盘管理信息的方法及系统 Active CN109062921B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810556349.1A CN109062921B (zh) 2018-05-31 2018-05-31 一种提取船舶托盘管理信息的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810556349.1A CN109062921B (zh) 2018-05-31 2018-05-31 一种提取船舶托盘管理信息的方法及系统

Publications (2)

Publication Number Publication Date
CN109062921A CN109062921A (zh) 2018-12-21
CN109062921B true CN109062921B (zh) 2021-06-29

Family

ID=64819838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810556349.1A Active CN109062921B (zh) 2018-05-31 2018-05-31 一种提取船舶托盘管理信息的方法及系统

Country Status (1)

Country Link
CN (1) CN109062921B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110032718B (zh) * 2019-04-12 2023-04-18 广州广燃设计有限公司 一种表格转换方法、系统和存储介质
CN110825944B (zh) * 2019-10-29 2023-06-16 深圳前海环融联易信息科技服务有限公司 网页表格数据采集方法、装置、计算机设备及存储介质
CN114579712B (zh) * 2022-05-05 2022-07-15 中科雨辰科技有限公司 基于动态模型的文本属性提取匹配方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912516A (zh) * 2016-04-01 2016-08-31 南京朗坤软件有限公司 一种从AutoCAD文件中一键式提取表格数据的方法
CN107633353A (zh) * 2017-09-08 2018-01-26 南京国电南自电网自动化有限公司 基于excel表vba的物料bom表合规检查方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9619453B2 (en) * 2013-09-20 2017-04-11 Oracle International Corporation Model-driven list picker
CN104715359B (zh) * 2015-04-03 2017-11-17 广东中建普联科技股份有限公司 一种结构化建设行业材料文件及材料数据识别管理方法
CN106897690B (zh) * 2017-02-22 2018-04-13 南京述酷信息技术有限公司 Pdf表格提取方法
CN107862303B (zh) * 2017-11-30 2019-04-26 平安科技(深圳)有限公司 表格类图像的信息识别方法、电子装置及可读存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912516A (zh) * 2016-04-01 2016-08-31 南京朗坤软件有限公司 一种从AutoCAD文件中一键式提取表格数据的方法
CN107633353A (zh) * 2017-09-08 2018-01-26 南京国电南自电网自动化有限公司 基于excel表vba的物料bom表合规检查方法

Also Published As

Publication number Publication date
CN109062921A (zh) 2018-12-21

Similar Documents

Publication Publication Date Title
US7814111B2 (en) Detection of patterns in data records
CN100504866C (zh) 一种综合搜索结果的排序系统及方法
CN106709032B (zh) 抽取电子表格文档中结构化信息的方法及装置
AU2010249253B2 (en) A method for automatically indexing documents
CN108520002A (zh) 数据处理方法、服务器及计算机存储介质
CN109062921B (zh) 一种提取船舶托盘管理信息的方法及系统
CN110516208A (zh) 一种针对pdf文档表格提取的系统及方法
CN102456016B (zh) 一种对搜索结果进行排序的方法及装置
CN109271477A (zh) 一种借助互联网构建分类语料库的方法及系统
CN106844481B (zh) 字体相似度及字体替换方法
AU2002331728A1 (en) A method for automatically indexing documents
JP6623754B2 (ja) 表形式データ処理プログラム、方法及び装置
CN103034656B (zh) 章节内容分层方法和装置、文章内容分层方法和装置
CN108304382A (zh) 基于制造过程文本数据挖掘的质量分析方法与系统
JP2006146802A (ja) テキストマイニング装置およびテキストマイニング方法
Chu et al. Automatic data extraction of websites using data path matching and alignment
EP2518668A1 (en) Apparatus and method for visualizing technology transition
CN102270201A (zh) 用于网络文件的多维索引的方法和设备
CN107797979B (zh) 分析装置和分析方法
US20140181124A1 (en) Method, apparatus, system and storage medium having computer executable instrutions for determination of a measure of similarity and processing of documents
CN112148735A (zh) 一种用于结构化表格数据知识图谱的构建方法
CN116307566A (zh) 大型房屋建筑工程施工组织方案动态设计系统
KR101189068B1 (ko) n차원 프레임을 활용하여 니치 기술 영역 탐색 서비스를 제공해 주는 특허 정보 시스템의 정보 처리 방법 및 그 시스템
CN102436472B (zh) 一种基于关系机制的多类别web对象抽取方法
KR20100034868A (ko) 구조계산서 텍스트 정보의 계층 구조 추출 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant