CN106845467B - 基于光学字符识别技术的航空维修工卡工作内容识别方法 - Google Patents

基于光学字符识别技术的航空维修工卡工作内容识别方法 Download PDF

Info

Publication number
CN106845467B
CN106845467B CN201611152083.1A CN201611152083A CN106845467B CN 106845467 B CN106845467 B CN 106845467B CN 201611152083 A CN201611152083 A CN 201611152083A CN 106845467 B CN106845467 B CN 106845467B
Authority
CN
China
Prior art keywords
content
definition
gauge outfit
work card
cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611152083.1A
Other languages
English (en)
Other versions
CN106845467A (zh
Inventor
刘剑
李俊杰
刘媛
王丽
孙金涛
王本元
李鹏
张强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Aerospace Measurement and Control Technology Co Ltd
Original Assignee
Beijing Aerospace Measurement and Control Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Aerospace Measurement and Control Technology Co Ltd filed Critical Beijing Aerospace Measurement and Control Technology Co Ltd
Priority to CN201611152083.1A priority Critical patent/CN106845467B/zh
Publication of CN106845467A publication Critical patent/CN106845467A/zh
Application granted granted Critical
Publication of CN106845467B publication Critical patent/CN106845467B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Factory Administration (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明涉及一种基于光学字符识别技术的航空维修工卡工作内容识别方法,包括:对航空维修工卡的内容按类型进行分析,制定相关的模板识别匹配规则以及控制逻辑,生成控制配置文件;所述控制配置文件包括所述模板识别匹配规则与所述控制逻辑;读取待识别的航空维修工卡的内容,同时加载控制配置文件;从所述控制配置文件中读取控制逻辑以及模板识别匹配规则,根据所述控制逻辑与模块识别匹配规则采用光学字符识别技术解析待识别航空维修工卡中的内容信息,然后将航空维修工卡的内容进行结构化处理,输出结构化的文档内容。

Description

基于光学字符识别技术的航空维修工卡工作内容识别方法
技术领域
本发明涉及文字识别方法领域,特别涉及采用光学字符识别技术进行维修工卡内容识别方法。
背景技术
在航空维修过程中会产生大量的工卡、表单,对于这些数据,在无信息化手段的情况下,一般通过批量扫描方式对数据进行采集,这种采集方式带来的问题就是无法解决数据的格式化、数据查询、数据再利用的问题。
在实际处理维修工卡时,遇到的一个问题就是解决航空工卡自动分类(比如AD工卡、EO工卡、MAO工卡、CAO工卡、SB工卡等)、飞机号、工卡完工日期、完工签署、工作者的盖章、检查者盖章、工作反馈单等内容的识别问题。
传统方法依靠档案管理人员手动上传、分类、检查,这样导致档案管理人员工作量巨大、错误率高、可能存在工卡损坏、遗失等风险,而采用工卡自动分类和内容识别技术,将极大提高档案管理人员的工作效率,节省成本,维修工卡的管理水平。
OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
航空维修过程中会产生大量的工卡、表单,由于格式复杂,简单地采用OCR识别方式,仍旧解决不了工卡、表单的自动分类和内容识别问题。
发明内容
本发明的目的在于克服已有的航空维修工卡在内容识别时由于格式复杂所造成的内容识别困难,从而提供一种能有效提高识别准确率的航空维修工卡工作内容识别方法。
为了实现上述目的,本发明提供了一种基于光学字符识别技术的航空维修工卡工作内容识别方法,包括:
步骤1)、对航空维修工卡的内容按类型进行分析,制定相关的模板识别匹配规则以及控制逻辑,生成控制配置文件;所述控制配置文件包括所述模板识别匹配规则与所述控制逻辑;
步骤2)、读取待识别的航空维修工卡的内容,同时加载步骤1)所生成的控制配置文件;
步骤3)、从所述控制配置文件中读取控制逻辑以及模板识别匹配规则,根据所述控制逻辑与模块识别匹配规则采用光学字符识别技术解析待识别航空维修工卡中的内容信息,然后将航空维修工卡的内容进行结构化处理,输出结构化的文档内容。
上述技术方案中,在步骤1)中,制定模板识别匹配规则包括:将表格分解为表头、循环体、表尾三个部分,并对这三个部分进行定义以形成模板;其中,对于表头、表尾,在定义时按照单元格内容方式进行组织,通过文字或图形像素定义单元格的位置,对于循环体,在定义时明确循环条件以及内容。
上述技术方案中,对表头、循环体、表尾进行定义以形成模板包括:
针对表头、循环体头、表尾头进行定义,在定义时采集关键词文本;
分别针对表头中需识别的单元格标识、循环体中的循环项标识、表尾中的单元格标识进行定义,在定义中采用关键词文本的方法。
上述技术方案中,在步骤1)中,制定控制逻辑至少包括:定义单元格的识别逻辑、定义循环体的识别逻辑;
所述定义单元格的识别逻辑包括:首先,定义关键词文本,然后继续定义对于找到关键词文本后的相关位置;
定义循环体的识别逻辑包括:对于循环体针对每一个循环项进行定义,确定第一个循环项的关键词文本以及相对位置,其他循环项相对第一个循环项位置进行定义,定义完成后,整个确定循环项的内容;还包括定义循环间隔位置,包括每个循环项的相对间隔值,采用像素值进行标识;还包括定义循环条件。
上述技术方案中,所述步骤3)进一步包括:
步骤3-1)、初值定义,包括从模板中获取表头、循环体、表尾的头位置信息内容;
步骤3-2)、表头识别,从模板中获取表头中所有单元格定义的关键词文本以及控制逻辑定义内容,通过光学字符识别获取单元格内容以及位置信息,并记录,若获取内容且位置在表头区域,那么遍历找到表头所有已定义的单元格内容,否则,提示模板错误,退出识别过程;
步骤3-3)、循环体识别,从模板中获取循环体定义的循环项内容,包括关键词以及控制逻辑定义内容,通过循环间隔位置定义找到在每个循环条件内找到所有循环项内容,并进行数据记录,若循环条件未结束,则循环获取循环项内容,否则进入表尾识别流程;
步骤3-4)、表尾识别,从模板中获取表尾中所有单元格定义的关键词文本以及控制逻辑定义内容,通过OCR识别获取单元格内容以及位置信息,并记录,若获取内容且位置在表尾区域,那么遍历找到表头所有已定义的单元格内容,否则,提示模板错误,退出识别过程;
步骤3-5)、所有过程结束后,输出所有结构树数据,完成整个识别过程。
上述技术方案中,所述控制配置文件的格式为:
<headerInfo> 表示表头的定义,其定义包括关键词文本<header>、页码<PageIndex>、位置范围<Rect>、单元格内容<cellItem>,对于单元格内容,定义其关键词文本以及逻辑内容;
<bodyGroupInfo> 表示循环体的定义,其定义关键词文本<body>、页码<PageIndex>、位置范围<Rect>、循环条件<cycleCond>、间隔值<bodyGap>、循环项<bodyItem>,对于循环项,定义其关键词文本、关联内容以及位置信息;
<footInfo> 表示表尾的定义,其定义关键词文本<foot>、页码<PageIndex>、位置范围<Rect>、单元格内容<cellItem>,对于单元格内容,定义其关键词文本以及逻辑内容。
上述技术方案中,所述结构化的文档内容的样式为:
<headerInfo> 表示表头的定义,其定义包括表头标题<header>、页码<PageIndex>、位置范围<Rect>、键值对<cellItem>,对于键值对内容,获取键名称、值名称;
<bodyGroupInfo> 表示循环体表的定义,其定义表头名称<body>、页码<PageIndex>、位置范围<Rect>、循环项<bodyItem>、表头内容<tableheaders>、单元格内容<cellItem>,对于每一个表头的列定义,采用<tableHeader>进行定义,对于单元格内容<cellItem>,能知道其具体的行、列位置以及值内容;
<footInfo> 表示表尾的定义,其定义表尾标题<foot>、页码<PageIndex>、位置范围<Rect>、键值对<cellItem>,对于键值对内容,能获取键名称、值名称。
本发明的优点在于:
本发明的方法提高了工卡识别效率,有利于减少人力成本的投入,同时亦有利于数据的回收和后期利用。
附图说明
图1是本发明的基于OCR技术的航空维修工卡工作内容识别方法流程图;
图2是模板定义过程的示意图;
图3是定义单元格的识别逻辑与定义循环体的识别逻辑的示意图;
图4是在一个实施例中的控制配置文件的格式示意图;
图5是对航空维修工卡工作内容进行识别的示意图;
图6是工卡结构化文件格式示意图。
具体实施方式
现结合附图对本发明作进一步的描述。
在本发明的下列实施例中,以航空维修工卡为例,对如何实现航空维修工卡的内容识别做详细说明。但本领域的技术人员应当了解,本发明的内容识别方法同样可应用于具有大量表单的卡片的内容识别。
为解决复杂航空维修工卡的自动分类(比如AD工卡、EO工卡、MAO工卡、CAO工卡、SB工卡等)和飞机号、工卡号、工卡完工日期、完工签署、工作者的盖章、检查者盖章、工作反馈单等内容识别等问题,本发明提供了一种基于OCR技术的航空维修工卡工作内容识别方法,包括对工卡内容进行分析,形成模板和控制逻辑,生成控制配置文件;之后加载待识别的维修工卡以及之前得到的控制配置文件,从而对工卡内容进行识别,执行配置文件逻辑;采用OCR技术对工卡内容识别完成后,最后输出结构化的工卡内容。
以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
图1是本发明的基于OCR技术的航空维修工卡工作内容识别方法流程图,如图1所示,本发明的基于OCR技术的航空维修工卡工作内容识别方法包括如下步骤:
步骤101、对电子版的维修工卡内容按类型进行分析,制定相关的模板识别匹配规则以及控制逻辑,生成控制配置文件;
步骤102、读取待识别的电子版的标准样式维修工卡的内容,同时加载步骤101所生成的控制配置文件;
步骤103、从所述控制配置文件中读取控制逻辑以及模板识别匹配规则,根据所述控制逻辑与模块识别匹配规则采用OCR技术解析待识别维修工卡中的内容信息,然后将维修工卡的内容进行结构化处理,输出结构化的文档内容。
下面对各个步骤中的内容做进一步陈述。
在步骤101中,制定模板识别匹配规则包括:将表格分解为表头、循环体、表尾三个部分,并对这三个部分进行定义以形成模板;其中,对于表头、表尾,在定义时需按照单元格内容方式进行组织,通过文字或图形像素定义单元格的位置,对于循环体,在定义时需要明确循环条件以及内容。
如图2所示,在模板定义过程中,主要包括如下内容:
1)针对表头、循环体头、表尾头进行定义,在定义时需采集关键词文本,比如AO表、TOOLS/工具等内容;
2)分别针对表头中需识别的单元格标识、循环体中的循环项标识、表尾中的单元格标识进行定义,在定义中同样采用关键词文本的方法,比如对于表头定义工作指令号、序列号、工卡二维码、飞机号、工卡号、工种等内容,对于循环项定义件号、名称、类型、数量等内容,对于表尾定义签字人员、检查人员等内容。
在步骤101中,制定控制逻辑至少包括:定义单元格的识别逻辑、定义循环体的识别逻辑。
如图3所示,定义单元格的识别逻辑包括:首先,定义关键词文本,然后继续定义对于找到关键词文本后的相关位置。比如对于工作指令号,其具体的值内容可能定位的“工作指令号”图像位置的下方10像素的位置,此时便可以通过相关位置定义来更为准确的获取关键词内容。
定义循环体的识别逻辑包括:对于循环体需针对每一个循环项进行定义,确定第一个循环项的关键词文本以及相对位置,其他循环项可相对第一个循环项位置进行定义,定义完成后,可整个确定循环项的内容;还包括定义循环间隔位置,包括每个循环项的相对间隔值,采用像素值进行标识;还包括定义循环条件,比如循环条件为多少次或某个具体的关键词位置标示结束等。
在步骤101中,基于之前的模板识别匹配规则与控制逻辑生成控制配置文件,在图4中给出了所生成的控制配置文件的格式示意图,以下对该样式进行说明。
<headerInfo> 表示表头的定义,其可定义包括关键词文本<header>、页码<PageIndex>、位置范围<Rect>、单元格内容<cellItem>,对于单元格内容,可定义其关键词文本以及逻辑内容,比如通过“relation”属性说明其与其他单元格的关系,比如"工作指令号值"通过该属性与"工作指令号"建立关系,且其位置在"工作指令号"的位置下方10个像素,同时通过"value"属性可在生成结构化结果时建立值关系,输出为其值。
<bodyGroupInfo> 表示循环体的定义,其可定义关键词文本<body>、页码<PageIndex>、位置范围<Rect>、循环条件<cycleCond>、间隔值<bodyGap>、循环项<bodyItem>,对于循环项,可按照单元格内容同样方法进行定义,定义其关键词文本、关联内容以及位置信息;
<footInfo> 表示表尾的定义,其可定义关键词文本<foot>、页码<PageIndex>、位置范围<Rect>、单元格内容<cellItem>,对于单元格内容,可定义其关键词文本以及逻辑内容。表尾具体定义内容类似表头,可参考表头定义。
在步骤103中,采用OCR技术解析待识别维修工卡中的内容信息时,对于表头、表尾,按照模板以及控制逻辑定位单元格,并通过OCR技术进行内容识别;对于循环体,根据循环条件和控制逻辑定位每一个循环内容,定位单元格内容,采用OCR技术进行内容识别。所有内容识别完成后,输出为结构化的文档内容。
下面结合图5对这一识别过程做进一步的说明。
1)初值定义,主要实现从模板中获取表头、循环体、表尾的头位置信息内容;
2)表头识别,从模板中获取表头中所有单元格定义的关键词文本以及控制逻辑定义内容,通过OCR识别获取单元格内容以及位置信息,并记录,若正确获取(获取内容且位置在表头区域),那么遍历找到表头所有已定义的单元格内容,否则,提示模板错误,退出识别过程;
3)循环体识别,从模板中获取循环体定义的循环项内容,包括关键词以及控制逻辑定义内容,通过循环间隔位置定义找到在每个循环条件内找到所有循环项内容,并进行数据记录,若循环条件未结束,则循环获取循环项内容,否则进入表尾识别流程;
4)表尾识别,从模板中获取表尾中所有单元格定义的关键词文本以及控制逻辑定义内容,通过OCR识别获取单元格内容以及位置信息,并记录,若正确获取(获取内容且位置在表尾区域),那么遍历找到表头所有已定义的单元格内容,否则,提示模板错误,退出识别过程;
5)所有过程结束后,输出所有结构树数据,完成整个识别过程。
在图6中给出了工卡结构化文件格式示意,以下对该样式进行说明。
<headerInfo> 表示表头的定义,其可定义包括表头标题<header>、页码<PageIndex>、位置范围<Rect>、键值对<cellItem>,对于键值对内容,可获取键名称、值名称。
<bodyGroupInfo> 表示循环体表的定义,其可定义表头名称<body>、页码<PageIndex>、位置范围<Rect>、循环项<bodyItem>、表头内容<tableheaders>、单元格内容<cellItem>,对于每一个表头的列定义,采用<tableHeader>进行定义,对于单元格内容<cellItem>,可知道其具体的行、列位置以及值内容;
<footInfo> 表示表尾的定义,其可定义表尾标题<foot>、页码<PageIndex>、位置范围<Rect>、键值对<cellItem>,对于键值对内容,可获取键名称、值名称。
综上所述,借助于本发明实施例的技术方案,通过对工卡内容进行分析,形成模板和控制逻辑,生成控制配置文件,之后加载维修工卡以及配置文件对工卡内容进行识别,执行配置文件逻辑,采用OCR技术对工卡内容识别完成后,输出结构化的工卡内容,解决了复杂航空维修工卡的自动分类(比如AD工卡、EO工卡、MAO工卡、CAO工卡、SB工卡等)和飞机号、工卡号、工卡完工日期、完工签署、工作者的盖章、检查者盖章、工作反馈单等内容识别等问题,提高了工卡识别效率,有利于减少人力成本的投入,同时亦有利于数据的回收和后期利用。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (3)

1.一种基于光学字符识别技术的航空维修工卡工作内容识别方法,包括:
步骤1)、对航空维修工卡的内容按类型进行分析,制定相关的模板识别匹配规则以及控制逻辑,生成控制配置文件;所述控制配置文件包括所述模板识别匹配规则与所述控制逻辑;
步骤2)、读取待识别的航空维修工卡的内容,同时加载步骤1)所生成的控制配置文件;
步骤3)、从所述控制配置文件中读取控制逻辑以及模板识别匹配规则,根据所述控制逻辑与模块识别匹配规则采用光学字符识别技术解析待识别航空维修工卡中的内容信息,然后将航空维修工卡的内容进行结构化处理,输出结构化的文档内容;
在步骤1)中,所述制定相关的模板识别匹配规则包括:将表格分解为表头、循环体、表尾三个部分,并对这三个部分进行定义以形成模板;其中,对于表头、表尾,在定义时按照单元格内容方式进行组织,通过文字或图形像素定义单元格的位置,对于循环体,在定义时明确循环条件以及内容;
对表头、循环体、表尾进行定义以形成模板包括:
针对表头、循环体头、表尾头进行定义,在定义时采集关键词文本;
分别针对表头中需识别的单元格标识、循环体中的循环项标识、表尾中的单元格标识进行定义,在定义中采用关键词文本的方法;
在步骤1)中,制定控制逻辑至少包括:定义单元格的识别逻辑、定义循环体的识别逻辑;
所述定义单元格的识别逻辑包括:首先,定义关键词文本,然后继续定义对于找到关键词文本后的相关位置;
定义循环体的识别逻辑包括:对于循环体针对每一个循环项进行定义,确定第一个循环项的关键词文本以及相对位置,其他循环项相对第一个循环项位置进行定义,定义完成后,整个确定循环项的内容;还包括定义循环间隔位置,包括每个循环项的相对间隔值,采用像素值进行标识;还包括定义循环条件;
所述步骤3)进一步包括:
步骤3-1)、初值定义,包括从模板中获取表头、循环体、表尾的头位置信息内容;
步骤3-2)、表头识别,从模板中获取表头中所有单元格定义的关键词文本以及控制逻辑定义内容,通过光学字符识别获取单元格内容以及位置信息,并记录,若获取内容且位置在表头区域,那么遍历找到表头所有已定义的单元格内容,否则,提示模板错误,退出识别过程;
步骤3-3)、循环体识别,从模板中获取循环体定义的循环项内容,包括关键词以及控制逻辑定义内容,通过循环间隔位置定义找到在每个循环条件内找到所有循环项内容,并进行数据记录,若循环条件未结束,则循环获取循环项内容,否则进入表尾识别流程;
步骤3-4)、表尾识别,从模板中获取表尾中所有单元格定义的关键词文本以及控制逻辑定义内容,通过OCR识别获取单元格内容以及位置信息,并记录,若获取内容且位置在表尾区域,那么遍历找到表头所有已定义的单元格内容,否则,提示模板错误,退出识别过程;
步骤3-5)、所有过程结束后,输出所有结构树数据,完成整个识别过程。
2.根据权利要求1所述的基于光学字符识别技术的航空维修工卡工作内容识别方法,其特征在于,所述控制配置文件的格式为:
<headerInfo>表示表头的定义,其定义包括关键词文本<header>、页码<PageIndex>、位置范围<Rect>、单元格内容<cellItem>,对于单元格内容,定义其关键词文本以及逻辑内容;
<bodyGroupInfo>表示循环体的定义,其定义关键词文本<body>、页码<PageIndex>、位置范围<Rect>、循环条件<cycleCond>、间隔值<bodyGap>、循环项<bodyItem>,对于循环项,定义其关键词文本、关联内容以及位置信息;
<footInfo>表示表尾的定义,其定义关键词文本<foot>、页码<PageIndex>、位置范围<Rect>、单元格内容<cellItem>,对于单元格内容,定义其关键词文本以及逻辑内容。
3.根据权利要求1所述的基于光学字符识别技术的航空维修工卡工作内容识别方法,其特征在于,所述结构化的文档内容的样式为:
<headerInfo>表示表头的定义,其定义包括表头标题<header>、页码<PageIndex>、位置范围<Rect>、键值对<cellItem>,对于键值对内容,获取键名称、值名称;
<bodyGroupInfo>表示循环体表的定义,其定义表头名称<body>、页码<PageIndex>、位置范围<Rect>、循环项<bodyItem>、表头内容<tableheaders>、单元格内容<cellItem>,对于每一个表头的列定义,采用<tableHeader>进行定义,对于单元格内容<cellItem>,能知道其具体的行、列位置以及值内容;
<footInfo>表示表尾的定义,其定义表尾标题<foot>、页码<PageIndex>、位置范围<Rect>、键值对<cellItem>,对于键值对内容,能获取键名称、值名称。
CN201611152083.1A 2016-12-14 2016-12-14 基于光学字符识别技术的航空维修工卡工作内容识别方法 Active CN106845467B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611152083.1A CN106845467B (zh) 2016-12-14 2016-12-14 基于光学字符识别技术的航空维修工卡工作内容识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611152083.1A CN106845467B (zh) 2016-12-14 2016-12-14 基于光学字符识别技术的航空维修工卡工作内容识别方法

Publications (2)

Publication Number Publication Date
CN106845467A CN106845467A (zh) 2017-06-13
CN106845467B true CN106845467B (zh) 2019-07-19

Family

ID=59140841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611152083.1A Active CN106845467B (zh) 2016-12-14 2016-12-14 基于光学字符识别技术的航空维修工卡工作内容识别方法

Country Status (1)

Country Link
CN (1) CN106845467B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110843703A (zh) * 2018-08-21 2020-02-28 上海博泰悦臻电子设备制造有限公司 维修保养的管理方法及车辆
CN109325557B (zh) * 2018-09-10 2019-07-16 四川正狐智慧科技有限公司 基于计算机视觉图像识别的数据智能采集方法
CN109635681B (zh) * 2018-11-26 2021-11-26 汉王科技股份有限公司 一种文献处理方法及装置
CN110046722A (zh) * 2019-04-19 2019-07-23 深圳市万物云科技有限公司 基于ocr技术的社区设备维保方法及装置与系统和存储介质
CN113128177B (zh) * 2021-03-12 2022-07-12 厦门航空有限公司 维修工卡的电子签署方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020107883A1 (en) * 2001-02-08 2002-08-08 Ofer Schneid Distributed visual communications content development method and system
CN102122280B (zh) * 2009-12-17 2013-06-05 北大方正集团有限公司 一种智能提取内容对象的方法及系统
CN102098331B (zh) * 2010-12-29 2013-06-19 北京锐安科技有限公司 一种还原web类应用内容的方法及其系统
CN102799584A (zh) * 2011-05-24 2012-11-28 中华人民共和国天津出入境检验检疫局 一种针对检测仪器输出数据筛选提取的处理方法
CN102982028A (zh) * 2011-09-02 2013-03-20 北大方正集团有限公司 用于提取文档结构的方法和装置
CN106156239B (zh) * 2015-04-27 2020-06-30 中国移动通信集团公司 一种表格抽取方法和装置
CN105975575A (zh) * 2016-05-04 2016-09-28 电子科技大学 一种数据类型自动化识别方法

Also Published As

Publication number Publication date
CN106845467A (zh) 2017-06-13

Similar Documents

Publication Publication Date Title
CN106845467B (zh) 基于光学字符识别技术的航空维修工卡工作内容识别方法
CN107832229B (zh) 一种基于nlp的系统测试用例自动生成方法
CN105930836A (zh) 一种视频文字的识别方法和装置
CN1226696C (zh) 用于检索草体手写注释的方法
CN111652162A (zh) 一种医疗单证结构化知识提取的文本检测与识别方法
CN110688863B (zh) 一种文档翻译系统及文档翻译方法
CN112927776A (zh) 一种面向医学检验报告的人工智能自动解读系统
CN113485160A (zh) 一种基于图形匹配识别的仿真建模方法及装置
CN111985462A (zh) 基于深度神经网络的古文字检测、识别和检索系统
CN111985394B (zh) Kitti数据集的半自动实例标注方法及系统
CN116341525A (zh) 一种基于自然语言处理的文本审查纠错系统
CN111241329A (zh) 基于图像检索的古文字考释方法和装置
You et al. Detecting figure-panel labels in medical journal articles using MRF
US11900705B2 (en) Intelligent engineering data digitization
CN113111869B (zh) 提取文字图片及其描述的方法和系统
CN109325557B (zh) 基于计算机视觉图像识别的数据智能采集方法
CN106649219A (zh) 一种通信卫星设计文件自动生成方法
TW202207109A (zh) 工程專案文件管理方法與系統
CN112925874A (zh) 基于案例标记的相似代码搜索方法及系统
CN114035726B (zh) 一种机器人流程自动化页面要素识别过程的方法及系统
CN114756976B (zh) 航空器制造改装中的工作单生成方法及系统
CN117608545B (zh) 一种基于知识图谱的标准作业程序生成方法
CN117237971B (zh) 基于多模态信息抽取的食品类质检报告数据抽取方法
US11227186B2 (en) Method and device for training image recognition model and related device
CN117252201B (zh) 面向知识图谱的离散型制造行业工艺数据提取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant