CN114283438A - 核电厂图纸信息识别与提取方法及系统 - Google Patents

核电厂图纸信息识别与提取方法及系统 Download PDF

Info

Publication number
CN114283438A
CN114283438A CN202111345057.1A CN202111345057A CN114283438A CN 114283438 A CN114283438 A CN 114283438A CN 202111345057 A CN202111345057 A CN 202111345057A CN 114283438 A CN114283438 A CN 114283438A
Authority
CN
China
Prior art keywords
information
text
same
text information
cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111345057.1A
Other languages
English (en)
Inventor
巩海龙
刘昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cgn Huizhou Nuclear Power Co ltd
China General Nuclear Power Corp
Original Assignee
Cgn Huizhou Nuclear Power Co ltd
China General Nuclear Power Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cgn Huizhou Nuclear Power Co ltd, China General Nuclear Power Corp filed Critical Cgn Huizhou Nuclear Power Co ltd
Priority to CN202111345057.1A priority Critical patent/CN114283438A/zh
Publication of CN114283438A publication Critical patent/CN114283438A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明涉及一种核电厂图纸信息识别与提取方法及系统,其中方法包括S10、表格识别:从图纸中识别含有表格信息的图形;S20、文本识别及提取:从每个单元格中识别并提取文本信息,文本信息包括文本样式、文本内容、文本类型;S30、文本划分:在文本提取过程中,建立直角坐标系,根据单元格位置,将对应单元格内的文本信息赋予独立的坐标号;根据相应的坐标号,将同一纵坐标的文本信息划分为同一信息类型,同一横坐标的文本信息划分为同一备件的不同信息类型;S40、文本排序:建立总表格,根据信息类型、对应的坐标号,在总表格中将提取出来的文本信息按序排列;可减少人力消耗,而且数据的准确性高。

Description

核电厂图纸信息识别与提取方法及系统
技术领域
本发明涉及核电领域,尤其涉及一种核电厂图纸信息识别与提取方法。
背景技术
在核电厂中,一期工程中备件对应的图纸预计10万项左右,若需要将图纸中所需信息提取出来,工作量巨大;若通过人工手动从图纸中逐项提取,则需要大量人员历经将近4年时间,强度极大,而且对数据的准确性要求很高,否则可能导致供应商无法识别或者现场维修时备件不匹配。
发明内容
本发明要解决的技术问题在于,提供一种核电厂图纸信息识别与提取方法。
本发明解决其技术问题所采用的技术方案是:构造一种核电厂图纸信息识别与提取方法,包括:
S10、表格识别:从图纸中识别含有表格信息的图形,表格信息包括表格线条、表格位置、由表格线条构成的单元格、单元格位置、各单元格内的文本信息;
S20、文本识别及提取:从每个单元格中识别并提取文本信息,文本信息包括文本样式、文本内容、文本类型;
S30、文本划分:在文本提取过程中,建立直角坐标系,根据单元格位置,将对应单元格内的文本信息赋予独立的坐标号;
根据相应的坐标号,将同一纵坐标的文本信息划分为同一信息类型,同一横坐标的文本信息划分为同一备件的不同信息类型;
S40、文本排序:建立总表格,根据信息类型、对应的坐标号,在总表格中将提取出来的文本信息按序排列。
优选地,在步骤S20中,包括以下子步骤:
S21:通过OCR识别工具识别表格中的各单元格内的文本信息;
S22:对识别出来的文本信息根据通用文本和/或预设文本进行修正;
S23:提取文本修正后的各单元格内的文本信息。
优选地,在步骤S30中,还包括以下子步骤:
S31:判断在同一纵坐标的文本信息是否为同一信息类型;若是,执行下一步骤;若否,进行文本内容分析,将不同于一类的信息类型对应的文本信息划分至正确的信息类型;
S32:判断同一横坐标的文本信息是否为同一备件的不同信息类型;若是,执行下一步骤;若否,进行文本内容分析,将不是同一备件的信息类型对应的文本信息划分至正确的信息类型。
优选地,在步骤S30中,还包括以下子步骤:
S33:判断在同一单元格内的文本信息是否包含多种信息类型,若是,则进行文本分类,将同一单元格内的文本信息重新划分为对应的信息类型,并赋予不同的纵向坐标。
优选地,在步骤S30中,还包括以下子步骤:
S34:同一单元格内的文本信息包括N种信息类型,其中,第一种信息类型对应的纵向坐标的数值为M,则第n种信息类型对应的纵向坐标的数值为M+n/N;N、n为正整数,且n<N。
优选地,文本信息对应坐标号的数值为对应单元格的右上角的坐标数值减去其左上角的坐标数值。
优选地,在步骤S40后,还可包括步骤S50:
S50、编码转换:根据预设的编码规则,将同一备件的不同信息类型编译为字符串类型的编码。
优选地,在步骤S10之前,还包括步骤S01:
S01、图纸截取:根据预先设定表格在图纸中的第一位置,截取图纸于第一位置的部分位置,再进行表格识别。
优选地,在步骤S40中,还包括以下子步骤:
S41:抽选同一纵坐标中的至少两个文本信息,并判断抽选的文本信息是否为同一信息类型;若是,则确定同一纵坐标为同一信息类型;若否,重新对文本信息进行识别,并修正对应正确的信息类型。
本发明还构造了一种采用上述的一种核电厂图纸信息识别与提取方法的核电厂图纸信息识别与提取系统,包括:
表格识别模块:用于从图纸中识别含有表格信息的图形;
文本识别及提取模块:用于从每个单元格中识别并提取文本信息
文本划分模块:用于建立直角坐标系,根据单元格位置,将对应单元格内的文本信息赋予独立的坐标号;并根据相应的坐标号,将同一纵坐标的文本信息划分为同一信息类型,同一横坐标的文本信息划分为同一备件的不同信息类型;
文本排序模块:用于识别同一纵坐标的文本信息的信息类型;并建立总表格,根据信息类型、对应的坐标号,在总表格中将提取出来的文本信息按序排列。
实施本发明具有以下有益效果:针对核电厂图纸中所需信息内容进行识别及提取,可减少人力消耗,而且数据的准确性高,降低供应商无法识别或者现场维修时备件不匹配的问题发生机率。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明核电厂图纸信息识别与提取方法及系统中核电厂图纸信息识别与提取方法的程序流程图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。以下描述中,需要理解的是,“前”、“后”、“上”、“下”、“左”、“右”、“纵”、“横”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“头”、“尾”等指示的方位或位置关系为基于附图所示的方位或位置关系、以特定的方位构造和操作,仅是为了便于描述本技术方案,而不是指示所指的装置或元件必须具有特定的方位,因此不能理解为对本发明的限制。
还需要说明的是,除非另有明确的规定和限定,“安装”、“相连”、“连接”、“固定”、“设置”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。当一个元件被称为在另一元件“上”或“下”时,该元件能够“直接地”或“间接地”位于另一元件之上,或者也可能存在一个或更多个居间元件。术语“第一”、“第二”、“第三”等仅是为了便于描述本技术方案,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量,由此,限定有“第一”、“第二”、“第三”等的特征可以明示或者隐含地包括一个或者更多个该特征。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
本发明提供一种核电厂图纸信息识别与提取方法,通过对图纸上的内容进行有用信息识别及提取,并将提取的信息进行有规律的排序,可应用于制作备件编码导入表。
其中,如图1所示,核电厂图纸信息识别与提取方法包括:
S10、表格识别:从图纸中识别含有表格信息的图形,表格信息包括表格线条、表格位置、由表格线条构成的单元格、单元格位置、各单元格内的文本信息;
可以理解地,核电厂图纸内容包括:备件结构图、性能表、BOM表、EOMM手册号、电站图号、制造厂图号、制造厂名称、供应商名称以及其他残余信息;而本发明的目的在于,将当中的BOM表、EOMM手册号、电站图号、制造厂图号、制造厂名称、供应商名称进行识别以及提取出来,而该部分内容通常在图纸中都会以表格的形式进行罗列,因此,本发明通过表格识别,以规划出具体位置,并在该具体位置中进行文本识别,以免发生文本混淆的问题。
进一步地,核电厂图纸一般以dwg文件格式、pdf文件格式、图片文件格式等文件格式进行数据保存;在本发明的一些实施例中,通过在图纸中识别并查找带有多个交汇点的横纵线;抑或者,通过在图纸中查找方形图形,以判断为表格。需要说明的是,如果在表格中检索不到文本信息,可认为该是空表格,或是备件结构图的一部分内容,此时可忽略。
更进一步地,表格信息包括表格线条、表格位置、由表格线条构成的单元格信息、单元格位置、各单元格内的文本信息;可以理解地,表格包括若干个依序排列的单元格;在识别为表格后,识别当中单元格以及包含在对应单元格内的文本信息,进而提取文本信息。
可选地,在步骤S10之前,还包括步骤S01,用于加快表格识别的速度;
具体地,步骤S01、图纸截取:根据预先设定表格在图纸中的第一位置,截取图纸于第一位置的部分位置,再进行表格识别。
可以理解地,在现有技术中,表格信息一般集中设置在图纸的右下角,通过直接裁剪部分图纸可加快表格识别的速度;第一位置具体的长度和宽度可根据实际情况而定,可以是核电厂给定的表格格式;另外,第一位置的范围大于整份表格的大小,以确保信息没有疏漏。
S20、文本识别及提取:从每个单元格中识别并提取文本信息,文本信息包括文本样式、文本内容;
可以理解地,每个单元格中各设有文本信息,需要将文本信息进行识别以及提取,以进行步骤S30;
文本信息包括文本样式、文本内容、文本类型;在本发明的一些实施例中,该文本信息可以是由字母、数字、符号或中文字符中的一种或多种的组合。
具体地,在步骤S20中,包括以下子步骤:
S21:通过OCR识别工具识别表格中的各单元格内的文本信息;
S22:对识别出来的文本信息根据通用文本和/或预设文本进行修正;
S23:提取文本清洗后的各单元格内的文本信息;
可以理解地,OCR(optical character recognition)文字识别是将需要识别的文本用字符识别方法将其形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程;OCR识别工具可参考现有技术,这里就不加以说明。
OCR识别工具可基于计算机而实现,在步骤S21之前,可以通过RPA机器人启动OCR识别工具,以实现自动化。
通过OCR识别工具识别各单元格内的文本信息,并且对识别出来的文本信息根据通用文本和/或预设文本进行修正;通用文本是指常规中容易发生错误判断的文本,比如数字字符1与字母字符l、数字字符0与字母字符O,该类字符上的形状比较相似;预设文本可以是指核电厂中关于技术领域的专业词汇,也可以是形状比较特别的符号,比如
Figure BDA0003353682390000061
⊙、Δ该类单位符号。
S30、文本排序:在文本提取过程中,建立直角坐标系,根据单元格位置,将对应单元格内的文本信息赋予独立的坐标号;
根据相应的坐标号,将同一纵坐标的文本信息划分为同一信息类型,同一横坐标的文本信息划分为同一备件的不同信息类型;
可以理解地,该信息类型可以是使用标准、制造厂图项号、制造厂参考号、备件中文描述、备件型号栏、子备件数、材料、制造商代码、供应商代码、EOMM手册编码、电站图号、电站图版本号等等。具体地,表格中在同一横向的单元格内包含有同一备件的不同信息类型;举例说明,第一横向单元格含有代表序号的数字“1”,第二横向单元格含有代表备件中文描述的中文字符“轴承”,第三横向单元格含有代表使用标准的由字母、符号及数字组成的字符串“GB/T292”,第四向单元格含有代表备件数量的数字“1”;而在表格中在同一纵向的单元格内包含有同一信息类型的文本信息;举例说明,对应第一横向单元的纵向单元格内的文本内容均代表序号,如此类推。
建立直角坐标系,将表格各单元格的内的文本信息赋予独立的坐标号,由于在核电厂图纸中,横向的多个单元格的长度可能不相同,导致设置坐标号时容易出现问题,因此,可设定以单元格的左上角为坐标号,以对应该单元格内的文本信息;当然以单元格的左上角为坐标点只是本发明中的一个实施例,其他以单元格设定为坐标点的方式也应纳入本发明的保护范围。优选地,由于图表格中单元格的位置可能错综复杂,单元格长短不一;为了减少识别的错误率,文本信息对应坐标号的数值为对应单元格的右上角的坐标数值减去其左上角的坐标数值;
将文本修正后的各单元格内的文本信息进行提取,并进行下一步骤。
进一步地,在步骤S30中,还包括以下子步骤:
S31:判断在同一纵坐标的文本信息是否为同一信息类型;若是,执行下一步骤;若否,进行文本内容分析,将不同于一类的信息类型对应的文本信息划分至正确的信息类型;
S32:判断同一横坐标的文本信息是否为同一备件的不同信息类型;若是,执行下一步骤;若否,进行文本内容分析,将不是同一备件的信息类型对应的文本信息划分至正确的信息类型;
可以理解地,在核电厂图纸中,BOM表可以设置在含有厂家名称等文本内容的方框上方,或者设置在其方框的横向侧边,此时同一纵坐标的文本信息可能不是同一信息类型,同一横坐标的文本信息可能不是同一备件的不同信息类型。因此,可对文本内容进行分析及判断,若分析发现文本内容中包含特定文字时,可将不同于一类的信息类型对应的文本信息划分至正确的信息类型;举例说明,厂家名称一般带有公司、厂该类特定文字,此时可将该类文本信息划分至供应商或制造商一栏。
更进一步地,在步骤S30中,还包括以下子步骤:
S33:判断在同一单元格内的文本信息是否包含多种信息类型,若是,则进行文本分类,将同一单元格内的文本信息重新划分为对应的信息类型,并赋予不同的纵向坐标;
可以理解地,在任一单元格,可能包含多种信息类型的文本信息;举例说明,一单元格内含有文本信息“螺塞M20x1.25”,其中螺塞代表备件中文描述的信息类型,而M20x1.25代表该螺塞的型号及大小。此时将该单元格内的文本信息重新划分为对应的信息类型,并赋予不同的纵向坐标。
S34:同一单元格内的文本信息包括N种信息类型,其中,第一种信息类型对应的纵向坐标的数值为M,则第n种信息类型对应的纵向坐标的数值为M+n/N;N、n为正整数,且n<N。
可以理解地,若在设定以单元格的左上角为坐标点的情况下,同一单元格内的文本信息包含多种信息类型,第一种信息类型对应的纵向坐标为M,则第n种信息类型对应的纵向坐标为M+n/N;N、n为正整数,且n<N。
S40、文本排序:建立总表格,根据信息类型、对应的坐标号,在总表格中将提取出来的文本信息按序排列。
可以理解地,在赋予独立的坐标号给对应单元格内的文本信息后,由于同一纵坐标的文本信息为同一信息类型,只要识别同一纵坐标中的任一文本信息的信息类型,即可判断该纵坐标中的所有文本信息的信息类型。
优选地,在步骤S40中,还包括以下子步骤:
S41:抽选同一纵坐标中的至少两个文本信息,并判断抽选的文本信息是否为同一信息类型;若是,则确定同一纵坐标为同一信息类型;若否,重新对文本信息进行识别,并修正对应正确的信息类型。
进一步地,可通过分析文本内容从而识别信息类型;举例说明,在核电厂图纸中,一般带有GB、JB/T、NB/T等文本内容为使用标准,若分析出含有该类文本内容的文本信息,则可识别为使用标准的信息类型。另外,还可创建预设关系表,当文本信息中出现与预设关系表中对应的文字或者英文时则判断为相应的信息类型;举例说明,在判断信息类型为制造商、供应商时,由于识别文本信息均为文字组成的文本内容,此时通过在预设关系表设置各自对应的文本内容与信息类型的关系,在分析出文本信息中的内容时可识别出相应的信息类型。
可选地,在步骤S40后,还包括步骤S50,具体地:
S50、编码转换:根据预设的编码规则,将同一备件的不同信息类型编译为字符串类型的编码。
可以理解地,在核电厂中,需要将备件的相关信息繁多,若编译为编码,可方便备件的资料保存以及使用。具体地,在识别出文本信息中备件的中文描述后,将该备件中关于其他信息类型的文本信息依照预先设定的编码规则进行转换,以得到对应的字符串类型编码。
基于同一总发明构思,本发明还构造了一种采用上述一种核电厂图纸信息识别与提取方法的核电厂图纸信息识别与提取系统,包括:
表格识别模块:用于从图纸中识别含有表格信息的图形;
文本识别及提取模块:用于从每个单元格中识别并提取文本信息
文本划分模块:用于建立直角坐标系,根据单元格位置,将对应单元格内的文本信息赋予独立的坐标号;并根据相应的坐标号,将同一纵坐标的文本信息划分为同一信息类型,同一横坐标的文本信息划分为同一备件的不同信息类型;
文本排序模块:用于识别同一纵坐标的文本信息的信息类型;并建立总表格,根据信息类型、对应的坐标号,在总表格中将提取出来的文本信息按序排列。
可以理解的,以上实施例仅表达了本发明的优选实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制;应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,可以对上述技术特点进行自由组合,还可以做出若干变形和改进,这些都属于本发明的保护范围;因此,凡跟本发明权利要求范围所做的等同变换与修饰,均应属于本发明权利要求的涵盖范围。

Claims (10)

1.一种核电厂图纸信息识别与提取方法,其特征在于,包括:
S10、表格识别:从图纸中识别含有表格信息的图形,表格信息包括表格线条、表格位置、由表格线条构成的单元格、单元格位置、各单元格内的文本信息;
S20、文本识别及提取:从每个单元格中识别并提取文本信息,文本信息包括文本样式、文本内容、文本类型;
S30、文本划分:在文本提取过程中,建立直角坐标系,根据单元格位置,将对应单元格内的文本信息赋予独立的坐标号;
根据相应的坐标号,将同一纵坐标的文本信息划分为同一信息类型,同一横坐标的文本信息划分为同一备件的不同信息类型;
S40、文本排序:建立总表格,根据信息类型、对应的坐标号,在总表格中将提取出来的文本信息按序排列。
2.根据权利要求1所述的核电厂图纸信息识别与提取方法,其特征在于,在步骤S20中,包括以下子步骤:
S21:通过OCR识别工具识别表格中的各单元格内的文本信息;
S22:对识别出来的文本信息根据通用文本和/或预设文本进行修正;
S23:提取文本修正后的各单元格内的文本信息。
3.根据权利要求1或2任一项所述的核电厂图纸信息识别与提取方法,其特征在于,在步骤S30中,还包括以下子步骤:
S31:判断在同一纵坐标的文本信息是否为同一信息类型;若是,执行下一步骤;若否,进行文本内容分析,将不同于一类的信息类型对应的文本信息划分至正确的信息类型;
S32:判断同一横坐标的文本信息是否为同一备件的不同信息类型;若是,执行下一步骤;若否,进行文本内容分析,将不是同一备件的信息类型对应的文本信息划分至正确的信息类型。
4.根据权利要求3所述的核电厂图纸信息识别与提取方法,其特征在于,在步骤S30中,还包括以下子步骤:
S33:判断在同一单元格内的文本信息是否包含多种信息类型,若是,则进行文本分类,将同一单元格内的文本信息重新划分为对应的信息类型,并赋予不同的纵向坐标。
5.根据权利要求3所述的核电厂图纸信息识别与提取方法,其特征在于,在步骤S30中,还包括以下子步骤:
S34:同一单元格内的文本信息包括N种信息类型,其中,第一种信息类型对应的纵向坐标的数值为M,则第n种信息类型对应的纵向坐标的数值为M+n/N;N、n为正整数,且n<N。
6.根据权利要求1所述的核电厂图纸信息识别与提取方法,其特征在于,文本信息对应坐标号的数值为对应单元格的右上角的坐标数值减去其左上角的坐标数值。
7.根据权利要求1所述的核电厂图纸信息识别与提取方法,其特征在于,在步骤S40后,还可包括步骤S50:
S50、编码转换:根据预设的编码规则,将同一备件的不同信息类型编译为字符串类型的编码。
8.根据权利要求1所述的核电厂图纸信息识别与提取方法,其特征在于,在步骤S10之前,还包括步骤S01:
S01、图纸截取:根据预先设定表格在图纸中的第一位置,截取图纸于第一位置的部分位置,再进行表格识别。
9.根据权利要求1所述的核电厂图纸信息识别与提取方法,其特征在于,在步骤S40中,还包括以下子步骤:
S41:抽选同一纵坐标中的至少两个文本信息,并判断抽选的文本信息是否为同一信息类型;若是,则确定同一纵坐标为同一信息类型;若否,重新对文本信息进行识别,并修正对应正确的信息类型。
10.一种采用权利要求1-9任一项所述的一种核电厂图纸信息识别与提取方法的核电厂图纸信息识别与提取系统,其特征在于,包括:
表格识别模块:用于从图纸中识别含有表格信息的图形;
文本识别及提取模块:用于从每个单元格中识别并提取文本信息
文本划分模块:用于建立直角坐标系,根据单元格位置,将对应单元格内的文本信息赋予独立的坐标号;并根据相应的坐标号,将同一纵坐标的文本信息划分为同一信息类型,同一横坐标的文本信息划分为同一备件的不同信息类型;
文本排序模块:用于识别同一纵坐标的文本信息的信息类型;并建立总表格,根据信息类型、对应的坐标号,在总表格中将提取出来的文本信息按序排列。
CN202111345057.1A 2021-11-15 2021-11-15 核电厂图纸信息识别与提取方法及系统 Pending CN114283438A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111345057.1A CN114283438A (zh) 2021-11-15 2021-11-15 核电厂图纸信息识别与提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111345057.1A CN114283438A (zh) 2021-11-15 2021-11-15 核电厂图纸信息识别与提取方法及系统

Publications (1)

Publication Number Publication Date
CN114283438A true CN114283438A (zh) 2022-04-05

Family

ID=80869121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111345057.1A Pending CN114283438A (zh) 2021-11-15 2021-11-15 核电厂图纸信息识别与提取方法及系统

Country Status (1)

Country Link
CN (1) CN114283438A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115841679A (zh) * 2023-02-23 2023-03-24 江西中至科技有限公司 图纸表格提取方法、系统、计算机及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115841679A (zh) * 2023-02-23 2023-03-24 江西中至科技有限公司 图纸表格提取方法、系统、计算机及可读存储介质
CN115841679B (zh) * 2023-02-23 2023-05-05 江西中至科技有限公司 图纸表格提取方法、系统、计算机及可读存储介质

Similar Documents

Publication Publication Date Title
CN109840519B (zh) 一种自适应的智能单据识别录入装置及其使用方法
CN107622230B (zh) 一种基于区域识别与分割的pdf表格数据解析方法
US9141691B2 (en) Method for automatically indexing documents
Clausner et al. Scenario driven in-depth performance evaluation of document layout analysis methods
JP5402099B2 (ja) 情報処理システム、情報処理装置、情報処理方法およびプログラム
CN101763516B (zh) 一种基于拟合函数的文字识别方法
CN112434496B (zh) 一种公告文档表格数据识别方法及终端
CN110210470A (zh) 商品信息图像识别系统
CN114283438A (zh) 核电厂图纸信息识别与提取方法及系统
Colter et al. Tablext: A combined neural network and heuristic based table extractor
CN113963364A (zh) 目标化验单生成方法、装置、电子设备及存储介质
CN113283231B (zh) 获取签章位的方法、设置系统、签章系统及存储介质
CN102467664B (zh) 辅助光学字符识别的方法和装置
US20120281919A1 (en) Method and system for text segmentation
CN110956087B (zh) 一种图片中表格的识别方法、装置、可读介质和电子设备
CN117058157A (zh) 一种cad图纸的切割与标注方法
US9530070B2 (en) Text parsing in complex graphical images
CN113743052B (zh) 一种融合多模态的简历版面分析方法及装置
CN104992136A (zh) 识别条形码的方法及装置
CN114417788A (zh) 图纸解析方法、装置、存储介质及电子设备
CN111353284B (zh) 一种零件图标题栏填充方法、系统和存储介质
JP2008027133A (ja) 帳票処理装置及び帳票処理方法ならびに帳票処理方法を実行するプログラムと記憶媒体
CN104112287B (zh) 切分图片中文字的方法和装置
CN115202542B (zh) 基于ocr技术的电子图纸内线路端口自动链接及跳转方法
CN102096828A (zh) 文字辨识装置及文字辨识方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination