CN115202542B - 基于ocr技术的电子图纸内线路端口自动链接及跳转方法 - Google Patents

基于ocr技术的电子图纸内线路端口自动链接及跳转方法 Download PDF

Info

Publication number
CN115202542B
CN115202542B CN202210887571.6A CN202210887571A CN115202542B CN 115202542 B CN115202542 B CN 115202542B CN 202210887571 A CN202210887571 A CN 202210887571A CN 115202542 B CN115202542 B CN 115202542B
Authority
CN
China
Prior art keywords
mark
page
page number
rule
pdf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210887571.6A
Other languages
English (en)
Other versions
CN115202542A (zh
Inventor
黄文汉
聂靓靓
李青
黄明浩
刘向东
凌鹏
蒋军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Maintenance and Test Branch of Peaking FM Power Generation of Southern Power Grid Co Ltd
Original Assignee
Maintenance and Test Branch of Peaking FM Power Generation of Southern Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Maintenance and Test Branch of Peaking FM Power Generation of Southern Power Grid Co Ltd filed Critical Maintenance and Test Branch of Peaking FM Power Generation of Southern Power Grid Co Ltd
Priority to CN202210887571.6A priority Critical patent/CN115202542B/zh
Publication of CN115202542A publication Critical patent/CN115202542A/zh
Application granted granted Critical
Publication of CN115202542B publication Critical patent/CN115202542B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0483Interaction with page-structured environments, e.g. book metaphor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04847Interaction techniques to control parameter settings, e.g. interaction with sliders or dials
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • G06V30/422Technical drawings; Geographical maps

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种基于OCR技术的电子图纸内线路端口自动链接及跳转方法,包括:设置图纸内的线路端口标记规则;在上传图纸时,如果确定是扫描型PDF,则通过OCR技术将图纸文本化;对上传图纸进行分区;在文本化的图纸内查找符合所述线路端口标记规则的标记;建立所有标记所在页码、坐标及指向页码、坐标的第一映射关系,并结合穷举法确定每一页含有标记图纸的实际页码;建立PDF页码与实际页码的第二映射关系;建立图纸内线路端口双端链接关系,并添加至每一个标记中;在点击标记后跳转到标记对应的目标页码并自动高亮目标坐标区域。通过上述方式,本发明能够对PDF图纸内线路端口设置跳转链接,点击即可跳转至目标页码并高亮目标坐标区域,方便读图人员快速查阅。

Description

基于OCR技术的电子图纸内线路端口自动链接及跳转方法
技术领域
本发明涉及电厂技术领域,特别涉及一种基于OCR技术的电子图纸内线路端口自动链接及跳转方法。
背景技术
随着社会的发展,为人们提供稳定电力的发电厂必不可少,,发电厂种类多种多样,有核电厂、常规水电厂、火电厂、抽水蓄能电厂等等,而各个电厂均需要自动化、电气、水工、机械及运行等专业来保证电厂设备的安全稳定运行。各专业人员在对电厂设备开展运维过程中对图纸的理解程度关乎设备安全,但各个专业图纸不仅数量繁多,而且有些图纸逻辑关系十分复杂,极大阻碍了读图效率。例如电气二次图纸中,受限于每页图纸的篇幅,几乎每一条完整的电气回路均分散分布于多页图纸中,错综复杂,各页图纸电气回路之间的连接关系用线路端口上的由字符、字母及数字组成的特殊标记表示,且各个设备厂家的标记规则不尽相同,这些均给专业人员读图并理解图中逻辑关系带来了严重的挑战。目前推行的图纸规范化,统一标记格式虽在一定程度上有助于减轻工作人员读图负担,但未能从根本上解决各页图纸中电气回路断线对快速读图形成巨大阻碍的问题。而人工逐个为图纸设置跳转链接虽然能够从根本上解决上述问题,但前期工作量巨大,且容易出错。
发明内容
本发明主要解决的技术问题是提供一种基于OCR技术的电子图纸内线路端口自动链接及跳转方法,能够对PDF图纸内线路端口设置跳转链接,点击链接即可跳转至目标页码并高亮目标坐标区域,方便读图人员查阅,灵活性高。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种基于OCR技术的电子图纸内线路端口自动链接及跳转方法,其特征在于,该方法包括:设置目标图纸内线路端口的标记规则;在上传图纸时,如果确定是扫描型PDF,则通过OCR技术将图纸文本化;根据所述标记规则以及图纸尺寸在图纸中建立坐标系以对图纸进行分区;在分区后的图纸内查找符合所述标记规则的标记;对图纸建立所有标记所在页码、坐标及指向页码、坐标的第一映射关系,并结合穷举法确定每一页含有标记图纸的实际页码;建立PDF页码与实际页码的第二映射关系;根据每个标记的实际页码及坐标,结合第二映射关系,建立图纸内线路端口双端链接关系,并将其加入至每一个标记;在点击标记后跳转到该标记所对应的目标页码并自动高亮目标坐标区域。
进一步的,该方法还包括:在建立的坐标系内加入自动高亮坐标区域的功能,以使得在击标记后跳转到该标记所对应的目标页码,并对该目标页码所对应的坐标区域进行自动高亮。
进一步的,执行所述在分区后的图纸内查找符合所述标记规则的标记的步骤之前,该方法还包括:判断分区后的图纸是否存在有符合所述标记规则的标记;如果确定分区后的图纸存在有符合所述标记规则的标记,则在分区后的图纸内查找符合所述标记规则的所有标记。
进一步的,该方法还包括:如果确定分区后的图纸没有存在符合所述标记规则的标记,则手动为该分区后的图纸设置符合所述标记规则的标记。
进一步的,所述对图纸建立所有标记所在页码的步骤包括:通过使用IText对可编辑PDF图纸文件进行全文扫码,之后根据正则表达式识别复核规则的文本段落,并通过IText获取横纵坐标的最大值;如果找到对应横纵坐标的最大值,则使用IText对可编辑PDF图纸文件计算图纸的尺寸,并通过尺寸大小以及边距计算当前页中每一块存在的规则数,并按照规则跳转到指定的页面和位置,并通过穷举法确定每一页含有标记图纸的实际页码。
也就是说,本实施例通过在每一页子图纸上设置跳转点,可以通过点击该跳转点可以将所显示的图纸跳转至与该跳转点对应的图纸进行显示,实现双向跳转,灵活性高。
本发明的有益效果是:区别于现有技术的情况,本发明所公开的基于OCR技术的电子图纸内线路端口自动链接及跳转方法能够对所上传的图纸进行识别、判断并设置跳转链接,使得读图人员在点击标记后即可跳转到该标记所对应的目标页码并高亮目标坐标区域,方便读图人员快速查阅,灵活性高。
附图说明
图1为本发明基于OCR技术的电子图纸内线路端口自动链接及跳转方法流程示意图;
图2是本发明跳转后的图纸示意图;
图3为本发明图纸拆分的示意图。
具体实施方式
请参阅图1,该基于OCR技术的电子图纸内线路端口自动链接及跳转方法包括以下步骤:
步骤S101:设置目标图纸内线路端口的标记规则。
应理解,本实施例是针对各个电厂的电子图纸分析出图纸内需要自动链接及跳转的线路端口标记的相同特点,并根据这些特点设置目标图纸内线路端口的标记规则。
优选地,电厂包括但不限定于核电厂、常规水电厂、抽水蓄能电厂、燃气电厂以及火电厂。
应理解,相同特点具体可以是符合自动链接及跳转的字符、数字及字母的组合等。
步骤S102:在上传图纸时,如果确定是扫描型PDF,则通过OCR技术将图纸文本化。
应理解,上传图纸可以分为可编辑型PDF图纸和扫描型PDF图纸,而使用扫描仪扫描纸质版图纸得到的就是扫描型PDF图纸。
在步骤S102中会判断所上传的图纸是否为扫描型PDF,而判断所上传的图纸是否为扫描型PDF主要是同个IText对PDF图纸文件进行全文扫码,判断PDF图纸是否可以进行文字编辑和文字识别,如果可以编辑并识别到文字,则为可编辑型PDF图纸,否则判定所上传的图纸为扫描型PDF图纸。应理解,当确定所上传的图纸为扫描型PDF图纸时,通过OCR技术将图纸文本化。
步骤S103:根据所述标记规则以及图纸尺寸在图纸中建立坐标系以对图纸进行分区。
应理解,通过PDFJS对所有PDF图纸文件进行全局全文扫码的同时进行索引处理,查到对应规则之后进行标记。
步骤S104:在分区后的图纸内查找符合所述标记规则的标记。
应理解,步骤S104中对图纸进行分区的步骤包括:
步骤S1041:根据电子图纸搜索内容计算第m个解码词对应解码词向量wm属于每一种类型的概率pm,1、pm,2和pm,3,即将解码词分为三类(“图纸名称”、“图纸内容”、“图纸编号”),以及同时计算每种词类型对应的类型向量tm,1、tm,2、tm,3;
[pm,1,pm,2,pm,3]T=softmax(Wgm+b), (1);
式中,W为3×100的权重矩阵,b为3×1的偏置向量,W和b中各个元素的值都可在训练中自动学习得到;pm,1表示第m个解码词属于“图纸名称”的概率,pm,2表示第m个解码词属于“图纸内容”的概率,pm,3表示第m个解码词属于“图纸编号”的概率,softmax(·)为归一化指数函数,T为向量的转置符号,通过如下公式计算每种词类型对应的类型向量tm,1、tm,2、tm,3:
tm,1=softmax(W1gm+b1), (2);
tm,2=softmax(W2gm+b2), (3);
tm,3=softmax(W3gm+b3), (4);
式中,W1、W2、W3均为|V|×100的权重矩阵,b1、b2、b3均为|V|×1的偏置向量,|V|为电子图纸搜索数据词汇表的词数,W1、W2、W3和b1、b2、b3中各个元素的值都可在训练中自动学习得到;t1,1、t1,2、t1,3均为|V|×1的向量。通过这样的方式进行图纸内查找符合所述标记规则的标记。
步骤S105:对图纸建立所有标记所在页码、坐标及指向页码、坐标的第一映射关系,并结合穷举法确定每一页含有标记图纸的实际页码。
应理解,步骤S105中对图纸建立所有标记所在页码的步骤包括:
步骤S1051:通过使用IText对可编辑PDF图纸文件进行全文扫码,之后根据正则表达式识别复核规则的文本段落,并通过IText获取横纵坐标的最大值。
应理解,在上传图纸时通过IText会对整体的PDF图纸文件进行全文扫码,判断横纵坐标最大值,例如图2中获取横坐标为“8”,纵坐标为“F”,并根据定位算到间距。
步骤S1052:如果找到对应横纵坐标的最大值,则使用IText对可编辑PDF图纸文件计算图纸的尺寸,并通过尺寸大小以及边距计算当前页中每一块存在的规则数,并按照规则跳转到指定的页面和位置。
应理解,根据S1051获取的数据,再将总的宽度和高度,减去2倍的间距,再依据横纵坐标最大值进行均分,来确定位置。并根据获取的规则,跳转到指定的页面和位置,并通过穷举法确定每一页含有标记图纸的实际页码。
上述穷举法的运用,举例而言,标记的格式为“/页码.横坐标+纵坐标”,所有与第4页有关的信息如下:第n页图纸里存在(/4.4A),第m页图纸里存在(/4.3C),第L页图纸里面存在(/4.2D),第o页图纸里存在(/4.4B),而刚好第x页的坐标(4A)、(3C)、(2D)、(4B)里都含有链接标记点且仅有这些标记点,那么就可以认为第x页就是第4页。同理可确定剩下所有页码。
步骤S106:建立PDF页码与实际页码的第二映射关系。
应理解,PDF页码和实际页码是存在不同的,因此两者需要建立映射关系,方便通过PDF页码可立马找到实际页码。
步骤S107:根据每个标记的实际页码及坐标,结合第二映射关系,建立图纸内线路端口双端链接关系,并将其加入至每一个标记。
上述建立图纸内线路端口双端链接关系的具体方法,举例而言,在图纸实际页码第1页(1,A)的坐标内有一个标记点,标记的信息为第3页(3,C),而图纸实际页码第3页(3,C)的坐标内也有一个标记信息为第1页(1,A)的标记点,那么这两个点之间的链接关系便得到确认,然后在这两个标记点上生成双端跳转链接,这样就实现了这两个点的双向链接。
步骤S108:在点击标记后跳转到该标记所对应的目标页码并自动高亮目标坐标区域。
也就是说,读图人员可通过点击标记精准找到该标记所对应PDF页码和坐标位置。
进一步的,该基于OCR技术的电子图纸内线路端口自动链接及跳转方法还包括:在建立的坐标系内加入自动高亮坐标区域的功能,以使得在击标记后跳转到该标记所对应的目标页码,并对该目标页码所对应的坐标区域进行自动高亮,如图2所示。也就是说,通过点击标记所跳转找到的目标区域会自动高亮显示。
应理解,所上传的图纸有可能是多页也有可能是1页,进一步的,该基于OCR技术的电子图纸内线路端口自动链接及跳转方法还包括以下步骤:
步骤S301:判断所上传的图纸是否为1页图纸,如果确定所上传的图纸的文档为1页图纸时,判断所上传的图纸中是否存在有多个独立的图案和/或文字段。
也就是说,在步骤S301中,当确定所上传的图纸只有1页时,进一步判断该图纸是否存在互相独立且不连接的独立的图案和/或文字段。应理解,每一页图纸都有可能存在很多独立的图案和字段。
步骤S302:如果确定所上传的图纸中存在有多个独立的图案和/或文字段时,判断该图纸在不进行放大情况下能否清晰显示全部独立的图案和/或文字段。
应理解,为了方便查阅,不进行放大情况图纸能够清晰显示,有利于读图人员查阅。
步骤S303:如果确定该图纸在不进行放大情况下不能清晰显示全部独立的图案和/或文字段时,将图纸拆分成多个第一区域和/或多个第二区域。
优选地,每一个第一区域包含有独立的图案,每一个第二区域包含有独立的文字段。
步骤S304:为所上传的图纸设置文件名,以所上传的图纸的中心点作为坐标原点建立坐标,为第一区域和/或第二区域设置坐标值M(P1,H1),以通过点击该坐标值M(P1,H1)自动跳转至该坐标值M(P1,H1)所对应的第一区域或第二区域。
应理解,步骤S304坐标值M为所述的标记,其中M为所上传的图纸的文件名,P1为所上传的图纸的坐标的横坐标,H1为所上传的图纸的坐标的纵坐标。
步骤S305:为第一区域和/或第二区域添加链接,将链接的文本块插入第一区域和/或第二区域中,并将第一区域和/或第二区域作为新的PDF子图纸保存至系统中。
优选地,第一区域和第二区域呈圆形状。
应理解,在步骤S304中为第一区域和/或第二区域设置坐标值M(P1,H1)的步骤包括:找出第一区域和/或第二区域的中心点,并将中心点在所上传的图纸的坐标的坐标值作为第一区域和/或第二区域的坐标值M(P1,H1)。
举例而言,如图3所示,所上传的图纸30为1页图纸,而所上传的图纸30中存在有多个独立的图案和文字段,将图纸30拆分成第一区域11、第一区域12、第一区域13和第二区域21,其中第一区域11、第一区域12和第一区域13均包含有图案,而第二区域21包含有文字段,为所上传的图纸30设置文件名M,以所上传的图纸30的中心点0作为坐标原点建立坐标,为第一区域11设置坐标值M11(P1,H1),为第一区域12设置坐标值M12(P1,H1),为第一区域13设置坐标值M13(P1,H1),为第二区域21设置坐标值M21(P1,H1),其中第一区域11的中心点A的坐标为第一区域11的坐标,第一区域12的中心点B的坐标为第一区域12的坐标,第一区域13的中心点C的坐标为第一区域13的坐标,第二区域21的中心点D的坐标为第二区域21的坐标。
进一步的,该基于OCR技术的电子图纸内线路端口自动链接及跳转方法还包括以下步骤:
步骤S306:在第一区域和/或第二区域中设置一跳转点,跳转点的坐标为其他第一区域和/或第二区域的坐标值M(P2,H2)。
其中P2代表所上传的图纸的坐标的横坐标,H2代表所上传的图纸的坐标的纵坐标。
步骤S307:当点击该跳转点时,读取出该点所处文件名M及坐标(P2,H2),并自动跳转至文件名M以及坐标(P2,H2)的其他第一区域或第二区域中。
也就是说,在图3中的第一区域11、第一区域12、第一区域13和第二区域21中还存在坐标值为M(P2,H2)的跳转点(如图3的Q),可通过点击该跳转点(即Q点)直接跳转至文件名M以及坐标(P2,H2)的其他第一区域或第二区域中,也就是说可以点击跳转点Q原路返回。
进一步的,该基于OCR技术的电子图纸内线路端口自动链接及跳转方法还包括以下步骤:
步骤S401:如果确定所上传的图纸中存在有1个独立的图案时,判断该独立的图案在不进行放大情况下是否能清晰显示。
步骤S402:如果确定该独立的图案在不进行放大情况下能清晰显示,判断该独立的图案在所上传的图纸的区域是否达到预设面积值。
步骤S403:如果该独立的图案在所上传的图纸的区域没有达到预设面积值,重新框选包含有独立的图案的区域,并将所框选的区域作为新的PDF图纸保存至系统中。
应理解,如果独立的图案所占据的面积过小,即没有达到预设面积值,会影响读图人员的查阅,因此需要对占据面积过小的图案进行重新框选、编辑等,使得图案所占据的面积适应,不过过大也不会过小。
进一步的,该基于OCR技术的电子图纸内线路端口自动链接及跳转方法还包括以下步骤:
步骤S404:在上传图纸时,检测到所上传的图纸的内容存在缺陷时,截取出有缺陷的内容,并在显示屏的显示界面中显示,并提示工作人员在显示屏的编辑界面中进行图纸内容编辑。
其中缺陷包括图案残缺、图案模糊、文字残缺和文字模糊。
步骤S405:当缺陷为图案残缺和/或图案模糊时,获取工作人员利用手画笔在编辑界面中所输入的图案,将所输入的图案的线条改成与所上传的图纸中的图案的线条相同粗细的线条,并将所输入的图案补充至有图案残缺和/或图案模糊的内容中。
步骤S4016:当缺陷为文字残缺和/或文字模糊时,获取工作人员利用手画笔在编辑界面中所输入的文字,并将文字的字号改成与所上传的图纸中的文字相同字号,且将该文字补充至有文字残缺和/或文字模糊的内容中。
也就是说,当所上传的图纸存在有图案残缺、图案模糊、文字残缺和/或文字模糊时,会自动弹出来让工作人员修正,使得工作人员可以在编辑界面中对有缺陷的内容进行补充完整。
又或者当缺陷为文字残缺和/或文字模糊时,截取出包含有文字残缺和/或文字模糊的整段内容,从整段内容中提取包含有文字残缺和/或文字模糊的句段,并将该句段在显示屏的显示界面中显示以提醒工作人员补充替换该句段,同时启动麦克风录音以录取工作人员所说语句,并将该语句替换为包含有文字残缺和/或文字模糊的句段。
综上,本发明所公开的基于OCR技术的电子图纸内线路端口自动链接及跳转方法能够对所上传的图纸进行识别、判断并设置跳转链接,使得读图人员在点击标记后即可跳转到该标记所对应的目标页码并高亮目标坐标区域,方便读图人员快速查阅,灵活性高。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (5)

1.一种基于OCR技术的电子图纸内线路端口自动链接及跳转方法,其特征在于,该方法包括:
设置目标图纸内线路端口的标记规则;
在上传图纸时,如果确定是扫描型PDF,则通过OCR技术将图纸文本化;
根据所述标记规则以及图纸尺寸在图纸中建立坐标系以对图纸进行分区;
在分区后的图纸内查找符合所述标记规则的标记;
对图纸建立所有标记所在页码、坐标及指向页码、坐标的第一映射关系,并结合穷举法确定每一页含有标记图纸的实际页码;
建立PDF页码与实际页码的第二映射关系;
根据每个标记的实际页码及坐标,结合第二映射关系,建立图纸内线路端口双端链接关系,并将其加入至每一个标记;
在点击标记后跳转到该标记所对应的目标页码并自动高亮目标坐标区域。
2.根据权利要求1所述的方法,其特征在于,该方法还包括:
在建立的坐标系内加入自动高亮坐标区域的功能,以使得在击标记后跳转到该标记所对应的目标页码,并对该目标页码所对应的坐标区域进行自动高亮。
3.根据权利要求2所述的方法,其特征在于,执行所述在分区后的图纸内查找符合所述标记规则的标记的步骤之前,该方法还包括:
判断分区后的图纸是否存在有符合所述标记规则的标记;
如果确定分区后的图纸存在有符合所述标记规则的标记,则在分区后的图纸内查找符合所述标记规则的所有标记。
4.根据权利要求3所述的方法,其特征在于,该方法还包括:
如果确定分区后的图纸没有存在符合所述标记规则的标记,则手动为该分区后的图纸设置符合所述标记规则的标记。
5.根据权利要求4所述的方法,其特征在于,所述对图纸建立所有标记所在页码的步骤包括:
通过使用IText对可编辑PDF图纸文件进行全文扫码,之后根据正则表达式识别复核规则的文本段落,并通过IText获取横纵坐标的最大值;
如果找到对应横纵坐标的最大值,则使用IText对可编辑PDF图纸文件计算图纸的尺寸,并通过尺寸大小以及边距计算当前页中每一块存在的规则数,并按照规则跳转到指定的页面和位置,并通过穷举法确定每一页含有标记图纸的实际页码。
CN202210887571.6A 2022-07-26 2022-07-26 基于ocr技术的电子图纸内线路端口自动链接及跳转方法 Active CN115202542B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210887571.6A CN115202542B (zh) 2022-07-26 2022-07-26 基于ocr技术的电子图纸内线路端口自动链接及跳转方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210887571.6A CN115202542B (zh) 2022-07-26 2022-07-26 基于ocr技术的电子图纸内线路端口自动链接及跳转方法

Publications (2)

Publication Number Publication Date
CN115202542A CN115202542A (zh) 2022-10-18
CN115202542B true CN115202542B (zh) 2023-06-02

Family

ID=83584149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210887571.6A Active CN115202542B (zh) 2022-07-26 2022-07-26 基于ocr技术的电子图纸内线路端口自动链接及跳转方法

Country Status (1)

Country Link
CN (1) CN115202542B (zh)

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004104864A1 (ja) * 2003-05-20 2004-12-02 Victor Company Of Japan, Limited 電子化サービスマニュアル表示制御装置
US9779147B1 (en) * 2014-08-15 2017-10-03 Tableau Software, Inc. Systems and methods to query and visualize data and relationships
CN107688640B (zh) * 2017-08-24 2021-02-23 山东送变电工程公司 一种变电站二次设备图纸查阅方法与装置
US10635743B2 (en) * 2018-03-12 2020-04-28 Microsoft Technology Licensing, Llc Automatic extraction of document page numbers from PDF
CN108984751A (zh) * 2018-07-17 2018-12-11 广东电网有限责任公司 一种变电站设备图纸的处理方法及装置
CN109446366A (zh) * 2018-09-18 2019-03-08 上海移鸿信息科技有限公司 一种交互式数字电路图的实现方法
CN110210143A (zh) * 2019-06-05 2019-09-06 爱驰汽车有限公司 基于cms系统的端子图或线束布线图的显示方法、系统及装置
CN110781138A (zh) * 2019-10-31 2020-02-11 海南蓄能发电有限公司 一种电子图纸管理系统及方法
CN111474904A (zh) * 2020-04-03 2020-07-31 福建福清核电有限公司 一种核电厂控制系统组态数据可视化平台及方法
CN114168871A (zh) * 2021-11-17 2022-03-11 珠海金山办公软件有限公司 用于页面跳转的方法及装置、电子设备、存储介质
CN114241499A (zh) * 2021-12-17 2022-03-25 深圳壹账通智能科技有限公司 表格图片识别方法、装置、设备和可读存储介质

Also Published As

Publication number Publication date
CN115202542A (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
JP3425408B2 (ja) 文書読取装置
US6466694B2 (en) Document image processing device and method thereof
CN105045583B (zh) 一种基于可视化流程的ietm故障类数据模块创作装置及其创作方法
CN110362596A (zh) 一种文本抽取信息结构化数据处理的控制方法及装置
CN112001183B (zh) 一种基于段落语义的中小学试题分割提取方法及系统
CN112199929A (zh) 表格处理方法、装置、存储介质及电子设备
US7716639B2 (en) Specification wizard
CN107908843B (zh) 基于图签信息提取的管理系统
CN109726369A (zh) 一种基于标准文献的智能模板化题录技术实现方法
US9049400B2 (en) Image processing apparatus, and image processing method and program
JP2020068011A (ja) 特許書類図面資料ガイド内容自動獲得表示設備
CN115202542B (zh) 基于ocr技术的电子图纸内线路端口自动链接及跳转方法
CN113283231A (zh) 获取签章位的方法、设置系统、签章系统及存储介质
CN116110051B (zh) 一种文件信息处理方法、装置、计算机设备及存储介质
JP4807618B2 (ja) 画像処理装置及び画像処理プログラム
CN114283438A (zh) 核电厂图纸信息识别与提取方法及系统
EP3470993A1 (en) A method and system for click thru capability of electronic media
CN115618819A (zh) 一种Excel与Dwg文件相互转换方法及装置
CN114820870A (zh) 核电流程图辅助绘制方法、装置、计算机设备和存储介质
CN112667722A (zh) 核电站程序文件转换方法及设备
CN110675729B (zh) 一种多版本地理信息一体化制图方法及系统
JP4143245B2 (ja) 画像処理方法および装置並びに記憶媒体
JP2005165978A (ja) 帳票ocrプログラム、方法及び装置
CN113407545B (zh) 图纸数据的保存方法及保存装置、电子设备
CN117558019B (zh) 从pdf格式元器件手册中自动提取符号图参数的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant