CN111160157B - 基于dwg图纸的文本提取方法及相关产品 - Google Patents

基于dwg图纸的文本提取方法及相关产品 Download PDF

Info

Publication number
CN111160157B
CN111160157B CN201911304280.4A CN201911304280A CN111160157B CN 111160157 B CN111160157 B CN 111160157B CN 201911304280 A CN201911304280 A CN 201911304280A CN 111160157 B CN111160157 B CN 111160157B
Authority
CN
China
Prior art keywords
text
keyword
determining
target
rectangular area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911304280.4A
Other languages
English (en)
Other versions
CN111160157A (zh
Inventor
张泽斌
张华安
张健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Wanyi Digital Technology Co ltd
Original Assignee
Shenzhen Wanyi Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Wanyi Digital Technology Co ltd filed Critical Shenzhen Wanyi Digital Technology Co ltd
Priority to CN201911304280.4A priority Critical patent/CN111160157B/zh
Publication of CN111160157A publication Critical patent/CN111160157A/zh
Application granted granted Critical
Publication of CN111160157B publication Critical patent/CN111160157B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • G06V30/422Technical drawings; Geographical maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种基于DWG图纸的文本提取方法及相关产品,应用于电子设备,所述方法包括:获取DWG图纸,确定所述DWG图纸的标题栏区域;在所述标题栏区域中确定目标关键字,获取所述目标关键字的关键字坐标;依据所述关键字坐标在所述DWG图纸中确定第一矩形区域;依据所述第一矩形区域确定目标文本,提取所述目标文本。实施本申请实施例具有用户体验度高的优点。

Description

基于DWG图纸的文本提取方法及相关产品
技术领域
本申请涉及电子技术领域,具体涉及一种基于DWG图纸的文本提取方法及相关产品。
背景技术
随着电子设备的快速发展,越来越多的设计人员通过电子设备绘画工程设计图,其中,在绘画工程设计图时,通常会用到DWG格式保存绘图,DWG是电脑辅助设计软件AutoCAD以及基于AutoCAD的软件保存设计数据所用的一种专有文件格式。
在提取DWG文件中的文本信息时,通常需要用设计软件AutoCAD或基于AutoCAD的软件打开DWG文件,通过设计人员手动记录相关的图纸信息,整个文本信息提取操作复杂繁冗,周期长,文本提取效率低下,用户体验度不高。
发明内容
本申请实施例提供了一种基于DWG图纸的文本提取方法及相关产品,通过在DWG图纸中确定目标关键字,基于目标关键字的关键字坐标确定第一矩形区域,基于第一矩形区域提取目标文本,简化DWG图纸中文本信息提取流程,缩短提取周期,有利于提高本文提取效率,提高用户体验度。
第一方面,本申请实施例提供一种基于DWG图纸的文本提取方法,应用于电子设备,所述方法包括:
获取DWG图纸,确定所述DWG图纸的标题栏区域;
在所述标题栏区域中确定目标关键字,获取所述目标关键字的关键字坐标;
依据所述关键字坐标在所述DWG图纸中确定第一矩形区域;
依据所述第一矩形区域确定目标文本,提取所述目标文本。
第二方面,本申请实施例一种基于DWG图纸的文本提取装置,应用于电子设备,所述装置包括:
获取单元,用于获取DWG图纸,确定所述DWG图纸的标题栏区域;
第一确定单元,用于在所述标题栏区域中确定目标关键字,获取所述目标关键字的关键字坐标;
第二确定单元,用于依据所述关键字坐标在所述DWG图纸中确定第一矩形区域;
提取单元,用于依据所述第一矩形区域确定目标文本,提取所述目标文本。
第三方面,本申请实施例提供一种电子设备,包括控制器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述控制器执行,上述程序包括用于执行本申请实施例第一方面任一方法中的步骤的指令。
第四方面,本申请实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。
第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
可以看出,在本申请实施例中,电子设备获取DWG图纸,确定所述DWG图纸的标题栏区域;在所述标题栏区域中确定目标关键字,获取所述目标关键字的关键字坐标;依据所述关键字坐标在所述DWG图纸中确定第一矩形区域;依据所述第一矩形区域确定目标文本,提取所述目标文本。可见,通过在DWG图纸中确定目标关键字,基于目标关键字的关键字坐标确定第一矩形区域,基于第一矩形区域提取目标文本,简化DWG图纸中文本信息提取流程,缩短提取周期,有利于提高本文提取效率,提高用户体验度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种基于DWG图纸的文本提取方法的流程示意图;
图2是本申请实施例提供的另一种基于DWG图纸的文本提取方法的流程示意图;
图3是本申请实施例提供的另一种基于DWG图纸的文本提取方法的流程示意图;
图4是本申请实施例提供的另一种基于DWG图纸的文本提取方法的流程示意图;
图5是本申请实施例提供的一种电子设备的结构示意图;
图6是本申请实施例提供的一种基于DWG图纸的文本提取装置的功能单元组成框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结果或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备(例如智能手表、智能手环、计步器等)、计算设备或通信连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(User Equipment,UE),移动台(Mobile Station,MS),终端设备(terminal device)等等。为方便描述,上面提到的设备统称为电子设备。
请参阅图1,图1是本申请实施例提供的一种基于DWG图纸的文本提取方法的流程示意图,应用于电子设备,基于DWG图纸的文本提取方法包括:
步骤101、获取DWG图纸,确定所述DWG图纸的标题栏区域;
可选的,获取DWG图纸,可以包括:接收服务器发送的图纸传输请求,该图纸传输请求包括:DWG图纸,该图纸传输请求用于请求该电子设备接收该服务器传输的DWG图纸。
可选的,获取DWG图纸,可以包括:启动DWG图纸获取模块,该DWG图纸获取模块用于向预设移动终端发送图纸获取指令,该图纸获取指令用于指示该预设移动终端向该电子设备发送DWG图纸,接收该预设移动终端返回的图纸获取响应,其中,该图纸获取响应包括:该DWG图纸。
可选的,确定DWG图纸的标题栏区域,包括,获取预设的标题栏区域坐标集,其中,该标题栏区域坐标集包括:第一坐标、第二坐标、第三坐标和第四坐标,依据该标题栏区域坐标集在该DWG图纸中确定该标题栏区域。
在本申请实施例中,上述DWG格式是电脑辅助设计软件AutoCAD以及基于AutoCAD的软件保存设计数据所用的一种专有文件格式,DWG文件是通过DWG格式保存的文件。
上述终端启动DWG图纸获取模块的方式可以有多种,例如在一种可选的实施例中,可以通过一个特定的按钮来确定是否同时启动DWG图纸获取模块。当然在另一种可选的实施例中,可以通过满足设定触发条件时,启动DWG图纸获取模块,该触发条件可以是一个特定的操作来确定是否启动DWG图纸获取模块,该特定的操作包括但不限于,特定的手势、或者生物识别验证,该生物识别验证包括但不限于:人脸识别验证、指纹识别验证、静脉识别验证等等。本申请具体实施方式并不限制上述启动DWG图纸获取模块的方案。
步骤102、在所述标题栏区域中确定目标关键字,获取所述目标关键字的关键字坐标;
可选的,在标题栏区域中确定多个文本图元,依据多个文本图元确定目标关键字。
其中,图元文件(Windows Metafile,Wmf)是微软公司定义的一种Windows平台下的图形文件格式,本文图元表示用于存储文本数据的图元文件。
步骤103、依据所述关键字坐标在所述DWG图纸中确定第一矩形区域;
可选的,在依据关键字坐标在DWG图纸中确定第一矩形区域之前,还包括:获取该目标关键字对应的矩形范围数据,其中,该矩形范围数据包括:矩形长边数据和矩形短边数据,依据该关键字坐标为中心,结合该矩形范围数据确定该第一矩形区域。
具体实现过程中。假设目标关键字为“图名”,获取预设的关键字和矩形范围数据的映射关系,依据该关键字和矩形范围数据的映射关系确定该目标关键字“图名”对应的矩形范围数据为:矩形长边数据6,矩形短边数据4,确定该目标关键字对应的关键字坐标为(3,4),则以关键字坐标为中心,结合该矩形范围数据可以确定该第一矩形区域,该第一矩形区域的四个顶点分别包括:(0,6)、(6,6)、(0,2)和(6,2)。
步骤104、依据所述第一矩形区域确定目标文本,提取所述目标文本。
可选的,在提取目标文本后,将该目标文本存储至预设数据库,向传输该DWG文件的服务器发送文本返回请求,该文本返回请求用于请求该服务器接收该目标文本。
在一可能的示例中,所述在所述标题栏区域中确定目标关键字,包括:从所述标题栏区域中获取多个文本图元;获取预设的关键字集,其中,所述关键字集包括:至少一个关键字,依据所述关键字集对所述多个文本图元执行关键字匹配算法;若所述多个文本图元与所述关键字集匹配成功,确定匹配成功的关键字为所述目标关键字。
其中,该关键字集中的任意一个关键字用于表示该DWG图纸的图纸信息,该关键字集可以包括:图名、图纸名称、图纸内容、图号、图纸编号、版次、版号、版本等等,在此不作限定。
可选的,依据该关键字集对多个文本图元执行关键字匹配,包括:对该多个文本图元中每个文本图元执行关键字匹配操作,该关键字匹配操作包括,从该多个文本图元中确定任意一个文本图元为第一文本图元,获取该关键字集,获取该文本图元中包含的文本数据,将该文本数据与该关键字集中的至少一个关键字依次进行匹配,若该文本数据包含该关键字集中任意一个关键字,确定该文本图元与该关键字集匹配成功,确定匹配成功的关键字为目标关键字。
可选的,获取预设的关键字匹配模型,将该多个文本图元与该关键字匹配集作为该关键字匹配模型的输入,得到该多个文本图元对应的多个目标关键字。
在一可能的示例中,所述方法还包括:若所述多个文本图元与所述关键字集匹配不成功;依据所述多个文本图元生成多个文本图像,依据所述关键字集对所述多个文本图像执行基于光学字符识别的关键字查找算法,确定所述目标关键字。
可选的,获取该多个文本图元对应的多个文本图元坐标集,该多个文本图元坐标集中任意一个文本图元坐标集包括:第一图元坐标、第二图元坐标、第三图元坐标和第四图元坐标,通过该多个文本图元坐标集确定该多个文本图元的位置,在DWG图纸中截取该多个文本图元坐标集对应的多个文本图像,其中,该多个文本图像与该多个文本图元一一对应。
进一步地,依据关键字集对多个文本图像执行基于光学字符识别的关键字查找算法,包括:获取预设的光学字符识别算法,对所述多个文本图像执行所述光学字符识别算法,得到所述多个文本图像对应的多个文本内容,依据所述关键字集对所述多个文本内容执行关键字查找操作,确定所述多个文本内容中包含的关键字为目标关键字。
在一可能的示例中,所述依据所述第一矩形区域确定目标文本,包括:判断所述第一矩形区域是否包含文本数据;若包含,获取所述第一矩形区域中的文本数据作为所述目标文本。
可选的,在该DWG图纸中截取该第一矩形区域对应的第一矩形图像,获取预设的文本检测模型,将该第一矩形图像作为该文本检测模型的输入,得到该第一矩形图像对应的检测结果,依据该检测结果判断该第一矩形区域是否包含文本数据,若该第一矩形区域包括文本数据,获取该目标关键字对应的文本格式,从该第二矩形区域中获取该文本数据,提取给文本数据对应的数据格式,判断该文本格式与该数据格式是否一致,若该文本格式与该数据格式不一致,则确定该文本数据处于无效状态,依据该第一矩形区域确定第二矩形区域,针对第二矩形区域执行上述判断操作;若该若该文本格式与该数据格式一致,则确定该文本数据处于有效状态,获取预设的文本识别模型,将该第一矩形图像作为该文本识别模型的输入,得到该第二矩形图像对应的文本内容,比对该文本内容与该目标关键字,若该文本内容与该目标关键字不一致,则确定该文本数据处于有效状态,确定该文本内容为该第一矩形区域对应的目标文本,提取所述文本内容。在一可能的示例中,所述方法还包括:若不包含,获取预设的搜索步长,依据所述搜索步长和所述第一矩形区域确定第二矩形区域;判断所述第二矩形区域中是否包含文本数据;若包含,从所述第二矩形区域中提取待测文本;依据预设的关键字与文本格式的映射关系确定所述目标关键字对应的目标文本格式;获取所述待测文本的待测文本格式,比对所述目标文本格式和所述待测文本格式;若比对成功,确定所述待测文本为所述目标文本。
可选的,获取预设的搜索步长,其中,该搜索步长可以包括:6、8、10等等,在此不作限定,依据该索索步长和第一矩形区域确定第二矩形区域,即在该第一矩形区域的下方、与该第一矩形区域搜索步长距离的区域确定第二矩形区域。
可选的,若依据该检测结果判断该第一矩形区域不包括文本数据,针对第一矩形区域确定第二矩形区域,在该DWG文件中截取该第人矩形区域对应的第二矩形图像,获取预设的文本检测模型,得到该第二矩形图像对应的检测结果,依据该检测结果判断该第二矩形区域是否包含文本数据,若该第二矩形区域包括文本数据,从该第二矩形区域中提取待测文本,获取该目标关键字对应的文本格式,提取该待测文本对应的待测格式,判断该文本格式与该待测格式是否一致,若该文本格式与该数据格式不一致,则确定该待测文本处于无效状态,依据该第一矩形区域和第二矩形区域确定第三矩形区域,针对第三矩形区域执行上述判断操作;若该文本格式与该待测格式一致,则确定该待测文本处于有效状态,获取预设的文本识别模型,将该第二矩形图像作为该文本识别模型的输入,得到该第二矩形图像对应的文本内容,确定该文本内容为该目标文本。
可以看出,在本申请实施例中,电子设备获取DWG图纸,确定所述DWG图纸的标题栏区域;在所述标题栏区域中确定目标关键字,获取所述目标关键字的关键字坐标;依据所述关键字坐标在所述DWG图纸中确定第一矩形区域;依据所述第一矩形区域确定目标文本,提取所述目标文本。可见,通过在DWG图纸中确定目标关键字,基于目标关键字的关键字坐标确定第一矩形区域,基于第一矩形区域提取目标文本,简化DWG图纸中文本信息提取流程,缩短提取周期,有利于提高本文提取效率,提高用户体验度。
请参阅图2,图2是本申请实施例提供的另一种基于DWG图纸的文本提取方法的流程示意图,应用于电子设备,本基于DWG图纸的文本提取方法包括:
步骤201、获取DWG图纸,确定所述DWG图纸的标题栏区域;
步骤202、从所述标题栏区域中获取多个文本图元;
步骤203、获取预设的关键字集,其中,所述关键字集包括:至少一个关键字,依据所述关键字集对所述多个文本图元执行关键字匹配算法;
步骤204、若所述多个文本图元与所述关键字集匹配成功,确定匹配成功的关键字为所述目标关键字,获取所述目标关键字的关键字坐标;
步骤205、依据所述关键字坐标在所述DWG图纸中确定第一矩形区域;
步骤206、依据所述第一矩形区域确定目标文本,提取所述目标文本。
其中,上述步骤201-步骤206的具体描述可以参照上述图1所描述的基于DWG图纸的文本提取方法的相应步骤,在此不再赘述。
可以看出,在本申请实施例中,电子设备获取DWG图纸,确定所述DWG图纸的标题栏区域;从所述标题栏区域中获取多个文本图元;获取预设的关键字集,其中,所述关键字集包括:至少一个关键字,依据所述关键字集对所述多个文本图元执行关键字匹配算法;若所述多个文本图元与所述关键字集匹配成功,确定匹配成功的关键字为所述目标关键字,获取所述目标关键字的关键字坐标;依据所述关键字坐标在所述DWG图纸中确定第一矩形区域;依据所述第一矩形区域确定目标文本,提取所述目标文本。可见,通过对多个文本图元执行关键字匹配算法确定目标关键字,基于目标关键字的关键字坐标确定第一矩形区域,基于第一矩形区域提取目标文本,简化DWG图纸中文本信息提取流程,缩短提取周期,有利于提高本文提取效率,提高用户体验度。
请参阅图3,图3是本申请实施例提供的另一种基于DWG图纸的文本提取方法的流程示意图,应用于电子设备,本基于DWG图纸的文本提取方法包括:
步骤301、获取DWG图纸,确定所述DWG图纸的标题栏区域;
步骤302、在所述标题栏区域中确定目标关键字,获取所述目标关键字的关键字坐标;
步骤303、依据所述关键字坐标在所述DWG图纸中确定第一矩形区域;
步骤304、判断所述第一矩形区域是否包含文本数据;
步骤305、若包含,获取所述第一矩形区域中的文本数据作为所述目标文本,提取所述目标文本。
其中,上述步骤301-步骤305的具体描述可以参照上述图1所描述的基于DWG图纸的文本提取方法的相应步骤,在此不再赘述。
可以看出,在本申请实施例中,电子设备获取DWG图纸,确定所述DWG图纸的标题栏区域;在所述标题栏区域中确定目标关键字,获取所述目标关键字的关键字坐标;依据所述关键字坐标在所述DWG图纸中确定第一矩形区域;判断所述第一矩形区域是否包含文本数据;若包含,获取所述第一矩形区域中的文本数据作为所述目标文本,提取所述目标文本。可见,通过在标题栏区域中确定目标关键字,基于目标关键字的关键字坐标确定第一矩形区域,基于第一矩形区域提取目标文本,简化DWG图纸中文本信息提取流程,缩短提取周期,有利于提高本文提取效率,提高用户体验度。
请参阅图4,图4是本申请实施例提供的另一种基于DWG图纸的文本提取方法的流程示意图,应用于电子设备,本基于DWG图纸的文本提取方法包括:
步骤401、获取DWG图纸,确定所述DWG图纸的标题栏区域;
步骤402、在所述标题栏区域中确定目标关键字,获取所述目标关键字的关键字坐标;
步骤403、依据所述关键字坐标在所述DWG图纸中确定第一矩形区域;
步骤404、判断所述第一矩形区域是否包含文本数据;
步骤405、若不包含,获取预设的搜索步长,依据所述搜索步长和所述第一矩形区域确定第二矩形区域;
步骤406、判断所述第二矩形区域中是否包含文本数据;
步骤407、若包含,从所述第二矩形区域中提取待测文本,依据预设的关键字与文本格式的映射关系确定所述目标关键字对应的目标文本格式;
步骤408、获取所述待测文本的待测文本格式,比对所述目标文本格式和所述待测文本格式;
步骤409、若比对成功,确定所述待测文本为所述目标文本,提取所述目标文本。
其中,上述步骤401-步骤409的具体描述可以参照上述图1所描述的基于DWG图纸的文本提取方法的相应步骤,在此不再赘述。
可以看出,在本申请实施例中,电子设备获取DWG图纸,确定所述DWG图纸的标题栏区域;在所述标题栏区域中确定目标关键字,获取所述目标关键字的关键字坐标;依据所述关键字坐标在所述DWG图纸中确定第一矩形区域;判断所述第一矩形区域是否包含文本数据;若不包含,获取预设的搜索步长,依据所述搜索步长和所述第一矩形区域确定第二矩形区域;判断所述第二矩形区域中是否包含文本数据;若包含,从所述第二矩形区域中提取待测文本,依据预设的关键字与文本格式的映射关系确定所述目标关键字对应的目标文本格式;获取所述待测文本的待测文本格式,比对所述目标文本格式和所述待测文本格式;若比对成功,确定所述待测文本为所述目标文本,提取所述目标文本。可见,通过在DWG图纸中确定目标关键字,基于目标关键字的关键字坐标确定第一矩形区域,基于第一矩形区域提取目标文本,简化DWG图纸中文本信息提取流程,缩短提取周期,有利于提高本文提取效率,提高用户体验度。
请参阅图5,图5是本申请实施例提供的一种电子设备500的结构示意图,如图所示,所述电子设备500包括:应用处理器510、存储器520、通信接口530以及一个或多个程序521,其中,所述一个或多个程序521被存储在上述存储器520中,并且被配置由上述应用处理器510执行,所述一个或多个程序521包括用于执行以下步骤的指令:本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤,上述计算机包括电子设备。
获取DWG图纸,确定所述DWG图纸的标题栏区域;
在所述标题栏区域中确定目标关键字,获取所述目标关键字的关键字坐标;
依据所述关键字坐标在所述DWG图纸中确定第一矩形区域;
依据所述第一矩形区域确定目标文本,提取所述目标文本。
可以看出,在本申请实施例中,电子设备获取DWG图纸,确定所述DWG图纸的标题栏区域;在所述标题栏区域中确定目标关键字,获取所述目标关键字的关键字坐标;依据所述关键字坐标在所述DWG图纸中确定第一矩形区域;依据所述第一矩形区域确定目标文本,提取所述目标文本。可见,通过在DWG图纸中确定目标关键字,基于目标关键字的关键字坐标确定第一矩形区域,基于第一矩形区域提取目标文本,简化DWG图纸中文本信息提取流程,缩短提取周期,有利于提高本文提取效率,提高用户体验度。
在一可能的示例中,在所述在所述标题栏区域中确定目标关键字方面,所述程序中的指令具体用于执行以下操作:从所述标题栏区域中获取多个文本图元;获取预设的关键字集,其中,所述关键字集包括:至少一个关键字,依据所述关键字集对所述多个文本图元执行关键字匹配算法;若所述多个文本图元与所述关键字集匹配成功,确定匹配成功的关键字为所述目标关键字。
在一可能的示例中,所述程序中的指令还用于执行以下操作:若所述多个文本图元与所述关键字集匹配不成功;依据所述多个文本图元生成多个文本图像,依据所述关键字集对所述多个文本图像执行基于光学字符识别的关键字查找算法,确定所述目标关键字。
在一可能的示例中,在所述依据所述第一矩形区域确定目标文本方面,所述程序中的指令具体用于执行以下操作:判断所述第一矩形区域是否包含文本数据;若包含,获取所述第一矩形区域中的文本数据作为所述目标文本。
在一可能的示例中,所述程序中的指令还用于执行以下操作:若不包含,获取预设的搜索步长,依据所述搜索步长和所述第一矩形区域确定第二矩形区域;判断所述第二矩形区域中是否包含文本数据;若包含,从所述第二矩形区域中提取待测文本;依据预设的关键字与文本格式的映射关系确定所述目标关键字对应的目标文本格式;获取所述待测文本的待测文本格式,比对所述目标文本格式和所述待测文本格式;若比对成功,确定所述待测文本为所述目标文本。
上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,电子设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个控制单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
图6是本申请实施例中所涉及的基于DWG图纸的文本提取装置600的功能单元组成框图。该基于DWG图纸的文本提取装置600应用于电子设备,该基于DWG图纸的文本提取装置600包括第一获取单元601、第一确定单元602、第二确定单元603、提取单元604,其中:
第一获取单元601,用于获取DWG图纸,确定所述DWG图纸的标题栏区域;
第一确定单元602,用于在所述标题栏区域中确定目标关键字,获取所述目标关键字的关键字坐标;
第二确定单元603,用于依据所述关键字坐标在所述DWG图纸中确定第一矩形区域;
提取单元604,用于依据所述第一矩形区域确定目标文本,提取所述目标文本。
可以看出,在本申请实施例中,电子设备获取DWG图纸,确定所述DWG图纸的标题栏区域;在所述标题栏区域中确定目标关键字,获取所述目标关键字的关键字坐标;依据所述关键字坐标在所述DWG图纸中确定第一矩形区域;依据所述第一矩形区域确定目标文本,提取所述目标文本。可见,通过在DWG图纸中确定目标关键字,基于目标关键字的关键字坐标确定第一矩形区域,基于第一矩形区域提取目标文本,简化DWG图纸中文本信息提取流程,缩短提取周期,有利于提高本文提取效率,提高用户体验度。
在一可能的示例中,在所述在所述标题栏区域中确定目标关键字方面,所述第一确定单元602,具体用于:从所述标题栏区域中获取多个文本图元;获取预设的关键字集,其中,所述关键字集包括:至少一个关键字,依据所述关键字集对所述多个文本图元执行关键字匹配算法;若所述多个文本图元与所述关键字集匹配成功,确定匹配成功的关键字为所述目标关键字。
在一可能的示例中,第一确定单元602,还用于:若所述多个文本图元与所述关键字集匹配不成功;依据所述多个文本图元生成多个文本图像,依据所述关键字集对所述多个文本图像执行基于光学字符识别的关键字查找算法,确定所述目标关键字。
在一可能的示例中,在所述依据所述第一矩形区域确定目标文本方面,所述提取单元604,具体用于:判断所述第一矩形区域是否包含文本数据;若包含,获取所述第一矩形区域中的文本数据作为所述目标文本。
在一可能的示例中,所述提取单元604,具体用于:若不包含,获取预设的搜索步长,依据所述搜索步长和所述第一矩形区域确定第二矩形区域;判断所述第二矩形区域中是否包含文本数据;若包含,从所述第二矩形区域中提取待测文本;依据预设的关键字与文本格式的映射关系确定所述目标关键字对应的目标文本格式;获取所述待测文本的待测文本格式,比对所述目标文本格式和所述待测文本格式;若比对成功,确定所述待测文本为所述目标文本。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤,上述计算机包括电子设备。
本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括电子设备。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (4)

1.一种基于DWG图纸的文本提取方法,其特征在于,应用于电子设备,所述方法包括:
获取DWG图纸,确定所述DWG图纸的标题栏区域;
在所述标题栏区域中确定目标关键字,具体包括:从所述标题栏区域中获取多个文本图元;获取预设的关键字集,其中,所述关键字集包括:至少一个关键字;从该多个文本图元中确定任意一个文本图元为第一文本图元,获取该第一文本图元中包含的文本数据,将该文本数据与该关键字集中的至少一个关键字依次进行匹配,若该文本数据包含该关键字集中任意一个关键字,确定该第一文本图元与该关键字集匹配成功,确定匹配成功的关键字为目标关键字;若所述多个文本图元与所述关键字集匹配不成功,获取该多个文本图元对应的多个文本图元坐标集,该多个文本图元坐标集中任意一个文本图元坐标集包括:第一图元坐标、第二图元坐标、第三图元坐标和第四图元坐标,通过该多个文本图元坐标集确定该多个文本图元的位置,在DWG图纸中截取该多个文本图元坐标集对应的多个文本图像;获取预设的光学字符识别算法,对所述多个文本图像执行所述光学字符识别算法,得到所述多个文本图像对应的多个文本内容,依据所述关键字集对所述多个文本内容执行关键字查找操作,确定所述多个文本内容中包含的关键字为目标关键字;
获取所述目标关键字的关键字坐标;
依据所述关键字坐标在所述DWG图纸中确定第一矩形区域;
依据所述第一矩形区域确定目标文本,提取所述目标文本,包括:在所述DWG图纸中截取该第一矩形区域对应的第一矩形图像,获取预设的文本检测模型,将所述第一矩形图像作为所述文本检测模型的输入,得到所述第一矩形图像对应的检测结果;依据该检测结果判断该第一矩形区域是否包含文本数据,若该第一矩形区域包括文本数据,获取该目标关键字对应的文本格式,提取该文本数据对应的数据格式,判断该文本格式与该数据格式是否一致,若该文本格式与该数据格式不一致,则确定该文本数据处于无效状态;若第一矩形区域不包含文本数据,获取预设的搜索步长,依据所述搜索步长和所述第一矩形区域确定第二矩形区域;判断所述第二矩形区域中是否包含文本数据;若包含,从所述第二矩形区域中提取待测文本;依据预设的关键字与文本格式的映射关系确定所述目标关键字对应的目标文本格式,获取所述待测文本的待测文本格式,比对所述目标文本格式和所述待测文本格式;若比对成功,确定所述待测文本为所述目标文本。
2.一种基于DWG图纸的文本提取装置,其特征在于,应用于电子设备,所述装置包括:
获取单元,用于获取DWG图纸,确定所述DWG图纸的标题栏区域;
第一确定单元,用于在所述标题栏区域中确定目标关键字,具体用于:从所述标题栏区域中获取多个文本图元;获取预设的关键字集,其中,所述关键字集包括:至少一个关键字;从该多个文本图元中确定任意一个文本图元为第一文本图元,获取该第一文本图元中包含的文本数据,将该文本数据与该关键字集中的至少一个关键字依次进行匹配,若该文本数据包含该关键字集中任意一个关键字,确定该第一文本图元与该关键字集匹配成功,确定匹配成功的关键字为目标关键字;若所述多个文本图元与所述关键字集匹配不成功,获取该多个文本图元对应的多个文本图元坐标集,该多个文本图元坐标集中任意一个文本图元坐标集包括:第一图元坐标、第二图元坐标、第三图元坐标和第四图元坐标,通过该多个文本图元坐标集确定该多个文本图元的位置,在DWG图纸中截取该多个文本图元坐标集对应的多个文本图像;获取预设的光学字符识别算法,对所述多个文本图像执行所述光学字符识别算法,得到所述多个文本图像对应的多个文本内容,依据所述关键字集对所述多个文本内容执行关键字查找操作,确定所述多个文本内容中包含的关键字为目标关键字;获取所述目标关键字的关键字坐标;
第二确定单元,用于依据所述关键字坐标在所述DWG图纸中确定第一矩形区域;
提取单元,用于依据所述第一矩形区域确定目标文本,提取所述目标文本,具体用于:在所述DWG图纸中截取该第一矩形区域对应的第一矩形图像,获取预设的文本检测模型,将所述第一矩形图像作为所述文本检测模型的输入,得到所述第一矩形图像对应的检测结果;依据该检测结果判断该第一矩形区域是否包含文本数据,若该第一矩形区域包括文本数据,获取该目标关键字对应的文本格式,提取该文本数据对应的数据格式,判断该文本格式与该数据格式是否一致,若该文本格式与该数据格式不一致,则确定该文本数据处于无效状态;若第一矩形区域不包含文本数据,获取预设的搜索步长,依据所述搜索步长和所述第一矩形区域确定第二矩形区域;判断所述第二矩形区域中是否包含文本数据;若包含,从所述第二矩形区域中提取待测文本;依据预设的关键字与文本格式的映射关系确定所述目标关键字对应的目标文本格式,获取所述待测文本的待测文本格式,比对所述目标文本格式和所述待测文本格式;若比对成功,确定所述待测文本为所述目标文本。
3.一种电子设备,其特征在于,包括处理器、存储器、通信接口,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,所述一个或多个程序被处理器执行,以实现权利要求1所述的方法。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1所述的方法。
CN201911304280.4A 2019-12-17 2019-12-17 基于dwg图纸的文本提取方法及相关产品 Active CN111160157B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911304280.4A CN111160157B (zh) 2019-12-17 2019-12-17 基于dwg图纸的文本提取方法及相关产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911304280.4A CN111160157B (zh) 2019-12-17 2019-12-17 基于dwg图纸的文本提取方法及相关产品

Publications (2)

Publication Number Publication Date
CN111160157A CN111160157A (zh) 2020-05-15
CN111160157B true CN111160157B (zh) 2023-08-08

Family

ID=70557562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911304280.4A Active CN111160157B (zh) 2019-12-17 2019-12-17 基于dwg图纸的文本提取方法及相关产品

Country Status (1)

Country Link
CN (1) CN111160157B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111831791B (zh) * 2020-06-29 2024-03-22 深圳市万翼数字技术有限公司 图纸显示方法、电子设备和图形服务器
CN116994282B (zh) * 2023-09-25 2023-12-15 安徽省交通规划设计研究总院股份有限公司 一种用于桥梁设计图的钢筋数量识别归集方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614622A (zh) * 2018-12-11 2019-04-12 北京锐安科技有限公司 有效数据提取方法、装置、存储介质及终端
CN109670461A (zh) * 2018-12-24 2019-04-23 广东亿迅科技有限公司 Pdf文字提取方法、装置、计算机设备和存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614622A (zh) * 2018-12-11 2019-04-12 北京锐安科技有限公司 有效数据提取方法、装置、存储介质及终端
CN109670461A (zh) * 2018-12-24 2019-04-23 广东亿迅科技有限公司 Pdf文字提取方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DXF文件中标题栏及明细表信息获取方法;刘建国 等;《南京工业大学学报(自然科学版)》;20040830(第04期);全文 *

Also Published As

Publication number Publication date
CN111160157A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
EP3716132A1 (en) Code scanning method, code scanning device and mobile terminal
CN109993150B (zh) 用于识别年龄的方法和装置
US20180260479A1 (en) Method, apparatus, system and electronic device for picture book recognition
CN111708366B (zh) 机器人及其行动控制方法、装置和计算机可读存储介质
CN111143925B (zh) 图纸标注方法及相关产品
CN110780789B (zh) 游戏应用启动方法和装置、存储介质及电子装置
US20170277703A1 (en) Method for Displaying Webpage and Server
CN112100431B (zh) Ocr系统的评估方法、装置、设备及可读存储介质
CN110442697B (zh) 一种人机交互方法、系统、计算机设备和存储介质
CN109194689B (zh) 异常行为识别方法、装置、服务器及存储介质
CN110555171B (zh) 一种信息处理方法、装置、存储介质及系统
CN111160157B (zh) 基于dwg图纸的文本提取方法及相关产品
EP3584741A1 (en) Fingerprint registration method and related product
CN109951889B (zh) 一种物联网配网方法及移动终端
US20180005017A1 (en) Face model matrix training method and apparatus, and storage medium
WO2019140826A1 (zh) 电子红包的发放装置、方法及计算机可读存储介质
CN108932102A (zh) 数据处理方法、装置以及移动终端
CN111787154A (zh) 一种信息处理方法及电子设备
CN109614622A (zh) 有效数据提取方法、装置、存储介质及终端
CN111488186A (zh) 数据处理方法、装置、电子设备及计算机存储介质
CN115205883A (zh) 基于ocr和nlp的资料审核方法、装置、设备、存储介质
CN113190646A (zh) 一种用户名样本的标注方法、装置、电子设备及存储介质
CN112818733B (zh) 信息处理方法、装置、存储介质及终端
CN112270384B (zh) 一种回环检测方法、装置及电子设备和存储介质
CN112950443A (zh) 基于图像贴纸的自适应隐私保护方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230703

Address after: A601, Zhongke Naneng Building, No. 06 Yuexing 6th Road, Gaoxin District Community, Yuehai Street, Nanshan District, Shenzhen City, Guangdong Province, 518051

Applicant after: Shenzhen Wanyi Digital Technology Co.,Ltd.

Address before: 519000 room 105-24914, No.6 Baohua Road, Hengqin New District, Zhuhai City, Guangdong Province (centralized office area)

Applicant before: WANYI TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant