CN116932499B - 一种dwg格式文件批量修改标注的方法 - Google Patents

一种dwg格式文件批量修改标注的方法 Download PDF

Info

Publication number
CN116932499B
CN116932499B CN202311024486.8A CN202311024486A CN116932499B CN 116932499 B CN116932499 B CN 116932499B CN 202311024486 A CN202311024486 A CN 202311024486A CN 116932499 B CN116932499 B CN 116932499B
Authority
CN
China
Prior art keywords
dwg
file
text
annotation
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311024486.8A
Other languages
English (en)
Other versions
CN116932499A (zh
Inventor
曾宇波
路彦
陆文隆
任泓旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianhe Intelligent Building Beijing Polytron Technologies Inc
Original Assignee
Tianhe Intelligent Building Beijing Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianhe Intelligent Building Beijing Polytron Technologies Inc filed Critical Tianhe Intelligent Building Beijing Polytron Technologies Inc
Priority to CN202311024486.8A priority Critical patent/CN116932499B/zh
Publication of CN116932499A publication Critical patent/CN116932499A/zh
Application granted granted Critical
Publication of CN116932499B publication Critical patent/CN116932499B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/178Techniques for file synchronisation in file systems
    • G06F16/1794Details of file format conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本发明公开了一种DWG格式文件批量修改标注的方法,涉及图形处理技术领域,解决了传统修改方法效率低、修改不一致和操作繁琐的问题,采用的方法包括:(S1)通过天河CAD批量操作工具批量导入DWG文件;(S2)通过DWG解析库读取DWG文件内容、构建数据结构,并将DWG文件存储为二进制数据结构;(S3)通过标注解析方法对每个DWG格式标注进行解析;(S4)通过智能规则引擎制订规则并自动匹配不符合规则的标注;(S5)构建标注替换系统;(S6)验证修改结果;(S7)进行批量输出;(S8)通过异常处理机制进行错误检查;本发明采用智能规则引擎和标注替换系统自动匹配和修改不符合规则的标注,提高了修改效率和一致性并简化了人工操作。

Description

一种DWG格式文件批量修改标注的方法
技术领域
本发明涉及图形处理技术领域,且更具体地涉及一种DWG格式文件批量修改标注的方法。
背景技术
随着科技发展,一种用计算机技术辅助进行设计、绘图和模拟分析的软件CAD被广泛应用于建筑、工程、制造等领域。在过去的几十年中,随着计算机技术的迅速发展,CAD得到了广泛的推广和应用。CAD软件在20世纪80年代开始得到广泛应用,为工程和设计领域提供了数字化的设计和绘图工具。在此之前,绘图通常是在纸上手动完成,并且修改过程耗时且容易出错。随着CAD技术的不断发展,软件厂商开始意识到提高效率和准确性的需求。为了满足用户对批量修改标注的需求,相应的功能得到了引入和改进。这种方法允许用户一次性选择多个DWG格式文件,并对其中的标注进行统一的修改,而无需逐个打开和手动修改。该方法通常利用CAD软件内置的批量处理功能或通过自定义脚本来实现。用户可以使用预定义的规则或条件,指定需要修改的标注类型、属性或数值等,并将这些规则应用于所选的DWG格式文件集合。这样,用户就能够在较短的时间内完成大规模的标注修改任务,但是,传统标注修改方法仍有一些不足之处。
首先,传统的修改方法修改规则不全面,无法应对大量文件的批量处理需求;特别是对于复杂的标注修改任务,需要人工干预,不仅效率低而且容易出现遗漏某些标注或者修改错误的情况。
其次,传统的修改方法缺乏自动化的机制来保持修改的一致性,修改起来并不方便,也会导致相同类型的标注在不同文件中呈现不一致的情况。
另外,传统的修改方法缺乏智能化的处理机制处理文件读取失败和标注解析的错误,可能会存在漏改情况。
总之,传统的修改方法在效率、准确性、一致性和操作便捷性方面存在明显的缺点,无法满足大量DWG格式文件的批量修改需求,并容易出现疏漏、修改错误或一致性不高的问题。
因此,本发明公开了一种DWG格式文件批量修改标注的方法。
发明内容
针对现有技术的不足,本发明公开了一种DWG格式文件批量修改标注的方法,本发明通过通过天河CAD批量操作工具的批量导入功能和自动化处理流程,高效地处理大量的DWG格式文件,大大提升了批量处理的效率;通过智能规则引擎和标注替换系统自动匹配和修改不符合规则的标注,减少了人工干预的需求,提高了修改的准确性和一致性;通过联动修改模块确保在一个DWG格式文件中修改的标注能够自动应用于其他相关的DWG格式文件,保持了一致性;通过DWG解析库、智能规则引擎和自动替换模块简化了操作流程,并提供了自动化的功能,减少了操作的复杂性和错误的风险。
为了实现上述技术效果,本发明采用以下技术方案:
一种DWG格式文件批量修改标注的方法,其中所述方法包括:
作为本发明进一步的技术方案,包括以下步骤:
步骤1、通过天河CAD批量操作工具批量导入DWG格式文件,所述天河CAD批量操作工具通过遍历文件夹筛选出DWG格式文件以进行导入;
步骤2、通过DWG解析库读取DWG格式文件内容、构建数据结构,并将DWG格式文件存储为二进制数据结构;所述DWG解析库通过树形结构表示DWG格式文件中的层次结构,并通过哈希表存储数据;
步骤3、通过标注解析方法对每个DWG格式文件标注进行解析;
步骤4、通过智能规则引擎制订规则并自动匹配不符合规则的标注,所述智能规则引擎通过编程语言Python制定修改标注的规则;并通过标注匹配模型匹配需要修改的标注;
步骤5、构建标注替换系统,所述标注替换系统包括自动替换模块、规则替换模块和联动修改模块;所述自动替换模块通过自然语言处理模型和关键字提取方法实现用户指定关键字列表与替换词以进行自动匹配替换,所述规则替换模块基于智能规则引擎的匹配标注数据,通过CAD软件解析库修改不符合规则的标注;所述联动修改模块通过DWG文件解析子模块、标注识别匹配子模块、标注修改子模块和多文件自动应用子模块实现用户在一个DWG格式文件中修改一处标注时自动应用于其他相关的DWG格式文件;
步骤6、通过DWG自动验证工具对修改后的文件进行解析和比对,确保标注已被修改;
步骤7、通过文件处理模块将修改完成并验证通过的DWG格式文件批量输出保存;
步骤8、通过异常处理机制捕获处理文件读取失败和标注解析错误,并记录错误信息到日志文件中。
作为本发明进一步的技术方案,所述DWG解析库包括格式解析单元、格式规范单元、规则解析单元和内存管理单元;所述格式解析单元通过二进制读取函数对DWG格式文件的字节流进行解析;所述格式规范单元通过映射表存储实体和属性的键值对,并通过数组和缓冲区存储图形数据;所述规则解析单元通过编码转换算法和矩阵变换正确解析和显示数据;所述内存管理单元通过压缩算法避免内存溢出。
作为本发明进一步的技术方案,所述标注解析方法通过以下方式实现:
(S1)读取DWG格式文件,通过文件操作函数以二进制模式读取DWG格式文件并加载到内存中;
(S2)文件解析,根据DWG格式文件的结构和规范,通过二进制解析函数解析文件头部数据以获取文件版本和文件信息;
(S3)实体数据解析,根据DWG格式文件的格式规范,通过循环结构读取连续的实体块以逐个解析实体数据块;
(S4)标注信息提取,通过字段遍历工具对每个实体进行筛选确定文本类型实体,并提取标注位置和文本内容属性;
(S5)通过文本属性解析工具对筛选出的文本实体解析标注位置信息和文本内容,所述标注位置信息包括坐标、旋转角度和缩放属性;
(S6)通过信息存储工具将提取到的标注信息存储到列表数据结构中;
(S7)通过解析返回值将包含标注信息的数据结构返回给调用者,以便后续处理和分析。
作为本发明进一步的技术方案,所述DWG文件解析子模块通过工程制图软件CAD操作库读取、修改和保存DWG格式文件的函数和方法;所述标注识别匹配子模块通过标注绘图库访问包括标注的位置、文字内容、字体、颜色;所述标注修改子模块通过CAD操作库提供的文本对象修改函数对标注数据进行修改;所述多文件自动应用子模块使用文件操作库os工具遍历和处理相关DWG格式文件;所述文件操作库OS工具通过系统遍历函数获取目标文件夹中的文件列表,并根据文件扩展名过滤出DWG格式文件;所述DWG文件解析子模块输出端与所述标注识别匹配子模块输入端连接;所述标注识别匹配子模块输出端与标注修改子模块输入端连接;所述标注修改子模块输出端与多文件自动应用子模块输入端连接。
作为本发明进一步的技术方案,所述标注匹配模型通过文本对比算法、几何匹配算法和颜色匹配算法匹配相对应标注;其中,所述文本对比算法通过余弦相似度公式比较两段文本之间的相似度或差异程度;所述余弦相似度通过计算两个向量之间的夹角来表示它们之间的相似度,其中,
余弦相似度公式表示为:
在公式(1)中,x为向量横向节点,y为相量纵向节点,z为向量修正参数,t为自适应偏差参数,eN为待比较的文本向量,所述几何匹配算法通过最小二乘法确定两个几何对象之间的相似性或匹配度,所述最小二乘法通过最小化数据点与拟合曲线之间的垂直距离平方和来找到最佳拟合曲线;其中,最小二乘法公式表示为:
在公式(2)中,Ci是数据点的纵坐标,b则表示是拟合曲线相对与Ci的空间坐标;所述颜色匹配算法通过欧氏距离比较两个颜色之间的相似性或差异度,所述欧氏距离通过计算两个颜色之间的空间距离比较颜色在不同颜色空间中各个分量的差异衡量颜色的相似性,其中,欧氏距离公式表示为:
在公式(3)中,ω为最小特征基参数,n为全局扫描范围,为全局指派比例参数,ρa为最小特征基上限,ρd为最小特征基下限,ρx为最小特征基分支深度。
作为本发明进一步的技术方案,所述自然语言处理模型通过文本解析模块、标注处理模块、标注文本修改模块和DWG格式文件修改模块以实现文本解析、处理和修改功能;其中,所述文本解析模块通过文本提取算法解析DWG格式文件中的文本标注,并识别出需要修改的标注文本,从DWG格式文件中提取出正确的文本信息;所述标注处理模块通过以下方式对提取的标注文本进行处理:
通过分词将文本切分成词或子词的序列;
通过命名实体识别方法识别出特定类型的实体;
通过文本分类将标注文本进行归类;
通过文本转换将文本转换为二进制格式;
所述标注文本修改模块通过规则匹配工具将特定文本替换为目标内容;所述DWG格式文件修改模块通过DWG格式文件操作库将修改后的标注文本更新到DWG格式文件中。
作为本发明进一步的技术方案,所述DWG自动验证工具包括DWG格式文件解析器、标注提取器、预期结果定义器和修改结果对比器;其中,所述DWG格式文件解析器通过工程文件解析库od解析DWG格式文件的结构和内容,并将其转换成可操作的数据格式;所述标注提取器基于工程文件解析库转换后的数据,通过特征提取方法解析DWG格式文件的图层、块和实体元素,识别并提取出元素中的标注对象;所述预期结果定义器通过自定义配置方法定义修改后每个标注对象的位置、文字内容、字体和颜色属性以构建标注预测模型;所述修改结果对比器通过文本对比、几何匹配和颜色匹配算法比对实际修改后的标注结果与预期结果之间的差异以确定标注对象是否按预期被修改。
作为本发明进一步的技术方案,所述异常处理机制通过异常类型判断器捕获不同异常类的类型;并根据异常类型的继承关系决定处理方式;在处理方式选择后,通过错误处理函数进行打印错误信息、回滚操作或终止程序操作;最终通过日志库提供的配置选项将错误信息记录到指定的日志文件中。
积极有益效果:
本发明通过通过天河CAD批量操作工具的批量导入功能和自动化处理流程,高效地处理大量的DWG格式文件,大大提升了批量处理的效率;通过智能规则引擎和标注替换系统自动匹配和修改不符合规则的标注,减少了人工干预的需求,提高了修改的准确性和一致性;通过联动修改模块确保在一个DWG格式文件中修改的标注能够自动应用于其他相关的DWG格式文件,保持了一致性;通过DWG解析库、智能规则引擎和自动替换模块简化了操作流程,并提供了自动化的功能,减少了操作的复杂性和错误的风险。
附图说明:
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图,其中:
图1为本发明的流程步骤示意图;
图2为本发明的标注解析方法的步骤流程图;
图3为本发明的联动修改模块架构图;
图4为本发明的自然语言处理模型框架图;
图5为本发明的异常处理机制原理图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1-图5所示,一种DWG格式文件批量修改标注的方法,包括以下步骤:
步骤1、通过天河CAD批量操作工具批量导入DWG格式文件,所述天河CAD批量操作工具通过遍历文件夹筛选出DWG格式文件以进行导入;
步骤2、通过DWG解析库读取DWG格式文件内容、构建数据结构,并将DWG格式文件存储为二进制数据结构;所述DWG解析库通过树形结构表示DWG格式文件中的层次结构,并通过哈希表存储数据;
步骤3、通过标注解析方法对每个DWG格式文件标注进行解析;
步骤4、通过智能规则引擎制订规则并自动匹配不符合规则的标注,所述智能规则引擎通过编程语言Python制定修改标注的规则;并通过标注匹配模型匹配需要修改的标注;
步骤5、构建标注替换系统,所述标注替换系统包括自动替换模块、规则替换模块和联动修改模块;所述自动替换模块通过自然语言处理模型和关键字提取方法实现用户指定关键字列表与替换词以进行自动匹配替换,所述规则替换模块基于智能规则引擎的匹配标注数据,通过CAD软件解析库修改不符合规则的标注;所述联动修改模块通过DWG文件解析子模块、标注识别匹配子模块、标注修改子模块和多文件自动应用子模块实现用户在一个DWG格式文件中修改一处标注时自动应用于其他相关的DWG格式文件;
步骤6、通过DWG自动验证工具对修改后的文件进行解析和比对,确保标注已被修改;
步骤7、通过文件处理模块将修改完成并验证通过的DWG格式文件批量输出保存;
步骤8、通过异常处理机制捕获处理文件读取失败和标注解析错误,并记录错误信息到日志文件中。
在上述实施例中,所述DWG解析库包括格式解析单元、格式规范单元、规则解析单元和内存管理单元;所述格式解析单元通过二进制读取函数对DWG格式文件的字节流进行解析;所述格式规范单元通过映射表存储实体和属性的键值对,并通过数组和缓冲区存储图形数据;所述规则解析单元通过编码转换算法和矩阵变换正确解析和显示数据;所述内存管理单元通过压缩算法避免内存溢出。
在具体实施中,格式解析单元通过读取二进制数据,并根据格式规范单元提供的规则,解析文件的结构、对象和属性。通过了解二进制数据的布局和编码方式,格式解析单元可以准确地获取DWG格式文件中的各个元素。在具体实施中,格式规范单元定义了DWG格式文件的结构、编码方式和数据类型。它描述了DWG格式文件的头部信息、表格定义、实体对象等内容。解析库使用格式规范单元提供的规则,解析二进制数据并将其转化为可操作的数据结构,如图层对象、块对象;规则解析单元则根据用户设定的规则和条件来匹配和修改标注。它可以遍历解析得到的数据结构,检查标注对象的属性或内容是否满足指定的条件。规则解析单元可以通过正则表达式、标注匹配模型等技术手段来实现标注的筛选和修改。内存管理单元负责有效地分配和释放内存资源,以确保解析过程的效率和稳定性。它可以使用动态内存分配技术,如堆内存管理、内存池等,来优化内存的使用。通过合理管理内存,解析库可以提高处理大型DWG格式文件时的性能和可靠性。
通过上述技术手段,DWG解析库能够解析DWG格式文件的二进制格式并转换为可操作的数据结构。然后,规则解析单元根据用户设定的规则匹配和修改标注对象。内存管理单元负责有效地管理内存资源,确保解析过程的顺利进行;以实现批量修改标注的功能。
在上述实施例中,所述标注解析方法通过以下方式实现:
(S1)读取DWG格式文件,通过文件操作函数以二进制模式读取DWG格式文件并加载到内存中;
(S2)文件解析,根据DWG格式文件的结构和规范,通过二进制解析函数解析文件头部数据以获取文件版本和文件信息;
(S3)实体数据解析,根据DWG格式文件的格式规范,通过循环结构读取连续的实体块以逐个解析实体数据块;
(S4)标注信息提取,通过字段遍历工具对每个实体进行筛选确定文本类型实体,并提取标注位置和文本内容属性;
(S5)通过文本属性解析工具对筛选出的文本实体,解析标注位置信息和文本内容,所述标注位置信息包括坐标、旋转角度和缩放属性;
(S6)通过信息存储工具将提取到的标注信息存储到列表数据结构中;
(S7)通过解析返回值,将包含标注信息的数据结构返回给调用者,以便后续处理和分析。
在具体实施例中,标注解析方法使用文本分析技术来提取DWG格式文件中的标注文本。它可以识别标注对象,并将其相关的文本内容解析出来。通过文本解析,可以获取到需要批量修改的标注内容。同时,标注解析方法使用正则表达式来匹配和提取特定格式的标注文本。正则表达式是一种强大的文本模式匹配工具,它可以基于规则定义的模式,快速识别和抓取符合要求的标注文本。通过编写适当的正则表达式,可以精确地匹配需要修改的标注内容。另外,标注解析方法利用自然语言处理技术来分析、理解和处理标注文本。它可以将标注文本进行分词、词性标注、实体识别等处理,以获得更准确的语义信息。通过自然语言处理,可以对标注文本进行更深入的分析和解析。在具体实施中,标注解析方法处理不同字符编码的标注文本,确保正确解析和处理各种字符编码格式的数据。它根据具体的字符编码规范,进行字符编码的转换和处理,以保证标注文本在解析过程中不出现乱码或错误。
在上述实施例中,所述DWG文件解析子模块通过工程制图软件CAD操作库读取、修改和保存DWG格式文件的函数和方法;所述标注识别匹配子模块通过标注绘图库访问包括标注的位置、文字内容、字体、颜色;所述标注修改子模块通过CAD操作库提供的文本对象修改函数对标注数据进行修改;所述多文件自动应用子模块使用文件操作库os工具遍历和处理相关DWG格式文件;所述文件操作库OS工具通过系统遍历函数获取目标文件夹中的文件列表,并根据文件扩展名过滤出DWG格式文件;所述DWG文件解析子模块输出端与所述标注识别匹配子模块输入端连接;所述标注识别匹配子模块输出端与标注修改子模块输入端连接;所述标注修改子模块输出端与多文件自动应用子模块输入端连接。
在具体实施例中,DWG文件解析子模块负责解析DWG格式文件格式,并将文件中的内容提取出来。它可以读取DWG格式文件的结构和对象属性,并将其转化为程序可以处理的数据结构。通过标注识别匹配子模块识别DWG格式文件中的标注对象,并对其进行匹配。它可以根据标注的特征、位置或其他属性来进行匹配,找到在不同DWG格式文件中具有相同含义的标注。而标注修改子模块负责在给定的DWG格式文件中修改标注。当在一个DWG格式文件中修改了特定标注的内容或属性时,该子模块会将这些变更应用到其他相关的DWG格式文件中的相应标注上,确保标注的一致性和更新性。多文件自动应用子模块则负责管理多个DWG格式文件,并调用标注识别匹配子模块和标注修改子模块来实现自动应用功能。它可以遍历相关的DWG格式文件,识别出与指定标注相关的文件,并将标注修改子模块应用到这些文件中。这样,在一个DWG格式文件中的标注修改会自动反映在其他相关文件中。
在上述实施例中,所述标注匹配模型通过文本对比算法、几何匹配算法和颜色匹配算法匹配相对应标注;其中,所述文本对比算法通过余弦相似度公式比较两段文本之间的相似度或差异程度;所述余弦相似度通过计算两个向量之间的夹角来表示它们之间的相似度,其中,
余弦相似度公式表示为:
在公式(1)中,x为向量横向节点,y为相量纵向节点,z为向量修正参数,t为自适应偏差参数,eN为待比较的文本向量,所述几何匹配算法通过最小二乘法确定两个几何对象之间的相似性或匹配度,所述最小二乘法通过最小化数据点与拟合曲线之间的垂直距离平方和来找到最佳拟合曲线;其中,最小二乘法公式表示为:
在公式(2)中,Ci是数据点的纵坐标,b则表示是拟合曲线相对与Ci的空间坐标;所述颜色匹配算法通过欧氏距离比较两个颜色之间的相似性或差异度,所述欧氏距离通过计算两个颜色之间的空间距离比较颜色在不同颜色空间中各个分量的差异衡量颜色的相似性,其中,欧氏距离公式表示为:
在公式(3)中,ω为最小特征基参数,n为全局扫描范围,为全局指派比例参数,ρa为最小特征基上限,ρd为最小特征基下限,ρx为最小特征基分支深度。
在具体实施例中,标注匹配模型使用文本处理技术,比如正则表达式、字符串比较或模式匹配来识别和匹配标注文本中的特定字符串。通过定义匹配规则和文本比较算法,可以准确地找到需要修改的标注文本。而文本比较算法通过余弦相似度表格展示了不同向量之间的余弦相似度计算结果,余弦相似度是通过计算两个向量之间的夹角来确定它们的相似程度,数值范围在-1到1之间,所述余弦相似度表格如表1所示:
表1余弦相似度表格
数据表格1列出了不同向量A和向量B之间的余弦相似度,可以比较向量之间的相似性;
而几何匹配算法利用几何计算和分析技术,比如坐标转换、距离计算或形状匹配,来判断标注对象的几何属性是否符合修改规则。通过最小二乘法对标注对象进行几何特征提取和比较,可以确定需要进行批量修改的标注对象。其中最小二乘法通过找到最小化预测值与实际观测值之间差异的拟合线以拟合数据的结果,其中二乘数据相关表格如表2所示:
表2最小二乘法公式表格
表格2中的自变量X表示输入数据的特征,因变量Y表示对应的响应变量,通过最小二乘法得到的斜率和截距描述了数据的线性关系
颜色匹配算法则使用图像处理和颜色分析技术,比如颜色空间转换、颜色比较或颜色特征提取,来检测标注文本或标注对象的颜色信息是否满足修改条件。通过对标注文本或标注对象的颜色进行匹配和比较,可以确定需要修改的标注内容。同时,它通过欧氏距离公式计算欧氏距离的结果。欧氏距离是用于衡量两个向量之间的距离的常用指标,通过计算其各个元素之间的差异来度量它们之间的相似性。其中,向量之间的欧氏距离表格如表3所示:
表3欧氏距离公式表格
表格3中的向量A和向量B表示两个待比较的向量,欧氏距离是这两个向量之间的直线距离。较小的欧氏距离表示两个向量越相似。
在上述实施例中,所述自然语言处理模型通过文本解析模块、标注处理模块、标注文本修改模块和DWG格式文件修改模块以实现文本解析、处理和修改功能;其中,所述文本解析模块通过文本提取算法解析DWG格式文件中的文本标注,并识别出需要修改的标注文本,从DWG格式文件中提取出正确的文本信息;所述标注处理模块通过以下方式对提取的标注文本进行处理:
通过分词将文本切分成词或子词的序列;
通过命名实体识别方法识别出特定类型的实体;
通过文本分类将标注文本进行归类;
通过文本转换将文本转换为二进制格式;
所述标注文本修改模块通过规则匹配工具将特定文本替换为目标内容;所述DWG格式文件修改模块通过DWG格式文件操作库将修改后的标注文本更新到DWG格式文件中。
在具体实施例中,自然语言处理模型为了解析DWG格式文件中的文本标注,使用OCR(光学字符识别)技术将图像中的文本转换为可编辑的文本形式,使得模型可以对其进行处理和修改。同时,为了切分文本成词或子词的序列,使用中文分词技术,如jieba分词、HanLP等。这些分词技术能够将连续的文本分割成有意义的单元,便于后续的处理和操作。为了针对特定类型的实体识别,使用命名实体识别(NER)技术。NER技术能够识别出文本中具有特定含义的实体,并将其标记出来,这样模型根据不同的实体类型采取相应的处理方式。另外,为了对标注文本进行归类,采用文本分类技术,如机器学习算法、深度学习方法等。通过训练一个模型,将标注文本按照预定义的类别进行分类,为后续的处理提供指导。同时,对文本进行格式转换或规范化,使用字符串处理技术、正则表达式等。例如,将日期格式进行统一、将缩写展开为全称等操作,以满足特定需求。在标注文本修改模块中,采用规则匹配技术来进行替换操作。通过定义一系列规则,匹配需要替换的特定文本,并将其替换为目标内容,实现批量修改的功能。总之,在具体实施中,自然语言处理模型通过OCR技术进行文本解析,通过分词、命名实体识别、文本分类等技术对标注文本进行处理和归类,通过文本转换技术将文本转换为特定的格式或形式,并通过规则匹配工具进行文本替换,实现对DWG格式文件中标注的批量修改。这些技术的应用能够提高处理效率和准确性,使得对DWG格式文件中标注文本的修改更加方便和可靠。
在上述实施例中,所述DWG自动验证工具包括DWG格式文件解析器、标注提取器、预期结果定义器和修改结果对比器;其中,所述DWG格式文件解析器通过工程文件解析库od解析DWG格式文件的结构和内容,并将其转换成可操作的数据格式;所述标注提取器基于工程文件解析库转换后的数据,通过特征提取方法解析DWG格式文件的图层、块和实体元素,识别并提取出元素中的标注对象;所述预期结果定义器通过自定义配置方法定义修改后每个标注对象的位置、文字内容、字体和颜色属性以构建标注预测模型;所述修改结果对比器通过文本对比、几何匹配和颜色匹配算法比对实际修改后的标注结果与预期结果之间的差异以确定标注对象是否按预期被修改。
在具体实施例中,DWG格式文件解析器使用专门的DWG解析库(如OpenDesignAlliance的Teigha库或LibreDWG等),将DWG格式文件的二进制结构进行解析。这些库能够读取和解析DWG格式文件的各个部分,包括图层、块定义、实体等元数据信息。通过解析器,获得了对DWG格式文件结构的理解和访问。标注提取器利用光学字符识别(OCR)技术和自然语言处理(NLP)技术,从DWG格式文件中提取出标注文本。首先,使用OCR技术将DWG格式文件中的标注区域转换为可编辑的文本形式。然后,使用NLP技术对提取出的文本进行处理,如分词、命名实体识别等。这样可以将标注文本从DWG格式文件中提取出来,并进行后续操作和分析。预期结果定义器则根据用户的需求和规则定义标注文本的预期修改结果。用户可以基于特定的规则或模板,在预期结果定义器中指定需要对标注文本进行的批量修改操作。这可能涉及到规则匹配、字符串替换、正则表达式等技术,以实现预期的修改效果。修改结果对比器使用文本对比算法来比较实际修改结果和预期结果之间的差异。常用的文本对比算法包括Levenshtein距离算法、最长公共子序列(LCS)算法等。对比器将实际修改结果与预期结果进行比较,找出差异并标识出修改不一致或错误的地方。通过对比结果,可以验证修改是否成功并定位问题所在。
在具体实施中,DWG自动验证工具中DWG格式文件解析器使用DWG解析库解析文件结构,标注提取器利用OCR和NLP技术提取标注文本,预期结果定义器通过规则和模板定义预期修改效果,而修改结果对比器使用文本对比算法比较实际和预期结果。这些技术的应用有助于自动化批量修改DWG格式文件中的标注,并验证修改结果的正确性。
在上述实施例中,所述异常处理机制通过异常类型判断器捕获不同异常类的类型;并根据异常类型的继承关系决定处理方式;在处理方式选择后,通过错误处理函数进行打印错误信息、回滚操作或终止程序操作;最终通过日志库提供的配置选项将错误信息记录到指定的日志文件中。
在具体实施例中,异常处理机制使用一些技术来检测是否出现了异常情况。例如,可以监控解析器是否成功解析了DWG格式文件的结构,或者标注提取器是否成功提取了标注文本,这通过检查返回值、异常捕获和日志记录等方式实现。当出现异常情况时,需要捕获并适当地处理这些异常,异常捕获机制通过使用捕获解析器、标注提取器或其他组件可能抛出的异常。一旦异常被捕获,采取适当的处理方法,例如记录异常信息、回滚修改操作、跳过当前处理等。另外,在异常处理过程中,使用错误日志记录技术来记录异常情况。当出现异常时,将相关错误信息写入日志文件中,以便后续排查和分析。错误日志记录提供有关异常原因、位置和上下文信息,有助于快速定位和解决问题。如果在批量修改标注的过程中发生了不可恢复的错误或异常,采用回退机制来还原到修改之前的状态。回退机制使用备份文件、事务管理等方式实现,以确保在错误发生时能够恢复到原始状态,避免数据损坏或丢失。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些具体实施方式仅是举例说明,本领域的技术人员在不脱离本发明的原理和实质的情况下,可以对上述方法和系统的细节进行各种省略、替换和改变。例如,合并上述方法步骤,从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围。因此,本发明的范围仅由所附权利要求书限定。

Claims (6)

1.一种DWG格式文件批量修改标注的方法,其特征在于:包括以下步骤:
步骤1、通过天河CAD批量操作工具批量导入DWG格式文件,所述天河CAD批量操作工具通过遍历文件夹筛选出DWG格式文件以进行导入;
步骤2、通过DWG解析库读取DWG格式文件内容、构建数据结构,并将DWG格式文件存储为二进制数据结构;所述DWG解析库通过树形结构表示DWG格式文件中的层次结构,并通过哈希表存储数据;
步骤3、通过标注解析方法对每个DWG格式文件标注进行解析;所述标注解析方法通过以下方式实现:
(S1)读取DWG格式文件,通过文件操作函数以二进制模式读取DWG格式文件并加载到内存中;
(S2)文件解析,根据DWG格式文件的结构和规范,通过二进制解析函数解析文件头部数据以获取文件版本和文件信息;
(S3)实体数据解析,根据DWG格式文件的格式规范,通过循环结构读取连续的实体块以逐个解析实体数据块;
(S4)标注信息提取,通过字段遍历工具对每个实体进行筛选确定文本类型实体,并提取标注位置和文本内容属性;
(S5)通过文本属性解析工具对筛选出的文本实体解析标注位置信息和文本内容,所述标注位置信息包括坐标、旋转角度和缩放属性;
(S6)通过信息存储工具将提取到的标注信息存储到列表数据结构中;
(S7)通过解析返回值将包含标注信息的数据结构返回给调用者,以便后续处理和分析;
步骤4、通过智能规则引擎制订规则并自动匹配不符合规则的标注,所述智能规则引擎通过编程语言Python制定修改标注的规则;并通过标注匹配模型匹配需要修改的标注;所述标注匹配模型通过文本对比算法、几何匹配算法和颜色匹配算法匹配相对应标注;其中,所述文本对比算法通过余弦相似度公式比较两段文本之间的相似度或差异程度;所述余弦相似度通过计算两个向量之间的夹角来表示它们之间的相似度,其中,
余弦相似度公式表示为:
在公式(1)中,x为向量横向节点,y为相量纵向节点,z为向量修正参数,t为自适应偏差参数,eN为待比较的文本向量,所述几何匹配算法通过最小二乘法确定两个几何对象之间的相似性或匹配度,所述最小二乘法通过最小化数据点与拟合曲线之间的垂直距离平方和来找到最佳拟合曲线;其中,最小二乘法公式表示为:
在公式(2)中,Ci是数据点的纵坐标,b则表示是拟合曲线相对与Ci的空间坐标;所述颜色匹配算法通过欧氏距离比较两个颜色之间的相似性或差异度,所述欧氏距离通过计算两个颜色之间的空间距离比较颜色在不同颜色空间中各个分量的差异衡量颜色的相似性,其中,欧氏距离公式表示为:
在公式(3)中,ω为最小特征基参数,n为全局扫描范围,为全局指派比例参数,ρa为最小特征基上限,ρd为最小特征基下限,ρx为最小特征基分支深度;
步骤5、构建标注替换系统,所述标注替换系统包括自动替换模块、规则替换模块和联动修改模块;所述自动替换模块通过自然语言处理模型和关键字提取方法实现用户指定关键字列表与替换词以进行自动匹配替换,所述规则替换模块基于智能规则引擎的匹配标注数据,通过CAD软件解析库修改不符合规则的标注;所述联动修改模块通过DWG文件解析子模块、标注识别匹配子模块、标注修改子模块和多文件自动应用子模块实现用户在一个DWG格式文件中修改一处标注时自动应用于其他相关的DWG格式文件;
所述DWG文件解析子模块,用于读取DWG文件的结构和对象属性,并将其转化为程序可以处理的数据结构;
所述标注识别匹配子模块,用于识别DWG文件中的标注对象,并对其进行匹配;
所述标注修改子模块,用于在给定的DWG文件中修改标注;
所述多文件自动应用子模块,用于管理多个DWG文件,并调用标注识别匹配子模块和标注修改子模块实现自动应用功能;
步骤6、通过DWG自动验证工具对修改后的文件进行解析和比对,确保标注已被修改;
步骤7、通过文件处理模块将修改完成并验证通过的DWG格式文件批量输出保存;
步骤8、通过异常处理机制捕获处理文件读取失败和标注解析错误,并记录错误信息到日志文件中。
2.根据权利要求1所述的一种DWG格式文件批量修改标注的方法,其特征在于:所述DWG解析库包括格式解析单元、格式规范单元、规则解析单元和内存管理单元;所述格式解析单元通过二进制读取函数对DWG格式文件的字节流进行解析;所述格式规范单元通过映射表存储实体和属性的键值对,并通过数组和缓冲区存储图形数据;所述规则解析单元通过编码转换算法和矩阵变换正确解析和显示数据;所述内存管理单元通过压缩算法避免内存溢出。
3.根据权利要求1所述的一种DWG格式文件批量修改标注的方法,其特征在于:所述DWG文件解析子模块通过工程制图软件CAD操作库读取、修改和保存DWG格式文件的函数和方法;所述标注识别匹配子模块通过标注绘图库访问包括标注的位置、文字内容、字体、颜色;所述标注修改子模块通过CAD操作库提供的文本对象修改函数对标注数据进行修改;所述多文件自动应用子模块使用文件操作库os工具遍历和处理相关DWG格式文件;所述文件操作库OS工具通过系统遍历函数获取目标文件夹中的文件列表,并根据文件扩展名过滤出DWG格式文件;所述DWG文件解析子模块的输出端与所述标注识别匹配子模块的输入端连接;所述标注识别匹配子模块的输出端与标注修改子模块的输入端连接;所述标注修改子模块的输出端与多文件自动应用子模块的输入端连接。
4.根据权利要求1所述的一种DWG格式文件批量修改标注的方法,其特征在于:所述自然语言处理模型通过文本解析模块、标注处理模块、标注文本修改模块和DWG格式文件修改模块以实现文本解析、处理和修改功能;其中,所述文本解析模块通过文本提取算法解析DWG格式文件中的文本标注,并识别出需要修改的标注文本,从DWG格式文件中提取出正确的文本信息;所述标注处理模块通过以下方式对提取的标注文本进行处理:
通过分词将文本切分成词或子词的序列;
通过命名实体识别方法识别类型实体;
通过文本分类将标注文本进行归类;
通过文本转换将文本转换为二进制格式;
所述标注文本修改模块通过规则匹配工具将特定文本替换为目标内容;所述DWG格式文件修改模块通过DWG格式文件操作库将修改后的标注文本更新到DWG格式文件中。
5.根据权利要求1所述的一种DWG格式文件批量修改标注的方法,其特征在于:所述DWG自动验证工具包括DWG格式文件解析器、标注提取器、预期结果定义器和修改结果对比器;其中,所述DWG格式文件解析器通过工程文件解析库od解析DWG格式文件的结构和内容,并将其转换成可操作的数据格式;所述标注提取器基于工程文件解析库转换后的数据,通过特征提取方法解析DWG格式文件的图层、块和实体元素,识别并提取出元素中的标注对象;所述预期结果定义器通过自定义配置方法定义修改后每个标注对象的位置、文字内容、字体和颜色属性以构建标注预测模型;所述修改结果对比器通过文本对比、几何匹配和颜色匹配算法比对实际修改后的标注结果与预期结果之间的差异以确定标注对象是否按预期被修改。
6.根据权利要求1所述的一种DWG格式文件批量修改标注的方法,其特征在于:所述异常处理机制通过异常类型判断器捕获不同异常类的类型;并根据异常类型的继承关系决定处理方式;在处理方式选择后,通过错误处理函数进行打印错误信息、回滚操作或终止程序操作;最终通过日志库提供的配置选项将错误信息记录到指定的日志文件中。
CN202311024486.8A 2023-08-15 2023-08-15 一种dwg格式文件批量修改标注的方法 Active CN116932499B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311024486.8A CN116932499B (zh) 2023-08-15 2023-08-15 一种dwg格式文件批量修改标注的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311024486.8A CN116932499B (zh) 2023-08-15 2023-08-15 一种dwg格式文件批量修改标注的方法

Publications (2)

Publication Number Publication Date
CN116932499A CN116932499A (zh) 2023-10-24
CN116932499B true CN116932499B (zh) 2024-02-20

Family

ID=88379126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311024486.8A Active CN116932499B (zh) 2023-08-15 2023-08-15 一种dwg格式文件批量修改标注的方法

Country Status (1)

Country Link
CN (1) CN116932499B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117591531B (zh) * 2024-01-18 2024-03-22 北京快立方科技有限公司 一种数据库的远程数据同步方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6915252B1 (en) * 2000-01-11 2005-07-05 Sun Microsystems, Inc. Method and system for ensuring consistency of design rule application in a CAD environment
CA2653908A1 (en) * 2006-06-29 2008-01-03 Aftercad Software Inc. Method and system for displaying and communicating complex graphics file information
KR20080054689A (ko) * 2006-12-13 2008-06-19 주식회사 케이티 Cad에서 작성된 dwg형식의 도면을 toms데이터베이스로 변환하기 위한 도면 파일 변환 시스템
CN103617155A (zh) * 2013-12-13 2014-03-05 苏州利驰电子商务有限公司 一种web下dwg文件的在线批注方法及系统
CN104657524A (zh) * 2013-11-15 2015-05-27 广州中望龙腾软件股份有限公司 Dwg图纸语音标注功能
CN106055529A (zh) * 2016-05-27 2016-10-26 成都优译信息技术有限公司 Dwg格式文件中待翻译文本数据的解析系统及其解析方法
CN106599321A (zh) * 2016-12-30 2017-04-26 上海绿建信息科技有限公司 一种dwg文件批注和签名的生成、解析插件及其使用方法
CN107229687A (zh) * 2017-05-12 2017-10-03 国电南瑞科技股份有限公司 一种批量将dft文件转换为dwg文件的系统及方法
CN112800503A (zh) * 2021-01-26 2021-05-14 嘉博联合设计股份有限公司 一种将Revit导出的CAD图纸转换为标准化图纸的方法及系统
CN115730157A (zh) * 2022-11-30 2023-03-03 中科美络科技股份有限公司 一种Web中dwg图纸的线条快速显示方法及系统
CN115729887A (zh) * 2022-11-22 2023-03-03 上海数慧系统技术有限公司 一种文件解析方法、装置及计算机可读介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6915252B1 (en) * 2000-01-11 2005-07-05 Sun Microsystems, Inc. Method and system for ensuring consistency of design rule application in a CAD environment
CA2653908A1 (en) * 2006-06-29 2008-01-03 Aftercad Software Inc. Method and system for displaying and communicating complex graphics file information
KR20080054689A (ko) * 2006-12-13 2008-06-19 주식회사 케이티 Cad에서 작성된 dwg형식의 도면을 toms데이터베이스로 변환하기 위한 도면 파일 변환 시스템
CN104657524A (zh) * 2013-11-15 2015-05-27 广州中望龙腾软件股份有限公司 Dwg图纸语音标注功能
CN103617155A (zh) * 2013-12-13 2014-03-05 苏州利驰电子商务有限公司 一种web下dwg文件的在线批注方法及系统
CN106055529A (zh) * 2016-05-27 2016-10-26 成都优译信息技术有限公司 Dwg格式文件中待翻译文本数据的解析系统及其解析方法
CN106599321A (zh) * 2016-12-30 2017-04-26 上海绿建信息科技有限公司 一种dwg文件批注和签名的生成、解析插件及其使用方法
CN107229687A (zh) * 2017-05-12 2017-10-03 国电南瑞科技股份有限公司 一种批量将dft文件转换为dwg文件的系统及方法
CN112800503A (zh) * 2021-01-26 2021-05-14 嘉博联合设计股份有限公司 一种将Revit导出的CAD图纸转换为标准化图纸的方法及系统
CN115729887A (zh) * 2022-11-22 2023-03-03 上海数慧系统技术有限公司 一种文件解析方法、装置及计算机可读介质
CN115730157A (zh) * 2022-11-30 2023-03-03 中科美络科技股份有限公司 一种Web中dwg图纸的线条快速显示方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Annotating and sketching on 3D web models;Thomas Jung.et al;Proceedings of the 7th international conference on Intelligent user interfaces;第95–102页 *
AutoCAD中粗糙度的自动标注;岳永胜;郑州轻工业学院学报;第62-64页 *
MapGIS数据转换方法研究;郭岚;席晶;;西安科技大学学报;20110131(01);第68-71页 *

Also Published As

Publication number Publication date
CN116932499A (zh) 2023-10-24

Similar Documents

Publication Publication Date Title
CN102713834B (zh) 管理记录格式信息
CN109446885B (zh) 一种基于文本的元器件识别方法、系统、装置和存储介质
CN112036273A (zh) 一种图像识别方法及装置
CN113255614A (zh) 一种基于视频分析的rpa流程自动生成方法与系统
CN116932499B (zh) 一种dwg格式文件批量修改标注的方法
CN110852107B (zh) 一种关系提取方法、装置、及存储介质
CN114003750B (zh) 物料上线方法、装置、设备及存储介质
CN116360794A (zh) 数据库语言解析方法、装置、计算机设备及存储介质
US20230134218A1 (en) Continuous learning for document processing and analysis
CN115294593A (zh) 一种图像信息抽取方法、装置、计算机设备及存储介质
CN111291208B (zh) 前端页面元素的命名方法、装置及电子设备
CN114780403A (zh) 基于增强代码属性图的软件缺陷预测方法及预测装置
US11256760B1 (en) Region adjacent subgraph isomorphism for layout clustering in document images
CN112100373A (zh) 一种基于深度神经网络的合同文本分析方法及系统
CN112925874A (zh) 基于案例标记的相似代码搜索方法及系统
CN112418217A (zh) 用于识别字符的方法、装置、设备和介质
TW202207109A (zh) 工程專案文件管理方法與系統
CN111274369A (zh) 一种英文单词的识别方法及装置
CN112685056A (zh) 脚本更新方法及装置
CN117372510B (zh) 基于计算机视觉模型的地图注记识别方法、终端及介质
CN117608545B (zh) 一种基于知识图谱的标准作业程序生成方法
CN114066402B (zh) 一种基于文字识别的自动化流程实现方法及系统
CN116126790B (zh) 铁路工程档案归档方法、装置、电子设备、存储介质
CN117312833B (zh) 一种应用于数字资产环境中的数据识别方法及系统
US20210295031A1 (en) Automated classification and interpretation of life science documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant