CN116303287B - 一种基于nlp的文件命名方法 - Google Patents
一种基于nlp的文件命名方法 Download PDFInfo
- Publication number
- CN116303287B CN116303287B CN202310285524.9A CN202310285524A CN116303287B CN 116303287 B CN116303287 B CN 116303287B CN 202310285524 A CN202310285524 A CN 202310285524A CN 116303287 B CN116303287 B CN 116303287B
- Authority
- CN
- China
- Prior art keywords
- cad
- naming
- file
- nlp
- named
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 239000000463 material Substances 0.000 claims abstract description 67
- 230000006870 function Effects 0.000 claims abstract description 14
- 210000001503 joint Anatomy 0.000 claims abstract description 4
- 238000004458 analytical method Methods 0.000 claims description 22
- 230000006978 adaptation Effects 0.000 claims description 9
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 3
- 206010063385 Intellectualisation Diseases 0.000 abstract 1
- 238000012549 training Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
- G06F16/164—File meta data generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
- G06F16/168—Details of user interfaces specifically adapted to file systems, e.g. browsing and visualisation, 2d or 3d GUIs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/10—Geometric CAD
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Geometry (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computer Hardware Design (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于NLP的文件命名方法,CAD文件命名技术领域,包括:步骤一:设置素材添加栏,获取需要进行文件命名的命名素材;步骤二:基于NLP算法建立对应的识别模型;步骤三:通过素材添加栏逐一对接展示命名素材内的CAD文件,基于识别模型对展示的命名素材中的图名进行识别,获得识别图名;步骤四:根据识别的图名进行文件名称拟定,将拟定的文件名称赋予对应的CAD文件;通过设置素材添加栏,实现对CAD图纸的批量命名,不再需要用户逐一添加需要进行命名的CAD图纸,并为素材添加栏设置对应的应用功能,实现与各种如CAD切图系统等现有CAD软件进行相互配合,具备智能化和自动化的命名能力。
Description
技术领域
本发明属于CAD文件命名技术领域,具体是一种基于NLP的文件命名方法。
背景技术
随着制图工具的快速发展,当前的图纸绘制已经极少采用人工的方式进行绘图,基本都是应用各种市面上的制图软件进行绘图,并可以进行图纸的格式转化,形成CAD图纸;目前一个设计图中往往包括大量的图纸,在进行应用过程中需要进行切图,由于一张CAD总图往往会分为数量众多的CAD图纸,每个分出的CAD图纸都需要进行重新命名,当前命名方法一般是根据识别图纸中的图名进行命名,但是该方法在针对同一用户大量的图纸命名过程中具有一定的缺陷,会出现不同文件命名相同的问题,如在建筑领域中的建筑图中,每个楼栋都包括一层,则图名为一层平面图,当利用现有的命名方法进行命名时,将会具有大量的文件名称为一层平面图的命名,因此,为了实现对CAD文件的精准命名,本发明提供了一种基于NLP的文件命名方法。
发明内容
为了解决上述方案存在的问题,本发明提供了一种基于NLP的文件命名方法。
本发明的目的可以通过以下技术方案实现:
一种基于NLP的文件命名方法,包括:
步骤一:设置素材添加栏,获取需要进行文件命名的命名素材;
进一步地,所述素材添加栏具有若干种应用功能,通过素材添加栏的应用场景和需求目标确定具有的应用功能。
进一步地,获取命名素材的方法包括:
将素材添加栏对接CAD切图系统,实时获取CAD切图系统输入到素材添加栏内的命名素材。
步骤二:基于NLP算法建立对应的识别模型;
步骤三:通过素材添加栏逐一对接展示命名素材内的CAD文件,基于识别模型对展示的命名素材中的图名进行识别,获得识别图名;
进一步地,命名素材内的CAD文件展示顺序为:
识别命名素材内的CAD文件,将识别的CAD文件分为若干个分类集,并打上对应的分类标签,基于各个分类集以及对应的分类标签确定分析项,对分析项进行排序,完成分析项的排序后获得第一序列,根据第一序列进行CAD文件的排序。
进一步地,对分析项进行排序的方法包括:
建立赋值模型,通过赋值模型对各分析项对应的数据进行分析,获得对应的序值和量值,根据优先值公式计算对应的优先值,将各分析项按照优先值的高低进行排序。
进一步地,优先值公式为:XP=b1×XZ+b2×LZ,其中b1、b2均为比例系数,取值范围为0<b1≤1,0<b2≤1,XZ为序值,LZ为量值。
步骤四:根据识别的图名进行文件名称拟定,将拟定的文件名称赋予对应的CAD文件。
进一步地,将命名完成的CAD文件从素材添加栏中剔除。
进一步地,根据识别的图名进行文件名称拟定的方法包括:
建立逐级分类明细表,根据逐级分类明细表设置不同分类组合下的命名方式以及各命名方式对应的适配范围,计算识别图名与各适配范围之间的相似度,将相似度最高的适配范围对应的命名方式标记为目标方式,根据目标方式获取CAD文件对应的关联数据,将获得的关联数据和图名按照目标方式进行命名。
与现有技术相比,本发明的有益效果是:
通过设置素材添加栏,实现对CAD图纸的批量命名,不再需要用户逐一添加需要进行命名的CAD图纸,并为素材添加栏设置对应的应用功能,实现与各种如CAD切图系统等现有CAD软件进行相互配合,具备智能化和自动化的命名能力,极大的降低用户的工作负担,降低重复劳动;通过利用NLP算法进行图名识别,再结合适配的命名方式进行命名,使得通过本方法命名出的文件名更加的具有区别性、条例性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明原理框图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种基于NLP的文件命名方法,包括:
步骤一:设置素材添加栏,获取需要进行文件命名的命名素材;
素材添加栏即为用于放出、传输等需要进行命名的图纸,素材添加栏可以根据实际场景需要,设置有适用不同文件识别、对接浏览的功能;即素材添加栏具有多种应用功能,根据素材添加栏的应用场景和需求目标确定需要哪些应用功能,具体通过人工的方式进行设置和建立。命名素材即单一CAD图纸。
如在一个实施例中,素材添加栏是通过用户手动上传需要命名的图纸文件,而上传的方式可以是文件夹、压缩文件等,则此时的素材添加栏可以自动打开或解压对应文件,显示文件夹里的全部CAD文件,再对对应的CAD软件浏览CAD文件内容,而该场景是对应CAD总图基于现有的切图方法分为单一的CAD图纸,通过用户统一将需要进行命名和调整命名的CAD文件进行上传到素材添加栏,其他单一内容的CAD图纸同样可以添加到素材添加栏中,用于实现大批量CAD文件的命名。
在另一个实施例中,根据需求不同,素材添加栏可以直接对应现有的CAD切图系统等相似系统,将CAD切图系统等输出的单一CAD图纸直接导入到素材添加栏中,形成CAD图纸处理循环。单一CAD图纸指的是CAD图纸中只包括一幅图纸的CAD图。
在其他实施例中,还可以通过其他各种方式向素材添加栏中导入命名素材。
对于素材添加栏的各种功能,利用现有技术均可实现,因此具有的功能实现方式不进行详细叙述。
通过设置素材添加栏,实现对CAD图纸的批量命名,不再需要用户逐一添加需要进行命名的CAD图纸,并为素材添加栏设置对应的应用功能,实现与各种如CAD切图系统等现有CAD软件进行相互配合,具备智能化和自动化的命名能力,极大的降低用户的工作负担,降低重复劳动。
步骤二:基于NLP算法建立对应的识别模型,所述识别模型用于识别命名素材中的图名;
识别模型主要是基于NLP算法,并结合图名中的场景语言需要进行适配,NLP算法在现有技术中已经有大量公开,主要包括分词(含词性标注)、实体识别和语义相似度模型。ASR识别转为文字后的文本,经过分词算法和实体识别算法的处理,比如将文本中的“一层平面图”等关键信息抽取出来,并填入对话槽中,与数据库中已存储的对应“一层平面图”进行相似度比对,确定识别的图名,即利用现有的NLP算法进行识别模型的建立,因此具体的建立方法在本发明中不进行详细叙述。
步骤三:通过素材添加栏逐一对接展示命名素材内的CAD文件,基于识别模型对展示的命名素材中的图名进行识别,获得识别图名;
通过素材添加栏打开其内的文件夹、压缩包等,显示文件内的若干个CAD文件,根据顺序逐一对接相应CAD软件打开CAD文件进行展示,识别模型识别展示的CAD图纸中的图名。
在一个实施例中,对应命名素材内的CAD文件展示顺序按照其文件内的顺序进行。
在另一个实施例中,因为直接按照原文件内的顺序进行展示,具有一定的缺陷性,因为各种排序方式的不同,可能会导致原顺序较为混乱,同一楼栋、区块、设备对应的多个图纸分布杂乱无章,不能对属于同类的多个图纸逐一分析,不利于后续的命名,因此,在本实施例中,针对命名素材内的图纸顺序进行智能生成,方法包括:
识别命名素材内的CAD文件,将识别的CAD文件按照是否属于同一来源进行分类,如同一楼栋、同一小区、同一结构等分类来源进行分类,获得若干个分类集,分类集是按照最小分类单位进行分类的,如同一小区内具有多栋楼,每栋楼又有若干个CAD文件,则楼栋即为最小分类单位,按照楼栋进行分类,在分类集上打上对应的分类标签,包括楼栋标签、小区标签、社区标签等,对于有的分类标签进行逐级标记,即体现的分类标签进行标签,没有体现的不进行标记,可以通过人工的方式设置各领域CAD图纸的逐级分类明细表,用于进行分类及标记;
对于分类集内的若干个CAD文件不进行重新排序,按照原顺序即可,降低数据分析量,本实施例针对的是各个分类集的排序;
根据各个分类集对应的分类标签确定分析项,对于不同分析目标,分析项不同,如当前命名素材包括三个小区图纸,每个小区具有四栋楼,每栋楼具有若干个CAD文件,对于小区内四个楼栋的排序,各楼栋即为分析项,对于小区的排序,各小区即为分析项;
从分析项对应的原顺序和CAD文件量、文件大小两个方面进行评估,通过人工的方式对大量的历史分析项进行排序,基于各个排序赋予原顺序对应的序值,并根据各分析项对应的分类名称设置对应的修正系数,基于分析项对应的CAD文件数量和文件内存大小设置对应的量值,基于上述人工设置的序值和量值整理建立对应的训练集,基于CNN网络或DNN网络建立对应的赋值模型,通过建立的训练集进行训练,因为神经网络为本领域现有技术,因此具体的建立和训练过程在本发明中不进行详细叙述,通过训练成功后的赋值模型对各分析项对应的数据进行分析,输出各分析项对应的序值各量值,根据优先值公式XP=b1×XZ+b2×LZ计算对应的优先值,其中b1、b2均为比例系数,取值范围为0<b1≤1,0<b2≤1,XZ为序值,LZ为量值,将各分析项按照优先值的高低进行排序,完成命名素材内各CAD文件的排序。
步骤四:根据识别的图名进行文件名称拟定,将拟定的文件名称赋予对应的CAD文件,将命名完成的CAD文件从素材添加栏中剔除。
获取逐级分类明细表,对于未进行智能排序的应用场景,按照上述方式建立对应的逐级分类明细表,根据获得的逐级分类明细表,通过人工的方式设置不同分类组合下的命名方式,在实际应用的过程中,用户可以根据个人命名习惯对由专家组拟定各命名方式进行调整,即根据各领域可能存在的各级分类的组合进行设置的,如小区名称+楼栋号+图名,小区编码+楼栋编码+图名等各种命名方式,因为在实际情况中,各种的各级分类组合数量并不是很多,因此,通过人工的方式进行设置命名方式更加的便利和适合;且在设置命名方式时,通过人工的方式为每个命名方式设置对应的适配范围,即在该范围内应用该命名方式更合适,具体的是参照图名进行匹配的;
根据识别的图名与各个命名方式对应的适配范围之间的相似度,从图名对应的领域、分类等角度计算对应的相似度,可以基于现有的相似度算法进行计算,识别相似度最高的适配范围对应的命名方式,标记为目标方式,根据目标方式获取对应的关联数据,关联数据即为按照目标方式进行命名需要的数据,如小区名称、楼栋名称、分类名称等,关联数据均为已有数据,可以进行相应的获取;进一步地,可以在素材添加栏中补充命名素材的各种关联数据获取功能,按照预设的模板获取相应的关联数据集,当需要使用相应数据时,可以从关联数据集中进行提取;将获得的关联数据和图名按照目标方式进行命名。
在其他实施例中,可以包括步骤二到四,基于步骤二到四直接应用到相应的CAD软件中,进行直接识别命名。
上述公式均是去除量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最接近真实情况的一个公式,公式中的预设参数和预设阈值由本领域的技术人员根据实际情况设定或者大量数据模拟获得。
以上实施例仅用以说明本发明的技术方法而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方法进行修改或等同替换,而不脱离本发明技术方法的精神和范围。
Claims (5)
1.一种基于NLP的文件命名方法,其特征在于,包括:
步骤一:设置素材添加栏,获取需要进行文件命名的命名素材;
步骤二:基于NLP算法建立对应的识别模型;
步骤三:通过素材添加栏逐一对接展示命名素材内的CAD文件,基于识别模型对展示的命名素材中的图名进行识别,获得识别图名;
步骤四:根据识别的图名进行文件名称拟定,将拟定的文件名称赋予对应的CAD文件;
命名素材内的CAD文件展示顺序为:
识别命名素材内的CAD文件,将识别的CAD文件分为若干个分类集,并打上对应的分类标签,基于各个分类集以及对应的分类标签确定分析项,对分析项进行排序,完成分析项的排序后获得第一序列,根据第一序列进行CAD文件的排序;
对分析项进行排序的方法包括:
建立赋值模型,通过赋值模型对各分析项对应的数据进行分析,获得对应的序值和量值,根据优先值公式计算对应的优先值,将各分析项按照优先值的高低进行排序;
优先值公式为:XP=b1×XZ+b2×LZ,其中b1、b2均为比例系数,取值范围为0<b1≤1,0<b2≤1,XZ为序值,LZ为量值。
2.根据权利要求1所述的一种基于NLP的文件命名方法,其特征在于,所述素材添加栏具有若干种应用功能,通过素材添加栏的应用场景和需求目标确定具有的应用功能。
3.根据权利要求2所述的一种基于NLP的文件命名方法,其特征在于,获取命名素材的方法包括:
将素材添加栏对接CAD切图系统,实时获取CAD切图系统输入到素材添加栏内的命名素材。
4.根据权利要求1所述的一种基于NLP的文件命名方法,其特征在于,步骤四中将命名完成的CAD文件从素材添加栏中剔除。
5.根据权利要求1所述的一种基于NLP的文件命名方法,其特征在于,根据识别的图名进行文件名称拟定的方法包括:
建立逐级分类明细表,根据逐级分类明细表设置不同分类组合下的命名方式以及各命名方式对应的适配范围,计算识别图名与各适配范围之间的相似度,将相似度最高的适配范围对应的命名方式标记为目标方式,根据目标方式获取CAD文件对应的关联数据,将获得的关联数据和图名按照目标方式进行命名。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310285524.9A CN116303287B (zh) | 2023-03-22 | 2023-03-22 | 一种基于nlp的文件命名方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310285524.9A CN116303287B (zh) | 2023-03-22 | 2023-03-22 | 一种基于nlp的文件命名方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116303287A CN116303287A (zh) | 2023-06-23 |
CN116303287B true CN116303287B (zh) | 2023-09-15 |
Family
ID=86825455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310285524.9A Active CN116303287B (zh) | 2023-03-22 | 2023-03-22 | 一种基于nlp的文件命名方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116303287B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113779681A (zh) * | 2021-09-16 | 2021-12-10 | 万翼科技有限公司 | 建筑模型建立方法及相关装置 |
CN115269633A (zh) * | 2022-07-28 | 2022-11-01 | 启明信息技术股份有限公司 | 一种基于cad图纸智能查询商品的方法 |
US11604925B1 (en) * | 2020-05-22 | 2023-03-14 | Amazon Technologies, Inc. | Architecture for gazetteer-augmented named entity recognition |
-
2023
- 2023-03-22 CN CN202310285524.9A patent/CN116303287B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11604925B1 (en) * | 2020-05-22 | 2023-03-14 | Amazon Technologies, Inc. | Architecture for gazetteer-augmented named entity recognition |
CN113779681A (zh) * | 2021-09-16 | 2021-12-10 | 万翼科技有限公司 | 建筑模型建立方法及相关装置 |
CN115269633A (zh) * | 2022-07-28 | 2022-11-01 | 启明信息技术股份有限公司 | 一种基于cad图纸智能查询商品的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116303287A (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107766371B (zh) | 一种文本信息分类方法及其装置 | |
CN113590850A (zh) | 多媒体数据的搜索方法、装置、设备及存储介质 | |
CN110489749B (zh) | 一种智能办公自动化系统的业务流程优化方法 | |
CN110516057B (zh) | 一种信访问题答复方法及装置 | |
CN109214642B (zh) | 一种建筑施工工序约束的自动抽取和分类方法及系统 | |
CN113627797B (zh) | 入职员工画像生成方法、装置、计算机设备及存储介质 | |
CN113722438A (zh) | 基于句向量模型的句向量生成方法、装置及计算机设备 | |
CN113112222A (zh) | 一种基于大数据分析的ofd版式文件的自动签章方法及系统 | |
CN113449698A (zh) | 纸质文档的自动化录入方法、系统、装置及存储介质 | |
CN112966486A (zh) | 一种工程量清单智能生成方法、装置、终端及存储介质 | |
CN112417996B (zh) | 工业图纸的信息处理方法、装置、电子设备和存储介质 | |
CN116303287B (zh) | 一种基于nlp的文件命名方法 | |
CN113806574A (zh) | 一种软硬件一体化的人工智能图像识别数据处理方法 | |
CN117176981A (zh) | 混剪视频的生成方法、装置、计算机设备和介质 | |
CN110362694A (zh) | 基于人工智能的文献数据检索方法、设备及可读存储介质 | |
CN110674263A (zh) | 一种模型构件文件自动分类的方法和装置 | |
CN112818689A (zh) | 一种实体识别方法、模型训练方法及装置 | |
CN113609833B (zh) | 文件的动态生成方法、装置、计算机设备及存储介质 | |
CN115203617A (zh) | 一种基于rpa的网页访问单按钮辅助输入系统 | |
CN114218437A (zh) | 自适应图片裁剪融合方法、系统、计算机设备及介质 | |
CN108763462B (zh) | 平行语句库的更新方法、设备及计算机可读存储介质 | |
CN113570427A (zh) | 一种提取识别线上或系统商品特征信息的系统 | |
CN112612841A (zh) | 一种知识抽取构建方法、装置、设备及存储介质 | |
CN111090723A (zh) | 一种基于知识图谱的电网安全生产内容推荐方法 | |
CN113536788B (zh) | 信息处理方法、装置、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |