CN113191123A - 工程设计档案信息的标引方法、装置、计算机设备 - Google Patents
工程设计档案信息的标引方法、装置、计算机设备 Download PDFInfo
- Publication number
- CN113191123A CN113191123A CN202110377278.0A CN202110377278A CN113191123A CN 113191123 A CN113191123 A CN 113191123A CN 202110377278 A CN202110377278 A CN 202110377278A CN 113191123 A CN113191123 A CN 113191123A
- Authority
- CN
- China
- Prior art keywords
- subject
- engineering design
- information
- activity field
- activity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种工程设计档案信息的标引方法、装置、计算机设备和存储介质。所述方法包括:对待标引的工程设计档案信息的内容特征进行分析,得到与所述工程设计档案信息对应的主题特征;根据所述主题特征,从预设的主题词表中查找匹配的主题词;所述主题词表是根据工程设计文件中的第一活动字段和第二活动字段构建的;其中,所述第一活动字段用于标识工程设计文件的类型;所述第二活动字段用于标识每个分项的细节信息;当查找到与所述主题特征匹配的主题词时,利用所述主题词对所述工程设计档案信息进行标引,并生成与所述工程设计档案信息对应标引信息。采用本方法能够有效提高工程设计档案信息的检索效率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种工程设计档案信息的标引方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,互联网的出现给现代生活带来了极大的便利,越来越多的企业可以通过使用系统平台在线对多种档案信息进行管理。档案成为企业重要的信息资源,同时也是重要的智力资产。尤其涉及核电工程等领域的工程设计档案信息显得更为重要。
然而,目前的工程设计档案信息的标引方式中,通常依托专业标引人员对不同领域的工程设计档案信息进行标引工作,受标引工作人员个人专业知识、经验和主观影响,不同的工作人员可能选择不同的主题词,导致标引的主题词不统一,主题词之间缺少系统化的关联性,使得用户在检索工程设计档案时无法快速的查找到所需档案,尤其在大批量查找档案的情况下,无法实现快速的检索档案,容易导致工程设计档案信息的检索效率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高工程设计档案信息检索效率的工程设计档案信息的标引方法、装置、计算机设备和存储介质。
一种工程设计档案信息的标引方法,所述方法包括:
对待标引的工程设计档案信息的内容特征进行分析,得到与所述工程设计档案信息对应的主题特征;
根据所述主题特征,从预设的主题词表中查找匹配的主题词;所述主题词表是根据工程设计文件中的第一活动字段和第二活动字段构建的;其中,所述第一活动字段用于标识工程设计文件的类型;所述第二活动字段用于标识每个分项的细节信息;
当查找到与所述主题特征匹配的主题词时,利用所述主题词对所述工程设计档案信息进行标引,并生成与所述工程设计档案信息对应标引信息。
在其中一个实施例中,所述第一活动字段和第二活动字段的提取方式,包括:
根据预设的第一活动和第二活动的编号互查表,从第一活动编号表、第二活动编号表中提取第一活动字段和第二活动字段;所述编号互查表中包含所述第一活动字段和所述第二活动字段之间的关联关系。
在其中一个实施例中,所述预设的主题词表包括三级类目信息;所述类目信息是根据工程设计文件中的第一活动字段和第二活动字段构建的;
所述预设的主题词表的构建方式,包括:
将所述工程设计文件中的第一活动字段作为一级类目主题词,以及将第二活动字段作为二级类目主题词;所述第二活动字段中包括系统名称和子项名称;
将所述系统名称作为所述二级类目主题词的补充字段,将所述子项名称作为三级类目主题词,生成具有分级结构的主题词表;其中,所述一级类目主题词、二级类目主题词以及三级类目主题词之间具有关联关系。
在其中一个实施例中,在所述根据所述主题特征,从预设的主题词表中查找匹配的主题词之后,所述方法还包括:
当未查找到与所述主题特征匹配的主题词时,选取两个或两个以上的主题词进行组配标引。
在其中一个实施例中,所述组配标引至少包括交叉组配和方面组配;
所述选取两个或两个以上的主题词进行组配标引,包括:
按照预设的组配优先级顺序,选取两个或两个以上的主题词进行组配标引。
在其中一个实施例中,在所述根据所述主题特征,从预设的主题词表中查找匹配的主题词之后,所述方法还包括:
当未查找到与所述主题特征匹配的主题词时,选取上一层级的主题词进行靠词标引。
一种工程设计档案信息的标引装置,所述装置包括:
分析模块,用于对待标引的工程设计档案信息的内容特征进行分析,得到与所述工程设计档案信息对应的主题特征;
查找模块,用于根据所述主题特征,从预设的主题词表中查找匹配的主题词;所述主题词表是根据工程设计文件中的第一活动字段和第二活动字段构建的;其中,所述第一活动字段用于标识工程设计文件的类型;所述第二活动字段用于标识每个分项的细节信息;
生成模块,用于当查找到与所述主题特征匹配的主题词时,利用所述主题词对所述工程设计档案信息进行标引,并生成与所述工程设计档案信息对应标引信息。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
对待标引的工程设计档案信息的内容特征进行分析,得到与所述工程设计档案信息对应的主题特征;
根据所述主题特征,从预设的主题词表中查找匹配的主题词;所述主题词表是根据工程设计文件中的第一活动字段和第二活动字段构建的;其中,所述第一活动字段用于标识工程设计文件的类型;所述第二活动字段用于标识每个分项的细节信息;
当查找到与所述主题特征匹配的主题词时,利用所述主题词对所述工程设计档案信息进行标引,并生成与所述工程设计档案信息对应标引信息。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
对待标引的工程设计档案信息的内容特征进行分析,得到与所述工程设计档案信息对应的主题特征;
根据所述主题特征,从预设的主题词表中查找匹配的主题词;所述主题词表是根据工程设计文件中的第一活动字段和第二活动字段构建的;其中,所述第一活动字段用于标识工程设计文件的类型;所述第二活动字段用于标识每个分项的细节信息;
当查找到与所述主题特征匹配的主题词时,利用所述主题词对所述工程设计档案信息进行标引,并生成与所述工程设计档案信息对应标引信息。
上述工程设计档案信息的标引方法、装置、计算机设备和存储介质,通过对待标引的工程设计档案信息的内容特征进行分析,得到与工程设计档案信息对应的主题特征,并根据主题特征,从预设的主题词表中查找匹配的主题词。主题词表是根据工程设计文件中的第一活动字段和第二活动字段构建的。其中,第一活动字段用于标识工程设计文件的类型,第二活动字段用于标识每个分项的细节信息。当查找到与主题特征匹配的主题词时,利用主题词对工程设计档案信息进行标引,并生成与工程设计档案信息对应标引信息。由此使得,通过提取待标引工程设计档案的主题特征,利用已有的工程文件编码里的字段构建与工程设计档案相匹配的的主题词表,能够充分的体现工程设计档案之间的关联性和系统性,从而实现对工程设计档案进行高效精准的标引,有效提升了工程设计档案检索的效率。
附图说明
图1为一个实施例中工程设计档案信息的标引方法的流程示意图;
图2为一个实施例中预设的主题词表的构建方式步骤的流程示意图;
图3为一个实施例中工程设计档案信息的标引装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种工程设计档案信息的标引方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤102,对待标引的工程设计档案信息的内容特征进行分析,得到与工程设计档案信息对应的主题特征。
随着计算机技术的发展和成熟,越来越多的企业可以通过使用系统业务平台在线对多种业务档案进行管理。档案成为企业重要的信息资源,同时也是企业重要的智力资产。各个企业可以通过采用统一的业务信息管理平台,将企业内部以及企业外部供应链上所有的资源与信息进行统一的管理,这种集成能够消除企业内部因部门分割造成的各种信息隔阂与信息孤岛,例如,在服务器上可以部署多个不同功能的系统,可以包括电子档案管理系统。电子档案管理系统中存储了多种类型的档案信息,可以为用户提供档案信息的查询服务。本申请中以核电工程设计行业的档案管理系统为例进行说明。可以理解的是,本申请中的档案管理系统包括但不限于核电工程设计行业,还可以为其他行业领域。
具体的,终端可以获取用户在工程设计界面的菜单条目栏中选取的待标引的工程设计档案信息,或者终端也可以获取用户在工程设计界面中实时上传的待标引的工程设计档案信息,本申请中对获取待标引的工程设计档案信息的方式不做限定。终端可以对待标引的工程设计档案信息的内容特征进行分析,得到与工程设计档案信息对应的主题特征。其中,档案是指国家机构、社会组织和个人在社会活动中直接形成的有价值的各种历史文献。档案信息是指档案的内容及表达档案内容的文字、图形、声音等形式特征的信息,设计档案信息是指与工程的设计项目相关的电子档案信息,设计档案信息中可以包括设计成果信息和设计过程信息等。例如,用户可以在工程设计界面中的菜单条目栏中选取名称为1JPI001RJ的设计文件。主题特征是指对档案的内容特征进行分析,并根据档案所反映的中心内容和主题因素,提取得到的主题特征。例如,终端可以利用预先训练好的提取模型,对待标引的工程设计档案信息的内容特征进行分析,得到与工程设计档案信息对应的主题特征,主题特征可以为主题概念即主题词。可以理解的是,主题特征的提取方式包括但不限于采用预先训练好的提取模型的方式,还可以为利用函数、SQL语句等其他方式。
步骤104,根据主题特征,从预设的主题词表中查找匹配的主题词,主题词表是根据工程设计文件中的第一活动字段和第二活动字段构建的;其中,第一活动字段用于标识工程设计文件的类型,第二活动字段用于标识每个分项的细节信息。
终端对待标引的工程设计档案信息的内容特征进行分析,得到与工程设计档案信息对应的主题特征之后,终端可以根据主题特征,从预设的主题词表中查找匹配的主题词,主题词表是根据工程设计文件中的第一活动字段和第二活动字段构建的。其中,第一活动字段用于标识工程设计文件的类型,第二活动字段用于标识每个分项的细节信息。主题词表是指由反映档案内容的主题词及其词间关系组成的规范化词表,是将档案、标引人员或用户的自然语言转换成规范化语言的一种术语控制工具。第一活动字段和第二活动字段为工程设计文件编码中的字段,例如,以核电工程文件为例进行说明,第一活动字段可以为核电工程设计文件编码中主要活动字段,主要活动字段可以包括主要活动编号、主要活动名称以及主要活动说明。例如,编号为00的主要活动名称为工程前期工作,说明字段中的内容为工程注册、可行性研究以及征地等字段信息。第二活动字段可以为核电工程设计文件编码中分项活动字段。分项活动字段可以包括同一个主要活动中包含的不同的分项活动字段。例如,编号为00的主要活动(工程前期工作)对应的分项活动字段可以包括12工程注册申请/批准字段。
具体的,以核电工程文件为例进行说明。终端可以根据得到的主题特征,从预设的主题词表中查找匹配的主题词,其中,预设的主题词表是根据核电工程设计文件中的主要活动字段和分项活动字段构建的,主要活动字段用于标识工程设计文件的类型,分项活动字段用于标识每个分项的细节信息。
步骤106,当查找到与主题特征匹配的主题词时,利用主题词对工程设计档案信息进行标引,并生成与工程设计档案信息对应标引信息。
终端根据主题特征,从预设的主题词表中查找匹配的主题词,当终端查找到与主题特征匹配的主题词时,利用主题词对工程设计档案信息进行标引,并生成与工程设计档案信息对应标引信息。其中,标引是指通过标记指引人们方便、快捷地找到所需要的信息。即通过对文献的分析,选用确切的检索标识(类号、标题词、叙词、关键词、人名、地名等),用以反映该文献的内容的过程。主要指选用检索语言词或自然语言词反映文献主题内容,并以之作为检索标识的过程。标引信息是指生成的具有检索标识作用的信息,例如,标引信息可以包括标签信息、关键词信息等。此外,当终端未查找到与主题特征匹配的主题词时,终端可以根据预设规则,采用其他方式对工程设计档案信息进行标引,并生成与工程设计档案信息对应标引信息。
传统的工程设计档案信息的标引方式中,由于依托专业标引人员对不同领域的工程设计档案信息进行标引工作,受标引工作人员个人专业知识、经验和主观影响,不同的工作人员可能选择不同的主题词,导致标引的主题词不统一,主题词之间缺少系统化的关联性,使得用户在检索工程设计档案时无法快速、精准的查找到所需档案。
而本实施例中,通过对待标引的工程设计档案信息的内容特征进行分析,得到与工程设计档案信息对应的主题特征,并根据主题特征,从预设的主题词表中查找匹配的主题词。主题词表是根据工程设计文件中的第一活动字段和第二活动字段构建的。其中,第一活动字段用于标识工程设计文件的类型,第二活动字段用于标识每个分项的细节信息。当查找到与主题特征匹配的主题词时,利用主题词对工程设计档案信息进行标引,并生成与工程设计档案信息对应标引信息。由此使得,通过提取待标引工程设计档案的主题特征,利用已有的工程文件编码里的字段构建与工程设计档案相匹配的的主题词表,实现对工程设计档案进行高效精准的标引,有效提升了工程设计档案检索的效率。
在一个实施例中,第一活动字段和第二活动字段的提取方式的步骤,包括
根据预设的第一活动和第二活动的编号互查表,从第一活动编号表、第二活动编号表中提取第一活动字段和第二活动字段,编号互查表中包含第一活动字段和第二活动字段之间的关联关系。
终端可以根据预设的第一活动和第二活动的编号互查表,从第一活动编号表、第二活动编号表中提取第一活动字段和第二活动字段,编号互查表中包含第一活动字段和第二活动字段之间的关联关系。编号互查表可以是预先设置好的具有关联关系的数据。具体的,以核电工程设计文件为例进行说明。终端对待标引的核电工程设计文件的内容特征进行分析,得到与核电工程设计文件对应的主题特征之后,终端可以根据得到的主题特征,从预设的主题词表中查找匹配的主题词,其中,预设的主题词表是根据核电工程设计文件中的主要活动字段和分项活动字段构建的,主要活动字段用于标识核电工程设计文件的类型,分项活动字段用于标识每个分项的细节信息。即核电工程设计文件编码中有主要活动字段和分项活动字段。主要活动字段标明文件的类型,示例见表1。每个主要活动又细分为分项活动,标明有关厂房、系统、设备、部件等细节信息,示例见表2,主要活动和分项活动之间可以通过互查表进行互相查询得到,示例见表3。主题词表中的主题词可以来源于表1和表2中的内容,表1和表2中的内容是核电工程文件常见的或者特有的高频主题词。可以理解的是,主题词表中的字段包括但不限于表1和表2中的字段。
表1(主要活动编号表)
表2(分项活动编号表)(表T00-主要活动00-工程前期工作之分项活动编号)
0… | 总论 |
1… | 工程注册 |
11… | 工程方案和研究 |
12… | 工程注册申请/批准 |
2… | 初步可行性研究 |
21… | 初步可行性研究报告及补充报告 |
表3(主要活动和分项活动编号互查表)
本实施例中,通过利用预先设置的编号互查表,从主要活动编号表、分项活动编号表中提取主要活动字段和分项活动字段,即利用已有的工程文件编码里的主要活动、分项活动项和子项等建立与核电工程设计档案相匹配的的主题词表,实现对核电工程设计档案进行高效精准的标引,并为后续的档案快速、准确和全面的检索打下坚实的基础,即通过专业匹配度高的主题词表实现快速、精准和成套的检索档案,极大提升档案检索的效率、准确性和完整性。
在一个实施例中,如图2所示,预设的主题词表包括三级类目信息,类目信息是根据工程设计文件中的第一活动字段和第二活动字段构建的,预设的主题词表的构建方式的步骤,包括:
步骤202,将工程设计文件中的第一活动字段作为一级类目主题词,以及将第二活动字段作为二级类目主题词,第二活动字段中包括系统名称和子项名称。
步骤204,将系统名称作为二级类目主题词的补充字段,将子项名称作为三级类目主题词,生成具有分级结构的主题词表;其中,一级类目主题词、二级类目主题词以及三级类目主题词之间具有关联关系。
预设的主题词表包括三级类目信息,类目信息是根据工程设计文件中的第一活动字段和第二活动字段构建的,在对待标引的工程设计档案信息的内容特征进行分析之前,终端可以预先构建主题词表。具体的,终端可以将工程设计文件中的第一活动字段作为一级类目主题词,以及将第二活动字段作为二级类目主题词,第二活动字段中包括系统名称和子项名称。进一步的,终端可以将系统名称作为二级类目主题词的补充字段,将子项名称作为三级类目主题词,生成具有分级结构的主题词表。其中,一级类目主题词、二级类目主题词以及三级类目主题词之间具有关联关系。可以理解的是,一级类目主题词、二级类目主题词以及三级类目主题词之间的关联关系可以是层级关系,也可以是属分关系,还可以是其他关联关系,本实施中不做具体限制。
以核电工程设计文件为例进行说明。每个项目的核电工程设计文件均会编制对应的系统清单和子项清单,系统清单和子项清单全面且详细的列出项目涉及的系统名称和子项名称,见表4和表5示例。
表4(系统清单)
表5(子项清单)
上述系统清单及子项清单是工程设计过程中由专业设计人员编制的,可以将系统清单和子项清单预先存储在本地文件中,以便终端快速查找和读取数据。其中,系统清单是实现工程中某个功能的系统的代码和名称的清单,比如表4中“DSP”代表“循环水泵站应急照明系统”。子项清单是工程细分后,被细分部分的代码和名称的清单,比如表5中“TX”代表“备用变压器平台”。
具体的,终端可以将核电工程文件编码中主要活动作为一级类目主题词来源,分项活动作为二级类目主题词来源,将系统清单中的系统名称作为二级类目主题词的补充,将子项清单中子项名称作为三级类目主题词的来源,生成核电工程设计档案主题词表。其中,核电工程设计档案主题词表中的一、二、三级主题词是属分关系,主要活动、分项活动和系统名称、子项三者基本符合属分关系。由此,基于核电工程文件编码里的主要活动、分项活动,设计了基于核电站系统、子项的主题词表构建方案,能够充分的体现核电工程设计档案之间的关联性和系统性,实现基于核电工程设计专业特点的档案标引,从而有效提升了核电工程设计档案利用的查全率和查准率。
在一个实施例中,在根据主题特征,从预设的主题词表中查找匹配的主题词之后,该方法还包括,选取两个或两个以上的主题词进行组配标引的步骤,包括:
当未查找到与主题特征匹配的主题词时,选取两个或两个以上的主题词进行组配标引。
终端对待标引的工程设计档案信息的内容特征进行分析,得到与工程设计档案信息对应的主题特征之后,终端可以根据主题特征,从预设的主题词表中查找匹配的主题词。具体的,终端可以对待标引的工程设计档案信息的内容特征进行主题分析,即终端可以按照预设的主题特征提取规则,对待标引的工程设计档案的内容特征进行分析,提取对应的主题概念。例如,终端可以利用预设神经网络模型对待标引的工程设计档案的内容特征进行分析,提取对应的主题特征。提取主题特征的原则包括主题特征应是档案中论述的问题,具有实际检索意义,同时能全面、准确地表达档案主题。
进一步的,终端可以根据主题特征,从预设的主题词表中查找匹配的主题词。当终端未查找到与主题特征匹配的主题词时,终端可以选取两个或两个以上的主题词进行组配标引。终端进行组配标引时,可以按照预设的组配优先级顺序,选取两个或两个以上的主题词进行组配标引。由此使得,通过利用构建的与核电工程设计档案匹配度高的主题词表快速选取对应的主题词,实现快速准确的选词标引。
在其中一个实施例中,组配标引至少包括交叉组配和方面组配,选取两个或两个以上的主题词进行组配标引的步骤,包括:
按照预设的组配优先级顺序,选取两个或两个以上的主题词进行组配标引。
终端可以根据主题特征,从预设的主题词表中查找匹配的主题词。当终端未查找到与主题特征匹配的主题词时,终端可以选取两个或两个以上的主题词进行组配标引。终端进行组配标引时,可以按照预设的组配优先级顺序,选取两个或两个以上的主题词进行组配标引。例如,预设的优先级顺序为交叉组配的优先级高于方面组配,即优先进行交叉组配,然后再考虑方面组配。终端按照预设的组配优先级顺序,选取与待标引的工程设计档案主题特征关系最密切、最相似的主题词进行组配,并利用组配后的主题词对工程设计档案进行标引,生成与工程设计档案对应标引信息。其中,终端进行组配标引时,不能越级组配,即不能用其上位或下位主题词进行组配标引。由此使得,通过利用构建的与核电工程设计档案匹配度高的主题词表快速选取对应的主题词,实现快速准确的选词标引。
在一个实施例中,在根据主题特征,从预设的主题词表中查找匹配的主题词之后,该方法还包括,选取上一层级的主题词进行靠词标引的步骤,包括:
当未查找到与主题特征匹配的主题词时,选取上一层级的主题词进行靠词标引。
终端可以根据主题特征,从预设的主题词表中查找匹配的主题词。当终端未查找到与主题特征匹配的主题词时,终端可以选取上一层级的主题词进行靠词标引。即当某一主题概念在主题词表中査不到专指的主题词,也无法通过组配标引来选取对应的主题词时,则终端可以采用靠词标引。即终端根据预设标引规则,用上位概念主题词或者近义词进行靠词标引。例如,《应急指挥与行动中心平面图》中,应急指挥与行动中心属于“构筑物”,可以用“构筑物”进行靠词标引,但是不应使用越级上位主题词“土建”进行标引。其中,上位、下位主题词示例见表6。
表6【表T42-主要活动42-土建工程(设计与施工)之分项活动编号】
本实施例中,通过将已有的工程文件编码里的主要活动、分项活动、系统和子项等与核电工程设计专业匹配度高的字段作为主题词表构建的来源,侯建层次清晰的三级类目的核电工程设计档案主题词表,从而能够通过专业匹配度高的主题词表实现快速准确的选词标引。
应该理解的是,虽然图1-2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-2中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种工程设计档案信息的标引装置,包括:分析模块302、查找模块304和生成模块306,其中:
分析模块302,用于对待标引的工程设计档案信息的内容特征进行分析,得到与工程设计档案信息对应的主题特征。
查找模块304,用于根据主题特征,从预设的主题词表中查找匹配的主题词;主题词表是根据工程设计文件中的第一活动字段和第二活动字段构建的;其中,第一活动字段用于标识工程设计文件的类型;第二活动字段用于标识每个分项的细节信息。
生成模块306,用于当查找到与主题特征匹配的主题词时,利用主题词对工程设计档案信息进行标引,并生成与工程设计档案信息对应标引信息。
在一个实施例中,该装置还包括:提取模块。
提取模块用于根据预设的第一活动和第二活动的编号互查表,从第一活动编号表、第二活动编号表中提取第一活动字段和第二活动字段;编号互查表中包含第一活动字段和第二活动字段之间的关联关系。
在一个实施例中,生成模块还用于将工程设计文件中的第一活动字段作为一级类目主题词,以及将第二活动字段作为二级类目主题词,第二活动字段中包括系统名称和子项名称;将系统名称作为二级类目主题词的补充字段,将子项名称作为三级类目主题词,生成具有分级结构的主题词表;其中,一级类目主题词、二级类目主题词以及三级类目主题词之间具有关联关系。
在一个实施例中,该装置还包括:标引模块。
标引模块用于当未查找到与主题特征匹配的主题词时,选取两个或两个以上的主题词进行组配标引。
在一个实施例中,标引模块还用于按照预设的组配优先级顺序,选取两个或两个以上的主题词进行组配标引。
在一个实施例中,标引模块还用于当未查找到与主题特征匹配的主题词时,选取上一层级的主题词进行靠词标引。
关于工程设计档案信息的标引装置的具体限定可以参见上文中对于工程设计档案信息的标引方法的限定,在此不再赘述。上述工程设计档案信息的标引装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种工程设计档案信息的标引方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述各个方法实施例的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种工程设计档案信息的标引方法,所述方法包括:
对待标引的工程设计档案信息的内容特征进行分析,得到与所述工程设计档案信息对应的主题特征;
根据所述主题特征,从预设的主题词表中查找匹配的主题词;所述主题词表是根据工程设计文件中的第一活动字段和第二活动字段构建的;其中,所述第一活动字段用于标识工程设计文件的类型;所述第二活动字段用于标识每个分项的细节信息;
当查找到与所述主题特征匹配的主题词时,利用所述主题词对所述工程设计档案信息进行标引,并生成与所述工程设计档案信息对应标引信息。
2.根据权利要求1所述的方法,其特征在于,所述第一活动字段和第二活动字段的提取方式,包括:
根据预设的第一活动和第二活动的编号互查表,从第一活动编号表、第二活动编号表中提取第一活动字段和第二活动字段;所述编号互查表中包含所述第一活动字段和所述第二活动字段之间的关联关系。
3.根据权利要求1所述的方法,其特征在于,所述预设的主题词表包括三级类目信息;所述类目信息是根据工程设计文件中的第一活动字段和第二活动字段构建的;
所述预设的主题词表的构建方式,包括:
将所述工程设计文件中的第一活动字段作为一级类目主题词,以及将第二活动字段作为二级类目主题词;所述第二活动字段中包括系统名称和子项名称;
将所述系统名称作为所述二级类目主题词的补充字段,将所述子项名称作为三级类目主题词,生成具有分级结构的主题词表;其中,所述一级类目主题词、二级类目主题词以及三级类目主题词之间具有关联关系。
4.根据权利要求1所述的方法,其特征在于,在所述根据所述主题特征,从预设的主题词表中查找匹配的主题词之后,所述方法还包括:
当未查找到与所述主题特征匹配的主题词时,选取两个或两个以上的主题词进行组配标引。
5.根据权利要求4所述的方法,其特征在于,所述组配标引至少包括交叉组配和方面组配;
所述选取两个或两个以上的主题词进行组配标引,包括:
按照预设的组配优先级顺序,选取两个或两个以上的主题词进行组配标引。
6.根据权利要求1所述的方法,其特征在于,在所述根据所述主题特征,从预设的主题词表中查找匹配的主题词之后,所述方法还包括:
当未查找到与所述主题特征匹配的主题词时,选取上一层级的主题词进行靠词标引。
7.一种工程设计档案信息的标引装置,其特征在于,所述装置包括:
分析模块,用于对待标引的工程设计档案信息的内容特征进行分析,得到与所述工程设计档案信息对应的主题特征;
查找模块,用于根据所述主题特征,从预设的主题词表中查找匹配的主题词;所述主题词表是根据工程设计文件中的第一活动字段和第二活动字段构建的;其中,所述第一活动字段用于标识工程设计文件的类型;所述第二活动字段用于标识每个分项的细节信息;
生成模块,用于当查找到与所述主题特征匹配的主题词时,利用所述主题词对所述工程设计档案信息进行标引,并生成与所述工程设计档案信息对应标引信息。
8.根据权利要求7所述的工程设计档案信息的标引装置,其特征在于,所述装置还包括:
提取模块,用于根据预设的第一活动和第二活动的编号互查表,从第一活动编号表、第二活动编号表中提取第一活动字段和第二活动字段;所述编号互查表中包含所述第一活动字段和所述第二活动字段之间的关联关系。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110377278.0A CN113191123A (zh) | 2021-04-08 | 2021-04-08 | 工程设计档案信息的标引方法、装置、计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110377278.0A CN113191123A (zh) | 2021-04-08 | 2021-04-08 | 工程设计档案信息的标引方法、装置、计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113191123A true CN113191123A (zh) | 2021-07-30 |
Family
ID=76975118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110377278.0A Pending CN113191123A (zh) | 2021-04-08 | 2021-04-08 | 工程设计档案信息的标引方法、装置、计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113191123A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577579A (zh) * | 2013-11-08 | 2014-02-12 | 南方电网科学研究院有限责任公司 | 基于用户潜在需求的资源推荐方法及系统 |
CN103838732A (zh) * | 2012-11-21 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种生活服务领域垂直搜索引擎 |
CN105159936A (zh) * | 2015-08-06 | 2015-12-16 | 广州供电局有限公司 | 文件分类装置及方法 |
CN109582963A (zh) * | 2018-11-29 | 2019-04-05 | 福建南威软件有限公司 | 一种基于极限学习机的档案自动分类方法 |
CN109918471A (zh) * | 2019-01-28 | 2019-06-21 | 平安科技(深圳)有限公司 | 文件归档方法、装置、计算机设备及存储介质 |
CN110532229A (zh) * | 2019-06-14 | 2019-12-03 | 平安科技(深圳)有限公司 | 证据文件检索方法、装置、计算机设备和存储介质 |
CN110717038A (zh) * | 2019-09-17 | 2020-01-21 | 腾讯科技(深圳)有限公司 | 对象分类方法及装置 |
CN110728135A (zh) * | 2019-10-12 | 2020-01-24 | 中国科学技术信息研究所 | 文本主题标引方法、装置、电子设备及计算机存储介质 |
CN110909122A (zh) * | 2019-10-10 | 2020-03-24 | 重庆金融资产交易所有限责任公司 | 一种信息处理方法及相关设备 |
CN111581355A (zh) * | 2020-05-13 | 2020-08-25 | 杭州安恒信息技术股份有限公司 | 威胁情报的主题检测方法、装置和计算机存储介质 |
-
2021
- 2021-04-08 CN CN202110377278.0A patent/CN113191123A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103838732A (zh) * | 2012-11-21 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种生活服务领域垂直搜索引擎 |
CN103577579A (zh) * | 2013-11-08 | 2014-02-12 | 南方电网科学研究院有限责任公司 | 基于用户潜在需求的资源推荐方法及系统 |
CN105159936A (zh) * | 2015-08-06 | 2015-12-16 | 广州供电局有限公司 | 文件分类装置及方法 |
CN109582963A (zh) * | 2018-11-29 | 2019-04-05 | 福建南威软件有限公司 | 一种基于极限学习机的档案自动分类方法 |
CN109918471A (zh) * | 2019-01-28 | 2019-06-21 | 平安科技(深圳)有限公司 | 文件归档方法、装置、计算机设备及存储介质 |
CN110532229A (zh) * | 2019-06-14 | 2019-12-03 | 平安科技(深圳)有限公司 | 证据文件检索方法、装置、计算机设备和存储介质 |
CN110717038A (zh) * | 2019-09-17 | 2020-01-21 | 腾讯科技(深圳)有限公司 | 对象分类方法及装置 |
CN110909122A (zh) * | 2019-10-10 | 2020-03-24 | 重庆金融资产交易所有限责任公司 | 一种信息处理方法及相关设备 |
CN110728135A (zh) * | 2019-10-12 | 2020-01-24 | 中国科学技术信息研究所 | 文本主题标引方法、装置、电子设备及计算机存储介质 |
CN111581355A (zh) * | 2020-05-13 | 2020-08-25 | 杭州安恒信息技术股份有限公司 | 威胁情报的主题检测方法、装置和计算机存储介质 |
Non-Patent Citations (1)
Title |
---|
辽宁省档案科学技术研究所: "档案文件主题标引浅说", 兰台世界, no. 01, pages 34 - 37 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108959433B (zh) | 一种从软件项目数据中提取知识图谱并问答的方法与系统 | |
US10325017B2 (en) | System and method for contextual resume search and retrieval based on information derived from the resume repository | |
CN111125343A (zh) | 适用于人岗匹配推荐系统的文本解析方法及装置 | |
CN113342842A (zh) | 基于计量知识的语义查询方法、装置和计算机设备 | |
Wang et al. | Enhancing spatial and textual analysis with EUPEG: An extensible and unified platform for evaluating geoparsers | |
CN111061679B (zh) | 一种基于rete和drools规则的科技创新政策速配的方法和系统 | |
WO2016200667A1 (en) | Identifying relationships using information extracted from documents | |
Wu et al. | Manufacturing process similarity measurement model and application based on process constituent elements | |
RU2386166C2 (ru) | Способ и система организации и функционирования базы данных нормативной документации | |
CN107748748A (zh) | 水利水电技术标准全文检索系统 | |
CN103150632A (zh) | 基于水利云平台的防汛防旱简报生成系统的构建方法 | |
CN113626571A (zh) | 答句生成方法、装置、计算机设备和存储介质 | |
CN110717014B (zh) | 一种本体知识库动态构建方法 | |
KR20240020166A (ko) | Esg 보조 툴을 이용하여 정형화된 esg 데이터로 기계학습 모델을 학습하는 방법 및 기계학습 모델로 자동완성된 esg 문서를 생성하는 서비스 서버 | |
CN101334793B (zh) | 一种自动识别需求依赖关系的方法 | |
CN113191123A (zh) | 工程设计档案信息的标引方法、装置、计算机设备 | |
CN113656579B (zh) | 文本分类方法、装置、设备及介质 | |
CN115495545A (zh) | 一种电网运行全景模型检索方法及电子设备、存储介质 | |
Brennan et al. | Publishing social sciences datasets as linked data: a political violence case study | |
CN115221337A (zh) | 数据编织处理方法、装置、电子设备及可读存储介质 | |
CN113064924A (zh) | 一种核电大数据经验检索与推送方法 | |
Khider et al. | Social business process model recommender: An MDE approach | |
CN112507129A (zh) | 配电网作业文件的内容变动处理方法及相关设备 | |
Vitório et al. | Ulysses-RFSQ: A novel method to improve legal information retrieval based on relevance feedback | |
Al Qital | Digital Management on Green Economy: A Review Using R Indexed by Dimensions. ai |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |