CN113377952A - 水利水电工程质量验评电子文件归档档号自动生成方法 - Google Patents

水利水电工程质量验评电子文件归档档号自动生成方法 Download PDF

Info

Publication number
CN113377952A
CN113377952A CN202110580692.1A CN202110580692A CN113377952A CN 113377952 A CN113377952 A CN 113377952A CN 202110580692 A CN202110580692 A CN 202110580692A CN 113377952 A CN113377952 A CN 113377952A
Authority
CN
China
Prior art keywords
file
classification
case
engineering
numbers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110580692.1A
Other languages
English (en)
Other versions
CN113377952B (zh
Inventor
周剑
王立军
魏鹏帅
卞小草
张家成
魏小红
叶玲
黄康
华正阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changjiang Institute of Survey Planning Design and Research Co Ltd
Original Assignee
Changjiang Institute of Survey Planning Design and Research Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changjiang Institute of Survey Planning Design and Research Co Ltd filed Critical Changjiang Institute of Survey Planning Design and Research Co Ltd
Priority to CN202110580692.1A priority Critical patent/CN113377952B/zh
Publication of CN113377952A publication Critical patent/CN113377952A/zh
Application granted granted Critical
Publication of CN113377952B publication Critical patent/CN113377952B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/113Details of archiving
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种水利水电工程质量验评电子文件归档档号自动生成方法,包括以下步骤:接收外部输入的工程项目对应的全宗号,作为待编号的单个案卷的目录号的前两位;将数据库中该单个案卷下所有的单元工程名称代入干预中文命名实体识别模型,所述干预中文命名实体识别模型自动遍历每个单元工程名称并生成机组号或自编号作为该单个案卷目录号的后两位;将数据库中该单个案卷下所有的单元工程名称代入文本分类模型,所述文本分类模型自动遍历每个单元工程名称并生成分类号;调用案卷号管理器为该单个案卷分配唯一的案卷号;按照目录号、分类号、案卷号的顺序组合成为待编号的单个案卷的档号并存入数据库,其中一个档号只对应唯一的案卷。

Description

水利水电工程质量验评电子文件归档档号自动生成方法
技术领域
本发明属于信息化管理技术领域,具体涉及一种水利水电工程质量验评电子文件归档档号自动生成方法。
背景技术
大型水利水电工程建设项目文件归档时需要按照相关规范、制度进行组卷,工程竣工验收时的案卷体量庞大,依工程规模可达到几十万卷到几百万卷,由于工程参建方众多,案卷来源分散,为确保工程竣工验收的资料完整、条理清晰、结构合理,案卷档号的科学分发与管理极为重要。当前档号的分发管理多采用人工核发制度,当多参建多集中申请档号时效率低且容易出错。
水电工程质量验评项目文件形成环节与归档环节的文件分类一般不一致。如形成环节一般采用工程划分法进行分类,即文件按照单位工程、分部工程、分项工程、单元工程进行分类划分,以实现在管理环节按不同部位、工序进行分类展开及汇总的查询与管理;而在归档环节,一般需对照《水电企业档案分类表(6—9大类)》等规定进行项目文件分类,该分类规结构与质量验评文件形成环节的分类方案大不相同,导致档案工作人员在进行案卷整理时需花费较多时间思考两种分类的对应关系。考虑质量验评电子文件形成环节的经办人员对工程划分较为熟悉,对档案分类不甚了解,而归档环节的经办人员对档案分类较为熟悉,对工程划分不甚了解,传统人工分发档号的方式给质量验评业务人员及档案工作者都带来了较多困扰
发明内容
本发明的目的就是为了解决上述背景技术存在的不足,提供一种水利水电工程质量验评电子文件归档档号自动生成方法,实现了档号的自动分发管理。
本发明采用的技术方案是:一种水利水电工程质量验评电子文件归档档号自动生成方法,包括以下步骤:
A.接收外部输入的工程项目对应的全宗号,作为待编号的单个案卷的目录号的前两位;
B.将数据库中该单个案卷下所有的单元工程名称代入干预中文命名实体识别模型,所述干预中文命名实体识别模型自动遍历每个单元工程名称并生成机组号或自编号作为该单个案卷目录号的后两位,所述目录号为四位数;
C.将数据库中该单个案卷下所有的单元工程名称代入文本分类模型,所述文本分类模型自动遍历每个单元工程名称并生成分类号;
D.调用案卷号管理器为该单个案卷分配唯一的案卷号;
E.按照目录号、分类号、案卷号的顺序组合成为待编号的单个案卷的档号并存入数据库,其中一个档号只对应唯一的案卷。
上述技术方案中,所述步骤B中,当干预中文命名实体识别模型生成的案卷下各单元工程的机组号或自编号均一致时进入步骤C,当案卷下各单元工程的机组号或自编号不一致时报错并提醒用户重新组卷,再次执行步骤B。本发明避免了人工分配机组号或自编号时的耗时及错配,也规避了人工组卷时误将不同机组号或自编号的电子文件整编到一起的问题。
上述技术方案中,所述步骤C中,当文本分类模型生成的案卷下各单元工程的分类号均一致时进入步骤D,当案卷下各单元工程的分类号不一致时报错并提醒用户重新组卷,再次执行步骤C。本发明避免了人工分配分类号时的耗时及错配、不及时,也规避了人工组卷时误将不同分类号的电子文件整编到一起的问题。
上述技术方案中,所述中文命名实体识别模型的生成方法包括以下步骤:对工程项目中的单元工程的名称进行实体标注并制作训练数据集,将训练数据集带入经过预训练的中文命名实体识别模型中进行训练,形成针对相应实体识别对象的权值文件,得到装载工程实体名称词典的干预中文命名实体识别模型。
上述技术方案中,所述步骤B中,将待编号案卷下的单元工程名称遍历输入干预中文命名实体识别模型,所述干预中文命名实体识别模型自动遍历每个单元工程名称得到分析对象的预测标签集,并对上述预测标签集进行中文转换提取JZH或ZBH中文名,得到分析对象的机组号或自编号。
上述技术方案中,所述文本分类模型的生成方法包括以下步骤:按照《水电企业档案分类表(6—9大类)》档案分类号中的名称字符串接形成档案分类目录识别名,并与分类号关联存储到数据库;选择代表数量的单元工程名称、档案分类目录识别名、相似度布尔标签(0、1值)按照规范格式制作训练集;将上述训练集代入经过中文预训练的语言理解模型进行文本相似度学习,得到特征化的文本分类模型。
上述技术方案中,所述步骤C中,将待编号案卷下的单元工程名称遍历输入文本分类模型,文本分类模型自动遍历每个单元工程名称,并对每个输入的单元工程名称分别与所有的档案分类目录识别名进行相似度比对,得到最大相似度返回值对应的档案分类目录识别名;利用数据库关联查询得到每个单元工程名称对应的分类号。
上述技术方案中,案卷号管理器根据确定的“目录号”、“分类号”遍历数据库中的案卷号并升序排列为数组;检查数组中数值的连续性,若数组不连续,输出返回值为“最小断号处的案卷号+1”,若数组连续,输出返回值为“最大案卷号+1”;当系统触发案卷组合的解除操作时,案卷号管理器将同步删除对应案卷号。
本发明的有益效果是:利用技术手段保证档号连续且不重复,解决了电子文件形成环节分类与电子文件归档环节分类不一致的问题,综合利用中文命名实体识别模型、文本相似度分析模型实现档号的自动分发管理,提升了归档准确性、便利性,为质量验评与档案业务人员减轻了额外工作,帮助质量管理及档案管理人员全心关注各自的主要业务,符合水利水电建设工程质量验评及档案管理要求,利于水利水电工程质量验收工作的在线开展,便于质量验评电子文件后期的整编与归档工作。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的详细说明,便于清楚地了解本发明,但它们不对本发明构成限定。
如图1所示,本发明提供了一种水利水电工程质量验评电子文件归档档号自动生成方法,用户将多个单元工程组合为案卷,案卷组合的同时系统按照以下方法生成档号:
1.构建中文命名实体识别模型
(1)选择代表数量的单元工程,按照“IOBES”的序列标注方式,对单元工程名称进行“DW”(代指单位工程名称)、“FB”(代指分部工程名称)、“FX”(代指分项工程名称)、“DY”(代指单元工程名称)、“JZH”(代指机组号)、“ZBH”(代指自编号)六大实体标注,按照规范格式制作训练集。
(2)将上一步的训练集带入Lexical Analysis of Chinese(LAC)中文命名实体识别模型中进行定制训练,形成针对相应实体识别对象的权值文件,得到装载工程实体名称词典的干预LAC模型。
2.构建文本相似度分析模型
(1)将《水电企业档案分类表(6—9大类)》档案分类号中的“三级类目”与“四级类目”的名称字符串接形成“档案分类目录识别名”,并与分类号关联存储到数据库。
(2)选择代表数量的单元工程名称、档案分类目录识别名、相似度布尔标签(0、1值)按照规范格式制作训练集。
(3)将上述训练集代入经过中文预训练的Bidirectional EncoderRepresentations from Transformers(BERT)语言理解模型进行文本相似度学习,得到特征化的BERT模型。
3.获取档号全宗号
接收外部输入的工程项目对应的全宗号,作为案卷目录号的前两位。
4.获取档号机组号或自编号
(1)将待分析案卷下的单元工程名称遍历输入上述干预LAC模型,得到分析对象的预测标签集。
(2)对上述预测标签集进行中文转换提取JZH或ZBH中文名即得到分析对象的机组号或自编号,作为案卷目录号的后两位。
(3)当案卷下各单元工程名称机组号或自编号一致时进入下一步,当案卷下分类号不一致时报错提醒用户重新组卷。
5.获取档号分类号
(1)将待分析案卷下的单元工程名称遍历输入上述特征化的BERT模型,模型对每个输入的单元工程名称分别与所有的档案分类目录识别名进行相似度比对,得到最大相似度返回值对应的档案分类目录识别名。
(2)利用数据库关联查询即可得到每个单元工程名称对应的分类号。
(3)当案卷下各单元工程名称分类号一致时进入下一步,当案卷下分类号不一致时报错提醒用户重新组卷。
6.获取档号案卷号
调用案卷号管理器为案卷生成唯一的案卷号。案卷号管理器根据输入的“目录号”、“分类号”遍历数据库中的案卷号并升序排列为数组;检查数组中数值的连续性,若数组不连续,输出返回值为“最小断号处的案卷号+1”,若数组连续,输出返回值为“最大案卷号+1”;当系统触发案卷组合的解除操作时,案卷号管理器将同步删除对应案卷号。
7.档号组装
按照规范要求的格式将“目录号”、“分类号”、“案卷号”组合为“档号”并存入数据库。
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (8)

1.一种水利水电工程质量验评电子文件归档档号自动生成方法,其特征在于包括以下步骤:
A.接收外部输入的工程项目对应的全宗号,作为待编号的单个案卷的目录号的前两位;
B.将数据库中该单个案卷下所有的单元工程名称代入干预中文命名实体识别模型,所述干预中文命名实体识别模型自动遍历每个单元工程名称并生成机组号或自编号作为该单个案卷目录号的后两位,所述目录号为四位数;
C.将数据库中该单个案卷下所有的单元工程名称代入文本分类模型,所述文本分类模型自动遍历每个单元工程名称并生成分类号;
D.调用案卷号管理器为该单个案卷分配唯一的案卷号;
E.按照目录号、分类号、案卷号的顺序组合成为待编号的单个案卷的档号并存入数据库,其中一个档号只对应唯一的案卷。
2.根据权利要求1所述的一种水利水电工程质量验评电子文件归档档号自动生成方法,其特征在于:所述步骤B中,当干预中文命名实体识别模型生成的案卷下各单元工程的机组号或自编号均一致时进入步骤C,当案卷下各单元工程的机组号或自编号不一致时报错并提醒用户重新组卷,再次执行步骤B。
3.根据权利要求1所述的一种水利水电工程质量验评电子文件归档档号自动生成方法,其特征在于:所述步骤C中,当文本分类模型生成的案卷下各单元工程的分类号均一致时进入步骤D,当案卷下各单元工程的分类号不一致时报错并提醒用户重新组卷,再次执行步骤C。
4.根据权利要求1所述的一种水利水电工程质量验评电子文件归档档号自动生成方法,其特征在于:所述中文命名实体识别模型的生成方法包括以下步骤:对工程项目中的单元工程的名称进行实体标注并制作训练数据集,将训练数据集带入经过预训练的中文命名实体识别模型中进行训练,形成针对相应实体识别对象的权值文件,得到装载工程实体名称词典的干预中文命名实体识别模型。
5.根据权利要求1所述的一种水利水电工程质量验评电子文件归档档号自动生成方法,其特征在于所述步骤B中,将待编号案卷下的单元工程名称遍历输入干预中文命名实体识别模型,所述干预中文命名实体识别模型自动遍历每个单元工程名称得到分析对象的预测标签集,并对上述预测标签集进行中文转换提取JZH或ZBH中文名,得到分析对象的机组号或自编号。
6.根据权利要求1所述的一种水利水电工程质量验评电子文件归档档号自动生成方法,其特征在于:所述文本分类模型的生成方法包括以下步骤:按照《水电企业档案分类表(6—9大类)》档案分类号中的名称字符串接形成档案分类目录识别名,并与分类号关联存储到数据库;选择代表数量的单元工程名称、档案分类目录识别名、相似度布尔标签按照规范格式制作训练集;将上述训练集代入经过中文预训练的语言理解模型进行文本相似度学习,得到特征化的文本分类模型。
7.根据权利要求6所述的一种水利水电工程质量验评电子文件归档档号自动生成方法,其特征在于:所述步骤C中,将待编号案卷下的单元工程名称遍历输入文本分类模型,文本分类模型自动遍历每个单元工程名称,并对每个输入的单元工程名称分别与所有的档案分类目录识别名进行相似度比对,得到最大相似度返回值对应的档案分类目录识别名;利用数据库关联查询得到每个单元工程名称对应的分类号。
8.根据权利要求1所述的一种水利水电工程质量验评电子文件归档档号自动生成方法,其特征在于:案卷号管理器根据确定的“目录号”、“分类号”遍历数据库中的案卷号并升序排列为数组;检查数组中数值的连续性,若数组不连续,输出返回值为“最小断号处的案卷号+1”,若数组连续,输出返回值为“最大案卷号+1”;当系统触发案卷组合的解除操作时,案卷号管理器将同步删除对应案卷号。
CN202110580692.1A 2021-05-26 2021-05-26 水利水电工程质量验评电子文件归档档号自动生成方法 Active CN113377952B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110580692.1A CN113377952B (zh) 2021-05-26 2021-05-26 水利水电工程质量验评电子文件归档档号自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110580692.1A CN113377952B (zh) 2021-05-26 2021-05-26 水利水电工程质量验评电子文件归档档号自动生成方法

Publications (2)

Publication Number Publication Date
CN113377952A true CN113377952A (zh) 2021-09-10
CN113377952B CN113377952B (zh) 2023-03-28

Family

ID=77572084

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110580692.1A Active CN113377952B (zh) 2021-05-26 2021-05-26 水利水电工程质量验评电子文件归档档号自动生成方法

Country Status (1)

Country Link
CN (1) CN113377952B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117591706A (zh) * 2024-01-19 2024-02-23 深圳市金政软件技术有限公司 档号的生成方法、装置和终端设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11203314A (ja) * 1998-01-14 1999-07-30 Mitsubishi Electric Corp 文書番号自動採番システム
CN110659367A (zh) * 2019-10-12 2020-01-07 中国科学技术信息研究所 文本分类号的确定方法、装置以及电子设备
CN111597150A (zh) * 2020-05-09 2020-08-28 云南驰宏锌锗股份有限公司 一种自动化归档整理信息系统
CN112487150A (zh) * 2020-12-11 2021-03-12 航天信息股份有限公司 档案管理方法、系统、存储介质及电子设备
CN112800949A (zh) * 2021-01-27 2021-05-14 刘培育 基于人工智能的纸质档案的数字化处理方法、系统及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11203314A (ja) * 1998-01-14 1999-07-30 Mitsubishi Electric Corp 文書番号自動採番システム
CN110659367A (zh) * 2019-10-12 2020-01-07 中国科学技术信息研究所 文本分类号的确定方法、装置以及电子设备
CN111597150A (zh) * 2020-05-09 2020-08-28 云南驰宏锌锗股份有限公司 一种自动化归档整理信息系统
CN112487150A (zh) * 2020-12-11 2021-03-12 航天信息股份有限公司 档案管理方法、系统、存储介质及电子设备
CN112800949A (zh) * 2021-01-27 2021-05-14 刘培育 基于人工智能的纸质档案的数字化处理方法、系统及设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
叶健: "电力工程建设总承包项目档案管理的探讨与实践", 《电力勘测设计》 *
姚丽屏: "浅谈流域水电开发企业档案分类与档号编制", 《四川档案》 *
王显静等: "试论水电建设项目档案分类与档号编制", 《西北水电》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117591706A (zh) * 2024-01-19 2024-02-23 深圳市金政软件技术有限公司 档号的生成方法、装置和终端设备
CN117591706B (zh) * 2024-01-19 2024-04-26 深圳市金政软件技术有限公司 档号的生成方法、装置和终端设备

Also Published As

Publication number Publication date
CN113377952B (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
CN105677864A (zh) 电网调度结构化数据的检索方法及装置
CN103092631B (zh) 一种数据库应用系统开发平台及开发方法
CN101894058B (zh) 针对自动测试系统的测试覆盖性自动分析方法及其装置
CN102629263A (zh) 对企业间交互的业务数据进行格式转换的方法及系统
CN111914066B (zh) 多源数据库全局搜索方法及系统
CN106126528A (zh) 一种基于平台模型的小卫星测试基础信息生成方法
CN109471929A (zh) 一种基于图谱匹配进行设备维修记录语义搜索的方法
CN112100200A (zh) 一种基于维度模型自动化生成sql语句的方法
CN110263941A (zh) 设备维修方法及装置
CN114218218A (zh) 基于数据仓库的数据处理方法、装置、设备及存储介质
CN113377952B (zh) 水利水电工程质量验评电子文件归档档号自动生成方法
CN105843605B (zh) 一种数据映射方法及装置
CN109582286A (zh) 基于Freemarker技术的数据规范性校验方法及其装置
CN110633267B (zh) 一种可支持多业务行使报表功能的方法及系统
CN116303641B (zh) 一种支持多数据源可视化配置的实验室报告管理方法
CN111913962A (zh) 一种多维度年度明细资金计划编制系统及方法
CN112395343B (zh) 一种基于dsg的字段变更数据采集抽取方法
CN111625616B (zh) 一种能够海量存储的企业级的数据管理系统
CN110597899B (zh) 项目经费管理方法及系统
CN113255310A (zh) 一种医学检验lims系统中检验报告可视化配置方法
CN114862233A (zh) 智能决策方法和智能决策系统
CN111159865B (zh) 一种全堆芯热工水力子通道模拟方法
CN114428814A (zh) 一种大数据集不同尺度聚合自助分析建模方法
CN112132534B (zh) 一种武器装备全寿命周期综合保障数据的管理方法及系统
Langefors Control structure and formalized information analysis in an organization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant