CN116562304B - 基于人工智能和多维语义理解的档案智能开放鉴定方法 - Google Patents
基于人工智能和多维语义理解的档案智能开放鉴定方法 Download PDFInfo
- Publication number
- CN116562304B CN116562304B CN202310819299.2A CN202310819299A CN116562304B CN 116562304 B CN116562304 B CN 116562304B CN 202310819299 A CN202310819299 A CN 202310819299A CN 116562304 B CN116562304 B CN 116562304B
- Authority
- CN
- China
- Prior art keywords
- information
- file
- archive
- identified
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 15
- 238000011156 evaluation Methods 0.000 claims abstract description 81
- 230000007246 mechanism Effects 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 238000003860 storage Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 claims description 3
- 238000011161 development Methods 0.000 claims description 3
- 230000018109 developmental process Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种基于人工智能和多维语义理解的档案智能开放鉴定方法,包括:获取待鉴定档案信息,对所述待鉴定档案信息进行预处理;对档案进行预鉴定,得到预鉴定信息;基于自注意力机制对待鉴定档案信息进行特征提取,得到待鉴定档案特征信息;将待鉴定档案特征信息和待鉴定档案信息导入多维语义分析模型进行语义分析,得到语义分析结果信息;进行档案价值鉴定,得到价值鉴定结果信息;进行档案开放程度评估,得到档案开放程度评估信息,并根据档案开放程度评估信息设置不同查看权限。通过多维语义分析和特征提取,对待鉴定档案进行全面的语义理解和价值鉴定,提高档案的管理效率和利用价值,同时确保档案的安全和合理利用。
Description
技术领域
本发明涉及档案鉴定技术领域,尤其涉及一种基于人工智能和多维语义理解的档案智能开放鉴定方法。
背景技术
在当今信息快速交流的时代,各种机构和组织产生了大量的档案,这些档案包含了丰富的信息,对于研究、决策和历史追溯具有重要的价值。然而,由于档案数量的庞大且分布在不同的系统或部门中,许多档案往往难以利用和获取,给档案管理和利用带来了很大的挑战。
传统的档案鉴定方法主要依赖人工的方式进行,依赖于档案管理人员的经验和规则进行鉴定和分类,不可避免的存在主观性和一致性的问题,同时较难理解和梳理鉴定档案内容的关联关系,导致档案的鉴定结果各有不同。如何鉴定出档案的真实价值和重要程度是重要问题。
发明内容
本发明克服了现有技术的缺陷,提出了一种基于人工智能和多维语义理解的档案智能开放鉴定方法,其重要目的在于准确的鉴定档案的真实价值和重要程度,提高重要档案的鉴定准确性。
为实现上述目的本发明提供了一种基于人工智能和多维语义理解的档案智能开放鉴定方法,包括:
获取待鉴定档案信息,对所述待鉴定档案信息进行预处理;
根据档案来源信息和档案物理特征信息对档案进行预鉴定,得到预鉴定信息;
基于自注意力机制对待鉴定档案信息进行特征提取,得到待鉴定档案特征信息;
将待鉴定档案特征信息和待鉴定档案信息导入多维语义分析模型进行语义分析,得到语义分析结果信息;
结合语义分析结果信息、待鉴定档案特征信息和待鉴定档案信息进行档案价值鉴定,得到价值鉴定结果信息;
进行档案开放程度评估,得到档案开放程度评估信息,并根据档案开放程度评估信息设置不同查看权限。
本方案中,所述获取待鉴定档案信息,对所述待鉴定档案信息进行预处理,具体为:
对待鉴定档案信息进行数字化处理、分词处理并去除特殊字符,将待鉴定档案信息转换成文本形式;
待鉴定档案信息包括:档案文本信息、档案建立时间信息、档案使用信息、档案来源信息、档案物理特征信息;
对所述待鉴定档案信息进行文本清洗和归一化处理。
本方案中,所述根据档案来源信息和档案物理特征信息对档案进行预鉴定,得到预鉴定信息,具体为:
建立鉴定数据库,存储各种用于分析和鉴定的信息数据;
通过来源鉴定数据集对档案来源信息和档案物理特征信息进行相似度计算,得到相似度计算值;
将所述相似度计算值与预设阈值进行判断,得到预鉴定信息;
通过预鉴定信息判断待鉴定档案信息的来源,筛除来源不正常的档案。
本方案中,所述建立鉴定数据库,存储各种用于分析和鉴定的信息数据,还包括:
基于大数据检索获取各种机关和机构的档案编写特征信息,包括印章信息、水印信息、地址信息、编号信息和负责人信息,构建来源鉴定数据集;
获取历史档案鉴定高频关键词信息,构建特征标签数据集;
获取历史档案价值鉴定的实例档案特征信息,建立价值鉴定参考数据集;
获取不同开放程度的档案的实例档案信息,建立档案开放程度评估数据集;
基于来源数据集、特征标签数据集、价值鉴定参考数据集和档案开放程度评估数据集建立鉴定数据库。
本方案中,所述基于自注意力机制对待鉴定档案信息进行特征提取,得到待鉴定档案特征信息,具体为:
基于自注意力机制结合特征标签数据集计算待鉴定档案信息的注意力分数;
通过注意力分数排序表对待鉴定档案信息进行划分,得到按注意力分数进行划分的待鉴定档案信息;
将所述按注意力分数进行划分的待鉴定档案信息作为待鉴定档案的特征信息,得到待鉴定档案特征信息;
待鉴定档案信息包括:词语特征信息、句法特征信息、语义特征信息。
本方案中,所述通过注意力分数排序表对待鉴定档案信息进行划分,得到按注意力分数进行划分的待鉴定档案信息,还包括:
基于注意力机制结合特征标签数据集对待鉴定档案信息进行相似度计算,计算待鉴定档案信息中的档案文本信息与特征标签数据集的相似度值;
将所述相似度值与预设阈值进行判断,判断是否为待鉴档案的特征标签;
若相似度值大于预设阈值,则为待鉴定档案的特征标签;
若相似度值小于预设阈值,则继续与下一特征标签进行相似度计算;
预设多个阈值,按照预设阈值对相似度值进行划分和排序,将所述相似度值作为待鉴定档案信息的注意力分数,得到注意力分数排序表;
通过注意力分数排序表待鉴定档案信息进行划分。
本方案中,所述将待鉴定档案特征信息和待鉴定档案信息导入多维语义分析模型进行语义分析,得到语义分析结果信息,具体为:
构建多维语义分析模型,对所述多维语义分析模型进行深度的学习和训练,得到符合期望的多维语义分析模型;
将待鉴定档案特征信息和待鉴定档案信息导入多维语义分析模型进行语义分析,得到语义分析结果信息;
通过待鉴定档案特征信息中的词语特征信息、句法特征信息和语义特征信息分析待鉴定档案信息的结构和内容。
本方案中,所述进行档案价值鉴定,得到价值鉴定结果信息,具体为:
通过待鉴定档案信息中的档案建立时间信息、档案使用信息、档案来源信息和档案物理特征信息鉴定判断待鉴定档案信息的第一价值,得到第一价值鉴定信息;
通过语义分析结果信息和待鉴定档案特征信息鉴定判断待鉴定档案信息的第二价值,得到第二价值鉴定信息;
结合第一价值鉴定信息和第二价值鉴定信息得到价值鉴定结果信息;
根据价值鉴定结果信息对待鉴定档案信息进行综合评估,得到档案保存期限信息。
本方案中,所述根据价值鉴定结果信息对待鉴定档案信息进行综合评估,得到档案保存期限信息,还包括:
预设三类档案保存期限,为所述三类档案保存期限分别设置不同的价值评估判断阈值;
将第一价值鉴定信息与待鉴定档案特征信息分别与价值鉴定参考数据集进行对比,获取相似度,利用所述相似度与价值评估判断阈值进行综合评估得到第一价值评估结果信息;
将第二价值鉴定信息与待鉴定档案特征信息分别与价值鉴定参考数据集进行对比,获取相似度,利用所述相似度与价值评估判断阈值进行综合评估得到第二价值评估结果信息。
预设的三类档案保存期限分别为A类、B类和C类,A类为保存10年、B类为保存30年、C类为永久保存;
将第一价值评估结果信息和第二价值评估结果信息分别与判断阈值进行判断计算,得到第一价值档案保存期限信息和第二价值档案保存期限信息;
对所述第一价值档案保存期限信息和所述第二价值档案保存期限信息进行计算,得到档案保存期限信息;
其中所述档案保存期限信息的具体计算公式为:
;
式中,为档案保存期限信息、/>为第一价值档案保存期限信息、/>为第二价值档案保存期限信息。
本方案中,所述进行档案开放程度评估,得到档案开放程度评估信息,并根据档案开放程度评估信息设置不同查看权限,具体为:
获取价值鉴定结果信息、待鉴定档案特征信息和档案开放程度评估数据集;
将价值鉴定结果信息和待鉴定档案特征信息与档案开放程度评估数据集进行对比计算,得到档案开放程度评估信息;
根据档案开发程度评估信息对档案信息进行加密,并设置不同查看权限。
本发明公开了一种基于人工智能和多维语义理解的档案智能开放鉴定方法,包括:获取待鉴定档案信息,对所述待鉴定档案信息进行预处理;对档案进行预鉴定,得到预鉴定信息;基于自注意力机制对待鉴定档案信息进行特征提取,得到待鉴定档案特征信息;将待鉴定档案特征信息和待鉴定档案信息导入多维语义分析模型进行语义分析,得到语义分析结果信息;进行档案价值鉴定,得到价值鉴定结果信息;进行档案开放程度评估,得到档案开放程度评估信息,并根据档案开放程度评估信息设置不同查看权限。通过多维语义分析和特征提取,对待鉴定档案进行全面的语义理解和价值鉴定,提高档案的管理效率和利用价值,同时确保档案的安全和合理利用。
附图说明
为了更清楚地说明本发明实施例或示例性中的技术方案,下面将对实施例或示例性描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以按照这些附图示出的获得其他的附图。
图1为本发明一实施例提供的一种基于人工智能和多维语义理解的档案智能开放鉴定方法流程图;
图2为本发明一实施例提供的鉴定档案价值的流程图;
图3为本发明一实施例提供的鉴定档案保存期限的流程图;
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1为本发明一实施例提供的一种基于人工智能和多维语义理解的档案智能开放鉴定方法流程图;
如图1所示,本发明提供的一种基于人工智能和多维语义理解的方案智能开放鉴定方法流程图,包括:
S102,获取待鉴定档案信息,对所述待鉴定档案信息进行预处理;
对待鉴定档案信息进行数字化处理、分词处理并去除特殊字符,将待鉴定档案信息转换成文本形式;
待鉴定档案信息包括:档案文本信息、档案建立时间信息、档案使用信息、档案来源信息、档案物理特征信息;
对所述待鉴定档案信息进行文本清洗和归一化处理。
S104,根据档案来源信息和档案物理特征信息对档案进行预鉴定,得到预鉴定信息;
建立鉴定数据库,存储各种用于分析和鉴定的信息数据;
通过来源鉴定数据集对档案来源信息和档案物理特征信息进行相似度计算,得到相似度计算值;
将所述相似度计算值与预设阈值进行判断,得到预鉴定信息;
通过预鉴定信息判断待鉴定档案信息的来源,筛除来源不正常的档案。
进一步的,所述建立鉴定数据库,存储各种用于分析和鉴定的信息数据,还包括:基于大数据检索获取各种机关和机构的档案编写特征信息,包括印章信息、水印信息、地址信息、编号信息和负责人信息,构建来源鉴定数据集;获取历史档案鉴定高频关键词信息,构建特征标签数据集;获取历史档案价值鉴定的实例档案特征信息,建立价值鉴定参考数据集;获取不同开放程度的档案的实例档案信息,建立档案开放程度评估数据集;基于来源数据集、特征标签数据集、价值鉴定参考数据集和档案开放程度评估数据集建立鉴定数据库。
S106,基于自注意力机制对待鉴定档案信息进行特征提取,得到待鉴定档案特征信息;
基于自注意力机制结合特征标签数据集计算待鉴定档案信息的注意力分数;
通过注意力分数排序表对待鉴定档案信息进行划分,得到按注意力分数进行划分的待鉴定档案信息;
将所述按注意力分数进行划分的待鉴定档案信息作为待鉴定档案的特征信息,得到待鉴定档案特征信息;
待鉴定档案信息包括:词语特征信息、句法特征信息、语义特征信息。
进一步的,所述通过注意力分数排序表对待鉴定档案信息进行划分,得到按注意力分数进行划分的待鉴定档案信息,还包括:基于注意力机制结合特征标签数据集对待鉴定档案信息进行相似度计算,计算待鉴定档案信息中的档案文本信息与特征标签数据集的相似度值;将所述相似度值与预设阈值进行判断,判断是否为待鉴档案的特征标签;若相似度值大于预设阈值,则为待鉴定档案的特征标签;若相似度值小于预设阈值,则继续与下一特征标签进行相似度计算;预设多个阈值,按照预设阈值对相似度值进行划分和排序,将所述相似度值作为待鉴定档案信息的注意力分数,得到注意力分数排序表;通过注意力分数排序表待鉴定档案信息进行划分。
S108,将待鉴定档案特征信息和待鉴定档案信息导入多维语义分析模型进行语义分析,得到语义分析结果信息;
构建多维语义分析模型,对所述多维语义分析模型进行深度的学习和训练,得到符合期望的多维语义分析模型;
将待鉴定档案特征信息和待鉴定档案信息导入多维语义分析模型进行语义分析,得到语义分析结果信息;
通过待鉴定档案特征信息中的词语特征信息、句法特征信息和语义特征信息分析待鉴定档案信息的结构和内容。
进一步的,获取待鉴定视频档案信息、待鉴定视频档案来源信息和待鉴定视频档案使用信息,对获取的信息进行预处理;对待鉴定档案视频信息进行划分,得到多个视频单元;分别提取各视频单元的特征要素包括图像特征、音频特征和文本特征,得到各视频单元特征要素信息,对各视频单元进行结构化描述;对各视频单元进行语义关系标注,根据语义关系标注建立;基于RDF三元组描述框架对各视频单元进行语义关系标注,并赋予各视频单元的唯一标识符;通过所述各视频单元特征要素信息和所述唯一标识符进行多维关联链接处理,形成档案关联数据网络;根据所述档案关联数据网络对各视频单元进行语义聚合操作,按照各视频单元的相关性进行划分,得到分类视频单元信息;根据分类视频单元信息待鉴定视频档案来源信息和待鉴定视频档案使用信息对待鉴定视频档案信息进行价值鉴定和开放程度评估;
需要说明的是,通过将待鉴定视频档案信息划分成多个视频单元,对各视频单元进行语义标注和特征要素提取,形成档案关联数据网络后再进行语义聚合操作,结构化了待鉴定视频档案信息,同时细化了待鉴定视频档案的内容,更加明确的了解待鉴定视频档案信息。通过对待鉴定视频档案信息进行多维语义分析、语义关系标注和关联链接处理,为视频档案的管理、利用和分享提供了更准确和智能化的支持,提高了档案的管理效率和价值利用。
S110,结合语义分析结果信息、待鉴定档案特征信息和待鉴定档案信息进行档案价值鉴定,得到价值鉴定结果信息;
通过待鉴定档案信息中的档案建立时间信息、档案使用信息、档案来源信息和档案物理特征信息鉴定判断待鉴定档案信息的第一价值,得到第一价值鉴定信息;
通过语义分析结果信息和待鉴定档案特征信息鉴定判断待鉴定档案信息的第二价值,得到第二价值鉴定信息;
结合第一价值鉴定信息和第二价值鉴定信息得到价值鉴定结果信息;
根据价值鉴定结果信息对待鉴定档案信息进行综合评估,得到档案保存期限信息。
进一步的,所述根据价值鉴定结果信息对待鉴定档案信息进行综合评估,还包括:预设三类档案保存期限,为所述三类档案保存期限分别设置不同的价值评估判断阈值;将第一价值鉴定信息与待鉴定档案特征信息分别与价值鉴定参考数据集进行对比,获取相似度,利用所述相似度与价值评估判断阈值进行综合评估得到第一价值评估结果信息;将第二价值鉴定信息与待鉴定档案特征信息分别与价值鉴定参考数据集进行对比,获取相似度,利用所述相似度与价值评估判断阈值进行综合评估得到第二价值评估结果信息;
需要说明的是,将第一价值鉴定信息和第二价值鉴定信息分别与价值鉴定数据集进行相似度计算,得到第一价值相似度和第二价值相似度;预设若干个价值评估判断阈值,将所述第一价值相似度和第二价值相似度分别与价值评估判断阈值进行判断,得到第一价值评估结果信息和第二价值评估结果信息;
需要说明的是,第一价值评估结果信息和第二价值评估结果信息包括第一价值重要程度评估信息和第二价值重要程度评估信息。
进一步的,所述得到档案保存期限信息,还包括:预设的三类档案保存期限分别为A类、B类和C类,A类为保存10年、B类为保存30年、C类为永久保存;将第一价值评估结果信息和第二价值评估结果信息分别与判断阈值进行判断计算,得到第一价值档案保存期限信息和第二价值档案保存期限信息;对所述第一价值档案保存期限信息和所述第二价值档案保存期限信息进行计算,得到档案保存期限信息;其中所述档案保存期限信息的具体计算公式为:
;
式中,为档案保存期限信息、/>为第一价值档案保存期限信息、/>为第二价值档案保存期限信息。
进一步的,分别为三类档案保存期限设定不同的判断阈值,每类档案保存期限判断阈值包括第一价值档案保存期限判断阈值和第二价值档案保存期限判断阈值;将第一价值评估结果信息和第二价值评估结果信息分别与各类档案保存期限判断阈值进行判断,得到第一价值档案保存期限信息和第二价值档案保存期限信息;若第一价值评估结果信息或第二价值评估结果信息大于三类档案保存期限中对应的档案保存期限判断阈值,则得到对应的第一价值档案保存期限信息或第二价值档案保存期限信息;若第一价值评估结果信息或第二价值评估结果信息小于所有档案期限判断阈值,则得到第一价值档案保存期限信息或第二价值档案保存期限信息为A类档案保存期限。
需要说明的是,基于本发明预设的档案保存期限中C类档案为永久保存,不为一个具体的数值或者数字,所以进行档案保存期限计算时,可以令A类档案保存期限代表数值“1”、B类档案保存期限代表数值“2”、C类档案保存期限代表数值“3”,便于计算得出待鉴定档案的档案保存期限。在档案保存期限的计算过程中,得到含有小数的计算值时,采用四舍五入的估算法则对含有小数的计算值进行取整,便于判断得出待鉴定档案的保存期限。
S112,进行档案开放程度评估,得到档案开放程度评估信息,并根据档案开放程度评估信息设置不同查看权限。
获取价值鉴定结果信息、待鉴定档案特征信息和档案开放程度评估数据集;
将价值鉴定结果信息和待鉴定档案特征信息与档案开放程度评估数据集进行对比计算,得到档案开放程度评估信息;
根据档案开发程度评估信息对档案信息进行加密,并设置不同查看权限。
进一步的,结合预鉴定信息、语义分析结果信息、价值鉴定结果信息、档案保存期限信息和档案开放程度评估信息生成档案鉴定报告;档案鉴定报告包括待鉴定档案的来源鉴定结果、语义分析结果、价值鉴定结果、档案保存期限、档案查看权限和档案开放程度信息。
进一步的,获取档案检索用户信息;根据档案检索用户信息赋予相应的检索权限和查阅权限,并根据档案检索用户的历史档案检索信息生成档案检索偏好模块;获取检索用户的历史检索档案偏好信息,生成用户检索偏好画像;通过用户检索偏好画像结合所述历史检索偏好信息生成推荐检索档案信息;获取检索用户的实时检索交互信息,根据检索用户的实时检索交互信息对所述推荐检索档案信息进行排序,得到最佳推荐检索档案信息;将所述最佳推荐检索档案信息融合至所述档案检索偏好模块;获取检索用户最新检索交互信息,提取所述最新检索交互信息中的档案特征,得到最新检索档案特征信息;通过所述最新检索档案特征信息更新档案检索用户的历史检索档案偏好信息。
需要说明的是,根据档案鉴定报告可以在极短时间内了解待鉴定档案的基本信息和内容,便于档案管理人员管理和了解待鉴定档案,同时根据档案鉴定报告的预鉴定信息、语义分析结果信息和价值鉴定结果信息进行复核鉴定,更加准确的确定待鉴定档案的保存方式及时间,提高了档案管理的准确性和档案的价值利用。
需要说明的是,本发明通过多维语义分析和档案价值鉴定,综合考虑多个因素对待鉴定档案进行鉴定,提高对档案鉴定的准确性和全面性。通过对待鉴定档案进行多维语义分析和特征提取,深度理解和分析待鉴定档案的内容,可以更为准确的对待鉴定档案进行价值鉴定。通过对待鉴定档案进行根据开放程度评估,灵活设置不同的查看权限,保护档案的安全性和隐私性。
图2为本发明一实施例提供的鉴定档案价值的流程图;
如图2所示,本发明一实施例提供了鉴定档案价值的流程图,包括:
S202,获取待鉴定档案信息、语义分析结果信息、待鉴定档案特征信息;
S204,通过待鉴定档案信息得到第一价值鉴定信息;
通过待鉴定档案信息中的档案建立时间信息、档案使用信息、档案来源信息和档案物理特征信息鉴定判断待鉴定档案信息的第一价值,得到第一价值鉴定信息。
S206,通过语义分析结果信息和待鉴定档案特征信息得到第二价值鉴定信息;
通过语义分析结果信息和待鉴定档案特征信息鉴定判断待鉴定档案信息的第二价值,得到第二价值鉴定信息。
S208,结合第一价值鉴定信息和第二价值鉴定信息得到价值鉴定结果信息;
需要说明的是,档案的第一价值是待鉴定档案对档案来源机关的价值,档案的第二价值是待鉴定档案对社会或其他人、事、物的价值;通过多维语义理解的语义分析结果及待鉴定档案特征信息,对待鉴定档案信息进行分析和理解,更加准确的了解档案的内在价值,通过鉴定档案的双重价值,对档案的保密和保存工作给予更充足有力的参考数据,便于档案的利用和管理。
图3为本发明一实施例提供的鉴定档案保存期限的流程图;
如图3所示,本发明一实施例提供了鉴定档案保存期限的流程图,包括:
S302,获取价值鉴定结果信息和待鉴定档案特征信息;
需要说明的是,价值鉴定结果信息包括第一价值鉴定信息和第二价值鉴定信息。
S304,结合价值鉴定数据集对待鉴定档案进行综合评估;
进一步的,将第一价值鉴定信息或第二价值鉴定信息与待鉴定档案特征信息和价值鉴定参考数据集相结合并进行综合评估。
S306,得到第一价值评估结果信息和第二价值评估结果信息;
S308,将第一价值评估结果信息和第二价值评估结果信息分别与判断阈值进行判断计算;
进一步的,预设三类档案保存期限,为所述三类档案保存期限分别设置不同的价值评估判断阈值;将第一价值评估结果信息和第二价值评估结果信息与不同的判断阈值进行判断计算,得到不同的档案保存期限信息。
S310,得到第一价值档案保存期限信息或第二价值档案保存期限信息;
S312,计算得到档案保存期限信息;
进一步的,通过对第一价值档案保存期限信息和第二价值档案保存期限信息进行计算得到档案保存期限信息;
其中所述档案保存期限信息的具体计算公式为:
;
式中,为档案保存期限信息、/>为第一价值档案保存期限信息、/>为第二价值档案保存期限信息。
进一步的,获取保存时长30年及以上的旧档案信息和旧档案特征信息;对所述旧档案信息进行多维语义分析和理解,得到旧档案语义分析结果;根据旧档案语义分析结果和旧档案特征信息进行价值鉴定,得到旧档案价值鉴定结果信息;根据旧档案价值鉴定结果信息对旧档案进行档案保存期限重新评估,得到保存期限重新评估信息;根据旧档案价值鉴定结果信息对旧档案进行开放程度评估,并根据开放程度评估结果信息,对档案进行加密处理;
需要说明的是,对保存时长30年及以上的旧档案进行重新鉴定,通过鉴定旧档案信息对当前时刻的第一价值和第二价值,重新判断旧档案的利用价值,避免档案信息的堆积,对旧档案进行重新整理,筛除对当前时刻的利用价值低的档案。根据旧档案价值鉴定信息对旧档案进行档案保存期限重新评估,避免无用档案继续保存,提高档案管理效率;根据旧档案信息对当前时刻的价值对旧档案进行开放程度评估,进行对于旧档案的加密处理,提高档案信息的保密性。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (5)
1.一种基于人工智能和多维语义理解的档案智能开放鉴定方法,其特征在于,包括:
获取待鉴定档案信息,对所述待鉴定档案信息进行预处理;
根据档案来源信息和档案物理特征信息对档案进行预鉴定,得到预鉴定信息;
基于自注意力机制对待鉴定档案信息进行特征提取,得到待鉴定档案特征信息;
将待鉴定档案特征信息和待鉴定档案信息导入多维语义分析模型进行语义分析,得到语义分析结果信息;
结合语义分析结果信息、待鉴定档案特征信息和待鉴定档案信息进行档案价值鉴定,得到价值鉴定结果信息;
进行档案开放程度评估,得到档案开放程度评估信息,并根据档案开放程度评估信息设置不同查看权限;
所述基于自注意力机制对待鉴定档案信息进行特征提取,得到待鉴定档案特征信息,具体包括:
基于自注意力机制结合特征标签数据集计算待鉴定档案信息的注意力分数;
通过注意力分数排序表对待鉴定档案信息进行划分,得到按注意力分数进行划分的待鉴定档案信息;
将所述按注意力分数进行划分的待鉴定档案信息作为待鉴定档案的特征信息,得到待鉴定档案特征信息;
待鉴定档案信息包括:词语特征信息、句法特征信息、语义特征信息;
所述通过注意力分数排序表对待鉴定档案信息进行划分,得到按注意力分数进行划分的待鉴定档案信息,还包括:
基于注意力机制结合特征标签数据集对待鉴定档案信息进行相似度计算,计算待鉴定档案信息中的档案文本信息与特征标签数据集的相似度值;
将所述相似度值与预设阈值进行判断,判断是否为待鉴档案的特征标签;
若相似度值大于预设阈值,则为待鉴定档案的特征标签;
若相似度值小于预设阈值,则继续与下一特征标签进行相似度计算;
预设多个阈值,按照预设阈值对相似度值进行划分和排序,将所述相似度值作为待鉴定档案信息的注意力分数,得到注意力分数排序表;
通过注意力分数排序表待鉴定档案信息进行划分;
所述进行档案价值鉴定,得到价值鉴定结果信息,具体包括:
通过待鉴定档案信息中的档案建立时间信息、档案使用信息、档案来源信息和档案物理特征信息鉴定判断待鉴定档案信息的第一价值,得到第一价值鉴定信息;
通过语义分析结果信息和待鉴定档案特征信息鉴定判断待鉴定档案信息的第二价值,得到第二价值鉴定信息;
结合第一价值鉴定信息和第二价值鉴定信息得到价值鉴定结果信息;
根据价值鉴定结果信息对待鉴定档案信息进行综合评估,得到档案保存期限信息;
所述根据价值鉴定结果信息对待鉴定档案信息进行综合评估,得到档案保存期限信息,还包括:
预设三类档案保存期限,为所述三类档案保存期限分别设置不同的价值评估判断阈值;
将第一价值鉴定信息与待鉴定档案特征信息分别与价值鉴定参考数据集进行对比,获取相似度,利用所述相似度与价值评估判断阈值进行综合评估得到第一价值评估结果信息;
将第二价值鉴定信息与待鉴定档案特征信息分别与价值鉴定参考数据集进行对比,获取相似度,利用所述相似度与价值评估判断阈值进行综合评估得到第二价值评估结果信息;
预设的三类档案保存期限分别为A类、B类和C类,A类为保存10年、B类为保存30年、C类为永久保存;
将第一价值评估结果信息和第二价值评估结果信息分别与判断阈值进行判断计算,得到第一价值档案保存期限信息和第二价值档案保存期限信息;
对所述第一价值档案保存期限信息和所述第二价值档案保存期限信息进行计算,得到档案保存期限信息;
其中所述档案保存期限信息的具体计算公式为:
;
式中,为档案保存期限信息、/>为第一价值档案保存期限信息、/>为第二价值档案保存期限信息;
所述进行档案开放程度评估,得到档案开放程度评估信息,并根据档案开放程度评估信息设置不同查看权限,具体包括:
获取价值鉴定结果信息、待鉴定档案特征信息和档案开放程度评估数据集;
将价值鉴定结果信息和待鉴定档案特征信息与档案开放程度评估数据集进行对比计算,得到档案开放程度评估信息;
根据档案开发程度评估信息对档案信息进行加密,并设置不同查看权限。
2.根据权利要求1所述的一种基于人工智能和多维语义理解的档案智能开放鉴定方法,其特征在于,所述获取待鉴定档案信息,对所述待鉴定档案信息进行预处理,具体包括:
对待鉴定档案信息进行数字化处理、分词处理并去除特殊字符,将待鉴定档案信息转换成文本形式;
待鉴定档案信息包括:档案文本信息、档案建立时间信息、档案使用信息、档案来源信息、档案物理特征信息;
对所述待鉴定档案信息进行文本清洗和归一化处理。
3.根据权利要求1所述的一种基于人工智能和多维语义理解的档案智能开放鉴定方法,其特征在于,所述根据档案来源信息和档案物理特征信息对档案进行预鉴定,得到预鉴定信息,具体包括:
建立鉴定数据库,存储各种用于分析和鉴定的信息数据;
通过来源鉴定数据集对档案来源信息和档案物理特征信息进行相似度计算,得到相似度计算值;
将所述相似度计算值与预设阈值进行判断,得到预鉴定信息;
通过预鉴定信息判断待鉴定档案信息的来源,筛除来源不正常的档案。
4.根据权利要求3所述的一种基于人工智能和多维语义理解的档案智能开放鉴定方法,其特征在于,所述建立鉴定数据库,存储各种用于分析和鉴定的信息数据,还包括:
基于大数据检索获取各种机关和机构的档案编写特征信息,包括印章信息、水印信息、地址信息、编号信息和负责人信息,构建来源鉴定数据集;
获取历史档案鉴定高频关键词信息,构建特征标签数据集;
获取历史档案价值鉴定的实例档案特征信息,建立价值鉴定参考数据集;
获取不同开放程度的档案的实例档案信息,建立档案开放程度评估数据集;
基于来源数据集、特征标签数据集、价值鉴定参考数据集和档案开放程度评估数据集建立鉴定数据库。
5.根据权利要求1所述的一种基于人工智能和多维语义理解的档案智能开放鉴定方法,其特征在于,所述将待鉴定档案特征信息和待鉴定档案信息导入多维语义分析模型进行语义分析,得到语义分析结果信息,具体包括:
构建多维语义分析模型,对所述多维语义分析模型进行深度的学习和训练,得到符合期望的多维语义分析模型;
将待鉴定档案特征信息和待鉴定档案信息导入多维语义分析模型进行语义分析,得到语义分析结果信息;
通过待鉴定档案特征信息中的词语特征信息、句法特征信息和语义特征信息分析待鉴定档案信息的结构和内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310819299.2A CN116562304B (zh) | 2023-07-06 | 2023-07-06 | 基于人工智能和多维语义理解的档案智能开放鉴定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310819299.2A CN116562304B (zh) | 2023-07-06 | 2023-07-06 | 基于人工智能和多维语义理解的档案智能开放鉴定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116562304A CN116562304A (zh) | 2023-08-08 |
CN116562304B true CN116562304B (zh) | 2024-03-01 |
Family
ID=87498529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310819299.2A Active CN116562304B (zh) | 2023-07-06 | 2023-07-06 | 基于人工智能和多维语义理解的档案智能开放鉴定方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116562304B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116775888B (zh) * | 2023-08-23 | 2023-10-20 | 江苏联著实业股份有限公司 | 一种用于档案形成单位开放审核的方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112100336A (zh) * | 2020-09-27 | 2020-12-18 | 中国建设银行股份有限公司 | 一种档案的保存时间鉴定方法、装置及存储介质 |
CN112966682A (zh) * | 2021-05-18 | 2021-06-15 | 江苏联著实业股份有限公司 | 一种基于语义分析的档案分类方法及系统 |
CN112989018A (zh) * | 2021-05-19 | 2021-06-18 | 江苏联著实业股份有限公司 | 一种基于语义分析的档案自动开放鉴定方法及系统 |
CN113255360A (zh) * | 2021-04-19 | 2021-08-13 | 国家计算机网络与信息安全管理中心 | 基于层次化自注意力网络的文档评级方法和装置 |
CN114297140A (zh) * | 2021-12-15 | 2022-04-08 | 李莉 | 一种基于人工智能的档案管理系统 |
CN115129959A (zh) * | 2022-08-25 | 2022-09-30 | 北京美络克思科技有限公司 | 一种档案智能鉴定方法、装置及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230013793A (ko) * | 2021-07-20 | 2023-01-27 | 현대모비스 주식회사 | 어텐션 메카니즘 및 의미분석 기반 문서 분류장치 및 방법 |
-
2023
- 2023-07-06 CN CN202310819299.2A patent/CN116562304B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112100336A (zh) * | 2020-09-27 | 2020-12-18 | 中国建设银行股份有限公司 | 一种档案的保存时间鉴定方法、装置及存储介质 |
CN113255360A (zh) * | 2021-04-19 | 2021-08-13 | 国家计算机网络与信息安全管理中心 | 基于层次化自注意力网络的文档评级方法和装置 |
CN112966682A (zh) * | 2021-05-18 | 2021-06-15 | 江苏联著实业股份有限公司 | 一种基于语义分析的档案分类方法及系统 |
CN112989018A (zh) * | 2021-05-19 | 2021-06-18 | 江苏联著实业股份有限公司 | 一种基于语义分析的档案自动开放鉴定方法及系统 |
CN114297140A (zh) * | 2021-12-15 | 2022-04-08 | 李莉 | 一种基于人工智能的档案管理系统 |
CN115129959A (zh) * | 2022-08-25 | 2022-09-30 | 北京美络克思科技有限公司 | 一种档案智能鉴定方法、装置及系统 |
Non-Patent Citations (1)
Title |
---|
数字档案鉴定系统研究与实现;孟宇 等;计算机与现代化(06);第212-215页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116562304A (zh) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sun et al. | Detecting anomalous user behavior using an extended isolation forest algorithm: an enterprise case study | |
CN108664538B (zh) | 一种输变电设备疑似家族性缺陷的自动辨识方法及系统 | |
CN106469181B (zh) | 一种用户行为模式分析方法及装置 | |
CN110457405B (zh) | 一种基于血缘关系的数据库审计方法 | |
CN116562304B (zh) | 基于人工智能和多维语义理解的档案智能开放鉴定方法 | |
CN109446329B (zh) | 一种舆情分析的热点识别方法 | |
Dang et al. | Framework for retrieving relevant contents related to fashion from online social network data | |
CN103761221A (zh) | 用于识别敏感文本信息的系统和方法 | |
CN110909542A (zh) | 智能语义串并分析方法及系统 | |
CN112422503A (zh) | 一种用于审计审查数据的安全分类分级方法及系统 | |
CN115794803A (zh) | 一种基于大数据ai技术的工程审计问题监测方法与系统 | |
Rosa et al. | Detecting a tweet’s topic within a large number of Portuguese Twitter trends | |
CN113486664A (zh) | 文本数据可视化分析方法、装置、设备及存储介质 | |
CN112016317A (zh) | 基于人工智能的敏感词识别方法、装置及计算机设备 | |
Wu et al. | An event timeline extraction method based on news corpus | |
CN109918638B (zh) | 一种网络数据监测方法 | |
CN115828243A (zh) | 基于扫描方案的静态代码流程分析方法 | |
CN114817518B (zh) | 基于大数据档案识别的证照办理方法、系统及介质 | |
CN116401343A (zh) | 一种数据合规分析方法 | |
Kryszkiewicz* | Generalized disjunction-free representation of frequent patterns with negation | |
CN111026705B (zh) | 建筑工程文件管理方法、系统及终端设备 | |
KR20110026154A (ko) | 시맨틱 메타데이터를 통한 인터넷 상의 개인 특성 및 행위 분석 기술 | |
CN117556112B (zh) | 电子档案信息智能管理系统 | |
CN116707834B (zh) | 一种基于云存储的分布式大数据取证与分析平台 | |
Levshun et al. | Active learning approach for inappropriate information classification in social networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |