CN117786121B - 一种基于人工智能的档案鉴定方法以及系统 - Google Patents
一种基于人工智能的档案鉴定方法以及系统 Download PDFInfo
- Publication number
- CN117786121B CN117786121B CN202410218211.6A CN202410218211A CN117786121B CN 117786121 B CN117786121 B CN 117786121B CN 202410218211 A CN202410218211 A CN 202410218211A CN 117786121 B CN117786121 B CN 117786121B
- Authority
- CN
- China
- Prior art keywords
- model
- data
- seal
- archive
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 27
- 230000008569 process Effects 0.000 claims abstract description 24
- 238000012986 modification Methods 0.000 claims abstract description 22
- 230000004048 modification Effects 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000009826 distribution Methods 0.000 claims description 88
- 238000013145 classification model Methods 0.000 claims description 51
- 238000004364 calculation method Methods 0.000 claims description 47
- 238000012549 training Methods 0.000 claims description 39
- 238000005259 measurement Methods 0.000 claims description 17
- 230000032683 aging Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 12
- 238000002372 labelling Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000003860 storage Methods 0.000 description 15
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000003679 aging effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于人工智能的档案鉴定方法以及系统,属于档案鉴定技术领域。该方法包括:获取档案样本数据和档案样本数据对应的至少一个标签属性,根据档案样本数据和档案样本数据对应的标签属性建立辅助鉴定模型;其中,辅助鉴定模型包括至少一个辅助鉴定子模型,每个标签属性对应一个辅助鉴定子模型;获取模型修改指令,对辅助鉴定模型进行修改;获取待鉴定档案,根据修改后的辅助鉴定模型对待鉴定档案进行处理,得到档案辅助鉴定成果。解决了相关技术中数字化档案的鉴定过程中需要人工逐一检查和分析档案样本数据,导致耗费大量的人力资源的问题。
Description
技术领域
本发明涉及档案鉴定技术领域,尤其涉及一种基于人工智能的档案鉴定方法以及系统。
背景技术
数字化档案是将传统的纸质档案转换为电子格式的过程。通过数字化档案,可以将原本需要以纸质档案保存的信息转化为电子数据,实现信息的数字化管理和存储。但是,在数字化档案的鉴定过程中,通常需要人工逐一检查和分析档案样本数据,导致耗费大量的人力资源。因此,亟需一种减少人力资源消耗的档案鉴定方法。
发明内容
本发明实施例的主要目的在于提供一种基于人工智能的档案鉴定方法以及系统,旨在解决相关技术中数字化档案的鉴定过程中需要人工逐一检查和分析档案样本数据,导致耗费大量的人力资源的问题。
第一方面,本发明实施例提供一种基于人工智能的档案鉴定方法,包括:
获取档案样本数据和所述档案样本数据对应的至少一个标签属性,根据所述档案样本数据和所述档案样本数据对应的标签属性建立辅助鉴定模型;其中,辅助鉴定模型包括至少一个辅助鉴定子模型,每个所述标签属性对应一个所述辅助鉴定子模型;
获取模型修改指令,对所述辅助鉴定模型进行修改;
获取待鉴定档案,根据修改后的所述辅助鉴定模型对所述待鉴定档案进行处理,得到档案辅助鉴定成果。
第二方面,本发明实施例提供一种基于人工智能的档案鉴定系统,包括:
模型训练模块,用于获取档案样本数据和所述档案样本数据对应的至少一个标签属性,根据所述档案样本数据和所述所述档案样本数据对应的标签属性建立辅助鉴定模型;其中,辅助鉴定模型包括至少一个辅助鉴定子模型,每个所述标签属性对应一个所述辅助鉴定子模型;
模型修改模块,用于获取模型修改指令,响应于所述模型修改指令,对所述辅助鉴定模型进行修改;
模型应用模型,用于获取待鉴定档案,根据修改后的所述辅助鉴定模型对所述待鉴定档案进行处理,得到档案辅助鉴定成果。
本发明实施例提供一种基于人工智能的档案鉴定方法以及系统,本方法包括:通过收集并标注档案样本数据,进而提供有监督的训练数据集,其中包括输入的档案样本数据以及相应的标签属性。进而使用档案样本数据和对应的标签属性来建立辅助鉴定模型。接收到用于修改辅助鉴定模型的指令。这些指令可以来自于人工标注的结果、用户反馈或其他系统反馈。根据这些指令对模型进行调整和优化,以提高其性能和准确度。从而使用修改后的辅助鉴定模型来处理待鉴定的档案。通过档案在模型中的处理和计算,得到档案的辅助鉴定成果,即模型推测出的档案鉴定结果。从而解决了相关技术中数字化档案的鉴定过程中需要人工逐一检查和分析档案样本数据,导致耗费大量的人力资源的问题。减少人力资源消耗,并且提高了数字化档案的鉴定效率和准确率。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于人工智能的档案鉴定方法的流程示意图;
图2为本发明实施例提供的一种基于人工智能的档案鉴定系统的模块结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
本发明实施例提供一种基于人工智能的档案鉴定方法以及系统。其中,该基于人工智能的档案鉴定方法可应用于终端设备中,该终端设备可以平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备。该终端设备可以为服务器,也可以为服务器集群。
下面结合附图,对本发明的一些实施例作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参照图1,图1为本发明实施例提供的一种基于人工智能的档案鉴定方法的流程示意图。
如图1所示,该基于人工智能的档案鉴定方法包括步骤S101至步骤S103。
步骤S101、获取档案样本数据和所述档案样本数据对应的至少一个标签属性,根据所述档案样本数据和所述所述档案样本数据对应的标签属性建立辅助鉴定模型;其中,辅助鉴定模型包括至少一个辅助鉴定子模型,每个所述标签属性对应一个所述辅助鉴定子模型。
示例性地,收集一定数量的档案样本数据(样本数据格式包括不限于文本、图片、PDF等格式)。档案样本数据可以来自实际的档案记录、数据库、文本文件等。确保收集的数据具有一定的多样性。根据档案样本数据,为每个样本确定至少一个标签属性。这些标签属性是指档案记录中包含的各种信息和特征。具体的标签属性可以根据档案的类型、目的和内容而异。例如,标签属性可以为文件类型属性、文档内容属性、组织信息属性等。可根据具体的档案类型和应用场景来确定具体的标签属性。标签属性的识别和分类对于档案的管理和查询非常重要。
示例性地,在建立辅助鉴定模型之前,需要对收集到的档案样本数据进行预处理。这可能包括文本清洗(去除噪声、标点符号等),分词(将文本划分为单词或子单词),并转换为机器可读的数值表示形式(如词嵌入向量)。进而选择合适的模型来建立辅助鉴定模型,比如循环神经网络(RNN)或变种模型(如LSTM、GRU)。根据预处理后的数据,在模型中设置适当的输入和输出层,并根据对应的标签属性定义损失函数。可以使用各种深度学习框架(如TensorFlow、PyTorch)来支持模型的训练和建立过程。从而将收集到的档案样本数据划分为训练集和测试集。使用训练集对建立的辅助鉴定模型进行训练,并使用测试集评估模型的性能和准确度。根据需要,可以进行多轮的训练和调整以改进模型的效果。
示例性地,对于不同的标签属性分别确定对应的辅助鉴定子模型,则当包含m个标签属性后,则辅助鉴定模型中也包含m个辅助鉴定子模型,进而使得标签属性和辅助鉴定模型中的辅助鉴定子模型分别一一对应,从而使得标签属性根据对应的辅助鉴定子模型进行识别,进而为后续实现档案的辅助鉴定成果提供良好的支撑。
在一些实施方式中,所述根据所述档案样本数据和所述档案样本数据对应的标签属性建立辅助鉴定模型,包括:根据所述标签属性从所述档案样本数据中获得对应的标签数据,所述标签属性至少包括真伪属性、时效属性和机密属性,所述标签数据至少包括所述真伪属性对应的印章数据,所述时效属性对应的时间数据,所述机密属性对应的文本数据;至少根据所述印章数据、所述时间数据和所述文本数据中的一项进行鉴定模型训练,获得所述辅助鉴定模型。
示例性地,根据需求定义真伪属性、时效属性和机密属性的具体含义和取值范围。例如,真伪属性可以定义为是否经过认证的标签,时效属性可以定义为有效期限的标签,机密属性可以定义为文件的保密级别标签。从档案样本数据中提取真伪属性、时效属性和机密属性的相关信息,获取对应的标签数据。
例如,可以通过检查档案的认证信息来获取真伪属性的标签数据,查看档案的创建或修改时间来获取时效属性的标签数据,根据档案的保密级别来获取机密属性的标签数据。从而对标签数据进行必要的预处理,如标准化、编码等,以便于后续的模型训练和处理。
具体的预处理方法取决于标签数据的类型和数据表达形式。进而根据真伪属性、时效属性和机密属性,将对应的标签数据整合,并提取相关的特征。例如,可以将真伪属性对应的印章数据转换为图像特征,将时效属性对应的时间数据进行日期处理,将机密属性对应的文本数据进行文本特征提取。
最后,使用整合的标签数据和提取的特征,基于印章数据、时间数据和文本数据,建立辅助鉴定模型。可以选择合适的机器学习算法,如决策树、支持向量机(SVM)或深度学习模型,根据训练数据对模型进行训练。再使用评估指标(如准确度、精确度、召回率等)评估训练得到的鉴定模型的性能。如果需要改进模型的效果,可以调整模型参数、尝试不同的特征提取方法或使用更多多样性的样本数据进行训练,进而获得辅助鉴定模型。
在一些实施方式中,所述辅助鉴定模型至少包括图像真伪识别模型,至少根据所述印章数据、所述时间数据和所述文本数据中的一项进行鉴定模型训练,获得所述辅助鉴定模型,包括:根据所述图像真伪识别模型的关联文本网络从所述档案样本数据中获得所述印章数据对应的关联文本;根据所述图像真伪识别模型的印章确定网络对所述关联文本进行分类获得所述印章数据对应的第一真实印章;根据所述图像真伪识别模型的图像配准网络对所述印章数据和所述第一真实印章进行图像配准,获得所述印章数据对应的配准熵值;根据所述图像真伪识别模型的真伪识别网络对所述配准熵值进行判断,获得真伪判断结果;根据所述真伪判断结果和所述档案样本数据对应的标注真伪结果对所述图像真伪识别模型进行参数调整,获得训练后的所述图像真伪识别模型。
可以理解的是,图像真伪识别模型为辅助鉴定模型中对应真伪属性的辅助鉴定子模型。
示例性地,图像真伪识别模型包括关联文本网络、印章确定网络、图像配准网络、真伪识别网络,其中,关联文本网络用于获取印章数据对应的关联文本,从而为后续获得该档案所需添加印章的真实印章提供良好的支撑;印章确定网络用于获取该档案所需添加印章的真实印章类型,从而获得第一真实印章;图像配准网络用于将第一真实印章和印章数据进行图像配准,从而获得两者之间的配准熵值,为后续判断印章数据的真伪提供良好的支撑;真伪识别网络用于将配准熵值和预设熵值进行比较,从而确定档案样本数据对应的真伪判断结果。
示例性地,使用图像真伪识别模型的关联文本网络,从档案样本数据中提取印章数据对应的关联文本。该关联文本可能包括与印章相关的摘要、描述、标签等信息。进而使用图像真伪识别模型的印章确定网络,对关联文本进行分类,以确定印章数据对应的第一真实印章。这个网络可能训练用于判断关联文本中哪一个描述与印章最相关。使用图像真伪识别模型的图像配准网络,将印章数据与第一真实印章进行图像配准。这个网络可以用于提高印章数据和第一真实印章之间的匹配度。从而根据配准后的图像数据,使用图像真伪识别模型的真伪识别网络,对配准熵值进行判断。这个网络可以用于判断印章数据的真伪性,输出真伪判断结果。
示例性地,根据真伪判断结果和档案样本数据的标注真伪结果,对图像真伪识别模型进行参数调整。可以使用反向传播算法和优化技术,如梯度下降,更新模型参数,以提高模型的真伪识别准确率。训练过程会迭代多次,直到模型达到一定的性能指标。
在一些实施方式中,所述根据所述图像真伪识别模型的图像配准网络对所述印章数据和所述第一真实印章进行图像配准,获得所述印章数据对应的配准熵值,包括:根据所述图像配准网络中的角点检测层对所述印章数据进行特征提取获得所述印章数据对应的第一角点特征和对所述第一真实印章进行特征提取获得所述第一真实印章对应的第二角点特征;根据所述图像配准网络中的尺度计算层对所述第一角点特征和所述第二角点特征的特征尺度进行全局搜索,获得所述第一角点特征对应的第一极值和所述第二角点特征对应的第二极值,进而根据所述第一极值和所述第二极值确定所述印章数据和所述第一真实印章对应的缩放因子;根据所述缩放因子对所述第一真实印章进行图像缩放,获得所述第一真实印章对应的第二真实印章;根据所述图像配准网络中的概率分布层对所述印章数据进行概率分布计算获得所述印章数据对应的第一概率分布,对所述第二真实印章进行概率分布计算获得所述第二真实印章对应的第二概率分布,以及对所述印章数据和所述第二真实印章进行联合概率分布计算获得对应的第三概率分布;根据所述图像配准网络中的熵值计算层对所述第一概率分布、所述第二概率分布以及所述第三概率分布进行熵值计算,获得所述印章数据对应的所述配准熵值;其中,根据下列公式计算所述配准熵值:A表示所述印章数据,B表示所述第二真实印章,/>表示所述配准熵值,a表示所述印章数据对应的第一像素值,b表示所述第二真实印章对应的第二像素值,/>表示所述第一像素值和所述第二像素值在所述第三概率分布下的概率值,/>表示所述第一像素值在所述第一概率分布下的概率值,/>表示所述第二像素值在所述第二概率分布下的概率值。
示例性地,使用图像配准网络中的角点检测层,对印章数据进行特征提取,获得印章数据对应的第一角点特征。同时,对第一真实印章进行特征提取,获得第一真实印章对应的第二角点特征。再使用图像配准网络中的尺度计算层,对第一角点特征和第二角点特征的特征尺度进行全局搜索。通过搜索过程,获得第一角点特征对应的第一极值和第二角点特征对应的第二极值。进而将第一极值和第二极值进行相除,从而获得印章数据和第一真实印章之间的缩放因子。
示例性地,根据缩放因子,对第一真实印章进行图像缩放,获得第一真实印章对应的第二真实印章。这一步可以用于将第一真实印章与印章数据进行尺度匹配。
示例性地,使用图像配准网络中的概率分布层,对印章数据进行概率分布计算,获得印章数据对应的第一概率分布。对第二真实印章进行概率分布计算,获得第二真实印章对应的第二概率分布。同时,对印章数据和第二真实印章进行联合概率分布计算,获得对应的第三概率分布。
示例性地,使用图像配准网络中的熵值计算层,对第一概率分布、第二概率分布和第三概率分布进行熵值计算,获得印章数据对应的配准熵值。熵值可用于衡量印章数据与真实印章之间的一致性。
示例性地,根据下列公式计算配准熵值:A表示印章数据,B表示第二真实印章,表示配准熵值,a表示印章数据对应的第一像素值,b表示第二真实印章对应的第二像素值,/>表示第一像素值和第二像素值在第三概率分布下的概率值,表示第一像素值在第一概率分布下的概率值,/>表示第二像素值在第二概率分布下的概率值。
具体地,以上步骤实现了印章数据和第一真实印章之间的角点特征提取、特征尺度搜索、图像缩放、概率分布计算和熵值计算。这个过程可以提高印章数据与真实印章之间的匹配度,并为后续的真伪判断提供更准确的特征。
需要注意的是,在实际应用中,具体实现这些步骤可能需要使用特定的图像处理算法和工具,如角点检测算法、尺度搜索算法、概率分布计算算法和熵值计算方法。同时,样本数据的质量和多样性对于配准熵值的计算也具有重要影响。
在一些实施方式中,所述辅助鉴定模型还包括时间识别模型,至少根据所述印章数据、所述时间数据和所述文本数据中的一项进行鉴定模型训练,获得所述辅助鉴定模型,包括:根据所述时间识别模型的关键词识别层对所述时间数据进行关键词识别,获得所述时间数据对应的关键实体;根据所述时间识别模型的关系识别层对所述关键实体进行关系分类,获得所述关键实体之间对应的关联关系;根据所述关键实体和所述关联关系获得所述时间数据对应的预测时间;根据所述时间识别模型的损失计算层对所述预测时间和所述档案样本数据对应的真实时间进行损失计算,进而对所述时间识别模型的模型参数进行调整,获得训练后的所述时间识别模型。
可以理解的是,时间识别模型为辅助鉴定模型中对应时效属性的辅助鉴定子模型。
示例性地,使用时间识别模型的关键词识别层,对时间数据进行关键词识别。这个层可以训练用于提取时间数据中的关键实体,如日期、时间、地点等。进而使用时间识别模型的关系识别层,对关键实体进行关系分类,以确定关键实体之间的关联关系。该层可以用于识别时间数据中不同实体之间的层级、时序或其他关系。进而结合关键实体和关联关系,可以获得时间数据对应的预测时间。通过根据关键实体之间的关联关系和其他上下文信息,可以推断出时间数据所表示的实际时间。从而使用时间识别模型的损失计算层,将预测时间与档案样本数据对应的真实时间进行比较,计算损失。损失函数可以根据具体需求选择,如均方误差或交叉熵等。
示例性地,根据损失计算结果,对时间识别模型的模型参数进行调整和优化。可以使用反向传播算法和优化技术,如梯度下降,来更新模型的参数,以提高时间识别模型的准确度和性能。训练过程需要迭代多次,直到模型达到一定的性能指标。
具体实现上述步骤需要根据时间识别模型的架构和设计进行。这是一个复杂的过程,可能需要使用自然语言处理、关系分类、时间序列分析等相关技术。同时,样本数据的质量和多样性对于模型的训练和性能也具有重要影响。为了提高模型的准确度和泛化能力,还可以考虑使用预处理、数据增强和模型集成等方法。
在一些实施方式中,所述辅助鉴定模型还包括机密分类模型,至少根据所述印章数据、所述时间数据和所述文本数据中的一项进行鉴定模型训练,获得所述辅助鉴定模型,包括:确定所述机密分类模型对应的分类类型,并获得所述分类类型对应的关联文档;根据所述机密分类模型的主题识别层对所述文本数据进行主题词识别,获得所述文本数据对应的目标主题词;根据所述机密分类模型的类内密度确定层计算所述目标主题词在所述关联文档中对应的类内度量值;根据所述机密分类模型的类外密度确定层计算所述目标主题词在所述关联文档中对应的类外度量值;根据所述机密分类模型的密度分布层利用所述类内度量值和所述类外度量值计算所述文本数据在所述分类类型对应的密度分布值;根据所述机密分类模型的类型确定层获得所述密度分布值对应的最大值,进而根据所述最大值确定所述文本数据对应的预测机密等级;根据所述机密分类模型的损失计算层对所述预测机密等级和所述档案样本数据对应的真实机密等级进行损失计算,进而对所述机密分类模型的模型参数进行调整,获得训练后的所述机密分类模型。
可以理解的是,机密分类模型为辅助鉴定模型中对应机密属性的辅助鉴定子模型。
示例性地,确定机密分类模型对应的分类类型,并获取该分类类型对应的关联文档。分类类型可以是机密等级、敏感程度等级等。使用机密分类模型的主题识别层,对文本数据进行主题词识别。这个层用于识别文本数据中的目标主题词,例如关键词、关键短语等。进而利用机密分类模型的类内密度确定层,计算目标主题词在关联文档中对应的类内度量值。类内密度度量目标主题词在同一分类类型下的文本数据之间的相似度或聚集程度。
示例性地,利用机密分类模型的类外密度确定层,计算目标主题词在关联文档中对应的类外度量值。类外密度度量目标主题词与其他分类类型下的文本数据之间的差异性或分离程度。进而使用机密分类模型的密度分布层,结合类内度量值和类外度量值,计算文本数据在分类类型对应的密度分布值。密度分布指示了文本数据在不同分类类型之间的分布情况或归属度。进而使用机密分类模型的类型确定层,确定密度分布值中的最大值对应的分类类型。根据最大值的位置,确定文本数据对应的预测机密等级。
示例性地,使用机密分类模型的损失计算层,将预测机密等级与档案样本数据对应的真实机密等级进行比较,计算损失。根据损失结果,对机密分类模型的模型参数进行调整和优化,以提高模型的准确度和性能。训练过程是迭代的,通过多次迭代优化模型参数。
在一些实施方式中,所述根据所述机密分类模型的类内密度确定层计算所述目标主题词在所述关联文档中对应的类内度量值,包括:利用所述类内密度确定层获得所述关联文档对应的文档数量;根据所述类内密度确定层计算所述目标主题词在所述分类类型对应的第一出现频率;根据所述类内密度确定层利用所述文档数量和所述第一出现频率计算所述目标主题词对应的所述类内度量值;其中,根据下列公式计算所述类内度量值:n表示第j个所述分类类型对应的所述文档数量,/>表示所述目标主题词t在第j个所述分类类型对应的第i个所述关联文档C中的所述第一出现频率,CI表示所述类内度量值。
示例性地,利用类内密度确定层计算目标主题词在关联文档中的出现次数或出现频率,即统计目标主题词在关联文档中的数量。通过遍历关联文档,确定目标主题词在文本中的第一次出现并统计其出现频率。这可以帮助确定目标主题词在该分类类型中的重要性和影响力。进而结合文档数量和第一出现频率,可以计算目标主题词在该分类类型中的类内度量值。
示例性地,文档数量和第一出现频率根据下列公式计算类内度量值:n表示第j个分类类型对应的文档数量,表示目标主题词t在第j个分类类型对应的第i个关联文档C中的第一出现频率,CI表示类内度量值。
在一些实施方式中,所述根据所述机密分类模型的类外密度确定层计算所述目标主题词在所述关联文档中对应的类外度量值,包括:根据所述类外密度确定层获得所述机密分类模型对应的所述分类类型对应的类别总数;根据所述类外密度确定层计算所述目标主题词在所述分类类型对应的第二出现频率;根据所述类外密度确定层利用所述类别总数和所述第二出现频率计算所述目标主题词对应的所述类外度量值;其中,根据下列公式计算所述类外度量值:N表示所述分类类型对应的所述类别总数,/>表示所述目标主题词t在第j个所述分类类型对应的全部所述关联文档C中的所述第二出现频率,CO表示所述类外度量值。
示例性地,利用类外密度确定层,统计机密分类模型对应的分类类型的类别总数。这可以用于确定分类类型在整个数据集中的总类别数目。进而类外密度确定层通过遍历关联文档,确定目标主题词在文本中的第二出现频率。这可以帮助确定目标主题词在该分类类型中的次要重要性和影响力。从而利用类别总数和第二出现频率计算目标主题词在该分类类型中的类外度量值。
示例性地,利用类别总数和第二出现频率根据下列公式计算类外度量值:N表示分类类型对应的类别总数,/>表示目标主题词t在第j个分类类型对应的全部关联文档C中的第二出现频率,CO表示类外度量值。
示例性地,当CI的值越小时,表明目标主题词t在第j个分类类型中分布密度就越平均,也就越能体现该分类类型的特征,当CI的值取极端值0时,该特征极大体现此类的共性;反之,当CI的值越大时,就越不具备代表第j个分类类型中的代表性。当CO的值越小时,表明目标主题词t在不同类别中的分布密度就越均匀,那么该目标主题词区分类别的能力就越弱,当CO的值达到极端值0时,该目标主题词对分类类型的贡献几乎为0;反之,当CO的值越大时,表明目标主题词t在不同分类类型中的分布密度就越不均匀,越能体现其所在密度分布较高的类的特征。因此,当目标主题词t使得CI的值较小而CO的值较大时,应该赋予目标主题词t更大的权重。从而在根据机密分类模型的密度分布层利用类内度量值和类外度量值计算文本数据在分类类型对应的密度分布值时,可根据类内度量值和类外度量值赋予目标主题词t不同的权重,从而计算得到文本数据在分类类型对应的密度分布值。
步骤S102、获取模型修改指令,对所述辅助鉴定模型进行修改。
示例性地,模型修改指令可以来自用户的输入、外部接口、配置文件等。从而根据获取到的模型修改指令,对辅助鉴定模型进行相应的修改。具体的修改操作取决于用户的应用需求和模型的结构。可能的修改操作包括添加、删除或调整模型的层、修改模型的参数或超参数等。在对辅助鉴定模型进行修改后,需要进行模型的验证和评估。这可以包括使用测试数据集进行模型的评估,计算模型的准确度、召回率等指标,以确保修改后的模型具有良好的性能。如果对修改后的模型有进一步的需求或改进空间,可以迭代进行修改和优化。这可能需要多次尝试不同的修改和参数设置,以找到最佳的模型配置。
此外,在修改模型之前,需要对辅助鉴定模型有一定的了解,并确定需要修改的具体方面。此外,确保在进行模型修改和优化时,使用合适的训练数据和标注数据进行模型训练和性能评估,以提高模型的质量和准确度。
步骤S103、获取待鉴定档案,根据修改后的所述辅助鉴定模型对所述待鉴定档案进行处理,得到档案辅助鉴定成果。
示例性地,获取待鉴定档案(档案数据格式包括不限于文本、图片、PDF等格式)。待鉴定档案可以来自用户上传、数据库查询等渠道。进而使用修改后的辅助鉴定模型对待鉴定档案进行处理,从而获取模型输出的档案辅助鉴定成果。
例如,修改后的辅助鉴定模型至少包括:图像真伪识别模型、时间识别模型、机密分类模型,从而根据图像真伪识别模型对待鉴定档案进行档案的真伪进行鉴定从而获得档案真伪鉴定结果、根据时间识别模型对待鉴定档案进行档案的有效性进行鉴定从而获得档案有效性鉴定结果、根据机密分类模型对待鉴定档案进行档案的保密等级进行鉴定从而获得档案保密等级的鉴定结果。也即档案辅助鉴定成果包括:档案真伪鉴定结果、档案有效性鉴定结果、档案保密等级的鉴定结果。从而解决了相关技术中数字化档案的鉴定过程中需要人工逐一检查和分析档案样本数据,导致耗费大量的人力资源的问题。减少人力资源消耗,并且提高了数字化档案的鉴定效率和准确率。
在一些实施方式中,获取待鉴定档案,根据修改后的所述辅助鉴定模型对所述待鉴定档案进行处理,得到档案辅助鉴定成果之后,还包括:获取档案鉴定结果查询请求;对发送所述档案鉴定结果查询请求的用户身份进行访问认证;对通过访问认证的用户发送的档案鉴定结果查询请求,确定出所述档案鉴定结果查询请求对应的目标档案和目标档案鉴定结果,并返回所述目标档案和所述目标档案鉴定结果至用户。
示例性地,通过网络接口、API调用或其他方式接收用户的档案鉴定结果查询请求。在此之前根据验证用户的凭据(例如用户名和密码)、使用令牌验证或其他认证机制对发送档案鉴定结果查询请求的用户身份进行访问认证,以确保用户的身份是有效和受信任的。
示例性地,对通过访问认证的用户(包括单个用户或者多个用户)发送的档案鉴定结果查询请求进行处理。根据请求中的查询信息,确定对应的目标档案和档案鉴定结果。这可能涉及到数据库查询、数据匹配和筛选等操作。将确定的目标档案和档案鉴定结果返回给用户。这可以通过网络响应、API返回或其他适当的方式向用户提供所需的信息。
具体地,访问认证是确保只有经过授权的用户才能获取和查询档案鉴定结果的关键步骤。可以使用常见的认证和授权技术,如使用访问令牌、加密协议和身份验证服务来保护用户的身份和数据安全。同时,确保在处理用户请求和返回查询结果时,遵守适用的隐私法律和数据保护规定,特别是涉及个人隐私和敏感数据的情况下。
请参阅图2,图2为本申请实施例提供的一种基于人工智能的档案鉴定系统200,该基于人工智能的档案鉴定系统200包括模型训练模块201、模型修改模块202、模型应用模型203,其中,模型训练模块201,用于获取档案样本数据和所述档案样本数据对应的至少一个标签属性,根据所述档案样本数据和所述所述档案样本数据对应的标签属性建立辅助鉴定模型;其中,辅助鉴定模型包括至少一个辅助鉴定子模型,每个所述标签属性对应一个所述辅助鉴定子模型;模型修改模块202,用于获取模型修改指令,响应于所述模型修改指令,对所述辅助鉴定模型进行修改;模型应用模型203,用于获取待鉴定档案,根据修改后的所述辅助鉴定模型对所述待鉴定档案进行处理,得到档案辅助鉴定成果。
在一些实施方式中,模型应用模型203在获取待鉴定档案,根据修改后的所述辅助鉴定模型对所述待鉴定档案进行处理,得到档案辅助鉴定成果之后过程中,还执行:
获取档案鉴定结果查询请求;
对发送所述档案鉴定结果查询请求的用户身份进行访问认证;
对通过访问认证的用户发送的档案鉴定结果查询请求,确定出所述档案鉴定结果查询请求对应的目标档案和目标档案鉴定结果,并返回所述目标档案和所述目标档案鉴定结果至用户。
在一些实施方式中,模型训练模块201在所述根据所述档案样本数据和所述档案样本数据对应的标签属性建立辅助鉴定模型过程中,执行:
根据所述标签属性从所述档案样本数据中获得对应的标签数据,所述标签属性至少包括真伪属性、时效属性和机密属性,所述标签数据至少包括所述真伪属性对应的印章数据,所述时效属性对应的时间数据,所述机密属性对应的文本数据;
至少根据所述印章数据、所述时间数据和所述文本数据中的一项进行鉴定模型训练,获得所述辅助鉴定模型。
在一些实施方式中,所述辅助鉴定模型至少包括图像真伪识别模型,模型训练模块201在至少根据所述印章数据、所述时间数据和所述文本数据中的一项进行鉴定模型训练,获得所述辅助鉴定模型过程中,执行:
根据所述图像真伪识别模型的关联文本网络从所述档案样本数据中获得所述印章数据对应的关联文本;
根据所述图像真伪识别模型的印章确定网络对所述关联文本进行分类获得所述印章数据对应的第一真实印章;
根据所述图像真伪识别模型的图像配准网络对所述印章数据和所述第一真实印章进行图像配准,获得所述印章数据对应的配准熵值;
根据所述图像真伪识别模型的真伪识别网络对所述配准熵值进行判断,获得真伪判断结果;
根据所述真伪判断结果和所述档案样本数据对应的标注真伪结果对所述图像真伪识别模型进行参数调整,获得训练后的所述图像真伪识别模型。
在一些实施方式中,模型训练模块201在所述根据所述图像真伪识别模型的图像配准网络对所述印章数据和所述第一真实印章进行图像配准,获得所述印章数据对应的配准熵值过程中,执行:
根据所述图像配准网络中的角点检测层对所述印章数据进行特征提取获得所述印章数据对应的第一角点特征和对所述第一真实印章进行特征提取获得所述第一真实印章对应的第二角点特征;
根据所述图像配准网络中的尺度计算层对所述第一角点特征和所述第二角点特征的特征尺度进行全局搜索,获得所述第一角点特征对应的第一极值和所述第二角点特征对应的第二极值,进而根据所述第一极值和所述第二极值确定所述印章数据和所述第一真实印章对应的缩放因子;
根据所述缩放因子对所述第一真实印章进行图像缩放,获得所述第一真实印章对应的第二真实印章;
根据所述图像配准网络中的概率分布层对所述印章数据进行概率分布计算获得所述印章数据对应的第一概率分布,对所述第二真实印章进行概率分布计算获得所述第二真实印章对应的第二概率分布,以及对所述印章数据和所述第二真实印章进行联合概率分布计算获得对应的第三概率分布;
根据所述图像配准网络中的熵值计算层对所述第一概率分布、所述第二概率分布以及所述第三概率分布进行熵值计算,获得所述印章数据对应的所述配准熵值;
其中,根据下列公式计算所述配准熵值:A表示所述印章数据,B表示所述第二真实印章,/>表示所述配准熵值,a表示所述印章数据对应的第一像素值,b表示所述第二真实印章对应的第二像素值,/>表示所述第一像素值和所述第二像素值在所述第三概率分布下的概率值,/>表示所述第一像素值在所述第一概率分布下的概率值,表示所述第二像素值在所述第二概率分布下的概率值。
在一些实施方式中,所述辅助鉴定模型还包括时间识别模型,模型训练模块201在至少根据所述印章数据、所述时间数据和所述文本数据中的一项进行鉴定模型训练,获得所述辅助鉴定模型过程中,执行:
根据所述时间识别模型的关键词识别层对所述时间数据进行关键词识别,获得所述时间数据对应的关键实体;
根据所述时间识别模型的关系识别层对所述关键实体进行关系分类,获得所述关键实体之间对应的关联关系;
根据所述关键实体和所述关联关系获得所述时间数据对应的预测时间;
根据所述时间识别模型的损失计算层对所述预测时间和所述档案样本数据对应的真实时间进行损失计算,进而对所述时间识别模型的模型参数进行调整,获得训练后的所述时间识别模型。
在一些实施方式中,所述辅助鉴定模型还包括机密分类模型,模型训练模块201在至少根据所述印章数据、所述时间数据和所述文本数据中的一项进行鉴定模型训练,获得所述辅助鉴定模型过程中,执行:
确定所述机密分类模型对应的分类类型,并获得所述分类类型对应的关联文档;
根据所述机密分类模型的主题识别层对所述文本数据进行主题词识别,获得所述文本数据对应的目标主题词;
根据所述机密分类模型的类内密度确定层计算所述目标主题词在所述关联文档中对应的类内度量值;
根据所述机密分类模型的类外密度确定层计算所述目标主题词在所述关联文档中对应的类外度量值;
根据所述机密分类模型的密度分布层利用所述类内度量值和所述类外度量值计算所述文本数据在所述分类类型对应的密度分布值;
根据所述机密分类模型的类型确定层获得所述密度分布值对应的最大值,进而根据所述最大值确定所述文本数据对应的预测机密等级;
根据所述机密分类模型的损失计算层对所述预测机密等级和所述档案样本数据对应的真实机密等级进行损失计算,进而对所述机密分类模型的模型参数进行调整,获得训练后的所述机密分类模型。
在一些实施方式中,模型训练模块201在所述根据所述机密分类模型的类内密度确定层计算所述目标主题词在所述关联文档中对应的类内度量值过程中,执行:
利用所述类内密度确定层获得所述关联文档对应的文档数量;
根据所述类内密度确定层计算所述目标主题词在所述分类类型对应的第一出现频率;
根据所述类内密度确定层利用所述文档数量和所述第一出现频率计算所述目标主题词对应的所述类内度量值;
其中,根据下列公式计算所述类内度量值:n表示第j个所述分类类型对应的所述文档数量,/>表示所述目标主题词t在第j个所述分类类型对应的第i个所述关联文档C中的所述第一出现频率,CI表示所述类内度量值。
在一些实施方式中,模型训练模块201在所述根据所述机密分类模型的类外密度确定层计算所述目标主题词在所述关联文档中对应的类外度量值过程中,执行:
根据所述类外密度确定层获得所述机密分类模型对应的所述分类类型对应的类别总数;
根据所述类外密度确定层计算所述目标主题词在所述分类类型对应的第二出现频率;
根据所述类外密度确定层利用所述类别总数和所述第二出现频率计算所述目标主题词对应的所述类外度量值;
其中,根据下列公式计算所述类外度量值:N表示所述分类类型对应的所述类别总数,/>表示所述目标主题词t在第j个所述分类类型对应的全部所述关联文档C中的所述第二出现频率,CO表示所述类外度量值。
在一些实施方式中,基于人工智能的档案鉴定系统200可应用于终端设备。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的基于人工智能的档案鉴定系统200的具体工作过程,可以参考前述基于人工智能的档案鉴定方法实施例中的对应过程,在此不再赘述。
本发明实施例还提供一种存储介质,用于计算机可读存储,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如本发明实施例说明书提供的任一项基于人工智能的档案鉴定方法的步骤。
其中,所述存储介质可以是前述实施例所述的终端设备的内部存储单元,例如所述终端设备的硬盘或内存。所述存储介质也可以是所述终端设备的外部存储设备,例如所述终端设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施例中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
应当理解,在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅为本发明的具体实施例,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (7)
1.一种基于人工智能的档案鉴定方法,其特征在于,包括:
获取档案样本数据和所述档案样本数据对应的至少一个标签属性,根据所述档案样本数据和所述档案样本数据对应的标签属性建立辅助鉴定模型;其中,辅助鉴定模型包括至少一个辅助鉴定子模型,每个所述标签属性对应一个所述辅助鉴定子模型;
获取模型修改指令,对所述辅助鉴定模型进行修改;
获取待鉴定档案,根据修改后的所述辅助鉴定模型对所述待鉴定档案进行处理,得到档案辅助鉴定成果;
所述根据所述档案样本数据和所述档案样本数据对应的标签属性建立辅助鉴定模型,包括:
根据所述标签属性从所述档案样本数据中获得对应的标签数据,所述标签属性至少包括真伪属性、时效属性和机密属性,所述标签数据至少包括所述真伪属性对应的印章数据,所述时效属性对应的时间数据,所述机密属性对应的文本数据;
至少根据所述印章数据、所述时间数据和所述文本数据中的一项进行鉴定模型训练,获得所述辅助鉴定模型;
所述辅助鉴定模型至少包括图像真伪识别模型,至少根据所述印章数据、所述时间数据和所述文本数据中的一项进行鉴定模型训练,获得所述辅助鉴定模型,包括:
根据所述图像真伪识别模型的关联文本网络从所述档案样本数据中获得所述印章数据对应的关联文本;
根据所述图像真伪识别模型的印章确定网络对所述关联文本进行分类获得所述印章数据对应的第一真实印章;
根据所述图像真伪识别模型的图像配准网络对所述印章数据和所述第一真实印章进行图像配准,获得所述印章数据对应的配准熵值;
根据所述图像真伪识别模型的真伪识别网络对所述配准熵值进行判断,获得真伪判断结果;
根据所述真伪判断结果和所述档案样本数据对应的标注真伪结果对所述图像真伪识别模型进行参数调整,获得训练后的所述图像真伪识别模型;
所述根据所述图像真伪识别模型的图像配准网络对所述印章数据和所述第一真实印章进行图像配准,获得所述印章数据对应的配准熵值,包括:
根据所述图像配准网络中的角点检测层对所述印章数据进行特征提取获得所述印章数据对应的第一角点特征和对所述第一真实印章进行特征提取获得所述第一真实印章对应的第二角点特征;
根据所述图像配准网络中的尺度计算层对所述第一角点特征和所述第二角点特征的特征尺度进行全局搜索,获得所述第一角点特征对应的第一极值和所述第二角点特征对应的第二极值,进而根据所述第一极值和所述第二极值确定所述印章数据和所述第一真实印章对应的缩放因子;
根据所述缩放因子对所述第一真实印章进行图像缩放,获得所述第一真实印章对应的第二真实印章;
根据所述图像配准网络中的概率分布层对所述印章数据进行概率分布计算获得所述印章数据对应的第一概率分布,对所述第二真实印章进行概率分布计算获得所述第二真实印章对应的第二概率分布,以及对所述印章数据和所述第二真实印章进行联合概率分布计算获得对应的第三概率分布;
根据所述图像配准网络中的熵值计算层对所述第一概率分布、所述第二概率分布以及所述第三概率分布进行熵值计算,获得所述印章数据对应的所述配准熵值;
其中,根据下列公式计算所述配准熵值:
;
A表示所述印章数据,B表示所述第二真实印章,表示所述配准熵值,a表示所述印章数据对应的第一像素值,b表示所述第二真实印章对应的第二像素值,/>表示所述第一像素值和所述第二像素值在所述第三概率分布下的概率值,/>表示所述第一像素值在所述第一概率分布下的概率值,/>表示所述第二像素值在所述第二概率分布下的概率值。
2.如权利要求1所述的基于人工智能的档案鉴定方法,其特征在于,获取待鉴定档案,根据修改后的所述辅助鉴定模型对所述待鉴定档案进行处理,得到档案辅助鉴定成果之后,还包括:
获取档案鉴定结果查询请求;
对发送所述档案鉴定结果查询请求的用户身份进行访问认证;
对通过访问认证的用户发送的档案鉴定结果查询请求,确定出所述档案鉴定结果查询请求对应的目标档案和目标档案鉴定结果,并返回所述目标档案和所述目标档案鉴定结果至用户。
3.如权利要求1所述的基于人工智能的档案鉴定方法,其特征在于,所述辅助鉴定模型还包括时间识别模型,至少根据所述印章数据、所述时间数据和所述文本数据中的一项进行鉴定模型训练,获得所述辅助鉴定模型,包括:
根据所述时间识别模型的关键词识别层对所述时间数据进行关键词识别,获得所述时间数据对应的关键实体;
根据所述时间识别模型的关系识别层对所述关键实体进行关系分类,获得所述关键实体之间对应的关联关系;
根据所述关键实体和所述关联关系获得所述时间数据对应的预测时间;
根据所述时间识别模型的损失计算层对所述预测时间和所述档案样本数据对应的真实时间进行损失计算,进而对所述时间识别模型的模型参数进行调整,获得训练后的所述时间识别模型。
4.如权利要求1所述的基于人工智能的档案鉴定方法,其特征在于,所述辅助鉴定模型还包括机密分类模型,至少根据所述印章数据、所述时间数据和所述文本数据中的一项进行鉴定模型训练,获得所述辅助鉴定模型,包括:
确定所述机密分类模型对应的分类类型,并获得所述分类类型对应的关联文档;
根据所述机密分类模型的主题识别层对所述文本数据进行主题词识别,获得所述文本数据对应的目标主题词;
根据所述机密分类模型的类内密度确定层计算所述目标主题词在所述关联文档中对应的类内度量值;
根据所述机密分类模型的类外密度确定层计算所述目标主题词在所述关联文档中对应的类外度量值;
根据所述机密分类模型的密度分布层利用所述类内度量值和所述类外度量值计算所述文本数据在所述分类类型对应的密度分布值;
根据所述机密分类模型的类型确定层获得所述密度分布值对应的最大值,进而根据所述最大值确定所述文本数据对应的预测机密等级;
根据所述机密分类模型的损失计算层对所述预测机密等级和所述档案样本数据对应的真实机密等级进行损失计算,进而对所述机密分类模型的模型参数进行调整,获得训练后的所述机密分类模型。
5.如权利要求4所述的基于人工智能的档案鉴定方法,其特征在于,所述根据所述机密分类模型的类内密度确定层计算所述目标主题词在所述关联文档中对应的类内度量值,包括:
利用所述类内密度确定层获得所述关联文档对应的文档数量;
根据所述类内密度确定层计算所述目标主题词在所述分类类型对应的第一出现频率;
根据所述类内密度确定层利用所述文档数量和所述第一出现频率计算所述目标主题词对应的所述类内度量值;
其中,根据下列公式计算所述类内度量值:
;
n表示第j个所述分类类型对应的所述文档数量,表示所述目标主题词t在第j个所述分类类型对应的第i个所述关联文档C中的所述第一出现频率,CI表示所述类内度量值。
6.如权利要求4所述的基于人工智能的档案鉴定方法,其特征在于,所述根据所述机密分类模型的类外密度确定层计算所述目标主题词在所述关联文档中对应的类外度量值,包括:
根据所述类外密度确定层获得所述机密分类模型对应的所述分类类型对应的类别总数;
根据所述类外密度确定层计算所述目标主题词在所述分类类型对应的第二出现频率;
根据所述类外密度确定层利用所述类别总数和所述第二出现频率计算所述目标主题词对应的所述类外度量值;
其中,根据下列公式计算所述类外度量值:
;
N表示所述分类类型对应的所述类别总数,表示所述目标主题词t在第j个所述分类类型对应的全部所述关联文档C中的所述第二出现频率,CO表示所述类外度量值。
7.一种基于人工智能的档案鉴定系统,其特征在于,包括:
模型训练模块,用于获取档案样本数据和所述档案样本数据对应的至少一个标签属性,根据所述档案样本数据和所述档案样本数据对应的标签属性建立辅助鉴定模型;其中,辅助鉴定模型包括至少一个辅助鉴定子模型,每个所述标签属性对应一个所述辅助鉴定子模型;
模型修改模块,用于获取模型修改指令,响应于所述模型修改指令,对所述辅助鉴定模型进行修改;
模型应用模型,用于获取待鉴定档案,根据修改后的所述辅助鉴定模型对所述待鉴定档案进行处理,得到档案辅助鉴定成果;
所述模型训练模块在根据所述档案样本数据和所述档案样本数据对应的标签属性建立辅助鉴定模型过程中,执行:
根据所述标签属性从所述档案样本数据中获得对应的标签数据,所述标签属性至少包括真伪属性、时效属性和机密属性,所述标签数据至少包括所述真伪属性对应的印章数据,所述时效属性对应的时间数据,所述机密属性对应的文本数据;
至少根据所述印章数据、所述时间数据和所述文本数据中的一项进行鉴定模型训练,获得所述辅助鉴定模型;
所述辅助鉴定模型至少包括图像真伪识别模型,至少根据所述印章数据、所述时间数据和所述文本数据中的一项进行鉴定模型训练,获得所述辅助鉴定模型,包括:
根据所述图像真伪识别模型的关联文本网络从所述档案样本数据中获得所述印章数据对应的关联文本;
根据所述图像真伪识别模型的印章确定网络对所述关联文本进行分类获得所述印章数据对应的第一真实印章;
根据所述图像真伪识别模型的图像配准网络对所述印章数据和所述第一真实印章进行图像配准,获得所述印章数据对应的配准熵值;
根据所述图像真伪识别模型的真伪识别网络对所述配准熵值进行判断,获得真伪判断结果;
根据所述真伪判断结果和所述档案样本数据对应的标注真伪结果对所述图像真伪识别模型进行参数调整,获得训练后的所述图像真伪识别模型;
所述根据所述图像真伪识别模型的图像配准网络对所述印章数据和所述第一真实印章进行图像配准,获得所述印章数据对应的配准熵值,包括:
根据所述图像配准网络中的角点检测层对所述印章数据进行特征提取获得所述印章数据对应的第一角点特征和对所述第一真实印章进行特征提取获得所述第一真实印章对应的第二角点特征;
根据所述图像配准网络中的尺度计算层对所述第一角点特征和所述第二角点特征的特征尺度进行全局搜索,获得所述第一角点特征对应的第一极值和所述第二角点特征对应的第二极值,进而根据所述第一极值和所述第二极值确定所述印章数据和所述第一真实印章对应的缩放因子;
根据所述缩放因子对所述第一真实印章进行图像缩放,获得所述第一真实印章对应的第二真实印章;
根据所述图像配准网络中的概率分布层对所述印章数据进行概率分布计算获得所述印章数据对应的第一概率分布,对所述第二真实印章进行概率分布计算获得所述第二真实印章对应的第二概率分布,以及对所述印章数据和所述第二真实印章进行联合概率分布计算获得对应的第三概率分布;
根据所述图像配准网络中的熵值计算层对所述第一概率分布、所述第二概率分布以及所述第三概率分布进行熵值计算,获得所述印章数据对应的所述配准熵值;
其中,根据下列公式计算所述配准熵值:
;
A表示所述印章数据,B表示所述第二真实印章,表示所述配准熵值,a表示所述印章数据对应的第一像素值,b表示所述第二真实印章对应的第二像素值,/>表示所述第一像素值和所述第二像素值在所述第三概率分布下的概率值,/>表示所述第一像素值在所述第一概率分布下的概率值,/>表示所述第二像素值在所述第二概率分布下的概率值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410218211.6A CN117786121B (zh) | 2024-02-28 | 2024-02-28 | 一种基于人工智能的档案鉴定方法以及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410218211.6A CN117786121B (zh) | 2024-02-28 | 2024-02-28 | 一种基于人工智能的档案鉴定方法以及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117786121A CN117786121A (zh) | 2024-03-29 |
CN117786121B true CN117786121B (zh) | 2024-05-03 |
Family
ID=90400434
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410218211.6A Active CN117786121B (zh) | 2024-02-28 | 2024-02-28 | 一种基于人工智能的档案鉴定方法以及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117786121B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102012999A (zh) * | 2010-12-03 | 2011-04-13 | 成都讯业科技有限公司 | 机读信息卡的电子档案及其实现方法与系统 |
CN115129959A (zh) * | 2022-08-25 | 2022-09-30 | 北京美络克思科技有限公司 | 一种档案智能鉴定方法、装置及系统 |
CN115146021A (zh) * | 2021-03-30 | 2022-10-04 | 北京三快在线科技有限公司 | 文本检索匹配模型的训练方法、装置、电子设备及介质 |
CA3165958A1 (en) * | 2022-01-31 | 2023-07-31 | Intuit Inc. | Multimodal, multitask machine learning system for document intelligence tasks |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021086837A1 (en) * | 2019-10-29 | 2021-05-06 | Woolly Labs, Inc. Dba Vouched | System and methods for authentication of documents |
-
2024
- 2024-02-28 CN CN202410218211.6A patent/CN117786121B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102012999A (zh) * | 2010-12-03 | 2011-04-13 | 成都讯业科技有限公司 | 机读信息卡的电子档案及其实现方法与系统 |
CN115146021A (zh) * | 2021-03-30 | 2022-10-04 | 北京三快在线科技有限公司 | 文本检索匹配模型的训练方法、装置、电子设备及介质 |
CA3165958A1 (en) * | 2022-01-31 | 2023-07-31 | Intuit Inc. | Multimodal, multitask machine learning system for document intelligence tasks |
CN115129959A (zh) * | 2022-08-25 | 2022-09-30 | 北京美络克思科技有限公司 | 一种档案智能鉴定方法、装置及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117786121A (zh) | 2024-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11475143B2 (en) | Sensitive data classification | |
EP3985578A1 (en) | Method and system for automatically training machine learning model | |
WO2020000688A1 (zh) | 财务风险验证处理方法、装置、计算机设备及存储介质 | |
JP2021534483A (ja) | 個人情報の調査結果の信頼性レベルを特定するための機械学習システムおよび方法 | |
AU2019200711B2 (en) | Biometric verification | |
CN104636449A (zh) | 基于lsa-gcc的分布式大数据系统风险识别方法 | |
CN111291070A (zh) | 一种异常sql检测方法、设备及介质 | |
CN109190698B (zh) | 一种网络数字虚拟资产的分类识别系统及方法 | |
CN111932363A (zh) | 授权书的识别审核方法、装置、设备及系统 | |
WO2022262752A1 (zh) | 基于数据交互的信息推荐方法、装置、设备及存储介质 | |
Ippolito et al. | Tax Crime Prediction with Machine Learning: A Case Study in the Municipality of São Paulo. | |
CN110929525A (zh) | 一种网贷风险行为分析检测方法、装置、设备和存储介质 | |
CN112990989B (zh) | 价值预测模型输入数据生成方法、装置、设备和介质 | |
CN116701641B (zh) | 一种非结构化数据的分级分类方法及装置 | |
CN116881687B (zh) | 一种基于特征提取的电网敏感数据识别方法及装置 | |
Tournier et al. | Expanding the attack surface: Robust profiling attacks threaten the privacy of sparse behavioral data | |
CN117786121B (zh) | 一种基于人工智能的档案鉴定方法以及系统 | |
WO2022262775A1 (zh) | 基于数据交互的信息处理方法、装置、设备及存储介质 | |
WO2022262774A1 (zh) | 信息交互方法、装置、设备及存储介质 | |
Hamad et al. | Sentiment analysis of restaurant reviews in social media using naïve bayes | |
Ding et al. | Improved density peaks clustering based on natural neighbor expanded group | |
Rofik et al. | Optimization of SVM and Gradient Boosting Models Using GridSearchCV in Detecting Fake Job Postings | |
Siddikk et al. | FakeTouch: machine learning based framework for detecting fake news | |
CN113901817A (zh) | 文档分类方法、装置、计算机设备和存储介质 | |
Wu et al. | A Collaborative Filtering Method for Operation Maintenance Behavior in Power Monitoring Systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |