CN112100336A - 一种档案的保存时间鉴定方法、装置及存储介质 - Google Patents

一种档案的保存时间鉴定方法、装置及存储介质 Download PDF

Info

Publication number
CN112100336A
CN112100336A CN202011034123.9A CN202011034123A CN112100336A CN 112100336 A CN112100336 A CN 112100336A CN 202011034123 A CN202011034123 A CN 202011034123A CN 112100336 A CN112100336 A CN 112100336A
Authority
CN
China
Prior art keywords
text
identified
file
archive
training samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011034123.9A
Other languages
English (en)
Inventor
沈文俊
丁诗璟
高明
余刚
胡德清
赵琴
刘维安
沈冰华
李亮
万聪
欧阳明
袁园
李金灵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202011034123.9A priority Critical patent/CN112100336A/zh
Publication of CN112100336A publication Critical patent/CN112100336A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Optimization (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供一种档案的保存时间鉴定方法、装置及存储介质,所述方法包括:获取预设数量标注有不同保存时间的档案;对所述档案进行解析,将解析后得到的预设数量的文本作为训练样本;提取所述训练样本中文本的特征向量;基于提取的所述训练样本中每个文本的特征向量计算所述训练样本中文本的归类条件;对获取的待鉴定档案进行解析,得到所述待鉴定档案对应的待鉴定文本;提取所述待鉴定文本的特征向量;基于所述归类条件计算所述待鉴定文本的特征向量的归类值,以便于根据所述归类值确定所述待鉴定文本对应的档案的保存时间,从而提高档案的保存时间鉴定的效率。

Description

一种档案的保存时间鉴定方法、装置及存储介质
技术领域
本说明书实施例涉及计算机技术领域,特别涉及一种档案的保存时间鉴定方法、装置及存储介质。
背景技术
档案是个人、组织、机关在社会活动中形成具有保存意义的音像、文字、图表以及其他各种形式的历史记录。随着现代信息技术的发展,当前计算机计算、人工智能技术、存储技术以及网络技术都为文化档案的数字化管理提供了技术保障。数字化管理相对于传统的纸质档案管理具有成本低、检索方便、保存年限长、保密性高等特点。能够有效的提高文化档案管理的效率及作用。
档案价值鉴定是甄别档案文件的现实价值和历史价值,进行存毁处置的一项档案业务工作。鉴定档案的原则:要用全面的、历史的、发展的观点来判定档案的价值。通俗的来讲档案价值鉴定即应分清哪些需要保存,哪些不需要保存,也即鉴别“存”与“毁”的工作。分清应该保存的文书档案具体保存多长时间,对应存文书档案划定保管期限。当前档案的价值鉴定依赖于人工对档案进行阅览,基于人的经验和档案知识判断档案是否具有保存价值
当然,也有档案单位通过设置关键字匹配及关键字的权值来自动鉴定档案保存时间。具体的可以提取档案内容的关键词,然后通过预设的对照表来对关键词进行匹配,得到匹配的关键词集合,再通过对关键词集合中关键词的权值计算来确定档案的保存时间。
目前的档案保存系统使用关键字匹配进行保存时间鉴定的方案,仍需要人工进行关键字的梳理和维护,这对档案管理人员的专业知识和经验有很强的要求,同时,关键字会随着档案的增多逐渐增多,关键字也会随着时间的推移进行变化,目前的档案保存系统对档案的保存时间鉴定的效率低。
发明内容
本说明书实施例的目的是提供一种档案的保存时间鉴定方法、装置及存储介质,以提高档案的保存时间鉴定的效率。
为解决上述问题,本说明书实施例提供一种档案的保存时间鉴定方法,所述方法包括:获取预设数量标注有不同保存时间的档案;对所述档案进行解析,将解析后得到的预设数量的文本作为训练样本;提取所述训练样本中文本的特征向量;基于提取的所述训练样本中每个文本的特征向量计算所述训练样本中文本的归类条件;对获取的待鉴定档案进行解析,得到所述待鉴定档案对应的待鉴定文本;提取所述待鉴定文本的特征向量;基于所述归类条件计算所述待鉴定文本的特征向量的归类值,以便于根据所述归类值确定所述待鉴定文本对应的档案的保存时间。
为解决上述问题,本说明书实施例还提供一种档案的保存时间鉴定装置,所述装置包括:获取模块,用于获取预设数量标注有不同保存时间的档案;第一解析模块,用于对所述档案进行解析,将解析后得到的预设数量的文本作为训练样本;第一提取模块,用于提取所述训练样本中文本的特征向量;计算模块,用于基于提取的所述训练样本中每个文本的特征向量计算所述训练样本中文本的归类条件;第二解析模块,用于对获取的待鉴定档案进行解析,得到所述待鉴定档案对应的待鉴定文本;第二提取模块,用于提取所述待鉴定文本的特征向量;鉴定模块,用于基于所述归类条件计算所述待鉴定文本的特征向量的归类值,以便于根据所述归类值鉴定所述待鉴定文本对应的档案的保存时间。
为解决上述问题,本说明书实施例还提供一种电子设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序以实现:获取预设数量标注有不同保存时间的档案;对所述档案进行解析,将解析后得到的预设数量的文本作为训练样本;提取所述训练样本中文本的特征向量;基于提取的所述训练样本中每个文本的特征向量计算所述训练样本中文本的归类条件;对获取的待鉴定档案进行解析,得到所述待鉴定档案对应的待鉴定文本;提取所述待鉴定文本的特征向量;基于所述归类条件计算所述待鉴定文本的特征向量的归类值,以便于根据所述归类值确定所述待鉴定文本对应的档案的保存时间。
为解决上述问题,本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现:获取预设数量标注有不同保存时间的档案;对所述档案进行解析,将解析后得到的预设数量的文本作为训练样本;提取所述训练样本中文本的特征向量;基于提取的所述训练样本中每个文本的特征向量计算所述训练样本中文本的归类条件;对获取的待鉴定档案进行解析,得到所述待鉴定档案对应的待鉴定文本;提取所述待鉴定文本的特征向量;基于所述归类条件计算所述待鉴定文本的特征向量的归类值,以便于根据所述归类值确定所述待鉴定文本对应的档案的保存时间。
为解决上述问题,本说明书实施例还提供一种档案的保存时间鉴定方法,所述方法包括:对获取的待鉴定档案进行解析,得到所述待鉴定档案对应的待鉴定文本;提取所述待鉴定文本的特征向量;将所述待鉴定文本的特征向量输入档案鉴定模型中,得到表征待鉴定档案保存时间的鉴定结果;其中,所述档案鉴定模型基于训练样本和深度学习算法训练得到。
为解决上述问题,本说明书实施例还提供一种档案的保存时间鉴定装置,所述装置包括:解析模块,用于对获取的待鉴定档案进行解析,得到所述待鉴定档案对应的待鉴定文本;提取模块,用于提取所述待鉴定文本的特征向量;鉴定模块,用于将所述待鉴定文本的特征向量输入档案鉴定模型中,得到表征待鉴定档案保存时间的鉴定结果;其中,所述档案鉴定模型基于训练样本和深度学习算法训练得到。
为解决上述问题,本说明书实施例还提供一种电子设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序以实现:对获取的待鉴定档案进行解析,得到所述待鉴定档案对应的待鉴定文本;提取所述待鉴定文本的特征向量;将所述待鉴定文本的特征向量输入档案鉴定模型中,得到表征待鉴定档案保存时间的鉴定结果;其中,所述档案鉴定模型基于训练样本和深度学习算法训练得到。
为解决上述问题,本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现:对获取的待鉴定档案进行解析,得到所述待鉴定档案对应的待鉴定文本;提取所述待鉴定文本的特征向量;将所述待鉴定文本的特征向量输入档案鉴定模型中,得到表征待鉴定档案保存时间的鉴定结果;其中,所述档案鉴定模型基于训练样本和深度学习算法训练得到。
由以上本说明书实施例提供的技术方案可见,本说明书实施例中,可以获取预设数量标注有不同保存时间的档案;对所述档案进行解析,将解析后得到的预设数量的文本作为训练样本;提取所述训练样本中文本的特征向量;基于提取的所述训练样本中每个文本的特征向量计算所述训练样本中文本的归类条件;对获取的待鉴定档案进行解析,得到所述待鉴定档案对应的待鉴定文本;提取所述待鉴定文本的特征向量;基于所述归类条件计算所述待鉴定文本的特征向量的归类值,以便于根据所述归类值确定所述待鉴定文本对应的档案的保存时间。本说明书实施例提供的方法,能极大的节省人力成本,同传统的人工进行档案的保存时间鉴定相比,能自动进行档案的价值鉴定,极大的节省了人力成本,且能够快速准确的进行档案的自动价值鉴定,相对于使用关键字匹配方案,提高了档案的保存时间鉴定的效率和准确性。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例一个场景示例的示意图;
图2为本说明书实施例一种档案的保存时间鉴定方法的流程图;
图3为本说明书实施例一种档案的保存时间鉴定方法的流程图;
图4为本说明书实施例一种电子设备的功能结构示意图;
图5为本说明书实施例一种档案的保存时间鉴定装置的功能结构示意图;
图6为本说明书实施例一种档案的保存时间鉴定装置的功能结构示意图。
具体实施方式
下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
档案价值鉴定是甄别档案文件的现实价值和历史价值,进行存毁处置的一项档案业务工作。鉴定档案的原则:要用全面的、历史的、发展的观点来判定档案的价值。通俗的来讲档案价值鉴定即应分清哪些需要保存,哪些不需要保存,也即鉴别“存”与“毁”的工作。分清应该保存的文书档案具体保存多长时间,对应存文书档案划定保管期限。
由于档案种类较多,各种类对应的保管期限又不尽一致。随着社会历史进程的变迁,一份档案的保管价值会随外界环境而发生变化。因此,档案价值的鉴定需要实现自动化,以应对不断变化的外界形势。
目前,实现档案价值自动化鉴定方式有利用文书档案关键字相似度度量的方法,即通过设置关键字匹配及关键字的权值来自动鉴定档案的保存时间。具体的可以提取档案内容的关键词,然后通过预设的对照表来对关键词进行匹配,得到匹配的关键词集合,再通过对关键词集合中关键词的权值计算来确定档案的价值。但是,这种方法仍需要人工进行关键字的梳理和维护,这对档案管理人员的专业知识和经验有很强的要求,同时,关键字会随着档案的增多逐渐增多,关键字也会随着时间的推移进行变化,使得维护工作将越来越复杂。
考虑到如果通过机器学习的方法来获取档案的保存时间与档案内容的关联关系,具体的,可以通过对大量的档案进行标注,标注各个档案的价值,将这些档案作为训练样本,然后通过机器学习的方法获取档案的保存时间与档案内容的关联关系,进而得出档案的归类条件,从而使得对于其他档案,可以通过该归类条件对这些其他的档案进行自动化价值鉴定,从而避免了现有技术中需要人工进行关键字的梳理和维护,节省人力成本,且提高档案的保存时间鉴定的准确性,以提高档案的保存时间鉴定的效率。
本说明书实施例提供了一个场景示例,如图1所示,图1为本实施方式提供的一个场景示例的流程图。
在本场景示例中,可以获取多个已鉴定的档案,并对已鉴定的档案进行标注。具体的,所述已鉴定的档案为已经确定保存时间的档案,对这些档案,可以进行标注,标注每个档案的保存时间。其中,在获取的多个已鉴定的档案中尽可能包括多个不同保存时间的档案。档案的保存时间可以为永久保存、30年保存、15年保存、10年保存、5年保存。举例来说,对于标题为《关于成立建信金融科技技术有限责任公司的通知》的档案,业务人员可以根据其文字内容判定其关乎公司战略导向,可以列入公司大事记,判定该份档案为“具有永久保存价值”。
在本场景示例中,档案文件通常可以有多种不同的文件格式,例如档案文件可以为pdf图片、jpg、png等格式的图片文件,也可以为word、xml、htlm等格式的文本文件。
在本场景示例中,可以对获取的档案文件进行解析,得到每个档案对应的纯文本内容。具体的,对于格式为pdf图片、jpg、png的图片文件,则可以通过OCR(OpticalCharacter Recognition,光学字符识别)技术提取文件中的文字信息,得到可识别的文本;对于word、xml、htlm等格式的文本文件,则可以将这些文本文件转换为可识别的文本。
在本场景示例中,可以将得到的多个文本作为训练样本,其中,每个训练样本均标注有对应的档案的保存时间。
在本场景示例中,可以对训练样本中的各个文本进行分词,得到每个文本对应的多个词语。举例来说,对于文本样例“为贯彻落实全行工作会议精神,根据金融科技最新形势和业务发展要求,总行研究制定了《2020年金融科技工作要点》,现予印发。请各分行、相关部门结合实际认真贯彻执行,纵深推进金融科技战略落地实施,支持全行业务高质量发展。”的分词结果可以为:“为”、“贯彻”、“落实”、“全行”、“工作会议”、“精神”,“根据”、“金融科技”、“最新”、“形势”、“和”、“业务”、“发展”、“要求”,“总行”、“研究”、“制定”、“了”、“《”、“2020年”、“金融科技”、“工作要点”、“》”,“现”、“予”、“印发”。“请”“各分行”、“相关部门”、“结合”、“实际”、“认真”、“贯彻执行”,“纵深”、“推进”、“金融科技”、“战略”、“落地”、“实施”,“支持”、“全行”、“业务”、“高质量”、“发展”。
目前常见的分词方法主要可以分为三大类:基于词典匹配的方法、基于统计的方法和基于深度学习的方法。
所述基于词典匹配方法的核心思想是将待分词的中文文本利用一个尽可能全面的词典和预定规则进行切分,如果分词结果和文本匹配成功则完成分词,否则重新选择选择合适的规则进行切分直到完全匹配。常用方法有正向最大匹配、逆向最大匹配和双向匹配。这种方法的优点是分词速度快,但缺点十分明显,词典质量严重影响分词的效果,且当遇到未登录词时,分词效果不好。
所述基于统计的分词方法是将分词问题转化成为利用统计方法解决序列标注的问题。常用的方法有隐马尔可夫模型,条件随机场等。基本思路是人工标注中文文本中的汉字,利用标注结果训练模型,利用训练完成的模型对未标记的文本进行分词。这类方法考虑了词语在文中出现的词频以及上下文环境,相比基于字典匹配的方法,能够更好地处理歧义词和未登录词。是目前最常用的分词方法。
随着深度学习(Deep Learning)的迅猛发展,还出现了利用深度学习技术进行分词的方法。所述基于深度学习的分词方法采用一种端到端学习的方式,相比于统计学习的方法,不再需要手动取特征。较常见的基于深度学习的分词方法是采用双向长短期记忆网(Bi-directional Long Short-Term Memory,Bi-LSTM)和条件随机场(ConditionalRandom Fields,CRF)实现分词模型。Bi-LSTM是循环神经网络(Recurrent NeuralNetwork,RNN)的一个变体,是目前利用深度学习处理自然语言处理领域中长距离依赖问题时最为主流的网络结构。
在本场景示例中,可以采用上述任一种分词方法对文本进行分词。在一个具体的示例中,分词方法可以是对每一个字进行分类,即对句子进行序列标注。
例如:为贯彻落实全行工作会议精神
S BE BE BE BMME BE
为贯彻落实全行工作会议精神
<single begin middle end>
通过大量的人工标注的序列,构建机器学习模型,基于文字前后的信息以及词组信息,对于新输入的句子进行序列预测,从而实现高准确度的分词效果。
在本场景示例中,通过词嵌入的方法将各个词语替换为等长的词向量,将所述文本中各个词语对应的词向量构成的矩阵作为所述文本的特征向量。其中,所述词嵌入是指将一个词语(word)转换为一个向量(vector)表示。具体的,词嵌入可以通过学习一个映射f,将单词变成向量表示:vecvector=f(word)。
传统的向量表示方法采用的是离散表示(One-hotRepresentation),这种方法将单词看作一个原子符号,用一个维度很大的向量来表示一个词。向量的维度是词典的大小,向量的分量中只有一个1,其位置对应该词在词典中的位置,其它位置都是0。例如,“话筒”表示为[0,0,0,1,0,0,0,0,…,0],“麦克风”表示为[0,0,0,0,0,0,0,1,…,0]。很明显,离散表示方法容易受维度灾难问题(The Curse of Dimensionality)的困扰,尤其是将其用于深度学习的一些算法时。这种表示方法还存在一个重要的问题就是“词汇鸿沟”现象:任意两个词之间都是孤立的。仅仅从这两个向量中看不出两个词是否有关系,不能很好地刻画词与词之间的相似性,哪怕是“话筒”和“麦克风”这样的同义词也不能幸免于难。
在本场景示例中,通过词嵌入的方法将各个词语替换为等长的词向量不仅会得到更丰富的有关词语的信息,而且输入的维数还下降了,因此性能会大大提高。所述词嵌入的方法通过word2vec算法或Bert(Bidirectional Encoder Representations fromTransformers)算法实现。其中,word2vec算法可以包括CBOW模型(Continuous Bag-of-Words Model)和Skip-gram模型。
CBOW模型的训练输入是某一个特征词的上下文相关的词对应的词向量,而输出就是这特定的一个词的词向量。比如下面这段话“an efficient method for learning highquality distributed vector”,我们的上下文大小取值为4,特定的这个词是“Learning”,也就是需要的输出词向量,上下文对应的词有8个,前后各4个,这8个词是我们模型的输入。由于CBOW使用的是词袋模型,因此这8个词都是平等的,也就是不考虑他们和我们关注的词之间的距离大小,只要在我们上下文之内即可。
Skip-gram模型和CBOW的思路是反着来的,即输入是特定的一个词的词向量,而输出是特定词对应的上下文词向量。还是上面的例子,上下文大小取值为4,特定的这个词“Learning”是模型的输入,而这8个上下文词是模型的输入。
Bert算法是基于Transformer算法的双向编码表征算法,Transformer算法基于多头注意力(Multi-Head attention)机制,而Bert又堆叠了多个Transfromer模型,并通过调节所有层中的双向Transformer来预先训练双向深度表示,而且预训练的Bert模型可以通过一个额外的输出层来进行微调,适用性更广,并且不需要做更多重复性的模型训练工作。
在本场景示例中,通过词嵌入的方法可以将所述文本中各个词语对应的词向量构成的矩阵作为所述文本的特征向量。具体的,所述文本由多个句子构成,每个句子由多个词语组成。词语是有等长的词向量表示,句子补齐为同样长度的词语个数,这样一个文本就表示为一个整齐的矩阵,该矩阵记为X,标记的保存时间记为Y。
在本场景示例中,可以采用深度学习算法构建一个分类模型。具体的,可以采用TextCNN算法或BiLSTM算法构建分类模型。当然,也可以采用TextRNN、FastText、TextRCNN等算法构建分类模型。本说明书实施例中,还可以采用其他任意深度学习算法来构建分类模型,本说明书实施例对此不作限定。
在本场景示例中,可以将训练样本中各个文本的特征向量作为输入,对所述分类模型进行训练,将训练后的分类模型作为所述档案鉴定模型。具体的,所述分类模型可以基于所述训练样本中每个文本的特征向量计算所述训练样本中文本的归类条件。举例来说,所述归类条件可以用一个线性函数来表示,例如表示为:
Y=f(X)=aX+b
其中,a和b为分类模型对所述训练样本中每个文本的特征向量进行计算后得到的参数;Y=f(X)表示特征向量与保存时间的映射关系。
在本场景示例中,可以将训练后的分类模型作为档案鉴定模型。对于待鉴定档案,可以将该待鉴定档案进行解析,得到所述待鉴定档案对应的待鉴定文本;提取所述待鉴定文本的特征向量;将所述待鉴定文本的特征向量输入档案鉴定模型中,得到表征待鉴定档案保存时间的鉴定结果。具体的,可以将待鉴定文本的特征向量X作为模型的输入,f(X)为模型的输出。其中,f(X)可以对应具体的保存时间,即模型的输出至即为档案的鉴定结果。
本场景示例中,可以通过对现有的已经人工价值鉴定的档案进行标注,基于自然语言处理解析档案原文为文本,然后进行分词和词嵌入,基于深度学习算法来训练档案鉴定模型。模型训练完成之后,就可以通过模型来对新的档案进行自动的价值鉴定。本场景示例提供的方法,能极大的节省人力成本,同传统的人工进行档案的保存时间鉴定相比,能自动进行档案的价值鉴定,极大的节省了人力成本,且能够快速准确的进行档案的自动价值鉴定,相对于使用关键字匹配方案,提高了档案的保存时间鉴定的效率和准确性。
请参阅图2。本说明书实施例还提供一种档案的保存时间鉴定方法。在本说明书实施例中,执行所述档案的保存时间鉴定方法的主体可以是具有逻辑运算功能的电子设备,所述电子设备可以是服务器。所述服务器可以是具有一定运算处理能力的电子设备。其可以具有网络通信单元、处理器和存储器等。当然,所述服务器并不限于上述具有一定实体的电子设备,其还可以为运行于上述电子设备中的软体。所述服务器还可以为分布式服务器,可以是具有多个处理器、存储器、网络通信模块等协同运作的系统。或者,服务器还可以为若干服务器形成的服务器集群。所述方法可以包括以下步骤。
S210:获取预设数量标注有不同保存时间的档案。
在一些实施例中,服务器可以获取多个已鉴定的档案,并对已鉴定的档案进行标注。具体的,所述已鉴定的档案为已经确定保存时间的档案,对这些档案,可以进行标注,标注每个档案的保存时间。其中,在获取的多个已鉴定的档案中尽可能包括多个不同保存时间的档案。档案的保存时间可以为永久保存、30年保存、15年保存、10年保存、5年保存。当然,档案的保存时间还可以为其他时间。举例来说,对于标题为《关于成立建信金融科技技术有限责任公司的通知》的档案,业务人员可以根据其文字内容判定其关乎公司战略导向,可以列入公司大事记,判定该份档案为“具有永久保存价值”。
在一些实施例中,服务器可以通过以下方式获取预设数量标注有不同保存时间的档案:用户可以在所述服务器中导入预设数量标注有不同保存时间的档案。所述服务器可以接受导入的预设数量标注有不同保存时间的档案。例如,所述服务器可以向用户提供交互界面,用户可以在所述交互界面中导入预设数量标注有不同保存时间的档案。所述服务器可以获取预设数量标注有不同保存时间的档案。或者,用户还可以在客户端中导入预设数量标注有不同保存时间的档案。所述客户端可以接收用户导入的预设数量标注有不同保存时间的档案。客户端可以向所述服务器发送预设数量标注有不同保存时间的档案。所述服务器可以获取预设数量标注有不同保存时间的档案。例如,所述客户端可以向用户提供交互界面,用户可以在所述交互界面中导入预设数量标注有不同保存时间的档案。所述客户端可以接收用户导入的预设数量标注有不同保存时间的档案,向所述服务器发送预设数量标注有不同保存时间的档案。所述客户端例如可以为智能手机、平板电脑、笔记本电脑、台式电脑等等。所述客户端能够与所述服务器进行通信,例如可以通过有线网络和/或无线网络与所述服务器进行通信。当然,所述服务器还可以通过其他方式获取预设数量标注有不同保存时间的档案,在本说明书实施例中,对服务器采用何种方式获取预设数量标注有不同保存时间的档案不作限定。
S220:对所述档案进行解析,将解析后得到的预设数量的文本作为训练样本。
在一些实施例中,档案文件通常可以有多种不同的文件格式,例如档案文件可以为pdf图片、jpg、png等格式的图片文件,也可以为word、xml、htlm等格式的文本文件。
在一些实施例中,可以对获取的档案文件进行解析,得到每个档案对应的纯文本内容。具体的,对于格式为pdf图片、jpg、png的图片文件,则可以通过OCR(OpticalCharacter Recognition,光学字符识别)技术提取文件中的文字信息,得到可识别的文本;对于word、xml、htlm等格式的文本文件,则可以将这些文本文件转换为可识别的文本。
在一些实施例中,可以将得到的多个文本作为训练样本,其中,每个训练样本均标注有对应的档案的保存时间。
S230:提取所述训练样本中文本的特征向量。
在一些实施例中,所述特征向量可以表示文本中各个词语之间的关系。所述提取所述训练样本中文本的特征向量包括:对所述文本进行分词,得到所述文本对应的多个词语;通过词嵌入的方法将各个词语替换为等长的词向量,将所述文本中各个词语对应的词向量构成的矩阵作为所述文本的特征向量。
具体的,可以对训练样本中的各个文本进行分词,得到每个文本对应的多个词语。举例来说,对于文本样例“为贯彻落实全行工作会议精神,根据金融科技最新形势和业务发展要求,总行研究制定了《2020年金融科技工作要点》,现予印发。请各分行、相关部门结合实际认真贯彻执行,纵深推进金融科技战略落地实施,支持全行业务高质量发展。”的分词结果可以为:“为”、“贯彻”、“落实”、“全行”、“工作会议”、“精神”,“根据”、“金融科技”、“最新”、“形势”、“和”、“业务”、“发展”、“要求”,“总行”、“研究”、“制定”、“了”、“《”、“2020年”、“金融科技”、“工作要点”、“》”,“现”、“予”、“印发”。“请”“各分行”、“相关部门”、“结合”、“实际”、“认真”、“贯彻执行”,“纵深”、“推进”、“金融科技”、“战略”、“落地”、“实施”,“支持”、“全行”、“业务”、“高质量”、“发展”。
目前常见的分词方法主要可以分为三大类:基于词典匹配的方法、基于统计的方法和基于深度学习的方法。
所述基于词典匹配方法的核心思想是将待分词的中文文本利用一个尽可能全面的词典和预定规则进行切分,如果分词结果和文本匹配成功则完成分词,否则重新选择选择合适的规则进行切分直到完全匹配。常用方法有正向最大匹配、逆向最大匹配和双向匹配。这种方法的优点是分词速度快,但缺点十分明显,词典质量严重影响分词的效果,且当遇到未登录词时,分词效果不好。
所述基于统计的分词方法是将分词问题转化成为利用统计方法解决序列标注的问题。常用的方法有隐马尔可夫模型,条件随机场等。基本思路是人工标注中文文本中的汉字,利用标注结果训练模型,利用训练完成的模型对未标记的文本进行分词。这类方法考虑了词语在文中出现的词频以及上下文环境,相比基于字典匹配的方法,能够更好地处理歧义词和未登录词。是目前最常用的分词方法。
随着深度学习(Deep Learning)的迅猛发展,还出现了利用深度学习技术进行分词的方法。所述基于深度学习的分词方法采用一种端到端学习的方式,相比于统计学习的方法,不再需要手动取特征。较常见的基于深度学习的分词方法是采用双向长短期记忆网(Bi-directional Long Short-Term Memory,Bi-LSTM)和条件随机场(ConditionalRandom Fields,CRF)实现分词模型。Bi-LSTM是循环神经网络(Recurrent NeuralNetwork,RNN)的一个变体,是目前利用深度学习处理自然语言处理领域中长距离依赖问题时最为主流的网络结构。
在一些实施例中,可以采用上述任一种分词方法对文本进行分词。在一个具体的示例中,分词方法可以是对每一个字进行分类,即对句子进行序列标注。
例如:为贯彻落实全行工作会议精神
S BE BE BE BMME BE
为贯彻落实全行工作会议精神
<single begin middle end>
通过大量的人工标注的序列,构建机器学习模型,基于文字前后的信息以及词组信息,对于新输入的句子进行序列预测,从而实现高准确度的分词效果。
在一些实施例中,通过词嵌入的方法将各个词语替换为等长的词向量,将所述文本中各个词语对应的词向量构成的矩阵作为所述文本的特征向量。其中,所述词嵌入是指将一个词语(word)转换为一个向量(vector)表示。具体的,词嵌入可以通过学习一个映射f,将单词变成向量表示:vecvector=f(word)。
传统的向量表示方法采用的是离散表示(One-hotRepresentation),这种方法将单词看作一个原子符号,用一个维度很大的向量来表示一个词。向量的维度是词典的大小,向量的分量中只有一个1,其位置对应该词在词典中的位置,其它位置都是0。例如,“话筒”表示为[0,0,0,1,0,0,0,0,…,0],“麦克风”表示为[0,0,0,0,0,0,0,1,…,0]。很明显,离散表示方法容易受维度灾难问题(The Curse of Dimensionality)的困扰,尤其是将其用于深度学习的一些算法时。这种表示方法还存在一个重要的问题就是“词汇鸿沟”现象:任意两个词之间都是孤立的。仅仅从这两个向量中看不出两个词是否有关系,不能很好地刻画词与词之间的相似性,哪怕是“话筒”和“麦克风”这样的同义词也不能幸免于难。
在一些实施例中,通过词嵌入的方法将各个词语替换为等长的词向量不仅会得到更丰富的有关词语的信息,而且输入的维数还下降了,因此性能会大大提高。所述词嵌入的方法通过word2vec算法或Bert(Bidirectional Encoder Representations fromTransformers)算法实现。其中,word2vec算法可以包括CBOW模型(Continuous Bag-of-Words Model)和Skip-gram模型。
CBOW模型的训练输入是某一个特征词的上下文相关的词对应的词向量,而输出就是这特定的一个词的词向量。比如下面这段话“an efficient method for learning highquality distributed vector”,我们的上下文大小取值为4,特定的这个词是“Learning”,也就是需要的输出词向量,上下文对应的词有8个,前后各4个,这8个词是我们模型的输入。由于CBOW使用的是词袋模型,因此这8个词都是平等的,也就是不考虑他们和我们关注的词之间的距离大小,只要在我们上下文之内即可。
Skip-gram模型和CBOW的思路是反着来的,即输入是特定的一个词的词向量,而输出是特定词对应的上下文词向量。还是上面的例子,上下文大小取值为4,特定的这个词“Learning”是模型的输入,而这8个上下文词是模型的输入。
Bert算法是基于Transformer算法的双向编码表征算法,Transformer算法基于多头注意力(Multi-Head attention)机制,而Bert又堆叠了多个Transfromer模型,并通过调节所有层中的双向Transformer来预先训练双向深度表示,而且预训练的Bert模型可以通过一个额外的输出层来进行微调,适用性更广,并且不需要做更多重复性的模型训练工作。
在一些实施例中,通过词嵌入的方法可以将所述文本中各个词语对应的词向量构成的矩阵作为所述文本的特征向量。具体的,所述文本由多个句子构成,每个句子由多个词语组成。词语是有等长的词向量表示,句子补齐为同样长度的词语个数,这样一个文本就表示为一个整齐的矩阵,该矩阵记为X,标记的保存时间记为Y。
S240:基于提取的所述训练样本中每个文本的特征向量计算所述训练样本中文本的归类条件。
对于不同保存时间的档案对应的文本,可以通过计算得到不同保存时间的档案的归类条件。例如,同一保存时间的档案对应的文本的特征向量是相等或者是接近的,不同保存时间的档案对应的文本的特征向量是不同或者是不接近的。因此,可以基于提取的所述训练样本中每个文本的特征向量计算所述训练样本中文本的归类条件。
在一些实施例中,可以采用深度学习算法来计算所述训练样本中文本的归类条件。具体的,可以采用深度学习算法构建一个分类模型。例如,可以采用TextCNN算法或BiLSTM算法构建分类模型。当然,也可以采用TextRNN、FastText、TextRCNN等算法构建分类模型。本说明书实施例中,还可以采用其他任意深度学习算法来构建分类模型,本说明书实施例对此不作限定。
在一些实施例中,可以将训练样本中各个文本的特征向量作为输入,对所述分类模型进行训练,将训练后的分类模型作为所述档案鉴定模型。具体的,所述分类模型可以基于所述训练样本中每个文本的特征向量计算所述训练样本中文本的归类条件。举例来说,所述归类条件可以用一个线性函数来表示,例如表示为:
Y=f(X)=aX+b
其中,a和b为分类模型对所述训练样本中每个文本的特征向量进行计算后得到的参数;Y=f(X)表示特征向量与保存时间的映射关系。
S250:对获取的待鉴定档案进行解析,得到所述待鉴定档案对应的待鉴定文本。
具体的,对于待鉴定档案的解析步骤可以参照S120。
S260:提取所述待鉴定文本的特征向量。
具体的,对于提取所述待鉴定文本的特征向量的步骤可以参照S130。
S270:基于所述归类条件计算所述待鉴定文本的特征向量的归类值,以便于根据所述归类值确定所述待鉴定文本对应的档案的保存时间。
在一些实施例中,可以将所述待鉴定文本的特征向量X作为输入,根据所述归类条件可以输出得到f(X)。其中,f(X)即为所述待鉴定文本的特征向量的归类值,不同的归类值可以对应不同的保存时间。
本说明书实施例提供的方法,可以获取预设数量标注有不同保存时间的档案;对所述档案进行解析,将解析后得到的预设数量的文本作为训练样本;提取所述训练样本中文本的特征向量;基于提取的所述训练样本中每个文本的特征向量计算所述训练样本中文本的归类条件;对获取的待鉴定档案进行解析,得到所述待鉴定档案对应的待鉴定文本;提取所述待鉴定文本的特征向量;基于所述归类条件计算所述待鉴定文本的特征向量的归类值,以便于根据所述归类值确定所述待鉴定文本对应的档案的保存时间。本说明书实施例提供的方法,能极大的节省人力成本,同传统的人工进行档案的保存时间鉴定相比,能自动进行档案的价值鉴定,极大的节省了人力成本,且能够快速准确的进行档案的自动价值鉴定,相对于使用关键字匹配方案,提高了档案的保存时间鉴定的效率和准确性。
请参阅图3。本说明书实施例还提供一种档案的保存时间鉴定方法。在本说明书实施例中,执行所述档案的保存时间鉴定方法的主体可以是具有逻辑运算功能的电子设备,所述电子设备可以是服务器。所述服务器可以是具有一定运算处理能力的电子设备。其可以具有网络通信单元、处理器和存储器等。当然,所述服务器并不限于上述具有一定实体的电子设备,其还可以为运行于上述电子设备中的软体。所述服务器还可以为分布式服务器,可以是具有多个处理器、存储器、网络通信模块等协同运作的系统。或者,服务器还可以为若干服务器形成的服务器集群。所述方法可以包括以下步骤。
S310:对获取的待鉴定档案进行解析,得到所述待鉴定档案对应的待鉴定文本;
S320:提取所述待鉴定文本的特征向量。
S330:将所述待鉴定文本的特征向量输入档案鉴定模型中,得到表征待鉴定档案保存时间的鉴定结果;其中,所述档案鉴定模型基于训练样本和深度学习算法训练得到。
在一些实施例中,档案的保存时间可以为永久保存、30年保存、15年保存、10年保存、5年保存。当然,档案的保存时间还可以为其他时间。
在一些实施例中,所述训练样本根据以下方式得到:获取预设数量标注有不同保存时间的档案;对所述档案进行解析,将解析后得到的预设数量的文本作为训练样本。
在一些实施例中,所述档案鉴定模型根据以下方式训练得到:根据深度学习算法构建分类模型;使用所述训练样本对所述分类模型进行训练,将训练后的分类模型作为所述档案鉴定模型;其中,所述分类模型用于基于所述训练样本中每个文本的特征向量计算所述训练样本中文本的归类条件。具体的,可以采用深度学习算法来计算所述训练样本中文本的归类条件。具体的,可以采用深度学习算法构建一个分类模型。例如,可以采用TextCNN算法或BiLSTM算法构建分类模型。当然,也可以采用TextRNN、FastText、TextRCNN等算法构建分类模型。本说明书实施例中,还可以采用其他任意深度学习算法来构建分类模型,本说明书实施例对此不作限定。
在一些实施例中,可以将训练样本中各个文本的特征向量作为输入,对所述分类模型进行训练,将训练后的分类模型作为所述档案鉴定模型。具体的,所述分类模型可以基于所述训练样本中每个文本的特征向量计算所述训练样本中文本的归类条件。举例来说,所述归类条件可以用一个线性函数来表示,例如表示为:
Y=f(X)=aX+b
其中,a和b为分类模型对所述训练样本中每个文本的特征向量进行计算后得到的参数;Y=f(X)表示特征向量与保存时间的映射关系。
在一些实施例中,可以将训练后的分类模型作为档案鉴定模型。对于待鉴定档案,可以将该待鉴定档案进行解析,得到所述待鉴定档案对应的待鉴定文本;提取所述待鉴定文本的特征向量;将所述待鉴定文本的特征向量输入档案鉴定模型中,得到表征待鉴定档案保存时间的鉴定结果。具体的,可以将待鉴定文本的特征向量X作为模型的输入,f(X)为模型的输出。其中,f(X)可以对应具体的保存时间,即模型的输出至即为档案的鉴定结果。
本说明书实施例提供的方法,可以对获取的待鉴定档案进行解析,得到所述待鉴定档案对应的待鉴定文本;提取所述待鉴定文本的特征向量;将所述待鉴定文本的特征向量输入档案鉴定模型中,得到表征待鉴定档案保存时间的鉴定结果;其中,所述档案鉴定模型基于训练样本和深度学习算法训练得到。本说明书实施例提供的方法,能极大的节省人力成本,同传统的人工进行档案的保存时间鉴定相比,能自动进行档案的价值鉴定,极大的节省了人力成本,且能够快速准确的进行档案的自动价值鉴定,相对于使用关键字匹配方案,提高了档案的保存时间鉴定的效率和准确性。
图4为本说明书实施例一种电子设备的功能结构示意图,所述电子设备可以包括存储器和处理器。
在一些实施例中,所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现档案的保存时间鉴定方法的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据用户终端的使用所创建的数据。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘、智能存储卡(Smart MediaCard,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(APPlication Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。所述处理器可以执行所述计算机指令实现以下步骤:获取预设数量标注有不同保存时间的档案;对所述档案进行解析,将解析后得到的预设数量的文本作为训练样本;提取所述训练样本中文本的特征向量;基于提取的所述训练样本中每个文本的特征向量计算所述训练样本中文本的归类条件;对获取的待鉴定档案进行解析,得到所述待鉴定档案对应的待鉴定文本;提取所述待鉴定文本的特征向量;基于所述归类条件计算所述待鉴定文本的特征向量的归类值,以便于根据所述归类值确定所述待鉴定文本对应的档案的保存时间。
在本说明书实施例中,该电子设备具体实现的功能和效果,可以与其它实施例对照解释,在此不再赘述。
图5为本说明书实施例一种档案的保存时间鉴定装置的功能结构示意图,该装置具体可以包括以下的结构模块。
获取模块510,用于获取预设数量标注有不同保存时间的档案;
第一解析模块520,用于对所述档案进行解析,将解析后得到的预设数量的文本作为训练样本;
第一提取模块530,用于提取所述训练样本中文本的特征向量;
计算模块540,用于基于提取的所述训练样本中每个文本的特征向量计算所述训练样本中文本的归类条件;
第二解析模块550,用于对获取的待鉴定档案进行解析,得到所述待鉴定档案对应的待鉴定文本;
第二提取模块560,用于提取所述待鉴定文本的特征向量;
鉴定模块570,用于基于所述归类条件计算所述待鉴定文本的特征向量的归类值,以便于根据所述归类值鉴定所述待鉴定文本对应的档案的保存时间。
本说明书实施例还提供了一种档案的保存时间鉴定方法的计算机可读存储介质,所述计算机可读存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现:获取预设数量标注有不同保存时间的档案;对所述档案进行解析,将解析后得到的预设数量的文本作为训练样本;提取所述训练样本中文本的特征向量;基于提取的所述训练样本中每个文本的特征向量计算所述训练样本中文本的归类条件;对获取的待鉴定档案进行解析,得到所述待鉴定档案对应的待鉴定文本;提取所述待鉴定文本的特征向量;基于所述归类条件计算所述待鉴定文本的特征向量的归类值,以便于根据所述归类值确定所述待鉴定文本对应的档案的保存时间。
在本说明书实施例中,上述存储介质包括但不限于随机存取存储器(RandomAccess Memory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(HardDisk Drive,HDD)或者存储卡(Memory Card)。所述存储器可用于存储所述计算机程序和/或模块,所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据用户终端的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器。在本说明书实施例中,该计算机可读存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
图4为本说明书实施例一种电子设备的功能结构示意图,所述电子设备可以包括存储器和处理器。
在一些实施例中,所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现档案的保存时间鉴定方法的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据用户终端的使用所创建的数据。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘、智能存储卡(Smart MediaCard,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(APPlication Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。所述处理器可以执行所述计算机指令实现以下步骤:对获取的待鉴定档案进行解析,得到所述待鉴定档案对应的待鉴定文本;提取所述待鉴定文本的特征向量;将所述待鉴定文本的特征向量输入档案鉴定模型中,得到表征待鉴定档案保存时间的鉴定结果;其中,所述档案鉴定模型基于训练样本和深度学习算法训练得到。
在本说明书实施例中,该电子设备具体实现的功能和效果,可以与其它实施例对照解释,在此不再赘述。
图6为本说明书实施例一种档案的保存时间鉴定装置的功能结构示意图,该装置具体可以包括以下的结构模块。
解析模块610,用于对获取的待鉴定档案进行解析,得到所述待鉴定档案对应的待鉴定文本;
提取模块620,用于提取所述待鉴定文本的特征向量;
鉴定模块630,用于将所述待鉴定文本的特征向量输入档案鉴定模型中,得到表征待鉴定档案保存时间的鉴定结果;其中,所述档案鉴定模型基于训练样本和深度学习算法训练得到。
本说明书实施例还提供了一种档案的保存时间鉴定方法的计算机可读存储介质,所述计算机可读存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现:对获取的待鉴定档案进行解析,得到所述待鉴定档案对应的待鉴定文本;提取所述待鉴定文本的特征向量;将所述待鉴定文本的特征向量输入档案鉴定模型中,得到表征待鉴定档案保存时间的鉴定结果;其中,所述档案鉴定模型基于训练样本和深度学习算法训练得到。
在本说明书实施例中,上述存储介质包括但不限于随机存取存储器(RandomAccess Memory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(HardDisk Drive,HDD)或者存储卡(Memory Card)。所述存储器可用于存储所述计算机程序和/或模块,所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据用户终端的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器。在本说明书实施例中,该计算机可读存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。尤其,对于装置实施例和设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域技术人员在阅读本说明书文件之后,可以无需创造性劳动想到将本说明书列举的部分或全部实施例进行任意组合,这些组合也在本说明书公开和保护的范围内。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog2。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims (17)

1.一种档案的保存时间鉴定方法,其特征在于,所述方法包括:
获取预设数量标注有不同保存时间的档案;
对所述档案进行解析,将解析后得到的预设数量的文本作为训练样本;
提取所述训练样本中文本的特征向量;
基于提取的所述训练样本中每个文本的特征向量计算所述训练样本中文本的归类条件;
对获取的待鉴定档案进行解析,得到所述待鉴定档案对应的待鉴定文本;
提取所述待鉴定文本的特征向量;
基于所述归类条件计算所述待鉴定文本的特征向量的归类值,以便于根据所述归类值确定所述待鉴定文本对应的档案的保存时间。
2.根据权利要求1所述的方法,其特征在于,所述不同的保存时间包括永久保存、30年保存、15年保存、10年保存、5年保存中的至少两种。
3.根据权利要求1所述的方法,其特征在于,所述提取所述训练样本中文本的特征向量包括:
对所述文本进行分词,得到所述文本对应的多个词语;
通过词嵌入的方法将各个词语替换为等长的词向量,将所述文本中各个词语对应的词向量构成的矩阵作为所述文本的特征向量。
4.根据权利要求3所述的方法,其特征在于,所述词嵌入的方法通过word2vec算法或bert算法实现。
5.根据权利要求1所述的方法,其特征在于,所述基于提取的所述训练样本中每个文本的特征向量计算所述训练样本中文本的归类条件包括:
通过深度学习算法计算所述训练样本中文本的归类条件。
6.根据权利要求1所述的方法,其特征在于,所述基于提取的所述训练样本中每个文本的特征向量计算所述训练样本中文本的归类条件包括:
通过TextCNN算法或BiLSTM算法计算所述训练样本中文本的归类条件。
7.一种档案的保存时间鉴定装置,其特征在于,所述装置包括:
获取模块,用于获取预设数量标注有不同保存时间的档案;
第一解析模块,用于对所述档案进行解析,将解析后得到的预设数量的文本作为训练样本;
第一提取模块,用于提取所述训练样本中文本的特征向量;
计算模块,用于基于提取的所述训练样本中每个文本的特征向量计算所述训练样本中文本的归类条件;
第二解析模块,用于对获取的待鉴定档案进行解析,得到所述待鉴定档案对应的待鉴定文本;
第二提取模块,用于提取所述待鉴定文本的特征向量;
鉴定模块,用于基于所述归类条件计算所述待鉴定文本的特征向量的归类值,以便于根据所述归类值鉴定所述待鉴定文本对应的档案的保存时间。
8.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现:获取预设数量标注有不同保存时间的档案;对所述档案进行解析,将解析后得到的预设数量的文本作为训练样本;提取所述训练样本中文本的特征向量;基于提取的所述训练样本中每个文本的特征向量计算所述训练样本中文本的归类条件;对获取的待鉴定档案进行解析,得到所述待鉴定档案对应的待鉴定文本;提取所述待鉴定文本的特征向量;基于所述归类条件计算所述待鉴定文本的特征向量的归类值,以便于根据所述归类值确定所述待鉴定文本对应的档案的保存时间。
9.一种计算机可读存储介质,其特征在于,其上存储有计算机指令,所述指令被执行时实现:获取预设数量标注有不同保存时间的档案;对所述档案进行解析,将解析后得到的预设数量的文本作为训练样本;提取所述训练样本中文本的特征向量;基于提取的所述训练样本中每个文本的特征向量计算所述训练样本中文本的归类条件;对获取的待鉴定档案进行解析,得到所述待鉴定档案对应的待鉴定文本;提取所述待鉴定文本的特征向量;基于所述归类条件计算所述待鉴定文本的特征向量的归类值,以便于根据所述归类值确定所述待鉴定文本对应的档案的保存时间。
10.一种档案的保存时间鉴定方法,其特征在于,所述方法包括:
对获取的待鉴定档案进行解析,得到所述待鉴定档案对应的待鉴定文本;
提取所述待鉴定文本的特征向量;
将所述待鉴定文本的特征向量输入档案鉴定模型中,得到表征待鉴定档案保存时间的鉴定结果;其中,所述档案鉴定模型基于训练样本和深度学习算法训练得到。
11.根据权利要求10所述的方法,其特征在于,所述保存时间包括永久保存、30年保存、15年保存、10年保存、5年保存中的至少一种。
12.根据权利要求10所述的方法,其特征在于,所述训练样本根据以下方式得到:
获取预设数量标注有不同保存时间的档案;
对所述档案进行解析,将解析后得到的预设数量的文本作为训练样本。
13.根据权利要求10所述的方法,其特征在于,所述档案鉴定模型根据以下方式训练得到:
根据深度学习算法构建分类模型;
使用所述训练样本对所述分类模型进行训练,将训练后的分类模型作为所述档案鉴定模型;其中,所述分类模型用于基于所述训练样本中每个文本的特征向量计算所述训练样本中文本的归类条件。
14.根据权利要求10所述的方法,其特征在于,所述深度学习算法包括TextCNN算法或BiLSTM算法。
15.一种档案的保存时间鉴定装置,其特征在于,所述装置包括:
解析模块,用于对获取的待鉴定档案进行解析,得到所述待鉴定档案对应的待鉴定文本;
提取模块,用于提取所述待鉴定文本的特征向量;
鉴定模块,用于将所述待鉴定文本的特征向量输入档案鉴定模型中,得到表征待鉴定档案保存时间的鉴定结果;其中,所述档案鉴定模型基于训练样本和深度学习算法训练得到。
16.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现:对获取的待鉴定档案进行解析,得到所述待鉴定档案对应的待鉴定文本;提取所述待鉴定文本的特征向量;将所述待鉴定文本的特征向量输入档案鉴定模型中,得到表征待鉴定档案保存时间的鉴定结果;其中,所述档案鉴定模型基于训练样本和深度学习算法训练得到。
17.一种计算机可读存储介质,其特征在于,其上存储有计算机指令,所述指令被执行时实现:对获取的待鉴定档案进行解析,得到所述待鉴定档案对应的待鉴定文本;提取所述待鉴定文本的特征向量;将所述待鉴定文本的特征向量输入档案鉴定模型中,得到表征待鉴定档案保存时间的鉴定结果;其中,所述档案鉴定模型基于训练样本和深度学习算法训练得到。
CN202011034123.9A 2020-09-27 2020-09-27 一种档案的保存时间鉴定方法、装置及存储介质 Pending CN112100336A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011034123.9A CN112100336A (zh) 2020-09-27 2020-09-27 一种档案的保存时间鉴定方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011034123.9A CN112100336A (zh) 2020-09-27 2020-09-27 一种档案的保存时间鉴定方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN112100336A true CN112100336A (zh) 2020-12-18

Family

ID=73782278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011034123.9A Pending CN112100336A (zh) 2020-09-27 2020-09-27 一种档案的保存时间鉴定方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112100336A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116562304A (zh) * 2023-07-06 2023-08-08 广东亚齐信息技术股份有限公司 基于人工智能和多维语义理解的档案智能开放鉴定方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011065640A (ja) * 2009-08-21 2011-03-31 Youtohands Co Ltd 文書管理システム及びその方法
CN106302751A (zh) * 2016-08-17 2017-01-04 中国联合网络通信集团有限公司 电子档案的归档方法、接口服务器和归档系统
CN106528794A (zh) * 2016-11-10 2017-03-22 国网安徽省电力公司 一种基于档案管理系统的电子文件归档方法
CN106776695A (zh) * 2016-11-11 2017-05-31 上海中信信息发展股份有限公司 实现文书档案价值自动鉴定的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011065640A (ja) * 2009-08-21 2011-03-31 Youtohands Co Ltd 文書管理システム及びその方法
CN106302751A (zh) * 2016-08-17 2017-01-04 中国联合网络通信集团有限公司 电子档案的归档方法、接口服务器和归档系统
CN106528794A (zh) * 2016-11-10 2017-03-22 国网安徽省电力公司 一种基于档案管理系统的电子文件归档方法
CN106776695A (zh) * 2016-11-11 2017-05-31 上海中信信息发展股份有限公司 实现文书档案价值自动鉴定的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张硕等: ""审计档案归档范围和保管期限的自动判定"", 《中国审计》, no. 11, pages 54 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116562304A (zh) * 2023-07-06 2023-08-08 广东亚齐信息技术股份有限公司 基于人工智能和多维语义理解的档案智能开放鉴定方法
CN116562304B (zh) * 2023-07-06 2024-03-01 广东亚齐信息技术股份有限公司 基于人工智能和多维语义理解的档案智能开放鉴定方法

Similar Documents

Publication Publication Date Title
WO2021203581A1 (zh) 基于精标注文本的关键信息抽取方法、装置及存储介质
CN113283551B (zh) 多模态预训练模型的训练方法、训练装置及电子设备
US20090319449A1 (en) Providing context for web articles
CN111783394A (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN112188312B (zh) 用于确定新闻的视频素材的方法和装置
CN111475603A (zh) 企业标识识别方法、装置、计算机设备及存储介质
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN110674297B (zh) 舆情文本分类模型构建和舆情文本分类方法、装置及设备
CN111782793A (zh) 智能客服处理方法和系统及设备
CN114661861A (zh) 文本匹配方法及装置、存储介质、终端
CN115618866A (zh) 一种工程项目投标文件的段落识别与主题提取方法及系统
CN112905753A (zh) 一种判别文本信息的方法和装置
CN112100336A (zh) 一种档案的保存时间鉴定方法、装置及存储介质
CN110888983B (zh) 一种正负面情感分析方法、终端设备及存储介质
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN115033683B (zh) 摘要生成方法、装置、设备及存储介质
CN112087473A (zh) 文档下载方法、装置、计算机可读存储介质和计算机设备
CN115329754A (zh) 一种文本主题提取方法、装置、设备及存储介质
CN112732908B (zh) 试题新颖度评估方法、装置、电子设备和存储介质
CN112800771B (zh) 文章识别方法、装置、计算机可读存储介质和计算机设备
CN113887191A (zh) 文章的相似性检测方法及装置
CN116029280A (zh) 一种文档关键信息抽取方法、装置、计算设备和存储介质
CN113377910A (zh) 情感评价方法、装置、电子设备和存储介质
CN113962196A (zh) 一种简历处理方法、装置、电子设备及存储介质
CN112767022B (zh) 移动应用功能演化趋势预测方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination