CN117009616A - 一种数字档案管理方法、系统、设备及介质 - Google Patents
一种数字档案管理方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN117009616A CN117009616A CN202310751353.4A CN202310751353A CN117009616A CN 117009616 A CN117009616 A CN 117009616A CN 202310751353 A CN202310751353 A CN 202310751353A CN 117009616 A CN117009616 A CN 117009616A
- Authority
- CN
- China
- Prior art keywords
- entity
- archive
- files
- processed
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007726 management method Methods 0.000 title claims abstract description 45
- 238000003860 storage Methods 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 26
- 230000011218 segmentation Effects 0.000 claims abstract description 19
- 239000013598 vector Substances 0.000 claims description 31
- 238000010586 diagram Methods 0.000 claims description 30
- 238000000605 extraction Methods 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 8
- 238000012545 processing Methods 0.000 abstract description 4
- 230000000875 corresponding effect Effects 0.000 description 48
- 238000002372 labelling Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理技术领域,提供一种数字档案管理方法、系统、设备及介质,包括:获取多份待处理档案对应的实体数据;根据实体数据确定实体之间的实体关系,并根据实体数据对待处理档案进行文本切分获得档案索引;根据实体数据确定多份待处理档案对应的共有实体;对实体数据、实体关系、档案索引以及共有实体进行关联存储,以形成档案库。本发明获得的档案库中存储的不是整个档案文件,而是与档案对应的实体、实体关系、共有实体以及实体对应的档案索引,在后续档案检索过程中,根据检索条件能通过共有实体够从融合后的档案库中获取得到多份相关联的档案,从而实现整个档案库的检索,提升了档案检索效率。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数字档案管理方法、系统、设备及介质。
背景技术
档案数字化是随着计算机技术、扫描技术、扫描线性CCD技术、OCR技术、数字摄影技术(录音、录像)、数据库技术、多媒体技术、存储技术的发展而产生的一种新型档案信息形态,它把各种载体的档案资源转化为数字化的档案信息,以数字化的形式存储,网络化的形式互相连接,利用计算机系统进行管理,形成一个有序结构的档案信息库,及时提供利用,实现资源共享。
目前,多数领域使用的数字档案以Word、PDF为主,也即以Word、PDF等形式对档案文件进行存储,并形成文本化索引的文件库。基于前述的文件库,由于数字档案均为独立存储,所以在档案文件检索的时候,只能对单个档案文件进行检索,不能实现整个档案库的检索,从而减低了档案检索效率。
发明内容
本发明提供一种数字档案管理方法、系统、设备及介质,用以解决现有技术中的缺陷。
本发明提供一种数字档案管理方法,包括:
获取多份待处理档案对应的实体数据;
根据所述实体数据确定实体之间的实体关系,并根据所述实体数据对所述待处理档案进行文本切分获得档案索引;
根据所述实体数据确定所述多份待处理档案对应的共有实体;
对所述实体数据、所述实体关系、所述档案索引以及所述共有实体进行关联存储,以形成档案库。
根据本发明提供一种数字档案管理方法,所述获取多份待处理档案对应的实体数据,包括:
根据预设的元数据库从多份待处理档案中抽取实体,所述预设的元数据库包括档案实体名称;
在所述待处理档案中提取与所述实体对应的属性信息;
根据所述实体与所述属性信息确定档案类图;
相应地,所述根据所述实体数据确定实体之间的实体关系,包括:
根据所述待处理档案的上下文信息以及实体数据确定实体之间的实体关系,基于所述实体关系获取所述档案类图之间的边;
所述对所述实体数据、所述实体关系、所述档案索引以及所述共有实体进行关联存储,包括:
根据所述档案类图之间的边对所述档案类图进行关联存储。
根据本发明提供的一种数字档案管理方法,所述根据所述实体数据对所述待处理档案进行文本切分获得档案索引,包括:
根据实体数据将所述待处理档案中的文本切分包括索引词与实体类型词的索引单元;
利用所述索引单元获取数据索引文件,并基于所述索引单元中的索引词在所述多份待处理档案中的位置信息获取倒排索引文件,所述档案索引包括数据索引文件与倒排索引文件。
根据本发明提供的一种数字档案管理方法,所述根据所述实体数据确定所述多份待处理档案对应的共有实体,包括:
根据所述实体数据确定所述待处理档案之间共有的实体,从而获得初始共有实体集;
对所述初始共有实体集中实体对应的属性信息进行同义词替换,从而获得第一属性;
根据所述实体对应的属性信息以及所述第一属性对属性重复的实体进行删除,以获得最终的共有实体集;
相应地,所述对所述实体数据、所述实体关系、所述档案索引以及所述共有实体进行关联存储,包括:
根据所述最终的共有实体集对实体进行关联存储。
根据本发明提供的一种数字档案管理方法,所述在所述待处理档案中提取与所述实体对应的属性信息,包括:
利用预先训练好的实体属性提取模型对所述待处理档案中的实体进行属性信息提取;
其中,所述预先训练好的实体属性提取模型为卷积神经网络模型,并基于训练档案以及对应的标签训练得到。
根据本发明提供的一种数字档案管理方法,所述根据所述待处理档案的上下文信息以及实体数据确定实体之间的实体关系,包括:
对所述待处理档案进行句子内容解析与向量化处理,获得词向量;
利用双向LSTM对所述词向量进行正向和反向的上下文学习,获得包括上下文信息的词向量;
利用注意力机制确定每个所述包括上下文信息的词向量在档案差异检测任务中的重要性,以获得权重向量;
通过对所述包括上下文信息的词向量与所述权重向量进行相乘获得词汇级特征的融合结果,并作为句子级特征;
通过分类器对所述句子级特征进行分类,以获得对应的差异类别,将所述差异类别作为实体关系。
根据本发明提供的一种数字档案管理方法,在所述对所述实体数据、所述实体关系、所述档案索引以及所述共有实体进行关联存储,以形成档案库之后,方法还包括:
获取检索条件;
根据所述检索条件对应的实体从所述档案库中获取与所述实体对应的多个档案。
本发明还提供一种数字档案管理系统,包括:
实体获取模块,用于获取多份待处理档案对应的实体数据;
关系与索引获取模块,用于根据所述实体数据确定实体之间的实体关系,并根据所述实体数据对所述待处理档案进行文本切分获得档案索引;
共有实体获取模块,用于根据所述实体数据确定所述多份待处理档案对应的共有实体;
关联存储模块,用于对所述实体数据、所述实体关系、所述档案索引以及所述共有实体进行关联存储,以形成档案库。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述数字档案管理方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述数字档案管理方法的步骤。
本发明提供的数字档案管理方法数字档案管理方法、系统、设备及介质,通过对档案进行实体提取、实体关系提取、档案索引建立以及共有实体的获取,并对上述获取到的数据进行关联存储,获得融合后的档案库,在该档案库中存储的不是整个档案文件,而是与档案对应的实体、实体关系、共有实体以及实体对应的档案索引,在后续档案检索过程中,根据检索条件能通过共有实体够从融合后的档案库中获取得到多份相关联的档案,从而实现整个档案库的检索,提升了档案检索效率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的数字档案管理方法的流程示意图;
图2是本发明提供的数字档案管理系统的结构示意图;
图3是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在对本发明提供的数字档案管理方法说明之前,先对其中涉及到的专业术语进行说明,其中,统一建模语言(Unified Modeling Language,UML)为一种为面向对象系统的产品进行说明、可视化和编制文档的一种标准语言,是非专利的第三代建模和规约语言。UML是面向对象设计的建模工具,独立于任何具体程序设计语言。UML采用一组图形符号来描述软件模型,这些图形符号具有简单、直观和规范的特点,开发人员学习和掌握起来比较简单。所描述的软件模型,可以直观地理解和阅读,由于具有规范性,所以能够保证模型的准确、一致。UML主要包括用例图、静态图、行为图、交互图和实现图,本发明结合数字档案的特点(文本中的实体与属性信息)选用静态图中的类图对档案进行关联存储。下面结合附图对本发明的数字档案管理方法进行说明。
图1是本发明提供的数字档案管理方法的流程示意图;如图1所示,一种数字档案管理方法,包括如下步骤:
S101,获取多份待处理档案对应的实体数据。
在本步骤中,利用命名实体识别算法,并根据元数据库抽取多份待处理档案中所包含的实体数据,其中元数据库中包含有多个可用于匹配的实体名称。其中,命名实体识别算法为常用的命名实体识别算法,比如LSTM+CRF、CNN+CRF、BERT+(LSTM)+CRF、BiLSTM+CRF、HMM、注意力模型、迁移学习等等,本发明对此具体不限定。
更具体地,在本实施例中,利用命名实体识别算法进行实体数据抽取的过程包括步骤:
文本提取:对不同格式的待处理档案进行文本提取,比如说从word格式的档案中直接获取文本,利用OCR识别对pdf格式的档案中文字进行识别获得文本。
文本分词:对文本进行分词处理得到词集合。
实体匹配:对词集合中的每一词与元数据中的实体名称进行匹配,将匹配成功的词作为待处理档案的实体保存到实体列表中。
实体标注:对实体列表中的实体进行标注,标注所得到的结果至少包括:实体的类型、实体在文本中的起始偏移量和终止偏移量。
实体属性建立:根据实体标注结果在文本中提取与实体相关的文字作为实体的属性。最终获得实体数据包括实体与实体对应的属性。
基于上述获得的实体与实体属性构建UML类图,通过UML类图的方式对档案信息进行存储。
S102,根据所述实体数据确定实体之间的实体关系,并根据所述实体数据对所述待处理档案进行文本切分获得档案索引。
在本步骤中,利用实体关系抽取算法对待处理档案中的文本信息进行建模,从文本中自动提取出实体之间的语义关系作为实体关系。其中,实体关系抽取算法为常用的实体关系抽取算法,比如有监督的基于特征和基于核函数的实体关系抽取、半监督的Bootstrapping、流水线Pipeline、联合学习Joint Learning等等,本发明对此不作限定。
同时,根据实体名称对待处理档案进行文本切分,形成不同的索引单元,根据不同索引单元获得数据库索引文件与倒排索引文件,由数据库索引文件与倒排索引文件构成档案索引,用于后续的文档检索。
S103,根据所述实体数据确定所述多份待处理档案对应的共有实体。
在本步骤中,比对待处理档案之间的实体数据,将其中相同的实体存放入共有实体集中。需要说明的是,步骤S102与步骤S103可以同时执行。
S104,对所述实体数据、所述实体关系、所述档案索引以及所述共有实体进行关联存储,以形成档案库。
在本步骤中,对于前述获取得到的实体数据、实体关系、档案索引以及共有实体进行关联存储,最后获得融合后的档案库。具体地,对每个实体,根据得到的实体关系进行N:N关联;对每个实体与其对应的共有实体进行关联;对每个实体与其对应的索引进行关联。
根据本发明实施例提供的数字档案管理方法,通过对档案进行实体提取、实体关系提取、档案索引建立以及共有实体的获取,并对上述获取到的数据进行关联存储,获得融合后的档案库,在该档案库中存储的不是整个档案文件,而是与档案对应的实体、实体关系、共有实体以及实体对应的档案索引,在后续档案检索过程中,根据检索条件能通过共有实体够从融合后的档案库中获取得到多份相关联的档案,从而实现整个档案库的检索,提升了档案检索效率。
进一步地,在上述实施例的基础上,所述获取多份待处理档案对应的实体数据,包括:
根据预设的元数据库从多份待处理档案中抽取实体,所述预设的元数据库包括档案实体名称。
在所述待处理档案中提取与所述实体对应的属性信息。
根据所述实体与所述属性信息确定档案类图。
相应地,所述根据所述实体数据确定实体之间的实体关系,包括:
根据所述待处理档案的上下文信息以及实体数据确定实体之间的实体关系,基于所述实体关系获取所述档案类图之间的边。
所述对所述实体数据、所述实体关系、所述档案索引以及所述共有实体进行关联存储,包括:
根据所述档案类图之间的边对所述档案类图进行关联存储。
在本实施例中,通过命名实体识别获取待处理档案中的实体以及实体属性,并基于实体与实体属性构建与档案对应的UML类图。在提取得到实体关系之后,根据实体关系为各个UML图构建边,实现多份档案的关联存储,无需对整个档案进行存储。
其中,根据所述待处理档案的上下文信息以及实体数据确定实体之间的实体关系,基于所述实体关系获取所述档案类图之间的边,包括:
对所述待处理档案进行句子内容解析与向量化处理,获得词向量。
利用双向LSTM对所述词向量进行正向和反向的上下文学习,获得包括上下文信息的词向量。
利用注意力机制确定每个所述包括上下文信息的词向量在档案差异检测任务中的重要性,以获得权重向量。
具体地,将包括上下文信息的词向量输入Attention层获得权重分数,该权重分数表征词向量对应的单词在档案差异检测任务中的重要性,另外,权重分数的和为1,从而表示将注意力分布在所有输入单词上。
通过对所述包括上下文信息的词向量与所述权重向量进行相乘获得词汇级特征的融合结果,并作为句子级特征。
通过分类器对所述句子级特征进行分类,以获得对应的差异类别,将所述差异类别作为实体关系。其中,分类器为常规的分类器(比如Softmax分类器),对此不作限定,差异类别可以分为相同、不同,也可以进行进一步地细分,本发明对此不做限定。
需要说明的是,档案差异检测任务包括了上述的词向量转换、双向LSTM、Attention层以及分类器,将文本输入档案差异检测任务对应的模型中就能获得档案与档案之间的相同点与差异点,根据相同点与差异点标注实体与实体之间的关系。
根据本发明实施例提供的数字档案管理方法,通过对实体、实体属性以及实体关系进行UML类图关联存储,与传统的整个档案存储相比,能够有效提升后续的检索效率,且通过实体检索到多份相关联的档案。另外,通过双向LSTM以及注意力机制能够结合上下文信息以及词向量在档案差异检测任务中的重要性确定实体与实体之间的关系,提升关联存储的准确性。
进一步地,在上述实施例的基础上,所述根据所述实体数据对所述待处理档案进行文本切分获得档案索引,包括:
根据实体数据将所述待处理档案中的文本切分包括索引词与实体类型词的索引单元。
利用所述索引单元获取数据索引文件,并基于所述索引单元中的索引词在所述多份待处理档案中的位置信息获取倒排索引文件,所述档案索引包括数据索引文件与倒排索引文件。
在本实施例中,对待处理档案中的文本进行切分,使得切分后的文本包括索引词和实体类型词,该切分后的文本即为索引单元。
具体的切分过程包括:根据实体数据查找实体,若查找到实体,则根据实体数据的标注结果(即实体的类型、实体在文本中的起始偏移量和终止偏移量)输出实体的实体类型词、偏移量。进一步地,判断输出的实体类型是否存在上位类,若存在上位类则还需输出上位实体类型到根节点对应的所有实体类型词以及相关的偏移量,以完成对所有实体类型词的输出。其中,索引词按照通用的数据库建立方法进行索引,得到索引词。
利用上述提到的索引单元形成索引文件,该索引文件即为数据库索引文件,也即正排索引文件。
同时,还可以以索引词为中心,将同一索引词在不同档案中出现的信息归并存储,从而形成倒排索引文件。
根据本发明实施例提供的数字档案管理方法,通过将文本切分未包括索引词与实体类型词的索引单元,进而基于索引单元构成数据索引文件与倒排索引文件,从而支持正向索引与反向索引。
进一步地,在上述实施例的基础上,所述根据所述实体数据确定所述多份待处理档案对应的共有实体,包括:
根据所述实体数据确定所述待处理档案之间共有的实体,从而获得初始共有实体集。
对所述初始共有实体集中实体对应的属性信息进行同义词替换,从而获得第一属性。
根据所述实体对应的属性信息以及所述第一属性对属性重复的实体进行删除,以获得最终的共有实体集。
相应地,所述对所述实体数据、所述实体关系、所述档案索引以及所述共有实体进行关联存储,包括:
根据所述最终的共有实体集对实体进行关联存储。
在本实施例中,在获得初始共有实体集之后,对共有实体集中的每个实体的属性进行同义词替换,得到第一属性;对第一属性相同的实体做留一删除,即只保留一个实体。
根据本发明实施例提供的数字档案管理方法,采用同义词替换的方式对实体的属性进行查重,可以有效避免不同词语造成的同样属性,避免了属性的重复,有助于建立更高效的索引,经过上述UML数据格式以及同义词查重,可以实现数字档案融合,使得融合后的数字档案能够进行高效的对象存储和检索。
进一步地,在上述实施例的基础上,所述在所述待处理档案中提取与所述实体对应的属性信息,包括:
利用预先训练好的实体属性提取模型对所述待处理档案中的实体进行属性信息提取。
其中,所述预先训练好的实体属性提取模型为卷积神经网络模型,并基于训练档案以及对应的标签训练得到。
在本实施例中,对于实体属性的提取通过CNN模型实现,具体地,先构建训练样本:采集多组已经完成实体属性建立步骤的档案,以此多组档案为训练输入,以实体对应的实体属性为训练输出。其中,用到的卷积神经网络为常规的卷积神经网络,包括输入层、卷积层、Relu非线性激活层、池化层、全连接层以及输出层。
通过卷积神经网络训练得到实体属性提取模型。整个训练过程包括前向传播网络训练和反向传播网络训练两个阶段,前向传播网络训练是,将训练用档案中的每个实体通过卷积和池化的处理后提取特征向量,并将得到的特征向量转化为一维向量,输入全连接层,由分类器得出识别结果,即输出向量,输出向量的每个值表示所建立的属性与对应实体相匹配的概率。反向传播网络训练是:当前向传播网络训练的输出结果与期望输出中对应的属性和实体不符时,采用随机梯度下降优化算法进行反向传播网络训练,更新卷积层的参数。
通过上述实体属性提取模型在当前文本中提取与实体相关的文字作为实体的属性信息。
进一步地,在上述实施例的基础上,在所述对所述实体数据、所述实体关系、所述档案索引以及所述共有实体进行关联存储,以形成档案库之后,方法还包括:
获取检索条件。
根据所述检索条件对应的实体从所述档案库中获取与所述实体对应的多个档案。
具体可以使用通用的检索方式进行检索,比如语言集成查询LINQ,或者NoSQL中类的方式进行检索。
根据本发明实施例提供的数字档案管理方法,基于前述获得档案库能够快速获得匹配度高的多份相关联的档案。
下面对本发明提供的数字档案管理系统进行描述,下文描述的数字档案管理系统与上文描述的数字档案管理方法可相互对应参照。
图2是本发明提供的数字档案管理系统的结构示意图;如图2所示,一种数字档案管理系统,包括:
实体获取模块201,获取多份待处理档案对应的实体数据。
在本模块中,利用命名实体识别算法,并根据元数据库抽取多份待处理档案中所包含的实体数据,其中元数据库中包含有多个可用于匹配的实体名称。其中,命名实体识别算法为常用的命名实体识别算法,比如LSTM+CRF、CNN+CRF、BERT+(LSTM)+CRF、BiLSTM+CRF、HMM、注意力模型、迁移学习等等,本发明对此具体不限定。
更具体地,在本实施例中,利用命名实体识别算法进行实体数据抽取的过程包括步骤:
文本提取:对不同格式的待处理档案进行文本提取,比如说从word格式的档案中直接获取文本,利用OCR识别对pdf格式的档案中文字进行识别获得文本。
文本分词:对文本进行分词处理得到词集合。
实体匹配:对词集合中的每一词与元数据中的实体名称进行匹配,将匹配成功的词作为待处理档案的实体保存到实体列表中。
实体标注:对实体列表中的实体进行标注,标注所得到的结果至少包括:实体的类型、实体在文本中的起始偏移量和终止偏移量。
实体属性建立:根据实体标注结果在文本中提取与实体相关的文字作为实体的属性。最终获得实体数据包括实体与实体对应的属性。
基于上述获得的实体与实体属性构建UML类图,通过UML类图的方式对档案信息进行存储。
关系与索引获取模块202,根据所述实体数据确定实体之间的实体关系,并根据所述实体数据对所述待处理档案进行文本切分获得档案索引。
在本模块中,利用实体关系抽取算法对待处理档案中的文本信息进行建模,从文本中自动提取出实体之间的语义关系作为实体关系。其中,实体关系抽取算法为常用的实体关系抽取算法,比如有监督的基于特征和基于核函数的实体关系抽取、半监督的Bootstrapping、流水线Pipeline、联合学习Joint Learning等等,本发明对此不作限定。
同时,根据实体名称对待处理档案进行文本切分,形成不同的索引单元,根据不同索引单元获得数据库索引文件与倒排索引文件,由数据库索引文件与倒排索引文件构成档案索引,用于后续的文档检索。
共有实体获取模块203,根据所述实体数据确定所述多份待处理档案对应的共有实体。
在本模块中,比对待处理档案之间的实体数据,将其中相同的实体存放入共有实体集中。需要说明的是,关系与索引获取模块202与共有实体获取模块203可以同时执行。
关联存储模块204,对所述实体数据、所述实体关系、所述档案索引以及所述共有实体进行关联存储,以形成档案库。
在本模块中,对于前述获取得到的实体数据、实体关系、档案索引以及共有实体进行关联存储,最后获得融合后的档案库。具体地,对每个实体,根据得到的实体关系进行N:N关联;对每个实体与其对应的共有实体进行关联;对每个实体与其对应的索引进行关联。
根据本发明实施例提供的数字档案管理系统,通过对档案进行实体提取、实体关系提取、档案索引建立以及共有实体的获取,并对上述获取到的数据进行关联存储,获得融合后的档案库,在该档案库中存储的不是整个档案文件,而是与档案对应的实体、实体关系、共有实体以及实体对应的档案索引,在后续档案检索过程中,根据检索条件能通过共有实体够从融合后的档案库中获取得到多份相关联的档案,从而实现整个档案库的检索,提升了档案检索效率。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器310(processor)、通信接口320(Communications Interface)、存储器330(memory)和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行数字档案管理方法,该方法包括:获取多份待处理档案对应的实体数据;根据所述实体数据确定实体之间的实体关系,并根据所述实体数据对所述待处理档案进行文本切分获得档案索引;根据所述实体数据确定所述多份待处理档案对应的共有实体;对所述实体数据、所述实体关系、所述档案索引以及所述共有实体进行关联存储,以形成档案库。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的数字档案管理方法,该方法包括:获取多份待处理档案对应的实体数据;根据所述实体数据确定实体之间的实体关系,并根据所述实体数据对所述待处理档案进行文本切分获得档案索引;根据所述实体数据确定所述多份待处理档案对应的共有实体;对所述实体数据、所述实体关系、所述档案索引以及所述共有实体进行关联存储,以形成档案库。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的数字档案管理方法,该方法包括:获取多份待处理档案对应的实体数据;根据所述实体数据确定实体之间的实体关系,并根据所述实体数据对所述待处理档案进行文本切分获得档案索引;根据所述实体数据确定所述多份待处理档案对应的共有实体;对所述实体数据、所述实体关系、所述档案索引以及所述共有实体进行关联存储,以形成档案库。
以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种数字档案管理方法,其特征在于,包括:
获取多份待处理档案对应的实体数据;
根据所述实体数据确定实体之间的实体关系,并根据所述实体数据对所述待处理档案进行文本切分获得档案索引;
根据所述实体数据确定所述多份待处理档案对应的共有实体;
对所述实体数据、所述实体关系、所述档案索引以及所述共有实体进行关联存储,以形成档案库。
2.根据权利要求1所述的数字档案管理方法,其特征在于,所述获取多份待处理档案对应的实体数据,包括:
根据预设的元数据库从多份待处理档案中抽取实体,所述预设的元数据库包括档案实体名称;
在所述待处理档案中提取与所述实体对应的属性信息;
根据所述实体与所述属性信息确定档案类图;
相应地,所述根据所述实体数据确定实体之间的实体关系,包括:
根据所述待处理档案的上下文信息以及实体数据确定实体之间的实体关系,基于所述实体关系获取所述档案类图之间的边;
所述对所述实体数据、所述实体关系、所述档案索引以及所述共有实体进行关联存储,包括:
根据所述档案类图之间的边对所述档案类图进行关联存储。
3.根据权利要求1所述的数字档案管理方法,其特征在于,所述根据所述实体数据对所述待处理档案进行文本切分获得档案索引,包括:
根据实体数据将所述待处理档案中的文本切分包括索引词与实体类型词的索引单元;
利用所述索引单元获取数据索引文件,并基于所述索引单元中的索引词在所述多份待处理档案中的位置信息获取倒排索引文件,所述档案索引包括数据索引文件与倒排索引文件。
4.根据权利要求1所述的数字档案管理方法,其特征在于,所述根据所述实体数据确定所述多份待处理档案对应的共有实体,包括:
根据所述实体数据确定所述待处理档案之间共有的实体,从而获得初始共有实体集;
对所述初始共有实体集中实体对应的属性信息进行同义词替换,从而获得第一属性;
根据所述实体对应的属性信息以及所述第一属性对属性重复的实体进行删除,以获得最终的共有实体集;
相应地,所述对所述实体数据、所述实体关系、所述档案索引以及所述共有实体进行关联存储,包括:
根据所述最终的共有实体集对实体进行关联存储。
5.根据权利要求2所述的数字档案管理方法,其特征在于,所述在所述待处理档案中提取与所述实体对应的属性信息,包括:
利用预先训练好的实体属性提取模型对所述待处理档案中的实体进行属性信息提取;
其中,所述预先训练好的实体属性提取模型为卷积神经网络模型,并基于训练档案以及对应的标签训练得到。
6.根据权利要求2所述的数字档案管理方法,其特征在于,所述根据所述待处理档案的上下文信息以及实体数据确定实体之间的实体关系,包括:
对所述待处理档案进行句子内容解析与向量化处理,获得词向量;
利用双向LSTM对所述词向量进行正向和反向的上下文学习,获得包括上下文信息的词向量;
利用注意力机制确定每个所述包括上下文信息的词向量在档案差异检测任务中的重要性,以获得权重向量;
通过对所述包括上下文信息的词向量与所述权重向量进行相乘获得词汇级特征的融合结果,并作为句子级特征;
通过分类器对所述句子级特征进行分类,以获得对应的差异类别,将所述差异类别作为实体关系。
7.根据权利要求1-6任一项所述的数字档案管理方法,其特征在于,在所述对所述实体数据、所述实体关系、所述档案索引以及所述共有实体进行关联存储,以形成档案库之后,方法还包括:
获取检索条件;
根据所述检索条件对应的实体从所述档案库中获取与所述实体对应的多个档案。
8.一种数字档案管理系统,其特征在于,包括:
实体获取模块,用于获取多份待处理档案对应的实体数据;
关系与索引获取模块,用于根据所述实体数据确定实体之间的实体关系,并根据所述实体数据对所述待处理档案进行文本切分获得档案索引;
共有实体获取模块,用于根据所述实体数据确定所述多份待处理档案对应的共有实体;
关联存储模块,用于对所述实体数据、所述实体关系、所述档案索引以及所述共有实体进行关联存储,以形成档案库。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述数字档案管理方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述数字档案管理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310751353.4A CN117009616A (zh) | 2023-06-21 | 2023-06-21 | 一种数字档案管理方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310751353.4A CN117009616A (zh) | 2023-06-21 | 2023-06-21 | 一种数字档案管理方法、系统、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117009616A true CN117009616A (zh) | 2023-11-07 |
Family
ID=88570046
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310751353.4A Pending CN117009616A (zh) | 2023-06-21 | 2023-06-21 | 一种数字档案管理方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117009616A (zh) |
-
2023
- 2023-06-21 CN CN202310751353.4A patent/CN117009616A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112199375B (zh) | 跨模态的数据处理方法、装置、存储介质以及电子装置 | |
CN111753099B (zh) | 一种基于知识图谱增强档案实体关联度的方法及系统 | |
CN108959431B (zh) | 标签自动生成方法、系统、计算机可读存储介质及设备 | |
CN102053991B (zh) | 用于多语言文档检索的方法及系统 | |
EP3528180A1 (en) | Method, system and terminal for normalizingentities in a knowledge base, and computer readable storage medium | |
Khusro et al. | On methods and tools of table detection, extraction and annotation in PDF documents | |
CN110175334B (zh) | 基于自定义的知识槽结构的文本知识抽取系统和方法 | |
CN113961685A (zh) | 信息抽取方法及装置 | |
CN106874397B (zh) | 一种面向物联网设备的自动语义标注方法 | |
CN110795932B (zh) | 基于地质本体的地质报告文本信息提取方法 | |
CN112784009B (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
US20230177267A1 (en) | Automated classification and interpretation of life science documents | |
CN113761208A (zh) | 一种基于知识图谱的科技创新资讯分类方法和存储设备 | |
CN115098706A (zh) | 一种网络信息提取方法及装置 | |
CN113094512A (zh) | 一种工业生产制造中故障分析系统及方法 | |
Rahman et al. | Assessment of Information Extraction Techniques, Models and Systems. | |
CN112632948B (zh) | 案件文书排序方法及相关设备 | |
CN116523041A (zh) | 装备领域知识图谱构建方法、检索方法、系统及电子设备 | |
CN116719840A (zh) | 一种基于病历后结构化处理的医疗信息推送方法 | |
CN116310624A (zh) | 用于图像的模型训练方法以及无监督图像哈希检索方法 | |
TWI793432B (zh) | 工程專案文件管理方法與系統 | |
CN117009616A (zh) | 一种数字档案管理方法、系统、设备及介质 | |
CN113297485A (zh) | 一种生成跨模态的表示向量的方法以及跨模态推荐方法 | |
CN112579841B (zh) | 一种多模态数据库建立方法、检索方法及系统 | |
CN115130435B (zh) | 文档处理方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |