CN116343210A

CN116343210A - 档案数字化的管理方法及装置

Info

Publication number: CN116343210A
Application number: CN202310308496.8A
Authority: CN
Inventors: 罗定良; 吴美丽; 吴伟丽; 刘春辉; 刘翠如; 陈若蕾; 杨庚锌; 吴秀丽; 陈炯活; 李燕华
Original assignee: Guangzhou Huixin Archives Technology Co ltd
Current assignee: Guangzhou Huixin Archives Technology Co ltd
Priority date: 2023-03-24
Filing date: 2023-03-24
Publication date: 2023-06-27
Anticipated expiration: 2043-03-24
Also published as: CN116343210B

Abstract

本发明实施例涉及档案处理技术领域，公开了一种档案数字化的管理方法，包括：通过图像数据采集模块对待数字化档案进行图像采集操作以得到档案图像信息，对档案图像信息进行分类操作以确定档案图像信息为档案信息；基于预先构建的识别模型对个人图像信息进行识别以得到相应的个人信息集合；获取与合同档案信息关联的业务人员信息；调用文字分析模型对合同档案信息进行识别以得到合同识别结果。本发明实施例中的档案数字化的管理方法通过上述方式能够大大提高档案识别效率，并且由于采用标签化档案处理方式，进而使得企业人员便于进行后续索引以及数据查阅，提升企业运营效率。

Description

档案数字化的管理方法及装置

技术领域

本发明涉及档案存储技术领域，具体涉及一种档案数字化的管理方法及装置。

背景技术

目前，在档案数字化过程中，需要建立完善的索引库，为以后的档案电子化利用提供检索，提高电子档案的利用效率，这往往伴随着大量的档案著录工作。现有技术一般采用三种方式，一、Excel表格台账方式著录，二、使用档案数字化加工软件，让员工进行著录；从这两种工作方式上来说，其还是需要大量的工作人员，成本非常高。

除了上述档案数字化存储之外在进后续档案扫描的时候也需要大量的工作人员对数字化扫描后的图像进行质量检测，包括分辨率，页码连续性，内容完整性，裁切内容完整度等。现有技术一般采用人工方式处理，让员工对图像处理过的图片进行质量检查，逐一质检，正确的通过，不正确的替换原图修改或打回给图像处理的员工再次处理，但这需要大量的工作人员，成本非常高。

发明内容

针对所述缺陷，本发明实施例公开了一种档案数字化的管理方法，其能够高效完成对档案的数字化处理，对于企业降本增效明显，实现良好的经济效益。

本发明实施例第一方面公开了档案数字化的管理方法，包括：

通过图像采集模块对待数字化档案进行图像采集操作以得到档案图像信息；

对所述档案图像信息进行分类操作以确定所述档案图像信息为档案信息；

当检测到其为个人档案信息时，基于预先构建的识别模型对所述个人图像信息进行识别以得到相应的个人信息集合，对所述个人信息集合进行数字化存储；

当检测到其为合同档案信息时，获取与合同档案信息关联的业务人员信息；

调用文字分析模型对所述合同档案信息进行识别以得到合同识别结果，根据所述合同识别结果以确定与合同关联的合同内容信息，所述合同内容信息包括业务内容、客户信息、金额信息、支付方式和签约主体信息；其中，所述业务内容包括业务项目和交付时间；

对所述业务内容信息与个人信息集合进行数字化关联存储，并基于数字化关联存储结果来生成数字索引信息。

作为一种可选的实施方式，在本发明实施例第一方面中，所述基于预先构建的识别模型对所述个人图像信息进行识别以得到相应的个人信息集合，包括：

对所述个人图像信息进行识别以确定个人图像信息中有效信息的开始区域信息以及结束区域信息；

根据所述开始区域信息、结束区域信息以及预先构建的图像切分方式对所述个人图像信息进行图像切分以确定个人图像信息中各个的切分信息集合，其中，每一个切分信息集合表征一种个人信息；所述图像切分方式为预先构建的图像切分逻辑或者为身份识别模型；对所述切分信息集合进行图像识别以得到个人图像信息中的个人身份信息；

在所述对所述业务内容信息与个人信息集合进行数字化关联存储之后，还包括：

根据数字化关联存储结果生成相应的档案封面信息，所述档案封面信息包括档案号、题名和立卷单位，其中，每个封面信息即是一数据项，所述数据项用来构建索引信息。

作为一种可选的实施方式，在本发明实施例第一方面中，在所述根据所述开始区域信息、结束区域信息以及预先构建的图像切分方式对所述个人图像信息进行图像切分以确定个人图像信息中各个的切分信息集合之后，还包括：

对所述切分信息集合进行信息匹配以确定所有切分信息集合中需进行信息确认的验证信息集合；

将与所述验证信息集合关联的图像信息进行局部放大操作以得到局部放大图像；

对所述验证信息集合进行字符识别以得到验证识别结果，将所述验证识别结果以及局部放大图像发送至审核人员进行审核确认，当审核通过的时候，执行下一步，当审核不通过的时候，对所述验证识别结果进行修改操作，在修改完成之后，执行下一步。

作为一种可选的实施方式，在本发明实施例第一方面中，所述调用文字分析模型对所述合同档案信息进行识别以得到合同识别结果，根据所述合同识别结果以确定与合同关联的合同内容信息，包括：

基于设定的页码位置来对所述合同档案信息中所有的图像进行页码识别，若所有的图像均存在页码信息，则生成与相应图像关联的页码数据；

若合同档案信息中的图像不存在页码信息，则采用光学字符识别技术对所述合同档案信息中每一幅图像进行文字识别以得到与相应图像关联的文字识别结果；

基于预先构建的BERT模型来对文字识别结果进行识别以得到文字识别结果，根据所述文字识别结果判断每一幅图像之间的关联性，并根据关联性识别结果来确定各个图像的页码数据。

作为一种可选的实施方式，在本发明实施例第一方面中，所述基于预先构建的BERT模型来对文字识别结果进行识别以得到文字识别结果，根据所述文字识别结果判断每一幅图像之间的关联性，包括：

获取每一幅图像的开始语句信息和结束语句信息，并基于所述开始语句信息和结束语句信息确定连接文本信息；

根据句法分析模型对所述连接文本信息进行文本解析以确定所述连接文本信息的语句主体结构；

根据所述语句主体结构确定连接文本信息中对应的主体位置；并确定所述连接文本信息中主语、谓语和宾语之间的连结关系；根据所述连结关系调整对应的词语特征信息的表征权重；

根据所述表征权重以及对应的词语特征信息确定文本检测结果，当所述文本检测结果为同一句时，则确定相应的图像上下关联。

作为一种可选的实施方式，在本发明实施例第一方面中，在所述基于预先构建的BERT模型来对文字识别结果进行识别以得到文字识别结果之后，还包括：

对所述文字识别结果进行标签化处理以得到相应合同的标签集合；所述标签集合包括业务内容、客户信息、金额信息、支付方式和签约主体信息；

将标签集合发送至预先构建完成的运营关系图谱中进行处理以完成对个人知识图谱的更新；

对个人知识图谱对应的数据源赋予对应的数据地址；将划分后个人知识图谱转化为由知识块和数据地址组成的知识图谱数据流，对知识图谱数据流进行加密；并将知识块发送至区块链系统中的各个存储节点进行数据存储；基于所述存储节点配置相应的访问权限；

基于所述个人知识图谱来构建部门知识图谱或者企业知识图谱。

作为一种可选的实施方式，在本发明实施例第一方面中，所述管理方法，还包括：

基于公司各个员工的位置信息来构建用户位置信息，并基于所述用户位置信息将获取到的数据按照用户位置进行档案存储以形成三维档案资料库；所述三维档案资料库还包括公司的层级架构；

将存储后的数字档案按照文件路径进行归档形成档案数据库，通过所述用户位置信息与文件路径的关联规则将所述三维档案资料与所述档案数据库进行数据关联；所述文件路径用于表征数字档案具体存储路径和实体档案路径，所述文件路径包括多级文件信息；

根据所述三维档案资料库构建文档阅览表以实现对文档的阅览记录进行数据表征，所述阅览记录为相应用户基于其权限查阅的资料内容。

本发明实施例第二方面公开一种档案数字化的管理装置，包括：

采集模块：用于通过图像采集模块对待数字化档案进行图像采集操作以得到档案图像信息，

类型确定模块：用于对所述档案图像信息进行分类操作以确定所述档案图像信息为档案信息；

第一检测模块：用于当检测到其为个人档案信息时，基于预先构建的识别模型对所述个人图像信息进行识别以得到相应的个人信息集合，对所述个人信息集合进行数字化存储；

第二检测模块：用于当检测到其为合同档案信息时，获取与合同档案信息关联的业务人员信息；

识别模块：用于调用文字分析模型对所述合同档案信息进行识别以得到合同识别结果，根据所述合同识别结果以确定与合同关联的合同内容信息，所述合同内容信息包括业务内容、客户信息、金额信息、支付方式和签约主体信息；其中，所述业务内容包括业务项目和交付时间；

存储模块：用于对所述业务内容信息进行数字化存储，并基于数字化关联存储结果来生成数字索引信息。

本发明实施例第三方面公开一种电子设备，包括：存储有可执行程序代码的存储器；与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行本发明实施例第一方面公开的档案数字化的管理方法。

本发明实施例第四方面公开一种计算机可读存储介质，其存储计算机程序，其中，所述计算机程序使得计算机执行本发明实施例第一方面公开的档案数字化的管理方法。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例中的档案数字化的管理方法通过对待数字化档案进行分类识别以确定其为个人档案还是合同档案，然后基于不同的档案情况调用不同的模型来进行分析，最终完成合同标签的确定以及个人信息的数字化录入；通过上述方式能够大大提高档案识别效率，并且由于采用标签化档案处理方式，进而使得企业人员便于进行后续索引以及数据查阅，提升企业运营效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的档案数字化的管理方法的流程示意图；

图2是本发明实施例公开的进行个人图像信息识别的流程示意图；

图3是本发明实施例公开的进行合同档案识别的流程示意图；

图4是本发明实施例提供的一种档案数字化的管理装置的结构示意图；

图5是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象，而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，示例性地，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

目前，在档案数字化过程中，需要建立完善的索引库，为以后的档案电子化利用提供检索，提高电子档案的利用效率，这往往伴随着大量的档案著录工作。现有技术一般采用三种方式，一、Excel表格台账方式著录，二、使用档案数字化加工软件，让员工进行著录；从这两种工作方式上来说，其还是需要大量的工作人员，成本非常高。基于此，本发明实施例公开了档案数字化的管理方法、装置、电子设备及存储介质，通过对待数字化档案进行分类识别以确定其为个人档案还是合同档案，然后基于不同的档案情况调用不同的模型来进行分析，最终完成合同标签的确定以及个人信息的数字化录入；通过上述方式能够大大提高档案识别效率，并且由于采用标签化档案处理方式，进而使得企业人员便于进行后续索引以及数据查阅，提升企业运营效率。

实施例一

请参阅图1，图1是本发明实施例公开的档案数字化的管理方法的流程示意图。其中，本发明实施例所描述的方法的执行主体为由软件或/和硬件组成的执行主体，该执行主体可以通过有线或/和无线方式接收相关信息，并可以发送一定的指令。当然，其还可以具有一定的处理功能和存储功能。该执行主体可以控制多个设备，例如远程的物理服务器或云服务器以及相关软件，也可以是对某处安置的设备进行相关操作的本地主机或服务器以及相关软件等。在一些场景中，还可以控制多个存储设备，存储设备可以与设备放置于同一地方或不同地方。如图1所示，该基于档案数字化的管理方法包括以下步骤：

S101：通过图像采集模块对待数字化档案进行图像采集操作以得到档案图像信息；

本步骤主要是对待进行数字化的图像来进行数据采集，这里可以通过摄像头来获取到相应的图像信息；在进行具体实施的时候可以采用高分辨率的摄像头以及在亮度适宜的环境下来进行图像的采集操作；如果光线太暗的话，不便于后续进行字符的识别与提取。

S102：对所述档案图像信息进行分类操作以确定所述档案图像信息为个人档案信息和合同档案信息；

在本步骤中主要是对档案图像来进行识别，在进行具体实施的时候有多种方式来进行分类识别；第一种是可以采用人工选择的方式，比如在进行人员档案信息或者合同档案录入的时候，可以直接启动系统内的相应程序来对其进行识别，这种方式多是提前预选好相应的内容，这样在后续的识别完之后对其进行标记处理；第二种是对图像识别来进行分类确定，根据图像识别分类确定的话也有如下两种方式，一种是直接在对应的文档中设置标记符号，比如是个人信息的则可以在左上角绘制圆形标记来进行识别，如果是档案信息的话可以在左上角绘制方形标记来进行识别，上述是直接标记的方式，可以便于进行分类确认操作；还有一种即是无需进行识别标记的方式，这种方式是通过识别对应的图像来进行确认的，但是这种方式虽然操作方便，但是提升了服务器的识别压力；在进行具体实施的时候，最为优选的是，采用特殊标记来进行操作的方式。在进行具体实施的时候，这里的档案信息不限定为个人和合同信息，档案要的是会计类、文书(政府)、基建、声像档案等，记录的档案都是需要大量收集的档案材料；可以基于上述内容来进行数字化档案创建。

S103：当检测到其为个人档案信息时，基于预先构建的识别模型对所述个人图像信息进行识别以得到相应的个人信息集合，对所述个人信息集合进行数字化存储；

这里的个人档案信息可以是入职时公司填写的档案信息，还可以是员工的身份证信息；既然需要计算机进行著录工作，则需要必须要相应的软件能像人一样能知道那张图像上的内容需要著录，著录字段是什么，从什么地方开始，从什么地方结束。其次，必须利用人工智能OCR技术对其著录的内容进行提取，包括文字，位置，并能把位置进行切图处理。第三、能针对人工智能OCR技术识别的文字进行有效的校队，以提高著录正确率。最后、能有效的导出著录的数据，以方便后续的利用和管理。

更为优选的，图2是本发明实施例公开的进行个人图像信息识别的流程示意图；如图2所示，所述基于预先构建的识别模型对所述个人图像信息进行识别以得到相应的个人信息集合，包括：

S1031：对所述个人图像信息进行识别以确定个人图像信息中有效信息的开始区域信息以及结束区域信息；

S1032：根据所述开始区域信息、结束区域信息以及预先构建的图像切分方式对所述个人图像信息进行图像切分以确定个人图像信息中各个的切分信息集合，其中，每一个切分信息集合表征一种个人信息；所述图像切分方式为预先构建的图像切分逻辑或者为身份识别模型；对所述切分信息集合进行图像识别以得到个人图像信息中的个人身份信息。

也即是在进行具体设置的时候可以通过确定开始区域与结束区域来进行中间有效信息的获取；在进行具体操作的时候，对中间信息进行获取，然后进行有效信息的提取。

更为优选的，在所述根据所述开始区域信息、结束区域信息以及预先构建的图像切分方式对所述个人图像信息进行图像切分以确定个人图像信息中各个的切分信息集合之后，还包括：

S1033：对所述切分信息集合进行信息匹配以确定所有切分信息集合中需进行信息确认的验证信息集合；

S1034：将与所述验证信息集合关联的图像信息进行局部放大操作以得到局部放大图像；

S1035：对所述验证信息集合进行字符识别以得到验证识别结果，将所述验证识别结果以及局部放大图像发送至审核人员进行审核确认，当审核通过的时候，执行下一步，当审核不通过的时候，对所述验证识别结果进行修改操作，在修改完成之后，执行下一步。

具体实施方案如下：

1)利用人工智能技术，把需要著录数据的图像进行大量的类型训练(如，身份证，只要能判断是身份证，即可读取姓名，出生年月等数据，其他表格图像，可以预先定义识别位置进行快速识别)，找出特征点，完成代替人识别哪张图像需要著录的工作；

2)根据不同类型，对每张需要著录提取数据的图像先识别其方向，调整方向后，利用图像开始的特征点，用软件标注提取字段的位置，提取开始区域和结束区域，或使用整张识别，并利用关键字进行字段有效内容的截取；

3)利用人工智能OCR技术识别所有需著录的字段，并把OCR识别的结果全部填充预先定义好的字段内，展现给工作人员校验；

4)所有展开校验的著录字段，字段定位必须和图像定位同步(例如：利用预先定义的不同类型档案的不同识别位置，一张图上有3个字段需要著录采集，在软件界面定位在第一个字段时，通过第一个字段对应的预设图像位置，就能裁切相应位置的图像，放大显示)，图像能放大显示给工作人员核对OCR识别的信息是否正确；

5)利用字段定位和图像定位同步校验的方式解决了传统两录一校(既两人同时对需要著录的字段进行著录，也就是两份数据，软件自动对比数据，字段文字一致的软件可以通过，对比不一致的需要工作人员再次核对修改)的正确率问题；

6)利用软件能把著录的字段新成Excel，MDB，XML，JOSON等数据格式导出进行利用和管理；在进行具体数据存储的时候，还可以导出多种形式的表格来供人员进行存储查阅。

例如，用上面的方法，先从大量的图片中训练找出身边证的图像(包括正面，反面，正反面在一张图像的情况)，利用身份证上文字的方向，先调整图像的方向好为OCR识别做准备，然后根据身份证的特征点，找到识别姓名和身份证号码的位置及大小，利用人工智能OCR技术对姓名和身份证号码进行识别，识别这两个著录字段后，显示在软件界面上，当鼠标点击姓名字段时，姓名字段对应图像的位置及大小，自动截图放大显示在软件中，供工作人员核对使用，核对正确后，身份证号码按上述方法核对一次，完成所有核对后，软件可以把著录的字段自动导出Excel等格式的电子文件方便利用和管理。

本方案利用了人工智能技术对图像特征进行标注识别，代替了工作人员对需著录图像的识别，利用人工智能OCR技术对文字进行识别，代替了工作人员手工著录或在图像上OCR拖动识别著录，同时利用字段定位和图像定位同步的方式，解决了传统利用人工两录一校的功能，达到同样的正确率效果。本方案利用这三大技术点，极大提高了著录的效率，并达到人工两录一校的功能，降本增效明显，实现良好的经济效益。上述仅仅是以身份证为例来进行方案的描述，如果用户提供的是具体的人员信息表，也可以采用上述方式来进行操作。上述方案也能够通过用户进行校验来提高最终档案数字化存储的正确性。

S104：当检测到其为合同档案信息时，获取与合同档案信息关联的业务人员信息；

S105：调用文字分析模型对所述合同档案信息进行识别以得到合同识别结果，根据所述合同识别结果以确定与合同关联的合同内容信息，所述合同内容信息包括业务内容、客户信息、金额信息、支付方式和签约主体信息；其中，所述业务内容包括业务项目和交付时间；

更为优选的，图3是本发明实施例公开的进行合同档案识别的流程示意图，如图3所示，所述调用文字分析模型对所述合同档案信息进行识别以得到合同识别结果，根据所述合同识别结果以确定与合同关联的合同内容信息，包括：

S1041：基于设定的页码位置来对所述合同档案信息中所有的图像进行页码识别，若所有的图像均存在页码信息，则生成与相应图像关联的页码数据；

S1042：若合同档案信息中的图像不存在页码信息，则采用光学字符识别技术对所述合同档案信息中每一幅图像进行文字识别以得到与相应图像关联的文字识别结果；

S1043：基于预先构建的BERT模型来对文字识别结果进行识别以得到文字识别结果，根据所述文字识别结果判断每一幅图像之间的关联性，并根据关联性识别结果来确定各个图像的页码数据。

在进行具体实施的时候，有的合同可能会存在页码信息，有的合同则可能不存在相应的页码信息；但是由于要对其进行归档，所以需要对档案进行完成编码，一般的可以通过识别页码来进行档案归档；但是在实际工作过程中，会存在档案页码编写错误或者是缺少页码的情况出现。故而在进行具体实施的时候，可以结合语言识别来辅助判断。因为合同一般都是具有完整语句的，每一页最下方内容与下一页最上方内容是具有关联性的，故而在进行具体实施的时候，通过识别两者语句内容之间的逻辑性来进行识别判断。

本申请实施例中除了还可以BERT模型，还可以采用ELMo模型、GPT模型或XLNet模型。上述模型可以利用大量的文本和强大的计算力来实现庞大的模型预训练任务，使得预训练后的模型自身就具备高效的文本特征提取能力，这些特征能力可以很容易的应用到下游任务中。但是经过具体的实践发现，上述模型在具体实现上也存在一些细微的差异。比如，ELMo是利用双向的LSTM结构来进行特征模型构建的，ELMo模型会通过从左至右，以及从右至左分别提取文字上下文特征，然后将获取到的上文部分特征和下文部分特征进行合并，最终实现模型构建以及词性的获取。GPT模型仅使用从左至右的特征自编码方式，每一个词只能学习到前面词的语义特征，这样就限制了句子级别的文字语义理解，使得在其与其他整体的语义理解方面上存在一定的能力差异。XLNet模型是基于自回归的特征编码方式进行构建，其只能单独用上文信息或者下文信息，而不能同时里用上下文信息。

相对于GPT模型，Bert可以同时学习文字的上下文信息，这样也使得其同时可以在多个整体语句理解任务上会取得更好的准确率。相对于ELMo模型，Bert处理速度要更快，使用了transformer结构，而不是LSTM结构，在多个任务效果也更好，处理速度更快。XLNet是在Bert后面提出，其在一些任务上性能好于Bert，但是在语句检测任务上，权衡之下，bert模型在性能和处理速度上与XLNet相当，并且Bert更通用。因此，在本申请实施例中更为优选的可以采用Bert模型来进行词语特征的提取识别，其能够达到更好的效果。

更为优选的，所述基于预先构建的BERT模型来对文字识别结果进行识别以得到文字识别结果，根据所述文字识别结果判断每一幅图像之间的关联性，包括：

S10431：获取每一幅图像的开始语句信息和结束语句信息，并基于所述开始语句信息和结束语句信息确定连接文本信息；

S10432：根据句法分析模型对所述连接文本信息进行文本解析以确定所述连接文本信息的语句主体结构；

S10433：根据所述语句主体结构确定连接文本信息中对应的主体位置；并确定所述连接文本信息中主语、谓语和宾语之间的连结关系；根据所述连结关系调整对应的词语特征信息的表征权重；

S10434：根据所述表征权重以及对应的词语特征信息确定文本检测结果，当所述文本检测结果为同一句时，则确定相应的图像上下关联。

具体的，既然软件要代替工作人员实现图像的质检工作，必须让软件能像人一样能知道图像是否符合质量标准，包括分辨率，页码连续性，内容完整性，裁切内容完整度等。

在页码检查时，定义好页码的检查位置，通过大量的人工智能训练，让人工智能能识别“自动号码机”，“打印机”等设备制作的页码

通过人工智能OCR识别，上下文关联和档案类型的先后顺序，确定内容完整性。

通过人工智能训练，找出过度裁切的图像进行特征标注，完成裁切内容完整度的识别。

最后、人工智能判断正确的图像可以直接通过，进入成果生成环节，而没有通过的图像才需要人工质检，大大降低了人工质检的数量，极大提高了效率。

具体实施方案如下：

1)利用人工智能技术，把大量的图像进行模型训练，包括页码识别训练(通过页码位置和自动号码机打出的页码的特征点)，档案类型训练(根据不同类型不同的特征点进行训练)，内容完整性训练(档案类型先后顺序和上下文关联训练)，裁切内容完整度训练，完成代替人大脑思考的并识别哪张图像符合质量标准的工作；

2)截取图像的固定大小，如1英寸(一般设置为1英寸，因为图像分辨率单位就是1英寸有多少个像素点)，获得图像的像素点大小，如：200，即图像分辨率为200DPI，300，即图像分别率为300DPI。无需按整个图像进行计算，节约计算分辨率的时间，又检查了图像的分辨率指标；

3)根据档案不同类型排序规则和页码的识别判断出整份电子档案的顺序是否正确，是否有漏页或漏编码情况；

4)如果页码漏编码，第一种方式，采用OCR识别技术，采用上下文语境的关系判断内容完整性，第二种方式，根据内容完整性训练的特征，确定的图像先后顺序及完整性判断；

5)利用人工智能训练的裁切内容完整度特征训练模型，完成图像是否过度裁切的判断，如是否裁切到文字等；

6)人工智能质检不通过(没有达到图像质检标准)的图像，利用软件和工作人员对其进行人工质检；

7)利用软件能把所有质检通过的图像制作成数字化成果，如PDF，OFD，TIF，JPG等电子文件格式，以方便后期的查询利用；

举例说明如下：

例如，用上面的方法，判断身份证的先后顺序，排除身份证正反两面在同一张图像上的情况，那么身份证的正反面就在两张图像上，先判断两张图像上是否有人工智能训练出来识别的页码，如果有，是否连续，如果连续，内容完整性就能保证，如果某一页漏编制页码了，那就通过人工智能档案类型训练的先后顺序判断是否正面图像在前，反面图像在后，完成图像的完整性检查。

本发明实施例的方案利用了人工智能技术对图像页码特征进行标注识别，对图像类型特征进行标准识别，对裁却过度的图像特征进行标注识别，代替了工作人员对这三钟清苦的识别，利用人工智能OCR技术对文字进行识别，上下文语境关联，在没有页码的情况先能判断前后顺序，完成完整度检查。本案利用人工智能训练标注技术，人工智能OCR技术，极大提高了质检图像的效率，降本增效明显，实现良好的经济效益。

更为优选的，在所述基于预先构建的BERT模型来对文字识别结果进行识别以得到文字识别结果之后，还包括：

S1044：对所述文字识别结果进行标签化处理以得到相应合同的标签集合；所述标签集合包括业务内容、客户信息、金额信息、支付方式和签约主体信息；

S1045：将标签集合发送至预先构建完成的运营关系图谱中进行处理以完成对个人知识图谱的更新；

S1046：对个人知识图谱对应的数据源赋予对应的数据地址；将划分后个人知识图谱转化为由知识块和数据地址组成的知识图谱数据流，对知识图谱数据流进行加密；并将知识块发送至区块链系统中的各个存储节点进行数据存储；基于所述存储节点配置相应的访问权限；

S1047：基于所述个人知识图谱来构建部门知识图谱或者企业知识图谱。

档案数字化归档并不是目的，最主要的还是需要辅助企业来对上述信息进行有效利用，在进行具体实施的时候，通过标签抽取将合同内容进行信息抽取，然后通过该标签提取出合同中关键信息，这样一方面能够对其完成标签化处理，便于后续进行数据汇集；另一方面，通过标签化的处理也能够有效的进行档案定位，便于进行索引。

并且在进行具体实施的时候，可以通过采用知识图谱三元组的方式来对获取到的所有信息进行知识汇总，甚至于基于合同等内容构建部门知识图谱与企业知识图谱，挖掘出公司客户之间的内容关系，便于进行多样化业务拓展，有效提升公司针对于客户的深度挖掘。

S106：对所述业务内容信息与个人信息集合进行数字化关联存储，并基于数字化关联存储结果来生成数字索引信息。

在进行具体实施的时候，可以将业务内容与个人信息进行关联，这样就可以直接把与合同关联的各种标签关联到个人，提升数据的汇集度。

更为优选的，所述管理方法，还包括：

S107：基于公司各个员工的位置信息来构建用户位置信息，并基于所述用户位置信息将获取到的数据按照用户位置进行档案存储以形成三维档案资料库；所述三维档案资料库还包括公司的层级架构；

S108：将存储后的数字档案按照文件路径进行归档形成档案数据库，通过所述用户位置信息与文件路径的关联规则将所述三维档案资料与所述档案数据库进行数据关联；所述文件路径用于表征数字档案具体存储路径和实体档案路径，所述文件路径包括多级文件信息；

S109：根据所述三维档案资料库构建文档阅览表以实现对文档的阅览记录进行数据表征，所述阅览记录为相应用户基于其权限查阅的资料内容。

现有的一般都是采用文件数据存储的方式，不够直观化，在本发明实施例中对档案进行三维呈现，可以按照企业员工的具体位置来构建公司的三维模型，然后将与个人关联的数据都与相应的位置进行关联，这样用户在需要进行档案调取的时候，可以通过在三维数据显示模型上直接点击对应的内容即可进行显示，并且采用档案化的存储方式使得用户查阅资料也更加的方便，只要用户拥有相应的权限则可以进行特定信息的查阅；通过上述方式实现了高效信息查阅的方式，提升了整体的便利性。这里的用户实体位置与档案存储的虚拟位置有一一对应的关系；并且除了可以关联数字化结果档案，还可以关联原始图像信息，能够实现多方的数据验证。

数字化档案的整个流程：

1、将纸质版的材料进行扫描，一般是大量的材料；

2、图像处理(需要智能)：去黑边(或者白边和边孔)、去歪斜(调正)、调方向(有的表格因为长度原因，用A4纸打横表示，扫描后电脑方向调整好，方便使用者查看)；

3、图像质检：检查是否有裁切过度，然后进行图像的排序，使得文件可以连续排序：页码连续(识别页码信息)、语义连续(用语言连续判断前后页面是否连续)、类型连续(一般档案是按类型收集，里面表示的是各种类型的文件(题名)，确定了这个档案的类型的排序，目录是程序生成，目录的类型的先后可以设置)。

4、生成档案封面：生成档案号、题名、立卷单位等信息，每个信息就是数据项，数据项可以用来索引。

实施例二

请参阅图4，图4是本发明实施例公开的档案数字化的管理装置的结构示意图。如图4所示，该档案数字化的管理装置可以包括：

采集模块21：用于通过图像采集模块对待数字化档案进行图像采集操作以得到档案图像信息，

类型确定模块22：用于对所述档案图像信息进行分类操作以确定所述档案图像信息为档案信息；

第一检测模块23：用于当检测到其为个人档案信息时，基于预先构建的识别模型对所述个人图像信息进行识别以得到相应的个人信息集合，对所述个人信息集合进行数字化存储；

第二检测模块24：用于当检测到其为合同档案信息时，获取与合同档案信息关联的业务人员信息；

识别模块25：用于调用文字分析模型对所述合同档案信息进行识别以得到合同识别结果，根据所述合同识别结果以确定与合同关联的合同内容信息，所述合同内容信息包括业务内容、客户信息、金额信息、支付方式和签约主体信息；其中，所述业务内容包括业务项目和交付时间；

存储模块26：用于对所述业务内容信息进行数字化存储，并基于数字化关联存储结果来生成数字索引信息。

实施例三

请参阅图5，图5是本发明实施例公开的一种电子设备的结构示意图。电子设备可以是计算机以及服务器等，当然，在一定情况下，还可以是手机、平板电脑以及监控终端等智能设备，以及具有处理功能的图像采集装置。如图5所示，该电子设备可以包括：

存储有可执行程序代码的存储器510；

与存储器510耦合的处理器520；

其中，处理器520调用存储器510中存储的可执行程序代码，执行实施例一中的档案数字化的管理方法中的部分或全部步骤。

本发明实施例公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序使得计算机执行实施例一中的档案数字化的管理方法中的部分或全部步骤。

本发明实施例还公开一种计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执行实施例一中的档案数字化的管理方法中的部分或全部步骤。

本发明实施例还公开一种应用发布平台，其中，应用发布平台用于发布计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执行实施例一中的档案数字化的管理方法中的部分或全部步骤。

在本发明的各种实施例中，应理解，所述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物单元，即可位于一个地方，或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可获取的存储器中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分，可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器)执行本发明的各个实施例所述方法的部分或全部步骤。

在本发明所提供的实施例中，应理解，“与A对应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。

本领域普通技术人员可以理解所述实施例的各种方法中的部分或全部步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上对本发明实施例公开的档案数字化的管理方法、装置、电子设备及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种档案数字化的管理方法，其特征在于，包括：

2.如权利要求1所述的档案数字化的管理方法，其特征在于，所述基于预先构建的识别模型对所述个人图像信息进行识别以得到相应的个人信息集合，包括：

3.如权利要求2所述的档案数字化的管理方法，其特征在于，在所述根据所述开始区域信息、结束区域信息以及预先构建的图像切分方式对所述个人图像信息进行图像切分以确定个人图像信息中各个的切分信息集合之后，还包括：

4.权利要求1所述的档案数字化的管理方法，其特征在于，所述调用文字分析模型对所述合同档案信息进行识别以得到合同识别结果，根据所述合同识别结果以确定与合同关联的合同内容信息，包括：

5.权利要求4所述的档案数字化的管理方法，其特征在于，所述基于预先构建的BERT模型来对文字识别结果进行识别以得到文字识别结果，根据所述文字识别结果判断每一幅图像之间的关联性，包括：

6.权利要求4所述的档案数字化的管理方法，其特征在于，在所述基于预先构建的BERT模型来对文字识别结果进行识别以得到文字识别结果之后，还包括：

7.权利要求1-6中任意一项所述的档案数字化的管理方法，其特征在于，所述管理方法，还包括：

8.一种档案数字化的管理装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：存储有可执行程序代码的存储器；与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行权利要求1至7任一项所述的档案数字化的管理方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，其中，所述计算机程序使得计算机执行权利要求1至7任一项所述的档案数字化的管理方法。