CN117493645A

CN117493645A - 一种基于大数据的电子档案推荐系统

Info

Publication number: CN117493645A
Application number: CN202311839322.0A
Authority: CN
Inventors: 王志武; 冯德明; 梁文佳; 李石秀
Original assignee: Tongluo Technology Co ltd
Current assignee: Tongluo Technology Co ltd
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-02-02
Anticipated expiration: 2043-12-29
Also published as: CN117493645B

Abstract

本发明公开一种基于大数据的电子档案推荐方法及系统，所述方法包括：对符合相关性条件的图像文本列向量、客观列向量和多个文本列向量进行拼接，得到电子档案特征矩阵；若所述电子档案特征矩阵与根据用户浏览记录和收藏记录生成的用户画像矩阵为相似矩阵，且所述图像ahash值与用户画像ahash值之间的汉明距离大于预设阈值，向用户推荐该电子档案。采用本发明，根据不同工作人员的浏览记录和收藏记录推荐关联性高的电子档案给对应的工作人员，提高工作效率。

Description

一种基于大数据的电子档案推荐系统

技术领域

本发明涉及大数据处理技术领域，尤其涉及一种基于大数据的电子档案推荐系统。

背景技术

随着信息技术的不断发展，个人和企业需要管理和保存的数据量也在快速增加，电子档案已经成为现代社会不可或缺的一部分，如何对电子档案进行合理的分类和保存，以方便用户的管理、查找的问题一直是电子档案管理的优化方向。

目前文档的分类一般还是通过人工手段进行整理和分类，这种方式效率较低。自动分类也大多是基于一些规则的方法进行分类。而且随着大数据的蓬勃发展，电子档案数据库中的档案量越来越多，档案的数字化管理的需求也越来越大，但在现有大数据的应用场景下，工作人员来调阅电子档案进行浏览的过程中，往往需要在目标档案集合中的档案逐个档案进行检查，费时且不准确。

发明内容

本发明实施例提供一种基于大数据的电子档案推荐系统，根据不同工作人员的浏览记录和收藏记录推荐关联性高的电子档案给对应的工作人员，提高工作效率。

本申请实施例的第一方面提供了一种基于大数据的电子档案推荐方法及系统，其特征在于，包括：

在电子档案大数据库中选出用户未浏览的电子档案并提取客观元数据、文字元数据和图像元数据；其中，所述文字元数据和所述图像元数据为内容与形式非固定的信息，所述客观元数据为内容与形式固定的信息；

利用预设的图像文本提取模块对所述图像元数据中的文字连通区域图像进行识别并解码，得到图像文本列向量；

采用平均哈希算法对所述图像元数据中的非文字连通区域图像进行识别并解码，得到电子档案的图像ahash值；

按照相同的权重对各个客观元数据对应的词向量相加，得到客观列向量；

对所述文字元数据进行特征提取，得到多个文本列向量；

对符合相关性条件的图像文本列向量、所述客观列向量和所述多个文本列向量进行拼接，得到电子档案特征矩阵；

若所述电子档案特征矩阵与根据用户浏览记录和收藏记录生成的用户画像矩阵为相似矩阵，且所述图像ahash值与用户画像ahash值之间的汉明距离大于预设阈值，向用户推荐该电子档案。

在第一方面的一种可能的实现方式中，所述文字连通区域图像的获取过程为：

将所述图像元数据所处颜色空间转换至YUV颜色空间；

利用最小二乘法对转换后的图像元数据的色域曲线进行拟合，利用拟合后的色域曲线对所述图像元数据按照颜色进行分层聚类；

对聚类后得到的颜色图层分别进行HOG特征提取，得到各颜色图层的HOG特征向量，将通过SVM分类器验证的HOG特征向量对应的颜色图层作为所述图像元数据中的文字连通区域。

在第一方面的一种可能的实现方式中，所述利用预设的图像文本提取模块对所述图像元数据中的文字连通区域图像进行识别并解码，得到图像文本列向量，具体包括：

利用预设的图像文本提取模块中的卷积网络对所述图像元数据中的文字连通区域图像进行特征提取，得到卷积特征；

利用LSTM网络对所述卷积特征进行处理，得到上下文特征；

将所述上下文特征输入到CTC模块，获得图像文本列向量。

在第一方面的一种可能的实现方式中，所述按照相同的权重对各个客观元数据对应的词向量相加，得到客观列向量，具体包括：

通过BoW算法对所有客观元数据的集合进行词向量提取，得到各个客观元数据对应的词向量；

按照相同的权重对各个客观元数据对应的词向量相加，得到客观列向量。

在第一方面的一种可能的实现方式中，所述对所述文字元数据进行特征提取，得到多个文本列向量，具体包括：

利用经过了词汇语义本体知识库训练的半条件随机域模型对所述文字元数据进行分段；

利用word2vec模型对分段后的文字元数据进行特征提取，得到多个文本列向量。

在第一方面的一种可能的实现方式中，所述对符合相关性条件的图像文本列向量、所述客观列向量和所述多个文本列向量进行拼接，得到电子档案特征矩阵，具体包括：

按照符合相关性条件的图像文本列向量、所述客观列向量和所述多个文本列向量中单一列向量的最大维度数，对维度数低于最大维度数的列向量进行补齐，直至所有列向量的维度数等于最大维度数；

从左至右依次拼接符合相关性条件的图像文本列向量、所述客观列向量和所述多个文本列向量，得到电子档案特征矩阵；若没有符合相关性条件的图像文本列向量，添加零向量作为符合相关性条件的图像文本列向量。

在第一方面的一种可能的实现方式中，所述对符合相关性条件的图像文本列向量、所述客观列向量和所述多个文本列向量进行拼接之前，还包括：

若所述图像文本列向量处于由所述多个文本列向量决定的向量空间中，判断所述图像文本列向量符合相关性条件。

在第一方面的一种可能的实现方式中，根据用户浏览记录和收藏记录生成的用户画像矩阵的具体过程为：

从用户浏览记录找出用户浏览时间大于预设阈值的一类电子档案以及收藏记录中的二类电子档案；

获取所述一类电子档案和所述二类电子档案全部电子档案的多个电子档案特征矩阵的均值矩阵作为用户画像矩阵。

在第一方面的一种可能的实现方式中，所述用户画像ahash值的计算过程为：

获取所述一类电子档案和所述二类电子档案全部电子档案的多个ahash值的均值作为用户画像ahash值。

本申请实施例的第二方面提供了一种基于大数据的电子档案推荐系统，包括：

提取模块，用于在电子档案大数据库中选出用户未浏览的电子档案并提取客观元数据、文字元数据和图像元数据；其中，所述文字元数据和所述图像元数据为内容与形式非固定的信息，所述客观元数据为内容与形式固定的信息；

图像文本数据模块，用于利用预设的图像文本提取模块对所述图像元数据中的文字连通区域图像进行识别并解码，得到图像文本列向量；

图像ahash值模块，用于采用平均哈希算法对所述图像元数据中的非文字连通区域图像进行识别并解码，得到电子档案的图像ahash值；

客观数据模块，用于按照相同的权重对各个客观元数据对应的词向量相加，得到客观列向量；

文本数据模块，用于对所述文字元数据进行特征提取，得到多个文本列向量；

拼接模块，用于对符合相关性条件的图像文本列向量、所述客观列向量和所述多个文本列向量进行拼接，得到电子档案特征矩阵；

推荐模块，用于若所述电子档案特征矩阵与根据用户浏览记录和收藏记录生成的用户画像矩阵为相似矩阵，且所述图像ahash值与用户画像ahash值之间的汉明距离大于预设阈值，向用户推荐该电子档案。

相比于现有技术，本发明实施例提供了一种基于大数据的电子档案推荐方法及系统，按照客观元数据、文字元数据和图像元数据三种分类对构成电子档案的元数据进行不同类型的特征提取获取对应的特征向量。其中，由于图像元数据的图像中可能会存在文字信息，对图像元数据采用了两种方式提取：一是利用预设的图像文本提取模块对所述图像元数据中的文字连通区域图像进行识别并解码，二是采用平均哈希算法对所述图像元数据中的非文字连通区域图像进行识别并解码，前一种方式是为了获取图像类型数据中的文字信息，后一种是为了获取图像类型数据中的图像信息。然后将各种类型元数据对应的列向量进行合并得到代表文字类信息特征的电子档案特征矩阵和代表图像类信息特征的图像ahash值，再与基于用户画像的生成的用户画像矩阵和用户画像ahash值进行比较，符合条件后再向用户推荐该电子档案。

综上所述，本发明实施例能够利用大数据对工作人员的浏览记录和收藏记录的电子档案进行统计、特征提取并形成用户画像（用户画像矩阵和用户画像ahash值），由于考虑了电子档案中各种类型元数据特征提取的准确性，电子档案特征矩阵和图像ahash值能够充分表征电子档案。对从用户浏览记录和收藏记录得到的多个电子档案也进行相同的处理，用户画像矩阵和用户画像ahash值能充分表征用户画像，电子档案与用户画像匹配后，再自动向用户推荐该电子档案，整个过程无需用户筛选，高效且准确。

附图说明

图1是本发明一实施例提供一种基于大数据的电子档案推荐方法的流程示意图；

图2是本发明一实施例提供一种基于大数据的电子档案推荐系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参照图1，本发明实施例提供了一种基于大数据的电子档案推荐方法及系统，其特征在于，包括：

S10、在电子档案大数据库中选出用户未浏览的电子档案并提取客观元数据、文字元数据和图像元数据；其中，所述文字元数据和所述图像元数据为内容与形式非固定的信息，所述客观元数据为内容与形式固定的信息。

S11、利用预设的图像文本提取模块对所述图像元数据中的文字连通区域图像进行识别并解码，得到图像文本列向量。

S12、采用平均哈希算法对所述图像元数据中的非文字连通区域图像进行识别并解码，得到电子档案的图像ahash值。

S13、按照相同的权重对各个客观元数据对应的词向量相加，得到客观列向量。

S14、对所述文字元数据进行特征提取，得到多个文本列向量。

S15、对符合相关性条件的图像文本列向量、所述客观列向量和所述多个文本列向量进行拼接，得到电子档案特征矩阵。

S16、若所述电子档案特征矩阵与根据用户浏览记录和收藏记录生成的用户画像矩阵为相似矩阵，且所述图像ahash值与用户画像ahash值之间的汉明距离大于预设阈值，向用户推荐该电子档案。

电子化后的电子档案一般包括客观元数据、文字元数据和图像元数据。这里的客观元数据包括：一、业务系统生成或捕获电子档案时的数据，如文号、责任者、题名、日期、密级和保密期限、计算机文件名、计算机文件大小、格式信息、数字签名(包括签名格式描述、签名时间签名者、签名结果、证书、证书引证、签名算法 )等；二、电子档案管理系统中生成或捕获时的数据，如档案馆名称、档案馆代码、全宗名称、立档单位名称、全宗号、年度、保管期限、件号、页号、在线存址、离线存址等；三是业务系统和电子档案管理系统任何一方形成和捕获时的数据，如主题词、关键词、人名、机构或问题、类别号、分类号、授权对象、授权行为、控制标识等。四、业务系统和电子档案管理系统中形成的数据，如机构和人员元数据(包括机构名称、人员名称、组织机构代码个人职位，业务实体元数据(包括业务行为、行为时间、行为依据、行为描述 ),实体关系元数据(包括实体标识符、关系类型、关系、关系描述)等。文字元数据和图像元数据分别是档案里面形式和内容不固定的内容数据，内容上一般与电子档案的主题信息，或者说电子档案的主题信息蕴含在文字元数据和图像元数据中。文字元数据的存储格式是常见的文档格式，比如txt，图像元数据的存储格式是常见的图片格式，比如jpg。

针对三种不同类型的元数据，S11和S12中分别对图像元数据中的文字连通区域图像和非文字连通区域图像进行处理，执行S11后得到表征电子档案部分文字信息的图像文本列向量，执行S12后得到表征电子档案全部图像信息的图像ahash值。需要说明的是，文字连通区域图像和非文字连通区域的识别需要用到OCR一类的识别技术，后续实施例也会着重介绍一项针对本申请优化适配后的OCR实现过程。

S13和S14对客观元数据和文字元数据处理后，得到表征电子档案部分文字信息的客观列向量和多个文本列向量，所述图像文本列向量、所述客观列向量和所述多个文本列向量共同表征电子档案全部文字信息，并在S15中对图像文本列向量、所述客观列向量和所述多个文本列向量进行拼接，得到电子档案特征矩阵。

需要说明的是，S16中用户画像矩阵的形成过程与电子档案特征矩阵的形成过程一样，只不过是提取向量的对象不同（电子档案特征矩阵提取的对象是用户未浏览的电子档案，用户画像矩阵提取的对象是收藏记录和浏览记录中的档案），用户画像ahash值同理。

示例性地，所述文字连通区域图像的获取过程为：

将所述图像元数据所处颜色空间转换至YUV颜色空间；

通过现有算法将图像元数据由RGB颜色空间转换至YUV颜色空间，然后利用最小二乘法对图像的色调直方图曲线进行拟合并确定最佳拟合阶次，根据拟合后的曲线对图像进行颜色分层聚类。对分解出的各颜色图层分别进行处理，将HOG所提取到的特征向量喂入预训练好的SVM分类器，可以确认向量对应的图片是否含有目标轮廓，这里需要的事先将SVM分类器的工作参数设置成与文字信息的相关参数（可输入常用的实验值），进而实现文字区域识别的功能，得到文字连通区域。

示例性地，所述利用预设的图像文本提取模块对所述图像元数据中的文字连通区域图像进行识别并解码，得到图像文本列向量，具体包括：

利用LSTM网络对所述卷积特征进行处理，得到上下文特征；

将所述上下文特征输入到CTC模块，获得图像文本列向量。

图像特征提取模块一般内置多种主流的卷积网络，如ResNet、MobileNet等。

由于文字连通区域图像特殊性，输入数据中存在大量的上下文信息，而卷积神经网络特性使其更关注局部特征，缺乏长依赖的建模能力，因此使用卷积网络很难挖掘到文本之间的上下文关系。为了解决这个问题，通过卷积网络后需要接入双向LSTM（LongShort-Term Memory）对特征进行处理，这样可以有效的提取图片中的上下文信息。最后将LSTM输出的特征序列输入到CTC模块代替softmax，可直接解码序列结果。

示例性地，所述按照相同的权重对各个客观元数据对应的词向量相加，得到客观列向量，具体包括：

BoW算法使用一组无序的单词来表达一段文字或一个文档。假设电子文档中包含10个客观元数据,每个客观元数据有唯一的属性名,那么每个客观元数据可以使用一个10维的向量来表示。如下：[1,2,1,1,1,0,0,0,1,1]，向量中每个维度取值是根据每个客观元数据的具体值在电子文档中出现的频率。

示例性地，所述对所述文字元数据进行特征提取，得到多个文本列向量，具体包括：

半条件随机域（semi―Markov conditional rantlom fields，简称semi―CRFs）是一种模型，可以基于百科全书对文本段落进行有效划分。为了克服单纯的HMM模型和CRF模型的段落类型重复问题，以经过整理的HMM模型状态的后验分布为基本依据，本实施例使用了基于词汇语义本体知识库的段落开始特征以及针对特定段落类型的提示性特征来进一步适应电子档案的特点。

示例性地，所述对符合相关性条件的图像文本列向量、所述客观列向量和所述多个文本列向量进行拼接，得到电子档案特征矩阵，具体包括：

假如图像文本列向量为[1, 2, 1, 1, 1]^T、所述客观列向量为[4, 3, 1, 0]^T和所述多个文本列向量（本实施例以三个文本列向量为例）分别为[1, 0, 1]^T、[1, 2, 1]^T、[1,4, 1]^T那么需要将客观列向量补齐为[4, 3, 1, 0, 0]^T，所述多个文本列向量分别补齐为[1, 0, 1， 0,0]^T、[1, 2, 1, 0, 0]^T、[1, 4, 1, 0, 0]^T。

示例性地，所述对符合相关性条件的图像文本列向量、所述客观列向量和所述多个文本列向量进行拼接之前，还包括：

对图像文本列向量进行相关性条件判断是为避免从图像元数据提取得到的无效文本特征污染到后续电子档案特征矩阵取值，进而影响特征提取的准确性，干扰电子档案的匹配。

示例性地，根据用户浏览记录和收藏记录生成的用户画像矩阵的具体过程为：

多个电子档案特征矩阵与上述实施例中电子档案特征矩阵的计算过程相同，这里不再赘述。

示例性地，所述用户画像ahash值的计算过程为：

多个ahash值与上述实施例中图像ahash值的计算过程相同，这里不再赘述。

相比于现有技术，本发明实施例提供了一种基于大数据的电子档案推荐系统，按照客观元数据、文字元数据和图像元数据三种分类对构成电子档案的元数据进行不同类型的特征提取获取对应的特征向量。其中，由于图像元数据的图像中可能会存在文字信息，对图像元数据采用了两种方式提取：一是利用预设的图像文本提取模块对所述图像元数据中的文字连通区域图像进行识别并解码，二是采用平均哈希算法对所述图像元数据中的非文字连通区域图像进行识别并解码，前一种方式是为了获取图像类型数据中的文字信息，后一种是为了获取图像类型数据中的图像信息。然后将各种类型元数据对应的列向量进行合并得到代表文字类信息特征的电子档案特征矩阵和代表图像类信息特征的图像ahash值，再与基于用户画像的生成的用户画像矩阵和用户画像ahash值进行比较，符合条件后再向用户推荐该电子档案。

本申请一实施例的提供一种基于大数据的电子档案推荐系统，包括提取模块20、图像文本数据模块21、图像ahash值模块22、客观数据模块23、文本数据模块24、拼接模块25和推荐模块26。

提取模块20，用于在电子档案大数据库中选出用户未浏览的电子档案并提取客观元数据、文字元数据和图像元数据；其中，所述文字元数据和所述图像元数据为内容与形式非固定的信息，所述客观元数据为内容与形式固定的信息。

图像文本数据模块21，用于利用预设的图像文本提取模块对所述图像元数据中的文字连通区域图像进行识别并解码，得到图像文本列向量。

图像ahash值模块22，用于采用平均哈希算法对所述图像元数据中的非文字连通区域图像进行识别并解码，得到电子档案的图像ahash值。

客观数据模块23，用于按照相同的权重对各个客观元数据对应的词向量相加，得到客观列向量。

文本数据模块24，用于对所述文字元数据进行特征提取，得到多个文本列向量。

拼接模块25，用于对符合相关性条件的图像文本列向量、所述客观列向量和所述多个文本列向量进行拼接，得到电子档案特征矩阵。

推荐模块26，用于若所述电子档案特征矩阵与根据用户浏览记录和收藏记录生成的用户画像矩阵为相似矩阵，且所述图像ahash值与用户画像ahash值之间的汉明距离大于预设阈值，向用户推荐该电子档案。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赞述。

本申请一实施例提供了一种计算机设备，包括处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时实现如上所述一种基于大数据的电子档案推荐方法。

所述计算机设备可以是智能手机、平板电脑、桌上型计算机和云端服务器等计算设备。该计算机设备可包括但不仅限于处理器、存储器。本领域技术人员可以理解，计算机设备可以包括输入输出设备、网络接入设备等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路 (Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器在一些实施例中可以是所述计算机设备的内部存储单元，例如计算机设备的硬盘或内存。所述存储器在另一些实施例中也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。进一步地，所述存储器还可以既包括所述计算机设备的内部存储单元也包括外部存储设备。所述存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于大数据的电子档案推荐方法及系统，其特征在于，包括：

对所述文字元数据进行特征提取，得到多个文本列向量；

2.如权利要求1所述基于大数据的电子档案推荐方法及系统，其特征在于，所述文字连通区域图像的获取过程为：

将所述图像元数据所处颜色空间转换至YUV颜色空间；

3.如权利要求1所述基于大数据的电子档案推荐方法及系统，其特征在于，所述利用预设的图像文本提取模块对所述图像元数据中的文字连通区域图像进行识别并解码，得到图像文本列向量，具体包括：

利用LSTM网络对所述卷积特征进行处理，得到上下文特征；

将所述上下文特征输入到CTC模块，获得图像文本列向量。

4.如权利要求1所述基于大数据的电子档案推荐方法及系统，其特征在于，所述按照相同的权重对各个客观元数据对应的词向量相加，得到客观列向量，具体包括：

5.如权利要求1所述基于大数据的电子档案推荐方法及系统，其特征在于，所述对所述文字元数据进行特征提取，得到多个文本列向量，具体包括：

6.如权利要求1所述基于大数据的电子档案推荐方法及系统，其特征在于，所述对符合相关性条件的图像文本列向量、所述客观列向量和所述多个文本列向量进行拼接，得到电子档案特征矩阵，具体包括：

7.如权利要求1或6所述基于大数据的电子档案推荐方法及系统，其特征在于，所述对符合相关性条件的图像文本列向量、所述客观列向量和所述多个文本列向量进行拼接之前，还包括：

8.如权利要求1所述基于大数据的电子档案推荐方法及系统，其特征在于，根据用户浏览记录和收藏记录生成的用户画像矩阵的具体过程为：

9.如权利要求1所述基于大数据的电子档案推荐方法及系统，其特征在于，所述用户画像ahash值的计算过程为：

10.一种基于大数据的电子档案推荐系统，包括：