CN115795131B

CN115795131B - 基于人工智能的电子档案分类方法、装置及电子设备

Info

Publication number: CN115795131B
Application number: CN202310093519.8A
Authority: CN
Inventors: 李莹; 陶媛; 尹旭; 王玉增; 续敏; 王玉石; 李睿; 朱运恒
Original assignee: Shandong Energy Shuzhiyun Technology Co ltd
Current assignee: Shandong Energy Shuzhiyun Technology Co ltd
Priority date: 2023-02-10
Filing date: 2023-02-10
Publication date: 2023-05-16
Anticipated expiration: 2043-02-10
Also published as: CN115795131A

Abstract

本发明提供了一种基于人工智能的电子档案分类方法、装置及电子设备，在进行电子档案分类时，先对待分类的目标电子档案数据进行向量化处理，得到目标特征数据，再将目标特征数据输入训练后的档案分类模型，得到目标电子档案数据对应的分类结果，其中，档案分类模型是基于目标样本数据集和预先建立的综合损失函数训练得到的。由于目标样本数据集是基于特征的信息熵大小进行特征筛选得到的，综合损失函数由档案分类模型中的分类器对应的第一损失函数、预先构建的后验概率校准模块对应的第二损失函数和预先构建的负例监督模块对应的第三损失函数构成，因此本发明实现了电子档案的高精度、高效率的分类管理。

Description

基于人工智能的电子档案分类方法、装置及电子设备

技术领域

本发明涉及人工智能技术领域，尤其是涉及一种基于人工智能的电子档案分类方法、装置及电子设备。

背景技术

在数字时代背景下，企业档案数据增长快、体量大。档案是记录个人、公司、国家机关以及各类集团组织的重要文件，在生产、生活及社会活动中具有关键性的地位。当前社会已经进入云计算时代，在这个背景下，档案由传统的纸质版本转变成电子版，当前大多数档案均采用云存储方式保管，形成存储在数据库中的电子档案，以此保障档案资源调取的便捷性、灵活性和全面性。然而，根据档案的形式、性质、载体、所有制等，可以将档案分为多种类别，在存储电子档案时，却存在档案类别不清晰的问题，影响档案收录。为充分发挥企业档案数据的资产价值，使其能够准确、清晰地反映业务经营成果，进而推动企业高质量发展，企业在业务经营管理过程中，就需要深入开展档案数据管理，对档案数据分类管理模式做进一步的研究。因此，电子档案资源分类已成为时下研究热点问题。

然而现有的档案分类管理方法，通常难以解决数据量大、数据冗余、分类精度低、人工复检效率低等问题。

发明内容

本发明的目的在于提供一种基于人工智能的电子档案分类方法、装置及电子设备，以实现电子档案的高精度、高效率的分类管理。

第一方面，本发明实施例提供了一种基于人工智能的电子档案分类方法，包括：

对待分类的目标电子档案数据进行向量化处理，得到目标特征数据；

将所述目标特征数据输入训练后的档案分类模型，得到所述目标电子档案数据对应的分类结果；

其中，所述档案分类模型是基于目标样本数据集和预先建立的综合损失函数训练得到的，所述目标样本数据集是基于特征的信息熵大小进行特征筛选得到的，所述综合损失函数由所述档案分类模型中的分类器对应的第一损失函数、预先构建的后验概率校准模块对应的第二损失函数和预先构建的负例监督模块对应的第三损失函数构成，所述第二损失函数用于表征所述分类器输出的预测后验概率与对应的经验后验概率之间的差异性，所述第三损失函数用于表征不同类别标签的样本之间的相似性。

进一步地，所述对待分类的目标电子档案数据进行向量化处理，得到目标特征数据，包括：

采用TF-IDF算法对所述目标电子档案数据进行向量化处理，得到目标特征数据。

进一步地，在所述将所述目标特征数据输入训练后的档案分类模型，得到所述目标电子档案数据对应的分类结果之前，所述基于人工智能的电子档案分类方法还包括：

获取带有类别标签的电子档案数据集；

对所述电子档案数据集进行向量化处理，得到原始样本数据集；其中，所述原始样本数据集包括多个原始样本及其类别标签，每个所述原始样本包括多个特征；

对所述原始样本数据集进行数据扩增，得到中间样本数据集；

基于特征的信息熵大小，对所述中间样本数据集中的各个特征进行特征筛选，得到目标样本数据集，所述目标样本数据集中的特征的信息熵最大；

基于所述目标样本数据集和所述综合损失函数，对初始的档案分类模型进行训练，得到训练后的档案分类模型。

进一步地，所述对所述原始样本数据集进行数据扩增，得到中间样本数据集，包括：

对所述原始样本数据集中的各个少数类样本进行数据重采样，得到多个同类新样本；其中，所述少数类样本为所属类别标签对应的样本数量最少的原始样本；

基于所述原始样本数据集和各个所述同类新样本，采用加权求和方式构建得到多个虚拟新样本；

将所述原始样本数据集、各个所述同类新样本和各个所述虚拟新样本构成的数据集合作为中间样本数据集。

进一步地，所述对所述原始样本数据集中的各个少数类样本进行数据重采样，得到多个同类新样本，包括：

获取所述原始样本数据集中的各个少数类样本；

对于每个所述少数类样本，获取与该少数类样本同一类别标签的预设数量个近邻样本；

通过在该少数类样本与随机选择的一个所述近邻样本之间进行线性插值，生成初始新样本；

基于所述初始新样本中各个特征的特征方差，对所述初始新样本进行优化，得到同类新样本。

进一步地，所述基于特征的信息熵大小，对所述中间样本数据集中的各个特征进行特征筛选，得到目标样本数据集，包括：

计算得到所述中间样本数据集中的每个特征的信息熵；

基于每个所述特征的信息熵和多目标优化算法，对所述中间样本数据集中的各个特征进行特征筛选，得到目标样本数据集。

进一步地，所述档案分类模型包括与所述分类器连接的特征提取模块，所述特征提取模块包括卷积神经网络和池化网络，所述卷积神经网络包括多个卷积窗口尺寸，所述池化网络包括多个池化核权重。

第二方面，本发明实施例还提供了一种基于人工智能的电子档案分类装置，包括：

处理模块，用于对待分类的目标电子档案数据进行向量化处理，得到目标特征数据；

分类模块，用于将所述目标特征数据输入训练后的档案分类模型，得到所述目标电子档案数据对应的分类结果；

进一步地，所述基于人工智能的电子档案分类装置还包括训练模块，所述训练模块包括：

数据获取单元，用于获取带有类别标签的电子档案数据集；

向量化处理单元，用于对所述电子档案数据集进行向量化处理，得到原始样本数据集；其中，所述原始样本数据集包括多个原始样本及其类别标签，每个所述原始样本包括多个特征；

数据扩增单元，用于对所述原始样本数据集进行数据扩增，得到中间样本数据集；

特征筛选单元，用于基于特征的信息熵大小，对所述中间样本数据集中的各个特征进行特征筛选，得到目标样本数据集，所述目标样本数据集中的特征的信息熵最大；

模型训练单元，用于基于所述目标样本数据集和所述综合损失函数，对初始的档案分类模型进行训练，得到训练后的档案分类模型。

第三方面，本发明实施例还提供了一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面的基于人工智能的电子档案分类方法。

本发明实施例提供的基于人工智能的电子档案分类方法、装置及电子设备，在进行电子档案分类时，先对待分类的目标电子档案数据进行向量化处理，得到目标特征数据，再将目标特征数据输入训练后的档案分类模型，得到目标电子档案数据对应的分类结果，其中，档案分类模型是基于目标样本数据集和预先建立的综合损失函数训练得到的。由于目标样本数据集是基于特征的信息熵大小进行特征筛选得到的，因此本发明实施例实现了数据降维，且能够充分考虑多方面因素，实现特征的最优组合和最优筛选；由于综合损失函数由档案分类模型中的分类器对应的第一损失函数、预先构建的后验概率校准模块对应的第二损失函数和预先构建的负例监督模块对应的第三损失函数构成，因此本发明实施例同时考虑了分类器的损失函数、后验概率校准模块的损失函数以及负例监督模块的损失函数，提高了电子档案的分类精度，从而减少了人工复检工作，实现了电子档案的高精度、高效率的分类管理。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于人工智能的电子档案分类方法的流程示意图；

图2为本发明实施例提供的一种基于人工智能的电子档案分类方法中模型训练的流程示意图；

图3为本发明实施例提供的另一种基于人工智能的电子档案分类方法的流程示意图；

图4为本发明实施例提供的一种基于人工智能的电子档案分类装置的结构示意图；

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着信息化技术的快速发展，信息在推动社会经济发展方面发挥的作用是难以估量的。档案在信息资源中承担的角色也越来越重要，但是信息化手段和网络技术的发展也给当前的档案管理模式带来了新的挑战。满足人们对信息的大量获取以及快速获取所需信息是当下档案管理系统和档案管理模式迫切需要解决的难题。目前，我国大部分综合档案馆已基本完成档案信息化方式管理，在业务方面跃上了新的台阶。然而，很多档案部门对于电子档案还只是停留在表面的数据集接收、数据统计、利用查询等简单操作，档案作为社会资源中最为可靠、真实、权威性与原始凭证性的原生资源之一，应当被更深层次发掘，但是，现存的档案管理系统还很难实现。

为了高效管理和利用电子档案，需要人为地对数字档案进行分类，这不仅消耗大量的人工精力阅览每一份档案文件，了解每一份档案大体的内容，还需要付出很高的时间成本去统计分析。长时间处在这种重复且复杂的状态中，会给档案工作人员的身心造成很大的负担。同时，由于工作人员的工作能力和精力都相对有限，很容易因为疏忽而发生不可避免的错误，比如由于忘记太多的类别信息，往往会做出很多惯性的行为选择。如果由多人同时完成这项任务，极有可能发生意见不一致的情况等，这是由于对于同一份档案的分类结果是否准确，有时是比较难判断的，档案本身又是比较复杂多样的，分类之间也没有清晰的边界，因此，很多问题就随之而来。对于档案馆而言，则需要通过深入加工处理和分类预测现有的档案资源，为今后能更好地匹配特定利用群体或个体的兴趣打下基础，能够根据利用者的查阅情况预测出未来的查阅行为，以此来提供快速而又精准的服务。

现有的档案分类管理方法，通常难以解决电子档案内容数据量大、特征数量多导致的模型训练代价高的问题，无法实现有效的数据降维和特征提取会导致大量的冗余信息，带来巨大的资源耗费。同时，档案是企业、个人、项目等主体的重要凭证，对于档案的分类应达到十分精准的水平才能成熟地在实际场景中进行应用。由于档案的个体差异性和内容多样性，基于机器学习的模型难以实现高精度的档案分类管理，因此现有的分类算法在对档案进行分类后，通常需要采用人工复检的方式对分类结果进行核对。基于此，本发明实施例提供的一种基于人工智能的电子档案分类方法、装置及电子设备，可以解决现有档案分类管理中的数据量大、数据冗余、分类精度低、人工复检效率低等问题，基于人工智能实现档案的自动化分类，实现档案的高精度、高效率分类管理。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种基于人工智能的电子档案分类方法进行详细介绍。

本发明实施例提供了一种基于人工智能的电子档案分类方法，该方法可以由具有数据处理能力的电子设备执行。参见图1所示的一种基于人工智能的电子档案分类方法的流程示意图，该基于人工智能的电子档案分类方法主要包括如下步骤S102~步骤S104：

步骤S102，对待分类的目标电子档案数据进行向量化处理，得到目标特征数据。

在一些可能的实施例中，可以采用BoW（Bag-of-words，词袋）模型对目标电子档案数据进行向量化处理，得到目标特征数据。

BoW模型是自然语言处理和信息检索下被简化的表达模型，对于一个电子档案数据来说，假定不考虑该电子档案数据的文本中词的顺序关系和语法，只考虑该电子档案数据是否出现过这个单词。在实际操作中，BoW模型将电子档案数据中的词语转换为词频矩阵，并计算各个词语出现的次数。

在另一些可能的实施例中，可以采用TF-IDF算法对目标电子档案数据进行向量化处理，得到目标特征数据。

TF-IDF（term frequency–inverse document frequency，词频-逆文本频率指数）是一种统计方法，用以评估一个字词对于一个档案文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在档案中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF即词频，表示词条（即词语）在档案中出现的频率，这个数字通常会被归一化，以防止它偏向长语句的档案。TF用公式表示如下：

其中，n_i,j表示第i个词条（或词条t_i）在档案d_j中出现的次数，n_k,j表示第k个词条在档案d_j中出现的次数，k的取值范围为[1,Ku]，Ku为需要统计的词条的总数，TF_i,j表示第i个词条在档案d_j中出现的频率。

在通常情况下，一些通用的词语对于档案分类并没有太大的作用，一些出现频率较少的词语才能够表达文章的主题，所以只考虑TF不合适。IDF表示关键词的普遍程度，如果包含某词条的档案越少，IDF越大，则说明该词条具有很好的类别区分能力。某一特定词条的IDF_i，可以由总档案数量除以包含该词条之档案数量的商取对数得到：

其中，表示所有档案的数量（即总档案数量），表示包含第i个词条的档案数量。

某一特定档案内的高词语频率，以及该词语在整个档案集中的低档案频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语，表达为：

其中，TF_IDF_i为用于评估一词语对于一个文件集或一个语料库中的其中一份文件的重要程度的系数。

通过计算TF-IDF系数，将目标电子档案数据转化为向量，其公式如下：

其中， X _vec为向量化后的目标特征数据， TI为TF-IDF计算， X ₀为目标电子档案数据。

步骤S104，将目标特征数据输入训练后的档案分类模型，得到目标电子档案数据对应的分类结果；其中，档案分类模型是基于目标样本数据集和预先建立的综合损失函数训练得到的，目标样本数据集是基于特征的信息熵大小进行特征筛选得到的，综合损失函数由档案分类模型中的分类器对应的第一损失函数、预先构建的后验概率校准模块对应的第二损失函数和预先构建的负例监督模块对应的第三损失函数构成。

上述档案分类模型可以包括特征提取模块和分类器两部分；目标特征数据输入档案分类模型后，档案分类模型通过特征提取模块对目标特征数据进行特征提取，提取后的目标特征作为分类器的输入，分类器的输出即为分类结果。

为了保证上述基于人工智能的电子档案分类方法的精确性，本发明实施例提出使用一个端到端的后验概率校准模块，在训练过程中可以动态地对预测后验概率和经验后验概率之间的差异进行惩罚，确保该基于人工智能的电子档案分类方法能够对电子档案进行精确分类。基于此，上述第二损失函数用于表征分类器输出的预测后验概率与对应的经验后验概率之间的差异性。

为了实现不同类别标签的样本拥有不相似的向量表示的目的，本发明实施例提出使用负例监督模块，旨在通过选取负例样本进行共同监督学习。基于此，上述第三损失函数用于表征不同类别标签的样本之间的相似性。

本发明实施例设计的综合损失函数同时考虑了分类器的损失函数、后验概率校准模块的损失函数以及负例监督模块的损失函数，保证了电子档案分类过程中能够综合考虑各类特征的各种评价方式的因素，提高了电子档案的分类精度。后续将详细介绍档案分类模型的训练过程。

本发明实施例提供的基于人工智能的电子档案分类方法，由于目标样本数据集是基于特征的信息熵大小进行特征筛选得到的，因此实现了数据降维，且能够充分考虑多方面因素，实现特征的最优组合和最优筛选；由于综合损失函数由档案分类模型中的分类器对应的第一损失函数、预先构建的后验概率校准模块对应的第二损失函数和预先构建的负例监督模块对应的第三损失函数构成，因此同时考虑了分类器的损失函数、后验概率校准模块的损失函数以及负例监督模块的损失函数，提高了电子档案的分类精度，从而减少了人工复检工作，实现了电子档案的高精度、高效率的分类管理。

为了便于理解，下面参照图2详细介绍上述档案分类模型的训练过程。参见图2所示的一种基于人工智能的电子档案分类方法中模型训练的流程示意图，档案分类模型可以通过如下过程训练得到：

步骤S202，获取带有类别标签的电子档案数据集。

可以先采集已经完成分类的电子档案数据，将采集到的各个电子档案数据及其类别标签作为电子档案数据集。

步骤S204，对电子档案数据集进行向量化处理，得到原始样本数据集。

其中，原始样本数据集包括多个原始样本及其类别标签，每个原始样本包括多个特征。原始样本是由相应电子档案数据通过向量化处理转换成的向量。

可以使用TF-IDF算法对电子档案数据集中的每个电子档案数据进行向量化处理，具体的向量化处理方法可以参见前述实施例的相应内容，这里不再赘述。TF-IDF除了考量某一词语在当前训练文本中出现的频率之外，同时关注包含这个词语的其他训练文本数目的倒数。训练文本的数量越多，TF-IDF这种特征量化方式越有优势。

步骤S206，对原始样本数据集进行数据扩增，得到中间样本数据集。

考虑到大型企业档案管理系统中，电子档案资源分布较广，数据规格不一，各类别的样本数量不均衡，会影响分类精度，基于此，可以采用SOMTE（Synthetic MinorityOversampling Technique）方法进行数据重采样，实现同类数据的扩增。

目前对于档案分类任务，往往采用大规模深度神经网络加以实现，它们训练模型以使训练数据的平均误差最小化，即经验风险最小化原则。可以通过增加样本的多样性，使得模型能够从丰富的样本数据中学习到一般规律，提升其泛化能力，减少模型对噪声的敏感性，提升模型训练时的稳定性。本发明实施例提出了一种独立于数据集的数据扩增方式，通过挖掘出不同类别不同样本之间的关系，构建虚拟的数据样本。

因此，上述步骤S206可以通过如下方式实现：对原始样本数据集中的各个少数类样本进行数据重采样，得到多个同类新样本；其中，少数类样本为所属类别标签对应的样本数量最少的原始样本；基于原始样本数据集和各个同类新样本，采用加权求和方式构建得到多个虚拟新样本；将原始样本数据集、各个同类新样本和各个虚拟新样本构成的数据集合作为中间样本数据集。通过生成同类新样本，提升了各类别的样本数量的均衡性；通过生成虚拟新样本，增加了样本的多样性，提升了模型的泛化能力。

在一些可能的实施例中，为了提升训练后的档案分类模型的准确性，本实施例对用于新数据生成的传统SMOTE方法进行了改进，提出了一种基于特征方差的SMOTE方法，如下：获取原始样本数据集中的各个少数类样本；对于每个少数类样本，获取与该少数类样本同一类别标签的预设数量个近邻样本；通过在该少数类样本与随机选择的一个近邻样本之间进行线性插值，生成初始新样本；基于初始新样本中各个特征的特征方差，对初始新样本进行优化，得到同类新样本。其中，预设数量可以根据实际需求设置，这里不做限定。

具体实现时，首先，通过计算每个少数类样本到相同类别标签的其他少数类样本的欧式距离，得到该少数类样本的k个近邻样本（选择欧式距离最短的k个少数类样本作为近邻样本），通过随机选取的方式选择一个近邻样本，并在该少数类样本与选择的近邻样本之间做线性插值，生成新的少数类样本（即初始新样本）。具体过程如下公式所示：

其中，表示k个近邻样本中的一个样本，Pv∈[0,1]是一个随机数，是输入的少数类样本，是生成的初始新样本。通过这种方式生成个初始新样本。

然后，对生成的N_new个初始新样本，计算各维特征在不同类别间的方差，特征方差的计算公式为：

其中，为生成的初始新样本数量，为原始样本数据集的类别数量，为第个初始新样本的第个特征的特征值，为第个初始新样本的特征均值。

之后，计算出每个初始新样本中各个特征的特征方差，对于单个生成的初始新样本，其特征方差向量表示为，其计算公式为：

其中， We代表特征数量。

则第i个新生成的同类新样本表示为：

其中，X_new(i)为第i个X_new样本，X_newM(i)为最终生成的同类新样本。

然后，将生成的同类新样本与原始样本数据集中的原始样本组合，用于后续构建虚拟新样本等步骤的处理。

在一些可能的实施例中，在构建虚拟新样本时，引入并改进了Mixup的思想，按照一定的权重对当前样本数据集（将各个同类新样本加入到原始样本数据集中形成的新数据集）中随机抽取出的两个样本以及它们的类别标签进行加权求和，实现虚拟新样本的构建。公式如下：

其中，、是从当前样本数据集中随机抽取出的两个样本，、是与、对应的类别标签，Beta( )是贝塔函数，是虚拟新样本，是虚拟新样本的类别标签，λ表示组合的权重，超参数γ用于控制特征-类别标签对之间的插值强度，γ可以根据实际需求设置。通过数据增强操作，获得增强后的中间样本数据集。

步骤S208，基于特征的信息熵大小，对中间样本数据集中的各个特征进行特征筛选，得到目标样本数据集，目标样本数据集中的特征的信息熵最大。

对于增强后的中间样本数据集X_add，接下来通过特征提取和选择的方式，对中间样本数据集中的中间样本进行降维处理。

假设中间样本数据集X_add具有的资源特征集为，其中，Np表示中间样本数据集X_add所具有的特征总数。由于中间样本数据集中具有Np个特征，一一提取每一个特征所需计算量过大，因此，只能选择中间样本数据集中的最优特征进行降维。

本发明实施例提出了一种基于信息熵和目标函数优化的特征选择方法进行特征选择，实现数据降维。基于此，上述步骤S208可以通过如下方式实现：计算得到中间样本数据集中的每个特征的信息熵；基于每个特征的信息熵和多目标优化算法，对中间样本数据集中的各个特征进行特征筛选，得到目标样本数据集。目标样本数据集包括多个目标样本及其类别标签。

信息熵是信息论的基本概念，描述信息源各可能事件发生的不确定性。特征的信息熵可以通过如下公式计算：

其中，表示中间样本数据集中第i个特征（即）的信息熵，A表示中间样本数据集，表示中间样本数据集中第i个特征，的求解公式如下：

其中，P_tree表示去除特征x_i时，将样本进行分类时的分类准确率。

然后，基于各个特征的信息熵，通过目标函数求解的方式筛选出主要特征。

在一些可能的实施例中，上述基于每个特征的信息熵和多目标优化算法，对中间样本数据集中的各个特征进行特征筛选，得到目标样本数据集的步骤可以通过如下过程实现：首先，初始化多目标优化模型；其中，多目标优化模型包括多个子问题和综合目标函数，子问题的数量等于中间样本数据集的特征数量，每个子问题包括解、多个目标函数、参考点和邻域，解为一个特征组合，参考点为对应多个目标函数的最小值，综合目标函数与各个特征的信息熵，以及各个子问题的目标函数和参考点有关；其次，基于每个特征的信息熵，对每个子问题进行新解生成、参考点更新和解更新，直至迭代次数达到预设值；最后，选择使综合目标函数最小的最优解所对应的目标特征组合，并从中间样本数据集中筛选出目标特征组合，得到目标样本数据集。其中，预设值可以根据实际需求设置，这里不做限定。

具体实现时，筛选目标特征组合的示例性过程如下：

（1）初始化：首先，上述每个特征的信息熵构成的组合向量记为，随机设置Np个子问题，依次编号i=1,…,Np。对每一个子问题随机初始化一个解。

其次，对于每个子问题的所有目标函数设置参考点z，计算公式如下：

其中，f_i ¹(x)表示第i个子问题的第1个目标函数，f_i ^Na(x)表示第i个子问题的第Na个目标函数，子问题为利用决策树进行分类的精度，Na是目标函数的个数，由人为设置，Na<5。

然后，计算子问题的综合目标函数，设置邻域。子问题的综合目标函数的计算公式如下：

每个子问题的邻域是由其对应特征相邻的T个子问题组成，相邻特征由特征序号决定，记为：

其中，j代表子问题索引。随着不断地迭代，每个子问题的解会不断地更新。

（2）更新操作：对于第i个子问题，i=1,…,Np，都执行以下操作：

①随机更新操作产生新解：在当前邻域NH(j)中随机选择两个子问题索引j_mp和j_np。然后由对应的当前解x_jmp、x_jnp通过随机更新操作产生新解q。

产生新解q的具体实现方式为：根据选择的两个父亲x_jmp和x_jnp构建两个集合M和N，分别代表x_jmp和x_jnp的特征组合。从两个集合M和N中互相剔除彼此包含的特征得到两个新的集合M\N（即从集合M中剔除集合N包含的特征得到的新集合）和N\M（即从集合N中剔除集合M包含的特征得到的新集合）。然后，从N\M中随机选择h个元素（每个元素为一个特征）替换x_jmp中随机选择的h个位置的特征。同样的，从M\N中随机选择h个元素替换x_jnp中随机选择的h个位置的特征。由此可以获得两个新解q_jmp和q_jnp，分别计算两个解的信息熵（解的信息熵可以为特征组合中各个特征的信息熵的和），选择信息熵大的解作为最后的新解q。

②更新参考点：如果满足参考点z>f_i(q)，就更新参考点z=f_i(q)。

③更新当前解：对于第i个子问题的当前解，如果满足，就更新当前解。

④停止标准：迭代次数达到预先设定的值（即预设值），算法停止。

（3）特征选择：迭代完成后，选择使综合目标函数最小的最优解所对应的目标特征组合。

步骤S210，基于目标样本数据集和综合损失函数，对初始的档案分类模型进行训练，得到训练后的档案分类模型。

上述档案分类模型包括与分类器连接的特征提取模块，特征提取模块包括卷积神经网络和池化网络。在一些可能的实施例中，上述步骤S210可以通过如下过程实现：循环遍历目标样本数据集中的每个目标样本，对于每个目标样本，通过特征提取模块对目标样本进行特征提取；特征提取模块的输出输入到分类器中，分类器输出预测后验概率，并基于相应的类别标签计算得到第一损失值；分类器输出的预测后验概率输入后验概率校准模块，得到第二损失值；特征提取模块的输出输入到负例监督模块中，得到第三损失值；第一损失值、第二损失值和第三损失值进行加权求和，得到综合损失函数对应的综合损失值，并基于综合损失值对特征提取模块和分类器进行参数调整。

如此完成了档案分类模型的训练。

优选地，为实现电子档案数据的特征充分挖掘，本发明实施例采用多尺度卷积的卷积神经网络和多类型池化的池化网络，对降维后的档案数据X_tp进行特征提取。基于此，卷积神经网络包括多个卷积窗口尺寸，池化网络包括多个池化核权重。

具体地，设卷积前的输入为，卷积核权重为，卷积输出为，L_i为对应的损失函数，卷积可以分为前向传播和后向传播两个过程，如下式所示：

本发明实施例引入多尺寸的卷积核，在进行短档案数据的卷积时，可以捕获更多的文本信息。示例性地，本发明实施例采用的卷积窗口尺寸分别为3×31、5×51、7×71三种，输出得到的特征向量（采用三个卷积窗口尺寸分别卷积得到的特征向量）进行级联，作为卷积神经网络的输出。

卷积神经网络提取到对应的特征信息后，需要对这些特征信息进一步筛选。本发明实施例使用多种类型的池化操作对特征信息进行筛选。

设池化前的输入是，池化核权重是，池化输出是，由如下公式计算池化输出：

特征提取后的档案数据为X_fea，X_fea包括Ya和相应的类别标签。

为了便于理解上述基于人工智能的电子档案分类方法的完整流程，参见图3所示的另一种基于人工智能的电子档案分类方法的流程示意图，该基于人工智能的电子档案分类方法包括如下步骤：

步骤S301，采集带有类别标签的电子档案数据。

步骤S302，对电子档案数据进行向量化处理。

步骤S303，对向量化处理后的数据进行数据扩增。

数据扩增方式包括基于特征方差的SMOTE方法的数据重采样，以及混类数据的增强（即挖掘不同类别不同样本之间的关系，构建虚拟新样本）。

步骤S304，对数据扩增后的数据进行降维。

步骤S305，对降维后的数据进行特征提取。

采用多种尺寸的卷积网络进行深度特征提取，同时为了避免特征维数过高，采用了多类型的池化网络进行进一步特征筛选。

步骤S306，建立档案分类模型。

数据扩增后的数据通过特征提取得到Ya，Ya是X_fea中去除类别标签的数据，经过Softmax分类器进行归一化处理后，即可以得到预测的档案数据所属的类别概率（即预测后验概率，预测的档案数据属于每个类别的概率）。分类器通过Softmax函数可以将多分类的输出值转换为范围在[0, 1]、和为1的概率分布。Softmax函数的计算方法如下式所示：

分类器的损失函数L_xent（即第一损失函数）如下式所示：

其中，p_i为档案数据所属的类别概率（即档案数据属于第i个类别的概率），C为类别数量，Yc_i为分类器的第i个节点的输出值，Yc_j为分类器的第j个节点的输出值，e为自然底数，y_i为档案数据真实类别的One-Hot表示。

步骤S307，对分类结果进行后验概率校准。

本发明实施例提出了使用一个端到端的后验概率校准模块，不同于后处理的校准方法，后验概率校准模块在训练过程中动态地对预测后验概率和经验后验概率之间的差异进行惩罚。

在训练过程中将分类器初始输出的预测后验概率和经验后验概率之间的差异最小化，达到校准误差最小化的目标。这种面向数据的校准，因为考虑到了数据集的分布特点，比单纯面向任务的模型更加可靠。与之前在固定且通常很小的验证集上的后处理校准方法相比，后验概率校准模块在训练迭代过程中，根据训练集动态估计校准所需的数据统计信息。

上述后验概率校准模块的输入为：特征提取后的数据为X_fea，每个分区Bin的大小设置为B，类别数量K，迭代次数epoch设置为E_f，每个epoch更新Q的次数u及学习率η。

后验概率校准模块的输出为：后验概率校准损失L_cal（即第二损失值）。

本发明实施例提出的后验概率校准算法的具体步骤如下：

①根据选定的Bin的大小B进行分区，一种可能的分区策略为等长度划分，若B=5，那么具体分区就为[0,0.2,0.4,0.6,0.8,1.0]。

②根据分类器输出的预测后验概率和分区计算得到经验后验概率矩阵。具体做法是，统计计算所有样本的预测后验概率落入每个区间每个类别的频率，的数值就表示预测后验概率落入b这个区间且属于k这个类别的样本数量占比。

③计算后验概率校准模块的后验概率校准损失（即第二损失函数对应的第二损失值）。可以使用KL散度（Kullback-Leibler Divergence）函数来计算预测后验概率和经验后验概率的差距，具体公式如下：

其中，d( )函数为KL散度函数，为第i个样本属于第j个类别的预测后验概率，为第i个样本属于第j个类别的经验后验概率。

步骤S308，对特征提取得到数据进行负例监督。

负例监督模块旨在通过选取负例样本进行共同监督学习，以达到不同类别标签的文本拥有不相似的向量表示的目的。该负例监督模块选取与x_i同一批次但与x_i具有不同类别标签的n个文本向量表示x₁ ^a,x₂ ^a,⋯,x_n ^a。为了鼓励选取的这些文本向量表示与x_i具有不同的表示形式，将本模块的损失函数设计为L_neg（即第三损失函数）：

其中，cos( )函数是计算x_i与x_j ^a这两个文本向量表示之间的余弦相似度，该损失函数就是使x_i与x_j ^a这两个文本向量表示的余弦相似度尽可能地小，即两个向量尽可能地不相似。

步骤S309，设计综合损失函数。

本发明实施例中的档案分类模型最终的损失函数（即综合损失函数）为分类器、后验概率校准模块和负例监督模块三个任务的损失函数的加权求和，公式如下：

其中，L_xent是分类器的损失函数，L_cal是后验概率校准模块的损失函数，λ₁是L_cal的权重值，L_neg是负例监督模块的损失函数，λ₂是L_neg的权重值，λ₁和λ₂的取值都可以通过交叉验证集来选择确定。

步骤S310，训练模型并进行档案分类。

利用带类别标签的特征提取得到的数据对建立好的档案分类模型进行训练，当训练完成后，即可利用训练完成后的档案分类模型对未知类别的电子档案数据进行分类。

需要说明的是，上述基于人工智能的电子档案分类方法中，超参数的改变、通用处理步骤的替换、背景领域的替换仍属于本发明的保护范围。

综上，本发明实施例提出了一种基于特征方差的SMOTE方法，用于生成同类新样本，提升了各类别的样本数量的均衡性，且使用该同类新样本训练得到的档案分类模型，准确性更高。

本发明实施例提出一种独立于数据集的数据扩增方式，通过挖掘出不同类别不同样本之间的关系，构建虚拟新样本，增加了样本的多样性，提升了模型的泛化能力。

本发明实施例提出一种基于信息熵和目标函数优化的特征选择方法进行特征选择，实现数据降维；能够充分考虑多方面因素，实现特征的最优组合和最优筛选。

为实现电子档案数据的特征充分挖掘，本发明实施例采用多尺度卷积的卷积神经网络和多类型池化的池化网络，对降维后的档案数据进行特征提取；能够采用多种尺寸的卷积网络进行深度特征提取，同时为了避免特征维数过高，采用了多类型的池化网络进行进一步特征筛选。

为了保证本发明实施例提出的基于人工智能的电子档案分类方法的精确性，本发明实施例提出了使用一个端到端的后验概率校准模块，在训练过程中动态地对预测后验概率和经验后验概率之间的差异进行惩罚，确保能够对电子档案进行精确分类。

为了实现不同类别标签的文本拥有不相似的向量表示的目的，本发明实施例提出了使用负例监督模块，旨在通过选取负例样本进行共同监督学习。

最后，本发明实施例设计的综合损失函数同时考虑了分类器的损失函数、后验概率校准模块的损失函数以及负例监督模块的损失函数，保证电子档案分类过程中能够综合考虑各类特征的各种评价方式的因素，提高了电子档案的分类精度。

对应于上述的基于人工智能的电子档案分类方法，本发明实施例还提供了一种基于人工智能的电子档案分类装置。参见图4所示的一种基于人工智能的电子档案分类装置的结构示意图，该基于人工智能的电子档案分类装置包括：

处理模块401，用于对待分类的目标电子档案数据进行向量化处理，得到目标特征数据；

分类模块402，用于将目标特征数据输入训练后的档案分类模型，得到目标电子档案数据对应的分类结果；

其中，档案分类模型是基于目标样本数据集和预先建立的综合损失函数训练得到的，目标样本数据集是基于特征的信息熵大小进行特征筛选得到的，综合损失函数由档案分类模型中的分类器对应的第一损失函数、预先构建的后验概率校准模块对应的第二损失函数和预先构建的负例监督模块对应的第三损失函数构成，第二损失函数用于表征分类器输出的预测后验概率与对应的经验后验概率之间的差异性，第三损失函数用于表征不同类别标签的样本之间的相似性。

进一步地，上述处理模块401具体用于：采用TF-IDF算法对目标电子档案数据进行向量化处理，得到目标特征数据。

进一步地，上述基于人工智能的电子档案分类装置还包括与分类模块402连接的训练模块，训练模块包括：

数据获取单元，用于获取带有类别标签的电子档案数据集；

向量化处理单元，用于对电子档案数据集进行向量化处理，得到原始样本数据集；其中，原始样本数据集包括多个原始样本及其类别标签，每个原始样本包括多个特征；

数据扩增单元，用于对原始样本数据集进行数据扩增，得到中间样本数据集；

特征筛选单元，用于基于特征的信息熵大小，对中间样本数据集中的各个特征进行特征筛选，得到目标样本数据集，目标样本数据集中的特征的信息熵最大；

模型训练单元，用于基于目标样本数据集和综合损失函数，对初始的档案分类模型进行训练，得到训练后的档案分类模型。

进一步地，上述数据扩增单元具体用于：对原始样本数据集中的各个少数类样本进行数据重采样，得到多个同类新样本；其中，少数类样本为所属类别标签对应的样本数量最少的原始样本；基于原始样本数据集和各个同类新样本，采用加权求和方式构建得到多个虚拟新样本；将原始样本数据集、各个同类新样本和各个虚拟新样本构成的数据集合作为中间样本数据集。

进一步地，上述数据扩增单元还用于：获取原始样本数据集中的各个少数类样本；对于每个少数类样本，获取与该少数类样本同一类别标签的预设数量个近邻样本；通过在该少数类样本与随机选择的一个近邻样本之间进行线性插值，生成初始新样本；基于初始新样本中各个特征的特征方差，对初始新样本进行优化，得到同类新样本。

进一步地，上述特征筛选单元具体用于：计算得到中间样本数据集中的每个特征的信息熵；基于每个特征的信息熵和多目标优化算法，对中间样本数据集中的各个特征进行特征筛选，得到目标样本数据集。

进一步地，上述档案分类模型包括与分类器连接的特征提取模块，特征提取模块包括卷积神经网络和池化网络，卷积神经网络包括多个卷积窗口尺寸，池化网络包括多个池化核权重。

本实施例所提供的基于人工智能的电子档案分类装置，其实现原理及产生的技术效果和前述基于人工智能的电子档案分类方法实施例相同，为简要描述，基于人工智能的电子档案分类装置实施例部分未提及之处，可参考前述基于人工智能的电子档案分类方法实施例中相应内容。

如图5所示，本发明实施例提供的一种电子设备500，包括：处理器501、存储器502和总线，存储器502存储有可在处理器501上运行的计算机程序，当电子设备500运行时，处理器501与存储器502之间通过总线通信，处理器501执行计算机程序，以实现上述基于人工智能的电子档案分类方法。

具体地，上述存储器502和处理器501能够为通用的存储器和处理器，这里不做具体限定。

本发明实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行前面方法实施例中所述的基于人工智能的电子档案分类方法。该存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，简称ROM）、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

在这里示出和描述的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制，因此，示例性实施例的其他示例可以具有不同的值。

附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于人工智能的电子档案分类方法，其特征在于，包括：

其中，所述档案分类模型是基于目标样本数据集和预先建立的综合损失函数训练得到的，所述目标样本数据集是基于特征的信息熵大小进行特征筛选得到的，所述综合损失函数由所述档案分类模型中的分类器对应的第一损失函数、预先构建的后验概率校准模块对应的第二损失函数和预先构建的负例监督模块对应的第三损失函数构成，所述第二损失函数用于表征所述分类器输出的预测后验概率与对应的经验后验概率之间的差异性，所述第三损失函数用于表征不同类别标签的样本之间的相似性；

在所述将所述目标特征数据输入训练后的档案分类模型，得到所述目标电子档案数据对应的分类结果之前，所述基于人工智能的电子档案分类方法还包括：

获取带有类别标签的电子档案数据集；

基于所述目标样本数据集和所述综合损失函数，对初始的档案分类模型进行训练，得到训练后的档案分类模型；

所述对所述原始样本数据集进行数据扩增，得到中间样本数据集，包括：

将所述原始样本数据集、各个所述同类新样本和各个所述虚拟新样本构成的数据集合作为中间样本数据集；

所述对所述原始样本数据集中的各个少数类样本进行数据重采样，得到多个同类新样本，包括：

获取所述原始样本数据集中的各个少数类样本；

基于所述初始新样本中各个特征的特征方差，对所述初始新样本进行优化，得到同类新样本；

所述基于所述初始新样本中各个特征的特征方差，对所述初始新样本进行优化，得到同类新样本，包括：

对生成的N_new个初始新样本，计算各维特征在不同类别间的方差，特征方差的计算公式为：

其中，为生成的初始新样本数量，为原始样本数据集的类别数量，为第个初始新样本的第个特征的特征值，为第个初始新样本的特征均值；

计算出每个所述初始新样本中各个特征的特征方差，对于单个生成的初始新样本，其特征方差向量表示为，其计算公式为：

其中，We代表特征数量；

第i个新生成的同类新样本表示为：

2.根据权利要求1所述的基于人工智能的电子档案分类方法，其特征在于，所述对待分类的目标电子档案数据进行向量化处理，得到目标特征数据，包括：

3.根据权利要求1所述的基于人工智能的电子档案分类方法，其特征在于，所述基于特征的信息熵大小，对所述中间样本数据集中的各个特征进行特征筛选，得到目标样本数据集，包括：

计算得到所述中间样本数据集中的每个特征的信息熵；

4.根据权利要求1所述的基于人工智能的电子档案分类方法，其特征在于，所述档案分类模型包括与所述分类器连接的特征提取模块，所述特征提取模块包括卷积神经网络和池化网络，所述卷积神经网络包括多个卷积窗口尺寸，所述池化网络包括多个池化核权重。

5.一种基于人工智能的电子档案分类装置，其特征在于，包括：

所述基于人工智能的电子档案分类装置还包括训练模块，所述训练模块包括：

数据获取单元，用于获取带有类别标签的电子档案数据集；

模型训练单元，用于基于所述目标样本数据集和所述综合损失函数，对初始的档案分类模型进行训练，得到训练后的档案分类模型；

所述数据扩增单元具体用于：对所述原始样本数据集中的各个少数类样本进行数据重采样，得到多个同类新样本；其中，所述少数类样本为所属类别标签对应的样本数量最少的原始样本；基于所述原始样本数据集和各个所述同类新样本，采用加权求和方式构建得到多个虚拟新样本；将所述原始样本数据集、各个所述同类新样本和各个所述虚拟新样本构成的数据集合作为中间样本数据集；

所述数据扩增单元还用于：获取所述原始样本数据集中的各个少数类样本；对于每个所述少数类样本，获取与该少数类样本同一类别标签的预设数量个近邻样本；通过在该少数类样本与随机选择的一个所述近邻样本之间进行线性插值，生成初始新样本；基于所述初始新样本中各个特征的特征方差，对所述初始新样本进行优化，得到同类新样本；

所述数据扩增单元还用于：对生成的N_new个初始新样本，计算各维特征在不同类别间的方差，特征方差的计算公式为：

其中，We代表特征数量；

第i个新生成的同类新样本表示为：

6.一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-4中任一项所述的基于人工智能的电子档案分类方法。