CN117648473B

CN117648473B - 档案分类方法及平台

Info

Publication number: CN117648473B
Application number: CN202410117785.4A
Authority: CN
Inventors: 吉晓雯
Original assignee: Hebei Province Hospital Of Cm
Current assignee: Hebei Province Hospital Of Cm
Priority date: 2024-01-29
Filing date: 2024-01-29
Publication date: 2024-04-16
Anticipated expiration: 2044-01-29
Also published as: CN117648473A

Abstract

本公开提供了一种档案分类方法及平台，属于数据分类技术领域，该方法包括：获取用户预先设定的多级分类类别，基于预设的映射关系确定多级分类类别对应的词组权重。词组权重为每个标准词组对应的权重。获取待分类的第一档案，提取第一档案中的词组，得到多个第一词组。将多个第一词组转换为多个对应的标准词组，得到多个目标标准词组。基于目标标准词组以及词组权重生成第一档案的特征向量。将第一档案的特征向量输入至预先训练的分类器中，得到第一档案对应的分类类别。本公开提供的档案分类方法能够自动对不同内容的档案进行分类，针对不同的级别顺序实现不同的分类结果，以达到更加全面智能的档案分类效果。

Description

档案分类方法及平台

技术领域

本公开属于数据分类技术领域，更具体地说，是涉及一种档案分类方法及平台。

背景技术

随着计算机技术的发展，其在档案智能分类管理方面的应用也逐渐加强，档案的管理方式也在不断演化，目前的档案管理方式，已经越来越具科学性和技术性，但是仍然存在较多问题。由于数据的爆炸式增长和频繁变动，导致人工进行档案分类的工作量巨大，分类效率极低，并且由于人工分类过程中具有较强的主观因素，导致分类结果的准确性也较差，因此，亟需一种高效且准确的档案分类方法。

发明内容

本公开的目的在于提供一种档案分类方法及平台，以提高档案分类管理的智能化水平。

本公开实施例的第一方面，提供了一种档案分类方法，包括：

获取用户预先设定的多级分类类别，基于多级分类类别的级别顺序确定词组权重。词组权重为每个标准词组对应的权重。

获取待分类的第一档案，提取第一档案中的词组，得到多个第一词组。

将多个第一词组转换为多个对应的标准词组，得到多个目标标准词组。

基于目标标准词组以及词组权重生成第一档案的特征向量。

将第一档案的特征向量输入至预先训练的分类器中，得到第一档案对应的分类类别。

本公开实施例的第二方面，提供了一种档案分类平台，包括：

词组权重确定模块，用于获取用户预先设定的多级分类类别，基于多级分类类别的级别顺序确定词组权重。词组权重为每个标准词组对应的权重。

词组确定模块，用于获取待分类的第一档案，提取第一档案中的词组，得到多个第一词组。

标准词组确定模块，用于将多个第一词组转换为多个对应的标准词组，得到多个目标标准词组。

特征向量生成模块，用于基于目标标准词组以及词组权重生成第一档案的特征向量。

档案分类模块，用于将第一档案的特征向量输入至预先训练的分类器中，得到第一档案对应的分类类别。

本公开实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的档案分类方法的步骤。

本公开实施例的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的档案分类方法的步骤。

本公开实施例提供的档案分类方法及平台的有益效果在于：

本公开提供的档案分类方法及平台能够利用目标标准词组和词组权重生成第一档案的特征向量，将其输入预先训练的分类器中，从而得到第一档案对应的分分类别。目标标准词组可以通过对第一档案提取多个第一词组，将第一词组转换为标准词组，从而得到对应的多个目标标准词组；词组权重可以根据多级分类类别的级别顺序来确定。该方法可以自动对不同内容的档案进行分类，节省人工成本，提高档案分类的效率。除此之外，该方法还能够按照用户预先设定的多级分类类别，针对不同的级别顺序实现不同的分类结果，以达到更加全面智能的档案分类效果。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开一实施例提供的档案分类方法的流程示意图；

图2为本公开一实施例提供的档案分类平台的结构框图；

图3为本公开一实施例提供的电子设备的示意框图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本公开实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本公开的描述。

为使本公开的目的、技术方案和优点更加清楚，下面将结合附图通过具体实施例来进行说明。

请参考图1，图1为本公开一实施例提供的档案分类方法的流程示意图，该方法包括：

S101：获取用户预先设定的多级分类类别，基于多级分类类别的级别顺序确定词组权重。词组权重为每个标准词组对应的权重。

在本实施例中，获取用户预先设定的多级分类类别，基于多级分类类别的级别顺序确定词组权重。可以详述为：

获取每个用户预先设定的多级分类类别，根据多级分类类别的级别顺序确定其对应的词组权重。其中，词组权重代表每个标准词组对应的权重系数，其计算方式为每个分类类别对应的排序序号除以所有分类类别的序号总和。

本实施例提供一种参考示例如，设定该档案分类方法应用于医院档案管理，用户为医院各个科室的相关人员。如果存在第一用户为急诊科档案管理员，该用户设定的多级分类类别包括：紧急程度、轻重程度、疾病类型、就诊时间等，该多级分类类别对应的排序序号分别为：4、3、2、1，其对应的词组权重为：0.4、0.3、0.2、0.1。可以看出，对于急诊科来说，某一档案内容所反映出的紧急程度是最重要的。

本实施例提供另一种参考示例如，设定该档案分类方法应用于医院档案管理，用户为医院各个科室的相关人员。如果存在第二用户为门诊科档案管理员，该用户设定的多级分类类别包括：疾病类型、轻重程度、紧急程度、就诊时间等，该多级分类类别对应的排序序号分别为：3.5、3、2、1.5，其对应的词组权重为：0.35、0.3、0.2、0.15。可以看出，对于门诊科来说，某一档案内容所反映出的疾病类型是最重要的。

S102：获取待分类的第一档案，提取第一档案中的词组，得到多个第一词组。

在本实施例中，获取待分类的第一档案，提取第一档案中的词组，得到多个第一词组，可以详述为：

从多个待分类的档案中获取第一档案，依据第一档案的内容，提取出多个第一词组。本实施例提供一种参考示例如，若存在第一档案，该档案为某位患者的档案资料，该患者由于突发心肌梗死，情况非常严重，于11月2日到某医院急诊挂号，急诊科对该患者的患病信息进行记录。基于该档案的内容，提取出多个第一词组包括：突发、非常严重、心肌梗死、11月2日等。

某些疾病可能会使用其对应的疾病编码表示，在提取第一词组时，可以对相应的疾病编码进行提取。本实施例提供另一种参考示例如，若存在第二档案，该档案为某位患者的档案资料，该患者患由于感染细菌性肺炎（J13-J15），情况比较严重，于6月8日到某医院门诊挂号，门诊科对该患者的患病信息进行记录。基于该档案的内容，提取出多个第一词组包括：J13-J15、比较严重、一般紧急、11月2日等。

S103：将多个第一词组转换为多个对应的标准词组，得到多个目标标准词组。

在本实施例中，将多个第一词组转换为多个对应的标准词组，得到多个目标标准词组，可以详述为：

每个第一词组都有其对应的标准词组，将多个第一词组转换为多个其对应的标准词组，从而得到多个目标标准词组。本实施例提供一种参考示例如，提取多个第一词组分别为：心肌梗死、非常严重、11月2日和急性病等；其对应的多个标准词组分别为：心肌病、重症、11月和紧急等，前述多个标准词组即为多个目标标准词组。

本实施例提供另一种参考示例如，提取多个第二词组分别为：支气管炎、病症较轻、保守治疗、12月1日等；其对应的多个标准词组分别为：呼吸系统疾病、轻症、非紧急、12月等，前述多个标准词组即为多个目标标准词组。

S104：基于目标标准词组以及词组权重生成第一档案的特征向量。

在本实施例中，基于目标标准词组以及词组权重生成第一档案的特征向量，可以详述为：

基于确定的目标标准词组和词组权重，生成第一档案的特征向量，该特征向量可以表示为目标标准词组-词组权重的格式。本实施例提供一种参考示例如，第一档案的目标标准词组分别为：心肌病、重症、11月、紧急；其所对应的词组权重分别为：0.4、0.3、0.2和0.1，则第一档案的特征向量可以表示为：心肌病-0.4、重症-0.3、11月-0.2、紧急-0.1。

本实施例提供另一种参考示例如，第二档案的目标标准词组分别为：非紧急、轻症、肌肉拉伤、12月；其所对应的词组权重分别为：0.35、0.3、0.2、0.15，则第一档案的特征向量可以表示为：非紧急-0.35、轻症-0.3、肌肉拉伤-0.2、12月-0.15。

S105：将第一档案的特征向量输入至预先训练的分类器中，得到第一档案对应的分类类别。

在本实施例中，将第一档案的特征向量输入至预先训练的分类器中，得到第一档案对应的分类类别，可以详述为：

预先训练多种分类器，每种分类器对应一个分类类别，将第一档案的特征向量输入至预先训练的分类器中，经过分类器的分类识别，将该特征向量划分到对应的分类类别，即为第一档案对应的分类类别。

本实施例提供一种参考示例如，第一用户设定的多级分类类别包括：紧急程度、轻重程度、疾病类型、就诊时间等，使用深度学习模型提前训练多种与该多级分类类别对应的分类器。第一档案的特征向量为：紧急-0.4、重症-0.3、心肌病-0.2、11月-0.1，将该特征向量输入预先训练的分类器中，根据分类器的识别结果，将该特征向量划分为“紧急程度”，表示该第一档案是根据紧急程度进行划分的。

本实施例提供另一种参考示例如，第二用户设定的多级分类类别包括：疾病类型、轻重程度、紧急程度、就诊时间等，使用深度学习模型提前训练多种与该多级分类类别对应的分类器。第二档案的特征向量为：肌肉拉伤-0.35、轻症-0.3、非紧急-0.2、12月-0.15，将该特征向量输入预先训练的分类器中，根据分类器的识别结果，将该特征向量划分为“疾病类型”，表示该第二档案是根据疾病类型进行划分的。

由上可以得出，该档案分类方法可以通过获取用户预先设定的分类类别，确定其对应的词组权重；通过对待分类的第一档案提取多个第一词组，将其转换为标准词组，得到多个目标标准词组，基于目标标准词组和词组权重生成第一档案的特征向量；利用预先训练的分类器对该特征向量进行分类，得到第一档案对应的分类类别。该方法省去人工分类的繁琐环节，提高档案分类的效率，还能够避免人工分类过程中可能出现的不确定因素，提高档案分类准确性，能够实现智能化档案分类管理。

在本公开的一种实施例中，提取第一档案中的词组，得到多个第一词组，包括：

对第一档案进行扫描；

提取第一档案中的文字信息，得到多个第一词组。

在本实施例中，通过对第一档案内容的识别，提取第一档案中的词组，从而得到多个第一词组，其具体步骤包括：对第一档案进行扫描，提取第一档案中的文字信息，得到多个第一词组。可以详述为：

对第一档案进行扫描，获取扫描后的文件并提取其中的文字信息。通过对文字信息进行关键词提取，得到其中与用户所设定的多级分类类别相符合的多个词组，从而得到多个第一词组。

在本公开的一种实施例中，将多个第一词组转换为多个对应的标准词组，得到多个目标标准词组，包括：

确定每个第一词组所属的预设词组集合，将每个第一词组所属的预设词组集合对应的标准词组确定为每个第一词组对应的目标标准词组。

在本实施例中，将多个第一词组转换为多个对应的标准词组，得到多个目标标准词组，其具体步骤包括：确定每个第一词组所属的预设词组集合，将每个第一词组所属的预设词组集合对应的标准词组确定为每个第一词组对应的目标标准词组，可以详述为：

设置多个词组集合，并为每个词组集合规定一个标准词组。对得到的每个第一词组与多个词组集合进行匹配，确定该第一词组对应的词组集合，该词组集合对应的标准词组即为第一词组对应的目标标准词组。

本实施例提供一种参考示例如，设置第一词组集合为：心肌病、心绞痛、猝死、心律失常、心力衰竭、早搏、心律不齐和心肌梗死等；规定“心肌病”为该词组集合对应的标准词组。若在提取第一档案中的文字信息后，得到某一个第一词组为“心律失常”，对其进行匹配，确定其对应的词组集合为第一词组集合，该集合对应的标准词组为“心肌病”，则确定第一词组“心律失常”对应的目标标准词组为“心肌病”。

本实施例提供另一种参考示例如，设置第二词组集合为：严重、非常严重、濒危、重症、危急、恶化、休克等；规定“重症”为该词组集合对应的标准词组。若在提取第二档案中的文字信息后，得到某一个第二词组为“危急”，对其进行匹配，确定其对应的词组集合为第二词组集合，该集合对应的标准词组为“重症”，则确定第二词组“危急”对应的目标标准词组为“重症”。

在本公开的一种实施例中，基于目标标准词组以及词组权重生成第一档案的特征向量，包括：

基于每个目标标准词组以及词组权重生成每个目标标准词组的特征向量。

基于每个目标标准词组的特征向量对预设的特征向量模板进行填充，得到第一档案的特征向量。

在本实施例中，基于目标标准词组以及词组权重生成第一档案的特征向量，其具体步骤包括：基于每个目标标准词组以及词组权重生成每个目标标准词组的特征向量；基于每个目标标准词组的特征向量对预设的特征向量模板进行填充，得到第一档案的特征向量，可以详述为：

基于确定后的目标标准词组和其对应的词组权重，可以生成每个目标标准词组对应的特征向量，其可以表示为：目标标准词组-词组权重。为每个第一档案设定其对应的特征向量，为该特征向量预设一种特征向量模板，将每个目标标准词组对应的特征向量对预设的特征向量模板进行填充，得到第一档案对应的特征向量。

本实施例提供一种参考示例如，经确定后得到的目标标准词组为：呼吸系统疾病、重症、紧急和11月；其所对应的词组权重分别为：0.4、0.3、0.2和0.1；则多个目标标准词对应的特征向量分别为：呼吸系统疾病-0.4、重症-0.3、紧急-0.2、11月-0.1。设定第一档案的特征向量模板为包括四个目标标准词组对应的特征向量，将多个目标标准词对应的特征向量对第一档案的特征向量模板进行填充，得到第一档案的特征向量为：呼吸困难-0.4、重症-0.3、紧急-0.2、11月-0.1。

在本公开的一种实施例中，特征向量模板包含多个填充位置，每个填充位置对应一种词组属性。基于每个目标标准词组的特征向量对预设的特征向量模板进行填充，得到第一档案的特征向量，包括：

遍历特征向量模板中的每个填充位置，对每个填充位置执行填充操作。

填充操作包括：

响应于多个目标标准词组中存在一个目标标准词组与第一填充位置对应的词组属性相符，将对应于第一填充位置的目标标准词组的特征向量填充至第一填充位置。

响应于多个目标标准词组中不存在任何目标标准词组与第一填充位置对应的词组属性相符，将预设特征向量填充至第一填充位置中。

其中，第一填充位置为当前遍历到的填充位置。

在本实施例中，第一档案的特征向量模板包含多个填充位置，其中，每个位置对应一种词组属性，基于每个目标标准词组的特征向量对预设的特征向量模板进行填充，得到第一档案的特征向量，其具体步骤包括：

遍历特征向量模板中的每个填充位置，对每个填充位置执行填充操作。可以详述为：

对特征向量模板中的每个填充位置进行遍历，若第一填充位置空缺，则执行填充操作；若第一填充位置已被填充，则执行下一填充位置。其中，第一填充位置为当前遍历到的填充位置。具体的填充操作步骤包括：

响应于多个目标标准词组中不存在任何目标标准词组与第一填充位置对应的词组属性相符，将预设特征向量填充至第一填充位置中。可以详述为：

为每个填充位置设定一种对应的词组属性，若多个目标标准词组中存在一个目标标准词组与第一填充位置对应的词组属性相符，则将该目标标准词组对应的特征向量填充到第一填充位置中。若多个目标标准词组中不存在任何目标标准词组与第一填充位置对应的词组属性相符，则将预设特征向量填充到第一填充位置中，其中预设特征向量为一种自定义特征向量。

本实施例提供一种参考示例如，设定第一档案的特征向量模板包含4个填充位置，其中，每个位置的词组属性分别为：疾病类别、轻重程度、紧急程度、就诊时间。设定一种自定义特征向量，其表示方法为：其他-0。如果多个目标标准词组分别为：心肌病、重症、紧急；其对应的词组权重分别为：0.45、0.35、0.2。对特征向量模板中的每个填充位置进行遍历，第一填充位置对应的词组属性为“疾病类别”，存在目标标准词组“心肌病”符合该属性，则将其对应的特征向量“心肌病-0.45”填充至第一填充位置；第二填充位置对应的词组属性为“轻重程度”，存在目标标准词组“重症”符合该属性，则将其对应的特征向量“重症-0.35”填充至第二填充位置；第三填充位置对应的词组属性为“紧急程度”，存在目标标准词组“紧急”符合该属性，则将其对应的特征向量“紧急-0.2”填充至第三填充位置；第四填充位置对应的词组属性为“就诊时间”，不存在任何目标标准词组符合该属性，则将自定义特征向量“其他-0”填充至第四填充位置。基于前述操作，得到第一档案的特征向量为：心肌病-0.45、重症-0.35、紧急-0.2、其他-0。

在本公开的一种实施例中，基于多级分类类别的级别顺序确定词组权重，包括：

按照级别从低至高的顺序对多级分类类别进行排序。

通过确定每个分类类别对应的权重；其中，/>为第/>个分类类别对应的权重，/>为对应的排序序号，/>为分类类别的个数。

将每个标准词组所属的分类类别对应的权重确定为每个标准词组的权重。

在本实施例中，其具体步骤包括：

按照级别从低至高的顺序对多级分类类别进行排序。

将每个标准词组所属的分类类别对应的权重确定为每个标准词组的权重。可以详述为：

根据用户预先设定的多级分类类别，按照从高至低的顺序对多级分类类别进行排序，每个分类类别均对应一个排序序号，基于该排序序号，利用公式计算每个分类类别对应的权重，其中，/>为第/>个分类类别对应的权重，/>为对应的排序序号，/>为分类类别的个数。每个标准词组所属的分类类别对应的权重即为每个标准词组的权重。

本实施例提供一种参考示例如，存在第一用户设定的多级分类类别为：紧急程度、轻重程度、疾病类型、就诊时间等，该多级分类类别对应的排序分别为：4、3、2、1，则“紧急程度”类别对应的权重为：，即“紧急程度”类别范围内的标准词组对应的词组权重为0.4；“轻重程度”类别对应的权重为：/>，即“轻重程度”类别范围内的标准词组对应的词组权重为0.3；“疾病类型”类别对应的权重为：，即“疾病类型”类别范围内的标准词组对应的词组权重为0.2；“就诊时间”类别对应的权重为：/>，即“就诊时间”类别范围内的标准词组对应的词组权重为0.1。

在本公开的一种实施例中，提取第一档案中的文字信息，得到多个第一词组，包括：

将文字信息输入至预先训练的文本识别模型中，得到多个第一词组。

在本实施例中，基于第一档案的内容，对第一档案中的文字信息进行提取，可以得到多个第一词组，其具体步骤包括：将文字信息输入至预先训练的文本识别模型中，得到多个第一词组。可以详述为：

提前训练一种文本识别模型，可以采用深度学习模型进行训练，该模型可以对大量文字进行识别，基于提前预设的标签内容，提取其中与所设标签内容相符的多个词组，将其作为识别结果输出。将从第一档案中提取到的文字信息输入至前述文本识别模型中，得到经该模型识别后输出的多个第一词组。其中，预设的标签内容即为用户预先设定的多级分类类别。

本实施例提供一种参考示例如，基于BERT（Bidirectional EncoderRepresentation from Transformer）模型，收集大量文本数据进行模型训练，得到一种文本识别模型，用户预先设定的多级分类类别作为预设标签内容，将第一档案输入至该模型中，提取其中与对应的多级分类类别相符的多个词组并输出，其输出结果即为第一档案对应的多个第一词组。

对应于上文实施例的档案分类方法，图2为本公开一实施例提供的档案分类平台的结构框图。为了便于说明，仅示出了与本公开实施例相关的部分。参考图2，该档案分类平台20包括：词组权重确定模块21、词组确定模块22、标准词组确定模块23、特征向量生成模块24和档案分类模块25。

其中，词组权重确定模块21，获取用户预先设定的多级分类类别，基于多级分类类别的级别顺序确定词组权重。词组权重为每个标准词组对应的权重。

词组确定模块22，用于获取待分类的第一档案，提取第一档案中的词组，得到多个第一词组。

标准词组确定模块23，用于将多个第一词组转换为多个对应的标准词组，得到多个目标标准词组。

特征向量生成模块24，用于基于目标标准词组以及词组权重生成第一档案的特征向量。

档案分类模块25，用于将第一档案的特征向量输入至预先训练的分类器中，得到第一档案对应的分类类别。

在本公开的一种实施例中，词组确定模块22还用于：

提取第一档案中的词组，得到多个第一词组，包括：

对第一档案进行扫描；

提取第一档案中的文字信息，得到多个第一词组。

在本公开的一种实施例中，标准词组确定模块23还用于：

将多个第一词组转换为多个对应的标准词组，得到多个目标标准词组，包括：

在本公开的一种实施例中，特征向量生成模块24还用于：基于目标标准词组以及词组权重生成第一档案的特征向量，包括：

在本公开的一种实施例中，特征向量生成模块24还用于：特征向量模板包含多个填充位置，每个填充位置对应一种词组属性。基于每个目标标准词组的特征向量对预设的特征向量模板进行填充，得到第一档案的特征向量，包括：

填充操作包括：

其中，第一填充位置为当前遍历到的填充位置。

在本公开的一种实施例中，基于多级分类类别的级别顺序确定词组权重，词组权重确定模块21还用于：

按照级别从高至低的顺序对多级分类类别进行排序。

通过确定每个分类类别对应的权重。其中，/>为第/>个分类类别对应的权重，/>为对应的排序序号，/>为分类类别的个数。

在本公开的一种实施例中，提取第一档案中的文字信息，得到多个第一词组，词组确定模块22还用于：

参见图3，图3为本公开一实施例提供的电子设备的示意框图。如图3所示的本实施例中的电子设备300可以包括：一个或多个处理器301、一个或多个输入设备302、一个或多个输出设备303及一个或多个存储器304。上述处理器301、输入设备302、输出设备303及存储器304通过通信总线305完成相互间的通信。存储器304用于存储计算机程序，计算机程序包括程序指令。处理器301用于执行存储器304存储的程序指令。其中，处理器301被配置用于调用程序指令执行以下操作上述各装置实施例中各模块的功能，例如图2所示模块21至25的功能。

应当理解，在本公开实施例中，所称处理器301可以是中央处理单元 (CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器 (DigitalSignal Processor，DSP)、专用集成电路 (Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备302可以包括触控板、指纹采传感器（用于采集用户的指纹信息和指纹的方向信息）、麦克风等，输出设备303可以包括显示器（LCD等）、扬声器等。

该存储器304可以包括只读存储器和随机存取存储器，并向处理器301 提供指令和数据。存储器304的一部分还可以包括非易失性随机存取存储器。例如，存储器304还可以存储设备类型的信息。

具体实现中，本公开实施例中所描述的处理器301、输入设备302、输出设备303可执行本公开实施例提供的档案分类方法的第一实施例和第二实施例中所描述的实现方式，也可执行本公开实施例所描述的电子设备的实现方式，在此不再赘述。

在本公开的另一实施例中提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令被处理器执行时实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

计算机可读存储介质可以是前述任一实施例的电子设备的内部存储单元，例如电子设备的硬盘或内存。计算机可读存储介质也可以是电子设备的外部存储设备，例如电子设备上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（SecureDigital, SD）卡，闪存卡（Flash Card）等。进一步地，计算机可读存储介质还可以既包括电子设备的内部存储单元也包括外部存储设备。计算机可读存储介质用于存储计算机程序及电子设备所需的其他程序和数据。计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的电子设备和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的电子设备和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本公开实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

Claims

1.一种档案分类方法，其特征在于，包括：

获取用户预先设定的多级分类类别，基于所述多级分类类别的级别顺序确定词组权重；所述词组权重为每个标准词组对应的权重；

获取待分类的第一档案，提取所述第一档案中的词组，得到多个第一词组；

将所述多个第一词组转换为多个对应的标准词组，得到多个目标标准词组；

基于每个目标标准词组以及所述词组权重生成每个目标标准词组的特征向量；

基于每个目标标准词组的特征向量对预设的特征向量模板进行填充，得到所述第一档案的特征向量；所述特征向量模板包含多个填充位置，每个填充位置对应一种词组属性；

遍历所述特征向量模板中的每个填充位置，对每个填充位置执行填充操作；

所述填充操作包括：

响应于所述多个目标标准词组中存在一个目标标准词组与第一填充位置对应的词组属性相符，将对应于所述第一填充位置的目标标准词组的特征向量填充至所述第一填充位置；

响应于所述多个目标标准词组中不存在任何目标标准词组与第一填充位置对应的词组属性相符，将预设特征向量填充至所述第一填充位置中；

其中，所述第一填充位置为当前遍历到的填充位置；

将所述第一档案的特征向量输入至预先训练的分类器中，得到所述第一档案对应的所述分类类别。

2.如权利要求1所述的档案分类方法，其特征在于，所述提取所述第一档案中的词组，得到多个第一词组，包括：

对所述第一档案进行扫描；

提取所述第一档案中的文字信息，得到多个第一词组。

3.如权利要求1所述的档案分类方法，其特征在于，所述将所述多个第一词组转换为多个对应的标准词组，得到多个目标标准词组，包括：

4.如权利要求1所述的档案分类方法，其特征在于，所述基于所述多级分类类别的级别顺序确定词组权重，包括：

按照级别从高至低的顺序对所述多级分类类别进行排序；

通过确定每个分类类别对应的权重；其中，/>为第/>个分类类别对应的权重，/>为对应的排序序号，/>为分类类别的个数；

5.如权利要求2所述的档案分类方法，其特征在于，所述提取所述第一档案中的文字信息，得到多个第一词组，包括：

将所述文字信息输入至预先训练的文本识别模型中，得到多个第一词组。

6.一种档案分类平台，其特征在于，包括：

词组权重确定模块，用于获取用户预先设定的多级分类类别，基于所述多级分类类别的级别顺序确定词组权重；所述词组权重为每个标准词组对应的权重；

词组确定模块，用于获取待分类的第一档案，提取所述第一档案中的词组，得到多个第一词组；

标准词组确定模块，用于将所述多个第一词组转换为多个对应的标准词组，得到多个目标标准词组；

特征向量生成模块，用于基于每个目标标准词组以及所述词组权重生成每个目标标准词组的特征向量；

所述填充操作包括：

其中，所述第一填充位置为当前遍历到的填充位置；

档案分类模块，用于将所述第一档案的特征向量输入至预先训练的分类器中，得到所述第一档案对应的所述分类类别。

7.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。