CN111506702A

CN111506702A - 基于知识蒸馏的语言模型训练方法、文本分类方法及装置

Info

Publication number: CN111506702A
Application number: CN202010217951.XA
Authority: CN
Inventors: 张小亮; 王秀贞; 戚纪纲; 杨占金; 其他发明人请求不公开姓名
Original assignee: Beijing Superred Technology Co Ltd
Current assignee: Beijing Superred Technology Co Ltd
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2020-08-07

Abstract

本公开是关于一种基于知识蒸馏的语言模型训练方法、文本分类方法、基于知识蒸馏的语言模型训练装置、文本分类装置、电子设备及非临时性计算机可读存储介质。基于知识蒸馏的语言模型训练方法，包括：第一词向量层参数确定步骤和语言模型训练步骤。文本分类方法包括：获取待分类文本；基于待分类文本，通过提取得到待分类文本的关键词编码列表；根据关键词编码列表，通过语言模型，得到待分类文本对应的各关键词的词向量；进而通过文本分类层，得到待分类文本的分类结果。采用知识蒸馏的方法，保留模型准确性的同时，减少了对标注样本的依赖，且通过简化模型结构，有助于加快推理速度，从而提升文本分类方法在智能辅助定密系统中的适用性和可靠性。

Description

基于知识蒸馏的语言模型训练方法、文本分类方法及装置

技术领域

本公开涉及保密领域的数据信息处理和分析方法技术领域，尤其涉及一种基于知识蒸馏的语言模型训练方法、文本分类方法、基于知识蒸馏的语言模型训练装置、文本分类装置、电子设备及非临时性计算机可读存储介质。

背景技术

保密工作是指通过一定的手段和防范措施保护秘密信息不被泄露，是维护信息安全的重要工作，是保障社会安全的各方面核心利益不受侵害的重要手段。定密工作是保密工作的源头性、基础性工作，做好定密工作是做好保密工作的前提和基础。随着信息化建设的快速推进，各行业领域的秘密信息日益数字化、涉密载体日益电子化、定密主体日益多样化，定密工作面临新挑战、新机遇。

相关技术中，对文本的定密工作属于文本分类问题，将文本划分为“非密-秘密-机密-绝密”这四类不同的类别。文本分类是数据挖掘、信息检索等领域的重要基础，是自然语言处理的重要研究方向，为计算机智能辅助定密系统提供了强有力的技术支持。传统的定密工作依靠人工定密，缺乏信息化的智能辅助定密决策的技术支撑手段，定密的主观性强，容易失误、失准。但是，由于保密领域难以获得大量的标注数据，需要大量标注数据支撑的机器学习分类算法在保密领域也无法取得较好的效果，传统的文本分类方法也难以有效应用于保密领域。

发明内容

为克服相关技术中存在的问题，本公开提供一种基于知识蒸馏的语言模型训练方法、文本分类方法、基于知识蒸馏的语言模型训练装置、文本分类装置、电子设备及非临时性计算机可读存储介质。

根据本公开实施例的第一方面，提供一种基于知识蒸馏的语言模型训练方法，包括：第一词向量层参数确定步骤和语言模型训练步骤；其中，第一词向量层参数确定步骤包括：获取训练词集，训练词集包括多个训练词编码列表及各训练词编码列表对应的训练词向量；基于各训练词编码列表及对应的各训练词向量，训练教师模型，教师模型包括词向量层、位置向量层及多层Transformer；及判断教师模型是否达到第一训练标准，若达到第一训练标准，则确定第一词向量层的第一词向量层参数；若未达到第一训练标准，则重新训练第一词向量层参数；训练语言模型步骤，语言模型至少包括第二词向量层，包括：根据第一词向量参数，确定第二词向量层的第二词向量层参数；基于各训练词编码列表，通过语言模型，得到对应的各训练词的第二词向量；及基于各训练词向量和对应的各第二词向量，训练语言模型。

在一实施例中，语言模型还包括深度双向循环神经网络层；基于各训练词向量和对应的各第二词向量，训练语言模型，包括：基于各训练词向量和对应的各第二词向量，调节深度双向循环神经网络层参数。

在另一实施例中，训练词编码列表包括：多个训练词及各训练词对应的训练词编码；基于各训练词编码列表及对应的各训练词向量，训练教师模型，教师模型包括第一词向量层、位置向量层及多层Transformer，包括：基于训练词编码列表的各训练词，通过第一词向量层，得到各训练词的词向量矩阵；基于训练词编码列表中的各训练词编码，通过位置向量层，得到各训练词在其他训练编码列表中的位置向量矩阵；根据词向量矩阵和位置向量矩阵，通过多层Transformer，得到训练词编码列表的第一词向量；基于各训练词向量及对应的第一词向量，训练教师模型。

根据本公开实施例的第二方面，提供一种文本分类方法，包括：获取待分类文本；基于待分类文本，通过提取得到待分类文本的关键词编码列表，待分类文本的关键词编码列表包括待分类文本对应的多个关键词；根据关键词编码列表，通过语言模型，得到待分类文本对应的各关键词的语义向量，其中，语言模型通过上述任意一种的基于知识蒸馏的语言模型训练方法训练后得到；根据各关键词的语义向量，通过文本分类层，得到待分类文本的分类结果。

在一实施例中，基于待分类文本，通过提取得到待分类文本的关键词编码列表，包括：将待分类文本进行预处理，得到待分类文本的词语列表，词语列表包括待分类文本的多个词语；基于词语列表，通过词典，得到待分类文本的词语编码列表；根据词语编码列表，通过TF-IDF提取待分类文本的关键词，得到待分类文本的关键词编码列表。

在另一实施例中，预处理包括以下任意多种处理的组合方式：分词、去除停用词、过滤标点、过滤符号、和拼写纠错；基于词语列表，得到待分类文本的词语编码列表，包括：获取中文词典；根据中文词典，得到词语列表中的多个词语对应的编码值；根据各词语对应的编码值及词语列表，得到待分类文本的词语编码列表。

在又一实施例中，文本分类方法还包括：将待分类文本的分类结果进行校验，得到校验结果；基于校验结果，调节文本分类层；或基于校验结果，调节文本分类层和语言模型。

根据本公开实施例的第三方面，提供一种基于知识蒸馏的语言模型训练装置，包括：参数确定模块和训练模块，参数确定模块用于确定第一词向量层参数和训练模块，训练模块用于训练语言模型；其中，参数确定模块采用下述方式确定第一词向量层参数：获取训练词集，训练词集包括多个训练词编码列表及各训练词编码列表对应的训练词向量；基于各训练词编码列表及对应的各训练词向量，训练教师模型，教师模型包括词向量层、位置向量层及多层Transformer；及判断教师模型是否达到第一训练标准，若达到第一训练标准，则确定第一词向量层的第一词向量层参数；若未达到第一训练标准，则重新训练第一词向量层参数；训练模块采用下述方式训练语言模型，语言模型至少包括第二词向量层，包括：根据第一词向量参数，确定第二词向量层的第二词向量层参数；基于各训练词编码列表，通过语言模型，得到对应的各训练词的各第二词向量；及基于各训练词向量和对应的各第二词向量，训练语言模型。

在一实施例中，语言模型还包括深度双向循环神经网络层；训练模块采用下述方式基于各训练词向量和对应的各第二词向量，训练语言模型：基于各训练词向量和对应的各第二词向量，调节深度双向循环神经网络层参数。

在另一实施例中，训练词编码列表包括：多个训练词及各训练词对应的训练词编码；参数确定模块采用下述方式基于各训练词编码列表及对应的各训练词向量，训练教师模型，教师模型包括第一词向量层、位置向量层及多层Transformer：基于训练词编码列表的各训练词，通过第一词向量层，得到各训练词的词向量矩阵；基于训练词编码列表中的各训练词编码，通过位置向量层，得到各训练词在其他训练编码列表中的位置向量矩阵；根据词向量矩阵和位置向量矩阵，通过多层Transformer，得到训练词编码列表的第一词向量；基于各训练词向量及对应的第一词向量，训练教师模型。

根据本公开实施例的第四方面，提供一种文本分类装置，包括：获取模块，用于获取待分类文本；提取模块，用于基于待分类文本，通过提取得到待分类文本的关键词编码列表，待分类文本的关键词编码列表包括待分类文本对应的多个关键词；词向量转换模块，用于根据关键词编码列表，通过语言模型，得到待分类文本对应的各关键词的语义向量，其中，语言模型通过上述任意一种的基于知识蒸馏的语言模型训练装置训练后得到；分类模块，用于根据各关键词的语义向量，通过文本分类层，得到待分类文本的分类结果。

在一实施例中，提取模块采用下述方式基于待分类文本，通过提取得到待分类文本的关键词编码列表，包括：将待分类文本进行预处理，得到待分类文本的词语列表，词语列表包括待分类文本的多个词语；基于词语列表，通过词典，得到待分类文本的词语编码列表；根据词语编码列表，通过TF-IDF提取待分类文本的关键词，得到待分类文本的关键词编码列表。

在另一实施例中，预处理包括以下任意多种处理的组合方式：分词、去除停用词、过滤标点、过滤符号、和拼写纠错；提取模块采用下述方式基于词语列表，得到待分类文本的词语编码列表，包括：获取中文词典；根据中文词典，得到词语列表中的多个词语对应的编码值；根据各词语对应的编码值及词语列表，得到待分类文本的词语编码列表。

在又一实施例中，文本分类装置还包括：校验模块，用于将待分类文本的分类结果进行校验，得到校验结果；调节模块，用于基于校验结果，调节文本分类层；或基于校验结果，调节文本分类层和语言模型。

根据本公开实施例的第五方面，提供一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为：执行上述任意一种基于知识蒸馏的语言模型训练方法或执行上述任意一种文本分类方法。

根据本公开实施例的第六方面，提供一种非临时性计算机可读存储介质，包括非临时性计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在由处理器执行时，执行上述任意一种基于知识蒸馏的语言模型训练方法或执行上述任意一种文本分类方法。

本公开的实施例提供的技术方案可以包括以下有益效果：通过本公开提供的方法，采采用知识蒸馏的方法，将学习到的知识转移到小规模神经网络中，在保留模型准确性的同时，大大降低了模型的大小并提升了模型的推理速度，有效提升了文本分类方法在智能辅助定密系统中的适用性和可靠性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种基于知识蒸馏的语言模型训练方法的流程图。

图2是根据一示例性实施例示出的一种双向LSTM网络结构示意图。

图3是根据一示例性实施例示出的一种文本分类方法的流程图。

图4是根据一示例性实施例示出的一种文本分类方法的工作流程示意图。

图5是根据一示例性实施例示出的一种基于知识蒸馏的语言模型训练装置的框图。

图6是根据一示例性实施例示出的一种文本分类装置的框图。

图7是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

需要注意，虽然本文中使用“第一”、“第二”等表述来描述本发明的实施方式的不同模块、步骤和数据等，但是“第一”、“第二”等表述仅是为了在不同的模块、步骤和数据等之间进行区分，而并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。

本申请提供一种用于保密领域中文本分类方法，能够有效解决保密领域中，文本数据稀少，导致文本保密分类性能差的问题。为便于文本分类时，通过文本分类层，能够获取可靠且准确的分类结果，预先训练语言模型，使通过训练得到的语言模型，能够准确识别各词语在不同类型文本中的关联度，进而得到合理的词向量，便于分类文本模型进行分类处理时，能够提高待分类文本的分类准确性。

图1是根据一示例性实施例示出的一种基于知识蒸馏的语言模型训练方法的流程图，如图1所示，基于知识蒸馏的语言模型训练方法10，包括以下步骤S11至步骤S12。

第一词向量层参数确定步骤S11用于通过训练教师模型，确定第一词向量层的第一词向量参数，便于通过知识迁移，语言模型能够快速的学习，将更可靠更有用的知识从复杂的教师模型中传递给模型更简化的语言模型中，解决保密领域数据稀少导致转换词向量的性能差的问题。其中，包括步骤S111至步骤S113。

在步骤S111中，获取训练词集，训练词集包括多个训练词编码列表及各训练词编码列表对应的训练词向量。

在本公开实施例中，获取用于训练的训练词集，训练词集由多个训练词编码列表及其对应的训练词向量组成。训练词集的来源可以从本地数据库或者云端中获取，训练集涉及的领域可以包括保障社会安全的各方面领域。为便于训练结果更准确，训练词集中的训练词编码列表的数量在合理的范围内可以尽可能的多且尽可能均匀地涉及各类领域。训练词编码列表可以通过一条语句或者一个文本获取的，不同训练编码列表代表通过不同语句或者文本提取的训练词。根据词典的大小，确定各训练词编码列表中各训练词在词典中的编码位置，例如：根据各训练词在对应的语句或者文本中出现的频率，从高到低，对各训练词排序，确定各训练词的编码位置。同一训练词编码列表中，各训练词与对应的训练词向量具有唯一性。通过获取训练词集，用于与教师模型的输出结果进行比对，有助于训练教师模型参数，便于教师模型能够学习不同词语在不同领域中所代表的特征属性，例如，是否属于高频重要词汇。

在步骤S112中，基于各训练词编码列表及对应的各训练词向量，训练教师模型，教师模型包括第一词向量层、位置向量层及多层Transformer。

在本公开实施例中，教师模型是由第一词向量层、位置向量和多层Transformer构成的。基于训练编码列表，能够得到训练编码列表中各训练词唯一位置。在一实施例中，预先确定教师模型中涉及词典的大小和词向量的维度，便于防止获取的第一词向量维度过高，导致计算困难，无法快速从第一词向量中确定训练编码列表中各训练词之间的关联，有助于解决维数灾难问题。在另一实施例中，为便于教师模型能够快速学习各词语在同一类型语句或文本之间的关联度，深入了解各词语之间的关联属性，预先设置教师模型中的高频词亚采样的阈值和被截断的低频词阈值，便于均衡采样，合理挖掘各词语之间的关联性。将获取的各训练词编码列表作为教师模型的输入，通过教师模型得到各训练词编码列表中各训练词的第一词向量。基于此，训练教师模型的各层参数。通过结合多层Transformer构建教师模型，能够在训练时，观察到各训练词在不同上下文中与其他训练词的关联度，进而得到不同的词向量，有助于提升词向量表示的灵活性和准确性。

在一实施例中，基于训练词编码列表的各训练词，通过第一词向量层，得到各训练词的词向量矩阵；基于训练词编码列表中的各训练词编码，通过位置向量层，得到各训练词在其他训练编码列表中的位置向量矩阵；根据词向量矩阵和位置向量矩阵，通过多层Transformer，得到训练词编码列表的第一词向量；基于各训练词向量及对应的第一词向量，训练教师模型。

将训练词编码列表输入至教师模型中，通过第一词向量层，得到该训练词编码列表中各训练词的N维的词向量矩阵。在一实施例中，该词向量矩阵的大小取决于教师模型中词典的大小和词向量维度的大小。词向量维度可以根据需求进行设定，例如：将词向量的维度设定为512或者768。词向量层由向量矩阵和词向量查询层构成。通过位置向量层，得到该训练词在其他训练编码列表中的位置向量矩阵。在一实施例中，该位置向量矩阵的大小取决于教师模型能够处理文本长度的最大长度以及词向量的维度。在另一实施例中，位置向量层由位置向量矩阵和位置向量查询层构成，便于查询当前训练词在其他训练词编码列表中的编码位置，进而有助于多层Transformer输出词向量时，能够确定该训练词在不同语句或者文本的出现的相对位置，进而有助于得到该训练词的第一词向量更具有的灵活性和准确性。

在又一实施例中，多层Transformer包括：多头自注意力计算层和全连接神经网络层。根据词向量矩阵和位置向量矩阵，通过多头自注意力计算层，确定当前训练词编码列表中各训练词与其他训练词之间的各注意力向量的权重；根据各训练词对应其他训练词之间的各注意力向量权重，通过全连接神经网络层，得到训练词编码列表各训练词的第一词向量。

多层Transformer至少由多头自注意力计算层和全连接神经网络层构成，可根据训练词在不同语句或者文本中得到不同的词向量。通过多头注意力计算层，结合当前训练词在各语句或者文本中注意力的相对大小，即在各语句或者文本中相对的重要程度，确定当前训练词的注意力值向量的权重。在一实施例中，采用向量点乘的方式，利用下述公式，计算注意力的相对大小：

其中，Q为当前训练词在当前训练词编码列表中的查询向量矩阵(Query向量矩阵)，k为当前训练词在当前训练词编码列表中的关键向量矩阵(key向量矩阵)，Z为当前训练词的注意力值矩阵，d_k为词向量的维度大小。softmax为softmax计算层，其计算公式为

其中，S_i为当前训练词的目标向量与对应训练词编码列表中第i个词语的关键向量点乘并归一化后的数值，ω_i为第i个注意力值向量的权重，j为第j个训练词编码列表。针对同一训练词编码列表，根据当前训练词与其他训练词的注意力值向量的权重，通过全连接神经网络层进行拟合，得到训练词编码列表中各训练词的第一词向量。进而能够有效提升词向量表示的灵活性和准确性。

在步骤S113中，判断教师模型是否达到第一训练标准，若达到第一训练标准，则确定第一词向量层的第一词向量层参数；若未达到第一训练标准，则重新训练第一词向量层参数。

在本公开实施例中，通过第一训练标准，判断教师模型是否训练完成。第一训练标准可以包括：根据输入的训练词编码列表，训练词编码列表中的各训练词的词向量与相似上下文的训练词的词向量接近。当教师模型输出的词向量达到第一训练标准时，则教师模型训练完成，获取教师模型的第一向量层的第一向量层参数，用于迁移学习，训练语言模型。当教师模型输出的词向量未达到第一训练标准时，则教师模型训练未完成，重新调节教师模型各层参数进行训练，直至教师模型达到第一训练标准。

语言模型训练步骤S12用于基于知识蒸馏技术，利用知识迁移，将深层的教师模型所学习到的词向量表示性能迁移至浅层的语言模型中。语言模型至少包括第二词向量层。通过训练语言模型，有助于简化模型结构、降低模型的复杂性、减少参数运算，且有助于降低计算成本，使训练后的语言模型也具有与教师模型相近的词向量表示性能。其中，包括步骤S121至步骤S123。

在步骤S121中，根据第一词向量参数，确定第二词向量层的第二词向量层参数。

在本公开实施例中，为便于快速学习教师模型的词向量表示性能，将第一向量层的第一向量层全部参数迁移到语言模型的第二向量层中，作为训练语言模型的训练基础。在一实施例中，为便于降低运算时间的复杂度与运行成本，采用降维方式，将第一词向量层中冗余的部分第一词向量参数进行去除，有助于增强语言模型在小数据集上的鲁棒性，针对文本数据较少的保密领域，更有助于提取准确的知识特征。冗余的部分第一词向量参数可以包括：在训练教师模型时更新频率较低的参数，将其去掉，几乎不影响最终结果。

在步骤S122中，基于各训练词编码列表，通过语言模型，得到对应的各训练词的第二词向量。

在本公开实施例中，将各训练词编码列表输入至语言模型中，根据语言模型确定的第二向量层参数，输出各训练词编码列表中各训练词对应的各第二词向量。各第二词向量用于与同一训练词编码列表中各训练词对应的训练词向量进行对比，便于训练和调节语言模型的参数，使语言模型的词向量表示性能接近教师模型。

在步骤S123中，基于各训练词向量和对应的各第二词向量，训练语言模型。

在本公开实施例中，将各训练词向量和对应的各第二词向量进行对比，训练语言模型。判断语言模型的训练是否结束，可以根据语言模型输出的词向量表示是否与教师模型输出的词向量相近进行判断。若相近，则结束训练；若相差较多，则继续训练语言模型，调节语言模型的各层参数，直至语言模型的输出与教师模型相近。

在一实施例中，语言模型还包括深度双向循环神经网络层。基于各训练词向量和对应的各第二词向量，调节深度双向循环神经网络层参数。在调节语言模型时，冻结第二词向量层的第二词向量层参数，调节深度双向循环神经网络层的初始参数，直至训练结果达到训练结束的标准。在一实施例中，深度双向循环神经网络层可以由少量双向的LSTM结构组成，如图2所示。通过正向的若干输入和反向的若干输入共同决定最终训练词的第二词向量的输出，提高输出的准确性。有助于在保证模型效果的前提下，降低了网络结构的复杂度，进而提升了模型的推理速度。

通过上述实施例，采用知识蒸馏的方法，将学习到的知识转移到小规模神经网络中，在保留模型准确性的同时，大大降低了模型的大小并提升了模型的推理速度，有效提升了文本分类方法在智能辅助定密系统中的适用性和可靠性。

基于同一个发明构思，本公开还提供一种文本分类方法20，参见图3，文本分类方法20包括以下步骤S21至步骤S24。

在步骤S21中，获取待分类文本。

在本公开实施例中，获取待分类文本。待分类文本为需要确定保密程度的文本。待分类文本的领域可以包括保障社会安全各方面的领域。保密程度可以包括：非密、秘密、机密和绝密，将待分类文本进行分类处理，便于采用针对性的保护措施保护待分类文本，使需要保护的秘密信息能够得到合理的保护，进而提高秘密信息的安全。

在步骤S22中，基于待分类文本，通过提取得到待分类文本的关键词编码列表，待分类文本的关键词编码列表包括待分类文本对应的多个关键词。

在本公开实施例中，为便于模型识别，将待分类文本通过转化为词语编码列表。通过提取词语编码列表，得到待分类文本的关键词编码列表。关键词编码列表中包括的关键词可以是待分类文本的全部关键词，也可以是相对重要的部分关键词。

在一实施例中，将待分类文本进行预处理，得到待分类文本的词语列表，词语列表包括待分类文本的多个词语；基于词语列表，通过词典，得到待分类文本的词语编码列表；根据词语编码列表，通过TF-IDF提取待分类文本的关键词，得到待分类文本的关键词编码列表。

将待分类文本进行预处理，去除待分类文本中的干扰词、符号等无用信息，将保留下来的各词语进行排列，得到待分类文本的词语列表。排列方式可以包括：根据各词语出现的频率进行排列或者出现的先后顺序进行排列。在一实施例中，预处理可以包括以下任意一种或多种的组合方式：分词、去除停用词、过滤标点、过滤符号、和拼写纠错。预处理的方式越多，越有助于排除待分类文本中的干扰信息，进而有助于提高分类的准确度。根据词语列表，通过词典，确定词语列表中各词语在词典中的位置序号，进而得到待分类文本的词语编码列表，词语编码列表包括各词语及各词语对应的位置序号。采用词频-逆文本频率指数(term frequency–inverse document frequency，TF-IDF)加权提取的方式，提取词语编码列表中的关键词，确定待分类文本的关键词信息，得到待分类文本的关键词编码列表，其中，关键词编码列表中各关键词对应的位置序号不变。TF-IDF是一种用于信息检索与数据挖掘的常用加权技术。提取关键词时，采用下述TF-IDF加权的计算公式进行提取：λ_i，j＝TF_i，j×log(N/DF_i)，其中，λ_i，j为第j篇文章中的第i个词语的权重值，TF_i，j第i个词语在第j篇文章中出现的频次，N为语料中所有文章的总数，DF_i为语料中含有第i个单词的文章总数，log为对数函数。将词语编码列表中选择权重较高的词语作为关键词，通过对编码列表进行降维，有助于提高文本信息量的识别精度，进而有助于快速获取分类结果。在一实施例中，可以通过关键词提取层进行提取词语编码列表中的关键词，该关键词提取层采用TF-IDF加权的提取方式提取关键词。在另一实施例中，可以根据各词语对应的权重，选取权重最高的前20％的词语作为关键词。

在又一实施例中，获取中文词典；根据中文词典，得到词语列表中的多个词语对应的编码值；根据各词语对应的编码值及词语列表，得到待分类文本的词语编码列表。中文词典可以根据大量公开的中文语料进行构建，确定中文词典中每一个词语的位置序号，即确定中文词典中每一个词语的编码值。将待分类文本的词语列表与获取的中文词典进行匹配，得到词语列表中各词语在中文词典中的编码值，进而根据编码值得到词语编码列表。

在步骤S23中，根据关键词编码列表，通过语言模型，得到待分类文本对应的各关键词的词向量。

在本公开实施例中，将获取的关键词编码列表输入至语言模型中，得到关键词编码列表中各关键词之间的词向量。通过将关键词进行向量化，有助于直观确定各关键词之间的关联程度。在一实施例中，可以将各关键词的语义向量进行组合，得到关于该待分类文本的关键词的词义向量矩阵。在本公开中，语言模型是通过上述任意一种基于知识蒸馏的语言模型训练方法训练得到的。能够结合各关键词在不同文本中的重要性，确定当前关键词在本待分类文本中的重要性，使得到的词向量更具有合理性和准确性，有助于提高文本分类层的分类准确度。

在步骤S24中，根据各关键词的语义向量，通过文本分类层，得到待分类文本的分类结果。

在本公开实施例中，文本分类层预先设置多个类别，包括：非密、秘密、机密和绝密。将得到的各关键词的语义向量输入至文本分类层中，根据文本内容与预设类别的相关性，判断待分类文本的类别，得到待分类文本的分类结果。在一实施例中，文本分类层可以包括：多层卷积神经网络层和softmax层。通过使用多层卷积神经网络，有助于降低文本分类层的参数量，便于提升文本分类层的推理速度和鲁棒性。

通过上述实施例，能够有效解决保密领域中，文本数据稀少，导致文本保密分类性能差的问题。通过预先训练语言模型，使通过训练后得到的语言模型，能够准确识别各词语在不同类型文本中的关联度，进而得到合理的语义向量，便于文本分类时，通过文本分类层，能够获取可靠且准确的分类结果，从而提高文本的分类效率。

在一实施例中，文本分类方法还包括：将待分类文本的分类结果进行校验，得到校验结果；基于校验结果，调节文本分类层和/或语言模型。将得到的分类结果进行人工校验，判断分类结果准确，避免出现误分类，以降低秘密信息泄露的发生。根据校对结果，当分类结果多次出现误分类时，则将人工校对得到的正确分类结果和文本分类层输出的校对结果进行多分类交叉熵损失值的计算，通过反向传播算法更新文本分类层中卷积神经网络层的参数权重，进而调节文本分类层，提高文本分类层的精确度。在另一实施例中，根据校验结果还可以微调语言模型，通过提高文本转换成词向量的准确度，提高文本分类层的精确度。在又一实施例中，微调语言模型时采用逐层解冻的方式逐步调整，以免模型出现灾难性遗忘。

在一实施场景中，如图4所示，将获取的待分类文本进行文本预处理，通过分词和词典，得到待分类文本中各词语的编码值，形成词语编码列表。通过关键词提取层，将词语编码列表中的关键词进行提取，得到关键词编码列表。将关键词编码列表通过预先基于知识蒸馏训练的语言模型层得到各关键词的语义向量。将各关键词的语义向量输入至文本分类层中，得到文本的类别。通过采用迁移学习和知识蒸馏技术，在保证语义向量的合理的同时，降低了对人工分类的依赖，提高了文本分类效率，进而有效提升文本分类方法在保密领域标的适用性，从而有助于提升智能辅助定密系统的准确性和可靠性。在一实施例中，关键词提取层、语言模型层和文本分类层可以同时训练，也可以各自独立训练。独立训练有助于快速完成模型的训练，节省训练时间。同时训练，有助于各模型之间彼此相互配合。

图5是根据一示例性实施例示出的一种基于知识蒸馏的语言模型训练装置框图。参照图5，该基于知识蒸馏的语言模型训练装置100包括：参数确定模块110和训练模块120。

参数确定模块110用于确定第一词向量层参数和训练模块，训练模块120用于训练语言模型；其中，参数确定模块110采用下述方式确定第一词向量层参数：获取训练词集，训练词集包括多个训练词编码列表及各训练词编码列表对应的训练词向量；基于各训练词编码列表及对应的各训练词向量，训练教师模型，教师模型包括词向量层、位置向量层及多层Transformer；及判断教师模型是否达到第一训练标准，若达到第一训练标准，则确定第一词向量层的第一词向量层参数；若未达到第一训练标准，则重新训练第一词向量层参数；训练模块120采用下述方式训练语言模型，语言模型至少包括第二词向量层，包括：根据第一词向量参数，确定第二词向量层的第二词向量层参数；基于各训练词编码列表，通过语言模型，得到对应的各训练词的各第二词向量；及基于各训练词向量和对应的各第二词向量，训练语言模型。

在一实施例中，语言模型还包括深度双向循环神经网络层；训练模块120采用下述方式基于各训练词向量和对应的各第二词向量，训练语言模型：基于各训练词向量和对应的各第二词向量，调节深度双向循环神经网络层参数。

在另一实施例中，训练词编码列表包括：多个训练词及各训练词对应的训练词编码；参数确定模块110采用下述方式基于各训练词编码列表及对应的各训练词向量，训练教师模型，教师模型包括第一词向量层、位置向量层及多层Transformer：基于训练词编码列表的各训练词，通过第一词向量层，得到各训练词的词向量矩阵；基于训练词编码列表中的各训练词编码，通过位置向量层，得到各训练词在其他训练编码列表中的位置向量矩阵；根据词向量矩阵和位置向量矩阵，通过多层Transformer，得到训练词编码列表的第一词向量；基于各训练词向量及对应的第一词向量，训练教师模型。

图6是根据一示例性实施例示出的一种文本分类装置框图。参照图6，该文本分类装置200包括：获取模块210、提取模块220、词向量转换模块230和分类模块240。

获取模块210，用于获取待分类文本。

提取模块220，用于基于待分类文本，通过提取得到待分类文本的关键词编码列表，待分类文本的关键词编码列表包括待分类文本对应的多个关键词。

词向量转换模块230，用于根据关键词编码列表，通过语言模型，得到待分类文本对应的各关键词的语义向量，其中，语言模型通过上述任意一种的基于知识蒸馏的语言模型训练装置训练后得到。

分类模块240，用于根据各关键词的语义向量，通过文本分类层，得到待分类文本的分类结果。

在一实施例中，提取模块220采用下述方式基于待分类文本，通过提取得到待分类文本的关键词编码列表，包括：将待分类文本进行预处理，得到待分类文本的词语列表，词语列表包括待分类文本的多个词语；基于词语列表，通过词典，得到待分类文本的词语编码列表；根据词语编码列表，通过TF-IDF提取待分类文本的关键词，得到待分类文本的关键词编码列表。

在另一实施例中，预处理包括以下任意多种处理的组合方式：分词、去除停用词、过滤标点、过滤符号、和拼写纠错；提取模块220采用下述方式基于词语列表，得到待分类文本的词语编码列表，包括：获取中文词典；根据中文词典，得到词语列表中的多个词语对应的编码值；根据各词语对应的编码值及词语列表，得到待分类文本的词语编码列表。

在又一实施例中，文本分类装置200还包括：校验模块，用于将待分类文本的分类结果进行校验，得到校验结果；调节模块，用于基于校验结果，调节文本分类层；或基于校验结果，调节文本分类层和语言模型。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

如图7所示，本发明的一个实施方式提供了一种电子设备300。其中，该电子设备300包括存储器310、处理器320、输入/输出(Input/Output，I/O)接口330。其中，存储器310，用于存储指令。处理器320，用于调用存储器310存储的指令执行本发明实施例的任意一种基于知识蒸馏的语言模型训练方法或任意一种文本分类方法。其中，处理器320分别与存储器310、I/O接口330连接，例如可通过总线系统和/或其他形式的连接机构(未示出)进行连接。存储器310可用于存储程序和数据，包括本发明实施例中涉及的用于基于知识蒸馏的语言模型训练或文本分类的程序，处理器320通过运行存储在存储器310的程序从而执行电子设备300的各种功能应用以及数据处理。

本发明实施例中处理器320可以采用数字信号处理器(Digital SignalProcessing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现，处理器320可以是中央处理单元(Central Processing Unit，CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元中的一种或几种的组合。

本发明实施例中的存储器310可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(Random Access Memory，RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(Read-Only Memory，ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)等。

本发明实施例中，I/O接口330可用于接收输入的指令(例如数字或字符信息，以及产生与电子设备300的用户设置以及功能控制有关的键信号输入等)，也可向外部输出各种信息(例如，图像或声音等)。本发明实施例中I/O接口330可包括物理键盘、功能按键(比如音量控制按键、开关按键等)、鼠标、操作杆、轨迹球、麦克风、扬声器和触控面板等中的一个或多个。

一种非临时性计算机可读存储介质，当存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行上述任意一种基于知识蒸馏的语言模型训练方法或执行上述任意一种文本分类方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种基于知识蒸馏的语言模型训练方法，其特征在于，所述方法包括：第一词向量层参数确定步骤和语言模型训练步骤；

其中，所述第一词向量层参数确定步骤包括：

获取训练词集，所述训练词集包括多个训练词编码列表及各所述训练词编码列表对应的训练词向量；

基于各所述训练词编码列表及对应的各所述训练词向量，训练教师模型，所述教师模型包括词向量层、位置向量层及多层Transformer；及

判断所述教师模型是否达到第一训练标准，若达到第一训练标准，则确定所述第一词向量层的所述第一词向量层参数；若未达到所述第一训练标准，则重新训练所述第一词向量层参数；

所述训练语言模型步骤，所述语言模型至少包括第二词向量层，包括：

根据所述第一词向量参数，确定所述第二词向量层的所述第二词向量层参数；

基于各所述训练词编码列表，通过所述语言模型，得到对应的各训练词的各第二词向量；及

基于各所述训练词向量和对应的各所述第二词向量，训练所述语言模型。

2.根据权利要求1所述的方法，其特征在于，

所述语言模型还包括深度双向循环神经网络层；

所述基于各所述训练词向量和对应的各所述第二词向量，训练所述语言模型，包括：

基于各所述训练词向量和对应的各所述第二词向量，调节所述深度双向循环神经网络层参数。

3.根据权利要求1或2所述的方法，其特征在于，

所述训练词编码列表包括：多个训练词及各所述训练词对应的训练词编码；

所述基于各所述训练词编码列表及对应的各所述训练词向量，训练教师模型，所述教师模型包括第一词向量层、位置向量层及多层Transformer，包括：

基于所述训练词编码列表的各所述训练词，通过所述第一词向量层，得到各所述训练词的词向量矩阵；

基于所述训练词编码列表中的各所述训练词编码，通过所述位置向量层，得到各所述训练词在其他所述训练编码列表中的位置向量矩阵；

根据所述词向量矩阵和所述位置向量矩阵，通过所述多层Transformer，得到所述训练词编码列表的第一词向量；

基于各所述训练词向量及对应的所述第一词向量，训练所述教师模型。

4.一种文本分类方法，其特征在于，所述方法包括：

获取待分类文本；

基于所述待分类文本，通过提取得到所述待分类文本的关键词编码列表，所述待分类文本的关键词编码列表包括所述待分类文本对应的多个关键词；

根据所述关键词编码列表，通过语言模型，得到所述待分类文本对应的各关键词的语义向量，其中，所述语言模型通过所述权利要求1-3中任意一种所述的基于知识蒸馏的语言模型训练方法训练后得到；

根据各关键词的语义向量，通过文本分类层，得到所述待分类文本的分类结果。

5.根据权利要求4所述的方法，其特征在于，所述基于所述待分类文本，通过提取得到所述待分类文本的关键词编码列表，包括：

将所述待分类文本进行预处理，得到所述待分类文本的词语列表，所述词语列表包括所述待分类文本的多个词语；

基于所述词语列表，得到所述待分类文本的词语编码列表；

根据所述词语编码列表，通过TF-IDF提取所述待分类文本的关键词，得到所述待分类文本的所述关键词编码列表。

6.根据权利要求5所述的方法，其特征在于，

所述预处理包括以下任意多种处理的组合方式：分词、去除停用词、过滤标点、过滤符号、和拼写纠错；

所述基于所述词语列表，得到所述待分类文本的词语编码列表，包括：

获取中文词典；

根据所述中文词典，通过词典，得到所述词语列表中的多个所述词语对应的编码值；

根据各所述词语对应的所述编码值及所述词语列表，得到所述待分类文本的词语编码列表。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

将所述待分类文本的分类结果进行校验，得到校验结果；

基于所述校验结果，调节所述文本分类层；或

基于所述校验结果，调节所述文本分类层和所述语言模型。

8.一种基于知识蒸馏的语言模型训练装置，其特征在于，所述装置包括：参数确定模块和训练模块，所述参数确定模块用于确定第一词向量层参数和训练模块，所述训练模块用于训练语言模型；

其中，所述参数确定模块采用下述方式确定第一词向量层参数：

所述训练模块采用下述方式训练语言模型，所述语言模型至少包括第二词向量层，包括：

9.根据权利要求8所述的装置，其特征在于，

所述语言模型还包括深度双向循环神经网络层；

所述训练模块采用下述方式基于各所述训练词向量和对应的各所述第二词向量，训练所述语言模型：

10.根据权利要求8或9所述的装置，其特征在于，

所述参数确定模块采用下述方式基于各所述训练词编码列表及对应的各所述训练词向量，训练教师模型，所述教师模型包括第一词向量层、位置向量层及多层Transformer：

11.一种文本分类装置，其特征在于，所述装置包括：

获取模块，用于获取待分类文本；

提取模块，用于基于所述待分类文本，通过提取得到所述待分类文本的关键词编码列表，所述待分类文本的关键词编码列表包括所述待分类文本对应的多个关键词；

词向量转换模块，用于根据所述关键词编码列表，通过语言模型，得到所述待分类文本对应的各关键词的语义向量，其中，所述语言模型通过所述权利要求1-3中任意一种所述的基于知识蒸馏的语言模型训练方法训练后得到；

分类模块，用于根据各关键词的语义向量，通过文本分类层，得到所述待分类文本的分类结果。

12.根据权利要求11所述的装置，其特征在于，所述提取模块采用下述方式基于所述待分类文本，通过提取得到所述待分类文本的关键词编码列表，包括：

基于所述词语列表，通过词典，得到所述待分类文本的词语编码列表；

13.根据权利要求12所述的装置，其特征在于，

所述提取模块采用下述方式基于所述词语列表，得到所述待分类文本的词语编码列表，包括：

获取中文词典；

根据所述中文词典，得到所述词语列表中的多个所述词语对应的编码值；

14.根据权利要求13所述的装置，其特征在于，所述装置还包括：

校验模块，用于将所述待分类文本的分类结果进行校验，得到校验结果；

调节模块，用于基于所述校验结果，调节所述文本分类层；或

基于所述校验结果，调节所述文本分类层和所述语言模型。

15.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行权利要求1-3中任意一项所述的基于知识蒸馏的语言模型训练方法或执行权利要求4-7中任意一项所述的文本分类方法。

16.一种非临时性计算机可读存储介质，其特征在于，所述非临时性计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在由处理器执行时，执行权利要求1-3中任意一项所述的基于知识蒸馏的语言模型训练方法或执行权利要求4-7中任意一项所述的文本分类方法。