CN112347252B

CN112347252B - 一种基于cnn文本分类模型的可解释性分析方法

Info

Publication number: CN112347252B
Application number: CN202011218895.8A
Authority: CN
Inventors: 包铁; 孙铭; 彭策; 刘露; 孟宪全; 孙岩
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2024-02-27
Anticipated expiration: 2040-11-04
Also published as: CN112347252A

Abstract

本发明公开了一种基于CNN文本分类模型的可解释性分析方法，包括：获取一个或多个原始文本数据，对原始文本数据进行预处理；构建基于卷积神经网络的文本分类模型，利用文本分类模型将预处理后的原始文本数据转换为分布式矩阵，并基于分布式矩阵进行分类预测，获得文本分类结果；回溯分析影响文本分类结果的各个标识在各个维度的重要度，生成重要度向量矩阵；基于重要度向量矩阵，生成可视化分析图。本发明能够基于CNN文本分类模型的可解释性，反向回溯文本分类结果产生的原因，定量地确定文本中的每个标识的每个维度对预测结果的贡献值，并通过可视化图呈现分析结果。

Description

一种基于CNN文本分类模型的可解释性分析方法

技术领域

本发明涉及文本分类技术领域，更具体的说是涉及一种基于CNN文本分类模型的可解释性分析方法。

背景技术

卷积神经网络是仿造生物的视知觉机制构建，初始时在计算机视觉领域取得了极大的进展，近年来也逐渐在自然语言处理领域快速发展。自然语言处理领域中有一类非常重要的应用，就是文本分类，即基于文本的内容，对文本的所属的类别进行预测，如：判断一段评论的感情倾向是赞扬或批评(二分类)，判断一段新闻是财经、体育、教育、政治等哪一类别(多分类)，如果文本只属于一个分类则称为单标签，如果可以属于多个类别则称为多标签，如一段新闻可能既属于体育又属于教育。

基于卷积神经网络(CNN)模型对文本进行分类是一种非常重要和高效的方式，文本数据是一种序列数据，而一般的文本数据的时间序列性较弱，因此文本的分类通常与全文顺序结构的相关性较弱。因此，针对文本的分类处理可以基于CNN模型进行。相关研究表明，针对一般的文本分类问题，基于CNN的文本分类模型具有与RNN模型相似的性能，却需要更少的时间和计算资源。

目前，针对文本分类模型的可解释性研究，尤其基于CNN模型的文本分类模型的研究，相对较少，并且具有一定的局限性，难以量化关键词的重要性，也无法对关键词的重要性程度进行可视化呈现。

发明内容

有鉴于此，本发明提供了一种基于CNN文本分类模型的可解释性分析方法，能够基于CNN文本分类模型的可解释性，反向回溯文本分类结果产生的原因，定量地确定文本中的每个标识(词、短语)、标识分布式表示的每个维度对预测结果的贡献值，并通过可视化图呈现分析结果。

为了实现上述目的，本发明采用如下技术方案：

一种基于CNN文本分类模型的可解释性分析方法，包括：

获取一个或多个原始文本数据，对所述原始文本数据进行预处理；

构建基于卷积神经网络的文本分类模型，利用所述文本分类模型将预处理后的所述原始文本数据转换为分布式矩阵，并基于所述分布式矩阵进行分类预测，获得文本分类结果；

回溯分析影响所述文本分类结果的各个标识在各个维度的重要度，生成重要度向量矩阵；

基于所述重要度向量矩阵，生成可视化分析图。

优选的，所述预处理包括：将所述原始文本数据中的各个标识编码为对应的索引数字。

优选的，所述文本分类模型包括文本分布式表示层、一个或多个级联的卷积池化层、全局池化层和分类层；其中所述文本分布式表示层用于将所述原始文本数据所对应的各个索引数字进行分布式表示；所述分类层用于输出所述文本分类结果；所述文本分类结果为单标签或多标签。

优选的，所述文本分布式表示层根据所述原始文本数据的规模和应用需求确定分布式表示的维度；

所述卷积池化层的数量根据所述原始文本数据的数量和分类性能指标确定；

所述全局池化层采用全局池化或扁平化方法构建；

所述分类层根据所述原始文本数据的分类数量进行设置。

优选的，所述利用所述文本分类模型将预处理后的所述原始文本数据转换为分布式矩阵，包括:

采用One-hot编码或词嵌入方式对所述原始文本数据中的各个标识进行通用表示，生成通用表示部分；

利用特定应用中所关注因素的向量表示的方式对所述原始文本数据中的各个标识进行特定表示，生成特定表示部分；

利用向量变换的方式将所述通用表示部分和所述特定表示部分进行融合，将预处理后的所述原始文本数据转换为分布式的表示；所述向量变换包括向量连接、向量相加和向量矩阵变换。

优选的，所述文本分类结果包括所述原始文本数据所属类别以及所述原始文本数据所属类别的概率值。

优选的，所述回溯分析影响所述文本分类结果的各个标识在各个维度的重要度，生成重要度向量矩阵，包括：

基于所述文本分类结果，依次经过所述全局池化层和一个或多个级联的卷积池化层的反向计算，计算出各个层对所述文本分类结果的贡献度；

基于所述贡献度计算出各个标识在各个维度的量化值；

基于各个标识在各个维度的量化值生成所述重要度向量矩阵。

优选的，基于所述重要度向量矩阵，生成可视化分析图，包括：

对所述重要度向量矩阵进行标准化和归一化处理；

将标准化和归一化处理后的所述重要度矩阵映射至RGB颜色值0-255之间，使不同颜色值分别对应各个标识对所述文本分类结果影响的重要程度；

生成基于颜色表示的可视化分析图。

优选的，所述基于所述重要度向量矩阵，生成可视化分析图，还包括：

基于每个所述原始文本数据中各个标识在各个维度的重要度以及各个标识在重要度排序中排名前N中出现的频度计算关键度；

利用所述关键度对所述原始文本数据中各个标识的重要度进行排序，生成多个分别对应各个所述原始文本数据的重要度向量矩阵；

将多个所述重要度向量矩阵进行汇总，对各个所述原始文本数据的分布式矩阵和关键词进行统计分析；

基于统计分析结果，获得各个标识在各个所述原始文本数据中各个维度的重要度、文本语言风格和用词习惯。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于CNN文本分类模型的可解释性分析方法，本发明分析基于CNN的文本分类模型的可解释性，也就是通过反向回溯预测结果的来源，确定文本中的标识、标识分布式表示中的各个维度对预测结果有多大的贡献，可以得到定量的贡献值。具有以下优点：

1、通用性较好：可以针对多层的深度CNN文本分类模型、多分类和多标签问题，进行模型可解释性的分析，研究文本分类模型的预测结果产生的原因。

2、精确的量化分析：能够基于文本分类模型的预测结果进行回溯分析，得到文本分类模型中每个层的权重数据，尤其是能够得到模型输入层，即文本分布式表示层的贡献度数据，为展开多维度、多方法分析提供基础，也可以为其他应用研究提供支持。

3、能够开展深度的分析，本发明通过将原始文本数据采用一种由通用表示、特定表示两个部分融合生成的分布式表示方法，能够对文本分类的原因进行全面分析，并从多个维度展示预测结果的关键影响因素，通过向量变换的方式对通用表示和特定表示两个部分进行融合，能够提供充足的文本特征，为可解释性分析提供充分支持。

4、结果呈现直观：本发明为基于CNN文本分类模型的分析提供了有效的可视化方法，能够使研究者全面、直观地了解预测结果产生的原因。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的基于CNN文本分类模型的可解释性分析方法的流程图；

图2附图为本发明提供的文本分类模型的结构及回溯分析过程示意图；

图3附图为本发明提供的分布式矩阵的转换过程示意图；

图4附图为本发明提供的一个原始文本分类的可视化分析示意图；

图5附图为本发明提供的示例文本分类的可视化分析示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例公开了一种基于CNN文本分类模型的可解释性分析方法，包括：

S1、获取原始文本数据，对原始文本数据进行预处理；

S2、构建基于卷积神经网络的文本分类模型，利用文本分类模型将预处理后的原始文本数据转换为分布式矩阵，并基于分布式矩阵进行分类预测，获得文本分类结果；

S3、回溯分析影响文本分类结果的各个标识在各个维度的重要度，生成重要度向量矩阵；

S4、基于重要度向量矩阵，生成可视化分析图。

本发明通过对文本分类结果的回溯分析，能够对文本多分类、多标签分类任务的判别提供预测依据，确定文本中的标识、标识分布式表示中的各个维度对预测结果有多大的贡献，可以得到定量的贡献值；并能够从多个维度可视化展示预测结果的深层次原因和关键因素。

这样首先，可以验证文本分类模型的正确性，通过判断贡献度较高的关键词是不是影响文本分类的重要因素，从而判断文本分类模型模型的分类是否正确。其次，对于较好的文本分类模型，可以基于分析数据，判断哪些关键词会影响文本的分类，从而汇总分析文本分类中关键词排名、词语的使用习惯。再次，可以根据词的分布式表示中各个维度的贡献度分布，进而研究各个维度代表的含义、哪些维度更加重要等问题。最后，还可以以此方法为基础，基于文本分类模型可解释性分析数据，根据实际需求开展模型性能评价、模型问题诊断、业务知识提取、用户语言风格等多种研究。

具体的，S1中原始文本数据需要经过初步的预处理，主要包括分词、去停用词等操作，不同语言的文本特点不同，处理方式可能会有区别，可以将文本分解为具有单独意义标识，如：英语中的单词、汉语中的词。

S2中所构建的文本分类模型的结构如图2所示，包括文本分布式表示层、一个或多个级联的卷积池化层、全局池化层和分类层。其中，上半部分箭头从左至右，表示文本分类模型在训练和预测时的数据正向流动方向。

原始文本数据采用索引数字表示，然后通过文本分布式表示层转化为分布式的表示(分布式表示的维度可以根据文本数据的规模和应用需求来确定，一般在100维到500维)；

继续通过一个或者多个级联的卷积池化层(卷积层采用一维卷积操作)，卷积池化层的具体数量可以根据原始文本数据的长度和分类性能指标来确定，例如：一般长度在50以内的短文本可以采用一个卷积池化层，长度500以内的文本可以采用两个卷积池化层。

卷积池化层之后一般紧接一个全局池化层，可以采用全局池化或者扁平化方法构建。

最后根据原始文本数据的分类数设置分类层，文本类别可以为二分类或多分类，文本可以只属于一个分类，也可以属于多个分类，即单标签或多标签。本发明文本分类模型采用基于样本的有监督学习方式训练即可，并基于已经训练好的文本分类模型，针对一个或者多个文本进行分类预测，根据预测结果进行反向回溯，分析预测结果产生的原因，即影响文本类别的关键词句。

文本分类结果包括原始文本数据所属类别以及原始文本数据所属类别的概率值。

如图3所示，原始文本数据的分布式表示由通用表示、特定表示两个部分融合而成，通用表示部分可以选择One-hot编码、词嵌入(采用Word2Vec、GloVa等方法实现)等，特定表示部分则是特定应用中所关注因素的向量表示。两个部分的融合可以通过向量变换的方式实现，如：向量连接、向量相加、向量矩阵变换等。

S3中，回溯分析影响所述文本分类结果的各个标识在各个维度的重要度，生成重要度向量矩阵，其回溯分析过程如图2下半部分的箭头所示。具体为：

通过已经训练好的文本分类模型对一个原始文本数据进行分类，从文本分类结果反向回溯，也就是基于文本所属类别的概率值，依次经过全局池化层、一个或多个卷积池化层的反向计算，可以计算出各个层的输入向量对于最终文本分类结果的贡献度。

在反向回溯计算贡献度的过程中，需要采用求梯度的方法，即基于文本分类模型每层训练得到的权重，求文本分类结果概率值对每层输入向量的偏导数，从而得到每层输入的分布式矩阵对各个维度的贡献值。

当回溯到文本分布式表示的分布式矩阵中各个维度的贡献时，每个标识的重要性就对应这个分布式矩阵的向量，但为了便于可视化或比较权重，需要将其降维至三维、二维或一维，本实施例中将其降维至一维。图2中，文本最终分类到两个标签，概率分别为0.95、0.82，跟随下半部分箭头进行反向回溯，可以计算出各个层中对这两个概率的贡献值，并基于贡献度计算出各个标识在每个维度的量化值，为后续可视化呈现提供基础数据。

如图4所示，基于回溯分析的基础数据，为文本分类结果的可解释性提供多维度、深层次的可视化分析图，用户可以基于这些可视化分析图进一步开展文本表示方法、文本用词风格等多种分析。

文本表示是指，通过某种形式将文本字符串表示成计算机所能处理的数值向量。一般可以分成两个大类：独热编码、分布式表示。独热编码需要建立一个全局的完备的词典，该词典包含所有文本中的词，因此该方式表示后的形式为一个很大的向量，这种方法未考虑词序信息，未考虑词的上下文信息，无法表示两个词之间是否相近。分布式表示的思路是选择一种方式描述词的上下文，通过某种模型找出词(目标词)与上下文之间的关系，也就是用周围的词表示该词，能表示词语间的相似程度或者词语间的类比关系，相似的词在表达空间中会距离很近。

基于回溯分析结果，得到一个分类文本的分布式表示向量中各个维度对分类结果的重要度，为了可视化呈现效果，对重要度向量矩阵进行标准化和归一化处理，并将重要度映射到RGB颜色值0至255之间，图4中的纵轴对应文本的各个标识(标识采用索引数字表示)，横轴对应标识的分布式表示的各个维度，通过颜色值表示重要性，这样就可以通过图整体了解重要性分布情况。上方给出完整的分类文本内容，左边的彩色条是与纵轴标识对应的文本标识和相关统计指标(如：可以标记该标识重要度累加值、均值、重要性排名等)，文本标识方格的颜色表示该标识对预测结果的重要度(可以选择不同的指标)，右侧给出该文本分类的预测结果(包括所属类和概率值)。

在其他实施例中，本发明可以汇总多个原始文本数据的可解释性分析数据，得到更丰富的可对比信息，从而对文本的分布式表示、关键词等进行统计分析，为分布式表示中各维度的作用、文本语言风格和用词习惯的分析提供支持。

对于多个原始文本数据(即一组原始文本数据)中各表示的重要性排序，需采用关键度来度量，关键度是基于标识在文本内的重要性、标识在Top-N(重要性排序中排名前N个标识)中出现的频度这两个指标共同计算共同计算的。表1中列出了分析中使用的主要统计指标，范围包括了一个文本的分类预测和一组文本的分类预测。本发明的可解释性分析方法中提供了模型预测的详细数据，可以根据实际需要构建所需的各种指标。

表1主要的统计指标

对于一组文本分类的预测数据，也可以采用类似图4的方法进行可视化，例如：选择一个分类关键度很高的标识进行分析，中间大图的纵轴对应该标识出现的文本标号，横轴同样对应该标识分布式表示的各个维度，这样该标识在多个文本中出现时，各维度重要性分布就全面展现出来了。左方的彩色条则可以显示该标识在多个文本中重要度或者其他指标。

下面通过文本分类应用中一个常用的数据集IMDB，简要说明本发明的过程和效果，IMDB数据集包含关于电影评论的英文文本，文本分类为二分类(正面评价或负面评价)。

1、对于数据集中的英文文本，采用一般的工具即可完成预处理工作，这里采用Keras中的预处理IMDB的方法，如表2所示，可以获得预处理之后编码为索引数字的文本。此文本分类为二分类，属于最简单的多分类。

Keras表示一个由Python编写的开源人工神经网络库，可以作为Tensorflow、Microsoft-CNTK和Theano的高阶应用程序接口，进行深度学习模型的设计、调试、评估、应用和可视化。

表2 IMDB示例文本评论的内容及编码

2、按照一般的基于CNN的文本分类模型进行设置，模型结构依次包括：文本分布式表示层(每个标识的分布式表示维度为128)、一维卷积池化层、一维卷积池化层、全局池化层、二分类层。数据集中百分之九十以上的文本长度不超过500，因此采用连个卷积池化层即可达到较高的性能。

3、针对示例的文本，采用已经训练过的文本分类模型进行分类，预测的文本分类结果为该文本属于正面评价分类的概率为0.99，基于此预测结果可以回溯分析，获得文本分类模型预测的相关分析数据，表3给出了该示例文本部分标识的重要度数据，这也是基于文本分布式表示的重要度矩阵计算生成的，其中重要度为0的标识对预测结果几乎没有影响。

表3示例文本分布式表示的重要度矩阵部分数据

4、可视化呈现

基于示例文本的文本分类模型分类分析数据，进行可视化，如图5所示，蓝颜色至红颜色的变化对应重要度0至1(对重要度进行了标准化)。通过该示例文本的可视化图可知，全文分解为131个标识，其中大部分标识对于文本分类的贡献度基本为0或者极低，其中下半部分中除蓝色以外的红黄绿等颜色部分，对于分类结果的贡献度较高。另外，由于图5中一行表示一个标识的多个维度(示例中是128维度)，因此，如果一个标识的贡献度较高，通常这个标识对应的一行数据的值也会较高。但是，由于一个标识的各个维度所代表的含义也不同，因此各个维度的值会有所差别，这也可以作为进一步研究文本分布式表示中各个维度作用的基础。如果进行一组文本分类，甚至多组文本分类，则能够提供更多可对比的数据，根据这些分析数据还可以采用更多种类、更多维度的可视化方法来呈现数据。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于CNN文本分类模型的可解释性分析方法，其特征在于，包括：

获取原始文本数据，对所述原始文本数据进行预处理；

回溯分析影响所述文本分类结果的各个标识在各个维度的重要度，生成重要度向量矩阵，包括：

基于所述文本分类结果，依次经过全局池化层和一个或多个级联的卷积池化层的反向计算，计算出各个层的输入向量对所述文本分类结果的贡献度；在反向回溯计算贡献度的过程中，采用求梯度的方法，即基于文本分类模型每层训练得到的权重，求文本分类结果概率值对每层输入向量的偏导数，从而得到每层输入的分布式矩阵对各个维度的贡献值；

基于所述贡献度计算出各个标识在各个维度的量化值；

基于各个标识在各个维度的量化值生成所述重要度向量矩阵；

基于所述重要度向量矩阵，生成可视化分析图，包括：

2.根据权利要求1所述的一种基于CNN文本分类模型的可解释性分析方法，其特征在于，所述预处理包括：将所述原始文本数据中的各个标识编码为对应的索引数字。

3.根据权利要求2所述的一种基于CNN文本分类模型的可解释性分析方法，其特征在于，所述文本分类模型包括文本分布式表示层、一个或多个级联的卷积池化层、全局池化层和分类层；其中，所述文本分布式表示层用于将所述原始文本数据所对应的各个索引数字进行分布式表示；所述分类层用于输出所述文本分类结果；所述文本分类结果为单标签或多标签。

4.根据权利要求3所述的一种基于CNN文本分类模型的可解释性分析方法，其特征在于，所述文本分布式表示层根据所述原始文本数据的规模和应用需求确定分布式表示的维度；

所述全局池化层采用全局池化或扁平化方法构建；

所述分类层根据所述原始文本数据的分类数量进行设置。

5.根据权利要求1所述的一种基于CNN文本分类模型的可解释性分析方法，其特征在于，所述利用所述文本分类模型将预处理后的所述原始文本数据转换为分布式矩阵，包括:

利用向量变换的方式将所述通用表示部分和所述特定表示部分进行融合，将预处理后的所述原始文本数据转换为分布式表示；所述向量变换包括向量连接、向量相加和向量矩阵变换。

6.根据权利要求1所述的一种基于CNN文本分类模型的可解释性分析方法，其特征在于，所述文本分类结果包括所述原始文本数据所属类别以及所述原始文本数据所属类别的概率值。

7.根据权利要求1所述的一种基于CNN文本分类模型的可解释性分析方法，其特征在于，基于所述重要度向量矩阵，生成可视化分析图，包括：

对所述重要度向量矩阵进行标准化和归一化处理；

生成基于颜色表示的可视化分析图。