CN111597423B

CN111597423B - 一种文本分类模型可解释性方法的性能评价方法及装置

Info

Publication number: CN111597423B
Application number: CN202010439318.5A
Authority: CN
Inventors: 朱晓冬; 沈椿壮; 刘元宁; 董立岩; 郭书君
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2021-03-19
Anticipated expiration: 2040-05-22
Also published as: CN111597423A

Abstract

本发明公开了一种文本分类模型可解释性方法的性能评价方法及装置，其方法为：第一步、采集分类标签的描述性词表；第二步、通过可解释性方法对模型决策所依赖的显著性特征进行提取；第三步、计算可解释性方法所提取显著性特征的覆盖率，用以评估方法性能，评价装置包括有采集模块、存储模块、识别模块和计算模块，其中采集模块分别与存储模块和识别模块相连接，识别模块与计算模块相连接，有益效果：为不同可解释性方法的效果和性能提供了一种评价方法和标准。能够有效的对比不同可解释性方法的优劣提供量化指标，进而对可解释性方法进行性能上的改进提供效果上的参考。

Description

一种文本分类模型可解释性方法的性能评价方法及装置

技术领域

本发明涉及一种性能评价方法及装置，特别涉及一种文本分类模型可解释性方法的性能评价方法及装置。

背景技术

目前，随着深度学习在人工智能领域的不断应用，一些经典的自然语言处理问题已经被深度学习很好的解决，传统的自然语言处理方法在一定程度上已经被深度学习技术取代。然而，深度学习模型，作为一种黑盒模型，采用端到端的训练方法。使用者通常只需要设计好模型的结构，将有标签数据输入到模型中进行有监督的训练，在测试阶段将数据输入模型，模型返回一个结果。在此过程中，人们往往无法理解深度学习模型的决策流程和依据。因此无法真正的信任模型。

文本分类问题一直是自然语言处理领域最基础最常见的问题。随着深度学习在文本分类问题中的应用，许许多多的研究人员和从业者都发觉到打破深度学习模型“黑盒子”，探究其做出选择判断的原因十分重要。尤其是在一些安全敏感的任务中，深度学习模型通常作为一种黑盒模型，采用端到端的训练方法。在决策时，给模型输入样本，模型会返回一个决策结果。这种方式下，人们无法得知模型决策的依据，更无法验证决策的可靠性，这就会给任务带来严重的威胁。因此，深度学习模型的可解释性及可解释性方法成为了该领域的一大研究热点。

虽然模型可解释性问题一直出现在各大学术会议和讨论中，但是可解释性的研究是十分困难的。学术界目前缺乏对模型可解释性的明确定义，因此也没有特定的模型解释方法。通常情况下，人们通过获取模型对样本标记的显著性特征来理解模型的决策依据，基于此提出的方法也层出不穷。然而，目前缺少一种具有实际意义的性能评价方法，来判断一个可解释性方法的优劣，更无法对不同的可解释性方法进行对比。这一问题对可解释性方法的研究造成了巨大的困难。

发明内容

本发明的目的是为了解决目前缺少一种具有实际意义的性能评价方法，来判断一个可解释性方法的优劣，更无法对不同的可解释性方法进行对比的问题而提供的一种文本分类模型可解释性方法的性能评价方法及装置。

本发明提供的文本分类模型可解释性方法的性能评价方法，其方法如下所述：

步骤一、采集分类标签的描述性词表：

描述性词表是通过爬虫方式，爬取百科网站上对文本分类模型分类的样本标签的定义性解释文本并进行分词；其中百科网站上以样本标签为关键字检索所得页面的第一自然段，通过去掉停用词、计算tf-idf值的文本处理方式提取文本中关键词，组成该标签对应的词表；

步骤二、提取待评价的可解释性方法所计算出的显著性特征。提取出的词，判断有多少是在词表中出现的，记这种词的数量为w_a；

显著性特征提取方法为：通过softmax操作将可解释性方法计算的显著性得分归一化，通过对比实验、统计方法，选择合适的阈值，将归一化后的得分高于阈值的单词作为可解释性方法所提取的显著性特征，显著性特征：是指待分类文本中，可以对模型的决策起到正向作用的词；

步骤三、对于每条样本数据，计算所属类别的描述性词表包含词的数量，记包含词的数量为w_t；

步骤四、通过下述公式计算单个样本覆盖率：

即计算样本中在词表中出现的词，有多少能被显著性特征提取方法提取到；

步骤五、计算数据集中所有样本覆盖率的平均值，以评价显著性特征提取方法的性能，可解释性方法的性能评价指标由平均覆盖率求得。

本发明提供的文本分类模型可解释性方法的性能评价装置包括有采集模块、存储模块、识别模块和计算模块，其中采集模块分别与存储模块和识别模块相连接，识别模块与计算模块相连接；

采集模块：用于采集文本分类模型所分类的样本标签的描述性词表，描述性词表，是通过爬虫方式，爬取百科网站上对文本分类模型分类的样本标签的定义性解释文本；通过分词、去掉停用词、计算tf-idf值的文本处理方式提取文本中关键词，组成该标签对应的词表；

存储模块：用于存储采集过的样本标签及对应的描述性词表；

每次使用该装置进行可解释性方法性能评估时，将所涉及的标签及其词表进行存储，以便未来处理相同标签时省略采集步骤。

识别模块：用于识别待分类样本中，有哪些词出现在描述性词表中，有哪些词被可解释性方法判别为显著性特征；

计算模块：用于计算平均覆盖率，所述覆盖率由下述公式求得：

即计算样本中在词表中出现的词，有多少能被显著性特征提取方法提取到。其中，w_a为上述“步骤二”中的利用可解释性方法对样本进行显著性特征提取且在词表中出现的提取词的数量，w_t为上述“步骤三”中的每条样本数据所属类别的描述性词表包含词的数量。

本发明的有益效果：

本发明提供的文本分类模型可解释性方法的性能评价方法及装置在模型可解释性方法研究中，为不同可解释性方法的效果和性能提供了一种评价方法和标准。能够有效的对比不同可解释性方法的优劣提供量化指标，进而对可解释性方法进行性能上的改进提供效果上的参考。

附图说明

图1为本发明所述可解释性方法评价方法流程示意图。

图2为本发明所述可解释性方法评价方法通过可解释性方法提取显著性特征词的示例示意图。

图3为本发明所述可解释性方法性能评价装置结构框图。

上图中的标注如下：

1、采集模块 2、存储模块 3、识别模块 4、计算模块。

具体实施方式

请参阅图1至图3所示：

本申请提供的文本分类模型可解释性方法的性能评价方法，其方法如下所述：

第一步、采集分类标签的描述性词表：

所述描述性词表是通过爬虫方式，爬取百科网站上对文本分类模型分类的样本标签的定义性解释文本(百科网站上以样本标签为关键字检索所得页面的第一自然段)并进行分词；通过去掉停用词、计算tf-idf值等文本处理方式提取文本中关键词，组成该标签对应的词表。

本实施例中，所选择的百科网站为百度百科。

待分类样本可从公开数据集路透社新闻数据集获得。样本标签为“企业并购”，则所得描述性词表为：兼并、收购、并购、企业、企业法人、有偿、经济、法人、资本运作、经营、合并、收购、股权。

第二步、使用显著性特征提取方法，对可解释性方法所计算的模型决策所依赖的显著性特征进行提取：

显著性特征提取方法为，通过softmax操作将可解释性方法计算的显著性得分归一化，通过对比实验、统计方法，选择合适的阈值。将归一化后的得分高于阈值的单词作为可解释性方法所提取的显著性特征。

本实施例中，基于深度学习的文本分类模型可以为Text-CNN模型，其可解释性方法可以采用特征反向传播的方法。

本实施例中，所选择的合适的阈值可以为0.5。即如果显著性得分高于0.5，则认为该词为显著性特征。

显著性特征，是指待分类文本中，可以对模型的决策起到正向作用的词。

如图2所示，使用互联网电影资料库电影评论数据集时，可解释性方法提取了影评样本中表示积极和消极评价显著性程度高的词的集合。

第三步、计算可解释性方法所提取显著性特征的覆盖率，用以评估方法性能。

所述显著性特征覆盖率按以下步骤求得：

步骤一、对于每条样本数据，计算所属类别的描述性词表包含词的数量，记包含的词的数量为w_t。

步骤二、使用第二步所述显著性特征提取方法对样本进行显著性特征提取，提取出的词，判断有多少是在词表中出现的，记这种词的数量为w_a

步骤三、通过下述公式计算单个样本覆盖率：

即计算样本中在词表中出现的词，有多少能被显著性特征提取方法提取到。

步骤四、计算数据集中所有样本覆盖率的平均值，以评价显著性特征提取方法的性能。

根据所述可解释性方法的性能评价指标由平均覆盖率求得。

下面以路透社新闻数据集作为指定数据集为例，对上述进行解释说明。

步骤1、通过爬虫技术，爬取百科网站上以数据集样本标签为关键词检索得到也没得第一段文本。

路透社财经新闻数据集样本标签如下表所示：

路透社财经新闻数据集共有46种标签，即获得46段描述性文本。

步骤2、对所得文本进行分词、去停用词，通过计算tf-idf值等关键词抽取方法抽取关键词，对每一个标签生成一种描述性词表。

步骤3、使用待评价的模型可解释性方法，对模型决策进行解释，提取解释性方法提出的显著性词

步骤4、计算解释模型所使用的分类样本所包含的词中，在样本标签由步骤2所得描述性词表中出现过的词的数量。

步骤5、计算步骤3中所的显著性词中，出现在步骤2所得描述性词表中词的数量。

步骤6、由步骤5所得数量除以步骤4所得数量，计算可解释性方法所提取显著性特征覆盖率。

本发明提供的文本分类模型可解释性方法性能评价装置包括有采集模块1、存储模块2、识别模块3和计算模块4，其中采集模块1分别与存储模块2和识别模块3相连接，识别模块3与计算模块4相连接；

采集模块1：用于采集文本分类模型所分类的样本标签的描述性词表，描述性词表，是通过爬虫方式，爬取百科网站上对文本分类模型分类的样本标签的定义性解释文本；通过分词、去掉停用词、计算tf-idf值的文本处理方式提取文本中关键词，组成该标签对应的词表；

存储模块2：用于存储采集过的样本标签及对应的描述性词表；

识别模块3：用于识别待分类样本中，有哪些词出现在描述性词表中，有哪些词被可解释性方法判别为显著性特征；

计算模块4：用于计算平均覆盖率，所述覆盖率由下述公式求得：

Claims

1.一种文本分类模型可解释性方法的性能评价方法，其特征在于：其方法如下所述：

步骤一、采集分类标签的描述性词表：

步骤二、提取待评价的可解释性方法所计算出的显著性特征，提取出的词，判断有多少是在词表中出现的，记这种词的数量为w_a；

步骤四、通过下述公式计算单个样本覆盖率：

2.一种文本分类模型可解释性方法性能评价装置，其特征在于：包括有采集模块、存储模块、识别模块和计算模块，其中采集模块分别与存储模块和识别模块相连接，识别模块与计算模块相连接；

即计算样本中在词表中出现的词，有多少能被显著性特征提取方法提取到，其中，w_a为权利要求1中“步骤二”的利用可解释性方法对样本进行显著性特征提取且在词表中出现的提取词的数量，w_t为权利要求1中“步骤三”的每条样本数据所属类别的描述性词表包含词的数量。