CN113128544A - 训练人工智能模型的方法和装置 - Google Patents

训练人工智能模型的方法和装置 Download PDF

Info

Publication number
CN113128544A
CN113128544A CN202010043527.8A CN202010043527A CN113128544A CN 113128544 A CN113128544 A CN 113128544A CN 202010043527 A CN202010043527 A CN 202010043527A CN 113128544 A CN113128544 A CN 113128544A
Authority
CN
China
Prior art keywords
tensor
tensor data
elements
data
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010043527.8A
Other languages
English (en)
Inventor
高玥
张姝
孙俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN202010043527.8A priority Critical patent/CN113128544A/zh
Publication of CN113128544A publication Critical patent/CN113128544A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了训练人工智能模型的方法和装置。该模型用于处理张量数据并且输出指示多种类别之一的分类结果,张量数据包括多个元素,每个元素包括多个特征。该训练方法包括:对张量数据进行分解以获得核心张量;基于核心张量执行第一解释算法,以确定每个元素对于每种类别的贡献分,其中,贡献分表示该元素对于该类别被确定为分类结果的贡献程度;在多个元素中选择贡献分大于阈值的元素;针对所选择的每一个元素,利用第二解释算法来确定该元素中的每个特征对于每种类别的重要性分数;基于重要性分数来选择特征,并且基于所选择的特征来构建张量数据训练样本;利用构建的张量数据训练样本来训练该模型。

Description

训练人工智能模型的方法和装置
技术领域
本发明总体上涉及人工智能模型的训练,更具体地,涉及对于处理张量数据的人工智能模型的解释以及基于解释结果的训练。
背景技术
近年来,人工智能已经迅速地得到广泛应用,其极大地助力了更多数据的产生以及各种算法的改进。然而,研究者们已经发现一个关键问题,即,人工智能模型的不透明性。虽然这些高精度模型通常能够提供有效的预测,但其对于人们而言类似于“黑匣子”,也就是说,它们往往却无法对给出的结果进行解释。因此,针对“黑匣子”的可解释性算法已经成为研究热点。在诸如自动驾驶、医疗和金融决策等“高风险”领域,在利用机器学习模型进行重大决策时,人们往往需要知晓模型所给出结果的依据,从而判断模型的可信赖程度。因此,使“黑匣子”透明化,使其具有可解释性,具有重要的意义。
目前,针对传统的数组数据的机器学习模型可以使用诸如LIME(局部可解析的模型无关的解释方法,Local Interpretable Model-agnostic Explanations)、SHAP(SHapley Additive exPlanation)等解释方法,但是对于张量数据(tensor data)的机器学习模型,尚不存在能够应用的解释方法。
此外,张量数据的信息量往往较大,在利用高阶空间表达时结构复杂,数据分布稀疏。因此在针对张量数据的分类预测中,往往首先通过张量分解方法(例如Tucker和CP分解)对数据进行降维,然后利用模型进行预测。然而,经过张量分解后的数据更不利于模型的透明性和可解释性。
发明内容
鉴于以上问题,本发明提出了对于处理张量数据的人工智能模型的解释方法,以及基于解释结果而训练人工智能模型的方法。该方法不仅可以对“黑匣子”的输出结果进行解释,还可以基于解释结果对训练数据的特征进行筛选,从而改善训练,提高人工智能模型的性能。
根据本发明的一个方面,提出了一种用于训练分类模型的方法,其中,所述分类模型用于处理张量数据,并且输出指示多种类别之一的分类结果,所述张量数据包括多个元素,每个元素包括多个特征。所述方法包括:对所述张量数据进行分解以获得核心张量;基于所述核心张量执行第一解释算法,以确定所述多个元素中的每个元素对于每种类别的贡献分,其中,所述贡献分表示所述元素对于所述类别被确定为分类结果的贡献程度;在所述多个元素中选择贡献分大于阈值的元素;针对所选择的元素中的每一个,利用第二解释算法来确定所述元素中的每个特征对于每种类别的重要性分数;基于重要性分数来选择特征,并且基于所选择的特征来构建张量数据训练样本;以及利用构建的张量数据训练样本来训练所述分类模型。
根据本发明的另一方面,提供了一种用于训练分类模型的装置,其中,所述分类模型用于处理张量数据,并且输出指示多种类别之一的分类结果,所述张量数据包括多个元素,每个元素包括多个特征。所述装置包括:存储有程序的存储器;以及一个或多个处理器,所述处理器通过执行所述程序而执行以下操作:对所述张量数据进行分解以获得核心张量;基于所述核心张量执行第一解释算法,以确定所述多个元素中的每个元素对于每种类别的贡献分,其中,所述贡献分表示所述元素对于所述类别被确定为分类结果的贡献程度;在所述多个元素中选择贡献分大于阈值的元素;针对所选择的元素中的每一个,利用第二解释算法来确定所述元素中的每个特征对于每种类别的重要性分数;基于重要性分数来选择特征,并且基于所选择的特征来构建张量数据训练样本;以及利用构建的张量数据训练样本来训练所述分类模型。
根据本发明的另一方面,提供了一种存储有用于训练分类模型的程序的存储介质,其中,所述分类模型用于处理张量数据,并且输出指示多种类别之一的分类结果,所述张量数据包括多个元素,每个元素包括多个特征,所述程序在被计算机执行时使得所述计算机执行包括以下步骤的方法:对所述张量数据进行分解以获得核心张量;基于所述核心张量执行第一解释算法,以确定所述多个元素中的每个元素对于每种类别的贡献分,其中,所述贡献分表示所述元素对于所述类别被确定为分类结果的贡献程度;在所述多个元素中选择贡献分大于阈值的元素;针对所选择的元素中的每一个,利用第二解释算法来确定所述元素中的每个特征对于每种类别的重要性分数;基于重要性分数来选择特征,并且基于所选择的特征来构建张量数据训练样本;以及利用构建的张量数据训练样本来训练所述分类模型。
附图说明
图1示出了根据本发明的张量数据分类模型的训练方法的总体流程图。
图2示意性地示出了传统的张量数据分类模型的框架。
图3示意性地示出了Deep Tensor分类模型的框架。
图4示意性地示出了根据本发明的解释模型的框架。
图5示意性地示出了张量数据中的各个元素的贡献分的分布。
图6示出了用于确定贡献分的阈值的方法的流程图。
图7示出了用于确定阈值的伪代码。
图8示出了实现本发明的计算机硬件的示例性配置框图。
具体实施方式
图1示出了根据本发明的张量数据分类模型的训练方法的总体流程图。图2和图3分别示出了处理张量数据的两种分类模型,该模型能够输出指示多种类别之一的分类结果。
如图1所示,在步骤S110对张量数据进行分解以获得核心张量。在图2所示的传统张量数据分类模型以及图3所示的Deep Tensor模型中都可以获得核心张量,以下将详细说明。
在步骤S120,对核心张量应用解释算法,例如高阶LIME,以计算张量数据的每个元素对于每种类别的贡献分,该贡献分表示该元素对于相应类别被确定为分类结果的贡献程度。这在下文中也称为“初次解释”。
在步骤S130,在所有元素中选择贡献分大于阈值的一部分元素。下文中将结合图5来详细说明该阈值的设定方法。
在步骤S140,针对所选择的元素,利用解释算法(例如低阶LIME、SHAP等)来分析元素中的每个特征对于分类结果的重要性,这在下文中也称为“二次解释”。
在步骤S150,根据对特征的分析结果来生成用于训练分类模型的训练样本,使得该训练样本仅包括重要性较高的特征。然后在步骤S160利用该训练样本来训练分类模型。以此方式,可以减少要处理的数据量,降低分类模型的计算量。此外,由于在训练样本中去除了对于分类结果影响较小的特征,因此可以改善训练效果,获得更高精度的分类模型。
利用根据本发明的方法,可以了解张量数据的每个元素对于分类结果的贡献程度,并且可以了解元素的每个特征对于分类结果的贡献程度,因此实现了对于分类模型的深层次解释。此外,根据本发明的方法可以依据解释结果来筛选训练数据的特征,从而可以降低计算量并且改善训练效果。以下将对本发明进行详细的描述。
图2示意性地示出了传统的张量数据分类模型的框架,该模型用于k阶张量数据的分类。如图2所示,首先对高阶(k阶)训练数据x进行张量分解,以降低张量数据的大小。通过张量分解可以得到核心张量
Figure BDA0002368582820000041
以及一组要素矩阵(factor matrix)
Figure BDA0002368582820000042
要素矩阵的数量与张量数据的阶数相等。要素矩阵彼此正交,并且可以反映张量数据在每一维度上的主要成分,而核心张量可以反映张量数据的各维度成分之间的关系。
然后,核心张量
Figure BDA0002368582820000043
被输入到传统的分类器100中以进行训练,该分类器100例如可以采用SVM(支持向量机,Support Vector Machine),DNN(深度神经网络,Deep NeuralNetworks),LSTM(长短期记忆,Long short-term memory)等等。通过训练获得优化的要素矩阵
Figure BDA0002368582820000044
然后,利用通过训练获得的要素矩阵
Figure BDA0002368582820000045
对待分类的高阶数据
Figure BDA0002368582820000049
进行特征提取,以获得核心张量
Figure BDA0002368582820000046
核心张量
Figure BDA0002368582820000047
被输入到分类器100中,分类器100基于该核心张量
Figure BDA0002368582820000048
来执行分类。
除了上述传统的分类模型之外,本发明还可适用于富士通株式会社提出的“DeepTensor”分类模型。在由Koji Maruhashi博士发表在2017年9月的《富士通科学与技术杂志》第53卷第5期第26-31页的名为“Deep Tensor:Eliciting New Insights from Graph Datathat Express Relationships between People and Things”的文章中详细描述了DeepTensor技术,该文章通过引用而被并入本文中。
将结合图3简要地介绍Deep Tensor分类模型。如图3所示,首先对高阶张量数据进行分解以获得核心张量和多个要素矩阵,将核心张量输入到卷积神经网络,随后基于分类结果与真实值之间的误差进行逆向传播,以调整目标核心张量。通过迭代地执行这一过程,可以获得经训练的分类模型和目标核心张量。经训练的分类模型可以用于针对张量数据的分类。
无论是传统分类模型还是Deep Tensor模型,都存在着对高阶张量数据进行张量分解以获得核心张量的过程。
如上文所述,本发明可以实现对于分类模型的深层次解释,以下将结合图4来说明根据本发明的解释模型,该解释模型可以基于通过张量分解得到的核心张量来实现对于分类模型的解释。
图4示意性地示出了根据本发明的解释模型的框架。如图4所示,解释模型400包括初次解释单元410、选择单元420以及二次解释单元430。在本发明中,初次解释单元410可以基于核心张量执行高阶LIME算法,以获得张量数据的每个元素对于每种类别的贡献分。
传统的LIME是面向低阶数据(小于三阶的数组以及矩阵)的解释方法,其原理是通过对数据自身的扰动在局部生成扰动数据,从而训练线性模型。但是对于尺寸较大的高阶张量数据而言,对数据进行扰动并不十分容易,因此本发明使用训练数据作为高阶LIME的扰动数据。此外,传统的LIME面向的是向量或矩阵等低阶数据,因此采用余弦距离或欧氏距离的指数核作为邻近性度量核(proximity measure core)。然而,在高阶张量数据的距离计算中需要考虑各个阶之间的关系,因此采用以下数学式(1)所表示的马氏距离的指数核π(p):
Figure BDA0002368582820000051
其中,
Figure BDA0002368582820000052
表示需要解释的样本的核心张量,即,上文所述的通过张量分解而获得的核心张量,
Figure BDA0002368582820000053
表示训练样本的核心张量,∑-1表示
Figure BDA0002368582820000054
Figure BDA0002368582820000055
的协方差矩阵。
然后,可以针对某一特定类别定义逻辑回归模型,如以下数学式(2)所示:
Figure BDA0002368582820000056
对逻辑回归模型gc进行训练,以获得优化的参数
Figure BDA0002368582820000058
和bc。为此,可以定义以下数学式(3)所表示的损失函数:
Figure BDA0002368582820000057
其中,fc是分类模型对于该特定类别的预测概率,
Figure BDA0002368582820000059
是训练样本。
然后,通过以下数学式(4)可以得到张量数据的每个元素对于该特定类别的贡献分CSc
Figure BDA0002368582820000061
具体来说,针对需要解释的k阶的样本数据
Figure BDA0002368582820000062
每个元素可以表示为(xi1,xi2,…,Xik),每个元素对于该特定类别具有贡献分CSc。贡献分CSc为正值表示与该特定类别的正相关,为负值表示与该特定类别的负相关。
以下将以人工智能在金融决策中的应用作为示例来更具体地进行描述。首先假定以下情景:在基于用户的通话数据来预测点对点网络借款(P2P)的逾期风险的应用中,采用富士通株式会社提出的Deep Tensor模型对通话数据进行分类。
表1示意性地示出了作为高阶张量数据的通话数据(第1-7列)以及相应地计算的贡献分CS(第8-9列)。表1中的每一行表示一条通话记录,该条通话记录对应于张量数据的一个元素。此外,表1的第1-7列分别列出了通话记录的“单号”、“申请人”、“联系人”、“通话方式”、“通话时长”、“通话时间”和“电话类型”,其中的每一列对应于张量数据的一个特征。因此,每个元素可以包括多个特征。
通过利用经训练的Deep Tensor模型对该通话数据进行处理,可以获得核心张量。基于获得的核心张量执行高阶LIME,可以计算出表1的第8列和第9列所示的贡献分CS逾期和CS正常。贡献分体现了相应的一条通话记录对于某一类别(“逾期”或“正常”)的贡献程度。分值越大,说明在将该类别确定为分类结果的过程中该通话记录所起的作用越大。此外,分值的正负表示该通话记录所起的作用是正面的还是负面的。
[表1]
Figure BDA0002368582820000063
Figure BDA0002368582820000071
在上文中,初次解释单元410解释了每个元素(例如每条通话记录)对于每个类别的贡献,但是在很多应用中这样的解释并不全面。例如,贡献分CS仅解释了每条通话记录在预测借款是否逾期方面的贡献,但并不能反映出每条通话记录的每个特征(如“联系人”、“通话方式”等)对分类结果产生的影响以及影响的程度。因此,还需要进行二次解释,以分析每个元素中的每个特征对于分类结果的影响。
张量数据的数据量通常很大,因此许多元素对于分类结果的贡献极小,甚至无贡献,这些元素的贡献分接近于“0”。图5示意性地示出了在采用Deep Tensor模型的情况下通过高阶LIME输出的10个张量数据中的各个元素的贡献分的分布。如图5所示,绝大多数元素的贡献分都集中在“0”值附近,贡献分接近于“0”的元素对于分类而言是不重要的信息,因此,在进行二次解释之前需要先排除这些元素。
返回参考图4,选择单元420基于由初次解释单元410确定的每个元素对于某一分类结果(即,某一类别)的贡献分,来筛选元素。具体来说,如果一个元素的贡献分(更具体地,该贡献分的绝对值)在一定阈值以上,则认为这个元素对该分类结果是有贡献的,从而对于二次解释是有意义的,因此选择单元420选择该元素。反之,如果一个元素的贡献分(绝对值)在阈值以下,选择单元420不选择该元素。
为了选出有贡献的元素,关键是确定适当的阈值。以下将结合图6来详细描述确定阈值的方法。
首先,在步骤S610,计算每个元素对于各个类别的贡献分,然后将该元素标记为贡献分最高的类别。此处,各种类别以及类别的数量可以预先设置。以下数学式(5)示出了元素的标记label的定义:
Figure BDA0002368582820000072
在对所有元素进行标记之后,针对每一个类别,基于被标记为该类别的各个元素的贡献分来对各个元素进行排序,例如,可以按照贡献分的降序来对各个元素进行排序,如步骤S620所示。
在步骤S630,针对每一个类别,选择贡献分大于初始阈值的元素。初始阈值可以预先设置。在此步骤中可以针对所有类别选择出相应的元素。
在步骤S640,将所选择的元素以及相应的类别作为带标记的训练数据输入一分类器,并且确定该分类器的AUC(ROC曲线下方面积,Area Under Curve)。需要说明的是,该分类器对应于图7的伪代码中的“h”,其是用于确定阈值的分类器,与上文中描述的分类模型无关。此外,本领域技术人员可以采用任何适当的已知技术来实现来该分类器,本发明对此不作限定。
在步骤S650,判断分类器的当前的AUC是否达到最大值。如果没有(“否”),流程进行至步骤S660,改变阈值。然后流程返回至步骤S630,基于改变后的阈值再次选择元素。随后将所选择的元素及其类别输入分类器,再次确定分类器的AUC。以此方式重复地执行步骤S630-S660。
另一方面,当在步骤S650中确定分类器的AUC达到最大时(“是”),此时的元素产生最优的分类器性能,因此可以将用于选出这些元素的阈值作为在图1的步骤S130中使用的阈值。需要说明的是,本发明不限于基于分类器的AUC来确定最优情况,本领域技术人员根据设计需要易于想到采用分类器的其他性能指标。
图7示出了用于确定阈值的伪代码。
通过以上方法可以得到对分类结果有贡献的元素及其对应的类别标记(下文统称为“有贡献数据”)。二次解释单元430利用针对低阶数据的解释方法对有贡献数据中的每个元素进行解释,以分析元素中的每个特征对于分类结果的重要性(贡献程度)。
作为一个示例,可以利用低阶局部解释方法(例如SHAP、LIME等)对一个元素中的每个特征进行分析。
作为另一个示例,可以利用低阶全局解释方法,针对有贡献数据对每阶的特征进行解释,或提出整体的规则解释等。例如,可以利用能够计算特征重要性的传统方法,对有贡献数据进行特征重要性分析。鉴于存在着多种本领域技术人员已知的特征重要性分析方法,本文中对此将不再赘述。
在完成特征重要性分析之后通常可以获得每个特征对于每种分类结果的重要性分数,作为该特征的重要性的指标。可以在用于训练分类模型的训练样本中去除重要性分数较低的特征。以表1中所示的通话数据为例,如果确定“通话方式”和“通话时间”这两个特征对于分类结果(“逾期”或“正常”)的重要性分数较低,则可以构建不包括这两个特征的训练样本,从而降低分类模型的计算量,改善训练效果。
此外,可以基于预先设置的阈值来去除重要性分数低于该阈值的特征。或者,可以基于各个特征的重要性分数之间的相互比较来去除某些特征。例如,如果某个特征的贡献分远远小于其它特征的贡献分,则可以删除该特征。
需要说明的是,上文中描述了通话数据作为张量数据的一个实例,但是张量数据不限于此,而是还可以包括许多其它应用领域中的数据,例如网络攻击数据、用于药物挖掘的图数据(graph data)等等。作为示例,网络攻击数据可以是一段时间内发生的网络攻击的日志数据,并且可以包括例如“源IP”、“目的地IP”、“源端口”、“目的地端口”等特征。用于药物挖掘的图数据可以表示不同种类原子之间的关系,例如化合物的结构图。
还需要说明的是,虽然在本文中针对Deep Tensor模型阐述了本发明的方法,但本发明同样可以适用于任何面向张量数据的人工智能模型。
在上述实施例中描述的方法可以由软件、硬件或者软件和硬件的组合来实现。包括在软件中的程序可以事先存储在设备的内部或外部所设置的存储介质中。作为一个示例,在执行期间,这些程序被写入随机存取存储器(RAM)并且由处理器(例如CPU)来执行,从而实现在本文中描述的各种处理。
图8示出了根据程序执行本发明的方法的计算机硬件的示例配置框图,该计算机硬件是根据本发明的用于训练人工智能模型的装置的一个示例。
如图8所示,在计算机800中,中央处理单元(CPU)801、只读存储器(ROM)802以及随机存取存储器(RAM)803通过总线804彼此连接。
输入/输出接口805进一步与总线804连接。输入/输出接口805连接有以下组件:以键盘、鼠标、麦克风等形成的输入单元806;以显示器、扬声器等形成的输出单元807;以硬盘、非易失性存储器等形成的存储单元808;以网络接口卡(诸如局域网(LAN)卡、调制解调器等)形成的通信单元809;以及驱动移动介质811的驱动器810,该移动介质811例如是磁盘、光盘、磁光盘或半导体存储器。
在具有上述结构的计算机中,CPU 801将存储在存储单元808中的程序经由输入/输出接口805和总线804加载到RAM 803中,并且执行该程序,以便执行上文中描述的方法。
要由计算机(CPU 801)执行的程序可以被记录在作为封装介质的移动介质811上,该封装介质以例如磁盘(包括软盘)、光盘(包括压缩光盘-只读存储器(CD-ROM))、数字多功能光盘(DVD)等)、磁光盘、或半导体存储器来形成。此外,要由计算机(CPU 801)执行的程序也可以经由诸如局域网、因特网、或数字卫星广播的有线或无线传输介质来提供。
当移动介质811安装在驱动器810中时,可以将程序经由输入/输出接口805安装在存储单元808中。另外,可以经由有线或无线传输介质由通信单元809来接收程序,并且将程序安装在存储单元808中。可替选地,可以将程序预先安装在ROM 802或存储单元808中。
由计算机执行的程序可以是根据本说明书中描述的顺序来执行处理的程序,或者可以是并行地执行处理或当需要时(诸如,当调用时)执行处理的程序。
本文中所描述的单元或装置仅是逻辑意义上的,并不严格对应于物理设备或实体。例如,本文所描述的每个单元的功能可能由多个物理实体来实现,或者,本文所描述的多个单元的功能可能由单个物理实体来实现。此外,在一个实施例中描述的特征、部件、元素、步骤等并不局限于该实施例,而是也可以应用于其它实施例,例如替代其它实施例中的特定特征、部件、元素、步骤等,或者与其相结合。
本发明的范围不限于在本文中描述的具体实施例。本领域普通技术人员应该理解的是,取决于设计要求和其他因素,在不偏离本发明的原理和精神的情况下,可以对本文中的实施例进行各种修改或变化。本发明的范围由所附权利要求及其等同方案来限定。
附记
1.一种用于训练分类模型的方法,其中,所述分类模型用于处理张量数据,并且输出指示多种类别之一的分类结果,所述张量数据包括多个元素,每个元素包括多个特征,所述方法包括:
对所述张量数据进行分解以获得核心张量;
基于所述核心张量执行第一解释算法,以确定所述多个元素中的每个元素对于每种类别的贡献分,其中,所述贡献分表示所述元素对于所述类别被确定为分类结果的贡献程度;
在所述多个元素中选择贡献分大于阈值的元素;
针对所选择的元素中的每一个,利用第二解释算法来确定所述元素中的每个特征对于每种类别的重要性分数;
基于重要性分数来选择特征,并且基于所选择的特征来构建张量数据训练样本;以及
利用构建的张量数据训练样本来训练所述分类模型。
2.根据1所述的方法,其中,所述第一解释算法是高阶的局部可解析的模型无关的解释方法(LIME),所述第二解释算法是低阶的局部解释方法或低阶的全局解释方法。
3.根据2所述的方法,其中,在所述第一解释算法中使用马氏距离的指数核作为邻近性度量核。
4.根据1所述的方法,其中,所述贡献分具有正值和负值,并且所述方法还包括:选择所述贡献分的绝对值大于所述阈值的元素。
5.根据1所述的方法,还包括:通过以下方式来确定所述阈值:
确定每个元素对于各种类别的贡献分,并且将所述元素标记为贡献分最高的类别;
针对每一种类别,基于贡献分,对被标记为所述类别的各个元素进行排序,并且选择贡献分大于初始阈值的元素;
利用所选择的元素以及相应的类别来训练分类器,其中,在训练中基于所述分类器的性能指标来执行迭代处理,以确定所述阈值。
6.根据5所述的方法,其中,在所述迭代处理中,
当所述分类器的性能指标尚未达到最优值时,改变当前阈值,并且基于改变后的阈值再次选择元素;
当所述分类器的性能指标达到最优值时,将当前阈值确定为所述阈值。
7.根据6所述的方法,其中,所述分类器的性能指标是受试者工作特征曲线(ROC)下方面积(AUC)。
8.根据1所述的方法,其中,基于重要性分数来选择特征的步骤还包括:
选择重要性分数高于预定值的特征;或者,
基于各个特征的重要性分数之间的相互比较来选择特征。
9.根据1所述的方法,其中,
所述张量数据是通话数据,并且所述张量数据的一个元素对应于一条通话记录;或者
所述张量数据是网络攻击数据,并且所述张量数据的一个元素对应于一次网络攻击的日志数据;或者
所述张量数据是用于药物挖掘的图数据,并且所述张量数据的一个元素对应于一种化合物。
10.根据1所述的方法,其中,所述分类模型是Deep Tensor分类模型。
11.一种用于训练分类模型的装置,其中,所述分类模型用于处理张量数据,并且输出指示多种类别之一的分类结果,所述张量数据包括多个元素,每个元素包括多个特征,所述装置包括:
存储有程序的存储器;以及
一个或多个处理器,所述处理器通过执行所述程序而执行以下操作:
对所述张量数据进行分解以获得核心张量;
基于所述核心张量执行第一解释算法,以确定所述多个元素中的每个元素对于每种类别的贡献分,其中,所述贡献分表示所述元素对于所述类别被确定为分类结果的贡献程度;
在所述多个元素中选择贡献分大于阈值的元素;
针对所选择的元素中的每一个,利用第二解释算法来确定所述元素中的每个特征对于每种类别的重要性分数;
基于重要性分数来选择特征,并且基于所选择的特征来构建张量数据训练样本;以及
利用构建的张量数据训练样本来训练所述分类模型。
12.一种存储有用于训练分类模型的程序的存储介质,其中,所述分类模型用于处理张量数据,并且输出指示多种类别之一的分类结果,所述张量数据包括多个元素,每个元素包括多个特征,所述程序在被计算机执行时使得所述计算机执行包括以下步骤的方法:
对所述张量数据进行分解以获得核心张量;
基于所述核心张量执行第一解释算法,以确定所述多个元素中的每个元素对于每种类别的贡献分,其中,所述贡献分表示所述元素对于所述类别被确定为分类结果的贡献程度;
在所述多个元素中选择贡献分大于阈值的元素;
针对所选择的元素中的每一个,利用第二解释算法来确定所述元素中的每个特征对于每种类别的重要性分数;
基于重要性分数来选择特征,并且基于所选择的特征来构建张量数据训练样本;以及
利用构建的张量数据训练样本来训练所述分类模型。

Claims (10)

1.一种用于训练分类模型的方法,其中,所述分类模型用于处理张量数据,并且输出指示多种类别之一的分类结果,所述张量数据包括多个元素,每个元素包括多个特征,所述方法包括:
对所述张量数据进行分解以获得核心张量;
基于所述核心张量执行第一解释算法,以确定所述多个元素中的每个元素对于每种类别的贡献分,其中,所述贡献分表示所述元素对于所述类别被确定为分类结果的贡献程度;
在所述多个元素中选择贡献分大于阈值的元素;
针对所选择的元素中的每一个,利用第二解释算法来确定所述元素中的每个特征对于每种类别的重要性分数;
基于重要性分数来选择特征,并且基于所选择的特征来构建张量数据训练样本;以及
利用构建的张量数据训练样本来训练所述分类模型。
2.根据权利要求1所述的方法,其中,所述第一解释算法是高阶的局部可解析的模型无关的解释方法(LIME),所述第二解释算法是低阶的局部解释方法或低阶的全局解释方法。
3.根据权利要求2所述的方法,其中,在所述第一解释算法中使用马氏距离的指数核作为邻近性度量核。
4.根据权利要求1所述的方法,其中,所述贡献分具有正值和负值,并且所述方法还包括:选择所述贡献分的绝对值大于所述阈值的元素。
5.根据权利要求1所述的方法,还包括:通过以下方式来确定所述阈值:
确定每个元素对于各种类别的贡献分,并且将所述元素标记为贡献分最高的类别;
针对每一种类别,基于贡献分,对被标记为所述类别的各个元素进行排序,并且选择贡献分大于初始阈值的元素;
利用所选择的元素以及相应的类别来训练分类器,其中,在训练中基于所述分类器的性能指标来执行迭代处理,以确定所述阈值。
6.根据权利要求5所述的方法,其中,在所述迭代处理中,
当所述分类器的性能指标尚未达到最优值时,改变当前阈值,并且基于改变后的阈值再次选择元素;
当所述分类器的性能指标达到最优值时,将当前阈值确定为所述阈值。
7.根据权利要求6所述的方法,其中,所述分类器的性能指标是受试者工作特征曲线(ROC)下方面积(AUC)。
8.根据权利要求1所述的方法,其中,基于重要性分数来选择特征的步骤还包括:
选择重要性分数高于预定值的特征;或者,
基于各个特征的重要性分数之间的相互比较来选择特征。
9.根据权利要求1所述的方法,其中,
所述张量数据是通话数据,并且所述张量数据的一个元素对应于一条通话记录;或者
所述张量数据是网络攻击数据,并且所述张量数据的一个元素对应于一次网络攻击的日志数据;或者
所述张量数据是用于药物挖掘的图数据,并且所述张量数据的一个元素对应于一种化合物。
10.一种用于训练分类模型的装置,其中,所述分类模型用于处理张量数据,并且输出指示多种类别之一的分类结果,所述张量数据包括多个元素,每个元素包括多个特征,所述装置包括:
存储有程序的存储器;以及
一个或多个处理器,所述处理器通过执行所述程序而执行以下操作:
对所述张量数据进行分解以获得核心张量;
基于所述核心张量执行第一解释算法,以确定所述多个元素中的每个元素对于每种类别的贡献分,其中,所述贡献分表示所述元素对于所述类别被确定为分类结果的贡献程度;
在所述多个元素中选择贡献分大于阈值的元素;
针对所选择的元素中的每一个,利用第二解释算法来确定所述元素中的每个特征对于每种类别的重要性分数;
基于重要性分数来选择特征,并且基于所选择的特征来构建张量数据训练样本;以及
利用构建的张量数据训练样本来训练所述分类模型。
CN202010043527.8A 2020-01-15 2020-01-15 训练人工智能模型的方法和装置 Pending CN113128544A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010043527.8A CN113128544A (zh) 2020-01-15 2020-01-15 训练人工智能模型的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010043527.8A CN113128544A (zh) 2020-01-15 2020-01-15 训练人工智能模型的方法和装置

Publications (1)

Publication Number Publication Date
CN113128544A true CN113128544A (zh) 2021-07-16

Family

ID=76771816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010043527.8A Pending CN113128544A (zh) 2020-01-15 2020-01-15 训练人工智能模型的方法和装置

Country Status (1)

Country Link
CN (1) CN113128544A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113866391A (zh) * 2021-09-29 2021-12-31 天津师范大学 深度学习模型预测因素解释方法及其在土壤含水量预测中的应用

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105184316A (zh) * 2015-08-28 2015-12-23 国网智能电网研究院 一种基于特征权学习的支持向量机电网业务分类方法
CN105308640A (zh) * 2013-01-31 2016-02-03 泽斯特财务公司 用于自动生成高质量不良行为通知的方法和系统
CN106453033A (zh) * 2016-08-31 2017-02-22 电子科技大学 基于邮件内容的多层次邮件分类方法
CN108153899A (zh) * 2018-01-12 2018-06-12 安徽大学 一种智能化文本分类方法
CN109376805A (zh) * 2018-12-21 2019-02-22 四川理工学院 一种基于白酒基酒指纹图谱特征的分类方法
CN109739844A (zh) * 2018-12-26 2019-05-10 西安电子科技大学 基于衰减权重的数据分类方法
CN109815992A (zh) * 2018-12-30 2019-05-28 中国电子科技集团公司信息科学研究院 一种支持向量机并行加速训练方法及系统
CN109919172A (zh) * 2018-12-25 2019-06-21 华中科技大学鄂州工业技术研究院 一种多源异构数据的聚类方法及装置
US20190303716A1 (en) * 2018-03-28 2019-10-03 Entit Software Llc Identification of input features used by machine learning model in providing output score
CN110533114A (zh) * 2019-09-02 2019-12-03 北京师范大学 一种基于正交回归和特征加权的有监督特征选择方法
CN110580290A (zh) * 2019-09-12 2019-12-17 北京小米智能科技有限公司 用于文本分类的训练集的优化方法及装置
CN113032553A (zh) * 2019-12-09 2021-06-25 富士通株式会社 信息处理装置和信息处理方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105308640A (zh) * 2013-01-31 2016-02-03 泽斯特财务公司 用于自动生成高质量不良行为通知的方法和系统
CN105184316A (zh) * 2015-08-28 2015-12-23 国网智能电网研究院 一种基于特征权学习的支持向量机电网业务分类方法
CN106453033A (zh) * 2016-08-31 2017-02-22 电子科技大学 基于邮件内容的多层次邮件分类方法
CN108153899A (zh) * 2018-01-12 2018-06-12 安徽大学 一种智能化文本分类方法
US20190303716A1 (en) * 2018-03-28 2019-10-03 Entit Software Llc Identification of input features used by machine learning model in providing output score
CN109376805A (zh) * 2018-12-21 2019-02-22 四川理工学院 一种基于白酒基酒指纹图谱特征的分类方法
CN109919172A (zh) * 2018-12-25 2019-06-21 华中科技大学鄂州工业技术研究院 一种多源异构数据的聚类方法及装置
CN109739844A (zh) * 2018-12-26 2019-05-10 西安电子科技大学 基于衰减权重的数据分类方法
CN109815992A (zh) * 2018-12-30 2019-05-28 中国电子科技集团公司信息科学研究院 一种支持向量机并行加速训练方法及系统
CN110533114A (zh) * 2019-09-02 2019-12-03 北京师范大学 一种基于正交回归和特征加权的有监督特征选择方法
CN110580290A (zh) * 2019-09-12 2019-12-17 北京小米智能科技有限公司 用于文本分类的训练集的优化方法及装置
CN113032553A (zh) * 2019-12-09 2021-06-25 富士通株式会社 信息处理装置和信息处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王建国;陈肖洁;张文兴;: "核极化的特征选择算法在LSSVM中的应用", 机械设计与制造, no. 07, 8 July 2018 (2018-07-08), pages 27 - 30 *
赵宇;黄思明;陈锐;: "数据分类中的特征选择算法研究", 中国管理科学, no. 06, 15 December 2013 (2013-12-15), pages 40 - 48 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113866391A (zh) * 2021-09-29 2021-12-31 天津师范大学 深度学习模型预测因素解释方法及其在土壤含水量预测中的应用
CN113866391B (zh) * 2021-09-29 2024-03-08 天津师范大学 深度学习模型预测因素解释方法及其在土壤含水量预测中的应用

Similar Documents

Publication Publication Date Title
Middlehurst et al. The temporal dictionary ensemble (TDE) classifier for time series classification
US10832174B1 (en) Distributed hyperparameter tuning system for active machine learning
Wang et al. Novel and efficient randomized algorithms for feature selection
US20190311258A1 (en) Data dependent model initialization
CN116560895B (zh) 用于机械装备的故障诊断方法
Bolón-Canedo et al. Feature selection: From the past to the future
Wankhade et al. Data stream classification: a review
US11574153B2 (en) Identifying organisms for production using unsupervised parameter learning for outlier detection
Maurya et al. Feature selection: Key to enhance node classification with graph neural networks
Xie et al. Imbalanced big data classification based on virtual reality in cloud computing
Dash et al. Distributional negative sampling for knowledge base completion
CN113128544A (zh) 训练人工智能模型的方法和装置
Wang et al. Adaptive supervised learning on data streams in reproducing kernel Hilbert spaces with data sparsity constraint
McLachlan Discriminant analysis
Lee Feature selection for high-dimensional data with rapidminer
Ding et al. Joint dictionary and graph learning for unsupervised feature selection
Yoshikawa et al. Non-linear regression for bag-of-words data via gaussian process latent variable set model
Kazemi et al. FEM-DBSCAN: AN efficient density-based clustering approach
Zhao et al. Estimation of discriminative feature subset using community modularity
CN112884028A (zh) 一种系统资源调整方法、装置及设备
Hu et al. Discrete limited attentional collaborative filtering for fast social recommendation
Albattah et al. Content-based prediction: Big data sampling perspective
CN116720005B (zh) 一种基于自适应噪声的数据协同对比推荐模型的系统
Liu Algorithms for Scalability and Security in Adversarial Environments
CN116708029B (zh) 一种区块链异常节点的检测方法、系统、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination