CN113128544B - 训练人工智能模型的方法和装置 - Google Patents
训练人工智能模型的方法和装置 Download PDFInfo
- Publication number
- CN113128544B CN113128544B CN202010043527.8A CN202010043527A CN113128544B CN 113128544 B CN113128544 B CN 113128544B CN 202010043527 A CN202010043527 A CN 202010043527A CN 113128544 B CN113128544 B CN 113128544B
- Authority
- CN
- China
- Prior art keywords
- tensor
- tensor data
- elements
- data
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000013145 classification model Methods 0.000 claims description 49
- 230000015654 memory Effects 0.000 claims description 6
- 238000012804 iterative process Methods 0.000 claims description 4
- 150000001875 compounds Chemical class 0.000 claims description 3
- 239000003814 drug Substances 0.000 claims description 3
- 229940079593 drug Drugs 0.000 claims description 3
- 238000005065 mining Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 10
- 238000000354 decomposition reaction Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 4
- 235000010724 Wisteria floribunda Nutrition 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 238000007876 drug discovery Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
公开了训练人工智能模型的方法和装置。该模型用于处理张量数据并且输出指示多种类别之一的分类结果,张量数据包括多个元素,每个元素包括多个特征。该训练方法包括:对张量数据进行分解以获得核心张量;基于核心张量执行第一解释算法,以确定每个元素对于每种类别的贡献分,其中,贡献分表示该元素对于该类别被确定为分类结果的贡献程度;在多个元素中选择贡献分大于阈值的元素;针对所选择的每一个元素,利用第二解释算法来确定该元素中的每个特征对于每种类别的重要性分数;基于重要性分数来选择特征,并且基于所选择的特征来构建张量数据训练样本;利用构建的张量数据训练样本来训练该模型。
Description
技术领域
本发明总体上涉及人工智能模型的训练,更具体地,涉及对于处理张量数据的人工智能模型的解释以及基于解释结果的训练。
背景技术
近年来,人工智能已经迅速地得到广泛应用,其极大地助力了更多数据的产生以及各种算法的改进。然而,研究者们已经发现一个关键问题,即,人工智能模型的不透明性。虽然这些高精度模型通常能够提供有效的预测,但其对于人们而言类似于“黑匣子”,也就是说,它们往往却无法对给出的结果进行解释。因此,针对“黑匣子”的可解释性算法已经成为研究热点。在诸如自动驾驶、医疗和金融决策等“高风险”领域,在利用机器学习模型进行重大决策时,人们往往需要知晓模型所给出结果的依据,从而判断模型的可信赖程度。因此,使“黑匣子”透明化,使其具有可解释性,具有重要的意义。
目前,针对传统的数组数据的机器学习模型可以使用诸如LIME(局部可解析的模型无关的解释方法,Local Interpretable Model-agnostic Explanations)、SHAP(SHapley Additive exPlanation)等解释方法,但是对于张量数据(tensor data)的机器学习模型,尚不存在能够应用的解释方法。
此外,张量数据的信息量往往较大,在利用高阶空间表达时结构复杂,数据分布稀疏。因此在针对张量数据的分类预测中,往往首先通过张量分解方法(例如Tucker和CP分解)对数据进行降维,然后利用模型进行预测。然而,经过张量分解后的数据更不利于模型的透明性和可解释性。
发明内容
鉴于以上问题,本发明提出了对于处理张量数据的人工智能模型的解释方法,以及基于解释结果而训练人工智能模型的方法。该方法不仅可以对“黑匣子”的输出结果进行解释,还可以基于解释结果对训练数据的特征进行筛选,从而改善训练,提高人工智能模型的性能。
根据本发明的一个方面,提出了一种用于训练分类模型的方法,其中,所述分类模型用于处理张量数据,并且输出指示多种类别之一的分类结果,所述张量数据包括多个元素,每个元素包括多个特征。所述方法包括:对所述张量数据进行分解以获得核心张量;基于所述核心张量执行第一解释算法,以确定所述多个元素中的每个元素对于每种类别的贡献分,其中,所述贡献分表示所述元素对于所述类别被确定为分类结果的贡献程度;在所述多个元素中选择贡献分大于阈值的元素;针对所选择的元素中的每一个,利用第二解释算法来确定所述元素中的每个特征对于每种类别的重要性分数;基于重要性分数来选择特征,并且基于所选择的特征来构建张量数据训练样本;以及利用构建的张量数据训练样本来训练所述分类模型。
根据本发明的另一方面,提供了一种用于训练分类模型的装置,其中,所述分类模型用于处理张量数据,并且输出指示多种类别之一的分类结果,所述张量数据包括多个元素,每个元素包括多个特征。所述装置包括:存储有程序的存储器;以及一个或多个处理器,所述处理器通过执行所述程序而执行以下操作:对所述张量数据进行分解以获得核心张量;基于所述核心张量执行第一解释算法,以确定所述多个元素中的每个元素对于每种类别的贡献分,其中,所述贡献分表示所述元素对于所述类别被确定为分类结果的贡献程度;在所述多个元素中选择贡献分大于阈值的元素;针对所选择的元素中的每一个,利用第二解释算法来确定所述元素中的每个特征对于每种类别的重要性分数;基于重要性分数来选择特征,并且基于所选择的特征来构建张量数据训练样本;以及利用构建的张量数据训练样本来训练所述分类模型。
根据本发明的另一方面,提供了一种存储有用于训练分类模型的程序的存储介质,其中,所述分类模型用于处理张量数据,并且输出指示多种类别之一的分类结果,所述张量数据包括多个元素,每个元素包括多个特征,所述程序在被计算机执行时使得所述计算机执行包括以下步骤的方法:对所述张量数据进行分解以获得核心张量;基于所述核心张量执行第一解释算法,以确定所述多个元素中的每个元素对于每种类别的贡献分,其中,所述贡献分表示所述元素对于所述类别被确定为分类结果的贡献程度;在所述多个元素中选择贡献分大于阈值的元素;针对所选择的元素中的每一个,利用第二解释算法来确定所述元素中的每个特征对于每种类别的重要性分数;基于重要性分数来选择特征,并且基于所选择的特征来构建张量数据训练样本;以及利用构建的张量数据训练样本来训练所述分类模型。
附图说明
图1示出了根据本发明的张量数据分类模型的训练方法的总体流程图。
图2示意性地示出了传统的张量数据分类模型的框架。
图3示意性地示出了Deep Tensor分类模型的框架。
图4示意性地示出了根据本发明的解释模型的框架。
图5示意性地示出了张量数据中的各个元素的贡献分的分布。
图6示出了用于确定贡献分的阈值的方法的流程图。
图7示出了用于确定阈值的伪代码。
图8示出了实现本发明的计算机硬件的示例性配置框图。
具体实施方式
图1示出了根据本发明的张量数据分类模型的训练方法的总体流程图。图2和图3分别示出了处理张量数据的两种分类模型,该模型能够输出指示多种类别之一的分类结果。
如图1所示,在步骤S110对张量数据进行分解以获得核心张量。在图2所示的传统张量数据分类模型以及图3所示的Deep Tensor模型中都可以获得核心张量,以下将详细说明。
在步骤S120,对核心张量应用解释算法,例如高阶LIME,以计算张量数据的每个元素对于每种类别的贡献分,该贡献分表示该元素对于相应类别被确定为分类结果的贡献程度。这在下文中也称为“初次解释”。
在步骤S130,在所有元素中选择贡献分大于阈值的一部分元素。下文中将结合图5来详细说明该阈值的设定方法。
在步骤S140,针对所选择的元素,利用解释算法(例如低阶LIME、SHAP等)来分析元素中的每个特征对于分类结果的重要性,这在下文中也称为“二次解释”。
在步骤S150,根据对特征的分析结果来生成用于训练分类模型的训练样本,使得该训练样本仅包括重要性较高的特征。然后在步骤S160利用该训练样本来训练分类模型。以此方式,可以减少要处理的数据量,降低分类模型的计算量。此外,由于在训练样本中去除了对于分类结果影响较小的特征,因此可以改善训练效果,获得更高精度的分类模型。
利用根据本发明的方法,可以了解张量数据的每个元素对于分类结果的贡献程度,并且可以了解元素的每个特征对于分类结果的贡献程度,因此实现了对于分类模型的深层次解释。此外,根据本发明的方法可以依据解释结果来筛选训练数据的特征,从而可以降低计算量并且改善训练效果。以下将对本发明进行详细的描述。
图2示意性地示出了传统的张量数据分类模型的框架,该模型用于k阶张量数据的分类。如图2所示,首先对高阶(k阶)训练数据x进行张量分解,以降低张量数据的大小。通过张量分解可以得到核心张量以及一组要素矩阵(factor matrix)/>要素矩阵的数量与张量数据的阶数相等。要素矩阵彼此正交,并且可以反映张量数据在每一维度上的主要成分,而核心张量可以反映张量数据的各维度成分之间的关系。
然后,核心张量被输入到传统的分类器100中以进行训练,该分类器100例如可以采用SVM(支持向量机,Support Vector Machine),DNN(深度神经网络,Deep NeuralNetworks),LSTM(长短期记忆,Long short-term memory)等等。通过训练获得优化的要素矩阵/>
然后,利用通过训练获得的要素矩阵对待分类的高阶数据/>进行特征提取,以获得核心张量/>核心张量/>被输入到分类器100中,分类器100基于该核心张量/>来执行分类。
除了上述传统的分类模型之外,本发明还可适用于富士通株式会社提出的“DeepTensor”分类模型。在由Koji Maruhashi博士发表在2017年9月的《富士通科学与技术杂志》第53卷第5期第26-31页的名为“Deep Tensor:Eliciting New Insights from Graph Datathat Express Relationships between People and Things”的文章中详细描述了DeepTensor技术,该文章通过引用而被并入本文中。
将结合图3简要地介绍Deep Tensor分类模型。如图3所示,首先对高阶张量数据进行分解以获得核心张量和多个要素矩阵,将核心张量输入到卷积神经网络,随后基于分类结果与真实值之间的误差进行逆向传播,以调整目标核心张量。通过迭代地执行这一过程,可以获得经训练的分类模型和目标核心张量。经训练的分类模型可以用于针对张量数据的分类。
无论是传统分类模型还是Deep Tensor模型,都存在着对高阶张量数据进行张量分解以获得核心张量的过程。
如上文所述,本发明可以实现对于分类模型的深层次解释,以下将结合图4来说明根据本发明的解释模型,该解释模型可以基于通过张量分解得到的核心张量来实现对于分类模型的解释。
图4示意性地示出了根据本发明的解释模型的框架。如图4所示,解释模型400包括初次解释单元410、选择单元420以及二次解释单元430。在本发明中,初次解释单元410可以基于核心张量执行高阶LIME算法,以获得张量数据的每个元素对于每种类别的贡献分。
传统的LIME是面向低阶数据(小于三阶的数组以及矩阵)的解释方法,其原理是通过对数据自身的扰动在局部生成扰动数据,从而训练线性模型。但是对于尺寸较大的高阶张量数据而言,对数据进行扰动并不十分容易,因此本发明使用训练数据作为高阶LIME的扰动数据。此外,传统的LIME面向的是向量或矩阵等低阶数据,因此采用余弦距离或欧氏距离的指数核作为邻近性度量核(proximity measure core)。然而,在高阶张量数据的距离计算中需要考虑各个阶之间的关系,因此采用以下数学式(1)所表示的马氏距离的指数核π(p):
其中,表示需要解释的样本的核心张量,即,上文所述的通过张量分解而获得的核心张量,/>表示训练样本的核心张量,∑-1表示/>和/>的协方差矩阵。
然后,可以针对某一特定类别定义逻辑回归模型,如以下数学式(2)所示:
对逻辑回归模型gc进行训练,以获得优化的参数和bc。为此,可以定义以下数学式(3)所表示的损失函数:
其中,fc是分类模型对于该特定类别的预测概率,是训练样本。
然后,通过以下数学式(4)可以得到张量数据的每个元素对于该特定类别的贡献分CSc:
具体来说,针对需要解释的k阶的样本数据每个元素可以表示为(xi1,xi2,…,Xik),每个元素对于该特定类别具有贡献分CSc。贡献分CSc为正值表示与该特定类别的正相关,为负值表示与该特定类别的负相关。
以下将以人工智能在金融决策中的应用作为示例来更具体地进行描述。首先假定以下情景:在基于用户的通话数据来预测点对点网络借款(P2P)的逾期风险的应用中,采用富士通株式会社提出的Deep Tensor模型对通话数据进行分类。
表1示意性地示出了作为高阶张量数据的通话数据(第1-7列)以及相应地计算的贡献分CS(第8-9列)。表1中的每一行表示一条通话记录,该条通话记录对应于张量数据的一个元素。此外,表1的第1-7列分别列出了通话记录的“单号”、“申请人”、“联系人”、“通话方式”、“通话时长”、“通话时间”和“电话类型”,其中的每一列对应于张量数据的一个特征。因此,每个元素可以包括多个特征。
通过利用经训练的Deep Tensor模型对该通话数据进行处理,可以获得核心张量。基于获得的核心张量执行高阶LIME,可以计算出表1的第8列和第9列所示的贡献分CS逾期和CS正常。贡献分体现了相应的一条通话记录对于某一类别(“逾期”或“正常”)的贡献程度。分值越大,说明在将该类别确定为分类结果的过程中该通话记录所起的作用越大。此外,分值的正负表示该通话记录所起的作用是正面的还是负面的。
[表1]
在上文中,初次解释单元410解释了每个元素(例如每条通话记录)对于每个类别的贡献,但是在很多应用中这样的解释并不全面。例如,贡献分CS仅解释了每条通话记录在预测借款是否逾期方面的贡献,但并不能反映出每条通话记录的每个特征(如“联系人”、“通话方式”等)对分类结果产生的影响以及影响的程度。因此,还需要进行二次解释,以分析每个元素中的每个特征对于分类结果的影响。
张量数据的数据量通常很大,因此许多元素对于分类结果的贡献极小,甚至无贡献,这些元素的贡献分接近于“0”。图5示意性地示出了在采用Deep Tensor模型的情况下通过高阶LIME输出的10个张量数据中的各个元素的贡献分的分布。如图5所示,绝大多数元素的贡献分都集中在“0”值附近,贡献分接近于“0”的元素对于分类而言是不重要的信息,因此,在进行二次解释之前需要先排除这些元素。
返回参考图4,选择单元420基于由初次解释单元410确定的每个元素对于某一分类结果(即,某一类别)的贡献分,来筛选元素。具体来说,如果一个元素的贡献分(更具体地,该贡献分的绝对值)在一定阈值以上,则认为这个元素对该分类结果是有贡献的,从而对于二次解释是有意义的,因此选择单元420选择该元素。反之,如果一个元素的贡献分(绝对值)在阈值以下,选择单元420不选择该元素。
为了选出有贡献的元素,关键是确定适当的阈值。以下将结合图6来详细描述确定阈值的方法。
首先,在步骤S610,计算每个元素对于各个类别的贡献分,然后将该元素标记为贡献分最高的类别。此处,各种类别以及类别的数量可以预先设置。以下数学式(5)示出了元素的标记label的定义:
在对所有元素进行标记之后,针对每一个类别,基于被标记为该类别的各个元素的贡献分来对各个元素进行排序,例如,可以按照贡献分的降序来对各个元素进行排序,如步骤S620所示。
在步骤S630,针对每一个类别,选择贡献分大于初始阈值的元素。初始阈值可以预先设置。在此步骤中可以针对所有类别选择出相应的元素。
在步骤S640,将所选择的元素以及相应的类别作为带标记的训练数据输入一分类器,并且确定该分类器的AUC(ROC曲线下方面积,Area Under Curve)。需要说明的是,该分类器对应于图7的伪代码中的“h”,其是用于确定阈值的分类器,与上文中描述的分类模型无关。此外,本领域技术人员可以采用任何适当的已知技术来实现来该分类器,本发明对此不作限定。
在步骤S650,判断分类器的当前的AUC是否达到最大值。如果没有(“否”),流程进行至步骤S660,改变阈值。然后流程返回至步骤S630,基于改变后的阈值再次选择元素。随后将所选择的元素及其类别输入分类器,再次确定分类器的AUC。以此方式重复地执行步骤S630-S660。
另一方面,当在步骤S650中确定分类器的AUC达到最大时(“是”),此时的元素产生最优的分类器性能,因此可以将用于选出这些元素的阈值作为在图1的步骤S130中使用的阈值。需要说明的是,本发明不限于基于分类器的AUC来确定最优情况,本领域技术人员根据设计需要易于想到采用分类器的其他性能指标。
图7示出了用于确定阈值的伪代码。
通过以上方法可以得到对分类结果有贡献的元素及其对应的类别标记(下文统称为“有贡献数据”)。二次解释单元430利用针对低阶数据的解释方法对有贡献数据中的每个元素进行解释,以分析元素中的每个特征对于分类结果的重要性(贡献程度)。
作为一个示例,可以利用低阶局部解释方法(例如SHAP、LIME等)对一个元素中的每个特征进行分析。
作为另一个示例,可以利用低阶全局解释方法,针对有贡献数据对每阶的特征进行解释,或提出整体的规则解释等。例如,可以利用能够计算特征重要性的传统方法,对有贡献数据进行特征重要性分析。鉴于存在着多种本领域技术人员已知的特征重要性分析方法,本文中对此将不再赘述。
在完成特征重要性分析之后通常可以获得每个特征对于每种分类结果的重要性分数,作为该特征的重要性的指标。可以在用于训练分类模型的训练样本中去除重要性分数较低的特征。以表1中所示的通话数据为例,如果确定“通话方式”和“通话时间”这两个特征对于分类结果(“逾期”或“正常”)的重要性分数较低,则可以构建不包括这两个特征的训练样本,从而降低分类模型的计算量,改善训练效果。
此外,可以基于预先设置的阈值来去除重要性分数低于该阈值的特征。或者,可以基于各个特征的重要性分数之间的相互比较来去除某些特征。例如,如果某个特征的贡献分远远小于其它特征的贡献分,则可以删除该特征。
需要说明的是,上文中描述了通话数据作为张量数据的一个实例,但是张量数据不限于此,而是还可以包括许多其它应用领域中的数据,例如网络攻击数据、用于药物挖掘的图数据(graph data)等等。作为示例,网络攻击数据可以是一段时间内发生的网络攻击的日志数据,并且可以包括例如“源IP”、“目的地IP”、“源端口”、“目的地端口”等特征。用于药物挖掘的图数据可以表示不同种类原子之间的关系,例如化合物的结构图。
还需要说明的是,虽然在本文中针对Deep Tensor模型阐述了本发明的方法,但本发明同样可以适用于任何面向张量数据的人工智能模型。
在上述实施例中描述的方法可以由软件、硬件或者软件和硬件的组合来实现。包括在软件中的程序可以事先存储在设备的内部或外部所设置的存储介质中。作为一个示例,在执行期间,这些程序被写入随机存取存储器(RAM)并且由处理器(例如CPU)来执行,从而实现在本文中描述的各种处理。
图8示出了根据程序执行本发明的方法的计算机硬件的示例配置框图,该计算机硬件是根据本发明的用于训练人工智能模型的装置的一个示例。
如图8所示,在计算机800中,中央处理单元(CPU)801、只读存储器(ROM)802以及随机存取存储器(RAM)803通过总线804彼此连接。
输入/输出接口805进一步与总线804连接。输入/输出接口805连接有以下组件:以键盘、鼠标、麦克风等形成的输入单元806;以显示器、扬声器等形成的输出单元807;以硬盘、非易失性存储器等形成的存储单元808;以网络接口卡(诸如局域网(LAN)卡、调制解调器等)形成的通信单元809;以及驱动移动介质811的驱动器810,该移动介质811例如是磁盘、光盘、磁光盘或半导体存储器。
在具有上述结构的计算机中,CPU 801将存储在存储单元808中的程序经由输入/输出接口805和总线804加载到RAM 803中,并且执行该程序,以便执行上文中描述的方法。
要由计算机(CPU 801)执行的程序可以被记录在作为封装介质的移动介质811上,该封装介质以例如磁盘(包括软盘)、光盘(包括压缩光盘-只读存储器(CD-ROM))、数字多功能光盘(DVD)等)、磁光盘、或半导体存储器来形成。此外,要由计算机(CPU 801)执行的程序也可以经由诸如局域网、因特网、或数字卫星广播的有线或无线传输介质来提供。
当移动介质811安装在驱动器810中时,可以将程序经由输入/输出接口805安装在存储单元808中。另外,可以经由有线或无线传输介质由通信单元809来接收程序,并且将程序安装在存储单元808中。可替选地,可以将程序预先安装在ROM 802或存储单元808中。
由计算机执行的程序可以是根据本说明书中描述的顺序来执行处理的程序,或者可以是并行地执行处理或当需要时(诸如,当调用时)执行处理的程序。
本文中所描述的单元或装置仅是逻辑意义上的,并不严格对应于物理设备或实体。例如,本文所描述的每个单元的功能可能由多个物理实体来实现,或者,本文所描述的多个单元的功能可能由单个物理实体来实现。此外,在一个实施例中描述的特征、部件、元素、步骤等并不局限于该实施例,而是也可以应用于其它实施例,例如替代其它实施例中的特定特征、部件、元素、步骤等,或者与其相结合。
本发明的范围不限于在本文中描述的具体实施例。本领域普通技术人员应该理解的是,取决于设计要求和其他因素,在不偏离本发明的原理和精神的情况下,可以对本文中的实施例进行各种修改或变化。本发明的范围由所附权利要求及其等同方案来限定。
附记
1.一种用于训练分类模型的方法,其中,所述分类模型用于处理张量数据,并且输出指示多种类别之一的分类结果,所述张量数据包括多个元素,每个元素包括多个特征,所述方法包括:
对所述张量数据进行分解以获得核心张量;
基于所述核心张量执行第一解释算法,以确定所述多个元素中的每个元素对于每种类别的贡献分,其中,所述贡献分表示所述元素对于所述类别被确定为分类结果的贡献程度;
在所述多个元素中选择贡献分大于阈值的元素;
针对所选择的元素中的每一个,利用第二解释算法来确定所述元素中的每个特征对于每种类别的重要性分数;
基于重要性分数来选择特征,并且基于所选择的特征来构建张量数据训练样本;以及
利用构建的张量数据训练样本来训练所述分类模型。
2.根据1所述的方法,其中,所述第一解释算法是高阶的局部可解析的模型无关的解释方法(LIME),所述第二解释算法是低阶的局部解释方法或低阶的全局解释方法。
3.根据2所述的方法,其中,在所述第一解释算法中使用马氏距离的指数核作为邻近性度量核。
4.根据1所述的方法,其中,所述贡献分具有正值和负值,并且所述方法还包括:选择所述贡献分的绝对值大于所述阈值的元素。
5.根据1所述的方法,还包括:通过以下方式来确定所述阈值:
确定每个元素对于各种类别的贡献分,并且将所述元素标记为贡献分最高的类别;
针对每一种类别,基于贡献分,对被标记为所述类别的各个元素进行排序,并且选择贡献分大于初始阈值的元素;
利用所选择的元素以及相应的类别来训练分类器,其中,在训练中基于所述分类器的性能指标来执行迭代处理,以确定所述阈值。
6.根据5所述的方法,其中,在所述迭代处理中,
当所述分类器的性能指标尚未达到最优值时,改变当前阈值,并且基于改变后的阈值再次选择元素;
当所述分类器的性能指标达到最优值时,将当前阈值确定为所述阈值。
7.根据6所述的方法,其中,所述分类器的性能指标是受试者工作特征曲线(ROC)下方面积(AUC)。
8.根据1所述的方法,其中,基于重要性分数来选择特征的步骤还包括:
选择重要性分数高于预定值的特征;或者,
基于各个特征的重要性分数之间的相互比较来选择特征。
9.根据1所述的方法,其中,
所述张量数据是通话数据,并且所述张量数据的一个元素对应于一条通话记录;或者
所述张量数据是网络攻击数据,并且所述张量数据的一个元素对应于一次网络攻击的日志数据;或者
所述张量数据是用于药物挖掘的图数据,并且所述张量数据的一个元素对应于一种化合物。
10.根据1所述的方法,其中,所述分类模型是Deep Tensor分类模型。
11.一种用于训练分类模型的装置,其中,所述分类模型用于处理张量数据,并且输出指示多种类别之一的分类结果,所述张量数据包括多个元素,每个元素包括多个特征,所述装置包括:
存储有程序的存储器;以及
一个或多个处理器,所述处理器通过执行所述程序而执行以下操作:
对所述张量数据进行分解以获得核心张量;
基于所述核心张量执行第一解释算法,以确定所述多个元素中的每个元素对于每种类别的贡献分,其中,所述贡献分表示所述元素对于所述类别被确定为分类结果的贡献程度;
在所述多个元素中选择贡献分大于阈值的元素;
针对所选择的元素中的每一个,利用第二解释算法来确定所述元素中的每个特征对于每种类别的重要性分数;
基于重要性分数来选择特征,并且基于所选择的特征来构建张量数据训练样本;以及
利用构建的张量数据训练样本来训练所述分类模型。
12.一种存储有用于训练分类模型的程序的存储介质,其中,所述分类模型用于处理张量数据,并且输出指示多种类别之一的分类结果,所述张量数据包括多个元素,每个元素包括多个特征,所述程序在被计算机执行时使得所述计算机执行包括以下步骤的方法:
对所述张量数据进行分解以获得核心张量;
基于所述核心张量执行第一解释算法,以确定所述多个元素中的每个元素对于每种类别的贡献分,其中,所述贡献分表示所述元素对于所述类别被确定为分类结果的贡献程度;
在所述多个元素中选择贡献分大于阈值的元素;
针对所选择的元素中的每一个,利用第二解释算法来确定所述元素中的每个特征对于每种类别的重要性分数;
基于重要性分数来选择特征,并且基于所选择的特征来构建张量数据训练样本;以及
利用构建的张量数据训练样本来训练所述分类模型。
Claims (10)
1.一种用于训练分类模型的方法,其中,所述分类模型用于处理张量数据,并且输出指示多种类别之一的分类结果,所述张量数据包括多个元素,每个元素包括多个特征,所述方法包括:
对所述张量数据进行分解以获得核心张量;
基于所述核心张量执行第一解释算法,以确定所述多个元素中的每个元素对于每种类别的贡献分,其中,所述贡献分表示所述元素对于所述类别被确定为分类结果的贡献程度;
在所述多个元素中选择贡献分大于阈值的元素;
针对所选择的元素中的每一个,利用第二解释算法来确定所述元素中的每个特征对于每种类别的重要性分数;
基于重要性分数来选择特征,并且基于所选择的特征来构建张量数据训练样本;以及
利用构建的张量数据训练样本来训练所述分类模型。
2.根据权利要求1所述的方法,其中,所述第一解释算法是高阶的局部可解析的模型无关的解释方法(LIME),所述第二解释算法是低阶的局部解释方法或低阶的全局解释方法。
3.根据权利要求2所述的方法,其中,在所述第一解释算法中使用马氏距离的指数核作为邻近性度量核。
4.根据权利要求1所述的方法,其中,所述贡献分具有正值和负值,并且所述方法还包括:选择所述贡献分的绝对值大于所述阈值的元素。
5.根据权利要求1所述的方法,还包括:通过以下方式来确定所述阈值:
确定每个元素对于各种类别的贡献分,并且将所述元素标记为贡献分最高的类别;
针对每一种类别,基于贡献分,对被标记为所述类别的各个元素进行排序,并且选择贡献分大于初始阈值的元素;
利用所选择的元素以及相应的类别来训练分类器,其中,在训练中基于所述分类器的性能指标来执行迭代处理,以确定所述阈值。
6.根据权利要求5所述的方法,其中,在所述迭代处理中,
当所述分类器的性能指标尚未达到最优值时,改变当前阈值,并且基于改变后的阈值再次选择元素;
当所述分类器的性能指标达到最优值时,将当前阈值确定为所述阈值。
7.根据权利要求6所述的方法,其中,所述分类器的性能指标是受试者工作特征曲线(ROC)下方面积(AUC)。
8.根据权利要求1所述的方法,其中,基于重要性分数来选择特征的步骤还包括:
选择重要性分数高于预定值的特征;或者,
基于各个特征的重要性分数之间的相互比较来选择特征。
9.根据权利要求1所述的方法,其中,
所述张量数据是通话数据,并且所述张量数据的一个元素对应于一条通话记录;或者
所述张量数据是网络攻击数据,并且所述张量数据的一个元素对应于一次网络攻击的日志数据;或者
所述张量数据是用于药物挖掘的图数据,并且所述张量数据的一个元素对应于一种化合物。
10.一种用于训练分类模型的装置,其中,所述分类模型用于处理张量数据,并且输出指示多种类别之一的分类结果,所述张量数据包括多个元素,每个元素包括多个特征,所述装置包括:
存储有程序的存储器;以及
一个或多个处理器,所述处理器通过执行所述程序而执行以下操作:
对所述张量数据进行分解以获得核心张量;
基于所述核心张量执行第一解释算法,以确定所述多个元素中的每个元素对于每种类别的贡献分,其中,所述贡献分表示所述元素对于所述类别被确定为分类结果的贡献程度;
在所述多个元素中选择贡献分大于阈值的元素;
针对所选择的元素中的每一个,利用第二解释算法来确定所述元素中的每个特征对于每种类别的重要性分数;
基于重要性分数来选择特征,并且基于所选择的特征来构建张量数据训练样本;以及
利用构建的张量数据训练样本来训练所述分类模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010043527.8A CN113128544B (zh) | 2020-01-15 | 2020-01-15 | 训练人工智能模型的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010043527.8A CN113128544B (zh) | 2020-01-15 | 2020-01-15 | 训练人工智能模型的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113128544A CN113128544A (zh) | 2021-07-16 |
CN113128544B true CN113128544B (zh) | 2024-06-18 |
Family
ID=76771816
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010043527.8A Active CN113128544B (zh) | 2020-01-15 | 2020-01-15 | 训练人工智能模型的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113128544B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113866391B (zh) * | 2021-09-29 | 2024-03-08 | 天津师范大学 | 深度学习模型预测因素解释方法及其在土壤含水量预测中的应用 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113032553A (zh) * | 2019-12-09 | 2021-06-25 | 富士通株式会社 | 信息处理装置和信息处理方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105308640A (zh) * | 2013-01-31 | 2016-02-03 | 泽斯特财务公司 | 用于自动生成高质量不良行为通知的方法和系统 |
CN105184316B (zh) * | 2015-08-28 | 2019-05-14 | 国网智能电网研究院 | 一种基于特征权学习的支持向量机电网业务分类方法 |
CN106453033B (zh) * | 2016-08-31 | 2019-03-15 | 电子科技大学 | 基于邮件内容的多层次邮件分类方法 |
CN108153899B (zh) * | 2018-01-12 | 2021-11-02 | 安徽大学 | 一种智能化文本分类方法 |
US20190303716A1 (en) * | 2018-03-28 | 2019-10-03 | Entit Software Llc | Identification of input features used by machine learning model in providing output score |
CN109376805A (zh) * | 2018-12-21 | 2019-02-22 | 四川理工学院 | 一种基于白酒基酒指纹图谱特征的分类方法 |
CN109919172A (zh) * | 2018-12-25 | 2019-06-21 | 华中科技大学鄂州工业技术研究院 | 一种多源异构数据的聚类方法及装置 |
CN109739844B (zh) * | 2018-12-26 | 2023-03-24 | 西安电子科技大学 | 基于衰减权重的数据分类方法 |
CN109815992A (zh) * | 2018-12-30 | 2019-05-28 | 中国电子科技集团公司信息科学研究院 | 一种支持向量机并行加速训练方法及系统 |
CN110533114A (zh) * | 2019-09-02 | 2019-12-03 | 北京师范大学 | 一种基于正交回归和特征加权的有监督特征选择方法 |
CN110580290B (zh) * | 2019-09-12 | 2022-12-13 | 北京小米智能科技有限公司 | 用于文本分类的训练集的优化方法及装置 |
-
2020
- 2020-01-15 CN CN202010043527.8A patent/CN113128544B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113032553A (zh) * | 2019-12-09 | 2021-06-25 | 富士通株式会社 | 信息处理装置和信息处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113128544A (zh) | 2021-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10832174B1 (en) | Distributed hyperparameter tuning system for active machine learning | |
US20190311258A1 (en) | Data dependent model initialization | |
US20120197888A1 (en) | Method and apparatus for selecting clusterings to classify a predetermined data set | |
Wang et al. | Novel and efficient randomized algorithms for feature selection | |
US10956825B1 (en) | Distributable event prediction and machine learning recognition system | |
US11574153B2 (en) | Identifying organisms for production using unsupervised parameter learning for outlier detection | |
CN110147444A (zh) | 神经网络语言模型、文本预测方法、装置及存储介质 | |
CN116560895A (zh) | 用于机械装备的故障诊断方法 | |
CN114154557A (zh) | 癌症组织分类方法、装置、电子设备及存储介质 | |
CN115795065A (zh) | 基于带权哈希码的多媒体数据跨模态检索方法及系统 | |
Deng et al. | Network Intrusion Detection Based on Sparse Autoencoder and IGA‐BP Network | |
US20230281363A1 (en) | Optimal materials and devices design using artificial intelligence | |
Maurya et al. | Feature selection: Key to enhance node classification with graph neural networks | |
CN113128544B (zh) | 训练人工智能模型的方法和装置 | |
CN114463587A (zh) | 一种异常数据检测方法、装置、设备及存储介质 | |
McLachlan | Discriminant analysis | |
Parker et al. | Nonlinear time series classification using bispectrum‐based deep convolutional neural networks | |
Li et al. | Weight‐Selected Attribute Bagging for Credit Scoring | |
Singh et al. | Feature selection using harmony search for script identification from handwritten document images | |
Kazemi et al. | FEM-DBSCAN: AN efficient density-based clustering approach | |
Aparna et al. | Comprehensive study and analysis of partitional data clustering techniques | |
US11599797B2 (en) | Optimization of neural network in equivalent class space | |
Liu et al. | A weight-incorporated similarity-based clustering ensemble method | |
CN116662868A (zh) | 数据分类方法、装置、电子设备及存储介质 | |
Li et al. | Adaptive‐Weighted Multiview Deep Basis Matrix Factorization for Multimedia Data Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |