CN112749235A - 解析分类结果的方法、装置及电子设备 - Google Patents

解析分类结果的方法、装置及电子设备 Download PDF

Info

Publication number
CN112749235A
CN112749235A CN201911056496.3A CN201911056496A CN112749235A CN 112749235 A CN112749235 A CN 112749235A CN 201911056496 A CN201911056496 A CN 201911056496A CN 112749235 A CN112749235 A CN 112749235A
Authority
CN
China
Prior art keywords
sample
category
classification
target sample
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911056496.3A
Other languages
English (en)
Inventor
陈龙
倪煜
杜俭峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Cloud Network Technology Co Ltd
Beijing Kingsoft Cloud Technology Co Ltd
Original Assignee
Beijing Kingsoft Cloud Network Technology Co Ltd
Beijing Kingsoft Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Cloud Network Technology Co Ltd, Beijing Kingsoft Cloud Technology Co Ltd filed Critical Beijing Kingsoft Cloud Network Technology Co Ltd
Priority to CN201911056496.3A priority Critical patent/CN112749235A/zh
Publication of CN112749235A publication Critical patent/CN112749235A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种解析分类结果的方法、装置及电子设备。其中方法包括:获取目标样本经分类模型输出的所属类别;根据区别于所属类别的每一其他类别的历史样本,确定目标样本的对照样本;对于分类模型的每一输入特征,计算目标样本与对照样本在对应输入特征上的距离值;根据对于每一输入特征的距离值,获取目标样本的对应输入特征的特征值在目标样本属于所属类别上的贡献度。

Description

解析分类结果的方法、装置及电子设备
技术领域
本发明涉及人工智能技术领域,更具体地,涉及一种解析分类结果的方法、装置及电子设备。
背景技术
目前,通常利用分类模型对待分类样本进行分类,以得到待分类样本所属的类别的分类结果。
但是,大多数分类模型通常是一个黑盒机制,即大多数分类模型仅仅只能给出待分类样本的分类结果,而无法解析得到该分类结果的原因。虽然,存在少数分类模型(例如以随机森林模型、决策树模型等)能够解析所得到分类结果的原因,但是,一方面,该解析仅是宏观意义上的解析,而宏观意义上的解析对于分类模型在实际应用中意义有限。另一方面,该少数分类模型对应的解析方法仅仅适用于对应的分类模型,而无法移植到其他分类模型中。
由于在实际应用中,尤其是在一些特殊的领域的应用中,具体解析通过分类模型所得到的分类结果的原因是非常重要的。例如在金融风控领域中,通常利用一个分类模型对人物画像进行分类,以将该人物画像分类为可进行贷款类别的人物画像,或者分类为不可进行贷款类别的人物画像。对于不可进行贷款类别的人物画像,解析该人物画像因为其中的哪些特征值导致不可进行贷款是非常重要的。
因此,一种能够具体解析所有分类模型所得到的分类结果的方法亟待被提出。
发明内容
本发明的一个目的是提供一种解析分类结果的新技术方案。
根据本发明的第一方面,提供了一种解析分类结果的方法,包括:
获取目标样本经分类模型输出的所属类别;
根据区别于所述所属类别的每一其他类别的历史样本,确定所述目标样本的对照样本;其中,所述其他类别为通过所述分类模型对对应历史样本分类所输出的区别于所述所属类别的分类结果;
对于所述分类模型的每一输入特征,计算所述目标样本与所述对照样本在对应输入特征上的距离值;
根据对于每一输入特征的所述距离值,获取所述目标样本的对应输入特征的特征值在所述目标样本属于所述所属类别上的贡献度。
可选地,其中,所述计算所述目标样本与所述对照样本在对应输入特征上的距离值,包括:
将所述对照样本的对于所述对应输入特征的特征值替换为所述目标样本的对于所述对应输入特征的特征值,得到第一新样本;
获取通过所述分类模型输出所述对照样本属于所述所属类别的第一分类概率;
获取通过所述分类模型输出所述第一新样本属于所述所属类别的第二分类概率;
根据所述第二分类概率与所述第一分类概率的差值,确定所述目标样本与所述对照样本在所述对应输入特征上的距离值。
可选地,其中,所述计算所述目标样本与所述对照样本在对应输入特征上的距离值,包括:
将所述目标样本的对于所述对应输入特征的特征值替换为所述对照样本对于所述对应输入特征的特征值,得到第二新样本;
获取通过所述分类模型输出所述目标样本属于所述所属类别的第三分类概率;
获取通过所述分类模型输出所述第二新样本属于所述所属类别的第四分类概率;
根据所述第三分类概率与所述第四分类概率的差值,确定所述目标样本与所述对照样本在所述对应输入特征上的距离值。
可选地,其中,所述根据区别于所述所属类别的每一其他类别的历史样本,确定所述目标样本的对照样本,包括:
根据所述每一其他类别的历史样本,确定每一其他类别的中心样本;
获取通过所述分类模型输出所述每一其他类别的中心样本属于所属分类的第五分类概率;
将所有所述第五分类概率中最小分类概率对应的中心样本,作为所述目标样本的对照样本。
可选地,所述根据所述每一其他类别的历史样本,确定每一其他类别的中心样本,包括:
计算所述每一其他类别的历史样本中属于同一所述输入特征的特征值的平均值;
将所述每一其他类别的所有所述输入特征对应的平均值组成的样本,作为所述每一其他类别的中心样本。
可选地,其中,所述方法还包括:
响应于任一设定事件的触发,执行所述获取目标样本经分类模型输出的所属类别的步骤。
可选地,其中,所述方法还包括:
提供用于输入解析样本的分类结果的解析指令的输入入口;
获取通过所述输入入口输入的所述解析指令,将对应样本作为所述目标样本,执行所述获取目标样本经分类模型输出的所属类别的步骤。
可选地,其中,所述方法还包括:
输出所述目标样本对于每一输入特征的特征值的所述贡献度。
可选地,所述输出所述目标样本对于每一输入特征的特征值的所述贡献度,包括:
根据获得的所述贡献度,生成反映所述贡献度与所述目标样本的所述特征值间的对应关系的映射数据表;
展示所述映射数据表。
根据本发明的第二方面,提供了一种解析分类结果的装置,包括:
第一获取模块,用于获取目标样本经分类模型输出的所属类别;
确定模块,用于根据区别于所述所属类别的每一其他类别的历史样本,确定所述目标样本的对照样本;其中,所述其他类别为通过所述分类模型对对应历史样本分类所输出的区别于所述所属类别的分类结果;
计算模块,用于对于所述分类模型的每一输入特征,计算所述目标样本与所述对照样本在对应输入特征上的距离值;
第二获取模块,用于根据对于每一输入特征的所述距离值,获取所述目标样本的对应输入特征的特征值在所述目标样本属于所述所属类别上的贡献度。
根据本发明的第三方面,提供了一种电子设备,其中,包括:
根据第二方面所述的装置;或者,
处理器和存储器,所述存储器用于存储可执行的指令,所述指令用于控制所述处理器执行根据第一方面中任一项所述的方法。
根据本发明的第四方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机指令,当所述存储介质中的计算机指令由处理器执行时,实现如第一方面中任一项所述的方法。
在本发明实施例中,对于分类模型的每一输入特征,通过计算目标样本与对照样本在对应输入特征上的距离值,可以获取到目标样本中的每一输入特征的特征值对于目标样本属于所属类别的贡献度。即本发明实施例提供的解析分类结果的方法,可具体解析分类模型得到的分类结果的原因。同时,本发明实施例提供的解析分类结果的方法并不对分类模型进行限制,因此可适用于任何一种分类模型。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1是显示可用于实现本发明的实施例的电子设备的硬件配置的例子的框图。
图2示出了本发明的实施例的解析分类结果的方法的流程图。
图3示出了本发明的实施例的解析分类结果的装置的框图。
图4示出了本发明的实施例的电子设备的框图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
<硬件配置>
图1是示出可以实现本发明的实施例的电子设备1000的硬件配置的框图。
电子设备1000可以是便携式电脑、台式计算机、手机、平板电脑、服务器等,其中,服务器可以是虚拟机或物理机。如图1所示,电子设备1000可以包括处理器1100、存储器1200、接口装置1300、通信装置1400、显示装置1500、输入装置1600、扬声器1700、麦克风1800等等。其中,处理器1100可以是中央处理器CPU、微处理器MCU等。存储器1200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1300例如包括USB接口、耳机接口等。通信装置1400例如能够进行有线或无线通信,具体地可以包括Wifi通信、蓝牙通信、2G/3G/4G/5G通信等。显示装置1500例如是液晶显示屏、触摸显示屏等。输入装置1600例如可以包括触摸屏、键盘、体感输入等。用户可以通过扬声器1700和麦克风1800输入/输出语音信息。
图1所示的电子设备仅仅是说明性的并且决不意味着对本发明、其应用或使用的任何限制。应用于本发明的实施例中,电子设备1000的所述存储器1200用于存储指令,所述指令用于控制所述处理器1100进行操作以执行本发明实施例提供的任意一项图像处理方法。本领域技术人员应当理解,尽管在图1中对电子设备1000示出了多个装置,但是,本发明可以仅涉及其中的部分装置,例如,电子设备1000可以只涉及处理器1100和存储装置1200。技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作,这是本领域公知,故在此不再详细描述。
<方法实施例>
在本实施例中,提供一种解析分类结果的方法。该方法由电子设备实施。该电子设备可以是具有处理器和存储器的电子产品。例如可以是便携式电脑、台式计算机、笔记本电脑、手机、平板电脑以及服务器等。其中,服务器可以是虚拟机或物理机。在一个例子中,该电子设备可以是图1所示的电子设备1000。
该解析分类结果的方法如图2所示,包括如下S2100-S2400:
S2100、获取目标样本经分类模型输出的所属类别。
本发明中所提及到的分类结果指的是,目标样本经分类模型输出的所属类别。
在本实施例中,上述的目标样本为待解析分类结果的样本。
上述的目标样本可通过,在分类模型的每一输入特征上的特征值来表示。
在一个例子中,上述的目标样本可以为一个人物画像,分类模型的每一输入特征可以分别为身高特征、性别特征、年龄特征等。基于此,该目标样本可以通过身高厘米数、具体性别、具体年龄表示。当然,目标样本还可以为其他类型,例如图片。
另外,上述的分类模型为能够进行分类的任何模型。例如,上述的分类模型可以为随机森林模型、决策树模型、以及梯度提升树等。这也就是说,本发明实施例对于分类模型的具体形式不作限定。
在本实施例中,上述S2100的具体实现为:将目标样本输入至分类模型中,由分类模型输出目标样本对于每一类别的分类概率;将最大分类概率对应的类别作为目标样本的所属类别。
S2200、根据区别于所属类别的每一其他类别的历史样本,确定目标样本的对照样本。
在本实施例中,每一其他类别为通过分类模型对对应历史样本分类所输出的区别于上述S2100中的所属类别的分类结果。这也就是说,上述S2100中的所属类别和每一其他类别组成了分类模型可进行分类的类别。例如,分类模型可对甲类别、乙类别、丙类别进行分类。当执行上述S2100时,获取到目标样本经分类模型输出的所属类别为丙类别,则每一其他类别分别为:甲类别、乙类别。
另外,上述的历史样本可以为训练分类模型时使用的训练样本。对应的,上述的每一其他类别的历史样本指的是,在训练分类模型过程中所使用的属于对应其他类别的训练样本。
上述的历史样本还可以为具有通过分类模型输出的所属类别的样本。对应的,上述每一其他类别的历史样本指的是,具有通过分类模型输出的对应其他类别的样本。例如,将该样本输入至分类模型中,分类模型输出该样本的类别为甲类别,且甲类别与目标样本所属的类别不相同。此时,将甲类别的样本,作为甲类别的历史样本。
在一种实施例中,目标样本的对照样本指的是,可以表征每一其他类别的中心样本中,与目标样本差异最大的中心样本。这里的差异为,每一其他类别的中心样本经分类模型输出的属于目标样本所属类别的分类概率。该概率越小,说明差异越大。或者,这里的差异还可以为,每一其他类别的中心样本经分类模型输出的属于对应其他类别的分类概率。该概率越大,说明差异越大。
其中,上述中心样本可以为:每一其他类别中的所有历史样本中属于同一输入特征的特征值的平均值对应的样本。例如,当分类模型的输入特征分别为特征X、特征Y、特征Z,如果一个其他类别对应的历史样本分别为W1(x1,y1,z1),W2(x2,y2,z2),W3(x3,y3,z3),W4(x4,y4,z4),则该一个其他类别的中心样本为W1((x1+x2+x3+x4)/4,(y1+y2+y3+y1)/4,(z1+z2+z3+z4)/4)。其中,x1、x2、x3、x4分别为对应历史样本在输入特征X上的特征值,y1、y2、y3、y4分别为对应历史样本在的输入特征y的特征值,z1、z2、z3、z4分别为对应历史样本在输入特征z的特征值。基于此,可确定出每一其他类别对应的中心样本。
当然,上述中心样本可以为:每一其他类别中的所有历史样本中属于同一特征的特征值的中值组成的样本等。
需要说明的是,本发明实施例对中心样本的确定方式不做限定,只要能表征对应其他类别的样本都可以作为对应其他类别的中心样本。
基于上述内容可知,在一个实施例中,若上述的差异为,每一其他类别的中心样本经分类模型输出的属于目标样本所属类别的分类概率时,上述S2200可通过如下S2210-S2230实现:
S2210、根据每一其他类别的历史样本,确定每一其他类别的中心样本。
基于上述内容可知,在中心样本为每一其他类别中的所有历史样本中属于同一特征的特征值的平均值组成的样本时,上述S2210的具体实现可以为下述S2211和S2212:
S2211、计算每一其他类别的历史样本中属于同一输入特征的特征值的平均值。
S2212、将每一其他类别的所有输入特征对应的平均值组成的样本,作为每一其他类别的中心样本。
S2220、获取通过分类模型输出每一其他类别的中心样本属于所属分类的第五分类概率。
S2230、将所有第五分类概率中最小分类概率对应的中心样本,作为目标样本的对照样本。
基于上述内容可知,在上述的差异还可以为,每一其他类别的中心样本经分类模型输出的属于对应其他类别的分类概率时,上述S2200的具体实现可以为:根据每一其他类别的历史样本,确定每一其他类别的中心样本;获取通过分类模型输出每一其他类别的中心样本属于对应其他类别的第六分类概率;将所有第六分类概率中最大分类概率对应的中心样本,作为目标样本的对照样本。
在另一种实施例中,目标样本的对照样本还可以指的是,其他类别中与目标样本差异最大的历史样本。这里的差异为,其他类别中的历史样本经分类模型输出的属于目标样本所属类别的分类概率。该分类概率越小,说明差异越大。或者,这里的差异还可以为,其他类别中的历史样本经分类模型输出的属于对应其他类别的分类概率。该分类概率越大,说明差异越大。
在上述差异为,其他类别中的历史样本经分类模型输出的属于目标样本所属类别的分类概率时,上述S2100的具体实现方式可以为:对于每一其他类别,将对应其他类别中的每一历史样本通过分类模型进行输出,将属于目标样本所属类别的最小分类概率对应的历史样本,作为对应其他类别中与目标样本差异最大的历史样本(记为最大差异历史样本)。获取通过分类模型输出每一最大差异历史样本属于目标样本所属类别的第七概率;将所有第七概率中最小的概率对应的最大差异历史样本,作为目标样本的对照样本。
在上述差异为,其他类别中的历史样本经分类模型输出的属于对应其他类别的分类概率时,上述S2100的具体实现方式可以为:对于每一其他类别,将对应其他类别中的每一历史样本通过分类模型进行输出,将属于对应其他类别的最大分类概率对应的历史样本,作为对应其他类别中与目标样本差异最大的历史样本(同样记为最大差异历史样本)。获取通过分类模型输出的每一最大差异历史样本属于对应其他类别的第八概率;将所有第八概率中最大的概率对应的最大差异历史样本,作为目标样本的对照样本。
S2300、对于分类模型的每一输入特征,计算目标样本与对照样本在对应输入特征上的距离值。
在本实施例中,可通过下述两种方式起来实现上述的S2300中的计算目标样本与对照样本在对应输入特征上的距离值。其中第一种方式包括下述的S2310-SS2313:
S2310、将对照样本的对于对应输入特征的特征值替换为目标样本的对于对应输入特征的特征值,得到第一新样本。
S2311、获取通过分类模型输出对照样本属于所属类别的第一分类概率。
S2312、获取通过分类模型输出第一新样本属于所属类别的第二分类概率。
S2313、根据第二分类概率与第一分类概率的差值,确定目标样本与对照样本在对应输入特征上的距离值。
在一个例子中,当对照样本为W1((x1+x2+x3+x4)/4,(y1+y2+y3+y1)/4,(z1+z2+z3+z4)/4)时,目标样本为W(x5,y5,z5),且对应的输入特征为X时,则基于上述S2310得到的第一新样本为W1’(x5,(y1+y2+y3+y1)/4,(z1+z2+z3+z4)/4)。进一步的,将W1’(x5,(y1+y2+y3+y1)/4,(z1+z2+z3+z4)/4)输入至分类模型中,得到该样本属于目标样本的所属类别的第二分类概率P2。同时,将W1((x1+x2+x3+x4)/4,(y1+y2+y3+y1)/4,(z1+z2+z3+z4)/4)输入至分类模型中,得到对照样本属于目标样本所属类别的第一分类概率P1。然后计算P2与P1的差值。最后将该差值作为目标样本与对照样本在特征X上的距离值。当该差值的绝对值越大,则该距离值越大。
需要说明的是,由于对照样本为,每一其他类别的中心样本中与目标样本差异最大的中心样本,或者,其他类别中与目标样本差异最大的历史样本。这样就是说,经分类模型输出对照样本后,对照样本属于目标样本所属类别的第一分类概率P1接近为0。此时,获取通过分类模型输出第一新样本属于所属类别的第二分类概率,可以得到对应输入特征的特征值以及对照样本中除该对应输入特征外的其他输入特征的特征值,对于所属类别的贡献度。进一步的,求取第二分类概率与第一分类概率的差值,即上述S2300中的距离值,可以排除对照样本中除该对应输入特征外的其他输入特征的特征值对于所属类别的贡献。即可以得到对应输入特征值在属于所属类别上的贡献。
其中,第二种方式包括如下的S2320-S2323:
S2320、将目标样本的对于对应输入特征的特征值替换为对照样本对于对应输入特征的特征值,得到第二新样本。
S2322、获取通过分类模型输出所述目标样本属于所属类别的第三分类概率。
S2322、获取通过分类模型输出第二新样本属于所属类别的第四分类概率。
S2323、根据第三分类概率与第四分类概率的差值,确定目标样本与对照样本在所述对应输入特征上的距离值。
在一个例子中,当对照样本为W1((x1+x2+x3+x4)/4,(y1+y2+y3+y1)/4,(z1+z2+z3+z4)/4)时,目标样本为W(x5,y5,z5),且对应的输入特征为X时,则基于上述S2310得到的第二新样本为W”((x1+x2+x3+x4)/4,y5,z5)。进一步的,将W”((x1+x2+x3+x4)/4,y5,z5)输入至分类模型中,得到该样本属于目标样本的所属类别的第四分类概率P4,同时,将目标样本W(x5,y5,z5)输入至分类模型中,得到该样本属于目标样本所属类别的第三分类概率P3。然后计算P3与P4的差值。最后将该差值作为目标样本与对照样本在特征X上的距离值。当该差值的绝对值越大,则该距离值越大。
需要说明的是,由于对照样本为,每一其他类别的中心样本中与目标样本差异最大的中心样本,或者,其他类别中与目标样本差异最大的历史样本。这也就是说,对照样本中的对应输入特征对于所属类别的贡献可以忽略不计。此时,获取通过分类模型输出第二新样本属于所属类别的第四分类概率,可以排除目标样本中的对应输入特征对于所属类别的贡献。进一步的,求取第三分类概率的差值,可以得到目标样本中所有输入特征对于所属类别的贡献。更近一步的,利用第三概率与第四概率的差值,即上述S2300中的距离值,可以得到对应输入特征值在属于所属类别上的贡献。
S2400、根据对于每一输入特征的距离值,获取目标样本的对应输入特征的特征值在目标样本属于所属类别上的贡献度。
基于上述的内容可知,上述的距离值可以反映出,对应输入特征值在属于所属类别上的贡献。因此,在一种实施例中,可将每一输入特征的距离值直接作为目标样本的对应输入特征的特征值在目标样本属于所属类别上的贡献度。
在另一种实施例中,该贡献度通过与距离值相映射的其他值表示。
在本发明实施例中,对于分类模型的每一输入特征,通过计算目标样本与对照样本在对应输入特征上的距离值,可以获取到目标样本中的每一输入特征的特征值对于目标样本属于所属类别的贡献度。即本发明实施例提供的解析分类结果的方法,可具体解析分类模型得到的分类结果的原因。同时,本发明实施例提供的解析分类结果的方法并不对分类模型进行限制,因此可适用于任何一种分类模型。
基于本发明实施例,当本发明的实施例应用到金融风控领域中时,对于一个人物画像,执行本发明实施例的方法,可以得到该人物画像对应于分类模型的每一输入特征值,对导致该人物画像经分类模型输出的不可进行贷款的人物画像的贡献度。基于此,可以通过改变对应输入特征值,来使得对应的人物画像经分类模型输出可进行贷款的人物画像。
在一种实施例中,为了操作人员能够直观的得到上述的贡献度,在上述任一实施例的基础上,本发明实施例提供的解析分类结果的方法还包括如下S2500:
输出目标样本对于每一输入特征的特征值的贡献度。
进一步的,由于映射数据表的形式可使得操作人员快速且清楚的获知上述的贡献度,因此,在上述任一实施例的基础上,本发明实施例提供的解析分类结果的方法还包括如下S2610和S2620:
S2610、根据获得的贡献度,生成反映贡献度与目标样本的特征值间的对应关系的映射数据表。
S2620、展示映射数据表。
在一个例子中,以目标样本为W(x5,y5,z5)为例,上述的映射数据表可如下述表1所示:
输入特征 贡献度
x5 a
y5 b
z5 c
表1
其中,a、b、c分别为对应输入特征的贡献度。需要说明的是,本发明实施例映射数据表的具体表现形式不做限定。
在一个实施例中,本发明实施例提供的解析分类结果的方法还包括如下S3100:
响应于任一设定事件的触发,执行获取目标样本经分类模型输出的所属类别的步骤。
在一个例子中,上述的任一设定事件可以为,在电子设备可执行本发明提供的解析分类结果的方法的页面内,点击显示“开始”的图标,或点击显示“运行”图标的事件。基于该例子,操作人员可在电子设备可执行本发明提供的解析分类结果的方法的页面内,将目标样本输入至分类模型的数据入口,然后点击显示“开始”的图标。此时,电子设备才可执行上述的S2100。
在该实施例中,只有在操作人员执行设定事件时,即只有在电子设备响应到该设定事件的触发时,才执行获取目标样本经分类模型输出的所属类别的步骤。这样可避免电子设备执行不必要的运算。
在一个实施例中,本发明实施例提供的解析分类结果的方法还包括如下S4100和S4200:
S4100、提供用于输入解析样本的分类结果的解析指令的输入入口。
在该实施例中,上述的解析指令中包括待解析分类结果的样本,即上述S4100中涉及到的样本。
S4200、获取通过所述输入入口输入的解析指令,将对应样本作为目标样本,执行获取目标样本经分类模型输出的所属类别的步骤。
在该例子中,输入入口可以是输入框、下拉列表等。操作人员可通过该输入框或下拉列表,输入解析指令。
本实施例提供了人机交互接口,以支持操作人员根据当前的实际需要选择所需要的样本,这样可实现定制化设计。
另外,本发明实施例还可以提供用于输入操作人员所需的分类模型的输入入口,这也就是说,本发明实施例提供的解析分类结果的方法,可以对不同操作人员所需的不同分类模型对应的目标样本进行解析。即提高了本发明实施例提供的解析分类结果的方法的兼容性。
<解析分类结果的装置>
本实施例还提供了一种解析分类结果的装置5000,如图3所示,该装置包括:第一获取模块5100、确定模块5200、计算模块5300以及第二获取模块5400。其中:
第一获取模块5100,用于获取目标样本经分类模型输出的所属类别;
确定模块5200,用于根据区别于所述所属类别的每一其他类别的历史样本,确定所述目标样本的对照样本;其中,每一其他类别与所述所属类别组成所述分类模型可进行分类的类别;
计算模块5300,用于对于所述分类模型的每一输入特征,计算所述目标样本与所述对照样本在对应输入特征上的距离值;
第二获取模块5400,用于根据对于每一输入特征的所述距离值,获取所述目标样本的对应输入特征的特征值在所述目标样本属于所述所属类别上的贡献度。
在一种实施例中,计算模块5300具体用于:
将所述对照样本的对于所述对应输入特征的特征值替换为所述目标样本的对于所述对应输入特征的特征值,得到第一新样本;
获取通过所述分类模型输出所述对照样本属于所述所属类别的第一分类概率;
获取通过所述分类模型输出所述第一新样本属于所述所属类别的第二分类概率;
根据所述第二分类概率与所述第一分类概率的差值,确定所述目标样本与所述对照样本在所述对应输入特征上的距离值。
在一种实施例中,计算模块5300具体用于:
将所述目标样本的对于所述对应输入特征的特征值替换为所述对照样本对于所述对应输入特征的特征值,得到第二新样本;
获取通过所述分类模型输出所述目标样本属于所述所属类别的第三分类概率;
获取通过所述分类模型输出所述第二新样本属于所述所属类别的第四分类概率;
根据所述第三分类概率与所述第四分类概率的差值,确定所述目标样本与所述对照样本在所述对应输入特征上的距离值。
在一种实施例中,确定模块5200具体用于:
根据所述每一其他类别的历史样本,确定每一其他类别的中心样本;
获取通过所述分类模型输出所述每一其他类别的中心样本属于所属分类的第五分类概率;
将所有所述第五分类概率中最小分类概率对应的中心样本,作为所述目标样本的对照样本。
在一种实施例中,确定模块5200具体用于:
计算所述每一其他类别的历史样本中属于同一所述输入特征的特征值的平均值;
将所述每一其他类别的所有所述输入特征对应的平均值组成的样本,作为所述每一其他类别的中心样本。
在一种实施例中,解析分类结果的装置5000还包括:第一执行模块。
该第一执行模块用于:
响应于任一设定事件的触发,执行所述获取目标样本经分类模型输出的所属类别的步骤。
在一种实施例中,解析分类结果的装置5000还包括:第二执行模块。
该第二执行模块用于:
提供用于输入解析样本的分类结果的解析指令的输入入口;
获取通过所述输入入口输入的所述解析指令,将对应样本作为所述目标样本,执行所述获取目标样本经分类模型输出的所属类别的步骤。
在一种实施例中,解析分类结果的装置5000还包括:输出模块。该输出模块用于:
输出所述目标样本对于每一输入特征的特征值的所述贡献度。
在一种实施例中,该输出模块具体用于:
根据获得的所述贡献度,生成反映所述贡献度与所述目标样本的所述特征值间的对应关系的映射数据表;
展示所述映射数据表。
本领域技术人员应当明白,可以通过各种方式来实现解析分类结果的装置5000。例如,可以通过指令配置处理器来实现解析分类结果的装置5000。例如,可以将指令存储在ROM中,并且当启动设备时,将指令从ROM读取到可编程器件中来实现解析分类结果的装置5000。例如,可以将解析分类结果的装置5000固化到专用器件(例如ASIC)中。可以将解析分类结果的装置5000分成相互独立的单元,或者可以将它们合并在一起实现。解析分类结果的装置5000可以通过上述各种实现方式中的一种来实现,或者可以通过上述各种实现方式中的两种或更多种方式的组合来实现。
在本实施例中,解析分类结果的装置5000可以具有多种实现形式,例如,解析分类结果的装置5000可以是任何的提供网络访问服务的软件产品或者应用程序中运行的功能模块,或者是这些软件产品或者应用程序的外设嵌入件、插件、补丁件等,还可以是这些软件产品或者应用程序本身。
<电子设备>
在本实施例中,还提供一种电子设备6000,在一方面,该电子设备6000可以包括前述的解析分类结果的装置5000。
在另一方面,如图4所示,可以包括存储器6100和处理器6200,该存储器6100用于存储可执行的指令;该指令用于控制处理器7200执行前述的解析分类结果的方法。
在本实施例中,该电子设备6000可以是便携式电脑、台式计算机、笔记本电脑、手机、平板电脑以及服务器等等任意具有存储器6100以及处理器6200的电子产品。其中,服务器可以是虚拟机或物理机。
在本实施例中,电子设备6000还可以包括其他的硬件装置,例如,如图1所示的电子设备1000。
<计算机可读存储介质>
在本实施例中,还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序在被处理器执行时实现如本发明任意实施例的解析分类结果的方法。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims (10)

1.一种解析分类结果的方法,其特征在于,包括:
获取目标样本经分类模型输出的所属类别;
根据区别于所述所属类别的每一其他类别的历史样本,确定所述目标样本的对照样本;其中,所述其他类别为通过所述分类模型对对应历史样本分类所输出的区别于所述所属类别的分类结果;
对于所述分类模型的每一输入特征,计算所述目标样本与所述对照样本在对应输入特征上的距离值;
根据对于每一输入特征的所述距离值,获取所述目标样本的对应输入特征的特征值在所述目标样本属于所述所属类别上的贡献度。
2.根据权利了要求1所述的方法,其特征在于,其中,所述计算所述目标样本与所述对照样本在对应输入特征上的距离值,包括:
将所述对照样本的对于所述对应输入特征的特征值替换为所述目标样本的对于所述对应输入特征的特征值,得到第一新样本;
获取通过所述分类模型输出所述对照样本属于所述所属类别的第一分类概率;
获取通过所述分类模型输出所述第一新样本属于所述所属类别的第二分类概率;
根据所述第二分类概率与所述第一分类概率的差值,确定所述目标样本与所述对照样本在所述对应输入特征上的距离值。
3.根据权利要求1所述的方法,其特征在于,其中,所述计算所述目标样本与所述对照样本在对应输入特征上的距离值,包括:
将所述目标样本的对于所述对应输入特征的特征值替换为所述对照样本对于所述对应输入特征的特征值,得到第二新样本;
获取通过所述分类模型输出所述目标样本属于所述所属类别的第三分类概率;
获取通过所述分类模型输出所述第二新样本属于所述所属类别的第四分类概率;
根据所述第三分类概率与所述第四分类概率的差值,确定所述目标样本与所述对照样本在所述对应输入特征上的距离值。
4.根据权利要求1所述的方法,其特征在于,其中,所述根据区别于所述所属类别的每一其他类别的历史样本,确定所述目标样本的对照样本,包括:
根据所述每一其他类别的历史样本,确定每一其他类别的中心样本;
获取通过所述分类模型输出所述每一其他类别的中心样本属于所属分类的第五分类概率;
将所有所述第五分类概率中最小分类概率对应的中心样本,作为所述目标样本的对照样本。
5.根据权利要求4所述的方法,其特征在于,所述根据所述每一其他类别的历史样本,确定每一其他类别的中心样本,包括:
计算所述每一其他类别的历史样本中属于同一所述输入特征的特征值的平均值;
将所述每一其他类别的所有所述输入特征对应的平均值组成的样本,作为所述每一其他类别的中心样本。
6.根据权利要求1所述的方法,其特征在于,其中,所述方法还包括:
输出所述目标样本对于每一输入特征的特征值的所述贡献度。
7.根据权利要求6所述的方法,其特征在于,其中,所述输出所述目标样本对于每一输入特征的特征值的所述贡献度,包括:
根据获得的所述贡献度,生成反映所述贡献度与所述目标样本的所述特征值间的对应关系的映射数据表;
展示所述映射数据表。
8.一种解析分类结果的装置,其特征在于,包括:
第一获取模块,用于获取目标样本经分类模型输出的所属类别;
确定模块,用于根据区别于所述所属类别的每一其他类别的历史样本,确定所述目标样本的对照样本;其中,所述其他类别为通过所述分类模型对对应历史样本分类所输出的区别于所述所属类别的分类结果;
计算模块,用于对于所述分类模型的每一输入特征,计算所述目标样本与所述对照样本在对应输入特征上的距离值;
第二获取模块,用于根据对于每一输入特征的所述距离值,获取所述目标样本的对应输入特征的特征值在所述目标样本属于所述所属类别上的贡献度。
9.一种电子设备,其特征在于,包括:
根据权利要求8所述的装置;或者,
处理器和存储器,所述存储器用于存储可执行的指令,所述指令用于控制所述处理器执行根据权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机指令,当所述存储介质中的计算机指令由处理器执行时,实现如权利要求1-7任一项所述的方法。
CN201911056496.3A 2019-10-31 2019-10-31 解析分类结果的方法、装置及电子设备 Pending CN112749235A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911056496.3A CN112749235A (zh) 2019-10-31 2019-10-31 解析分类结果的方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911056496.3A CN112749235A (zh) 2019-10-31 2019-10-31 解析分类结果的方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN112749235A true CN112749235A (zh) 2021-05-04

Family

ID=75645421

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911056496.3A Pending CN112749235A (zh) 2019-10-31 2019-10-31 解析分类结果的方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112749235A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116884554A (zh) * 2023-09-06 2023-10-13 济宁蜗牛软件科技有限公司 一种电子病历分类管理方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103309984A (zh) * 2013-06-17 2013-09-18 腾讯科技(深圳)有限公司 数据处理的方法和装置
CN108665277A (zh) * 2017-03-27 2018-10-16 阿里巴巴集团控股有限公司 一种信息处理方法及装置
US20190087685A1 (en) * 2017-09-20 2019-03-21 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for recommending sample data
CN109615020A (zh) * 2018-12-25 2019-04-12 深圳前海微众银行股份有限公司 基于机器学习模型的特征分析方法、装置、设备及介质
US20190138509A1 (en) * 2017-11-06 2019-05-09 Thomson Reuters Global Resources Unlimited Comapny Systems and methods for enhanced mapping and classification of data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103309984A (zh) * 2013-06-17 2013-09-18 腾讯科技(深圳)有限公司 数据处理的方法和装置
CN108665277A (zh) * 2017-03-27 2018-10-16 阿里巴巴集团控股有限公司 一种信息处理方法及装置
US20190087685A1 (en) * 2017-09-20 2019-03-21 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for recommending sample data
US20190138509A1 (en) * 2017-11-06 2019-05-09 Thomson Reuters Global Resources Unlimited Comapny Systems and methods for enhanced mapping and classification of data
CN109615020A (zh) * 2018-12-25 2019-04-12 深圳前海微众银行股份有限公司 基于机器学习模型的特征分析方法、装置、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIE HUANG ET AL: "An Improved KNN Based on Class Contribution and Feature Weighting", 《2018 10TH INTERNATIONAL CONFERENCE ON MEASURING TECHNOLOGY AND MECHATRONICS AUTOMATION》, 16 April 2018 (2018-04-16), pages 313 - 316 *
马建文 等: "贝叶斯网络及其在遥感数据处理中的应用潜力", 《2004环境遥感学术年会》, 7 August 2006 (2006-08-07), pages 73 - 85 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116884554A (zh) * 2023-09-06 2023-10-13 济宁蜗牛软件科技有限公司 一种电子病历分类管理方法及系统
CN116884554B (zh) * 2023-09-06 2023-11-24 济宁蜗牛软件科技有限公司 一种电子病历分类管理方法及系统

Similar Documents

Publication Publication Date Title
AU2017200426A1 (en) Automatic customization of a software application
EP4012564A1 (en) Data processing method, data processing device, and storage medium
CN102859937A (zh) 终端服务视图工具箱
CN114154461A (zh) 一种文本数据的处理方法、装置及系统
CN110990445A (zh) 一种数据处理方法、装置、设备和介质
US9105036B2 (en) Visualization of user sentiment for product features
CN111506775B (zh) 标签处理方法、装置、电子设备及可读存储介质
CN109710811B (zh) 用户画像的检测方法、设备及应用系统
CN112749235A (zh) 解析分类结果的方法、装置及电子设备
CN113626017A (zh) 异构程序的分析方法、装置、计算机设备和存储介质
CN110442499B (zh) 测试、提高页面响应性能的方法和装置、终端设备
CN108984391B (zh) 应用程序的分析方法、装置及电子设备
CN109684207B (zh) 操作序列封装的方法、装置、电子设备及存储介质
US8381186B2 (en) Software training application using automated discovery of user interface controls
CN111443905B (zh) 业务数据的处理方法、装置、系统及电子设备
CN111191795B (zh) 一种训练机器学习模型的方法、装置及系统
US20220237268A1 (en) Information processing method, information processing device, and program
CN113989562A (zh) 模型训练、图像分类方法和装置
CN113448635A (zh) 头戴显示设备的配置方法、装置及头戴显示设备
CN113703638A (zh) 数据管理页面处理方法、装置、电子设备及存储介质
CN112905424A (zh) 监控软件定制生成方法、系统、设备及存储介质
CN112783796A (zh) 单节点的测试方法、装置、计算机设备及可读存储介质
CN110764681A (zh) 应用界面的显示方法、设备、客户端装置及电子设备
US10831261B2 (en) Cognitive display interface for augmenting display device content within a restricted access space based on user input
CN111752424B (zh) 一种图表保存的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination