CN112308099A - 样本特征重要性的确定方法、分类模型的训练方法及装置 - Google Patents

样本特征重要性的确定方法、分类模型的训练方法及装置 Download PDF

Info

Publication number
CN112308099A
CN112308099A CN201910689456.6A CN201910689456A CN112308099A CN 112308099 A CN112308099 A CN 112308099A CN 201910689456 A CN201910689456 A CN 201910689456A CN 112308099 A CN112308099 A CN 112308099A
Authority
CN
China
Prior art keywords
sample
feature set
importance
feature
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910689456.6A
Other languages
English (en)
Other versions
CN112308099B (zh
Inventor
彭江军
安明洋
周智昊
李时坦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910689456.6A priority Critical patent/CN112308099B/zh
Publication of CN112308099A publication Critical patent/CN112308099A/zh
Application granted granted Critical
Publication of CN112308099B publication Critical patent/CN112308099B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种样本特征重要性的确定方法、分类模型的训练方法及装置。其中,所述样本特征重要性的确定方法包括:获取样本中的至少一个特征,作为特征集;获取所述样本的多个样本类别;获取所述特征集在每个样本类别中的概率分布;根据所述概率分布,计算所述特征集对所述多个样本类别的区分度;根据所述区分度,确定所述特征集的重要性。本发明实施例能够准确确定机器学习中样本特征的重要性,提高分类准确率。

Description

样本特征重要性的确定方法、分类模型的训练方法及装置
技术领域
本发明涉及计算机技术领域,具体涉及一种样本特征重要性的确定方法、分类模型的训练方法及装置。
背景技术
样本特征的重要性包含特征的相关性以及特征对于分类任务的区分性。特征相关性在一定程度上可以表示特征的重要性,如一个特征和因变量越相关,则表示这个特征对于这个因变量越重要。
现有技术中,通过度量特征的相关性来确定特征的重要性,其中特征相关性的度量可以分为三大类:单变量滤波方法,如皮尔逊相关系数、卡方、欧氏距离、t检验等;多变量滤波方法,如基于相关性的特征选择(CFS,Correlation-based Feature Selection)、最小冗余最大相关性(MRMR)、马尔科夫覆盖过滤器(MBF,Markov Blanket Filter)、快速基于相关性的特征选择(FCBF,Fast Correlation-Based Feature Selection)、relief-F算法等;确定性搜索算法,如序列化前向选择(SFS,Sequential Forward Selection)、序列化后向消除(SBE,Sequential Backward Elimination)、束搜索(beam search)等。
但是,基于滤波的方法并不能准确度量特征分布的差异。如皮尔逊相关系数相关性假设的是特征和因变量之间存在很强的线性关系,对于非线性关系作用不大;而欧式距离度量特征之间的相关性又忽略了特征分布特性。
基于特征和因变量的相关性得到的相关性度量只能反应特征对于因变量的表征能力,但反应不了该特征对于区分因变量不同类别的区分度。另外,特征之间往往不独立,基于单滤波得到的单个特征的相关性不能直接加和得到所选择子集特征的重要性的度量,从而导致无法准确确定特征的重要性。
发明内容
本发明提供一种样本特征重要性的确定方法、分类模型的训练方法及装置,能够准确确定样本特征的重要性,提高分类准确率。
第一方面,本发明提供一种样本特征重要性的确定方法,所述方法包括:
获取样本中的至少一个特征,作为特征集;
获取所述样本的多个样本类别;
获取所述特征集在每个样本类别中的概率分布;
根据所述概率分布,计算所述特征集对所述多个样本类别的区分度;
根据所述区分度,确定所述特征集的重要性。
在本发明一些实施例中,所述获取所述特征集在每个样本类别中的概率分布,具体包括:
分别以所述多个样本类别中的每个样本类别作为目标样本类别,获取所述目标样本类别对应的目标样本;
统计所述特征集在所述目标样本中的变量取值和取值个数;
根据所述变量取值和取值个数,获取所述特征集在所述目标样本类别中的概率分布。
在本发明一些实施例中,所述根据所述概率分布,计算所述特征集对所述多个样本类别的区分度,具体包括:
根据所述概率分布,计算所述特征集在所述多个样本类别之间的JS散度,作为所述特征集对所述多个样本类别的区分度。
在本发明一些实施例中,所述根据所述概率分布,计算所述特征集在所述多个样本类别之间的JS散度,具体包括:
从所述多个样本类别中任意选取两个样本类别;
根据所述特征集分别在所述两个样本类别中的概率分布,计算所述特征集在所述两个样本类别之间的JS散度。
在本发明一些实施例中,所述根据所述特征集分别在所述两个样本类别中的概率分布,计算所述特征集在所述两个样本类别之间的JS散度,具体包括:
根据所述特征集分别在所述两个样本类别中的概率分布,计算所述特征集在所述两个样本类别之间的KL散度;
根据所述KL散度,计算所述特征集在所述两个样本类别之间的JS散度。
在本发明一些实施例中,所述根据所述区分度,确定所述特征集的重要性,具体包括:
将所述区分度与预设阈值进行对比;
若所述区分度大于预设阈值,则确定所述特征集的重要性高;
若所述区分度小于预设阈值,则确定所述特征集的重要性低。
第二方面,本发明提供一种应用程序的分类模型的训练方法,所述方法包括:
根据特征集的重要性,判断所述特征集是否为训练特征;所述特征集的重要性是根据上述样本特征重要性的确定方法获得的;
若是,则根据所述训练特征,对预先构建的分类模型进行训练。
在本发明一些实施例中,所述根据特征集的重要性,判断所述特征集是否为训练特征,具体包括:
若确定所述特征集的重要性高,则判定所述特征集为训练特征;
若确定所述特征集的重要性低,则判定所述特征集不为训练特征。
第三方面,本发明提供一种样本特征重要性的确定装置,所述装置包括:
特征集获取模块,用于获取样本中的至少一个特征,作为特征集;
样本类别获取模块,用于获取所述样本的多个样本类别;
概率分布获取模块,用于获取所述特征集在每个样本类别中的概率分布;
区分度计算模块,用于根据所述概率分布,计算所述特征集对所述多个样本类别的区分度;以及,
重要性确定模块,用于根据所述区分度,确定所述特征集的重要性。
第四方面,本发明提供一种分类模型的训练装置,所述装置包括:
判断模块,用于根据特征集的重要性,判断所述特征集是否为训练特征;所述特征集的重要性是根据上述样本特征重要性的确定方法获得的;以及,
训练模块,用于在所述特征集为训练特征时,根据所述训练特征,对预先构建的分类模型进行训练。
本发明实施例中通过将样本中的至少一个特征作为特征集,获取特征集在每个样本类别中的概率分布,进而计算特征集对多个样本类别的区分度,以根据特征集对多个样本类别的区分度来确定特征集的重要性,从而准确确定特征集的重要性,为分类模型的训练提供训练特征,提高分类模型的分类准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的样本特征重要性的确定方法的场景示意图;
图2是本发明实施例提供的样本特征重要性的确定方法的一个实施例流程示意图;
图3是本发明实施例提供的样本特征重要性的确定方法的另一个实施例流程示意图;
图4是本发明实施例中预估点击率在被点击类别和未被点击类别中的概率分布图;
图5是本发明实施例中提供的样本特征重要性的确定装置的一个实施例结构示意图;
图6是本发明实施例提供的分类模型的训练方法的场景示意图;
图7是本发明实施例提供的分类模型的训练方法的一个实施例流程示意图;
图8是本发明实施例中提供的分类模型的训练装置的一个实施例结构示意图;
图9是本发明实施例提供的网络设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在以下的说明中,本发明的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有说明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本发明原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
本文所使用的术语“模块”或“单元”可看做为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看做为在该运算系统上的实施对象。而本文所述的装置及方法优选的以软件的方式进行实施,当然也可在硬件上进行实施,均在本发明保护范围之内。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
目前广泛使用的机器学习任务是对数据进行分类。而分类过程中分类模型的训练关键在于训练特征的选取,训练特征选取的越好,训练出的分类模型的分类准确率越高。而训练特征基于样本特征的重要性来选取,因此样本特征重要性的确定是影响机器学习任务的一个极为关键的预处理过程,而分类模型的训练是影响分类模型的分类准确率的关键。
本发明实施例提供的方案涉及人工智能的机器学习等技术,具体通过如下实施例进行详细说明:
本发明实施例提供一种样本特征重要性的确定方法及装置。
请参阅图1,图1为本发明实施例所提供的样本特征重要性的确定方法的场景示意图,样本特征重要性的确定装置可以集成在网络设备中,如终端或服务器等设备中。本发明实施例中网络设备主要用于获取样本中的至少一个特征,作为特征集;获取所述样本的多个样本类别;获取所述特征集在每个样本类别中的概率分布;根据所述概率分布,计算所述特征集对所述多个样本类别的区分度;根据所述区分度,确定所述特征集的重要性。
网络设备为服务器时,该服务器可以是独立的服务器,也可以是服务器组成的服务器网络或服务器集群,例如,本发明实施例中所描述的服务器,其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云服务器。其中,云服务器由基于云计算(Cloud Computing)的大量计算机或网络服务器构成。本发明的实施例中,服务器与终端之间可通过任何通信方式实现通信,包括但不限于,基于第三代合作伙伴计划(3rd Generation Partnership Project,3GPP)、长期演进(Long Term Evolution,LTE)、全球互通微波访问(Worldwide Interoperability for Microwave Access,WiMAX)的移动通信,或基于TCP/IP协议族(TCP/IP Protocol Suite,TCP/IP)、用户数据报协议(User Datagram Protocol,UDP)协议的计算机网络通信等。
网络设备为终端时,终端可以理解为客户端设备,客户端设备既包括接收和发射硬件的设备,即具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种客户端设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备。具体的终端具体可以是台式终端或移动终端,终端具体可以手机、平板电脑、笔记本电脑等中的一种。
下面结合具体实施例进行详细说明。
在本实施例中,将从样本特征重要性的确定装置的角度进行描述,该样本特征重要性的确定装置具体可以集成在网络设备如终端或服务器等设备中。
本发明提供一种样本特征重要性的确定方法,该样本特征重要性的确定方法包括:获取样本中的至少一个特征,作为特征集;获取所述样本的多个样本类别;获取所述特征集在每个样本类别中的概率分布;根据所述概率分布,计算所述特征集对所述多个样本类别的区分度;根据所述区分度,确定所述特征集的重要性。
请参阅图2,为本发明实施例中本发明实施例中样本特征重要性的确定方法的一个实施例流程示意图,该样本特征重要性的确定方法包括:
201、获取样本中的至少一个特征,作为特征集。
本发明实施例中,样本是指训练分类模型的样本,样本中包括与分类模型的分类结果相关的各种特征。特征是指样本中的变量,获取样本中的至少一个特征即获取样本中的至少一个变量,变量可以分为连续变量和类别变量,则特征可以分为连续特征和离散特征。
特征集包括至少一个特征,即本实施例可以从样本中获取一个特征,以确定单个特征的重要性。另外,由于特征之间具有高相关性,本实施例也可以从样本中获取多个特征,以确定多个特征相结合的重要性。
例如,分类模型用于检测药品对癌细胞的药性,则特征是可能影响药品对癌细胞药性的数值特征,如药品中的原子个数、药品中的作用建(氢键、羟基等)个数、药品与癌细胞之间共有的原子个数等。本实施例可以单独确定药品中的原子个数的重要性、作用建的重要性等,也可以确定结合药品中的原子个数与作用建个数两个特征的重要性。
202、获取所述样本的多个样本类别。
本发明实施例中,大量样本可以根据分类模型所需的分类类别划分为多个样本类别,通过采用不同样本类别的样本对分类模型进行训练,以获得分类模型所需的不同分类类别。分类类别为因变量,分类类别会随特征的变动而变动,即样本类别也会随特征的变动而变动。
分类模型所要解决的问题不同,样本类别的划分方式不同。若分类模型所要解决的问题为分类问题,则可直接将分类问题所需的分类类别作为样本类别;若分类模型所要解决的问题为回归问题,则需按照区间对回归的数值进行划分,根据划分的数值确定分类类别,进而将划分的分类类别作为样本类别。
例如,分类模型所要解决的问题是预估视频信息流是否被点击,则分类模型所需的分类类别包括被点击类别和未被点击类别,划分的样本类别包括被点击类别和未被点击类别。分类模型所要解决的问题是检测药品对癌细胞的药性,而药性一般为一个1-10之间的数值,则可以先将药性划分为10个类别,即一个数值为一个分类类别,划分的样本类别即包括10个类别,也可以将药性划分为2个类别,0-4划分为一个类别(低药性),5-9划分为另一个类别(高药性),划分的样本类别即包括高药性和低药性两个类别。
203、获取所述特征集在每个样本类别中的概率分布。
本发明实施例中,大量样本划分为多个样本类别,即每个样本类别对应有多个样本。而由于特征为变量,因此每个样本类别中的同一特征可以具有多个取值,且每个取值的个数可以不同,从而可通过统计特征集在每个样本类别中的取值和取值个数,来获取特征集在每个样本类别中的概率分布。
具体地,所述获取所述特征集在每个样本类别中的概率分布,具体包括:分别以所述多个样本类别中的每个样本类别作为目标样本类别,获取所述目标样本类别对应的目标样本;统计所述特征集在所述目标样本中的变量取值和取值个数;根据所述变量取值和取值个数,获取所述特征集在所述目标样本类别中的概率分布。
例如,分类模型用于检测药品对癌细胞的药性,而分类模型所需的分类类别包括低药性和高药性两个类别,则将样本划分为低药性和高药性两个类别。特征集包括药品中的化学键个数,则分别获取化学键个数在低药性和高药性两个类别中的概率分布。具体地,在低药性的样本中,统计获得特征的变量取值,即化学键个数分别为0、1、2、3、4、5、6,并统计获得每个变量取值的个数,即化学键个数分别为0、1、2、3、4、5、6时的个数为100、50、35、40、20、13、14,从而获得化学键个数在低药性中的概率分布;在高药性的样本中,统计获得特征的变量取值,即化学键个数分别为0、1、2、3、4、5、6,并统计获得每个变量取值的个数,即化学键个数分别为0、1、2、3、4、5、6时的个数为5、10、40、60、80、90、60,从而获得化学键个数在高药性中的概率分布。
204、根据所述概率分布,计算所述特征集对所述多个样本类别的区分度。
本发明实施例中,根据特征集在每个样本类别的概率分布,可以计算特征集在不同样本类别的区分度,本实施例中的区分度可通过JS(JENSEN)散度来确定。
具体地,所述根据所述概率分布,计算所述特征集对所述多个样本类别的区分度,具体包括:根据所述概率分布,计算所述特征集在所述多个样本类别之间的JS散度,作为所述特征集对所述多个样本类别的区分度。
需要说明的是,JS散度度量了两个概率分布的相似度,JS散度为基于KL散度的变体,KL(Kullback-Leibler)散度是两个概率分布差异的非对称性的度量,而JS散度解决了KL散度非对称的问题,即JS散度是对称的,取值在0到1之间,数值越大,则说明两个概率分布之间的区分度越大。
由于JS散度度量两个概率分布之间的相似度,因此将多个样本类别中的每个样本类别与另一个样本类别作为一对,分别计算特征集对每对样本类别的区分度。
具体地,所述根据所述概率分布,计算所述特征集在所述多个样本类别之间的JS散度,具体包括:从所述多个样本类别中任意选取两个样本类别;根据所述特征集分别在所述两个样本类别中的概率分布,计算所述特征集在所述两个样本类别之间的JS散度。
本发明实施例中,在每次从多个样本类别中选取两个样本类别时,获取特征集分别在两个样本类别中的概率分布,计算两个概率分布的JS散度,该JS散度即为特征集对所述两个样本类别的区分度。
具体地,所述根据所述特征集分别在所述两个样本类别中的概率分布,计算所述特征集在所述两个样本类别之间的JS散度,具体包括:根据所述特征集分别在所述两个样本类别中的概率分布,计算所述特征集在所述两个样本类别之间的KL散度;根据所述KL散度,计算所述特征集在所述两个样本类别之间的JS散度。
需要说明的是,由于JS散度是在KL散度的基础上获得的,因此在计算特征集在两个样本类别之间的JS散度时,需先计算特征集在两个样本类别之间的KL散度。KL散度,也叫相对熵,可以用来表示两个概率分布之间的交互信息,其计算公式为:
Figure BDA0002147418640000101
其中,i为特征集,P(i)和Q(i)分别为特征集i在两个样本类别中的概率分布,DKL(P||Q)为特征集i在两个样本类别之间的KL散度。若特征集i在两个样本类别中的概率分布完全一致,则DKL(P||Q)为0,表示两个概率分布无区别,反之,若DKL(P||Q)越大,则表示两个概率分布之间的区别越大,特征集i对两个样本类别的区分度越大。
由于KL散度是不对称的,即
DKL(P||Q)!=-DKL(Q||P)
因此,在KL散度的基础上提出JS散度,JS散度的公式为:
Figure BDA0002147418640000102
通过JS散度解决KL散度的非对称问题,从而准确计算特征集在两个样本类别中的区分度。
205、根据所述区分度,确定所述特征集的重要性。
本发明实施例中,在计算出特征集对多个样本类别的区分度后,即可根据该区分度确定特征集的重要性。
具体地,所述根据所述区分度,确定所述特征集的重要性,具体包括:将所述区分度与预设阈值进行对比;若所述区分度大于预设阈值,则确定所述特征集的重要性高;若所述区分度小于预设阈值,则确定所述特征集的重要性低。
需要说明的是,根据用户需求设置区分度的阈值,以便将区分度与阈值进行比较。若特征集对多个样本类别的区分度大于预设阈值,则表明该特征集对区分多个样本类别的重要性高,可将该特征集作为后续分类模型的训练特征;若特征集对多个样本类别的区分度小于预设阈值,则表明该特征集对区分多个样本类别的重要性低,可从训练样本中去除该特征集。
综上,本发明实施例中通过将样本中的至少一个特征作为特征集,获取特征集在每个样本类别中的概率分布,进而计算特征集对多个样本类别的区分度,以根据特征集对多个样本类别的区分度来确定特征集的重要性,从而准确确定特征集的重要性,为分类模型的训练提供训练特征,提高分类模型的分类准确性。
下面结合一具体应用场景对本发明实施例中样本特征重要性的确定方法进行描述。
请参阅图3,为本发明实施例中样本特征重要性的确定方法的另一个实施例流程示意图,该样本特征重要性的确定方法应用于网络设备如服务器或终端中,该样本特征重要性的确定方法包括:
301、获取视频样本中的特征,所述特征包括预估点击率。
例如,构建一个分类模型用于预估视频是否被点击,分类模型输出的分类结果包括被点击和未被点击,以便根据分类结果向用户推荐视频。通过在网络上收集所有视频,并预估收集到的每个视频的点击率,以构成视频样本。本实施例通过获取视频样本中的预估点击率,来确定预估点击率对预估视频是否被点击的重要性。
302、将视频样本分为被点击类别和未被点击类别。
按照视频样本实际是否被用户点击的情况,将视频样本分为被点击类别和未被点击类别,即被用户点击的视频对应被点击类别,未被用户点击的视频对应未被点击类别。
303、获取预估点击率在被点击类别和未被点击类别中的概率分布。
视频样本中会预估每个视频的点击率,从被点击类别label!=0的样本中统计预估点击率pctr的取值及取值个数,如图4所示,预估点击率pctr的取值包括0、0.2、0.4、0.6、0.8、1.0,取值个数为预估点击率pctr分别为0、0.2、0.4、0.6、0.8、1.0时的视频个数,从而获得预估点击率pctr在被点击类别label!=0中的概率分布。同理,从未被点击类别label=0的样本中统计预估点击率pctr的取值及取值个数,从而获得预估点击率pctr在未被点击类别label=0中的概率分布。由图4可以看出,被点击类别label!=0中的预估点击率pctr整体比未被点击类别label=0中的预估点击率pctr高,即被点击类别label!=0的分布上更倾向于高预估点击率pctr。
304、根据所述概率分布,计算预估点击率对被点击类别和未被点击类别的区分度。
根据预估点击率在被点击类别和未被点击类别中的分布概率,计算两个分布概率之间的JS散度,例如,通过计算,该JS散度的值为0.1192,则预估点击率对被点击类别和未被点击类别的区分度为0.1192。
305、根据所述区别度,确定预估点击率的重要性。
根据实际需求,可设置区别度的阈值,例如设置阈值为0.1,将计算出的区别度与该阈值进行比较,预估点击率对被点击类别和未被点击类别的区别度0.1192大于阈值0.1,则预估点击率对被点击类别和未被点击类别的重要性高,可将预估点击率作为该分类模型的训练特征。
另外,除了预估点击率这一特征,还可计算视频样本中的其他特征对被点击类别和未被点击类别的区分度,以确定其重要性。例如,特征t表示引擎计算的搜索请求query和返回doc的title的文本之间的相关性,对应的区分度为0.0450;特征navboost表示基于用户的点击,query_doc维度上,某个doc的点击量,对应的区分度为0.650;特征instant_navboost,相比navboost而言,inavboost统计过去一个月的计算数值,instant_navboost统计的是过去一天的数值,对应的分区度为0.5364;特征quality表示doc的质量分值,对应的区分度为0.0440;特征freshness表示doc的新鲜度,对应的区分度为0.0318;特征pctr_ins表示query_doc维度下,过去24小时,该doc真实被点击的数量除以该doc曝光的数量,对应的区分度为0.0725;特征nmclick_ins表示在query_doc下,用户一次请求会召回的信息流,对应的区分度为0.1092;特征fcr_instant表示query_doc维度下,过去24小时该doc在召回的列表中被第一次点击的数目除以该doc的曝光数,对应的区分度为0.1164;特征fcr_history表示query_doc维度下,过去7天该doc在召回的列表中被第一次点击的数目除以该doc的曝光数,对应的区分度为0.1098;特征hd表示视频的清晰度,对应的区分度为0.0201;特征videotype表示视频的类型,如电影、电视剧、比赛等,对应的区分度为0.0073;特征contenttype表示视频内容的类型,如古装、战争等,对应的区分度为0.0201;特征comment表示视频是否为精品,对应的区分度为0.0402。
通过设置阈值0.1,可确定特征navboost、特征instant_navboost、特征nmclick_ins、特征fcr_instant、特征fcr_history的重要性高,可作为该分类模型的训练特征,而其他特征可从样本中去除。本实施例能够准确确定预估点击率对被点击类别和未被点击类别的重要性。
为便于更好的实施本发明实施例提供的样本特征重要性的确定方法,本发明实施例还提供一种基于上述样本特征重要性的确定方法的装置。其中名词的含义与上述样本特征重要性的确定方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图5,图5为本发明实施例提供的样本特征重要性的确定装置的结构示意图,其中该样本特征重要性的确定装置可以包括特征集获取模块501、样本类别获取模块502、概率分布获取模块503、区分度计算模块504和重要性确定模块505,其中:
特征集获取模块501,用于获取样本中的至少一个特征,作为特征集;
样本类别获取模块502,用于获取所述样本的多个样本类别;
概率分布获取模块503,用于获取所述特征集在每个样本类别中的概率分布;
区分度计算模块504,用于根据所述概率分布,计算所述特征集对所述多个样本类别的区分度;
重要性确定模块505,用于根据所述区分度,确定所述特征集的重要性。
在本发明一些实施例中,所述概率分布获取模块503具体用于:
分别以所述多个样本类别中的每个样本类别作为目标样本类别,获取所述目标样本类别对应的目标样本;
统计所述特征集在所述目标样本中的变量取值和取值个数;
根据所述变量取值和取值个数,获取所述特征集在所述目标样本类别中的概率分布。
在本发明一些实施例中,所述区分度计算模块504具体用于:
根据所述概率分布,计算所述特征集在所述多个样本类别之间的JS散度,作为所述特征集对所述多个样本类别的区分度。
在本发明一些实施例中,所述区分度计算模块504还用于:
从所述多个样本类别中任意选取两个样本类别;
根据所述特征集分别在所述两个样本类别中的概率分布,计算所述特征集在所述两个样本类别之间的JS散度。
在本发明一些实施例中,所述区分度计算模块504还用于:
根据所述特征集分别在所述两个样本类别中的概率分布,计算所述特征集在所述两个样本类别之间的KL散度;
根据所述KL散度,计算所述特征集在所述两个样本类别之间的JS散度。
在本发明一些实施例中,所述重要性确定模块505具体用于:
将所述区分度与预设阈值进行对比;
若所述区分度大于预设阈值,则确定所述特征集的重要性高;
若所述区分度小于预设阈值,则确定所述特征集的重要性低。
本发明实施例中通过将样本中的至少一个特征作为特征集,获取特征集在每个样本类别中的概率分布,进而计算特征集对多个样本类别的区分度,以根据特征集对多个样本类别的区分度来确定特征集的重要性,从而准确确定特征集的重要性,为分类模型的训练提供训练特征,提高分类模型的分类准确性。
本发明实施例还提供一种分类模型的训练方法及装置。
请参阅图6,图6为本发明实施例所提供的分类模型的训练方法的场景示意图,分类模型的训练装置可以集成在网络设备中,如终端或服务器等设备中。本发明实施例中网络设备主要用于根据特征集的重要性,判断所述特征集是否为训练特征;所述特征集的重要性是根据上述样本特征重要性的确定方法获得的;若是,则根据所述训练特征,对预先构建的分类模型进行训练。
下面结合具体实施例进行详细说明。
在本实施例中,将从分类模型的训练装置的角度进行描述,该分类模型的训练装置具体可以集成在网络设备如终端或服务器等设备中。
请参阅图7,为本发明实施例中本发明实施例中分类模型的训练方法的一个实施例流程示意图,该分类模型的训练方法包括:
701、根据特征集的重要性,判断所述特征集是否为训练特征。
本发明实施例中,特征集的重要性可根据上述实施例中样本特征重要性的确定方法来获得,在此不再详细赘述。特征集的重要性可分为高低两个标准,而特征集的重要性的高低可由特征集对不同样本类别的区分度来确定。例如,将特征集对不同样本类别的区分度与预设阈值进行比较,若区分度大于预设阈值,则特征集的重要性高,若区分度小于预设阈值,则特征集的重要性低。其中,预设阈值可根据实际需求灵活设定。在检测出特征集重要性的高低,即可判断特征集是否可以作为训练特征,用于分类模型的训练。
具体地,所述根据特征集的重要性,判断所述特征集是否为训练特征,具体包括:若确定所述特征集的重要性高,则判定所述特征集为训练特征;若确定所述特征集的重要性低,则判定所述特征集不为训练特征。
需要说明的是,对于重要性高的特征集,可以选取为分类模型的训练特征,对于重要性低的特征集,可以从训练样本中去除。
702、若是,则根据所述训练特征,对预先构建的分类模型进行训练。
本发明实施例中,对于重要性高的特征集,可以作为训练特征,输入至分类模型中进行训练,对于重要性低的特征集,可以直接去除不再用于分类模型的训练。
本发明实施例中通过将样本中的至少一个特征作为特征集,获取特征集在每个样本类别中的概率分布,进而计算特征集对多个样本类别的区分度,以根据特征集对多个样本类别的区分度来确定特征集的重要性,从而准确确定特征集的重要性,为分类模型的训练提供训练特征,提高分类模型的分类准确性。
为便于更好的实施本发明实施例提供的分类模型的训练方法,本发明实施例还提供一种基于上述分类模型的训练方法的装置。其中名词的含义与上述分类模型的训练方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图8,图8为本发明实施例提供的分类模型的训练装置的结构示意图,其中该分类模型的训练装置可以包括判断模块801和训练模块802,其中:
判断模块801,用于根据特征集的重要性,判断所述特征集是否为训练特征;所述特征集的重要性是根据如上述实施例中的样本特征重要性的确定方法获得的;
训练模块802,用于在所述特征集为训练特征时,根据所述训练特征,对预先构建的分类模型进行训练。
在本发明一些实施例中,所述判断模块801具体用于:
若确定所述特征集的重要性高,则判定所述特征集为训练特征;
若确定所述特征集的重要性低,则判定所述特征集不为训练特征。
本发明实施例中通过将样本中的至少一个特征作为特征集,获取特征集在每个样本类别中的概率分布,进而计算特征集对多个样本类别的区分度,以根据特征集对多个样本类别的区分度来确定特征集的重要性,从而准确确定特征集的重要性,为分类模型的训练提供训练特征,提高分类模型的分类准确性。
本发明实施例还提供一种网络设备,如图9所示,其示出了本发明实施例所涉及的网络设备的结构示意图,具体来讲:
该网络设备可以包括一个或者一个以上处理核心的处理器901、一个或一个以上计算机可读存储介质的存储器902、电源903和输入单元904等部件。本领域技术人员可以理解,图9中示出的网络设备结构并不构成对网络设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器901是该网络设备的控制中心,利用各种接口和线路连接整个网络设备的各个部分,通过运行或执行存储在存储器902内的软件程序和/或模块,以及调用存储在存储器902内的数据,执行网络设备的各种功能和处理数据,从而对网络设备进行整体监控。可选的,处理器901可包括一个或多个处理核心;优选的,处理器901可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作存储介质、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器901中。
存储器902可用于存储软件程序以及模块,处理器901通过运行存储在存储器902的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器902可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作存储介质、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器802可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器902还可以包括存储器控制器,以提供处理器901对存储器902的访问。
该网络设备还包括给各个部件供电的电源903,优选的,电源903可以通过电源管理存储介质与处理器901逻辑相连,从而通过电源管理存储介质实现管理充电、放电、以及功耗管理等功能。电源903还可以包括一个或一个以上的直流或交流电源、再充电存储介质、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该网络设备还可包括输入单元904,该输入单元904可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,网络设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,网络设备中的处理器901会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器902中,并由处理器901来运行存储在存储器902中的应用程序,从而实现各种功能,如下:
获取样本中的至少一个特征,作为特征集;获取所述样本的多个样本类别;获取所述特征集在每个样本类别中的概率分布;根据所述概率分布,计算所述特征集对所述多个样本类别的区分度;根据所述区分度,确定所述特征集的重要性。
或者,根据特征集的重要性,判断所述特征集是否为训练特征;所述特征集的重要性是根据上述样本特征重要性的确定方法获得的;若是,则根据所述训练特征,对预先构建的分类模型进行训练。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种样本特征重要性的确定方法或分类模型的训练方法中的步骤。例如,该指令可以执行如下步骤:
获取样本中的至少一个特征,作为特征集;获取所述样本的多个样本类别;获取所述特征集在每个样本类别中的概率分布;根据所述概率分布,计算所述特征集对所述多个样本类别的区分度;根据所述区分度,确定所述特征集的重要性。
或者,根据特征集的重要性,判断所述特征集是否为训练特征;所述特征集的重要性是根据上述样本特征重要性的确定方法获得的;若是,则根据所述训练特征,对预先构建的分类模型进行训练。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种样本特征重要性的确定方法或分类模型的训练方法中的步骤,因此,可以实现本发明实施例所提供的任一种样本特征重要性的确定方法或分类模型的训练方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种样本特征重要性的确定方法、分类模型的训练方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种样本特征重要性的确定方法,其特征在于,包括:
获取样本中的至少一个特征,作为特征集;
获取所述样本的多个样本类别;
获取所述特征集在每个样本类别中的概率分布;
根据所述概率分布,计算所述特征集对所述多个样本类别的区分度;
根据所述区分度,确定所述特征集的重要性。
2.根据权利要求1所述的样本特征重要性的确定方法,其特征在于,所述获取所述特征集在每个样本类别中的概率分布,具体包括:
分别以所述多个样本类别中的每个样本类别作为目标样本类别,获取所述目标样本类别对应的目标样本;
统计所述特征集在所述目标样本中的变量取值和取值个数;
根据所述变量取值和取值个数,获取所述特征集在所述目标样本类别中的概率分布。
3.根据权利要求1所述的样本特征重要性的确定方法,其特征在于,所述根据所述概率分布,计算所述特征集对所述多个样本类别的区分度,具体包括:
根据所述概率分布,计算所述特征集在所述多个样本类别之间的JS散度,作为所述特征集对所述多个样本类别的区分度。
4.根据权利要求3所述的样本特征重要性的确定方法,其特征在于,所述根据所述概率分布,计算所述特征集在所述多个样本类别之间的JS散度,具体包括:
从所述多个样本类别中任意选取两个样本类别;
根据所述特征集分别在所述两个样本类别中的概率分布,计算所述特征集在所述两个样本类别之间的JS散度。
5.根据权利要求4所述的样本特征重要性的确定方法,其特征在于,所述根据所述特征集分别在所述两个样本类别中的概率分布,计算所述特征集在所述两个样本类别之间的JS散度,具体包括:
根据所述特征集分别在所述两个样本类别中的概率分布,计算所述特征集在所述两个样本类别之间的KL散度;
根据所述KL散度,计算所述特征集在所述两个样本类别之间的JS散度。
6.根据权利要求1所述的样本特征重要性的确定方法,其特征在于,所述根据所述区分度,确定所述特征集的重要性,具体包括:
将所述区分度与预设阈值进行对比;
若所述区分度大于预设阈值,则确定所述特征集的重要性高;
若所述区分度小于预设阈值,则确定所述特征集的重要性低。
7.一种分类模型的训练方法,其特征在于,包括:
根据特征集的重要性,判断所述特征集是否为训练特征;所述特征集的重要性是根据如权利要求1至6任一项所述的样本特征重要性的确定方法获得的;
若是,则根据所述训练特征,对预先构建的分类模型进行训练。
8.根据权利要求7所述的分类模型的训练方法,其特征在于,所述根据特征集的重要性,判断所述特征集是否为训练特征,具体包括:
若确定所述特征集的重要性高,则判定所述特征集为训练特征;
若确定所述特征集的重要性低,则判定所述特征集不为训练特征。
9.一种样本特征重要性的确定装置,其特征在于,包括:
特征集获取模块,用于获取样本中的至少一个特征,作为特征集;
样本类别获取模块,用于获取所述样本的多个样本类别;
概率分布获取模块,用于获取所述特征集在每个样本类别中的概率分布;
区分度计算模块,用于根据所述概率分布,计算所述特征集对所述多个样本类别的区分度;以及,
重要性确定模块,用于根据所述区分度,确定所述特征集的重要性。
10.一种分类模型的训练装置,其特征在于,包括:
判断模块,用于根据特征集的重要性,判断所述特征集是否为训练特征;所述特征集的重要性是根据如权利要求1至6任一项所述的样本特征重要性的确定方法获得的;以及,
训练模块,用于在所述特征集为训练特征时,根据所述训练特征,对预先构建的分类模型进行训练。
CN201910689456.6A 2019-07-29 2019-07-29 样本特征重要性的确定方法、分类模型的训练方法及装置 Active CN112308099B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910689456.6A CN112308099B (zh) 2019-07-29 2019-07-29 样本特征重要性的确定方法、分类模型的训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910689456.6A CN112308099B (zh) 2019-07-29 2019-07-29 样本特征重要性的确定方法、分类模型的训练方法及装置

Publications (2)

Publication Number Publication Date
CN112308099A true CN112308099A (zh) 2021-02-02
CN112308099B CN112308099B (zh) 2024-08-20

Family

ID=74329750

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910689456.6A Active CN112308099B (zh) 2019-07-29 2019-07-29 样本特征重要性的确定方法、分类模型的训练方法及装置

Country Status (1)

Country Link
CN (1) CN112308099B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420165A (zh) * 2021-06-11 2021-09-21 北京达佳互联信息技术有限公司 二分类模型的训练、多媒体数据的分类方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110280457A1 (en) * 2010-05-11 2011-11-17 The University Of Copenhagen Classification of medical diagnostic images
CN103294817A (zh) * 2013-06-13 2013-09-11 华东师范大学 一种基于类别分布概率的文本特征抽取方法
CN104615789A (zh) * 2015-03-06 2015-05-13 苏州大学 一种数据分类方法及装置
CN105069470A (zh) * 2015-07-29 2015-11-18 腾讯科技(深圳)有限公司 分类模型训练方法及装置
CN107045506A (zh) * 2016-02-05 2017-08-15 阿里巴巴集团控股有限公司 评估指标获取方法及装置
CN108288033A (zh) * 2018-01-05 2018-07-17 电子科技大学 一种基于随机蕨融合多特征的安全帽检测方法
CN109102029A (zh) * 2018-08-23 2018-12-28 重庆科技学院 信息最大化生成对抗网络模型合成人脸样本质量评估方法
CN109615020A (zh) * 2018-12-25 2019-04-12 深圳前海微众银行股份有限公司 基于机器学习模型的特征分析方法、装置、设备及介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110280457A1 (en) * 2010-05-11 2011-11-17 The University Of Copenhagen Classification of medical diagnostic images
CN103294817A (zh) * 2013-06-13 2013-09-11 华东师范大学 一种基于类别分布概率的文本特征抽取方法
CN104615789A (zh) * 2015-03-06 2015-05-13 苏州大学 一种数据分类方法及装置
CN105069470A (zh) * 2015-07-29 2015-11-18 腾讯科技(深圳)有限公司 分类模型训练方法及装置
CN107045506A (zh) * 2016-02-05 2017-08-15 阿里巴巴集团控股有限公司 评估指标获取方法及装置
CN108288033A (zh) * 2018-01-05 2018-07-17 电子科技大学 一种基于随机蕨融合多特征的安全帽检测方法
CN109102029A (zh) * 2018-08-23 2018-12-28 重庆科技学院 信息最大化生成对抗网络模型合成人脸样本质量评估方法
CN109615020A (zh) * 2018-12-25 2019-04-12 深圳前海微众银行股份有限公司 基于机器学习模型的特征分析方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420165A (zh) * 2021-06-11 2021-09-21 北京达佳互联信息技术有限公司 二分类模型的训练、多媒体数据的分类方法及装置
CN113420165B (zh) * 2021-06-11 2024-03-05 北京达佳互联信息技术有限公司 二分类模型的训练、多媒体数据的分类方法及装置

Also Published As

Publication number Publication date
CN112308099B (zh) 2024-08-20

Similar Documents

Publication Publication Date Title
Bolón-Canedo et al. Feature selection for high-dimensional data
WO2022041979A1 (zh) 一种信息推荐模型的训练方法和相关装置
Jongbo et al. Development of an ensemble approach to chronic kidney disease diagnosis
CN109033408B (zh) 信息推送方法及装置、计算机可读存储介质、电子设备
WO2017101506A1 (zh) 信息处理方法及装置
US12014267B2 (en) Systems and methods for sequential event prediction with noise-contrastive estimation for marked temporal point process
CN107871166B (zh) 针对机器学习的特征处理方法及特征处理系统
US20170018030A1 (en) System and Method for Determining Credit Worthiness of a User
CN113435602A (zh) 确定机器学习样本的特征重要性的方法及系统
CN108833458A (zh) 一种应用推荐方法、装置、介质及设备
CN112711705B (zh) 舆情数据处理方法、设备及存储介质
US20230259739A1 (en) Image detection method and apparatus, computer-readable storage medium, and computer device
CN113515434B (zh) 异常分类方法、装置、异常分类设备及存储介质
Vamosi et al. A deep recurrent neural network approach to learn sequence similarities for user-identification
CN110825868A (zh) 一种基于话题热度的文本推送方法、终端设备及存储介质
KR20230165085A (ko) 멀티 모달 특징 벡터 사이의 정렬 정도를 정량적으로 평가하는 방법 및 시스템
CN118094118A (zh) 数据集质量评估方法、系统、电子设备及存储介质
Lyaqini et al. An efficient primal-dual method for solving non-smooth machine learning problem
JPWO2016084326A1 (ja) 情報処理システム、情報処理方法、及び、プログラム
Ha et al. A unified comparison of user modeling techniques for predicting data interaction and detecting exploration bias
Thorne et al. Reservoir time series analysis: Using the response of complex dynamical systems as a universal indicator of change
Wu et al. Collaborative filtering recommendation based on conditional probability and weight adjusting
De Brabandere et al. Semi-supervised change point detection using active learning
US20190205341A1 (en) Systems and methods for measuring collected content significance
CN112308099B (zh) 样本特征重要性的确定方法、分类模型的训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant