CN112001442B - 特征检测方法、装置、计算机设备及存储介质 - Google Patents

特征检测方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112001442B
CN112001442B CN202010859791.9A CN202010859791A CN112001442B CN 112001442 B CN112001442 B CN 112001442B CN 202010859791 A CN202010859791 A CN 202010859791A CN 112001442 B CN112001442 B CN 112001442B
Authority
CN
China
Prior art keywords
feature
performance information
content item
user behavior
behavior data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010859791.9A
Other languages
English (en)
Other versions
CN112001442A (zh
Inventor
李潇湘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202010859791.9A priority Critical patent/CN112001442B/zh
Publication of CN112001442A publication Critical patent/CN112001442A/zh
Application granted granted Critical
Publication of CN112001442B publication Critical patent/CN112001442B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation

Abstract

本公开关于一种特征检测方法、装置、计算机设备及存储介质,属于深度学习技术领域。本公开提供的方案,通过第二用户行为数据确定内容项排序模型的第一性能信息,由于内容项排序模型基于第一用户行为数据中有效的第一特征和所有待评估的第二特征训练得到,因而第一性能信息可以作为后续评估某一个特征时的参考信息,对任一第二特征进行随机打散处理,随机打散并未改变模型采用的特征,因而无需重新生成数据进行训练,但随机打散相当于对任一第二特征进行随机取值,因而确定出的第二性能信息可以体现任一第二特征对模型的影响,再对比第一性能信息和第二性能信息,即可确定任一第二特征对模型的影响是正向的还是负向的,从而提高特征检测的效率。

Description

特征检测方法、装置、计算机设备及存储介质
技术领域
本公开涉及深度学习技术领域,尤其涉及一种特征检测方法、装置、计算机设备及存储介质。
背景技术
随着人工智能的不断发展,深度学习在计算广告、推荐系统、搜索系统等领域得到了广泛应用。通过不同的训练样本来对初始模型进行训练,可以得到用于多种场景的内容项排序模型,以提高识别、分类和推荐等过程的效率与准确性。训练集中的数据具有很多不同维度的特征,可以通过在模型所采用的原有特征中加入新的特征来进一步提高模型的准确性。在引入新特征后,需要先对新特征进行评估,以确定新特征是否为有效特征,避免引入无效特征,造成模型处理压力增大、模型准确性降低。
目前对于待评估的新特征,只能通过将各个特征逐个加入模型,基于新加入的特征生成数据,再基于生成的数据进行训练和测试,进而根据测试得到的模型评估指标,来确定新特征是否有效。例如,如果目前版本的模型使用了三个特征{a,b,c},这三个特征对应的模型的模型评估指标(Area Under Curve,AUC)为AUC0,有三个新特征{d,e,f}待评估,在对这三个新特征进行评估时,需要先按照{a,b,c,d}这四个特征生成一遍数据,基于生成的数据对模型进行训练,再在测试集上进行测试,得到添加特征d后模型的AUC,添加特征d后模型的AUC可以记为AUC1,通过评估AUC1与AUC0的差值大小来评估特征d的作用,若AUC1与AUC0的差值越大,则表明特征d越有效。再通过与上述步骤同理的方式来对特征e和特征f分别进行评估,以得到各个特征的有效性,进而基于原特征和评估为有效的新加入特征对模型重新进行训练。
在上述实现过程中,将待评估的特征逐个加入模型,再基于新加入的特征生成数据、训练,耗时较长,从而导致特征检测的效率较低。
发明内容
本公开提供一种特征检测方法、装置、计算机设备及存储介质,以提高特征检测的效率。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种特征检测方法,该方法包括:
基于多个第一用户行为数据的多个特征向量进行训练,得到内容项排序模型,一个特征向量对应于一个第一用户行为数据的多个第一特征和多个待评估的第二特征,该多个第一用户行为数据用于表示用户对内容项所进行的互动操作;
基于多个第二用户行为数据,确定该内容项排序模型的第一性能信息,该多个第二用户行为数据用于表示用户对内容项所进行的互动操作;
对该多个第二用户行为数据的任一第二特征进行随机打散处理,基于随机打散处理后的第二用户行为数据,确定该内容项排序模型的第二性能信息;
若该第一性能信息与该第二性能信息满足目标条件,则确定该任一第二特征为有效特征,该有效特征用于对该内容项排序模型进行训练。
在一种可能的实现方式中,该第一性能信息和该第二性能信息中任一性能信息的确定过程包括:
基于多个第二用户行为数据,确定该内容项排序模型的混淆矩阵;
基于该混淆矩阵,确定该内容项排序模型的假正类率和真正类率;
基于该假正类率和该真正类率,确定受试者工作特征曲线;
基于该受试者工作特征曲线,确定该内容项排序模型的性能信息。
通过上述步骤可以实现对内容项排序模型的第一性能信息和第二性能信息的确定,以便后续可以基于第一性能信息和第二性能信息确定任一第二特征的有效性,实现特征检测。
在一种可能的实现方式中,该对该多个第二用户行为数据的任一第二特征进行随机打散处理包括:
对于任意两个第二用户行为数据,保持除该任一第二特征外的特征对应的特征值不变,交换该任意两个第二用户行为数据中任一第二特征对应的特征值。
通过对第二用户行为数据的任一第二特征进行随机打散处理,相当于对该任一第二特征对应的特征值进行随机取值,从而可以确定出该任一第二特征在内容项排序模型中所起的作用,实现对任一第二特征的有效性的确定。
在一种可能的实现方式中,该若该第一性能信息与该第二性能信息满足目标条件,则确定该任一第二特征为有效特征包括:
基于该第一性能信息和该第二性能信息,确定该任一第二特征的重要度分值,该重要度分值用于表示该内容项排序模型在采用该任一第二特征与未采用该任一第二特征时的准确性差距;
若该重要度分值大于或等于预设阈值,则确定该任一第二特征为有效特征。
由于第一性能信息是内容项排序模型在采用任一第二特征时的性能信息,第二性能信息相当于内容项排序模型未采用任一第二特征时的性能信息,因而基于第一性能信息和第二性能信息确定出的重要度分值,即可代表该任一第二特征对内容项排序模型的性能造成的影响,基于该重要度分值与目标阈值的大小关系,即可确定该任一第二特征的有效性。
在一种可能的实现方式中,该基于该第一性能信息和该第二性能信息,确定该任一第二特征的重要度分值包括:
将该第一性能信息与该第二性能信息的差值,确定为该任一第二特征的重要度分值。
通过确定第一性能信息与第二性能信息的差值,即可确定出该任一第二特征的重要度分数,也即是,该任一第二特征对内容项排序模型的性能造成的影响。
在一种可能的实现方式中,该对该多个第二用户行为数据的任一第二特征进行随机打散处理,基于随机打散处理后的第二用户行为数据,确定该内容项排序模型的第二性能信息之后,该方法还包括:
若该第一性能信息与该第二性能信息不满足目标条件,则确定该任一第二特征为无效特征。
在第一性能信息与第二性能信息不满足目标条件时,即可确定出任一第二特征属于无效特征,实现对任一第二特征的检测。
根据本公开实施例的第二方面,提供一种特征检测装置,该装置包括:
训练单元,被配置为执行基于多个第一用户行为数据的多个特征向量,对初始模型进行训练,得到内容项排序模型,一个特征向量对应于一个第一用户行为数据的多个第一特征和多个待评估的第二特征,该多个第一用户行为数据用于表示用户对内容项所进行的互动操作;
第一确定单元,被配置为执行基于多个第二用户行为数据,确定该内容项排序模型的第一性能信息,该多个第二用户行为数据用于表示用户对内容项所进行的互动操作;
处理单元,被配置为执行对该多个第二用户行为数据的任一第二特征进行随机打散处理,基于随机打散处理后的第二用户行为数据,确定该内容项排序模型的第二性能信息;
第二确定单元,被配置为执行基于随机打散处理后的第二用户行为数据,确定该内容项排序模型的第二性能信息;
第三确定单元,被配置为执行若该第一性能信息与该第二性能信息满足目标条件,则确定该任一第二特征为有效特征,该有效特征用于对该内容项排序模型进行训练。
在一种可能的实现方式中,该第一性能信息和该第二性能信息中任一性能信息的确定过程包括:
基于多个第二用户行为数据,确定该内容项排序模型的混淆矩阵;
基于该混淆矩阵,确定该内容项排序模型的假正类率和真正类率;
基于该假正类率和该真正类率,确定受试者工作特征曲线;
基于该受试者工作特征曲线,确定该内容项排序模型的性能信息。
在一种可能的实现方式中,该处理单元,被配置为执行对于任意两个第二用户行为数据,保持除该任一第二特征外的特征对应的特征值不变,交换该任意两个第二用户行为数据中任一第二特征对应的特征值。
在一种可能的实现方式中,该第三确定单元包括分值确定子单元和特征确定子单元;
该分值确定子单元,被配置为执行基于该第一性能信息和该第二性能信息,确定该任一第二特征的重要度分值,该重要度分值用于表示该内容项排序模型在采用该任一第二特征与未采用该任一第二特征时的准确性差距;
该特征确定子单元,被配置为执行若该重要度分值大于或等于预设阈值,则确定该任一第二特征为有效特征。
在一种可能的实现方式中,该分值确定子单元,被配置为执行将该第一性能信息与该第二性能信息的差值,确定为该任一第二特征的重要度分值。
在一种可能的实现方式中,该第三确定单元,还被配置为执行若该第一性能信息与该第二性能信息不满足目标条件,则确定该任一第二特征为无效特征。
根据本公开实施例的第三方面,提供一种计算机设备,该计算机设备包括:
一个或多个处理器;
用于存储该处理器可执行指令的存储器;
其中,该处理器被配置为执行该指令,以实现上述特征检测方法。
根据本公开实施例的第四方面,提供一种存储介质,当该存储介质中的指令由计算机设备的处理器执行时,使得计算机设备能够执行上述特征检测方法。
根据本公开实施例的第五方面,提供一种应用程序产品,该应用程序产品存储有一条或多条指令,该一条或多条指令可以由计算机设备的处理器执行,以完成上述特征检测方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
本公开提供的方案,通过第二用户行为数据确定内容项排序模型的第一性能信息,由于内容项排序模型基于第一用户行为数据中有效的第一特征和所有待评估的第二特征训练得到,因而第一性能信息可以作为后续评估某一个特征时的参考信息,对任一第二特征进行随机打散处理,随机打散并未改变模型采用的特征,因而无需重新生成数据进行训练,但随机打散相当于对任一第二特征进行随机取值,因而确定出的第二性能信息可以体现任一第二特征对模型的影响,再对比第一性能信息和第二性能信息,即可确定任一第二特征对模型的影响是正向的还是负向的,从而提高特征检测的效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种特征检测方法的实施环境示意图;
图2是根据一示例性实施例示出的一种特征检测方法的流程图;
图3是根据一示例性实施例示出的一种特征检测方法的流程图;
图4是根据一示例性实施例示出的一种特征检测方法的流程示意图;
图5是根据一示例性实施例示出的一种特征检测装置的框图;
图6是根据一示例性实施例示出的一种终端600的框图;
图7是根据一示例性实施例示出的一种服务器700的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开所涉及的用户信息可以为经用户授权或者经过各方充分授权的信息。
图1是根据一示例性实施例示出的一种特征检测方法的实施环境示意图,参见图1,该实施环境具体包括:终端101和服务器102。
终端101可以为智能手机、智能手表、平板电脑、MP3播放器(Moving PictureExperts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式电脑等设备中的至少一种。终端101上可以安装并运行有各类应用程序,如影音播放类应用程序、新闻资讯类应用程序、浏览器类应用程序等,用户可以通过终端101来实现视频观看、新闻资讯浏览、内容搜索等各种功能。终端101可以通过有线或无线网络与服务器102进行通信,本公开实施例对具体采用哪种方式不加以限定。终端101可以在检测到用户进入应用程序时,向服务器102发送内容项获取请求,可选地,用户还可以通过终端101输入自己要搜索的关键字,终端101可以基于该关键字生成内容项获取请求,并向服务器102发送该内容项获取请求,进而接收服务器102发送的内容项,如视频、新闻、广告等,基于接收到的内容项为用户进行展示。终端101还可以获取用户信息数据和用户对各个内容项的互动操作,以得到用户行为数据,进而将用户信息数据和用户行为数据发送给服务器102。
终端101可以泛指多个终端中的一个,本实施例仅以终端101来举例说明。本领域技术人员可以知晓,上述终端的数量可以更多或更少。比如上述终端可以仅为几个,或者上述终端为几十个或几百个,或者更多数量,本公开实施例对终端的数量和设备类型均不加以限定。
服务器102可以为一台服务器、多台服务器、云服务器、云计算平台和虚拟化中心中的至少一种。服务器102可以关联有一个用户数据库,用于对用户信息数据和用户行为数据进行存储,以便基于已存储的用户信息数据和用户行为数据,来对初始模型进行训练,得到用于多种推荐、搜索等场景的内容项排序模型。服务器102可以通过有线网络或无线网络与终端101进行通信,本公开实施例对具体采用哪种方式不加以限定。服务器102可以通过内容项排序模型来进行内容项的确定,以便向终端101发送确定出的内容项,并接收终端101基于这些内容项发送的用户行为数据,进而将接收到的用户行为数据存储至用户数据库。相关技术人员还可以在内容项排序模型所使用的原有特征的基础上,加入新的特征,进而基于原有特征和新的特征对内容项排序模型继续进行训练,以得到准确性更高的模型,进而提高推荐、搜索等场景的推荐准确性。可选地,上述服务器的数量可以更多或更少,本公开实施例对此不加以限定。当然,服务器102还可以包括其他功能服务器,以便提供更全面且多样化的服务。
图2是根据一示例性实施例示出的一种特征检测方法的流程图,参见图2,具体步骤包括:
在步骤S201中,计算机设备基于多个第一用户行为数据的多个特征向量,对初始模型进行训练,得到内容项排序模型,一个特征向量对应于一个第一用户行为数据的多个第一特征和多个待评估的第二特征,该多个第一用户行为数据用于表示用户对内容项所进行的互动操作。
在步骤S202中,计算机设备基于多个第二用户行为数据,确定该内容项排序模型的第一性能信息,该多个第二用户行为数据用于表示用户对内容项所进行的互动操作。
在步骤S203中,计算机设备对该多个第二用户行为数据的任一第二特征进行随机打散处理,基于随机打散处理后的第二用户行为数据,确定该内容项排序模型的第二性能信息。
在步骤S204中,若该第一性能信息与该第二性能信息满足目标条件,则计算机设备确定该任一第二特征为有效特征,该有效特征用于对该内容项排序模型进行训练。
本公开实施例提供的方案,通过第二用户行为数据确定内容项排序模型的第一性能信息,由于内容项排序模型基于第一用户行为数据中有效的第一特征和所有待评估的第二特征训练得到,因而第一性能信息可以作为后续评估某一个特征时的参考信息,对任一第二特征进行随机打散处理,随机打散并未改变模型采用的特征,因而无需重新生成数据进行训练,但随机打散相当于对任一第二特征进行随机取值,因而确定出的第二性能信息可以体现任一第二特征对模型的影响,再对比第一性能信息和第二性能信息,即可确定任一第二特征对模型的影响是正向的还是负向的,从而提高特征检测的效率。
在一种可能的实现方式中,该第一性能信息和该第二性能信息中任一性能信息的确定过程包括:
基于多个第二用户行为数据,确定该内容项排序模型的混淆矩阵;
基于该混淆矩阵,确定该内容项排序模型的假正类率和真正类率;
基于该假正类率和该真正类率,确定受试者工作特征曲线;
基于该受试者工作特征曲线,确定该内容项排序模型的性能信息。
在一种可能的实现方式中,该对该多个第二用户行为数据的任一第二特征进行随机打散处理包括:
对于任意两个第二用户行为数据,保持除该任一第二特征外的特征对应的特征值不变,交换该任意两个第二用户行为数据中任一第二特征对应的特征值。
在一种可能的实现方式中,该若该第一性能信息与该第二性能信息满足目标条件,则确定该任一第二特征为有效特征包括:
基于该第一性能信息和该第二性能信息,确定该任一第二特征的重要度分值,该重要度分值用于表示该内容项排序模型在采用该任一第二特征与未采用该任一第二特征时的准确性差距;
若该重要度分值大于或等于预设阈值,则确定该任一第二特征为有效特征。
在一种可能的实现方式中,该基于该第一性能信息和该第二性能信息,确定该任一第二特征的重要度分值包括:
将该第一性能信息与该第二性能信息的差值,确定为该任一第二特征的重要度分值。
在一种可能的实现方式中,该对该多个第二用户行为数据的任一第二特征进行随机打散处理,基于随机打散处理后的第二用户行为数据,确定该内容项排序模型的第二性能信息之后,该方法还包括:
若该第一性能信息与该第二性能信息不满足目标条件,则确定该任一第二特征为无效特征。
图3是根据一示例性实施例示出的一种特征检测方法的流程图,参见图3,具体步骤包括:
在步骤S301中,计算机设备基于多个第一用户行为数据的多个特征向量,对初始模型进行训练,得到内容项排序模型,一个特征向量对应于一个第一用户行为数据的多个第一特征和多个待评估的第二特征,该多个第一用户行为数据用于表示用户对内容项所进行的互动操作。
需要说明的是,该第一用户行为数据为训练集中的样本数据,该第一特征为有效特征。例如,对于有效特征a,b,c,这三个有效特征即为第一特征,对于待评估的特征d,e,f,这三个待评估的特征即为第二特征,label即为第一用户行为数据的标签。为简化说明,假定各个第一特征均为单个实数值,则任一第一用户行为数据中,这六个特征对应的特征值分别为a1,b1,c1,d1,e1,f1,该任一第一用户行为数据的标签对应的标签值为label1,则这个第一用户行为数据的特征向量为{a1,b1,c1,d1,e1,f1,label1}。训练集中包括多个这样的第一用户行为数据,通过特征向量形式的第一用户行为数据,即可以对初始模型进行训练,得到内容项排序模型,该训练过程示例如下:
计算机设备从训练集的多个第一用户行为数据中,获取各个第一用户行为数据的多个第一特征和多个第二特征对应的特征值,进而基于获取到的特征值,生成多个特征向量,将该多个特征向量输入至初始模型,通过初始模型提取特征向量的卷积特征,进而基于该卷积特征确定特征向量的对应的第一用户行为数据被预测为正样本的概率值,基于该概率值与阈值的关系,确定该特征向量的标签,该阈值为作为样本数据的用户行为数据被预测为正样本数据时对应的最小概率值,根据特征向量中的标签,以及初始模型确定出的特征向量的标签,确定损失函数值,根据该损失函数值,通过梯度下降法,对初始模型的参数进行调整,直至调整后的初始模型满足预设条件,将满足预设条件的初始模型作为内容项排序模型。其中,用户行为数据被预测为正样本数据时的阈值可以为任意取值,本公开实施例对此不加以限定。该预设条件可以为内容项排序模型确定出的排序结果的准确性满足迭代截止条件,还可以为损失函数值满足迭代截止条件,还可以为迭代次数达到预设次数,本公开实施例对具体采用哪种预设条件不加以限定。
在步骤S302中,计算机设备基于多个第二用户行为数据,确定该内容项排序模型的第一性能信息,该多个第二用户行为数据用于表示用户对内容项所进行的互动操作。
需要说明的是,该第二用户行为数据为测试集中的样本数据。计算机设备可以从测试集的多个第二用户行为数据中,获取各个第二用户行为数据的多个特征向量,来进行第一性能信息的确定。
在一种可能的实现方式中,计算机设备基于该多个第二用户行为数据的多个特征向量,确定该内容项排序模型的混淆矩阵,基于该混淆矩阵,确定该内容项排序模型的假正类率和真正类率,基于该假正类率和该真正类率,确定受试者工作特征曲线,基于该受试者工作特征曲线,确定该内容项排序模型的第一性能信息。
其中,在确定混淆矩阵时,计算机设备基于该多个第二用户行为数据的标签,以及该内容项排序模型对各个第二用户行为数据进行识别得到的标签,确定该内容项排序模型的识别结果中的真正类(True Positive,TP)、真负类(True Negative,TN)、假正类(FalsePositive,FP)和假负类(False Negative,FN),进而得到混淆矩阵。该混淆矩阵也称作可能性表格或是错误矩阵,该混淆矩阵的每一行代表内容项排序模型识别得到的标签,每一列代表该多个第二用户行为数据的标签。
在确定出混淆矩阵后,计算机设备可以基于该混淆矩阵计算识别结果的假正类率(False Positive Rate,FPR)和真正类率(True Positive Rate,TPR),FPR代表内容项排序模型识别出的正样本中真正为负样本的样本数据占所有负样本数据的比例,TPR代表内容项排序模型识别出的正样本中真正为正样本的样本数据占所有正样本数据的比例,FPR和TPR可以分别通过如下公式(1)和公式(2)计算得到:
FPR=FP/(FP+TN) (1)
TPR=TP/(TP+FN) (2)
其中,FPR表示假正类率,FP表示假正类数量,TN表示真负类数量,TPR表示真正类率,TP表示真正类数量,FN表示假负类数量。
确定出FPR和TPR后,计算机设备可以以FPR作为横轴,以TPR作为纵轴,将样本数据被预测为正样本数据时的阈值不断增加,可以得到多组FPR和TPR的值,将各组值相连即可得到受试者工作特征(Receiver Operating Characteristic,ROC)曲线,该ROC曲线与横轴的面积即为内容项排序模型的模型评估指标(Area Under Curve,AUC),也即是,内容项排序模型的第一性能信息。其中,AUC为一种评估模型预估准确性的指标,AUC的取值为0到1,AUC的值越大(越接近1)表明模型的预估准确性越高,因而可以将AUC作为模型的第一性能信息。
需要说明的是,上述仅为一种确定内容项排序模型的第一性能信息的示例性方法,在更多可能的实现方式中,还可以采用其他方式来进行第一性能信息的确定,本公开实施例对此不加以限定。例如,计算机设备可以从多个作为样本数据的第二用户行为数据中随机抽取一个正样本数据和一个负样本数据,根据内容项排序模型预测得到的正样本数据和负样本数据对应的概率值,确定正样本数据被预测为正样本的概率值,大于负样本数据被预测为正样本的概率值的可能性,也即是,目标概率值,进而将该目标概率值确定为内容项排序模型的第一性能信息,本公开实施例对具体采用哪种方式确定内容项排序模型的第一性能信息不加以限定。
需要说明的是,上述步骤S301至步骤S303是以训练得到模型为实际搜索或推荐等场景中使用的模型为例来进行说明的,可选地,该内容项排序模型还可以为评估模型,若训练得到的模型为评估模型,则计算机设备可以直接将多个第一用户行为数据的多个特征向量输入至该评估模型,输出ROC曲线,进而基于ROC曲线确定评估模型的第一性能信息,本公开实施例对具体采用哪种类型的模型不加以限定。
在步骤S303中,计算机设备对该多个第二用户行为数据的任一第二特征进行随机打散处理。
需要说明的是,本公开提供的方案可以用于采用图形处理器(GraphicsProcessing Unit,GPU)进行模型训练的场景下,可选地,本公开提供的方案还可以用于其他场景,本公开实施例对此不加以限定。下面以采用GPU进行模型训练的场景为例来进行说明。
其中,该随机打散处理可以为批处理(Batch)内随机打散(Shuffle)操作。Batch是指深度学习过程中,多个训练样本向量拼接为一个矩阵的过程。一个测试集中可以包括多个样本单元,一个样本单元中可以包括多个样本数据,一个样本单元中包括的多个样本数据就是一次Batch时要处理的样本数据。而对某个特征进行Batch内Shuffle操作,是指在一个Batch内,对某个特定特征进行随机打散。仍以上述步骤S301中第一特征为a,b,c,第二特征为d,e,f为例进行说明,多个第二用户行为数据的多个特征向量分别为[a1,b1,c1,d1,e1,f1,label1],[a2,b2,c2,d2,e2,f2,label2],...,[an,bn,cn,dn,en,fn,labeln],其中,label1、label2、labeln分别为各个特征向量的标签值。例如,若设置Batch内样本个数为1024,则可以将这1024个样本拼接为一个1024*5(5行1024列)的矩阵,也即是,[a1,b1,c1,d1,e1,f1,label1;a2,b2,c2,d2,e2,f2,label2;...;a1024,b1024,c1024,d1024,e1024,f1024,label1024]。在对该1024*5的矩阵中的特征d进行Batch内Shuffle操作,也即是,对此矩阵,保持第1、2、3、5、6、7列的特征对应的特征值不变,对d特征对应的第4列的特征值进行随机打散。
通过Batch将多个特征向量拼接成一个矩阵,可以最大化发挥GPU并行训练的优势,从而提高模型的测试速度,提高特征检测速度。而对某个特定特征进行Batch内Shuffle操作,相当于对该特征进行随机取值,从而可以确定出该特征对模型性能的影响。
在一种可能的实现方式中,对于任意两个第二用户行为数据,计算机设备保持除该任一第二特征外的特征对应的特征值不变,交换该任意两个第二用户行为数据中任一第二特征对应的特征值。例如,对于1024*5的矩阵[a1,b1,c1,d1,e1,f1,label1;a2,b2,c2,d2,e2,f2,label2;...;a1024,b1024,c1024,d1024,e1024,f1024,label1024],计算机设备可以将第一个特征向量中d特征对应的特征值d1与第二个特征向量中d特征对应的特征值d2进行交换,则交换后第一个特征向量中d特征对应的特征值为d2,第二个特征向量中d特征对应的特征值为d1,进而再将这两个特征值与其他特征向量中d特征对应的特征值进行交换,以实现对特征向量中d特征的随机打散操作。
在步骤S304中,计算机设备基于随机打散处理后的第二用户行为数据,确定该内容项排序模型的第二性能信息。
其中,该第二性能信息的确定过程与上述步骤S303同理,此处不再赘述。
由于特征向量中已经包括通过有效性确定的第一特征,以及待评估的所有第二特征,而随机打散处理后,内容项排序模型使用的还是通过有效性确定的第一特征和待评估的所有第二特征,因而在步骤S301基于特征向量训练得到内容项排序模型的基础上,无需重新进行训练,只需基于测试集中随机打散处理后的第二用户行为数据,直接进行第二性能信息的确定即可。而由于训练集数据可能是测试集数据的几倍、几十倍甚至几百倍,因而基于测试集中的数据对模型性能信息进行确定所需的时间,大大小于基于训练集中的数据对模型进行训练的时间,从而可以大大缩短特征检测时间,提高特征检测效率。
需要说明的是,由于一个测试集中可以包括多个样本单元,因而计算机设备可以在通过步骤S304确定出内容项排序模型在各个样本单元中的第二性能信息后,综合各个样本单元的第二性能信息,得到一个最终的第二性能信息,作为该内容项排序模型的第二性能信息。例如,计算机设备可以计算该测试集中多个样本单元的第二性能信息的平均值,作为该内容项排序模型的第二性能信息。可选地,各个样本单元还可以设置有不同的权重,计算机设备可以根据各个样本单元的权重,确定该测试集中多个样本单元的第二性能信息的加权平均值,作为该内容项排序模型的第二性能信息,本公开实施例对具体采用哪种方式不加以限定。
需要说明的是,上述步骤S303中对多个第二用户行为数据的任一第二特征进行随机打散处理,可以与该步骤S304中在测试集中对内容项排序模型进行测试的过程同步进行。
在步骤S305中,计算机设备基于该第一性能信息和该第二性能信息,确定该任一第二特征的重要度分值,该重要度分值用于表示该内容项排序模型在采用该任一第二特征与未采用该任一第二特征时的准确性差距。
在一种可能的实现方式中,计算机设备可以计算第一性能信息与第二性能信息的差值,将该第一性能信息与该第二性能信息的差值,确定为该任一第二特征的重要度分值。例如,将内容项排序模型的第一性能信息记为AUC0,将内容项排序模型的第二性能信息记为AUC’,任一第二特征的重要度分值记为Importance,则该重要度分值的计算公式可以如下公式(3)所示:
Importance= AUC0- AUC’ (3)
其中,该第一性能信息、第二性能信息和重要度分值均可以为大于0小于1的任意取值,本公开实施例对此不加以限定。
在步骤S306中,若该重要度分值大于或等于预设阈值,则计算机设备确定该任一第二特征为有效特征,该有效特征用于对该内容项排序模型进行训练。
需要说明的是,该预设阈值可以为任意取值,本公开实施例对此不加以限定。计算机设备在确定出该任一第二特征为有效特征后,可以将该任一第二特征确定为内容项排序模型后续使用的第一特征,以提高内容项排序模型的预估准确性。
在步骤S307中,若该重要度分值小于预设阈值,则计算机设备确定该任一第二特征为无效特征。
其中,计算机设备在确定出该任一第二特征为无效特征后,可以放弃将该任一第二特征确定为内容项排序模型后续使用的第一特征,避免降低内容项排序模型的预估准确性,并减少后续计算机设备通过内容项排序模型进行预估时的处理压力,提高内容项排序模型的处理速度。
需要说明的是,上述步骤S301至步骤S307是以对多个第二特征中任一第二特征的有效性进行确定为例进行说明的,在该任一第二特征的有效性确定完成后,计算机设备可以通过与上述步骤S303至步骤S307同理的步骤,逐个对剩余的第二特征进行处理,以确定出这多个第二特征的有效性。上述过程可以参见图4所示的流程示意图,图4是根据一示例性实施例示出的一种特征检测方法的流程示意图,通过在步骤401将所有待评估特征加入原有特征集合,即可得到第一特征和第二特征的集合,从而在步骤402中基于第一特征和第二特征的集合,从训练集中获取对应的特征值,得到作为训练数据的特征向量,在步骤403中基于该特征向量来对初始模型进行训练,进而在步骤404中通过测试集对基于初始模型训练得到的内容项排序模型进行测试,得到内容项排序模型的第一性能信息,再在步骤405中选定一个待评估的特征,对其进行Batch内Shuffle操作,基于Batch内Shuffle操作后的测试集数据对内容项排序模型进行测试,以得到被选定的待评估特征的重要度分数,在步骤406中重复步骤405,直至遍历完所有待评估的特征。
需要说明的是,在确定出这多个第二特征的有效性后,可以基于第一用户行为数据中的第一特征,以及被确定为有效特征的第二特征对应的特征向量,来对模型重新进行训练,以得到一个新的模型。例如,可以对初始模型重新进行训练,以得到采用第一特征和被确定为有效特征的第二特征的模型。由于加入了有效的第二特征,该模型相对于仅基于第一特征训练得到的模型而言,准确性有所提高,从而可以提高后续识别、推荐时的准确性。
通过本公开实施例提供的方案,来对特征的有效性进行评估,特征检测速度可以提升20倍以上,极大地提高了特征检测效率。以训练集中包括3亿左右的第一用户行为数据、通过GPU进行训练的模型为例,实验表明,挨个将特征加入原有特征来生成数据,进行训练,在对50个特征进行评估时,需要生成数据50次、训练模型50次、测试集测试50次,因而可能需要3周左右的时间才能评估完50个特征。而使用本公开实施例提供的方案,由于在对初始模型进行训练得到内容项排序模型时,已经是基于包括所有有效特征和待评估特征的特征向量来进行训练的,而后续在单独对各个待评估特征进行评估时,Batch内Shuffle操作并未改变内容项排序模型所使用的特征,因而不再需要重新生成数据、训练模型,只需在测试集中循环测试多次,即可实现对各个待评估特征的有效性的确定,而通常生成数据、训练模型耗时较长,测试模型的耗时较短,本公开实施例提供的方案正好规避掉了耗时较长的训练环节,在对这50个特征进行评估时,只需生成数据1次、训练模型1次、测试集测试50次,只需要不到一天的时间即可实现对这50个特征的有效性的确定,从而极大的提高了特征检测速度和特征检测效率。
本公开实施例提供的方案,通过第二用户行为数据确定内容项排序模型的第一性能信息,由于内容项排序模型基于第一用户行为数据中有效的第一特征和所有待评估的第二特征训练得到,因而第一性能信息可以作为后续评估某一个特征时的参考信息,对任一第二特征进行随机打散处理,随机打散并未改变模型采用的特征,因而无需重新生成数据进行训练,但随机打散相当于对任一第二特征进行随机取值,因而确定出的第二性能信息可以体现任一第二特征对模型的影响,再对比第一性能信息和第二性能信息,即可确定任一第二特征对模型的影响是正向的还是负向的,从而提高特征检测的效率。
图5是根据一示例性实施例示出的一种特征检测装置的框图,参见图5,该装置包括:
训练单元501,被配置为执行基于多个第一用户行为数据的多个特征向量,对初始模型进行训练,得到内容项排序模型,一个特征向量对应于一个第一用户行为数据的多个第一特征和多个待评估的第二特征,该多个第一用户行为数据用于表示用户对内容项所进行的互动操作;
第一确定单元502,被配置为执行基于多个第二用户行为数据,确定该内容项排序模型的第一性能信息,该多个第一用户行为数据用于表示用户对内容项所进行的互动操作;
处理单元503,被配置为执行对该多个第二用户行为数据的任一第二特征进行随机打散处理,基于随机打散处理后的第二用户行为数据,确定该内容项排序模型的第二性能信息;
第二确定单元504,被配置为执行基于随机打散处理后的第二用户行为数据,确定该内容项排序模型的第二性能信息;
第三确定单元505,被配置为执行若该第一性能信息与该第二性能信息满足目标条件,则确定该任一第二特征为有效特征,该有效特征用于对该内容项排序模型进行训练。
本公开实施例提供的装置,通过第二用户行为数据确定内容项排序模型的第一性能信息,由于内容项排序模型基于第一用户行为数据中有效的第一特征和所有待评估的第二特征训练得到,因而第一性能信息可以作为后续评估某一个特征时的参考信息,对任一第二特征进行随机打散处理,随机打散并未改变模型采用的特征,因而无需重新生成数据进行训练,但随机打散相当于对任一第二特征进行随机取值,因而确定出的第二性能信息可以体现任一第二特征对模型的影响,再对比第一性能信息和第二性能信息,即可确定任一第二特征对模型的影响是正向的还是负向的,从而提高特征检测的效率。
在一种可能的实现方式中,该第一性能信息和该第二性能信息中任一性能信息的确定过程包括:
基于多个第二用户行为数据,确定该内容项排序模型的混淆矩阵;
基于该混淆矩阵,确定该内容项排序模型的假正类率和真正类率;
基于该假正类率和该真正类率,确定受试者工作特征曲线;
基于该受试者工作特征曲线,确定该内容项排序模型的性能信息。
在一种可能的实现方式中,该处理单元503,被配置为执行对于任意两个第二用户行为数据,保持除该任一第二特征外的特征对应的特征值不变,交换该任意两个第二用户行为数据中任一第二特征对应的特征值。
在一种可能的实现方式中,该第三确定单元505包括分值确定子单元和特征确定子单元;
该分值确定子单元,被配置为执行基于该第一性能信息和该第二性能信息,确定该任一第二特征的重要度分值,该重要度分值用于表示该内容项排序模型在采用该任一第二特征与未采用该任一第二特征时的准确性差距;
该特征确定子单元,被配置为执行若该重要度分值大于或等于预设阈值,则确定该任一第二特征为有效特征。
在一种可能的实现方式中,该分值确定子单元,被配置为执行将该第一性能信息与该第二性能信息的差值,确定为该任一第二特征的重要度分值。
在一种可能的实现方式中,该第三确定单元505,还被配置为执行若该第一性能信息与该第二性能信息不满足目标条件,则确定该任一第二特征为无效特征。
在示例性实施例中,还提供了一种计算机设备,该计算机设备可以提供为一种终端,还可以提供为一种服务器,本公开实施例对此不加以限定,终端和服务器的结构分别可以参见图6和图7所示的实施例。
图6是根据一示例性实施例示出的一种终端600的框图。该终端600可以是:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端600包括有:一个或多个处理器601和一个或多个存储器602。
处理器601可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器601可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器601还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器602中的非暂态的计算机可读存储介质用于存储至少一个程序代码,该至少一个程序代码用于被处理器601所执行以实现本公开中方法实施例提供的特征检测方法。
在一些实施例中,终端600还可选包括有:外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地,外围设备包括:射频电路604、显示屏605、摄像头组件606、音频电路607、定位组件608和电源609中的至少一种。
外围设备接口603可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中,处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上;在一些其他实施例中,处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路604用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路604包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路604还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本公开对此不加以限定。
显示屏605用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时,显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时,显示屏605还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏605可以为一个,设置终端600的前面板;在另一些实施例中,显示屏605可以为至少两个,分别设置在终端600的不同表面或呈折叠设计;在再一些实施例中,显示屏605可以是柔性显示屏,设置在终端600的弯曲表面上或折叠面上。甚至,显示屏605还可以设置成非矩形的不规则图形,也即异形屏。显示屏605可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件606用于采集图像或视频。可选地,摄像头组件606包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器601进行处理,或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路607还可以包括耳机插孔。
定位组件608用于定位终端600的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于:加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。
加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号,控制显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器612可以检测终端600的机体方向及转动角度,陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器613可以设置在终端600的侧边框和/或显示屏605的下层。当压力传感器613设置在终端600的侧边框时,可以检测用户对终端600的握持信号,由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在显示屏605的下层时,由处理器601根据用户对显示屏605的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器614用于采集用户的指纹,由处理器601根据指纹传感器614采集到的指纹识别用户的身份,或者,由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器601授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置终端600的正面、背面或侧面。当终端600上设置有物理按键或厂商Logo时,指纹传感器614可以与物理按键或厂商Logo集成在一起。
光学传感器615用于采集环境光强度。在一个实施例中,处理器601可以根据光学传感器615采集的环境光强度,控制显示屏605的显示亮度。具体地,当环境光强度较高时,调高显示屏605的显示亮度;当环境光强度较低时,调低显示屏605的显示亮度。在另一个实施例中,处理器601还可以根据光学传感器615采集的环境光强度,动态调整摄像头组件606的拍摄参数。
接近传感器616,也称距离传感器,通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中,当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时,由处理器601控制显示屏605从亮屏状态切换为息屏状态;当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时,由处理器601控制显示屏605从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图6中示出的结构并不构成对终端600的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图7是根据一示例性实施例示出的一种服务器700的框图,该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(Central ProcessingUnits,CPU)701和一个或多个的存储器702,其中,该一个或多个存储器702中存储有至少一条程序代码,该至少一条程序代码由该一个或多个处理器701加载并执行以实现上述各个方法实施例提供的特征检测方法。当然,该服务器700还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器700还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器602和存储器702,上述指令可由终端600的处理器601或服务器700的处理器701执行以完成上述特征检测方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,该非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品,包括一条或多条指令,该一条或多条指令可以由终端600的处理器601或服务器700的处理器701执行,以完成上述实施例中提供的特征检测方法的方法步骤。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (14)

1.一种特征检测方法,其特征在于,所述方法包括:
基于多个第一用户行为数据的多个特征向量进行训练,得到内容项排序模型,一个特征向量对应于一个第一用户行为数据的多个第一特征和多个待评估的第二特征,所述多个第一用户行为数据用于表示用户对内容项所进行的互动操作;
基于多个第二用户行为数据,确定所述内容项排序模型的第一性能信息,所述多个第二用户行为数据用于表示用户对内容项所进行的互动操作;
对所述多个第二用户行为数据的任一第二特征进行随机打散处理,基于随机打散处理后的第二用户行为数据,确定所述内容项排序模型的第二性能信息;
若所述第一性能信息与所述第二性能信息满足目标条件,则确定所述任一第二特征为有效特征,所述有效特征用于对所述内容项排序模型进行训练。
2.根据权利要求1所述的特征检测方法,其特征在于,所述第一性能信息和所述第二性能信息中任一性能信息的确定过程包括:
基于多个第二用户行为数据,确定所述内容项排序模型的混淆矩阵;
基于所述混淆矩阵,确定所述内容项排序模型的假正类率和真正类率;
基于所述假正类率和所述真正类率,确定受试者工作特征曲线;
基于所述受试者工作特征曲线,确定所述内容项排序模型的性能信息。
3.根据权利要求1所述的特征检测方法,其特征在于,所述对所述多个第二用户行为数据的任一第二特征进行随机打散处理包括:
对于任意两个第二用户行为数据,保持除所述任一第二特征外的特征对应的特征值不变,交换所述任意两个第二用户行为数据中任一第二特征对应的特征值。
4.根据权利要求1所述的特征检测方法,其特征在于,所述若所述第一性能信息与所述第二性能信息满足目标条件,则确定所述任一第二特征为有效特征包括:
基于所述第一性能信息和所述第二性能信息,确定所述任一第二特征的重要度分值,所述重要度分值用于表示所述内容项排序模型在采用所述任一第二特征与未采用所述任一第二特征时的准确性差距;
若所述重要度分值大于或等于预设阈值,则确定所述任一第二特征为有效特征。
5.根据权利要求4所述的特征检测方法,其特征在于,所述基于所述第一性能信息和所述第二性能信息,确定所述任一第二特征的重要度分值包括:
将所述第一性能信息与所述第二性能信息的差值,确定为所述任一第二特征的重要度分值。
6.根据权利要求1所述的特征检测方法,其特征在于,所述对所述多个第二用户行为数据的任一第二特征进行随机打散处理,基于随机打散处理后的第二用户行为数据,确定所述内容项排序模型的第二性能信息之后,所述方法还包括:
若所述第一性能信息与所述第二性能信息不满足目标条件,则确定所述任一第二特征为无效特征。
7.一种特征检测装置,其特征在于,所述装置包括:
训练单元,被配置为执行基于多个第一用户行为数据的多个特征向量进行训练,得到内容项排序模型,一个特征向量对应于一个第一用户行为数据的多个第一特征和多个待评估的第二特征,所述多个第一用户行为数据用于表示用户对内容项所进行的互动操作;
第一确定单元,被配置为执行基于多个第二用户行为数据,确定所述内容项排序模型的第一性能信息,所述多个第二用户行为数据用于表示用户对内容项所进行的互动操作;
处理单元,被配置为执行对所述多个第二用户行为数据的任一第二特征进行随机打散处理,基于随机打散处理后的第二用户行为数据,确定所述内容项排序模型的第二性能信息;
第二确定单元,被配置为执行基于随机打散处理后的第二用户行为数据,确定所述内容项排序型的第二性能信息;
第三确定单元,被配置为执行若所述第一性能信息与所述第二性能信息满足目标条件,则确定所述任一第二特征为有效特征,所述有效特征用于对所述内容项排序模型进行训练。
8.根据权利要求7所述的特征检测装置,其特征在于,所述第一性能信息和所述第二性能信息中任一性能信息的确定过程包括:
基于多个第二用户行为数据,确定所述内容项排序模型的混淆矩阵;
基于所述混淆矩阵,确定所述内容项排序模型的假正类率和真正类率;
基于所述假正类率和所述真正类率,确定受试者工作特征曲线;
基于所述受试者工作特征曲线,确定所述内容项排序模型的性能信息。
9.根据权利要求7所述的特征检测装置,其特征在于,所述处理单元,被配置为执行对于任意两个第二用户行为数据,保持除所述任一第二特征外的特征对应的特征值不变,交换所述任意两个第二用户行为数据中任一第二特征对应的特征值。
10.根据权利要求7所述的特征检测装置,其特征在于,所述第三确定单元包括分值确定子单元和特征确定子单元;
所述分值确定子单元,被配置为执行基于所述第一性能信息和所述第二性能信息,确定所述任一第二特征的重要度分值,所述重要度分值用于表示所述内容项排序模型在采用所述任一第二特征与未采用所述任一第二特征时的准确性差距;
所述特征确定子单元,被配置为执行若所述重要度分值大于或等于预设阈值,则确定所述任一第二特征为有效特征。
11.根据权利要求10所述的特征检测装置,其特征在于,所述分值确定子单元,被配置为执行将所述第一性能信息与所述第二性能信息的差值,确定为所述任一第二特征的重要度分值。
12.根据权利要求7所述的特征检测装置,其特征在于,所述第三确定单元,还被配置为执行若所述第一性能信息与所述第二性能信息不满足目标条件,则确定所述任一第二特征为无效特征。
13.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至6中任一项所述的特征检测方法。
14.一种存储介质,其特征在于,当所述存储介质中的指令由计算机设备的处理器执行时,使得电子设备能够执行如权利要求1至6中任一项所述的特征检测方法。
CN202010859791.9A 2020-08-24 2020-08-24 特征检测方法、装置、计算机设备及存储介质 Active CN112001442B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010859791.9A CN112001442B (zh) 2020-08-24 2020-08-24 特征检测方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010859791.9A CN112001442B (zh) 2020-08-24 2020-08-24 特征检测方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN112001442A CN112001442A (zh) 2020-11-27
CN112001442B true CN112001442B (zh) 2024-03-19

Family

ID=73471458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010859791.9A Active CN112001442B (zh) 2020-08-24 2020-08-24 特征检测方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN112001442B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113110833A (zh) * 2021-04-15 2021-07-13 成都新希望金融信息有限公司 机器学习模型可视化建模方法、装置、设备及存储介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339619A (zh) * 2008-08-11 2009-01-07 重庆大学 用于模式分类的动态特征选择方法
CN106326904A (zh) * 2015-06-16 2017-01-11 富士通株式会社 获取特征排序模型的装置和方法以及特征排序方法
CN107729915A (zh) * 2017-09-08 2018-02-23 第四范式(北京)技术有限公司 用于确定机器学习样本的重要特征的方法及系统
CN108292414A (zh) * 2016-01-15 2018-07-17 微软技术许可有限责任公司 数据中心中的部署的自动推荐
CN108960434A (zh) * 2018-06-28 2018-12-07 第四范式(北京)技术有限公司 基于机器学习模型解释来分析数据的方法及装置
CN109948671A (zh) * 2019-03-04 2019-06-28 腾讯科技(深圳)有限公司 图像分类方法、装置、存储介质以及内窥镜成像设备
CN110020714A (zh) * 2018-01-10 2019-07-16 阿里巴巴集团控股有限公司 模型训练及数据分析方法、装置、设备以及存储介质
CN110162693A (zh) * 2019-03-04 2019-08-23 腾讯科技(深圳)有限公司 一种信息推荐的方法以及服务器
CN110175644A (zh) * 2019-05-27 2019-08-27 恒安嘉新(北京)科技股份公司 特征选择方法、装置、电子设备、及存储介质
CN110533114A (zh) * 2019-09-02 2019-12-03 北京师范大学 一种基于正交回归和特征加权的有监督特征选择方法
CN110598105A (zh) * 2019-09-10 2019-12-20 腾讯科技(深圳)有限公司 一种基于概率采样的推荐方法、装置、设备及介质
CN110766513A (zh) * 2019-09-19 2020-02-07 北京三快在线科技有限公司 信息排序方法、装置、电子设备及可读存储介质
CN110909756A (zh) * 2018-09-18 2020-03-24 苏宁 用于医学图像识别的卷积神经网络模型训练方法和装置
CN111242310A (zh) * 2020-01-03 2020-06-05 腾讯科技(北京)有限公司 特征有效性评估方法、装置、电子设备及存储介质
CN111475730A (zh) * 2020-04-09 2020-07-31 腾讯科技(北京)有限公司 基于人工智能的信息推荐方法、装置、电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200134364A1 (en) * 2018-10-31 2020-04-30 Allstate Insurance Company Simultaneous Hyper Parameter and Feature Selection Optimization Using Evolutionary Boosting Machines

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339619A (zh) * 2008-08-11 2009-01-07 重庆大学 用于模式分类的动态特征选择方法
CN106326904A (zh) * 2015-06-16 2017-01-11 富士通株式会社 获取特征排序模型的装置和方法以及特征排序方法
CN108292414A (zh) * 2016-01-15 2018-07-17 微软技术许可有限责任公司 数据中心中的部署的自动推荐
CN107729915A (zh) * 2017-09-08 2018-02-23 第四范式(北京)技术有限公司 用于确定机器学习样本的重要特征的方法及系统
CN110020714A (zh) * 2018-01-10 2019-07-16 阿里巴巴集团控股有限公司 模型训练及数据分析方法、装置、设备以及存储介质
CN108960434A (zh) * 2018-06-28 2018-12-07 第四范式(北京)技术有限公司 基于机器学习模型解释来分析数据的方法及装置
CN110909756A (zh) * 2018-09-18 2020-03-24 苏宁 用于医学图像识别的卷积神经网络模型训练方法和装置
CN109948671A (zh) * 2019-03-04 2019-06-28 腾讯科技(深圳)有限公司 图像分类方法、装置、存储介质以及内窥镜成像设备
CN110162693A (zh) * 2019-03-04 2019-08-23 腾讯科技(深圳)有限公司 一种信息推荐的方法以及服务器
CN110175644A (zh) * 2019-05-27 2019-08-27 恒安嘉新(北京)科技股份公司 特征选择方法、装置、电子设备、及存储介质
CN110533114A (zh) * 2019-09-02 2019-12-03 北京师范大学 一种基于正交回归和特征加权的有监督特征选择方法
CN110598105A (zh) * 2019-09-10 2019-12-20 腾讯科技(深圳)有限公司 一种基于概率采样的推荐方法、装置、设备及介质
CN110766513A (zh) * 2019-09-19 2020-02-07 北京三快在线科技有限公司 信息排序方法、装置、电子设备及可读存储介质
CN111242310A (zh) * 2020-01-03 2020-06-05 腾讯科技(北京)有限公司 特征有效性评估方法、装置、电子设备及存储介质
CN111475730A (zh) * 2020-04-09 2020-07-31 腾讯科技(北京)有限公司 基于人工智能的信息推荐方法、装置、电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于特征选择谱聚类和优化支持向量机的短期风速预测;张国维;王丙乾;;陕西电力(第02期);全文 *
深度学习目标检测方法综述;赵永强;饶元;董世鹏;张君毅;;中国图象图形学报(第04期);全文 *

Also Published As

Publication number Publication date
CN112001442A (zh) 2020-11-27

Similar Documents

Publication Publication Date Title
CN111476306B (zh) 基于人工智能的物体检测方法、装置、设备及存储介质
CN111079576B (zh) 活体检测方法、装置、设备及存储介质
CN110471858B (zh) 应用程序测试方法、装置及存储介质
CN111696532B (zh) 语音识别方法、装置、电子设备以及存储介质
CN111737573A (zh) 资源推荐方法、装置、设备及存储介质
CN111127509B (zh) 目标跟踪方法、装置和计算机可读存储介质
CN108320756B (zh) 一种检测音频是否是纯音乐音频的方法和装置
WO2020249025A1 (zh) 身份信息的确定方法、装置及存储介质
WO2022057435A1 (zh) 基于搜索的问答方法及存储介质
CN110059686B (zh) 字符识别方法、装置、设备及可读存储介质
CN111104980B (zh) 确定分类结果的方法、装置、设备及存储介质
CN111581958A (zh) 对话状态确定方法、装置、计算机设备及存储介质
CN113918767A (zh) 视频片段定位方法、装置、设备及存储介质
CN110503160B (zh) 图像识别方法、装置、电子设备及存储介质
CN110166275B (zh) 信息处理方法、装置及存储介质
CN112001442B (zh) 特征检测方法、装置、计算机设备及存储介质
CN110232417B (zh) 图像识别方法、装置、计算机设备及计算机可读存储介质
CN111563201A (zh) 内容推送方法、装置、服务器及存储介质
CN113744736B (zh) 命令词识别方法、装置、电子设备及存储介质
CN114817709A (zh) 排序方法、装置、设备及计算机可读存储介质
CN109829067B (zh) 音频数据处理方法、装置、电子设备及存储介质
CN115221888A (zh) 实体提及的识别方法、装置、设备及存储介质
CN112487162A (zh) 确定文本语义信息的方法、装置、设备以及存储介质
CN112214115A (zh) 输入方式的识别方法、装置、电子设备及存储介质
CN112308104A (zh) 异常识别方法、装置及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant