CN105224998A - 一种针对于预估模型的数据处理方法及装置 - Google Patents

一种针对于预估模型的数据处理方法及装置 Download PDF

Info

Publication number
CN105224998A
CN105224998A CN201510564920.0A CN201510564920A CN105224998A CN 105224998 A CN105224998 A CN 105224998A CN 201510564920 A CN201510564920 A CN 201510564920A CN 105224998 A CN105224998 A CN 105224998A
Authority
CN
China
Prior art keywords
feature
name
stack features
descriptor
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510564920.0A
Other languages
English (en)
Inventor
马越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Internet Security Software Co Ltd
Original Assignee
Beijing Kingsoft Internet Security Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Internet Security Software Co Ltd filed Critical Beijing Kingsoft Internet Security Software Co Ltd
Priority to CN201510564920.0A priority Critical patent/CN105224998A/zh
Publication of CN105224998A publication Critical patent/CN105224998A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种针对于预估模型的数据处理方法及装置。该方法包括:获得从用户日志数据中提取的多个目标特征的目标特征名;获得历史特征信息;对目标特征名和所述历史特征信息进行累加处理,得到待利用的多组特征描述信息,该待利用的多组特征描述信息中的特征名各不相同且特征值基于该历史特征信息确定;将该待利用的多组特征描述信息作为输入数据对该预估模型进行训练,得到作为输出数据的多组特征描述信息。本方案在降低训练数据的数据量大小的同时保证特征的完整,从而保证所训练预估模型的精准性。

Description

一种针对于预估模型的数据处理方法及装置
技术领域
本发明涉及预估模型训练技术领域,特别是涉及一种针对于预估模型的数据处理方法及装置。
背景技术
现有技术中,预估模型是常用的一种模型,能够为数据应用提供针对性的参考信息,例如:作为预估模型的广告点击率预估模型能够为广告投放提供针对性的参考信息。在预估模型的每次训练时,需要利用到基于上次模型训练的输出数据所形成的历史特征信息和基于本次训练所对应数据采集时间段内的用户操作所生成的用户日志数据,其中,历史特征信息中包括多组特征描述信息,特征描述信息与特征一一对应,每一特征描述信息中包括特征名和训练所得的特征值;具体训练过程为:从用户日志数据中所需的目标特征的目标特征名,并且,构建每一目标特征各自所对应的特征描述信息,其中,每一目标特征所对应的特征描述信息包括目标特征名和默认特征值,每一目标特征所对应的默认特征值均相同;进而,将历史特征信息中的多组特征描述信息和目标特征所对应的特征描述信息作为该广告点击率预估模型的输入数据进行训练,得到输出数据。其中,历史特征信息中的特征描述信息所涉及的特征和目标特征通常存在相同的。
对于预估模型而言,由于每次训练会增加新的特征,累积到一定数量,训练数据的数据量将过大,导致训练时无法一次性读入到内存,因此,为了避免数据量过大,所使用的历史特征信息所涉及的时段有限,不能无限累积,但是,这样会带来特征缺少,使得所训练的预估模型的精准性受到影响。
发明内容
本发明实施例的目的在于提供一种针对于预估模型的数据处理方法及装置,以在降低训练数据的数据量大小的同时保证特征的完整,从而保证所训练预估模型的精准性。具体技术方案如下:
第一方面,本发明实施例提供了一种针对于预估模型的数据处理方法,包括:
获得从用户日志数据中提取的多个目标特征的目标特征名,其中,所述用户日志数据为基于本次训练所对应数据采集时间段内的用户操作所生成的日志数据;
获得历史特征信息,其中,所述历史特征信息为预先保存的且基于上一次训练所述预估模型所得的输出数据所生成;
对所述目标特征名和所述历史特征信息进行累加处理,得到待利用的多组特征描述信息,其中,所述待利用的多组特征描述信息中的特征名各不相同且特征值基于所述历史特征信息确定;
将所述待利用的多组特征描述信息作为输入数据对所述预估模型进行训练,得到作为输出数据的多组特征描述信息。
可选的,本发明实施例所提供的一种针对于预估模型的数据处理方法还包括:
基于作为输出数据的多组特征描述信息,按照预定更新方式更新所述历史特征信息;其中,所述预定更新方式包括:
分别判断作为输出数据的每一组特征描述信息中的特征名是否与所述历史特征信息所包括一组特征描述信息中的特征名相同,如果相同,将所述历史特征信息所包括该组特征描述信息中的特征值更新为作为输出数据的该组特征描述信息中的特征值,否则,在所述历史特征信息中增加作为输出数据的该组特征描述信息。
可选的,所述待利用的多组特征描述信息中的特征名均为目标特征名。
可选的,所述待利用的多组特征描述信息中的特征名包括目标特征名和所述历史特征信息所包括的特征描述信息中与所述目标特征名不同的特征名。
可选的,待利用的任意一组的特征描述信息中特征值的确定方式,包括:
如果待利用的当前组的特征描述信息中的特征名与所述历史特征信息所包括的一组特征描述信息中的特征名相同,则该当前组的特征描述信息中的特征值为所述历史特征信息中该组特征描述信息中的特征值;
如果待利用的当前组的特征描述信息中的特征名与所述历史特征信息所包括特征描述信息中的特征名均不相同,则该当前组的特征描述信息中的特征名所对应的特征值为默认值。
可选的,所述将所述待利用的多组特征描述信息作为输入数据对所述预估模型进行训练,得到作为输出数据的多组特征描述信息,包括:
确定训练所述预估模型所需的目标函数,其中,所述目标函数为:f(特征名,特征值)=训练后特征值;
基于待利用的多组特征描述信息和所述目标函数,得到所述多组特征描述信息中的特征名所对应的训练后特征值;
将所述待利用的多组特征描述信息中的特征名和相应训练后特征值构成作为输出数据的特征描述信息。
第二方面,本发明实施例提供了一种针对于预估模型的数据处理装置,包括:
目标特征名获得模块,用于获得从用户日志数据中提取的多个目标特征的目标特征名,其中,所述用户日志数据为基于本次训练所对应数据采集时间段内的用户操作所生成的日志数据;
历史特征信息获得模块,用于获得历史特征信息,其中,所述历史特征信息为预先保存的且基于上一次训练所述预估模型所得的输出数据所生成;
累加处理模块,用于对所述目标特征名和所述历史特征信息进行累加处理,得到待利用的多组特征描述信息,其中,所述待利用的多组特征描述信息中的特征名各不相同且特征值基于所述历史特征信息确定;
模型训练模块,用于将所述待利用的多组特征描述信息作为输入数据对所述预估模型进行训练,得到作为输出数据的多组特征描述信息。
可选的,本发明实施例所提供的一种针对于预估模型的数据处理装置,还包括:
历史特征信息更新模块,用于基于作为输出数据的多组特征描述信息,按照预定更新方式更新所述历史特征信息;其中,所述预定更新方式包括:
分别判断作为输出数据的每一组特征描述信息中的特征名是否与所述历史特征信息所包括一组特征描述信息中的特征名相同,如果相同,将所述历史特征信息所包括该组特征描述信息中的特征值更新为作为输出数据的该组特征描述信息中的特征值,否则,在所述历史特征信息中增加作为输出数据的该组特征描述信息。
可选的,所述待利用的多组特征描述信息中的特征名均为目标特征名。
可选的,所述待利用的多组特征描述信息中的特征名包括目标特征名和所述历史特征信息所包括的特征描述信息中与所述目标特征名不同的特征名。
可选的,待利用的任意一组的特征描述信息中特征值的确定方式,包括:
如果待利用的当前组的特征描述信息中的特征名与所述历史特征信息所包括的一组特征描述信息中的特征名相同,则该当前组的特征描述信息中的特征值为所述历史特征信息中该组特征描述信息中的特征值;
如果待利用的当前组的特征描述信息中的特征名与所述历史特征信息所包括特征描述信息中的特征名均不相同,则该当前组的特征描述信息中的特征名所对应的特征值为默认值。
可选的,所述模型训练模块包括:
目标函数确定单元,用于确定训练所述预估模型所需的目标函数,其中,所述目标函数为:f(特征名,特征值)=训练后特征值;
特征值获得单元,用于基于待利用的多组特征描述信息和所述目标函数,得到所述多组特征描述信息中的特征名所对应的训练后特征值;
输出数据确定单元,用于将所述待利用的多组特征描述信息中的特征名和相应训练后特征值构成作为输出数据的特征描述信息
本发明实施例中,在针对于预估模型的数据处理过程中,获得从用户日志数据中提取的多个目标特征的目标特征名;获得历史特征信息,该历史特征信息为预先保存的且基于上一次训练该预估模型所得的输出数据所生成;对该目标特征名和所述历史特征信息进行累加处理,得到待利用的多组特征描述信息,该待利用的多组特征描述信息中的特征名各不相同且特征值基于该历史特征信息确定;将该待利用的多组特征描述信息作为输入数据对该预估模型进行训练,得到作为输出数据的多组特征描述信息。可见,本方案在针对于预估模型的数据处理过程中,通过累加方式使得待利用的多组特征描述信息中的特征名各不相同,以避免每次对同一特征的重复训练,实现了在降低训练数据的数据量大小的同时保证特征的完整,从而保证所训练预估模型的精准性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的一种针对于预估模型的数据处理方法的流程图;
图2为本发明实施例所提供的一种针对于预估模型的数据处理方法的另一流程图;
图3为本发明实施例所提供的一种针对于预估模型的数据处理装置的结构示意图;
图4为本发明实施例所提供的一种针对于预估模型的数据处理装置的另一结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了在降低训练数据的数据量大小的同时保证特征的完整,从而保证所训练预估模型的精准性,本发明实施例提供了一种针对于预估模型的数据处理方法及装置。其中,所述的预估模型可以包括:广告点击率预估模型,还可以包括其他的利用历史输出数据的预估模型。
下面首先对本发明实施例所提供的一种针对于预估模型的数据处理方法进行介绍。
需要说明的是,本发明实施例所提供的一种针对于预估模型的数据处理方法应用于电子设备中,并且,在实际应用中,该电子设备可以包括终端设备、服务器等等,其中,该电子设备可以为:台式电脑、笔记本电脑、平板电脑等等。
如图1所示,本发明实施例所提供的一种针对于预估模型的数据处理方法,可以包括:
S101,获得从用户日志数据中提取的多个目标特征的目标特征名;
在针对于预估模型的数据处理过程中,可以获得本次训练预估模型所需的、从用户日志数据中提取的多个目标特征的目标特征名;其中,该用户日志数据为基于本次训练所对应数据采集时间段内的用户操作所生成的日志数据。其中,在实际应用中,数据采集时间段可以根据实际情况进行设定,例如:1天、2天、1周等等,并且,预估模型的每次训练所对应的数据采集时间段可以相同或不同,这都是合理的。
其中,训练预估模型所需的用户日志数据基于预估模型的具体类型所确定,并且,训练预估模型所需的特征也基于预估模型的具体类型所确定。例如:对于预估模型为广告点击率预估模型而言,训练广告点击率预估模型所需的用户日志数据可以为用户访问网站内网页所生成的日志数据;训练广告点击率预估模型所需的特征可以包括用户的国籍、年龄、性别、语言等用户身份属性,而用户身份属性所对应的属性值可以作为特征名;或者,特征也可以包括:广告的时长、类型等等广告属性,而广告属性所对应的属性值可以作为特征名;或者,特征还可以包括:当前访问环境如网速等环境属性,而环境属性所对应的属性值可以作为特征名。
并且,需要强调的是,对于任意一个特征而言,其可以仅仅包括一个属性,例如,用户身份属性这类属性中的一个属性、广告属性这类属性中的一个属性、环境属性这类属性中的一个属性,等等;其也可以包括一类属性的多个属性,例如:用户身份属性这类属性中的多个属性、广告属性这类属性中的多个属性或环境属性这类属性中的多个属性;其还可以多类属性中的多个属性,例如:用户身份属性、广告属性和环境属性中至少两类属性中的多个属性。
需要强调的是,上述以广告点击率预估模型进行特征说明仅仅是为了方便理解,而本发明实施例所涉及的预估模型包括但不局限于广告点击率预估模型。
S102,获得历史特征信息;其中,该历史特征信息为预先保存的且基于上一次训练该预估模型所得的输出数据所生成;
其中,该历史特征信息包括多组特征描述信息,特征描述信息与特征一一对应,每一组特征描述信息均包括相应特征所对应的特征名和特征值。其中,历史特征信息所涵盖的特征各不相同,即特征描述信息中的特征名各不相同。
需要说明的是,本次训练该预估模型所需的历史特征信息为:上一次训练该预估模型所得输出数据和上一次训练该预估模型所需的历史特征信息进行数据更新处理所得,具体过程为:分别判断作为上一次训练所得的输出数据的每一组特征描述信息中的特征名是否与上一次训练所需历史特征信息所包括一组特征描述信息中的特征名相同,如果相同,将上一次训练所需的历史特征信息所包括该组特征描述信息中的特征值更新为作为上一次训练所得的输出数据的该组特征描述信息中的特征值,否则,在上一次训练所需的历史特征信息中增加作为上一次训练所得的输出数据的该组特征描述信息。所谓的特征的特征值举例而言:当预估模型为广告点击率预估模型时,该特征值可以为点击概率,即特征具有相应特征名时广告被用户点击的概率。
其中,本实施例中,S101先于S102执行,需要强调的是,S101和S102并不存在严格的执行顺序,例如:S101和S102可以同时执行,或者,S102先于S101执行,这都是合理的。
S103,对该目标特征名和该历史特征信息进行累加处理,得到待利用的多组特征描述信息,其中,该待利用的多组特征描述信息中的特征名各不相同且特征值基于该历史特征信息确定;
在获得本次训练所需的目标特征名和历史特征信息后,并不直接利用这些数据进行预估模型的训练,而是首先对该目标特征名和该历史特征信息进行累加处理,得到待利用的多组特征描述信息,通过累加处理所得到的多组特征描述信息中特征名各不相同且特征值基于该历史特征信息确定。由于对历史特征信息和目标特征名进行累加,这样使得待利用的多组特征描述信息中的特征名各不相同,以避免每次对同一特征的重复训练,实现了在降低训练数据的数据量大小的同时保证特征的完整。
S104,将该待利用的多组特征描述信息作为输入数据对该预估模型进行训练,得到作为输出数据的多组特征描述信息。
其中,在对该目标特征名和该历史特征信息进行累加处理,得到待利用的多组特征描述信息后,可以将该待利用的多组特征描述信息作为输入数据对该预估模型进行训练,得到作为输出数据的多组特征描述信息,完成该预估模型的本次训练。其中,作为输出数据的多组特征描述信息中的特征名等同于作为输入数据的该待利用的多组特征描述信息中的特征名,但是,作为输出数据的多组特征描述信息中的特征值为训练所得的值,即,由于经过模型训练,对于同一特征名的作为输出数据的特征描述信息和作为输入数据的特征描述信息而言,特征值可能相同或不同。
本发明实施例中,在针对于预估模型的数据处理过程中,获得从用户日志数据中提取的多个目标特征的目标特征名;获得历史特征信息,该历史特征信息为预先保存的且基于上一次训练该预估模型所得的输出数据所生成;对该目标特征名和所述历史特征信息进行累加处理,得到待利用的多组特征描述信息,该待利用的多组特征描述信息中的特征名各不相同且特征值基于该历史特征信息确定;将该待利用的多组特征描述信息作为输入数据对该预估模型进行训练,得到作为输出数据的多组特征描述信息。可见,本方案在针对于预估模型的数据处理过程中,通过累加方式使得待利用的多组特征描述信息中的特征名各不相同,以避免每次对同一特征的重复训练,实现了在降低训练数据的数据量大小的同时保证特征的完整,从而保证所训练预估模型的精准性。
更进一步的,为了下一次的预估模型的训练,需要利用作为输出数据的多组特征描述信息,对本次训练预估模型所需的历史特征信息进行更新;在图1所示实施例的基础上,如图2所示,本发明实施例所提供的一种针对于预估模型的数据处理方法还可以包括:
S105,基于作为输出数据的多组特征描述信息,按照预定更新方式更新该历史特征信息。
为了下一次的预估模型的训练,在获得作为输出数据的多组特征描述信息后,可以按照预定更新方式更新该历史特征信息,以便更新后的历史特征信息作为下一次训练预估模型所需的历史特征信息。其中,所述预定更新方式包括:
分别判断作为输出数据的每一组特征描述信息中的特征名是否与该历史特征信息所包括一组特征描述信息中的特征名相同,如果相同,将该历史特征信息所包括该组特征描述信息中的特征值更新为作为输出数据的该组特征描述信息中的特征值,否则,在该历史特征信息中增加作为输出数据的该组特征描述信息。
其中,基于作为输出数据的多组特征描述信息,按照预定更新方式更新该历史特征信息后,更新后的历史特征信息可以作为下次训练预估模型所需的历史特征信息,以此类推。举例而言:如果作为输出数据的多组特征描述信息为:(特征名a,特征值1)、(特征名b,特征值2)、(特征名c,特征值3)和(特征名d,特征值4),历史特征信息包括的多组特征描述信息包括:(特征名a,特征值2)、(特征名b,特征值1)、(特征名e,特征值3)和(特征名f,特征值4),在对历史特征信息进行更新时,对于作为输出数据的特征描述信息(特征名a,特征值1)而言,由于历史特征信息中存在特征描述信息(特征名a,特征值2),因此,将历史特征信息中的特征描述信息(特征名a,特征值2)更新为(特征名a,特征值1),同样的,对于作为输出数据的特征描述信息(特征名b,特征值2)而言,由于历史特征信息中存在特征描述信息(特征名b,特征值1),因此,将历史特征信息中的特征描述信息(特征名b,特征值1)更新为(特征名b,特征值2),而对于作为输出数据的特征描述信息(特征名c,特征值3)和(特征名d,特征值4),由于历史特征信息中不存在特征名c和特征名d所对应的特征描述信息,因此,将作为输出数据的特征描述信息(特征名c,特征值3)和(特征名d,特征值4)增加至该历史特征信息中。
具体的,对该目标特征名和该历史特征信息进行累加处理后,所得到的待利用的多组特征描述信息中的特征名各不相同,在一种具体实现方式中,所述待利用的多组特征描述信息中的特征名可以均为目标特征名。
具体的,对该目标特征名和该历史特征信息进行累加处理后,所得到的待利用的多组特征描述信息中的特征名各不相同,在另一种实现方式中,所述待利用的多组特征描述信息中的特征名包括目标特征名和该历史特征信息所包括的特征描述信息中与该目标特征名不同的特征名。
具体的,对该目标特征名和该历史特征信息进行累加处理后,所得到的待利用的多组特征信息中的特征值基于该历史特征信息确定,在一种具体实现方式中,待利用的任意一组的特征描述信息中特征值的确定方式,可以包括:
如果待利用的当前组的特征描述信息中的特征名与该历史特征信息所包括的一组特征描述信息中的特征名相同,则该当前组的特征描述信息中的特征值为该历史特征信息中该组特征描述信息中的特征值;
如果待利用的当前组的特征描述信息中的特征名与该历史特征信息所包括特征描述信息中的特征名均不相同,则该当前组的特征描述信息中的特征名所对应的特征值为默认值。
其中,默认值可以根据实际情况进行设定,例如,该默认值可以为0,当然并不局限于此。举例而言:如果待利用的多组特征描述信息中的特征名包括特征名a、特征名b、特征名c,历史特征信息包括的多组特征描述信息包括:(特征名a,特征值2)、(特征名b,特征值1)、(特征名e,特征值3)和(特征名f,特征值4),那么,对于待利用的多组特征描述信息而言,特征名a所对应的特征值被设置为特征值2,特征名b所对应的特征值被设置为特征值2,特征名c所对应的特征值被设置为默认值。
具体的,所述将所述待利用的多组特征描述信息作为输入数据对所述预估模型进行训练,得到作为输出数据的多组特征描述信息,可以包括:
确定训练所述预估模型所需的目标函数,其中,所述目标函数为:f(特征名,特征值)=训练后特征值;
基于待利用的多组特征描述信息和所述目标函数,得到所述多组特征描述信息中的特征名所对应的训练后特征值;
将所述待利用的多组特征描述信息中的特征名和相应训练后特征值构成作为输出数据的特征描述信息。
其中,目标函数的具体形式可以根据实际情况进行设定,在此不作赘述。另外,上述的将所述待利用的多组特征描述信息作为输入数据对该预估模型进行训练,得到作为输出数据的多组特征描述信息的具体实现方式仅仅作为示例,并不应该构成对本发明实施例的限定;并且,上述的将所述待利用的多组特征描述信息作为输入数据对所述预估模型进行训练,得到作为输出数据的多组特征描述信息的具体实现方式为现有技术中所存在的实现方式,由于不涉及发明点,在此不作赘述。
相应于上述方法实施例,本发明实施例还提供了一种针对于预估模型的数据处理装置,如图3所示,该装置可以包括:
目标特征名获得模块310,用于获得从用户日志数据中提取的多个目标特征的目标特征名,其中,所述用户日志数据为基于本次训练所对应数据采集时间段内的用户操作所生成的日志数据;
历史特征信息获得模块320,用于获得历史特征信息,其中,所述历史特征信息为预先保存的且基于上一次训练所述预估模型所得的输出数据所生成;
累加处理模块330,用于对所述目标特征名和所述历史特征信息进行累加处理,得到待利用的多组特征描述信息,其中,所述待利用的多组特征描述信息中的特征名各不相同且特征值基于所述历史特征信息确定;
模型训练模块340,用于将所述待利用的多组特征描述信息作为输入数据对所述预估模型进行训练,得到作为输出数据的多组特征描述信息。
本发明实施例中,在针对于预估模型的数据处理过程中,获得从用户日志数据中提取的多个目标特征的目标特征名;获得历史特征信息,该历史特征信息为预先保存的且基于上一次训练该预估模型所得的输出数据所生成;对该目标特征名和所述历史特征信息进行累加处理,得到待利用的多组特征描述信息,该待利用的多组特征描述信息中的特征名各不相同且特征值基于该历史特征信息确定;将该待利用的多组特征描述信息作为输入数据对该预估模型进行训练,得到作为输出数据的多组特征描述信息。可见,本方案在针对于预估模型的数据处理过程中,通过累加方式使得待利用的多组特征描述信息中的特征名各不相同,以避免每次对同一特征的重复训练,实现了在降低训练数据的数据量大小的同时保证特征的完整,从而保证所训练预估模型的精准性。
更进一步的,如图4所示,本发明实施例所提供的针对于预估模型的数据处理装置还可以包括:
历史特征信息更新模块350,用于基于作为输出数据的多组特征描述信息,按照预定更新方式更新所述历史特征信息;其中,所述预定更新方式包括:
分别判断作为输出数据的每一组特征描述信息中的特征名是否与所述历史特征信息所包括一组特征描述信息中的特征名相同,如果相同,将所述历史特征信息所包括该组特征描述信息中的特征值更新为作为输出数据的该组特征描述信息中的特征值,否则,在所述历史特征信息中增加作为输出数据的该组特征描述信息。
在第一种实现方式中,所述待利用的多组特征描述信息中的特征名均为目标特征名。
在第二种实现方式中,所述待利用的多组特征描述信息中的特征名包括目标特征名和所述历史特征信息所包括的特征描述信息中与所述目标特征名不同的特征名。
具体的,待利用的任意一组的特征描述信息中特征值的确定方式,可以包括:
如果待利用的当前组的特征描述信息中的特征名与所述历史特征信息所包括的一组特征描述信息中的特征名相同,则该当前组的特征描述信息中的特征值为所述历史特征信息中该组特征描述信息中的特征值;
如果待利用的当前组的特征描述信息中的特征名与所述历史特征信息所包括特征描述信息中的特征名均不相同,则该当前组的特征描述信息中的特征名所对应的特征值为默认值。
具体的,所述模型训练模块340,可以包括:
目标函数确定单元,用于确定训练所述预估模型所需的目标函数,其中,所述目标函数为:f(特征名,特征值)=训练后特征值;
特征值获得单元,用于基于待利用的多组特征描述信息和所述目标函数,得到所述多组特征描述信息中的特征名所对应的训练后特征值;
输出数据确定单元,用于将所述待利用的多组特征描述信息中的特征名和相应训练后特征值构成作为输出数据的特征描述信息。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种针对于预估模型的数据处理方法,其特征在于,包括:
获得从用户日志数据中提取的多个目标特征的目标特征名,其中,所述用户日志数据为基于本次训练所对应数据采集时间段内的用户操作所生成的日志数据;
获得历史特征信息,其中,所述历史特征信息为预先保存的且基于上一次训练所述预估模型所得的输出数据所生成;
对所述目标特征名和所述历史特征信息进行累加处理,得到待利用的多组特征描述信息,其中,所述待利用的多组特征描述信息中的特征名各不相同且特征值基于所述历史特征信息确定;
将所述待利用的多组特征描述信息作为输入数据对所述预估模型进行训练,得到作为输出数据的多组特征描述信息。
2.根据权利要求1所述的方法,其特征在于,还包括:
基于作为输出数据的多组特征描述信息,按照预定更新方式更新所述历史特征信息;其中,所述预定更新方式包括:
分别判断作为输出数据的每一组特征描述信息中的特征名是否与所述历史特征信息所包括一组特征描述信息中的特征名相同,如果相同,将所述历史特征信息所包括该组特征描述信息中的特征值更新为作为输出数据的该组特征描述信息中的特征值,否则,在所述历史特征信息中增加作为输出数据的该组特征描述信息。
3.根据权利要求1或2所述的方法,其特征在于,所述待利用的多组特征描述信息中的特征名均为目标特征名。
4.根据权利要求1或2所述的方法,其特征在于,所述待利用的多组特征描述信息中的特征名包括目标特征名和所述历史特征信息所包括的特征描述信息中与所述目标特征名不同的特征名。
5.根据权利要求1或2所述的方法,其特征在于,待利用的任意一组的特征描述信息中特征值的确定方式,包括:
如果待利用的当前组的特征描述信息中的特征名与所述历史特征信息所包括的一组特征描述信息中的特征名相同,则该当前组的特征描述信息中的特征值为所述历史特征信息中该组特征描述信息中的特征值;
如果待利用的当前组的特征描述信息中的特征名与所述历史特征信息所包括特征描述信息中的特征名均不相同,则该当前组的特征描述信息中的特征名所对应的特征值为默认值。
6.一种针对于预估模型的数据处理装置,其特征在于,包括:
目标特征名获得模块,用于获得从用户日志数据中提取的多个目标特征的目标特征名,其中,所述用户日志数据为基于本次训练所对应数据采集时间段内的用户操作所生成的日志数据;
历史特征信息获得模块,用于获得历史特征信息,其中,所述历史特征信息为预先保存的且基于上一次训练所述预估模型所得的输出数据所生成;
累加处理模块,用于对所述目标特征名和所述历史特征信息进行累加处理,得到待利用的多组特征描述信息,其中,所述待利用的多组特征描述信息中的特征名各不相同且特征值基于所述历史特征信息确定;
模型训练模块,用于将所述待利用的多组特征描述信息作为输入数据对所述预估模型进行训练,得到作为输出数据的多组特征描述信息。
7.根据权利要求6所述的装置,其特征在于,还包括:
历史特征信息更新模块,用于基于作为输出数据的多组特征描述信息,按照预定更新方式更新所述历史特征信息;其中,所述预定更新方式包括:
分别判断作为输出数据的每一组特征描述信息中的特征名是否与所述历史特征信息所包括一组特征描述信息中的特征名相同,如果相同,将所述历史特征信息所包括该组特征描述信息中的特征值更新为作为输出数据的该组特征描述信息中的特征值,否则,在所述历史特征信息中增加作为输出数据的该组特征描述信息。
8.根据权利要求6或7所述的装置,其特征在于,所述待利用的多组特征描述信息中的特征名均为目标特征名。
9.根据权利要求6或7所述的装置,其特征在于,所述待利用的多组特征描述信息中的特征名包括目标特征名和所述历史特征信息所包括的特征描述信息中与所述目标特征名不同的特征名。
10.根据权利要求6或7所述的装置,其特征在于,待利用的任意一组的特征描述信息中特征值的确定方式,包括:
如果待利用的当前组的特征描述信息中的特征名与所述历史特征信息所包括的一组特征描述信息中的特征名相同,则该当前组的特征描述信息中的特征值为所述历史特征信息中该组特征描述信息中的特征值;
如果待利用的当前组的特征描述信息中的特征名与所述历史特征信息所包括特征描述信息中的特征名均不相同,则该当前组的特征描述信息中的特征名所对应的特征值为默认值。
CN201510564920.0A 2015-09-08 2015-09-08 一种针对于预估模型的数据处理方法及装置 Pending CN105224998A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510564920.0A CN105224998A (zh) 2015-09-08 2015-09-08 一种针对于预估模型的数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510564920.0A CN105224998A (zh) 2015-09-08 2015-09-08 一种针对于预估模型的数据处理方法及装置

Publications (1)

Publication Number Publication Date
CN105224998A true CN105224998A (zh) 2016-01-06

Family

ID=54993954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510564920.0A Pending CN105224998A (zh) 2015-09-08 2015-09-08 一种针对于预估模型的数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN105224998A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109039691A (zh) * 2018-06-01 2018-12-18 平安科技(深圳)有限公司 服务器、预测系统调用量的方法及存储介质
CN109274991A (zh) * 2018-09-07 2019-01-25 苏宁智能终端有限公司 智能电视的内存管理方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103996088A (zh) * 2014-06-10 2014-08-20 苏州工业职业技术学院 基于多维特征组合逻辑回归的广告点击率预测方法
CN104091276A (zh) * 2013-12-10 2014-10-08 深圳市腾讯计算机系统有限公司 在线分析点击流数据的方法和相关装置及系统
CN104536983A (zh) * 2014-12-08 2015-04-22 北京掌阔技术有限公司 一种预测广告点击率的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104091276A (zh) * 2013-12-10 2014-10-08 深圳市腾讯计算机系统有限公司 在线分析点击流数据的方法和相关装置及系统
CN103996088A (zh) * 2014-06-10 2014-08-20 苏州工业职业技术学院 基于多维特征组合逻辑回归的广告点击率预测方法
CN104536983A (zh) * 2014-12-08 2015-04-22 北京掌阔技术有限公司 一种预测广告点击率的方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109039691A (zh) * 2018-06-01 2018-12-18 平安科技(深圳)有限公司 服务器、预测系统调用量的方法及存储介质
CN109274991A (zh) * 2018-09-07 2019-01-25 苏宁智能终端有限公司 智能电视的内存管理方法及系统
CN109274991B (zh) * 2018-09-07 2020-11-10 苏宁智能终端有限公司 智能电视的内存管理方法及系统

Similar Documents

Publication Publication Date Title
CN111221726A (zh) 一种测试数据生成方法、装置、存储介质和智能设备
CN109344170B (zh) 流数据处理方法、系统、电子设备及可读存储介质
CN110515951B (zh) 一种bom标准化方法、系统及电子设备和存储介质
CN103927314B (zh) 一种数据批量处理的方法和装置
CN103049271A (zh) 自动生成api接口的描述文档的方法和装置
CN104133765B (zh) 网络活动的测试用例发送方法及测试用例服务器
US20170046447A1 (en) Information Category Obtaining Method and Apparatus
CN110472109B (zh) 动态化数据质量分析方法及平台系统
CN110472154A (zh) 一种资源推送方法、装置、电子设备及可读存储介质
CN104866985A (zh) 快递单号识别方法、装置及系统
CN112182359A (zh) 推荐模型的特征管理方法及系统
CN103077254A (zh) 网页获取方法和装置
CN110738038A (zh) 合同文本的生成方法、装置、设备及计算机可读存储介质
CN105354721A (zh) 一种识别机器操作行为的方法及装置
CN112085087A (zh) 业务规则生成的方法、装置、计算机设备及存储介质
CN112860662A (zh) 数据血缘关系建立方法、装置、计算机设备及存储介质
CN104573127B (zh) 评估数据差异性的方法和系统
CN108021713B (zh) 一种文档聚类的方法和装置
CN105224998A (zh) 一种针对于预估模型的数据处理方法及装置
CN111523921B (zh) 漏斗分析方法、分析设备、电子设备及可读存储介质
CN106651408B (zh) 一种数据分析方法及装置
CN104506636A (zh) 一种数据同步方法及装置
CN107071553A (zh) 一种修改视频语音的方法、装置和计算机可读存储介质
CN116028446A (zh) 时序数据文件化管理方法、装置、设备及其存储介质
CN115860835A (zh) 基于人工智能的广告推荐方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160106