具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
第一实施例
如图1所示,是本发明第一实施例提供的服务器100的结构框图。服务器100可以是,但不限于,网络服务器、数据库服务器、云端服务器等等。于本发明实施例中,该服务器100中可与多个客户端(如手机、平板电脑等)连接,可获取客户端的用户的信息,例如用户的身份信息、行为属性信息等,行为属性信息指用户寻求所需求的信息时所表现出来的需求表达、信息获取、信息利用等行为的信息。本发明的服务器100可将多个应用程序进行排序并将排序、筛选后的应用程序推送至客户端。
所述服务器100包括应用程序的排序装置200、存储器101、存储控制器102以及处理器103。所述存储器101、存储控制器102以及处理器103,各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述应用程序的排序装置200包括至少一个可以软件或固件(firmware)的形式存储于所述存储器101中或固化在所述服务器100的操作系统(operating system,OS)中的软件功能模块。所述处理器103用于执行存储器101中存储的可执行模块,例如,所述应用程序的排序装置200包括的软件功能模块或计算机程序。
所述存储器101中可以预先存储从客户端获取的用户的身份信息、行为属性信息,以供处理器调用。其中,存储器101可以是,但不限于,随机存取存储器(Random AccessMemory,RAM),只读存储器Read Only Memory,ROM),可编程只读存储器(ProgrammableRead-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。其中,存储器101用于存储程序,所述处理器103在接收到执行指令后,执行所述程序,本发明实施例任一实施例揭示的流过程定义的服务器100所执行的方法可以应用于处理器103中,或者由处理器103实现。
处理器103可能是一种集成电路芯片,具有信号的处理能力。上述的处理器103可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器103也可以是任何常规的处理器等。
图2示出了本发明第一实施例提供的应用程序的排序装置200的结构框图。请参阅图2,本实施例中的应用程序的排序装置200包括转换模块201、贡献价值计算模块202、点击系数计算模块203以及排序模块204。一般的,应用程序包括至少一条输入数据,例如用户的身份信息,用户的身份信息可以包括用户性别、用户来源、用户使用的浏览器等等。
所述转换模块201,用于对所述至少一条输入数据进行编码转换,其中,每条所述输入数据均包括至少一个数据特征。本实施例中,采用独热码(one-hot code)进行编码转换,将每条输入数据中的每一个数据特征均进行转换。
例如,输入数据为:用户性别:[“男”,“女”];用户来源:[“中国”,“美国”,“英国”];用户使用的浏览器:[“UC”,“Chrome”,“Safari”]。其中,“男”,“女”,“中国”,“美国”,“英国”,“UC”,“Chrome”,“Safari”为该条输入数据的8个数据特征。原始的输入变量可表示为[1,0,2](表示:用户性别:“女”,用户来源:“中国”,用户使用的浏览器:“Safari”)。采用独热码将此条输入数据进行转换(即对此条输入数据的8个数据特征进行转换)后,编码转换后的输入数据可表示为[0,1,1,0,0,0,0,1](每一位表示一个数据特征对应的取值,数据特征出现则对应的取值为1,不出现为0)。
所述贡献价值计算模块202,用于计算编码转换后的每个所述数据特征对所述应用程序的点击系数(被点击的概率)的贡献价值。贡献价值可以理解为,数据特征对应用程序的点击系数贡献的比例。
具体的,所述贡献价值计算模块202通过计算每条所述输入数据对每个所述数据特征的贡献价值,例如
可通过公式计算第i条输入数据对第j数据特征的贡献价值wi,j。
其中,i=1,2,…,n;j=1,2,…,m;m表示所有输入数据中的数据特征的总个数,所述n表示所述输入数据的总条数;vi,j表示第i条输入数据在第j数据特征的取值,取值为0或1。
贡献价值计算模块202通过计算每个所述数据特征对所述应用程序的点击系数的贡献度,例如
可通过公式计算第j数据特征对所述应用程序的点击系数的贡献度fvj。贡献度为一变量,对该贡献度进行处理(如修正等)之后,即为数据特征对所述应用程序的点击系数的贡献价值。其中,ti表示第i条输入数据是否产生点击行为的取值,取值为0或1,其中,取值1表示第i条输入数据产生点击行为,取值0表示第i条输入数据未产生点击行为。
贡献价值计算模块202通过计算每个所述数据特征在所述至少一条输入数据中出现的频率,例如
可通过公式计算第j数据特征在所述至少一条输入数据中出现(即编码转换之后的第j数据特征对应的取值为1)的频率fqj。
贡献价值计算模块202通过计算每条所述输入数据的平均点击率,例如
可通过公式计算每条所述输入数据的平均点击率μ。
贡献价值计算模块202依据每个所述数据特征对所述应用程序的点击系数的贡献度、每个所述数据特征在所述至少一条输入数据中出现的频率以及每条所述输入数据的平均点击率,并可以通过公式
fj=(fvj-μ)*(1-δ+δ*fqj),
计算每个数据特征对所述应用程序的点击系数的贡献价值,fj表示第j数据特征对所述应用程序的点击系数的贡献价值。
其中,μ表示每条所述输入数据的平均点击率,δ表示特征价值调整参数,δ根据场景自定义取值,取值范围为[0,1]。
所述贡献价值计算模块202还包括修正单元2021,所述修正单元2021用于依据每条所述输入数据的平均点击率对每个所述数据特征对所述应用程序的点击系数的贡献度进行修正。本实施例中,通过每个数据特征对所述应用程序的点击系数的贡献度减去每条所述输入数据的平均点击率进行修正,可以表示为fvj-μ。
在公式fj=(fvj-μ)*(1-δ+δ*fqj)中,加上第二个括内的公式1-δ+δ*fqj是因为:在统计学中试验次数越大,变量所呈现的概率分布越真实。因此在考虑数据特征的价值时需要考虑数据特征出现频率,本文用δ来调节对这个因素考虑的重视程度,当δ越接近1时,表示越重视出现次数多的特征的价值,当δ越接近0时,表示越倾向于考虑数据特征真实的点击系数。
所述点击系数计算模块203,用于依据所述贡献价值以及所述数据特征的总数计算所述应用程序的点击系数。通过所述贡献价值计算模块202可以计算出每个所述数据特征对所述应用程序的点击系数的贡献价值,然后再将每个所述数据特征对所述应用程序的点击系数的贡献价值进行求和,即可得到所有的数据特征对应用程序的点击系数的贡献价值,也即是应用程序的点击系数。可以表示为
其中,p(x)为所有的数据特征对应用程序的点击系数的贡献价值,x={xj},xj表示第j数据特征。
所述排序模块204,用于依据所述应用程序的点击系数对至少一个所述应用程序进行排序。由于所述点击系数计算模块203可以对每一个应用程序的点击系数进行计算,并且其大小可以进行由高到低的排序,点击系数越大该应用程序被点击的可能性越大。因此所述排序模块204可以将服务器100内圈定的(推荐的)应用程序进行排序,并可以推送至客户端。
第二实施例
请参考图3,是本发明第二实施例提供的应用程序的排序方法的流程示意图。需要说明的是,本发明所述的应用程序的排序方法并不以图3以及以下所述的具体顺序为限制。应当理解,在其它实施例中,本发明所述的应用程序的排序方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。所述应用程序的排序方法应用于服务器100。下面将对图3所示的具体流程进行详细阐述。请参阅图3,所述应用程序的排序方法包括:
步骤S101,对输入数据进行编码转换。
输入数据的条数至少为一条,可以为多条,其中,每条输入数据均包括至少一个数据特征。本实施例中,采用独热码对输入数据进行编码转换,将每条输入数据中的每一个数据特征均进行转换。
本发明实施例中,步骤S101可以由转换模块201执行。
步骤S102,计算编码转换后的每个所述数据特征对所述应用程序的点击系数的贡献价值。
本发明实施例中,步骤S102可以由贡献价值计算模块202执行。
对于步骤S102,以下通过具体的流程步骤进行计算。图4示出了发明第二实施例提供的应用程序的排序方法中计算贡献价值的流程示意图。对步骤S102中的贡献价值的计算方法并不以图4以及以下所述的具体顺序为限制。请参考图4,计算步骤包括:
步骤S1021,计算每条所述输入数据中对每个所述数据特征的贡献价值。可通过公式计算第i条输入数据对第j数据特征的贡献价值wi,j。
其中,i=1,2,…,n;j=1,2,…,m;m表示所有输入数据中的数据特征的总个数,所述n表示所述输入数据的总条数;vi,j表示第i条输入数据在第j数据特征的取值,取值为0或1。
步骤S1022,依据每条所述输入数据对每个所述数据特征的贡献价值计算每个所述数据特征对所述应用程序的点击系数的贡献度。
可通过公式计算第j数据特征对所述应用程序的点击系数的贡献度fvj。贡献度为一变量,对该贡献度进行处理(如修正等)之后,即为数据特征对所述应用程序的点击系数的贡献价值。其中,ti表示第i条输入数据是否产生点击行为的取值,取值为0或1,其中,取值1表示第i条输入数据产生点击行为,取值0表示第i条输入数据未产生点击行为。
步骤S1023,计算每个所述数据特征在所述至少一条输入数据中出现的频率。可通过公式计算第j数据特征在所述至少一条输入数据中出现(即编码转换之后的第j数据特征对应的取值为1)的频率fqj。
步骤S1024,计算每条所述输入数据的平均点击率。可通过公式计算每条所述输入数据的平均点击率μ。
步骤S1025,计算每个数据特征对所述应用程序的点击系数的贡献价值。依据每个所述数据特征对所述应用程序的点击系数的贡献度、每个所述数据特征在所述至少一条输入数据中出现的频率以及每条所述输入数据的平均点击率,并通过公式
fj=(fvj-μ)*(1-δ+δ*fqj),
计算每个数据特征对所述应用程序的点击系数的贡献价值,fj表示第j数据特征对所述应用程序的点击系数的贡献价值。其中,μ表示每条所述输入数据的平均点击率,δ表示特征价值调整参数,δ根据场景自定义取值,取值范围为[0,1]。
应用程序的排序方法中,还可通过每条所述输入数据的平均点击率对每个所述数据特征对所述应用程序的点击系数的贡献度进行修正。本实施例中,通过每个数据特征对所述应用程序的点击系数的贡献度减去每条所述输入数据的平均点击率进行修正,可以表示为fvj-μ。
步骤S103,依据所述贡献价值以及所述数据特征的总数计算所述应用程序的点击系数。
通过步骤S102可以计算出每个所述数据特征对所述应用程序的点击系数的贡献价值,然后再将每个所述数据特征对所述应用程序的点击系数的贡献价值进行求和,即可得到所有的数据特征对应用程序的点击系数的贡献价值,也即是应用程序的点击系数。可以表示为
其中,p(x)为所有的数据特征对应用程序的点击系数的贡献价值,x={xj},xj表示第j数据特征。
本发明实施例中,步骤S103可以由点击系数计算模块203执行。
步骤S104,依据所述应用程序的点击系数对至少一个所述应用程序进行排序。由于所述点击系数计算模块203可以对每一个应用程序的点击系数进行计算,并且其大小可以进行由高到低的排序,点击系数越大该应用程序被点击的可能性就越大。因此可以将服务器100内圈定的(推荐的)应用程序进行排序,并可以推送至客户端。
本发明实施例中,步骤S104可以由排序模块204执行。
综上所述,本发明的应用程序的排序方法、装置及服务器,先对应用程序的输入数据进行编码转换,再求出每一个数据特征对应用程序的点击系数的贡献价值,最后将所有的数据特征的贡献价值累加,求出每一个应用程序的点击系数,依据每一个应用程序的点击系数,对应用程序进行排序。采用本发明的应用程序的排序方法和装置,可以在占用少量机器资源的短时间内计算出百万级以上数据特征的排序模型,并且在实际运用的效果中,可以达到与逻辑斯蒂回归排序算法相当的水平,节约资源、时间,计算准确度高。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。