CN104615790A - 特征推荐方法和装置 - Google Patents

特征推荐方法和装置 Download PDF

Info

Publication number
CN104615790A
CN104615790A CN201510102582.9A CN201510102582A CN104615790A CN 104615790 A CN104615790 A CN 104615790A CN 201510102582 A CN201510102582 A CN 201510102582A CN 104615790 A CN104615790 A CN 104615790A
Authority
CN
China
Prior art keywords
feature
text feature
low
estimation model
rank matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510102582.9A
Other languages
English (en)
Other versions
CN104615790B (zh
Inventor
夏粉
程陈
张潼
金国庆
吕荣聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510102582.9A priority Critical patent/CN104615790B/zh
Publication of CN104615790A publication Critical patent/CN104615790A/zh
Application granted granted Critical
Publication of CN104615790B publication Critical patent/CN104615790B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种特征推荐方法和装置,该特征推荐方法包括:根据输出的文本特征估计模型确定样本数据中文本特征的目标值,所述输出的文本特征估计模型是根据从训练数据中选取的最优组合特征获得的;根据所述目标值对所述样本数据中的文本特征进行排序,并按照目标值由高到低的顺序对所述样本数据中的文本特征进行推荐。本发明可以实现自动选取有效的组合特征,省时省力,有效地解决了现有的人工特征选择过程中费时费力的难题,并能提高推荐系统的有效性。

Description

特征推荐方法和装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种特征推荐方法和装置。
背景技术
现有技术中,文本推荐系统选取特征时通常采用以下方式:
1、通过分解机(Factorization Machines;以下简称:FM)选取,其中FM是一个泛化的模型,主要用于对所有两两交互特征进行建模,交互特征的参数通过共享的低秩向量内积获得;
2、通过随机分割树算法选取,具体地,用文本信息根据特定文本值将用户物品矩阵分离为子矩阵,对于每个子矩阵再进行矩阵分解,最终的预测值是T个生成决策树预测的平均值。
但是,FM中模拟了所有两两交互特征,却没有选取有效的特征组合,而在现实中,可能某些交互特征是无效的,在FM模型中,所有交互特征的权重是通过共享的低秩向量内积来获取的,如果某个交互特征无效,就会导致对参数预估以及最终结果预测的不准确。
另外,随机分割树算法中也没有讨论对于组合特征选取的问题,当有几十个离散特征的时候,随机分割树算法并不十分有效。
综上所述,现有技术存在不能有效选取组合特征,推荐文本特征的有效性较低的问题。
发明内容
本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种特征推荐方法。该方法可以自动选取有效的组合特征,省时省力,并能提高推荐系统的有效性。
本发明的第二个目的在于提出一种特征推荐装置。
为了实现上述目的,本发明第一方面实施例的特征推荐方法,包括:根据输出的文本特征估计模型确定样本数据中文本特征的目标值,所述输出的文本特征估计模型是根据从训练数据中选取的最优组合特征获得的;根据所述目标值对所述样本数据中的文本特征进行排序,并按照目标值由高到低的顺序对所述样本数据中的文本特征进行推荐。
本发明实施例的特征推荐方法,根据从训练数据中选取的最优组合特征获得的文本特征估计模型确定样本数据中文本特征的目标值,根据上述目标值对样本数据中的文本特征进行排序,并按照目标值由高到低的顺序对上述样本数据中的文本特征进行推荐。从而可以实现自动选取有效的组合特征,省时省力,有效地解决了现有的人工特征选择过程中费时费力的难题,并能提高推荐系统的有效性。
为了实现上述目的,本发明第二方面实施例的特征推荐装置,包括:确定模块,用于根据输出的文本特征估计模型确定样本数据中文本特征的目标值,所述输出的文本特征估计模型是根据从训练数据中选取的最优组合特征获得的;排序模块,用于根据所述确定模块确定的目标值对所述样本数据中的文本特征进行排序;推荐模块,用于按照目标值由高到低的顺序对所述样本数据中的文本特征进行推荐。
本发明实施例的特征推荐装置,确定模块根据从训练数据中选取的最优组合特征获得的文本特征估计模型确定样本数据中文本特征的目标值,排序模块根据上述目标值对样本数据中的文本特征进行排序,推荐模块按照目标值由高到低的顺序对上述样本数据中的文本特征进行推荐。从而可以实现自动选取有效的组合特征,省时省力,有效地解决了现有的人工特征选择过程中费时费力的难题,并能提高推荐系统的有效性。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明特征推荐方法一个实施例的流程图;
图2为本发明获得输出的文本特征估计模型一个实施例的流程图;
图3为本发明特征推荐装置一个实施例的结构示意图;
图4为本发明特征推荐装置另一个实施例的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1为本发明特征推荐方法一个实施例的流程图,如图1所示,该特征推荐方法可以包括:
步骤101,根据输出的文本特征估计模型确定样本数据中文本特征的目标值,上述输出的文本特征估计模型是根据从训练数据中选取的最优组合特征获得的。
步骤102,根据上述目标值对样本数据中的文本特征进行排序,并按照目标值由高到低的顺序对所述样本数据中的文本特征进行推荐。
上述实施例中,根据从训练数据中选取的最优组合特征获得的文本特征估计模型确定样本数据中文本特征的目标值,根据上述目标值对样本数据中的文本特征进行排序,并按照目标值由高到低的顺序对上述样本数据中的文本特征进行推荐。从而可以实现自动选取有效的组合特征,省时省力,有效地解决了现有的人工特征选择过程中费时费力的难题,并能提高推荐系统的有效性。
具体地,在本发明图1所示实施例步骤101之前,还可以包括:根据从训练数据中选取的最优组合特征获得上述输出的文本特征估计模型的步骤。图2为本发明获得输出的文本特征估计模型一个实施例的流程图,如图2所示,可以包括:
步骤201,获得训练数据的文本特征。
步骤202,从上述文本特征中穷举选取最优的组合特征。
具体地,从上述文本特征中穷举选取最优的组合特征可以为:通过贪婪特征选择算法从上述文本特征中穷举选取最优的组合特征。
本实施例中,对于每个特征,通过计算其加入当前的文本特征估计模型后带来的增益来选择,举例来说,该增益可以为训练数据的拟合精度。通常,为了简化计算,可固定当前的文本特征估计模型,将特征加入后对其参数求解,获得更新后的文本特征估计模型。在这种情况下,参数求解往往非常方便,在一些指定的拟合精度下甚至有闭式解。下面对上述贪婪特征选择算法进行具体介绍。
从Boosting的角度,希望搜索一个方程f来最小化式(1)的目标方程L:
L = Σ i = 1 N l ( y ^ s ( x i ) , y i ) + Ω ( f ) - - - ( 1 )
其中,l是损失函数,可以用逻辑损失函数或者平方损失函数,这个用来衡量估计方程的预测值和真实目标值之间的差距;N为总的样本数;Ω(f)用于衡量文本特征估计模型的复杂度,一般用一阶或者二阶正则化项; 为更新后的文本特征估计模型,为当前的文本特征估计模型;fs(x)就是在第s步要搜索的方程,使得目标方程L最小。
为了简化计算,可以在每层选出一个特征,然后固定已经选好的特征,继续选下一个特征,最后所有选出来的特征作为最优的组合特征。本实施例中,假设每次选出2个特征。
下面,可以先启发式的假设函数f(x)的形式如式(2)所示。
f l ( x ) = Π t = 1 l q c i ( t ) ( x ) - - - ( 2 )
其中,l代表当前的层数,第l层的f(x)方程从第1层累乘到第l层,每层选出特征ci(t),这个特征对应的方程可以如式(3)所示。
q c i ( t ) ( x ) = Σ j ∈ c i ( t ) II [ j ∈ x ] · w tj - - - ( 3 )
其中,II[j∈x]为一个0/1方程,表示如果特征x中含有值j,则II[j∈x]的值为1,否则为0。wtj是第t层特征值j对应的权重。每次选t维组合特征时候,固定前(t-1)维组合特征,选择第t层特征的目标方程L如式(4)所示。
arg min i ( t ) ∈ { 1 , . . . , m } Σ i = 1 N h i ( g i h i - f t - 1 ( x i ) · qc i ( t ) ( x i ) ) 2 + λ Σ θ ∈ Θ θ 2 - - - ( 4 )
式(4)中,m为特征总数,gi和hi分别是目标方程L在样本i处的一阶导数和二阶导数,q方程是在第t层求解的方程,N是总的样本数,ft-1(xi)是t-1层对应的f方程,按照之前的假设,这个值在第t层的时候已知,θ是目标方程L中的参数,这里也就是在第t层所求解的wtj
尽管每次选择特征需要计算所有特征,但可通过一次扫描所有训练数据来同时估算所有特征的相关统计量,然后根据这些统计量计算选择最优特征。
本实施例中,采用智能因子分解机来实现最优的组合特征的选择,智能因子分解机可以很容易地通过多线程和多个集群分布式来并行实现,从而可以大幅提升速度。并且由于特征的相关统计量可以并行计算,这样就能通过多线程分布到一个集群计算机上便于计算。
步骤203,确定上述组合特征中的至少两个特征分别对应的低秩矩阵。
步骤204,对上述至少两个特征分别对应的低秩矩阵的内积进行迭代,以生成加项。
具体地,本实施例的一种实现方式中,对上述至少两个特征分别对应的低秩矩阵的内积进行迭代,以生成加项可以为:将上述至少两个特征分别对应的低秩矩阵的秩设置为指定的阶数,上述指定的阶数为大于1的整数,本实施例对上述指定的阶数的大小不作限定;然后,对秩为指定的阶数的低秩矩阵的内积进行迭代,以生成加项。
本实施例的另一种实现方式中,对上述至少两个特征分别对应的低秩矩阵的内积进行迭代,以生成加项可以为:将上述至少两个特征分别对应的低秩矩阵的秩设置为初始值;对秩为初始值的低秩矩阵的内积进行迭代;对秩为初始值的低秩矩阵的秩按照预定的步长进行递增,对秩递增后的低秩矩阵的内积进行迭代,以生成加项。举例来说,上述初始值可以为1,上述预定的步长也可以为1,但这只是本实施例的一种示例,本实施例对上述初始值和上述预定的步长的大小不作限定。
步骤205,利用上述加项更新当前的文本特征估计模型,获得更新后的文本特征估计模型。
步骤206,当更新后的文本特征估计模型满足预定的条件或达到最大迭代次数时,输出获得的文本特征估计模型。
其中,上述预定的条件可以为预定的拟合精度,当然这只是预定的条件的一个示例,本实施例对此不作限定。
上述实施例可以实现自动选取有效的组合特征,省时省力,有效地解决了现有的人工特征选择过程中费时费力的难题。
本发明实施例提供的方法可以通过智能因子分解机(Gradient BoostingFactorization Machine;以下简称:GBFM)实现,本发明实施例提供的方法有效地解决了传统人工特征选择过程中费时费力的难题。智能因子分解机去除了因子在每个被加项共享一个参数的约束,使得获得的文本特征估计模型具有更强的拟合数据能力,并可以通过控制特征选择过程避免文本特征估计模型的过拟合。
智能因子分解机可以将因子的选择过程嵌入算法求解过程中。算法每轮迭代,会自动根据当前模型,从所有特征中贪婪选择一个最优的组合特征作为因子加入并更新模型。
在智能因子分解机中,特征因子的加入方式有两种,一种是作为起始因子加项,另一种是作为加项中的一个乘积项,具体方式取决于模型对于交叉项的控制方式。
本实施例中,作为输入的训练数据可以为其中,其中S是总的训练数据的集合,xi和yi分别是训练数据中样本i对应的特征和目标值,N是样本的个数。
算法开始的时候估计方程用来初始化,这个通常可以用逻辑回归的结果。然后,通过贪婪特征选择算法从训练数据的文本特征中选出最优的组合特征Cp和Cq,贪婪特征选择算法的详细介绍请参见本发明图2所示实施例中步骤202的描述,在此不再赘述。
接下来,确定上述组合特征中的至少两个特征分别对应的低秩矩阵,本实施例中,Cp对应的低秩矩阵为Vp,Cq对应的低秩矩阵为Vq
每次对上述至少两个特征分别对应的低秩矩阵的内积进行迭代,以生成加项,然后利用上述加项更新当前的文本特征估计模型,获得更新后的文本特征估计模型。
本实施例的一种实现方式中,在生成加项时,可以按照深度优先的方式,优先将加项的阶数添加到指定的阶数,即开始的时候可以指定Vp和Vq的秩为一个固定的阶数,然后生成一个新的加项,直到满足预定的条件(例如:预定的拟合精度)或者达到最大迭代次数;
本实施例的另一种实现方式中,在生成加项时,可以按照宽度优先的方式,先生成初始值的加项,即Vp和Vq秩为初始值(例如:1),然后生成高一阶(例如:秩为2)的加项,直到满足预定的条件(例如:预定的拟合精度)或者达到最大迭代次数。这里相当于每次将Vp和Vq的秩设定为初始值(例如:1),当之后迭代步骤选出同样的特征时候,相当于秩增加预定步长(例如:1)。
本实施例中,可以按照宽度和深度竞争的方式,每次添加特征尝试深度和宽度方向,比较两个方向添加的效果再决定最终采用哪种方式进行添加。
本实施例中,利用上述加项更新当前的文本特征估计模型,获得的更新后的文本特征估计模型可以如式(5)所示。
y ^ s ( x ) = y ^ s - 1 ( x ) + &Sigma; i &Element; C p &Sigma; j &Element; C q II [ i , j &Element; x ] < V p i , V q j > - - - ( 5 )
其中,为更新后的文本特征估计模型,为当前的文本特征估计模型,为上述加项,Cp为选取的最优组合特征中的一个特征,Cq为选取的最优组合特征中另一个特征,Vp为Cp对应的低秩矩阵,Vq为Cq对应的低秩矩阵,的内积,II[i,j∈x]为一个0/1方程,表示如果特征x中含有值i,j,则II[i,j∈x]的值为1,否则为0。
最后,当更新后的文本特征估计模型满足预定的条件(例如:预定的拟合精度)或达到最大迭代次数时,输出获得的文本特征估计模型,这样就可以根据输出的文本特征估计模型确定新的样本数据中文本特征的目标值,从而可以实现自动选取有效的组合特征,省时省力,有效地解决了现有的人工特征选择过程中费时费力的难题,并能提高推荐系统的有效性。
图3为本发明特征推荐装置一个实施例的结构示意图,本实施例中的特征推荐装置可以实现本发明图1所示实施例的流程,如图3所示,该特征推荐装置可以包括:确定模块31、排序模块32和推荐模块33;
其中,确定模块31,用于根据输出的文本特征估计模型确定样本数据中文本特征的目标值,上述输出的文本特征估计模型是根据从训练数据中选取的最优组合特征获得的。
排序模块32,用于根据确定模块31确定的目标值对上述样本数据中的文本特征进行排序;
推荐模块33,用于按照目标值由高到低的顺序对上述样本数据中的文本特征进行推荐。
上述特征推荐装置,确定模块31根据从训练数据中选取的最优组合特征获得的文本特征估计模型确定样本数据中文本特征的目标值,排序模块32根据上述目标值对样本数据中的文本特征进行排序,推荐模块33按照目标值由高到低的顺序对上述样本数据中的文本特征进行推荐。从而可以实现自动选取有效的组合特征,省时省力,有效地解决了现有的人工特征选择过程中费时费力的难题,并能提高推荐系统的有效性。
图4为本发明特征推荐装置另一个实施例的结构示意图,本实施例中的特征推荐装置可以实现本发明图1和/或图2所示实施例的流程,与图3所示的特征推荐装置相比,不同之处在于,图4所示的特征推荐装置还可以包括:获得模块34、选取模块35、生成模块36、更新模块37和输出模块38;
其中,获得模块34,用于获得训练数据的文本特征。
选取模块35,用于从获得模块34获得的文本特征中穷举选取最优的组合特征;本实施例中,选取模块35,具体用于通过贪婪特征选择算法从上述文本特征中穷举选取最优的组合特征。贪婪特征选择算法的具体介绍请参见本发明图2所示实施例步骤202的描述,在此不再赘述。
确定模块31,还用于确定选取模块35选取的组合特征中的至少两个特征分别对应的低秩矩阵;
生成模块36,用于对确定模块31确定的至少两个特征分别对应的低秩矩阵的内积进行迭代,以生成加项;
更新模块37,用于利用生成模块36生成的加项更新当前的文本特征估计模型,获得更新后的文本特征估计模型;
输出模块38,用于当更新模块37更新后的文本特征估计模型满足预定的条件或达到最大迭代次数时,输出获得的文本特征估计模型;其中,上述预定的条件可以为预定的拟合精度,当然这只是预定的条件的一个示例,本实施例对此不作限定。
本实施例中,生成模块36可以包括:设置子模块361和迭代子模块362;
本实施例的一种实现方式中,设置子模块361,用于将上述至少两个特征分别对应的低秩矩阵的秩设置为指定的阶数,上述指定的阶数为大于1的整数,本实施例对上述指定的阶数的大小不作限定;
迭代子模块362,用于对秩为指定的阶数的低秩矩阵的内积进行迭代,以生成加项。
本实施例的另一种实现方式中,设置子模块361,用于将上述至少两个特征分别对应的低秩矩阵的秩设置为初始值;
迭代子模块362,用于对秩为初始值的低秩矩阵的内积进行迭代,对秩为初始值的低秩矩阵的秩按照预定的步长进行递增,并对秩递增后的低秩矩阵的内积进行迭代,以生成加项。举例来说,上述初始值可以为1,上述预定的步长也可以为1,但这只是本实施例的一种示例,本实施例对上述初始值和上述预定的步长的大小不作限定。
本实施例中,更新模块37更新后的文本特征估计模型为: y ^ s ( x ) = y ^ s - 1 ( x ) + &Sigma; i &Element; C p &Sigma; j &Element; C q II [ i , j &Element; x ] < V p i , V q j > ;
其中,为更新后的文本特征估计模型,为当前的文本特征估计模型,为所述加项,Cp为选取的最优组合特征中的一个特征,Cq为选取的最优组合特征中另一个特征,Vp为Cp对应的低秩矩阵,Vq为Cq对应的低秩矩阵,的内积,II[i,j∈x]为一个0/1方程,表示如果特征x中含有值i,j,则II[i,j∈x]的值为1,否则为0。
上述特征推荐装置可以实现自动选取有效的组合特征,省时省力,有效地解决了现有的人工特征选择过程中费时费力的难题,并能提高推荐系统的有效性。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(Programmable Gate Array;以下简称:PGA),现场可编程门阵列(Field ProgrammableGate Array;以下简称:FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (12)

1.一种特征推荐方法,其特征在于,包括:
根据输出的文本特征估计模型确定样本数据中文本特征的目标值,所述输出的文本特征估计模型是根据从训练数据中选取的最优组合特征获得的;
根据所述目标值对所述样本数据中的文本特征进行排序,并按照目标值由高到低的顺序对所述样本数据中的文本特征进行推荐。
2.根据权利要求1所述的方法,其特征在于,根据从训练数据中选取的最优组合特征获得所述输出的文本特征估计模型的步骤包括:
获得训练数据的文本特征;
从所述文本特征中穷举选取最优的组合特征;
确定所述组合特征中的至少两个特征分别对应的低秩矩阵;
对所述至少两个特征分别对应的低秩矩阵的内积进行迭代,以生成加项;
利用所述加项更新当前的文本特征估计模型,获得更新后的文本特征估计模型;
当所述更新后的文本特征估计模型满足预定的条件或达到最大迭代次数时,输出获得的文本特征估计模型。
3.根据权利要求2所述的方法,其特征在于,所述对所述至少两个特征分别对应的低秩矩阵的内积进行迭代,以生成加项包括:
将所述至少两个特征分别对应的低秩矩阵的秩设置为指定的阶数,所述指定的阶数为大于1的整数;
对秩为指定的阶数的低秩矩阵的内积进行迭代,以生成加项。
4.根据权利要求2所述的方法,其特征在于,所述对所述至少两个特征分别对应的低秩矩阵的内积进行迭代,以生成加项包括:
将所述至少两个特征分别对应的低秩矩阵的秩设置为初始值;
对秩为初始值的低秩矩阵的内积进行迭代;
对秩为初始值的低秩矩阵的秩按照预定的步长进行递增,对秩递增后的低秩矩阵的内积进行迭代,以生成加项。
5.根据权利要求2所述的方法,其特征在于,所述利用所述加项更新当前的文本特征估计模型,获得更新后的文本特征估计模型包括:
所述更新后的文本特征估计模型为: y ^ s ( x ) = y ^ s - 1 ( x ) + &Sigma; i &Element; C p &Sigma; j &Element; C q II [ i , j &Element; x ] < V p i , V q j > ;
其中,为更新后的文本特征估计模型,为当前的文本特征估计模型,为所述加项,Cp为选取的最优组合特征中的一个特征,Cq为选取的最优组合特征中另一个特征,Vp为Cp对应的低秩矩阵,Vq为Cq对应的低秩矩阵,的内积,II[i,j∈x]为一个0/1方程,表示如果特征x中含有值i,j,则II[i,j∈x]的值为1,否则为0。
6.根据权利要求2-5任意一项所述的方法,其特征在于,所述从所述文本特征中穷举选取最优的组合特征包括:
通过贪婪特征选择算法从所述文本特征中穷举选取最优的组合特征。
7.一种特征推荐装置,其特征在于,包括:
确定模块,用于根据输出的文本特征估计模型确定样本数据中文本特征的目标值,所述输出的文本特征估计模型是根据从训练数据中选取的最优组合特征获得的;
排序模块,用于根据所述确定模块确定的目标值对所述样本数据中的文本特征进行排序;
推荐模块,用于按照目标值由高到低的顺序对所述样本数据中的文本特征进行推荐。
8.根据权利要求7所述的装置,其特征在于,还包括:
获得模块,用于获得训练数据的文本特征;
选取模块,用于从所述获得模块获得的文本特征中穷举选取最优的组合特征;
所述确定模块,还用于确定所述选取模块选取的组合特征中的至少两个特征分别对应的低秩矩阵;
生成模块,用于对所述确定模块确定的至少两个特征分别对应的低秩矩阵的内积进行迭代,以生成加项;
更新模块,用于利用所述生成模块生成的加项更新当前的文本特征估计模型,获得更新后的文本特征估计模型;
输出模块,用于当所述更新模块更新后的文本特征估计模型满足预定的条件或达到最大迭代次数时,输出获得的文本特征估计模型。
9.根据权利要求8所述的装置,其特征在于,所述生成模块包括:
设置子模块,用于将所述至少两个特征分别对应的低秩矩阵的秩设置为指定的阶数,所述指定的阶数为大于1的整数;
迭代子模块,用于对秩为指定的阶数的低秩矩阵的内积进行迭代,以生成加项。
10.根据权利要求8所述的装置,其特征在于,所述生成模块包括:
设置子模块,用于将所述至少两个特征分别对应的低秩矩阵的秩设置为初始值;
迭代子模块,用于对秩为初始值的低秩矩阵的内积进行迭代,对秩为初始值的低秩矩阵的秩按照预定的步长进行递增,并对秩递增后的低秩矩阵的内积进行迭代,以生成加项。
11.根据权利要求8所述的装置,其特征在于,
所述更新模块更新后的文本特征估计模型为: y ^ s ( x ) = y ^ s - 1 ( x ) + &Sigma; i &Element; C p &Sigma; j &Element; C q II [ i , j &Element; x ] < V p i , V q j > ;
其中,为更新后的文本特征估计模型,为当前的文本特征估计模型,为所述加项,Cp为选取的最优组合特征中的一个特征,Cq为选取的最优组合特征中另一个特征,Vp为Cp对应的低秩矩阵,Vq为Cq对应的低秩矩阵,的内积,II[i,j∈x]为一个0/1方程,表示如果特征x中含有值i,j,则II[i,j∈x]的值为1,否则为0。
12.根据权利要求8-11任意一项所述的装置,其特征在于,
所述选取模块,具体用于通过贪婪特征选择算法从所述文本特征中穷举选取最优的组合特征。
CN201510102582.9A 2015-03-09 2015-03-09 特征推荐方法和装置 Active CN104615790B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510102582.9A CN104615790B (zh) 2015-03-09 2015-03-09 特征推荐方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510102582.9A CN104615790B (zh) 2015-03-09 2015-03-09 特征推荐方法和装置

Publications (2)

Publication Number Publication Date
CN104615790A true CN104615790A (zh) 2015-05-13
CN104615790B CN104615790B (zh) 2018-05-04

Family

ID=53150232

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510102582.9A Active CN104615790B (zh) 2015-03-09 2015-03-09 特征推荐方法和装置

Country Status (1)

Country Link
CN (1) CN104615790B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105809204A (zh) * 2016-03-31 2016-07-27 网易有道信息技术(北京)有限公司 机器学习中的模型训练方法和设备
CN107562758A (zh) * 2016-06-30 2018-01-09 北京金山安全软件有限公司 一种推送信息的方法、装置及电子设备
CN108549649A (zh) * 2018-02-28 2018-09-18 中国农业大学 一种基于季节特征和位置特征的乡村旅游推荐方法与系统
CN109670976A (zh) * 2018-12-18 2019-04-23 泰康保险集团股份有限公司 特征因子确定方法及设备
CN111274480A (zh) * 2020-01-17 2020-06-12 腾讯科技(北京)有限公司 用于内容推荐的特征组合方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609433A (zh) * 2011-12-16 2012-07-25 北京大学 基于用户日志进行查询推荐的方法及系统
CN102999589A (zh) * 2012-11-15 2013-03-27 Tcl集团股份有限公司 一种推荐排序的方法及系统
CN103678647A (zh) * 2013-12-20 2014-03-26 Tcl集团股份有限公司 一种实现信息推荐的方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609433A (zh) * 2011-12-16 2012-07-25 北京大学 基于用户日志进行查询推荐的方法及系统
CN102999589A (zh) * 2012-11-15 2013-03-27 Tcl集团股份有限公司 一种推荐排序的方法及系统
CN103678647A (zh) * 2013-12-20 2014-03-26 Tcl集团股份有限公司 一种实现信息推荐的方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BORNHE: "Netflix 推荐系统:第二部分", 《HTTPS://WWW.DOUBAN.COM/NOTE/247017269/》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105809204A (zh) * 2016-03-31 2016-07-27 网易有道信息技术(北京)有限公司 机器学习中的模型训练方法和设备
CN105809204B (zh) * 2016-03-31 2021-05-18 网易有道信息技术(北京)有限公司 机器学习中的模型训练方法和设备
CN107562758A (zh) * 2016-06-30 2018-01-09 北京金山安全软件有限公司 一种推送信息的方法、装置及电子设备
CN107562758B (zh) * 2016-06-30 2020-12-01 北京金山安全软件有限公司 一种推送信息的方法、装置及电子设备
CN108549649A (zh) * 2018-02-28 2018-09-18 中国农业大学 一种基于季节特征和位置特征的乡村旅游推荐方法与系统
CN108549649B (zh) * 2018-02-28 2021-01-15 中国农业大学 一种基于季节特征和位置特征的乡村旅游推荐方法与系统
CN109670976A (zh) * 2018-12-18 2019-04-23 泰康保险集团股份有限公司 特征因子确定方法及设备
CN109670976B (zh) * 2018-12-18 2021-02-26 泰康保险集团股份有限公司 特征因子确定方法及设备
CN111274480A (zh) * 2020-01-17 2020-06-12 腾讯科技(北京)有限公司 用于内容推荐的特征组合方法及装置
CN111274480B (zh) * 2020-01-17 2023-04-04 深圳市雅阅科技有限公司 用于内容推荐的特征组合方法及装置

Also Published As

Publication number Publication date
CN104615790B (zh) 2018-05-04

Similar Documents

Publication Publication Date Title
CN104615790A (zh) 特征推荐方法和装置
WO2020081229A1 (en) Automatic feature subset selection using feature ranking and scalable automatic search
CN113361680B (zh) 一种神经网络架构搜索方法、装置、设备及介质
CN104200087A (zh) 用于机器学习的参数寻优及特征调优的方法及系统
Akgündüz et al. An adaptive genetic algorithm approach for the mixed-model assembly line sequencing problem
Grégoire et al. An experimentally efficient method for (MSS, CoMSS) partitioning
CN111406264A (zh) 神经架构搜索
Yang et al. System reliability analysis with small failure probability based on active learning Kriging model and multimodal adaptive importance sampling
CN104750731A (zh) 一种获取完整用户画像的方法及装置
CN106203485A (zh) 一种支持向量机的并行训练方法及装置
CN103593855A (zh) 基于粒子群优化和空间距离测度聚类的图像分割方法
Ameli et al. A sustainable method for optimizing product design with trade-off between life cycle cost and environmental impact
CN109800461A (zh) 用于轮胎结构轻量化设计的关键外廓参数寻优方法及装置
CN105955882B (zh) 一种迭代学习模型行为相似性的测试用例生成方法和装置
CN105654110A (zh) 一种张量模式下的有监督学习优化方法及系统
Tadić et al. A fuzzy AHP and TOPSIS for ELV dismantling selection
CN104615474A (zh) 用于粗粒度可重构处理器的编译优化方法
US11238373B2 (en) Data-driven and intelligent characterization of spatial distributions of transport properties in heterogeneous materials
CN104899101A (zh) 基于多目标差异演化算法的软件测试资源动态分配方法
CN106156857A (zh) 用于混合模型选择的方法和装置
US20220027739A1 (en) Search space exploration for deep learning
Moriguchi Acceleration and enhancement of reliability of simulated annealing for optimizing thinning schedule of a forest stand
JP7095467B2 (ja) 訓練データ評価装置、訓練データ評価方法、およびプログラム
CN106156858A (zh) 分片线性模型生成系统和生成方法
Herrera et al. Ensemble-based classifiers

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant