CN110377828A - 信息推荐方法、装置、服务器及存储介质 - Google Patents

信息推荐方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN110377828A
CN110377828A CN201910663358.5A CN201910663358A CN110377828A CN 110377828 A CN110377828 A CN 110377828A CN 201910663358 A CN201910663358 A CN 201910663358A CN 110377828 A CN110377828 A CN 110377828A
Authority
CN
China
Prior art keywords
leaf node
decision
node
training
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910663358.5A
Other languages
English (en)
Other versions
CN110377828B (zh
Inventor
王星雅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910663358.5A priority Critical patent/CN110377828B/zh
Publication of CN110377828A publication Critical patent/CN110377828A/zh
Application granted granted Critical
Publication of CN110377828B publication Critical patent/CN110377828B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Abstract

本发明公开了一种信息推荐方法、装置、服务器及存储介质,属于互联网技术领域。所述方法包括:根据预测集合的概率分布和训练集合的概率分布,确定采样权重;根据采样权重,对训练集合进行重采样;根据重采样的训练集合,对初始信息推荐模型进行训练,得到待测试的信息推荐模型;根据测试集合,对待测试的信息推荐模型进行性能测试,得到信息推荐模型;根据信息推荐模型,向用户推荐信息。本发明根据预测集合的概率分布和训练集合的概率分布,确定采样权重,进而基于采样权重,对训练集合进行重采样,从而使得训练集合和测试集合的样本分布一致,提高所训练的信息推荐模型的准确性,从而基于该信息推荐模型推荐的信息更准确。

Description

信息推荐方法、装置、服务器及存储介质
技术领域
本发明涉及互联网技术领域,特别涉及一种信息推荐方法、装置、服务器及存储介质。
背景技术
随着互联网技术的发展,应用程序的种类越来越多。为了吸引用户,增加用户的使用量,同时提高用户的粘性,应用程序可向用户推荐信息。
目前,相关技术在进行信息推荐时,主要采用如下方法:获取训练集合和测试集合,其中,训练集合和测试集合包括在不同时间对不同用户采集得到的样本数据,每个样本数据包括用户属性信息和所推荐的信息;基于训练集合,对初始信息推荐模型进行训练,得到待测试的信息推荐模型;基于测试集合,对待测试的信息推荐模型进行性能测试,并基于性能测试结果,对待测试的信息推荐模型的模型参数进行调整,得到信息推荐模型;基于信息推荐模型,向不同用户推荐信息。
然而,由于采集时间、目标用户群等不同,导致训练集合和测试集合中的样本数据具有不同的概率分布,基于该训练集合和测试集合所训练的信息推荐模型并不准确,进一步地基于该信息推荐模型向用户推荐的信息也不够准确。
发明内容
为了解决相关技术的问题,本发明实施例提供了一种信息推荐方法、装置、服务器及存储介质。所述技术方案如下:
一方面,提供了一种信息推荐方法,所述方法包括:
根据预测集合在决策树模型中的统计结果,确定所述预测集合的概率分布,所述预测集合包括多个用于测试模型的样本,所述决策树模型为根据父子节点之间的关系构成的网络,每个父节点及子节点对应不同的用户特征;
根据训练集合在所述决策树模型中的统计结果,确定所述训练集合的概率分布,所述训练集合包括多个用于训练模型的样本;
根据所述预测集合的概率分布和所述训练集合的概率分布,确定采样权重;
根据所述采样权重,对所述训练集合进行重采样,得到重采样的训练集合;
根据所述重采样的训练集合,对初始信息推荐模型进行训练,得到待测试的信息推荐模型;
根据所述测试集合,对所述待测试的信息推荐模型进行性能测试,得到信息推荐模型;
根据所述信息推荐模型,向用户推荐信息。
另一方面,提供了一种信息推荐装置,所述装置包括:
确定模块,用于根据预测集合在决策树模型中的统计结果,确定所述预测集合的概率分布,所述预测集合包括多个用于测试模型的样本,所述决策树模型为根据父子节点之间的关系构成的网络,每个父节点及子节点对应不同的用户特征;
所述确定模块,用于根据训练集合在所述决策树模型中的统计结果,确定所述训练集合的概率分布,所述训练集合包括多个用于训练模型的样本;
所述确定模块,用于根据所述预测集合的概率分布和所述训练集合的概率分布,确定采样权重;
重采样模块,用于根据所述采样权重,对所述训练集合进行重采样,得到重采样的训练集合;
训练模块,用于根据所述重采样的训练集合,对初始信息推荐模型进行训练,得到待测试的信息推荐模型;
测试模块,用于根据所述测试集合,对所述待测试的信息推荐模型进行性能测试,得到信息推荐模型;
推荐模块,用于根据所述信息推荐模型,向用户推荐信息。
另一方面,提供了一种服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现信息推荐方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现信息推荐方法。
本发明实施例提供的技术方案带来的有益效果是:
根据预测集合的概率分布和训练集合的概率分布,确定采样权重,进而基于采样权重,对训练集合进行重采样,从而使得训练集合和测试集合的样本分布一致,提高所训练的信息推荐模型的准确性,从而基于该信息推荐模型推荐的信息更准确。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种信息推荐方法所涉及的实施环境;
图2是本发明实施例提供的一种信息推荐方法的流程图;
图3是本发明实施例提供的一种决策树模型的结构示意图;
图4是本发明实施例提供的一种对信息推荐模型的训练过程示意图;
图5是本发明实施例提供的一种信息推荐装置的结构示意图;
图6是根据一示例性实施例示出的一种用于信息推荐的服务器。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
请参考图1,其示出了本发明实施例提供的信息推荐方法所涉及的实施环境,该实施环境包括:终端101和服务器102。
其中,终端101可以为智能手机、平板电脑、笔记本电脑等,本发明实施例不对终端101的产品类型作具体的限定。终端101中安装有具有多种应用程序,可为用户提供各种服务。
服务器102为应用程序的后台服务器。该服务器102具有较强的计算能力,可训练出信息推荐模型,并基于该信息推荐模型,确定向每个用户所推荐的信息,进而基于应用程序推送至用户。
上述终端101与服务器102之间可通过有线网络或无线网络进行通信。
分布匹配原理为通过样本自适应方法,对源域进行加权重采样,使其分布与目标域基本一致。分布匹配的核心为确定采样权重,基于采样权重对源域进行重采样。如果源域内样本的特征完全独立,可按照不稳定特征依次重采样。但是,源域内样本的特征往往不是完全独立的,需要确定出目标域的概率分布和源域的概率,并基于源域的概率分布和目标域的概率分布,确定出样本的联合概率密度,进而基于样本的联合概率分布,确定出采样权重。
目标域的概率分布实际上就是在特征空间上的数据分布密度。通常将原始特征离散化后,特征空间将被分割为若干个子空间网格,根据所分割的子空间网格,即可统计出每个子空间的样本分布密度。在目标域上,每个子空间上的样本分布密度f(x)为:
其中x表示子空间,sum(x)为该空间内的样本数,total为总样本数。
对于源域内的概率分布与目标域的概率分布相同,具体参见上述目标域的概率分布的相关内容,此处不再赘述。
本发明实施例提供的信息推荐方法,基于分布匹配原理,以源域为训练集合,以目标域为预测集合,根据预测集合的概率分布和训练集合的概率分布,确定采样权重,并基于采样权重,对训练集合中的样本进行重采样,基于重采样的训练集合,训练信息推荐模型,进而基于所训练的信息推荐模型,向用户推荐信息。
基于图1所示的实施环境,本发明实施例提供了一种信息推荐方法,参见图2,本发明实施例提供的方法流程包括:
201、服务器预先构建决策树模型。
其中,决策树模型为根据父子节点之间的关系构成的网络,每个父节点及子节点对应不同的用户特征。
服务器构建决策树模型时,可采用如下方法:
2021、服务器确定用于决策树模型的用户特征。
由于从不同训练样本中提取的用户特征是不同,如果基于所提取的全部特征构建决策树模型,则所构建的决策树模型的特征空间维度较大。为了降低特征空间的维度,可对特征空间进行剪枝处理。对从各个训练样本中提取的用户特征进行剪枝操作时,剪掉重要程度较低、稳定性较差的用户特征,保留重要程度较高、稳定性较佳的用户特征,并将所保留的特征确定为用于建立决策树模型的用户特征。
2022、服务器基于所确定的用户特征和训练样本,构建决策树模型。
服务器构建根节点,将所有训练样本都放在根节点上,并选择一个用户特征,按照该特征将位于根节点上的训练样本分裂为不同的子集,如果任一子集不能继续分裂,则构建叶子节点,如果任一子集能够继续分裂,则选择新的用户特征,继续对该子集进行分裂,并构建新的节点,重复执行该过程,直至所有子集不能继续分裂,每个子集所在的节点为叶子节点。根据所有节点之间的父子关系构建网络,并将每个节点对应的用户特征作为节点特征,得到决策树模型。
例如,训练样本的数量为100个,将100个训练样本放在根节点上,选择性别特征作为根节点对应的用户特征,并基于性别特征,对100个训练样本进行分裂,分裂为性别特征为男性的子集和性别特征为女性的子集,并为每子集构建一个节点,其中,性别特征为男性的子集中训练样本数量为80个,性别特征为女性的子集中训练样本数量为20个。对于性别特征为男性的子集对应的节点,选择年龄特征作为该节点对应的用户特征,并基于年龄特征,将80个训练样本进行分裂,可分裂为年龄特征为0~30的子集、年龄特征为30~50的子集、年龄特征为50~的子集,并为每个子集构建一个节点,其中,年龄特征为0~30的子集中训练样本数量为40、年龄特征为30~50的子集中训练样本数量为30、年龄特征为50~的子集中训练样本数量为10,继续选择新的用户特征对年龄特征为0~30的子集、年龄特征为30~50的子集、年龄特征为50~的子集进行分裂,直至每个子集或每个子集所分裂的子集不能继续分裂。对于性别特征为女性的子集也采用上述方法进行分裂,直至其所分裂的子集不能继续分裂。根据所有节点之间的父子关系构建网络,并将每个节点对应的用户特征作为节点特征,得到决策树模型。
202、服务器根据预测集合在决策树模型中的统计结果,确定预测集合的概率分布。
其中,预测集合包括多个用于测试模型的样本。
服务器根据预测集合在决策树模型中的统计结果,确定预测集合的概率分布时,可采用如下步骤:
2021、服务器根据决策树模型中各个父子节点对应的用户特征,对预测集合中的样本进行分裂。
服务器根据预先建立的决策树模型中包括的各个节点、节点间父子关系及每个节点对应的用户特征,对预测集合中的样本进行分裂。
2022、在分裂过程中,对于决策树模型中任一非中止叶子节点,服务器获取预测集合落在非中止叶子节点上的样本数量。
2023、如果预测集合落在非中止叶子节点上的样本数量不大于分裂阈值,则服务器中止分裂,并在非中止叶子节点上添加中止标志。
其中,分裂阈值用于确定是否对节点上的样本进行分裂的阈值,当节点上的样本数量大于该分裂阈值时,可继续对该节点上的样本进行分裂,当节点上的样本数量不大于该分裂阈值,则不再对该节点进行分裂。
服务器获取预测集合落在非中止叶子节点上的样本数量,当预测集合落在非中止叶子节点上的样本数量不大于分裂阈值,服务器不再对该非中止叶子节点上的样本进行分裂。为了便于对可分裂及不可分裂的节点进行区分,对于不可再分裂的非中止叶子节点,服务器还将在该非中止叶子节点上添加中止标志。
2024、如果预测集合落在非中止叶子节点上的样本数量大于分裂阈值,则服务器根据决策树模型中非中止叶子节点的子节点对应的用户特征,对预测集合落在非中止叶子节点上的样本继续进行分裂。
当预测集合落在非中止叶子节点上的样本数量大于分裂阈值,服务器根据该非中止叶子节点的子节点对应的用户特征,对该预测集合落在非中止叶子节点上的样本继续进行分裂。
2025、当预测集合在决策树模型的所有节点上均中止分裂,或者分裂深度达到指定深度,服务器根据预测集合在决策树模型上每个中止叶子节点上的样本数量和预测集合中的样本总数量,确定每个中止叶子节点的节点密度。
其中,指定深度可根据服务器的处理能力确定,该指定深度可以为深度达到决策树模型的10层、15层等等。
服务器根据预测集合在决策树模型上每个中止叶子节点的样本数量及对应的用户特征,可确定出预测集合基于树的统计图,基于该树的统计图,通过计算每个中止叶子节点的节点密度,可确定出预测集合的概率分布。参见图3,其示出了预测集合基于树的统计图,图中L表示中止叶子节点。
对于预测集合在决策树模型上任一中止叶子节点的节点密度,服务器可获取预测集合在决策树模型上任一中止叶子节点上的样本数量,并获取预测集合中的样本总数量,进而获取该中止叶子节点上的样本数量与预测集合中的样本总数量的比值,将该比值确定为该叶子节点的节点密度。
2026、服务器根据预测集合在决策树模型上每个中止叶子节点的节点密度及对应的用户特征,确定预测集合的概率分布。
服务器根据预测集合在决策树模型上每个中止叶子节点的节点密度及对应的用户特征空间,确定统计学上的概率分布,该概率分布即为预测集合的概率分布。
203、服务器根据训练集合在决策树模型中的统计结果,确定训练集合的概率分布。
其中,训练集合包括多个用于训练模型的样本。
服务器根据训练集合在决策树模型中的统计结果,确定训练集合的概率分布时,可采用如下步骤:
2031、服务器根据决策树模型中各个父子节点对应的用户特征,对训练集合中的样本进行分裂。
服务器根据预先建立的决策树模型中包括的各个节点、节点间父子关系及每个节点对应的用户特征,对训练集合中的样本进行分裂。
2032、在分裂过程中,对于决策树模型中任一非中止叶子节点,服务器获取训练集合落在非中止叶子节点上的样本数量。
2033、如果训练集合落在非中止叶子节点上的样本数量不大于分裂阈值,则服务器中止分裂,并在非中止叶子节点上添加中止标志。
服务器获取训练集合落在非中止叶子节点上的样本数量,当训练集合落在非中止叶子节点上的样本数量不大于分裂阈值,服务器不再对该非中止叶子节点上的样本进行分裂。为了便于对可分裂及不可分裂的节点进行区分,对于不可再分裂的非中止叶子节点,服务器还将在该非中止叶子节点上添加中止标志。
2034、如果训练集合落在非中止叶子节点上的样本数量大于分裂阈值,则服务器根据决策树模型中非中止叶子节点的子节点对应的用户特征,对训练集合落在非中止叶子节点上的样本继续进行分裂。
当训练集合落在非中止叶子节点上的样本数量大于分裂阈值,服务器根据该非中止叶子节点的子节点对应的用户特征,对该训练集合落在非中止叶子节点上的样本继续进行分裂。
2035、当训练集合在决策树模型的所有节点上均中止分裂,或者分裂深度达到指定深度,服务器根据训练集合在决策树模型上每个中止叶子节点上的样本数量和训练集合中的样本总数量,确定每个中止叶子节点的节点密度。
服务器根据训练集合在决策树模型上每个中止叶子节点的样本数量及对应的用户特征,可确定出训练集合基于树的统计图,基于该树的统计图,通过计算每个中止叶子节点的节点密度,可确定出训练集合的概率分布。
对于训练集合在决策树模型上任一中止叶子节点的节点密度,服务器可获取训练集合在决策树模型上任一中止叶子节点上的样本数量,并获取训练集合中的样本总数量,进而获取该中止叶子节点上的样本数量与训练集合中的样本总数量的比值,将该比值确定为该叶子节点的节点密度。
2036、服务器根据训练集合在决策树模型上每个中止叶子节点的节点密度及对应的用户特征,确定训练集合的概率分布。
服务器根据训练集合在决策树模型上每个中止叶子节点的节点密度及对应的用户特征空间,确定统计学上的概率分布,该概率分布即为训练集合的概率分布。
204、服务器根据预测集合的概率分布和训练集合的概率分布,确定采样权重。
其中,采样权重为对训练集合中样本进行重采样的权重值。
服务器根据预测集合的概率分布和训练集合的概率分布,确定采样权重时,可采用如下步骤:
2041、对于决策树模型中的任一中止叶子节点,服务器根据预测集合的概率分布,获取中止叶子节点的第一概率密度。
对于决策树模型中的任一中止叶子节点,服务器获取该中止叶子节点所在的用户特征空间,并从预测集合的概率分布中,获取该用户特征空间对应的概率密度,该概率密度即为中止叶子节点的第一概率密度。
2042、服务器根据训练集合的概率分布,获取中止叶子节点的第二概率密度。
服务器获取该中止叶子节点所在的用户特征空间,并从训练集合的概率分布中,获取该用户特征空间对应的概率密度,该概率密度即为中止叶子节点的第二概率密度。
2043、服务器获取第一概率密度和第二概率密度的比值,得到中止叶子节点的采样权重。
设定决策树模型中的任一中止叶子节点为X,第一概率密度为Q(X),第二概率密度为P(X),则该中止叶子节点X的采样权重
205、服务器根据采样权重,对训练集合进行重采样,得到重采样的训练集合。
服务器根据采样权重,对训练集合进行重采样,得到重采样的训练集合时,可采用如下步骤:
2051、服务器根据每个中止叶子节点的采样权重,对训练集合在每个中止叶子节点上的样本进行重采样,得到每个中止叶子节点上的重采样样本。
服务器根据每个中止叶子节点的采样权重,对训练集合中相应中止叶子节点上的样本进行重新采样,得到每个中止叶子节点上的重采样样本。例如,对于任一中止业务节点的采样权重为年龄为0~30的用户占50%、年龄30~50的用户占30%、年龄为50~的用户占20%,则服务器基于该采样权重,对该中止叶子节点上的样本进行重采样,得到采样后的样本中不同年龄段的用户所占的比例与采样权重相符合。
2052、服务器将所有中止叶子节点上的重采样样本组成重采样的训练集合。
206、服务器根据重采样的训练集合,对初始信息推荐模型进行训练,得到待测试的信息推荐模型。
其中,重采样的训练集合中每个样本都具有不同的用户特征,且每个样本都对应一条推荐信息。服务器将重采样的训练集合中每个样本输入初始信息推荐模型中,输出预测结果,并根据重采样的训练集合中每个样本的预测结果和对应的推荐信息,对初始推荐模型的模型参数进行调整,得到待预测的信息推荐模型。
207、服务器根据测试集合,对待测试的信息推荐模型进行性能测试,得到信息推荐模型。
基于所得到的待测试的信息推荐模型,服务器根据测试集合,对该待测试的信息推荐模型进行性能测试,在性能测试过程中,继续调整待测试的信息推荐模型的模型参数,得到信息推荐模型。
对于信息推荐模型的训练过程,下面将以图4为例进行说明。
服务器获取预测集合和训练集合,并从训练样本中选取特征,基于所选取的特征构建决策树模型,并基于所构建的决策树模型,统计训练集合在该决策树模型上的概率分布,并统计预测集合在该决策树模型上的概率分布,进而根据训练集合的概率分布和预测集合的概率分布,确定采样权重,进而根据采样权重,对训练集合进行重采样,得到重采样的训练集合。基于重采样的训练集合,服务器对初始信息推荐模型进行训练,得到待预测的信息推荐模型,并基于预测集合对该预测的信息推荐模型进行预测,得到信息推荐模型。
208、服务器根据信息推荐模型,向用户推荐信息。
基于所训练的信息推荐模型,在用户使用应用程序的过程中,服务器获取该用户的用户特征,并根据该用户的用户特征,采用信息推荐模型,确定待推荐给用户的信息,进而将所确定的信息推荐给用户。
本发明实施例提供的方法,根据预测集合的概率分布和训练集合的概率分布,确定采样权重,进而基于采样权重,对训练集合进行重采样,从而使得训练集合和测试集合的样本分布一致,提高所训练的信息推荐模型的准确性,从而基于该信息推荐模型推荐的信息更准确。
参见图5,本发明实施例提供了一种信息推荐装置,该装置包括:
确定模块501,用于根据预测集合在决策树模型中的统计结果,确定预测集合的概率分布,预测集合包括多个用于测试模型的样本,决策树模型为根据父子节点之间的关系构成的网络,每个父节点及子节点对应不同的用户特征;
确定模块501,用于根据训练集合在决策树模型中的统计结果,确定训练集合的概率分布,训练集合包括多个用于训练模型的样本;
确定模块501,用于根据预测集合的概率分布和训练集合的概率分布,确定采样权重;
重采样模块502,用于根据采样权重,对训练集合进行重采样,得到重采样的训练集合;
训练模块503,用于根据重采样的训练集合,对初始信息推荐模型进行训练,得到待测试的信息推荐模型;
测试模块504,用于根据测试集合,对待测试的信息推荐模型进行性能测试,得到信息推荐模型;
推荐模块505,用于根据信息推荐模型,向用户推荐信息。
在本发明的另一个实施例中,确定模块501,用于根据决策树模型中各个父子节点对应的用户特征,对预测集合中的样本进行分裂;在分裂过程中,对于决策树模型中任一非中止叶子节点,获取预测集合落在非中止叶子节点上的样本数量;如果预测集合落在非中止叶子节点上的样本数量不大于分裂阈值,则中止分裂,并在非中止叶子节点上添加中止标志;如果预测集合落在非中止叶子节点上的样本数量大于分裂阈值,则根据决策树模型中非中止叶子节点的子节点对应的用户特征,对预测集合落在非中止叶子节点上的样本继续进行分裂;当预测集合在决策树模型的所有节点上均中止分裂,或者分裂深度达到指定深度,根据预测集合在决策树模型上每个中止叶子节点上的样本数量和预测集合中的样本总数量,确定每个中止叶子节点的节点密度;根据预测集合在决策树模型上每个中止叶子节点的节点密度及对应的用户特征,确定预测集合的概率分布。
在本发明的另一个实施例中,确定模块501,用于根据决策树模型中各个父子节点对应的用户特征,对训练集合中的样本进行分裂;在分裂过程中,对于决策树模型中任一非中止叶子节点,获取训练集合落在非中止叶子节点上的样本数量;如果训练集合落在非中止叶子节点上的样本数量不大于分裂阈值,则中止分裂,并在非中止叶子节点上添加中止标志;如果训练集合落在非中止叶子节点上的样本数量大于分裂阈值,则根据决策树模型中非中止叶子节点的子节点对应的用户特征,对训练集合落在非中止叶子节点上的样本继续进行分裂;当训练集合在决策树模型的所有节点上均中止分裂,或者分裂深度达到指定深度,根据训练集合在决策树模型上每个中止叶子节点上的样本数量和训练集合中的样本总数量,确定每个中止叶子节点的节点密度;根据训练集合在决策树模型上每个中止叶子节点的节点密度及对应的用户特征,确定训练集合的概率分布。
在本发明的另一个实施例中,确定模块501,用于对于决策树模型中的任一中止叶子节点,根据预测集合的概率分布,获取中止叶子节点的第一概率密度;
根据训练集合的概率分布,获取中止叶子节点的第二概率密度;获取第一概率密度和第二概率密度的比值,得到中止叶子节点的采样权重。
在本发明的另一个实施例中,训练模块503,用于根据每个中止叶子节点的采样权重,对训练集合在每个中止叶子节点上的样本进行重采样,得到每个中止叶子节点上的重采样样本;将所有中止叶子节点上的重采样样本组成重采样的训练集合。
综上,本发明实施例提供的装置,根据预测集合的概率分布和训练集合的概率分布,确定采样权重,进而基于采样权重,对训练集合进行重采样,从而使得训练集合和测试集合的样本分布一致,提高所训练的信息推荐模型的准确性,从而基于该信息推荐模型推荐的信息更准确。
图6是根据一示例性实施例示出的一种用于信息推荐的服务器。参照图6,服务器600包括处理组件622,其进一步包括一个或多个处理器,以及由存储器632所代表的存储器资源,用于存储可由处理组件622的执行的指令,例如应用程序。存储器332中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件622被配置为执行指令,以执行上述信息推荐方法中服务器所执行的功能。
服务器600还可以包括一个电源组件626被配置为执行服务器600的电源管理,一个有线或无线网络接口650被配置为将服务器600连接到网络,和一个输入输出(I/O)接口658。服务器600可以操作基于存储在存储器632的操作系统,例如Windows ServerTM,Mac OSXTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本发明实施例提供的服务器,根据预测集合的概率分布和训练集合的概率分布,确定采样权重,进而基于采样权重,对训练集合进行重采样,从而使得训练集合和测试集合的样本分布一致,提高所训练的信息推荐模型的准确性,从而基于该信息推荐模型推荐的信息更准确。
本发明实施例提供的计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现图2所示的信息推荐方法。
本发明实施例提供的计算机可读存储介质,根据预测集合的概率分布和训练集合的概率分布,确定采样权重,进而基于采样权重,对训练集合进行重采样,从而使得训练集合和测试集合的样本分布一致,提高所训练的信息推荐模型的准确性,从而基于该信息推荐模型推荐的信息更准确。
需要说明的是:上述实施例提供的信息推荐装置在推荐信息时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将信息推荐装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的信息推荐方法与信息推荐装置实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种信息推荐方法,其特征在于,所述方法包括:
根据预测集合在决策树模型中的统计结果,确定所述预测集合的概率分布,所述预测集合包括多个用于测试模型的样本,所述决策树模型为根据父子节点之间的关系构成的网络,每个父节点及子节点对应不同的用户特征;
根据训练集合在所述决策树模型中的统计结果,确定所述训练集合的概率分布,所述训练集合包括多个用于训练模型的样本;
根据所述预测集合的概率分布和所述训练集合的概率分布,确定采样权重;
根据所述采样权重,对所述训练集合进行重采样,得到重采样的训练集合;
根据所述重采样的训练集合,对初始信息推荐模型进行训练,得到待测试的信息推荐模型;
根据所述测试集合,对所述待测试的信息推荐模型进行性能测试,得到信息推荐模型;
根据所述信息推荐模型,向用户推荐信息。
2.根据权利要求1所述的方法,其特征在于,所述根据预测集合在决策树模型中的统计结果,确定所述预测集合的概率分布,包括:
根据所述决策树模型中各个父子节点对应的用户特征,对所述预测集合中的样本进行分裂;
在分裂过程中,对于所述决策树模型中任一非中止叶子节点,获取所述预测集合落在所述非中止叶子节点上的样本数量;
如果所述预测集合落在所述非中止叶子节点上的样本数量不大于分裂阈值,则中止分裂,并在所述非中止叶子节点上添加中止标志;
如果所述预测集合落在所述非中止叶子节点上的样本数量大于分裂阈值,则根据所述决策树模型中所述非中止叶子节点的子节点对应的用户特征,对所述预测集合落在所述非中止叶子节点上的样本继续进行分裂;
当所述预测集合在所述决策树模型的所有节点上均中止分裂,或者分裂深度达到指定深度,根据所述预测集合在所述决策树模型上每个中止叶子节点上的样本数量和所述预测集合中的样本总数量,确定每个中止叶子节点的节点密度;
根据所述预测集合在所述决策树模型上每个中止叶子节点的节点密度及对应的用户特征,确定所述预测集合的概率分布。
3.根据权利要求1所述的方法,其特征在于,所述根据训练集合在所述决策树模型中的统计结果,确定所述训练集合的概率分布,包括:
根据所述决策树模型中各个父子节点对应的用户特征,对所述训练集合中的样本进行分裂;
在分裂过程中,对于所述决策树模型中任一非中止叶子节点,获取所述训练集合落在所述非中止叶子节点上的样本数量;
如果所述训练集合落在所述非中止叶子节点上的样本数量不大于分裂阈值,则中止分裂,并在所述非中止叶子节点上添加中止标志;
如果所述训练集合落在所述非中止叶子节点上的样本数量大于分裂阈值,则根据所述决策树模型中所述非中止叶子节点的子节点对应的用户特征,对所述训练集合落在所述非中止叶子节点上的样本继续进行分裂;
当所述训练集合在所述决策树模型的所有节点上均中止分裂,或者分裂深度达到指定深度,根据所述训练集合在所述决策树模型上每个中止叶子节点上的样本数量和所述训练集合中的样本总数量,确定每个中止叶子节点的节点密度;
根据所述训练集合在所述决策树模型上每个中止叶子节点的节点密度及对应的用户特征,确定所述训练集合的概率分布。
4.根据权利要求1所述的方法,其特征在于,所述根据所述预测集合的概率分布和所述训练集合的概率分布,确定采样权重,包括:
对于所述决策树模型中的任一中止叶子节点,根据所述预测集合的概率分布,获取所述中止叶子节点的第一概率密度;
根据所述训练集合的概率分布,获取所述中止叶子节点的第二概率密度;
获取所述第一概率密度和所述第二概率密度的比值,得到所述中止叶子节点的采样权重。
5.根据权利要求1所述的方法,其特征在于,所述根据所述采样权重,对所述训练集合进行重采样,得到重采样的训练集合,包括:
根据每个中止叶子节点的采样权重,对所述训练集合在每个中止叶子节点上的样本进行重采样,得到每个中止叶子节点上的重采样样本;
将所有中止叶子节点上的重采样样本组成所述重采样的训练集合。
6.一种信息推荐装置,其特征在于,所述装置包括:
确定模块,用于根据预测集合在决策树模型中的统计结果,确定所述预测集合的概率分布,所述预测集合包括多个用于测试模型的样本,所述决策树模型为根据父子节点之间的关系构成的网络,每个父节点及子节点对应不同的用户特征;
所述确定模块,用于根据训练集合在所述决策树模型中的统计结果,确定所述训练集合的概率分布,所述训练集合包括多个用于训练模型的样本;
所述确定模块,用于根据所述预测集合的概率分布和所述训练集合的概率分布,确定采样权重;
重采样模块,用于根据所述采样权重,对所述训练集合进行重采样,得到重采样的训练集合;
训练模块,用于根据所述重采样的训练集合,对初始信息推荐模型进行训练,得到待测试的信息推荐模型;
测试模块,用于根据所述测试集合,对所述待测试的信息推荐模型进行性能测试,得到信息推荐模型;
推荐模块,用于根据所述信息推荐模型,向用户推荐信息。
7.根据权利要求6所述的装置,其特征在于,所述确定模块,用于根据所述决策树模型中各个父子节点对应的用户特征,对所述预测集合中的样本进行分裂;在分裂过程中,对于所述决策树模型中任一非中止叶子节点,获取所述预测集合落在所述非中止叶子节点上的样本数量;如果所述预测集合落在所述非中止叶子节点上的样本数量不大于分裂阈值,则中止分裂,并在所述非中止叶子节点上添加中止标志;如果所述预测集合落在所述非中止叶子节点上的样本数量大于分裂阈值,则根据所述决策树模型中所述非中止叶子节点的子节点对应的用户特征,对所述预测集合落在所述非中止叶子节点上的样本数量继续进行分裂;当所述预测集合在所述决策树模型的所有节点上均中止分裂,或者分裂深度达到指定深度,根据所述预测集合在所述决策树模型上每个中止叶子节点上的样本数量和所述预测集合中的样本总数量,确定每个中止叶子节点的节点密度;根据所述预测集合在所述决策树模型上每个中止叶子节点的节点密度及对应的用户特征,确定所述预测集合的概率分布。
8.根据权利要求6所述的装置,其特征在于,所述确定模块,用于对于所述决策树模型中的任一中止叶子节点,根据所述预测集合的概率分布,获取所述中止叶子节点的第一概率密度;根据所述训练集合的概率分布,获取所述中止叶子节点的第二概率密度;获取所述第一概率密度和所述第二概率密度的比值,得到所述中止叶子节点的采样权重。
9.一种服务器,其特征在于,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至5中任一项所述的信息推荐方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1至5中任一项所述的信息推荐方法。
CN201910663358.5A 2019-07-22 2019-07-22 信息推荐方法、装置、服务器及存储介质 Active CN110377828B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910663358.5A CN110377828B (zh) 2019-07-22 2019-07-22 信息推荐方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910663358.5A CN110377828B (zh) 2019-07-22 2019-07-22 信息推荐方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN110377828A true CN110377828A (zh) 2019-10-25
CN110377828B CN110377828B (zh) 2023-05-26

Family

ID=68255000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910663358.5A Active CN110377828B (zh) 2019-07-22 2019-07-22 信息推荐方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN110377828B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112231593A (zh) * 2020-12-15 2021-01-15 上海朝阳永续信息技术股份有限公司 一种金融资讯智能推荐系统
CN112818228A (zh) * 2021-01-29 2021-05-18 北京百度网讯科技有限公司 向用户推荐对象的方法、装置、设备和介质
CN113657495A (zh) * 2021-08-17 2021-11-16 平安科技(深圳)有限公司 基于概率预测模型的保险产品推荐方法、装置、设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6253169B1 (en) * 1998-05-28 2001-06-26 International Business Machines Corporation Method for improvement accuracy of decision tree based text categorization
CN105718490A (zh) * 2014-12-04 2016-06-29 阿里巴巴集团控股有限公司 一种用于更新分类模型的方法及装置
CN107276805A (zh) * 2017-06-19 2017-10-20 北京邮电大学 一种基于入侵检测模型的样本预测方法、装置及电子设备
CN107545275A (zh) * 2017-07-27 2018-01-05 华南理工大学 重采样与代价敏感学习融合的不平衡数据集成分类方法
WO2019048324A1 (en) * 2017-09-07 2019-03-14 Nokia Solutions And Networks Oy METHOD AND DEVICE FOR MONITORING A TELECOMMUNICATION NETWORK
CN109508733A (zh) * 2018-10-23 2019-03-22 北京邮电大学 一种基于分布概率相似度度量的异常检测方法
CN109598281A (zh) * 2018-10-11 2019-04-09 阿里巴巴集团控股有限公司 一种业务风险防控方法、装置及设备
CN109767312A (zh) * 2018-12-10 2019-05-17 江西师范大学 一种信用评估模型训练、评估方法与装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6253169B1 (en) * 1998-05-28 2001-06-26 International Business Machines Corporation Method for improvement accuracy of decision tree based text categorization
CN105718490A (zh) * 2014-12-04 2016-06-29 阿里巴巴集团控股有限公司 一种用于更新分类模型的方法及装置
CN107276805A (zh) * 2017-06-19 2017-10-20 北京邮电大学 一种基于入侵检测模型的样本预测方法、装置及电子设备
CN107545275A (zh) * 2017-07-27 2018-01-05 华南理工大学 重采样与代价敏感学习融合的不平衡数据集成分类方法
WO2019048324A1 (en) * 2017-09-07 2019-03-14 Nokia Solutions And Networks Oy METHOD AND DEVICE FOR MONITORING A TELECOMMUNICATION NETWORK
CN109598281A (zh) * 2018-10-11 2019-04-09 阿里巴巴集团控股有限公司 一种业务风险防控方法、装置及设备
CN109508733A (zh) * 2018-10-23 2019-03-22 北京邮电大学 一种基于分布概率相似度度量的异常检测方法
CN109767312A (zh) * 2018-12-10 2019-05-17 江西师范大学 一种信用评估模型训练、评估方法与装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112231593A (zh) * 2020-12-15 2021-01-15 上海朝阳永续信息技术股份有限公司 一种金融资讯智能推荐系统
CN112818228A (zh) * 2021-01-29 2021-05-18 北京百度网讯科技有限公司 向用户推荐对象的方法、装置、设备和介质
CN112818228B (zh) * 2021-01-29 2023-08-04 北京百度网讯科技有限公司 向用户推荐对象的方法、装置、设备和介质
CN113657495A (zh) * 2021-08-17 2021-11-16 平安科技(深圳)有限公司 基于概率预测模型的保险产品推荐方法、装置、设备
CN113657495B (zh) * 2021-08-17 2023-06-30 平安科技(深圳)有限公司 基于概率预测模型的保险产品推荐方法、装置、设备

Also Published As

Publication number Publication date
CN110377828B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
Ball et al. Efficient and principled method for detecting communities in networks
US10191968B2 (en) Automated data analysis
CN110377828A (zh) 信息推荐方法、装置、服务器及存储介质
WO2019047790A1 (zh) 生成机器学习样本的组合特征的方法及系统
CN103257921A (zh) 一种基于改进随机森林算法的软件故障预测系统及其方法
CN111522733B (zh) 众包测试人员推荐与众包测试方法及电子装置
CN105373606A (zh) 一种改进c4.5决策树算法下的不平衡数据抽样方法
CN109711424B (zh) 一种基于决策树的行为规则获取方法、装置及设备
CN108509982A (zh) 一种处理二分类不平衡医学数据的方法
CN109146116A (zh) 一种工作能力模型的构建方法、其参数计算方法,以及基于所述模型的劳动力评估预测装置
CN106991577A (zh) 一种确定目标用户的方法及装置
CN108805413A (zh) 员工离职风险预测方法、装置、计算机设备以及存储介质
CN110147389A (zh) 帐号处理方法和装置、存储介质及电子装置
CN107729555A (zh) 一种海量大数据分布式预测方法及系统
CN107004200A (zh) 排名功能的离线评价
CN107016260B (zh) 一种基于跨平台基因表达数据的基因调控网络重建方法
CN114881547A (zh) 一种互联网项目的团队绩效评估方法及装置
Ek et al. Development of individual tree based stand growth simulators: progress and applications.
CN111882113B (zh) 一种企业手机银行用户的预测方法和装置
Piggot et al. How healthy is my project? open source project attributes as indicators of success
CN109657950A (zh) 层次分析方法、装置、设备及计算机可读存储介质
CN114936204A (zh) 一种特征筛选方法、装置、存储介质及电子设备
CN112948238B (zh) 推荐系统的多样性的量化方法
CN108256694A (zh) 基于重复遗传算法的模糊时间序列预测系统、方法及装置
CN108256086A (zh) 数据特征统计分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant