CN115829673A

CN115829673A - 基于大数据的电子商城用户偏好分析方法及系统

Info

Publication number: CN115829673A
Application number: CN202211362732.6A
Authority: CN
Inventors: 黄贤鑫; 杨智; 杨德深; 林家成; 林颖
Original assignee: Shenzhen Fenmi Zhixing Information Technology Co ltd
Current assignee: Shenzhen Fenmi Zhixing Information Technology Co ltd
Priority date: 2022-11-02
Filing date: 2022-11-02
Publication date: 2023-03-21

Abstract

本发明适用于数据处理技术领域，尤其涉及基于大数据的电子商城用户偏好分析方法及系统，所述方法包括：对用户进行随机产品推送，生成产品推送记录；获取无目的浏览历史信息，根据无目的浏览历史信息生成数据分析样本；根据数据分析样本生成训练集和测试集，并构建产品推荐决策树；获取决策条件数据，通过产品推荐决策树对决策条件数据生成推荐结果。本发明通过向用户进行随机产品推荐，从而对用户的浏览数据进行收集，根据收集到的浏览数据构建数据样本，以训练产品推荐决策树，通过产品推荐决策树能够分析用户的购物偏好，能够在用户搜索时对相关产品进行排序，提高产品推荐命中率。

Description

基于大数据的电子商城用户偏好分析方法及系统

技术领域

本发明属于数据处理技术领域，尤其涉及基于大数据的电子商城用户偏好分析方法及系统。

背景技术

电子商城就是一种购买日常用品，书籍，服饰，鞋帽，玩具，软件，唱片，家电，等并且送货上门的购物平台。购物网是互联网、银行、现代物流业发展的产物。

在当前的电子商城中，为了能给用户推荐更加合适的商品，是根据用户的搜索记录、用户购买过的产品进行相关产品的推送，产品之间是直接存在对应关系的，具有相似性。

现有技术中，只能对用户已经购买过的产品进行分析，难以对推送产品的范围进行扩展。

发明内容

本发明实施例的目的在于提供一种基于大数据的电子商城用户偏好分析方法，旨在解决现有技术中，只能对用户已经购买过的产品进行分析，难以对推送产品的范围进行扩展的问题。

本发明实施例是这样实现的，一种基于大数据的电子商城用户偏好分析方法，所述方法包括：

对用户进行随机产品推送，生成产品推送记录；

获取无目的浏览历史信息，根据无目的浏览历史信息生成数据分析样本；

根据数据分析样本生成训练集和测试集，并构建产品推荐决策树；

获取决策条件数据，通过产品推荐决策树对决策条件数据生成推荐结果。

优选的，所述获取无目的浏览历史信息，根据无目的浏览历史信息生成数据分析样本的步骤，具体包括：

逐条读取无目的浏览历史信息；

按照时间顺序对无目的浏览历史信息中的产品进行排序，对逐个产品进行信息采集；

根据采集得到的信息提取产品浏览记录清单，并生成数据分析样本，所述产品浏览记录清单中包含有产品唯一编码、产品属性和浏览环境条件信息。

优选的，所述根据数据分析样本生成训练集和测试集，并构建产品推荐决策树的步骤，具体包括：

按照预设比例将数据分析样本划分为训练集和测试集；

按照属性类型对训练集进行划分，计算各个属性对应的信息增益率；

根据信息增益率确定最优划分属性，根据最优划分属性构建产品推荐决策树。

在本步骤中，根据数据分析样本生成训练集和测试集，为了对产品推荐决策树进行分析，按照预设比例对数据分析样本进行划分，预设比例可以为7:3，即将数据分析样本划分为7:3的两部分数据，占比七成的部分为训练集，剩下三成则为测试集，采用机器学习的方式对训练集中的数据进行学习，以构建产品推荐决策树，并利用测试集对其进行测试，测试通过之后即可投入使用。

优选的，所述获取决策条件数据，通过产品推荐决策树对决策条件数据生成推荐结果的步骤，具体包括：

获取决策条件数据，从决策条件数据中提取环境条件数据和检索条件数据；

基于检索条件数据对产品进行检索，生成备选产品库；

通过产品推荐决策树对环境条件数据进行处理，为备选产品库中的产品进行排序，生成推荐结果。

优选的，对用户进行随机产品推送之后，对用户的点击信息进行记录，生成无目的浏览历史信息。

优选的，所述目的浏览历史信息不包含用户主动检索后选择的产品对应的浏览信息。

本发明实施例的另一目的在于提供一种基于大数据的电子商城用户偏好分析系统，所述系统包括：

产品推送模块，用于对用户进行随机产品推送，生成产品推送记录；

样本生成模块，用于获取无目的浏览历史信息，根据无目的浏览历史信息生成数据分析样本；

决策树构建模块，用于根据数据分析样本生成训练集和测试集，并构建产品推荐决策树；

产品推荐模块，用于获取决策条件数据，通过产品推荐决策树对决策条件数据生成推荐结果。

优选的，所述样本生成模块包括：

信息读取单元，用于逐条读取无目的浏览历史信息；

信息采集单元，用于按照时间顺序对无目的浏览历史信息中的产品进行排序，对逐个产品进行信息采集；

样本组建单元，用于根据采集得到的信息提取产品浏览记录清单，并生成数据分析样本，所述产品浏览记录清单中包含有产品唯一编码、产品属性和浏览环境条件信息。

信息读取单元逐条读取无目的浏览历史信息，在浏览历史信息中，按照时间顺序对各个产品的浏览过程进行了记录，其中包含了浏览时间、浏览器日、环境温度、环境湿度、用户位置和产品属性等内容，并通过列举的方式进行记录。

优选的，所述决策树构建模块包括：

数据分类单元，用于按照预设比例将数据分析样本划分为训练集和测试集；

信息增益计算单元，用于按照属性类型对训练集进行划分，计算各个属性对应的信息增益率；

决策树训练单元，用于根据信息增益率确定最优划分属性，根据最优划分属性构建产品推荐决策树。

优选的，所述产品推荐模块包括：

数据提取单元，用于获取决策条件数据，从决策条件数据中提取环境条件数据和检索条件数据；

产品检索单元，用于基于检索条件数据对产品进行检索，生成备选产品库；

产品排序单元，用于通过产品推荐决策树对环境条件数据进行处理，为备选产品库中的产品进行排序，生成推荐结果。

本发明实施例提供的一种基于大数据的电子商城用户偏好分析方法，通过向用户进行随机产品推荐，从而对用户的浏览数据进行收集，根据收集到的浏览数据构建数据样本，以训练产品推荐决策树，通过产品推荐决策树能够分析用户的购物偏好，能够在用户搜索时对相关产品进行排序，提高产品推荐命中率。

附图说明

图1为本发明实施例提供的一种基于大数据的电子商城用户偏好分析方法的流程图；

图2为本发明实施例提供的获取无目的浏览历史信息，根据无目的浏览历史信息生成数据分析样本的步骤的流程图；

图3为本发明实施例提供的根据数据分析样本生成训练集和测试集，并构建产品推荐决策树的步骤的流程图；

图4为本发明实施例提供的获取决策条件数据，通过产品推荐决策树对决策条件数据生成推荐结果的步骤的流程图；

图5为本发明实施例提供的一种基于大数据的电子商城用户偏好分析系统的架构图；

图6为本发明实施例提供的一种样本生成模块的架构图；

图7为本发明实施例提供的一种决策树构建模块的架构图；

图8为本发明实施例提供的一种产品推荐模块的架构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，为本发明实施例提供的一种基于大数据的电子商城用户偏好分析方法的流程图，所述方法包括：

S100，对用户进行随机产品推送，生成产品推送记录。

在本步骤中，对用户进行随机产品推送，为了分析用户的偏好，从产品库随机选择产品推荐给用户，并将每天推荐的产品信息进行记录，在推荐之后，则对用户的浏览情况进行记录，即得到无目的浏览历史信息，在进行产品推送的时候，在电子商城的固定区域进行产品推送，在该固定区域中显示的产品与用户的历史购物信息、搜索记录均无关，全部产品都是随机选择的，具体的，可以将产品划分为多个板块，每次从各个板块中随机选择一个或多个产品进行推送。

S200，获取无目的浏览历史信息，根据无目的浏览历史信息生成数据分析样本。

在本步骤中，获取无目的浏览历史信息，无目的浏览历史信息是指用户在没有主动搜索的情况下点击浏览的产品信息，如在电子商城界面显示了多个产品，用户没有进行搜索，直接在浏览时选择了对应的产品进行浏览，进入了详情界面，则对上述浏览结果进行记录，浏览历史信息中至少包含浏览时间、浏览器日、环境温度、环境湿度、用户位置和产品属性等，产品属性可以包含产品用途、产品材质、产品尺寸、产品价格等，从而按照每一个产品的浏览记录，对上述所有历史信息进行列举，以得到数据分析样本。

S300，根据数据分析样本生成训练集和测试集，并构建产品推荐决策树。

S400，获取决策条件数据，通过产品推荐决策树对决策条件数据生成推荐结果。

在本步骤中，获取决策条件数据，在用户需要进行产品搜索时，会输入检索条件，此时对外部环境条件进行同步获取，先根据检索条件进行产品检索，后利用产品推荐决策树对外部环境条件和检索条件进行处理，从而对产品的排序，并最终生成推荐结果。

如图2所示，作为本发明的一个优选实施例，所述获取无目的浏览历史信息，根据无目的浏览历史信息生成数据分析样本的步骤，具体包括：

S201，逐条读取无目的浏览历史信息。

在本步骤中，逐条读取无目的浏览历史信息，在浏览历史信息中，按照时间顺序对各个产品的浏览过程进行了记录，其中包含了浏览时间、浏览器日、环境温度、环境湿度、用户位置和产品属性等内容，并通过列举的方式进行记录。

S202，按照时间顺序对无目的浏览历史信息中的产品进行排序，对逐个产品进行信息采集。

在本步骤中，按照时间顺序对无目的浏览历史信息中的产品进行排序，当用户对同一个产品进行了多次浏览时，将其视为多个不同的产品进行单独记录，这是由于在不同的浏览时间，其对应的其他环境参数不同，因此需要独立处理。

S203，根据采集得到的信息提取产品浏览记录清单，并生成数据分析样本，所述产品浏览记录清单中包含有产品唯一编码、产品属性和浏览环境条件信息。

在本步骤中，根据采集得到的信息提取产品浏览记录清单，在产品浏览记录清单中，按照产品唯一编码进行记录，在每一个产品唯一编码后按照预设的排列顺序对各个产品属性、浏览环境条件信息等数据进行记录，以形成数据分析样本。

如图3所示，作为本发明的一个优选实施例，所述根据数据分析样本生成训练集和测试集，并构建产品推荐决策树的步骤，具体包括：

S301，按照预设比例将数据分析样本划分为训练集和测试集。

在本步骤中，按照预设比例将数据分析样本划分为训练集和测试集，划分比例可以为8:2，也可以为7:3，具体可以根据数据分析样本的数量确定，数据分析样本中产品数量越多，训练集所占的比例越大。

S302，按照属性类型对训练集进行划分，计算各个属性对应的信息增益率。

在本步骤中，按照属性类型对训练集进行划分，将其划分为连续属性和离散属性，对于离散属性而言，其数据量是离散的，如产品材质，而连续属性则可以为连续数值，如环境温度，对于不同的属性采用不同的计算方法计算相应的信息增益，并计算其对应的信息增益率。

S303，根据信息增益率确定最优划分属性，根据最优划分属性构建产品推荐决策树。

在本步骤中，根据信息增益率确定最优划分属性，据此可以确定产品推荐决策树的架构，进而确定每个分支节点的数值，从而完善产品推荐决策树，最终利用测试集对产品推荐决策树进行测试，达到要求即可投入使用。

如图4所示，作为本发明的一个优选实施例，所述获取决策条件数据，通过产品推荐决策树对决策条件数据生成推荐结果的步骤，具体包括：

S401，获取决策条件数据，从决策条件数据中提取环境条件数据和检索条件数据。

在本步骤中，获取决策条件数据，用户在使用时，直接输入检索条件，在检索条件中，可以包含产品名称以及相应的修饰词，如，老年人喝的奶粉，其中奶粉则为产品名称，修饰词则为老年人喝的，在此时对环境条件进行采集，如浏览时间、浏览器日、环境温度、环境湿度、用户位置等，以得到环境条件数据和检索条件数据。

S402，基于检索条件数据对产品进行检索，生成备选产品库。

在本步骤中，基于检索条件数据对产品进行检索，如根据“奶粉”这一产品名称进行检索，对所有搜索到的结果进行暂存，形成备选产品库，为了确定推荐的顺序，需要进一步分析。

S403，通过产品推荐决策树对环境条件数据进行处理，为备选产品库中的产品进行排序，生成推荐结果。

在本步骤中，通过产品推荐决策树对环境条件数据进行处理，判断用户检索的产品是否包含在产品推荐决策树的决策范围之内，若在其中，则通过该产品推荐决策树进行产品推荐，以形成推荐顺序，若不在，则按照其他排序方式进行推荐，如销售量、产品评价等，根据推荐结果对产品进行展示。

如图5所示，为本发明实施例提供的一种基于大数据的电子商城用户偏好分析系统，所述系统包括：

产品推送模块100，用于对用户进行随机产品推送，生成产品推送记录。

在本系统中，产品推送模块100对用户进行随机产品推送，为了分析用户的偏好，从产品库随机选择产品推荐给用户，并将每天推荐的产品信息进行记录，在推荐之后，则对用户的浏览情况进行记录，即得到无目的浏览历史信息，在进行产品推送的时候，在电子商城的固定区域进行产品推送，在该固定区域中显示的产品与用户的历史购物信息、搜索记录均无关，全部产品都是随机选择的，具体的，可以将产品划分为多个板块，每次从各个板块中随机选择一个或多个产品进行推送。

样本生成模块200，用于获取无目的浏览历史信息，根据无目的浏览历史信息生成数据分析样本。

在本系统中，样本生成模块200获取无目的浏览历史信息，无目的浏览历史信息是指用户在没有主动搜索的情况下点击浏览的产品信息，如在电子商城界面显示了多个产品，用户没有进行搜索，直接在浏览时选择了对应的产品进行浏览，进入了详情界面，则对上述浏览结果进行记录，浏览历史信息中至少包含浏览时间、浏览器日、环境温度、环境湿度、用户位置和产品属性等，产品属性可以包含产品用途、产品材质、产品尺寸、产品价格等，从而按照每一个产品的浏览记录，对上述所有历史信息进行列举，以得到数据分析样本。

决策树构建模块300，用于根据数据分析样本生成训练集和测试集，并构建产品推荐决策树。

在本系统中，决策树构建模块300根据数据分析样本生成训练集和测试集，为了对产品推荐决策树进行分析，按照预设比例对数据分析样本进行划分，预设比例可以为7:3，即将数据分析样本划分为7:3的两部分数据，占比七成的部分为训练集，剩下三成则为测试集，采用机器学习的方式对训练集中的数据进行学习，以构建产品推荐决策树，并利用测试集对其进行测试，测试通过之后即可投入使用。

产品推荐模块400，用于获取决策条件数据，通过产品推荐决策树对决策条件数据生成推荐结果。

在本系统中，产品推荐模块400获取决策条件数据，在用户需要进行产品搜索时，会输入检索条件，此时对外部环境条件进行同步获取，先根据检索条件进行产品检索，后利用产品推荐决策树对外部环境条件和检索条件进行处理，从而对产品的排序，并最终生成推荐结果。

如图6所示，作为本发明的一个优选实施例，所述样本生成模块200包括：

信息读取单元201，用于逐条读取无目的浏览历史信息。

在本模块中，信息读取单元201逐条读取无目的浏览历史信息，在浏览历史信息中，按照时间顺序对各个产品的浏览过程进行了记录，其中包含了浏览时间、浏览器日、环境温度、环境湿度、用户位置和产品属性等内容，并通过列举的方式进行记录。

信息采集单元202，用于按照时间顺序对无目的浏览历史信息中的产品进行排序，对逐个产品进行信息采集。

在本模块中，信息采集单元202按照时间顺序对无目的浏览历史信息中的产品进行排序，当用户对同一个产品进行了多次浏览时，将其视为多个不同的产品进行单独记录，这是由于在不同的浏览时间，其对应的其他环境参数不同，因此需要独立处理。

样本组建单元203，用于根据采集得到的信息提取产品浏览记录清单，并生成数据分析样本，所述产品浏览记录清单中包含有产品唯一编码、产品属性和浏览环境条件信息。

在本模块中，样本组建单元203根据采集得到的信息提取产品浏览记录清单，在产品浏览记录清单中，按照产品唯一编码进行记录，在每一个产品唯一编码后按照预设的排列顺序对各个产品属性、浏览环境条件信息等数据进行记录，以形成数据分析样本。

如图7所示，作为本发明的一个优选实施例，所述决策树构建模块300包括：

数据分类单元301，用于按照预设比例将数据分析样本划分为训练集和测试集。

在本模块中，数据分类单元301按照预设比例将数据分析样本划分为训练集和测试集，划分比例可以为8:2，也可以为7:3，具体可以根据数据分析样本的数量确定，数据分析样本中产品数量越多，训练集所占的比例越大。

信息增益计算单元302，用于按照属性类型对训练集进行划分，计算各个属性对应的信息增益率。

在本模块中，信息增益计算单元302按照属性类型对训练集进行划分，将其划分为连续属性和离散属性，对于离散属性而言，其数据量是离散的，如产品材质，而连续属性则可以为连续数值，如环境温度，对于不同的属性采用不同的计算方法计算相应的信息增益，并计算其对应的信息增益率。

决策树训练单元303，用于根据信息增益率确定最优划分属性，根据最优划分属性构建产品推荐决策树。

在本模块中，决策树训练单元303根据信息增益率确定最优划分属性，据此可以确定产品推荐决策树的架构，进而确定每个分支节点的数值，从而完善产品推荐决策树，最终利用测试集对产品推荐决策树进行测试，达到要求即可投入使用。

如图8所示，作为本发明的一个优选实施例，所述产品推荐模块400包括：

数据提取单元401，用于获取决策条件数据，从决策条件数据中提取环境条件数据和检索条件数据。

在本模块中，数据提取单元401获取决策条件数据，用户在使用时，直接输入检索条件，在检索条件中，可以包含产品名称以及相应的修饰词，如，老年人喝的奶粉，其中奶粉则为产品名称，修饰词则为老年人喝的，在此时对环境条件进行采集，如浏览时间、浏览器日、环境温度、环境湿度、用户位置等，以得到环境条件数据和检索条件数据。

产品检索单元402，用于基于检索条件数据对产品进行检索，生成备选产品库。

在本模块中，产品检索单元402基于检索条件数据对产品进行检索，如根据“奶粉”这一产品名称进行检索，对所有搜索到的结果进行暂存，形成备选产品库，为了确定推荐的顺序，需要进一步分析。

产品排序单元403，用于通过产品推荐决策树对环境条件数据进行处理，为备选产品库中的产品进行排序，生成推荐结果。

在本模块中，产品排序单元403通过产品推荐决策树对环境条件数据进行处理，判断用户检索的产品是否包含在产品推荐决策树的决策范围之内，若在其中，则通过该产品推荐决策树进行产品推荐，以形成推荐顺序，若不在，则按照其他排序方式进行推荐，如销售量、产品评价等，根据推荐结果对产品进行展示。

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据的电子商城用户偏好分析方法，其特征在于，所述方法包括：

对用户进行随机产品推送，生成产品推送记录；

2.根据权利要求1所述的基于大数据的电子商城用户偏好分析方法，其特征在于，所述获取无目的浏览历史信息，根据无目的浏览历史信息生成数据分析样本的步骤，具体包括：

逐条读取无目的浏览历史信息；

3.根据权利要求1所述的基于大数据的电子商城用户偏好分析方法，其特征在于，所述根据数据分析样本生成训练集和测试集，并构建产品推荐决策树的步骤，具体包括：

按照预设比例将数据分析样本划分为训练集和测试集；

4.根据权利要求1所述的基于大数据的电子商城用户偏好分析方法，其特征在于，所述获取决策条件数据，通过产品推荐决策树对决策条件数据生成推荐结果的步骤，具体包括：

基于检索条件数据对产品进行检索，生成备选产品库；

5.根据权利要求1所述的基于大数据的电子商城用户偏好分析方法，其特征在于，对用户进行随机产品推送之后，对用户的点击信息进行记录，生成无目的浏览历史信息。

6.根据权利要求1所述的基于大数据的电子商城用户偏好分析方法，其特征在于，所述目的浏览历史信息不包含用户主动检索后选择的产品对应的浏览信息。

7.一种基于大数据的电子商城用户偏好分析系统，其特征在于，所述系统包括：

8.根据权利要求7所述的基于大数据的电子商城用户偏好分析系统，其特征在于，所述样本生成模块包括：

信息读取单元，用于逐条读取无目的浏览历史信息；

9.根据权利要求7所述的基于大数据的电子商城用户偏好分析系统，其特征在于，所述决策树构建模块包括：

10.根据权利要求7所述的基于大数据的电子商城用户偏好分析系统，其特征在于，所述产品推荐模块包括：