CN116823406A

CN116823406A - 一种基于大数据的营养素片推荐方法及系统

Info

Publication number: CN116823406A
Application number: CN202311069035.6A
Authority: CN
Inventors: 张阳; 李晓宁; 鲁会林
Original assignee: Guopin Optimality Beijing Brand Management Co ltd
Current assignee: Guopin Optimality Beijing Brand Management Co ltd
Priority date: 2023-08-24
Filing date: 2023-08-24
Publication date: 2023-09-29
Anticipated expiration: 2043-08-24
Also published as: CN116823406B

Abstract

本发明涉及智能推荐领域，具体涉及一种基于大数据的营养素片推荐方法及系统。该方法包括：在购买界面使用调研表与用户进行交互，获取用户填写的调研信息，对调研表项中的调研信息进行分词处理，提取出每个调研表项的关键词组，基于TF‑IDF算法，对各调研表的调研表项的关键词组进行分析，从而获得调研表之间的最终相似度，基于最终相似度对调研表进行聚类获得聚类结果，根据聚类结果为用户推荐合适的营养素片产品。本发明能够根据用户自身的营养需求向用户推荐合适的营养素片，提高了推荐的效果和推荐的准确度。

Description

一种基于大数据的营养素片推荐方法及系统

技术领域

本发明涉及智能推荐领域，具体涉及一种基于大数据的营养素片推荐方法及系统。

背景技术

营养素片是一种以片剂形式制成的补充人体营养物质的产品，我国明确规定经批准的此类营养素片不得以提供能量为目的，只能宣传其所补充的营养成分，不得声称具有某种特定保健功能，一些经验较少的用户不熟悉其营养成分的具体含义和适用功能，导致选购困难，大多是听取他人的建议进行购买，信息闭塞对用户和产品商而言都造成了较大的烦扰，因此电商平台如何向用户推荐合适的营养素片产品是当前亟待解决的问题。

现有技术中通常是将销量较高的营养素片产品优先推荐给用户，但营养素片产品不同于其他常规商品，用户需要根据自身的营养需求进行购买，不同的人群和生长阶段有着不同的营养需求，推荐销量较高的营养素片导致无法根据用户自身的营养需求向用户推荐合适的营养素片，推荐效果较差，推荐准确度较低。

发明内容

为了解决用户在线购买营养素片产品时，无法根据用户自身的营养需求向用户推荐合适的营养素片，导致推荐效果较差和推荐准确度较低的技术问题，本发明的目的在于提供一种基于大数据的营养素片推荐方法及系统，所采用的技术方案具体如下：

本发明提出了一种基于大数据的营养素片推荐方法，所述方法包括：

在购买界面使用调研表与用户进行交互，获取用户在调研表的每个调研表项中填写的调研信息；对每个调研表的每个调研表项的调研信息进行分词处理，获取每个调研表项的单词；

对所有调研表的同一个调研表项中的单词分别按照相同的组合方式进行组合，获得每个调研表项的词组；将同一个调研表项的所有词组中的相同词组划分为同一类别，根据每个类别中词组的数量在同一个调研表项的所有词组的总数量的占比，确定每个调研表项的关键词组，其中，相同的组合方式为在单词相对顺序不变的情况下，选取相同数量的单词进行组合；

根据每个调研表的每个调研表项的关键词组在同一个调研表项中出现的次数与调研表的总数量，获得每个关键词组的第二概率；根据任意两个调研表项下所有关键词组的第二概率，获得任意两个调研表项的相关系数；根据每个调研表项与其他所有调研表项的相关系数，获得每个调研表项的可替代参数；

根据每个关键词组在对应调研表中出现的次数、包含所述关键词组的调研表的数量以及调研表的总数量，获得关键词组的词组权重；根据可替代参数和任意两个调研表的相同调研表项中关键词组的词组权重，获得任意两个调研表的相同调研表项的真实权重；根据任意两个调研表的每个调研表项的关键词组和真实权重，获得调研表之间的最终相似度；

基于最终相似度对调研表进行聚类获得聚类结果，根据聚类结果为用户推荐营养素片产品。

进一步地，所述根据每个类别中词组的数量在同一个调研表项的所有词组的总数量的占比，确定每个调研表项的关键词组包括：

将每个类别中词组的数量和同一个调研表项的所有词组的总数量的比值作为每类词组的第一概率；

对所有所述第一概率进行高斯拟合，获得每种组合方式的高斯拟合曲线；

基于峰度公式，根据每个所述第一概率获得所述高斯拟合曲线的峰度值；

将所述峰度值的最小值对应的组合方式作为最佳组合方式；

使用最佳组合方式对对应的调研表项中的所述单词进行组合，获得每个调研表项的最佳词组；

将每个调研表的每个调研表项中最长的最佳词组作为调研表项的关键词组。

进一步地，所述根据任意两个调研表项下所有关键词组的第二概率，获得任意两个调研表项的相关系数包括：

根据任意两个调研表项下所有关键词组的所述第二概率，获得任意两个调研表项之间的皮尔逊相关系数；

将所述皮尔逊相关系数的绝对值作为任意两个调研表项的相关系数。

进一步地，所述根据每个调研表项与其他所有调研表项的相关系数，获得每个调研表项的可替代参数包括：

将每个调研表项与其他所有调研表项的所述相关系数的平均值作为每个调研表项的可替代参数。

进一步地，所述第二概率为每个调研表的每个调研表项的关键词组在同一个调研表项中出现的次数和调研表的总数量的比值。

进一步地，所述根据每个关键词组在对应调研表中出现的次数、包含所述关键词组的调研表的数量以及调研表的总数量，获得关键词组的词组权重包括：

基于TF-IDF算法，对每个关键词组在对应调研表中出现的次数、包含所述关键词组的调研表的数量以及调研表的总数量进行计算，获得每个关键词组的词组权重。

进一步地，所述根据可替代参数和任意两个调研表的相同调研表项中关键词组的词组权重，获得任意两个调研表的相同调研表项的真实权重包括：

对所述可替代参数进行负相关映射，获得每个调研表项的可替代参数映射值；

将任意两个调研表的相同调研表项中关键词组的词组权重的乘积值作为任意两个调研表的相同调研表项的初始权重；

将所述可替代参数映射值和所述初始权重的乘积值，作为任意两个调研表的相同调研表项的真实权重。

进一步地，所述根据任意两个调研表的每个调研表项的关键词组和真实权重，获得调研表之间的最终相似度包括：

基于Word2Vec算法，将任意两个调研表的相同调研表项中的关键词组分别映射为相应的词向量；根据所述词向量获得任意两个调研表的相同调研表项中关键词组的余弦相似度；

将所述真实权重和所述余弦相似度的乘积值作为任意两个调研表的相同调研表项之间的表项相似度；

将所有所述表项相似度的和值，作为调研表之间的最终相似度。

进一步地，所述根据聚类结果为用户推荐营养素片产品包括：

所述聚类结果包括不同的聚类簇，获取所述聚类簇中所有调研表对应用户的历史购买记录，基于所述历史购买记录，计算所述聚类簇中每种营养素片的购买概率，将所述购买概率大于预设阈值的营养素片推荐给用户。

本发明还提出了一种基于大数据的营养素片推荐系统，所述系统包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现任意一项所述方法的步骤。

本发明具有如下有益效果：

本发明针对在营养素片产品在线购买的过程中，存在较多的用户不了解营养素片的营养成分和适用功能，导致用户无法购买到合适的营养素片，因此在购买界面使用调研表与用户进行交互，获取用户的调研信息，以便后续根据用户的调研信息对用户的营养需求进行分析，由于调研表项中的调研信息是通过用户组织语言进行填写的，差异性较大，所以需要对每个调研表项的调研信息进行分词，以便后续提取出关键词组，提高对大量用户数据的处理效率，考虑到有些单词不具有实际含义，调研表项中填写的调研信息的语义特征往往以词组的形式体现，对调研表项内的多个单词进行组合可以获得多个不同的词组，并且不同的组合方式对关键词组提取的效果不同，因此本发明对所有调研表的同一个调研表项中的单词以相同的组合方式进行组合，获得每个调研表项的词组，将同一个调研表项下相同的词组划分为同一类别，并根据每个类别中词组的数量在同一个调研表项的所有词组的总数量的占比，确定每个调研表项的关键词组，使得获取的关键词组能够更好的体现调研表项的语义特征；考虑到调研表中某些调研表项之间具有一定的关联性，关联性强的调研表项较多时会导致调研表的各调研表项的权重存在不平衡的问题，所以可获得任意两个调研表项的相关系数，并根据每个调研表项与其他所有调研表项的相关系数，获得每个调研表项的可替代参数，以便在后续中使用可替代参数对调研表项中关键词组的词组权重进行调整，获取调研表项更加准确的真实权重；考虑到调研表项中关键词组之间的相似程度能够反映出调研表之间的相似程度，所以本发明根据任意两个调研表的每个调研表项的关键词组，并引入调研表项的真实权重，以获取调研表之间的最终相似度，提高了对调研表之间相似程度的评估结果的准确性，基于最终相似度对调研表进行聚类，使得相同营养需求的用户处于相同聚类簇中，并根据聚类结果为用户推荐营养素片产品，提高了推荐的效果和准确度。本发明首先使用调研表与用户进行交互，对用户在调研表中填写的调研信息进行分析，获得调研表之间的最终相似度，基于最终相似度对各调研表进行聚类，并根据聚类结果为用户推荐营养素片产品，能够根据用户自身的营养需求向用户推荐合适的营养素片，提高了推荐的效果和推荐的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的一种基于大数据的营养素片推荐方法流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种基于大数据的营养素片推荐方法及系统，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

一种基于大数据的营养素片推荐方法及系统实施例：

下面结合附图具体的说明本发明所提供的一种基于大数据的营养素片推荐方法及系统的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种基于大数据的营养素片推荐方法流程图，该方法包括：

步骤S1：在购买界面使用调研表与用户进行交互，获取用户在调研表的每个调研表项中填写的调研信息；对调研表中每个调研表项的调研信息进行分词处理，获取每个调研表项的单词。

由于营养素片产品与其他常规产品不同，用户需要根据自身的营养需求进行购买，不同的人群和生长阶段有着不同的营养需求，例如老年人、孕妇、运动员之间的营养需求不同，对于购买经验较多的用户，可以直接根据营养素片的说明书购买到合适的营养素片产品，对于购买经验较少的用户，由于其不熟悉营养素片的营养成分和适用功能，更容易购买到不适合自身的营养素片，为了保证每个用户都能购买到适合自身的营养素片，首先需要对用户的个人情况进行详细的调研，在本发明实施例中在购买界面使用调研表与用户进行交互，获取用户在调研表的每个调研表项中填写的调研信息，其中的调研表项包括：年龄、职业、性别、工作状态、饮食习惯等基本调研信息，是否存在过敏反应或不耐受情况、是否有慢性疾病或健康问题、过去一年是否就医或接收治疗等特殊关注信息，以及个人情况说明，可以理解的是，本发明实施例在采集用户的调研信息时，均经过相关用户的同意，其过程不违反相关法律法规，且不违背公序良俗。

由于调研表项中的调研信息是通过用户组织语言进行填写的，不同调研表的同一个调研表项中的语句整体的差异性较大，所以需要对每个调研表项的调研信息进行分词处理，获取每个调研表项中的单词，例如，某个调研表的某个调研表项中的调研信息为“每周服用三次劳拉西泮安眠药”，经过分词处理后，该调研表项中的单词为“每周、服用、三次、劳拉西泮、安眠药”。在本发明的一个实施例中，分词处理方式可以为正向最大匹配算法，需要说明的是，具体的分词处理方式可根据具体实施场景进行选择，在此不做限定。

获取到每个调研表项中的单词后，便可在后续中根据每个调研表项中的单词提取出调研表项的关键词组，从而提高后续对大量用户数据的处理效率。

步骤S2：对所有调研表的同一个调研表项中的单词按照相同的组合方式进行组合，获得每个调研表项的词组；将同一个调研表项的所有词组中的相同词组划分为同一类别，根据每个类别中词组的数量在同一个调研表项的所有词组的总数量的占比，确定每个调研表项的关键词组，其中，相同的组合方式为在单词相对顺序不变的情况下，选取相同数量的单词进行组合。

由于调研表项中的某些单词不具有实际的意义，需要对不同的单词进行组合才能体现出调研表项中填写的调研信息的语义特征，所以本发明实施例对所有调研表的同一个调研表项中的单词按照相同的组合方式进行组合，获得每个调研表项的词组，在本发明的一个实施例中对单词的组合方式为在单词相对顺序不变的情况下，选取任意数量的单词进行组合，其中，选取的数量相同则为相同的组合方式，选取的数量不同则为不同的组合方式，例如，某调研表的某个调研表项中的单词为“每周、服用、三次、劳拉西泮、安眠药”，在单词相对顺序不变的情况下可选取三个单词进行组合，获得如“每周服用三次”、“每周服用安眠药”等词组，此类词组能够更好的体现出用户填写在调研表项中的调研信息的语义特征，但由于不同的组合方式对最终的关键词组提取的效果不同，所以可将同一个调研表项中得到的所有词组中的相同词组划分为同一类别，根据每个类别中词组的数量和同一个调研表项的所有词组的总数量，获得每类词组的第一概率；并根据所有第一概率获得每个调研表项的关键词组，从而可提高对调研表项中关键词组的提取效果。

优选地，在本发明的一个实施例中每类词组的第一概率的具体获取方法包括：

将每个类别中词组的数量和同一个调研表项的所有词组的总数量的比值作为每类词组的第一概率。第一概率的表达式具体可以例如为：

其中，表示第/>类词组的第一概率；/>表示第/>类词组的数量；/>表示经过组合后的第/>个调研表项的词组的总数量。

获取到每类词组的第一概率后，便可对所有的第一概率进行分析，从而提取出每个调研表的每个调研表项中的关键词组。

优选地，在本发明的一个实施例中每个调研表项的关键词组的具体获取方法包括：

对所有第一概率进行高斯拟合，获得每种组合方式的高斯拟合曲线；基于峰度公式，根据每个第一概率获得高斯拟合曲线的峰度值；将峰度值的最小值对应的组合方式作为最佳组合方式。使用最佳组合方式对对应的调研表项中的单词进行组合，获得每个调研表项的最佳词组；将每个调研表的每个调研表项中最长的最佳词组作为调研表项的关键词组。

在本发明的一个实施例中峰度值的表达式可以具体例如为：

其中，表示高斯拟合曲线的峰度值；/>表示第/>个第一概率，也可理解为第/>类词组的第一概率；/>表示所有第一概率的均值；/>表示所有第一概率的标准差；/>表示第一概率的数量，也可理解为所划分词组的类别的数量。

在高斯拟合曲线的峰度值的获取过程中，本发明实施例是基于独立成分分析的思想，在当前的组合方式下，若该调研表项中所有的词组属于独立成分，那么各类词组的第一概率的分布不具有明显的高斯分布特征，若该调研表项中所有的词组属于非独立成分，那么各类词组的第一概率/>的分布具有明显的高斯分布特征，非独立成分的词组中存在较多无实际意义的停用词，说明在当前的组合方式下进行组合的效果不佳，而高斯分布特征可以通过高斯拟合曲线的峰度进行评估，/>为在当前组合方式下获取的高斯拟合曲线的峰度公式，通过该峰度公式可获取高斯拟合曲线的峰度值/>，峰度值/>越小，说明高斯拟合曲线的高斯分布特征越弱，进而说明在当前的组合方式下词组的组合效果越好，所以可将峰度值/>的最小值对应的组合方式作为最佳组合方式，提高对调研表项中关键词组的提取效果。

需要说明的是，若调研表的某些调研表项中只有一个单词，则可直接将该单词作为该调研表项的关键词组。

提取到每个调研表中每个调研表项中的关键词组后，便可在后续中通过调研表项的关键词组分析调研表项之间的相关性，为后续相关性的分析提供数据支持。

步骤S3：根据每个调研表中每个调研表项的关键词组在同一个调研表项中出现的次数与调研表的总数量，获得每个关键词组的第二概率；根据任意两个调研表项下所有关键词组的第二概率，获得任意两个调研表项的相关系数；根据每个调研表项与其他所有调研表项的相关系数，获得每个调研表项的可替代参数。

由于调研表的某些调研表项之间具有一定的相关性，例如经常食用夜宵、油炸食品的人，体重指标也会较大，或者经常加班、出差的人，三餐一般不规律等等，也就是说，对于相关性较强的一些调研表项，某个调研表项中的某种关键词组出现时，与之相关的调研表项往往会伴随着另一种关键词组的出现，因此可将每个调研表中每个调研表项的关键词组在同一个调研表项中出现的次数，作为每个关键词组的参考数量，根据参考数量和调研表的总数量获得每个关键词组的第二概率，并根据任意两个调研表项下所有关键词组的第二概率，获得任意两个调研表项的相关系数，相关系数能够反映出任意两个不同的调研表项之间的相关性，便于后续根据任意两个表项之间的相关系数获得每个调研表项的可替代参数，提高获得的可替代参数的准确性。

优选地，在本发明的一个实施例中每个关键词组的第二概率的具体获取方法包括：

将参考数量和调研表的总数量的比值作为每个关键词组的第二概率。第二概率的表达式可以具体例如为：

其中，表示第/>个调研表的第/>个调研表项的关键词组的第二概率；/>表示第/>个调研表的第/>个调研表项的关键词组在所有用户的第/>个表项内出现的次数，即第/>个调研表的第/>个调研表项的关键词组的参考数量；/>表示调研表的总数量，也可理解为用户的总数量。

在每个关键词组的第二概率的获取过程中，表示第/>个调研表的第/>个调研表项的关键词组在所有用户的第/>个表项内出现的次数，/>表示调研表的总数量，所以在本发明的一个实施例中将两者的比值作为该关键词组在所属调研表项中出现的概率，即该关键词组的第二概率。

获取到关键词组的第二概率之后，便可根据任意两个调研表项下所有关键词组的第二概率，获得任意两个调研表项的相关系数。

优选地，在本发明的一个实施例中任意两个调研表项的相关系数的具体获取方法包括：

根据任意两个调研表项下所有关键词组的第二概率，获得任意两个调研表项之间的皮尔逊相关系数；将皮尔逊相关系数的绝对值作为任意两个调研表项的相关系数。相关系数的表达式具体可以例如为：

其中，表示第/>个调研表项和第/>个调研表项之间的相关系数；/>表示第/>个调研表的第/>个调研表项的关键词组的第二概率；/>表示第/>个调研表项的所有关键词组的第二概率的均值；/>表示第/>个调研表的第/>个调研表项的关键词组的第二概率；/>表示第/>个调研表项的所有关键词组的第二概率的均值，其中/>和/>不相等；/>表示调研表的总数量，也可理解为用户的总数量。

在任意两个调研表项的相关系数的获取过程中，表示任意两个调研表项之间的皮尔逊相关系数，由于皮尔逊相关系数的取值范围为/>，所以在本发明的一个实施例中将任意两个调研表项之间皮尔逊相关系数取绝对值，将其限制在/>范围内，任意两个调研表项的皮尔逊相关系数的绝对值越接近1，说明这两个调研表项的相关性越强，则任意两个调研表项的相关系数/>就越大。

获取到任意两个调研表项的相关系数之后，便可根据每个调研表项与其他所有调研表项的相关系数，获得每个调研表项的可替代参数，由于某些调研表项之间具有一定的关联性，可通过每个调研表项的可替代参数减弱调研表项之间的关联性，使得在后续的处理中可通过可替代参数对基于词频-逆文档频率（Term Frequency-Inverse DocumentFrequency，TF-IDF）算法获取的关键词组的词组权重进行调整。

优选地，在本发明的一个实施例中每个调研表项的可替代参数的具体获取方法包括：

将每个调研表项与其他所有调研表项的相关系数的平均值作为每个调研表项的可替代参数。可替代参数的表达式可以具体例如为：

其中，表示第/>个调研表项的可替代参数；/>表示第/>个调研表项和第/>个调研表项之间的相关系数，其中/>和/>不相等；/>表示调研表项的数量，/>表示除了第/>个调研表项之外的所有调研表项的数量，由于本发明实施例是通过设置大量不同的调研表项对用户的自身情况进行分析，所以/>。

在每个调研表项的可替代参数的获取过程中，表示任意两个调研表项之间的相关系数，反映了这两个调研表项之间的相关性，相关系数/>越大，说明这两个调研表项之间的相关性就越强，所以在本发明的一个实施例中将某个调研表项与其他所有调研表项的相关系数的平均值/>作为该调研表项的可替代参数/>。

获取到每个调研表项的可替代参数后，便可在后续中根据可替代参数对每个调研表的每个调研表项中的关键词组的词组权重进行调整，降低冗余、可替代的表项在计算调研表的相似度时的影响权重，使相似度的判定以及后续聚类结果更为准确，更加看重于用户的实际营养需求。

步骤S4：根据每个关键词组在对应调研表中出现的次数、包含关键词组的调研表的数量以及调研表的总数量，获得关键词组的词组权重；根据可替代参数和任意两个调研表的相同调研表项中关键词组的词组权重，获得任意两个调研表的同一个调研表项的真实权重；根据任意两个调研表的每个调研表项的关键词组和真实权重，获得调研表之间的最终相似度。

由于每个关键词组在所属调研表中的重要程度不同，对其重要程度的准确评估能够提高后续获取调研表之间的最终相似度的准确性，由于每个调研表项TF-IDF算法结合了关键词组的词频和逆文档频率两个指标，其中关键词组的词频可通过每个关键词组在对应调研表中出现的次数获取，而关键词组的逆文档频率可通过包含该关键词组的调研表的数量以及调研表的总数量获取，如果某个关键词组的词频越高，则说明该关键词组在的重要性越高，逆文档频率则是衡量关键词组的稀有性，如果某个关键词组在大部分调研表中都出现，其逆文档频率较低；如果某个关键词组在少数调研表中出现，其某个关键词组较高。词频和逆文档频率相乘的结果，用于衡量某个关键词组在调研表中的重要程度。因此在本发明实施例中，可通过TF-IDF算法来评估每个关键词组的重要程度，首先可根据每个关键词组在对应调研表中出现的次数、包含关键词组的调研表的数量以及调研表的总数量，获得关键词组的词组权重，需要说明的是，TF-IDF算法是本领域技术人员熟知的技术手段，在此不再赘述。

由于TF-IDF算法的局限性，当调研表的数量较多时，关键词组的数量也会较多，基于TF-IDF算法获取的词组权重时，会降低获取的词组权重的准确性，从而通过词组权重无法准确的反映关键词组的重要程度，因此可通过每个调研表项的可替代参数对词组权重进行矫正，所以可根据可替代参数和任意两个调研表的相同调研表项中关键词组的词组权重，获得任意两个调研表的同一个调研表项的真实权重。

优选地，在本发明的一个实施例中任意两个调研表的相同调研表项的真实权重的具体获取方法包括：

对可替代参数进行负相关映射，获得每个调研表项的可替代参数映射值；将任意两个调研表的同一个调研表项中关键词组的词组权重的乘积值作为任意两个调研表的相同调研表项的初始权重；将可替代参数映射值和初始权重的乘积值，作为任意两个调研表的同一个调研表项的真实权重。真实权重的表达式可以具体例如为：

其中，表示调研表/>和调研表/>相同的第/>个调研表项的真实权重；/>表示第/>个调研表项的可替代参数；/>表示调研表/>的第/>个调研表项的关键词组的词组权重；表示调研表/>的第/>个调研表项的关键词组的词组权重，需要说明的是/>和/>都是基于现有的TF-IDF算法获取的。

在任意两个调研表的相同调研表项的真实权重的获取过程中，由于每个调研表的调研表项的关键词组的词组权重能够反映该关键词组的重要程度，而调研表中不同的调研表项也有着不同的重要程度，并且调研表项的重要程度的准确评估能够提高后续分析任意两个调研表的最终相似度的准确性，所以在本发明的一个实施例将作为任意两个调研表的相同调研表项的初始权重，由于TF-IDF算法的局限性，会降低获取的词组权重的准确性，进而降低初始权重的准确性，而/>表示某个调研表项的可替代参数，可替代参数越大，说明该调研表项与其他调研表项的相关性越强，说明该调研表项的初始权重的降低程度就需要越大，则任意两个调研表相同调研表项的真实权重/>就越小，所以在本发明的一个实施例中，将可替代参数/>进行负相关映射获得可替代参数映射值/>，并将可替代参数映射值/>和任意两个调研表的相同调研表项的初始权重/>的乘积值，作为任意两个调研表的相同调研表项的真实权重/>。

本发明实施例需要对任意两个调研表之间的最终相似度进行评估，便于后续根据调研表之间的最终相似度对调研表进行聚类，由于调研表是由各个不同的调研表项构成，所以可通过相同调研表项中关键词组的相似度反映调研表之间的最终相似度，考虑到任意两个调研表不同的调研表项的重要程度对最终相似度的准确性的影响，所以可根据任意两个调研表的每个调研表项的关键词组和真实权重，获得调研表之间的最终相似度，提高对最终相似度计算的准确性，使后续的聚类结果更加准确。

优选地，在本发明的一个实施例中调研表之间的最终相似度的具体获取方法包括：

基于Word2Vec算法，将任意两个调研表的相同调研表项中的关键词组分别映射为相应的词向量；根据词向量获得任意两个调研表的相同调研表项中关键词组的余弦相似度；将真实权重和余弦相似度的乘积值作为任意两个调研表的相同调研表项之间的表项相似度；将所有表项相似度的和值，作为调研表之间的最终相似度。需要说明的是，Word2Vec算法是本领域技术人员熟知的技术手段，在此不再赘述。最终相似度的表达式可以具体例如为：

其中，表示调研表/>和调研表/>的最终相似度；/>表示调研表/>和调研表/>相同的第/>个调研表项的真实权重；/>表示调研表/>的第/>个调研表项的关键词组的词向量；/>表示调研表/>的第/>个调研表项的关键词组的词向量；/>表示调研表项的数量；/>表示调研表/>和调研表/>相同的第/>个调研表项中关键词组的余弦相似度。

在调研表之间的最终相似度的获取过程中，本发明的一个实施例通过任意两个调研表相同的调研表项中关键词组之间的余弦相似度，来反映任意两个调研表之间的最终相似度/>，任意两个调研表的相同调研表项中关键词组的余弦相似度越大，说明调研表的相同调研表项的关键词组的相似程度就越大，则调研表之间的最终相似度就越大，并通过任意两个调研表的同一个调研表项的真实权重/>对余弦相似度/>进行调整，以提高对调研表之间最终相似度评估结果的准确性。

获取到调研表之间的最终相似度之后，便可在后续中通过最终相似度对所有的调研表进行聚类，使得后续聚类结果更为准确，更加看重于用户的实际营养需求。

步骤S5：基于最终相似度对调研表进行聚类获得聚类结果，根据聚类结果为用户推荐营养素片产品。

调研表之间的最终相似度能够准确的反映出调研表之间的相似程度，因此可将基于调研表之间的最终相似度对调研表进行聚类，在本发明的一个实施例中，使用k-means聚类算法对各个调研表进行聚类，将调研表之间的最终相似度作为k-means聚类算法的距离度量，并基于手肘法获取k-means聚类算法最优的参数k。

对所有的调研表完成聚类后，由于调研表与用户一一对应，所以能够将营养需求相近的用户划分为同一个类别中，则可根据聚类结果为用户推荐营养素片产品，从而实现为每个用户推荐适合其自身营养需求的营养素片产品。

优选地，在本发明的一个实施例中为用户推荐营养素片产品的方法包括：

获取聚类簇中所有调研表对应用户的历史购买记录，基于历史购买记录，计算聚类簇中每种营养素片的购买概率，由于每个聚类簇中用户的营养需求是相近的，所以某种营养素片的购买概率越大，说明该类型的营养素片越适合该聚类簇中的用户，将购买概率大于预设阈值的营养素片推荐给用户，从而保证不同的人群都能购买到合适的营养素片，提高了营养素片产品的有效销售率和用户的购买体验。在本发明的一个实施例中，预设阈值设置为0.6，预设阈值的具体数值可根据不同的实施场景由实施者具体设置，在此不做限定。

可以理解的是，本发明实施例在获取用户的历史购买记录时，均经过相关用户的同意，其过程不违反相关法律法规，且不违背公序良俗。

本发明一个实施例提供了一种基于大数据的营养素片推荐系统，该系统包括存储器、处理器和计算机程序，其中存储器用于存储相应的计算机程序，处理器用于运行相应的计算机程序，计算机程序在处理器中运行时能够实现步骤S1~S5所描述的方法。

综上所述，本发明实施例在购买界面使用调研表与用户进行交互，获取用户在调研表的每个调研表项中填写的调研信息，对调研表项中的调研信息进行分词处理，获取调研表项中的单词，对所有调研表的同一个调研表项中的单词按照相同的组合方式进行组合，并对组合后的词组进行分类，获得每个类别的词组的第一概率，对所有类别的词组的第一概率进行高斯拟合获得高斯拟合曲线，通过高斯拟合曲线的峰度评估每种组合方式的效果，将最小峰度值对应的组合方式作为最佳组合方式，通过最佳组合方式获取每个调研表项中的关键词组；统计每个调研表的每个调研表项的关键词组在同一个调研表项中出现的次数，进而获取到每个关键词组的第二概率，根据任意两个调研表项下所有关键词组的第二概率获得任意两个调研表项的相关系数，并根据每个调研表项与其他所有调研表项的相关系数，获得每个调研表项的可替代参数；基于TF-IDF算法，根据每个关键词组在对应调研表中出现的次数、包含关键词组的调研表的数量以及调研表的总数量，获得关键词组的词组权重，针对任意两个调研表，根据可替代参数和任意两个调研表的相同调研表项中关键词组的词组权重，获得任意两个调研表的同一个调研表项的真实权重，根据任意两个调研表的每个调研表项的关键词组和真实权重，获得调研表之间的最终相似度；基于最终相似度对调研表进行聚类获得聚类结果，根据聚类结果为用户推荐营养素片产品。本发明实施例首先使用调研表与用户进行交互，对用户在调研表中填写的调研信息进行分析，获得调研表之间的最终相似度，并基于最终相似度对各调研表进行聚类，使得相同营养需求的用户分为同一类，并根据聚类结果为用户推荐营养素片产品，使得能够根据用户自身的营养需求向用户推荐合适的营养素片，提高了推荐的效果以及推荐的准确度。

一种基于大数据的调研表相似度判定方法实施例：

现有技术中通常是对表格中包含的关键词进行提取，计算每个表格中关键词之间的相似度，从而实现对表格之间相似度的判定，但当调研表的数量较多时，从大量的调研表中提取的关键词较多且内容较为繁杂，降低了对调研表的相似度判定的准确性。

为了解决该问题，本实施例提供了一种基于大数据的调研表相似度判定方法，包括：

步骤S1：在购买界面使用调研表与用户进行交互，获取用户在调研表的每个调研表项中填写的调研信息；对调研表中每个调研表项的调研信息进行分词处理，获取每个调研表项的单词；

步骤S2：对所有调研表的同一个调研表项中的单词按照相同的组合方式进行组合，获得每个调研表项的词组；将同一个调研表项的所有词组中的相同词组划分为同一类别，根据每个类别中词组的数量在同一个调研表项的所有词组的总数量的占比，确定每个调研表项的关键词组，其中，相同的组合方式为在单词相对顺序不变的情况下，选取相同数量的单词进行组合；

步骤S3：根据每个调研表中每个调研表项的关键词组在同一个调研表项中出现的次数与调研表的总数量，获得每个关键词组的第二概率；根据任意两个调研表项下所有关键词组的第二概率，获得任意两个调研表项的相关系数；根据每个调研表项与其他所有调研表项的相关系数，获得每个调研表项的可替代参数；

其中，步骤S1~S4在上述一种基于大数据的营养素片推荐方法及系统实施例中已给出了详细说明，在此不再赘述。

本实施例带来的有益效果为：由于调研表项中的调研信息是通过用户组织语言进行填写的，差异性较大，所以需要对每个调研表项的调研信息进行分词，以便后续提取出关键词组，提高对大量用户数据的处理效率，考虑到有些单词不具有实际含义，调研表项中填写的调研信息的语义特征往往以词组的形式体现，对调研表项内的多个单词进行组合可以获得多个不同的词组，并且不同的组合方式对关键词组提取的效果不同，因此本发明对所有调研表的同一个调研表项中的单词以相同的组合方式进行组合，获得每个调研表项的词组，将同一个调研表项下相同的词组划分为同一类别，并根据每个类别中词组的数量在同一个调研表项的所有词组的总数量的占比，确定每个调研表项的关键词组，使得获取的关键词组能够更好的体现调研表项的语义特征；考虑到调研表中某些调研表项之间具有一定的关联性，关联性强的调研表项较多时会导致调研表的各调研表项的权重存在不平衡的问题，所以可获得任意两个调研表项的相关系数，并根据每个调研表项与其他所有调研表项的相关系数，获得每个调研表项的可替代参数，以便在后续中使用可替代参数对调研表项中关键词组的词组权重进行调整，获取调研表项更加准确的真实权重；考虑到调研表项中关键词组之间的相似程度能够反映出调研表之间的相似程度，所以本发明根据任意两个调研表的每个调研表项的关键词组，并引入调研表项的真实权重，以获取调研表之间的最终相似度，提高了对调研表之间相似程度的判定结果的准确性。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

Claims

1.一种基于大数据的营养素片推荐方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于大数据的营养素片推荐方法，其特征在于，所述根据每个类别中词组的数量在同一个调研表项的所有词组的总数量的占比，确定每个调研表项的关键词组包括：

将所述峰度值的最小值对应的组合方式作为最佳组合方式；

3.根据权利要求1所述的一种基于大数据的营养素片推荐方法，其特征在于，所述根据任意两个调研表项下所有关键词组的第二概率，获得任意两个调研表项的相关系数包括：

4.根据权利要求1所述的一种基于大数据的营养素片推荐方法，其特征在于，所述根据每个调研表项与其他所有调研表项的相关系数，获得每个调研表项的可替代参数包括：

5.根据权利要求1所述的一种基于大数据的营养素片推荐方法，其特征在于，所述第二概率为每个调研表的每个调研表项的关键词组在同一个调研表项中出现的次数和调研表的总数量的比值。

6.根据权利要求1所述的一种基于大数据的营养素片推荐方法，其特征在于，所述根据每个关键词组在对应调研表中出现的次数、包含所述关键词组的调研表的数量以及调研表的总数量，获得关键词组的词组权重包括：

7.根据权利要求1所述的一种基于大数据的营养素片推荐方法，其特征在于，所述根据可替代参数和任意两个调研表的相同调研表项中关键词组的词组权重，获得任意两个调研表的相同调研表项的真实权重包括：

8.根据权利要求1所述的一种基于大数据的营养素片推荐方法，其特征在于，所述根据任意两个调研表的每个调研表项的关键词组和真实权重，获得调研表之间的最终相似度包括：

9.根据权利要求1所述的一种基于大数据的营养素片推荐方法，其特征在于，所述根据聚类结果为用户推荐营养素片产品包括：

10.一种基于大数据的营养素片推荐系统，所述系统包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1~9任意一项所述方法的步骤。