CN117892000A

CN117892000A - 基于用户特征的云数据统筹管理系统及方法

Info

Publication number: CN117892000A
Application number: CN202410066339.5A
Authority: CN
Inventors: 王晓光; 魏高峰; 叶开
Original assignee: Hubei Xuzhi Information Technology Co ltd
Current assignee: Hubei Xuzhi Information Technology Co ltd
Priority date: 2024-01-17
Filing date: 2024-01-17
Publication date: 2024-04-16
Anticipated expiration: 2044-01-17
Also published as: CN117892000B

Abstract

本发明提供一种基于用户特征的云数据统筹管理系统及方法，涉及云数据统筹技术领域，包括云数据获取模块，用于从公有云中获取云数据；云数据处理模块，用于采用聚类算法对云数据进行聚类，并进行特征提取，得到第一特征向量组；历史数据获取模块，用于获取用户历史数据；历史数据处理模块，用于提取得到第二特征向量，并对用户历史需求数据进行关键词提取，得到历史关键词；匹配模块，用于构建匹配库；需求获取模块，用于获取当前关键词；推荐模块，用于根据当前关键词得到第一推荐列表，计算推荐价值，按照推荐价值将第一推荐列表重排，得到最终推荐列表。本发明提高了推荐的准确性和用户满意度，并保证了推荐结果的实时性和时效性。

Description

基于用户特征的云数据统筹管理系统及方法

技术领域

本发明涉及云数据统筹技术领域，尤其涉及基于用户特征的云数据统筹管理系统及方法。

背景技术

目前，云数据管理系统主要采用云存储、云计算、大数据分析等技术，为用户提供数据存储、处理、分析和推荐的服务。这些系统通常具有以下特点：

云存储服务：提供用户数据的远程存储和备份，包括对象存储、文件存储等，用户可以根据需求灵活选择存储容量和存储类型。云计算服务：提供弹性计算能力，用户可以根据需要动态获取计算资源，进行数据处理、应用部署等操作。大数据分析：通过大数据技术对海量数据进行存储、处理和分析，为用户提供数据挖掘、业务智能等服务。数据安全与隐私保护：提供数据加密、访问控制、安全审计等功能，保障用户数据的安全和隐私。智能推荐系统：通过分析用户的历史数据和行为，为用户推荐数据管理方案、工具或服务，提高用户体验和数据管理效率。

然而，现有技术还存在一些不足之处：

缺乏个性化服务：目前大多数云数据管理系统还是采用统一的管理方式，无法根据用户的特征和需求提供个性化的数据管理服务。这导致用户体验和满意度无法得到有效提升。智能推荐精度有限：现有的智能推荐系统在推荐精度方面还有待提高，无法充分准确地理解用户的需求和偏好，导致推荐的数据管理方案或工具与用户实际需求不完全匹配。

综上所述，尽管云计算和大数据技术已经为数据管理带来了革命性的变化，但在个性化服务、智能推荐精度方面仍存在诸多挑战和不足之处。

中国申请号为201910161585.8的发明专利公开了信息推荐方法和装置，其公开了对项目所在的项目集合进行聚类，生成多个包含项目的类簇；计算用户对该项目在每个类簇中的短期兴趣权重和长期兴趣权重；根据短期兴趣权重和长期兴趣权重计算用户对该项目在每个类簇中的预测评分；获取该项目与各个类簇的相似度；根据该项目在每个类簇中的预测评分和所述项目与各个类簇的相似度计算得到最终预测评分；根据该最终预测评分生成推荐列表。该现有技术是根据两种权重计算方式以及相似度来预测用户对项目的兴趣程度，并未考虑其他影响推荐结果的因素，其推荐精度有限，且无法满足用户的个性化需求。

发明内容

有鉴于此，本发明提供基于用户特征的云数据统筹管理系统及方法，通过考虑用户的个性化需求、时间标签，来进行智能匹配和精确推荐，提高了推荐的准确性和用户满意度，并保证了推荐结果的实时性和时效性。

本发明的技术目的是这样实现的：

一方面，本发明提供基于用户特征的云数据统筹管理系统，包括：

云数据获取模块，其配置为从公有云中获取云数据，云数据包含时间标签；

云数据处理模块，其配置为采用聚类算法对云数据进行聚类，形成k个云数据组和k个聚类中心，并对k个云数据组和k个聚类中心进行第一特征向量的提取，将k个聚类中心提取得到的第一特征向量作为k个第一特征中心，得到k个第一特征向量组；

历史数据获取模块，其配置为获取用户历史数据，包括用户历史推荐数据和用户历史需求数据；

历史数据处理模块，其配置为对用户历史推荐数据进行特征提取，得到第二特征向量，并对用户历史需求数据进行关键词提取，得到历史关键词；

匹配模块，其配置为计算第二特征向量分别与k个第一特征中心的特征相似度，根据特征相似度为第二特征向量匹配对应的第一特征向量组，将第二特征向量、第一特征向量组及对应的云数据形成匹配组，并基于历史关键词对匹配组创建索引，得到匹配库；

需求获取模块，其配置为获取用户当前需求数据，并对当前需求数据提取当前关键词；

推荐模块，其配置为根据当前关键词在匹配库中搜索，得到第一推荐列表，根据第一推荐列表中对应的时间标签，计算第一推荐列表中各个匹配组的推荐价值，按照推荐价值将第一推荐列表重排，得到最终推荐列表。

在上述技术方案的基础上，优选的，云数据处理模块包括：

数据预处理单元，其配置为对云数据进行预处理，包括数据清洗、去噪和异常值处理；

初步聚类单元，其配置为将预处理后的云数据划分为n个数据子集，利用聚类算法对每个数据子集分别进行聚类，每个数据子集均聚类得到k个聚类簇和k个初始聚类中心；

聚类合并单元，其配置为将k个聚类簇和k个初始聚类中心作为初始聚类结果，利用聚类算法对初始聚类结果进行二次聚类，得到k个云数据组和k个聚类中心；

特征提取单元，其配置为利用第一特征提取网络依次对k个云数据组和k个聚类中心进行特征提取，每个云数据组提取得到一组第一特征向量，将k个聚类中心提取的第一特征向量作为k个第一特征中心，将k个第一特征中心分别归至对应的一组第一特征向量，形成k个第一特征向量组。

在上述技术方案的基础上，优选的，聚类算法包括：

第一步、设置初始化次数N_init和k值；

第二步、令N＝1，进行第1次初始化，选择k个云数据作为当前聚类中心；

第三步、对单个云数据，计算其到各个当前聚类中心的距离D(k)，选择最短的距离D(s)，将对应云数据的标签赋为s；

第四步、重复第三步，为每个云数据均赋予标签，根据标签形成k个簇；

第五步、计算每个簇内的云数据的模拟值，将模拟值作为新的当前聚类中心，并转至第三步，其中，模拟值的计算公式为：

式中，x为模拟值，n为该簇内云数据的数量，表示第a个云数据的映射矩阵的转置，D_a表示第a个云数据与当前聚类中心的距离，Θ表示距离分布矩阵；

第六步、直至达到迭代停止条件，得到k个聚类簇和k个聚类中心，作为聚类结果；

第七步、令N＝N+1，重新初始化，选择新的k个云数据作为当前聚类中心，并转至第三步；

第八步、直至N＝N_init，则聚类结束，得到N_init组的聚类结果；

第九步、计算每组聚类结果的聚类质量指标，将最优聚类质量指标的聚类结果作为最终的聚类结果，聚类质量指标的计算公式为：

A_m＝∑D(point,centroid)²,m＝[1,N_init]

式中，A_m表示第m组聚类结果的聚类质量指标值，D(point,centroid)表示该组聚类结果中单个云数据与对应聚类中心的距离。

在上述技术方案的基础上，优选的，匹配模块包括：

相似计算单元，其配置为采用相似度公式计算第二特征向量分别与k个第一特征中心的特征相似度，根据特征相似度的值判定每个第二特征向量分别与k个第一特征中心的相似性，以k个第一特征中心为起始建立匹配集合，将第一特征中心对应的第一特征向量组归入相应的匹配集合，并依次比对每个第二特征向量分别与k个第一特征中心的相似性，将每个第二特征向量分配至相似性最大的第一特征中心所在的匹配集合内，之后将第一特征向量组对应的云数据相应归至匹配集合，形成匹配组；

索引创建单元，其配置为基于历史关键词对匹配组创建多维混合索引，得到索引表，索引表中每条索引链接至对应的匹配组，将索引表和匹配组结合得到匹配库。

在上述技术方案的基础上，优选的，相似度公式表示如下：

式中，S(u,v)表示第二特征向量U与第一特征中心V之间的特征相似度的值，J_u,v表示U和V之间的Jaccard系数，Y表示V对应的第一特征向量组中的第一特征向量集合，|Y|表示Y的基数，U_u表示U中的第u个特征值，V_v表示V中的第v个特征值，为U_u和V_v的联合权重参数，β为衰减系数，D_U,V为U和V之间的距离。

在上述技术方案的基础上，优选的，匹配库的形成过程为：

确定索引表的字段结构，包括匹配组标识符和关键词列表，其中，匹配组标识符为匹配组的唯一ID，关键词列表为历史关键词及其近义词和扩展词；

根据匹配组中包含的时间标签建立带有时间标签的匹配组标识符，同时根据历史关键词搜寻对应的近义词和扩展词，将历史关键词及其近义词和扩展词混合进行编码，建立关键词列表的编码索引；

将带有时间标签的匹配组标识符和关键词列表的编码索引导入至索引表中，完成索引表的构建；

将索引表中的匹配组标识符与对应的匹配组进行关联，得到匹配库。

在上述技术方案的基础上，优选的，推荐模块包括：

模糊推荐单元，其配置为使用当前关键词，通过查询语言在匹配库中进行查询，获取与当前关键词相关的第一推荐列表；

价值计算单元，其配置为根据每个匹配组中包含的时间标签和对应的云数据的数量计算每个匹配组的第一推荐价值和第二推荐价值；

精确推荐单元，其配置为根据第一推荐价值将匹配组按从高到低的顺序排列，再根据第二推荐价值将每个匹配组中的云数据按从高到低的顺序排列，形成最终推荐列表。

在上述技术方案的基础上，优选的，第一推荐价值的计算公式为：

式中，f₁(b)是第b个匹配组的第一推荐价值，M为第b个匹配组中云数据的数量，t_i表示第b个匹配组中第i个云数据的时间标签，表示t_i的影响项，r为影响因子，λ_b为第b个匹配组的可调参数，ω_i指的第b个匹配组中第i个云数据的权重，/>为第b个匹配组中云数据与时间标签的映射矩阵，/>表示映射矩阵/>的秩。

在上述技术方案的基础上，优选的，第二推荐价值的计算公式为：

式中，f₂(i)是单个匹配组中第i个云数据的第二推荐价值，kw_c表示当前关键词，kw_h表示历史关键词，s(kw_c,kw_h)为当前关键词和历史关键词的相似度，t_i表示第i个云数据的时间标签，为t_i数值化后的调节数值，T为调节因子。

另一方面，本发明还提供基于用户特征的云数据统筹管理方法，所述方法执行于上述任一项所述的系统中，所述方法包括以下步骤：

S1从公有云中获取云数据，云数据包含时间标签；

S2采用聚类算法对云数据进行聚类，形成k个云数据组和k个聚类中心，并对k个云数据组和k个聚类中心进行第一特征向量的提取，将k个聚类中心提取得到的第一特征向量作为k个第一特征中心，得到k个第一特征向量组；

S3获取用户历史数据，包括用户历史推荐数据和用户历史需求数据；

S4对用户历史推荐数据进行特征提取，得到第二特征向量，并对用户历史需求数据进行关键词提取，得到历史关键词；

S5计算第二特征向量分别与k个第一特征中心的特征相似度，根据特征相似度为第二特征向量匹配对应的第一特征向量组，将第二特征向量、第一特征向量组及对应的云数据形成匹配组，并基于历史关键词对匹配组创建索引，得到匹配库；

S6获取用户当前需求数据，并对当前需求数据提取当前关键词；

S7根据当前关键词在匹配库中搜索，得到第一推荐列表，根据第一推荐列表中对应的时间标签，计算第一推荐列表中各个匹配组的推荐价值，按照推荐价值将第一推荐列表重排，得到最终推荐列表。

本发明的方法相对于现有技术具有以下有益效果：

(1)本发明通过对用户历史数据和当前需求的分析，系统能够根据用户的个性化需求进行匹配和推荐，提高了推荐的准确性和用户满意度，利用聚类算法对云数据进行聚类，结合特征向量的提取和匹配模块，能够实现对用户需求和历史数据的智能匹配，提高了推荐的精准度和实用性，系统根据云数据的时间标签和用户当前需求，能够计算推荐价值并实现最终推荐列表的重排，从而保证了推荐结果的实时性和准确性；

(2)本发明的云数据处理模块中的聚类算法是基于层次聚类的改进算法，其通过多次初始化和迭代更新聚类中心，使得聚类结果更加准确，能够更好地代表不同的数据簇，采用模拟值替代计算均值的方法，能够减少计算的复杂度，提高了聚类算法的效率，通过多次初始化和选择最优的聚类质量指标，能够降低对初始值的敏感度，使得聚类结果具有较好的鲁棒性；

(3)本发明的聚类算法考虑到云数据可能数量庞大，该聚类算法采用了迭代更新和模拟值替代的方法，使得其适用于处理大规模数据，具有较好的可扩展性，且算法中采用了距离分布矩阵的方式来表示数据点与聚类中心的距离，因此能够较好地处理复杂的数据分布情况，包括非凸形状的簇和不同密度的数据点；

(4)本发明提出的相似度公式，在其中引入了联合权重参数和衰减系数，以及距离度量，对Jaccard系数进行了扩展和修正，使其适用于特征向量之间的相似度计算，以得到更准确和全面的特征相似度值；

(5)本发明提出的第一推荐价值是根据每个匹配组中云数据的数量、时间标签、影响因子和映射矩阵等因素计算得出的。它反映了在模糊推荐单元中得到的第一推荐列表中，每个匹配组中的数据的重要性和价值，从而生成更精准的推荐列表。第二推荐价值是单个匹配组中每个云数据的价值，通过综合考虑了当前关键词、历史关键词、相似度和时间标签的调节因子，来评估每个匹配组中每个云数据的价值。由于第一推荐价值和第二推荐价值考虑了更多因素，系统生成的推荐列表更符合用户的兴趣和需求，因此可以提高用户对推荐结果的满意度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的系统结构图；

图2为本发明实施例的云数据处理模块的结构示意图；

图3为本发明实施例的聚类算法的流程示意图；

图4为本发明实施例的匹配模块的结构示意图；

图5为本发明实施例的推荐模块的结构示意图；

图6为本发明实施例的方法流程图。

具体实施方式

下面将结合本发明实施方式，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

如图1所示，本发明提供基于用户特征的云数据统筹管理系统，包括：

具体地，本发明一实施例中，云数据获取模块是指从公有云中获取云数据的功能模块。公有云是指由第三方提供和管理的云计算资源，通过互联网进行访问和使用。该模块的配置包括从公有云中获取云数据，并且这些云数据包含时间标签。以下是详细展开的说明：

云数据获取模块首先建立与公有云的连接，并进行必要的认证，以确保系统具有访问权限。

连接建立并且认证通过，系统通过公有云提供的API或其他接口，获取所需的云数据。这些云数据包括文档、图像、视频、日志文件、数据库快照等各种类型的信息。

云数据获取模块需要确保获取的云数据包含时间标签。时间标签可以是数据创建或修改的时间戳，用于标识数据的时间属性。

在本发明另一实施例中，云数据获取模块还设有同步和更新机制，由于云数据往往是动态变化的，因此设置同步和更新机制以确保系统获取的数据是最新的，并且能够及时反映出公有云上数据的变化。

具体地，如图2所示，本发明一实施例中，云数据处理模块包括：

本实施例中，数据预处理单元先对云数据进行预处理，有效提高数据质量，减少对后续分析和建模过程的干扰，数据预处理单元具体配置为：

数据清洗：数据清洗是指对原始数据中的错误、缺失、重复或不一致的部分进行识别和处理。包括对缺失值进行填充、删除重复数据、纠正错误数据等操作，以确保数据的完整性和一致性。

去噪：在实际数据中，存在着一些不符合正常规律的噪声数据，这些数据可能是由于网络波动、系统故障等原因引入的。数据预处理单元需要对这些噪声数据进行识别和过滤，以减少对后续分析的影响。

异常值处理：异常值是指与大多数数据不一致的数据点，它们可能是由于数据上传错误、系统故障或者其他情况引起的。数据预处理单元需要对异常值进行识别和处理，可以选择删除、修正或者将其视为特殊情况进行特殊处理。

在另一个实施例中，数据预处理单元还可以配置为对时间序列进行处理，由于云数据包含时间标签，数据预处理单元需要对时间标签也进行一定的处理，包括时间戳的格式化、时间序列的平滑处理等。时间戳的格式化可以将不同格式的时间戳统一为统一的格式，以便于后续的数据分析和处理。例如，将不同的时间戳格式(如UNIX时间戳、ISO 8601格式等)转换为统一的日期时间格式。时间序列数据通常会受到噪声和季节性变化的影响，平滑处理可以帮助去除这些影响，使数据更易于分析和建模。本实施例可采用移动平均或指数平滑来识别数据中的趋势和周期性。

本实施例中，云数据处理模块对云数据进行聚类的过程为层次聚类的过程，考虑到云数据可能数量庞大，为了提高聚类的效率，本实施例先将云数据划分成多个子集，先利用聚类算法对每个子集进行聚类，然后将这多个子集的聚类结果作为第二次聚类的初始聚类结果，在二次聚类后，得到最终的k个云数据组和k个聚类中心。

具体地，本实施例是对原始的云数据进行聚类，而不是对云数据提取特征后再对特征进行聚类，是因为对原始的云数据进行聚类可以保留更多的信息，特征提取可能会损失一些数据的细节和信息，且直接聚类能更准确的找到数据之间的相似性和差异性，而为了提高对原始的云数据进行聚类的效果，本实施例对传统的k-聚类算法做了改进，由于原始的云数据如果计算均值，将会增加计算的复杂度，因此本实施例用模拟值做了替换，以提高聚类结果的准确度。

具体地，本实施例中，初次聚类和二次聚类所采用的聚类算法相同，请参阅图3，聚类算法的具体步骤如下所述：

第一步、设置初始化次数N_init和k值；

A_m＝∑D(point,centroid)²,m＝[1,N_init]

具体地，本实施例中，N_init设置为5，k设置为10。第六步中的迭代停止条件为前后两次聚类结果的残差小于0.2。

本实施例中，模拟值计算公式中B_a表示一个映射矩阵，为了更好的分析原始的云数据互相之间的相似性，通过将云数据映射到一个统一空间中，寻找映射矩阵B_a来表示各个云数据的代表值，B_a获取的过程为：根据云数据之间的距离，构建一个相似度矩阵；将相似度矩阵作为输入，应用多维尺度分析算法，得到原始云数据映射到统一空间中的结果；根据每个云数据在统一空间中的坐标，反推计算得到映射矩阵B_a。在对原始的云数据做映射之后，重新计算在统一空间中各云数据与对应聚类中心的距离，将这些距离按照值范围做散点图，按照散点值来形成距离分布矩阵Θ。

本实施例中，距离可指代欧式距离或曼哈顿距离。通过距离、映射矩阵B_a和距离分布矩阵Θ来计算得到新的聚类中心，以更新聚类簇的位置，其中，距离分布矩阵Θ能调整不同云数据对聚类中心的影响，该方法能提高聚类的准确度。

具体地，在得到k个云数据组和k个聚类中心后，利用一个轻量的卷积神经网络对每个云数据组和每个聚类中心进行特征提取，卷积神经网络包括输入层、m个隐藏层和输出层，得到一组第一特征向量，将聚类中心提取得到的第一特征向量作为第一特征中心，将每个云数据组得到的第一特征向量分别归类到与之最接近的第一特征中心，可通过计算欧式距离来判断远近，形成k个第一特征向量组。

具体地，本发明一实施例中，历史数据获取模块用于收集和整理用户在过去一段时间内的行为和偏好数据，其中，用户历史推荐数据包括用户在过去的推荐系统中接收到的推荐内容，即历史推荐的云数据，用户历史需求数据包括用户在过去的需求和搜索行为。

本实施例中，历史数据获取模块具体配置内容包括：

数据源配置：配置模块需要连接的数据源，比如数据库、日志文件、API接口等。这些数据源用于存储用户的历史推荐数据和需求数据。

数据抽取：设计数据抽取逻辑，从数据源中抽取用户历史数据。

数据存储：确定如何存储抽取的历史数据。

数据更新策略：制定数据更新的策略，例如定期更新用户历史数据，以确保数据的时效性和准确性。

具体地，本发明一实施例中，获取到历史数据后，利用历史数据处理模块对用户历史数据进行特征提取和处理，该模块具体配置的内容包括：

对用户历史推荐数据进行特征提取：首先需要从历史数据中提取出用户的历史推荐数据，针对提取出的历史推荐数据，利用上述轻量的卷积神经网络也做一次特征提取，得到第二特征向量。

对用户历史需求数据进行关键词提取：从历史数据中提取用户的历史需求数据，包括用户的搜索关键词、浏览的产品类别、查看的文章标签等。对历史需求数据进行文本分析和处理，提取出用户的历史关键词，例如使用自然语言处理技术，如分词、词性标注、关键词提取等方法，得到用户历史需求的关键词列表。

具体地，如图4所示，本发明一实施例中，匹配模块包括：

本实施例中，相似计算单元的具体配置内容为：

相似度计算：采用相似度公式计算第二特征向量与k个第一特征中心的特征相似度。

初始匹配集合：以k个第一特征中心为起始建立匹配集合。每个第一特征中心对应一个匹配集合，用于存储与该中心相似的第二特征向量和对应的第一特征向量组。

分配第二特征向量：依次比对每个第二特征向量分别与k个第一特征中心的相似性，将每个第二特征向量分配至相似性最大的第一特征中心所在的匹配集合内。

归类云数据：将第一特征向量组对应的云数据归至匹配集合，形成匹配组。这个过程实质上是将第二特征向量和对应的云数据归类到与之最接近的第一特征中心的匹配集合内。

其中，相似度公式表示如下：

本实施例在相似度公式中，引入了联合权重参数和衰减系数，以及距离度量，对Jaccard系数进行了扩展和修正，使其适用于特征向量之间的相似度计算，以得到更准确和全面的特征相似度值。其中，联合权重参数可以是U_u和V_v在各自特征向量U和V中的权重均值。

本实施例中，匹配库的形成过程为：

以一个采用SQLite数据库来实现匹配库构建的具体实施例进行说明：

连接到SQLite数据库

conn＝sqlite3.connect('matching_database.db')

cursor＝conn.cursor()；

创建匹配组索引表

cursor.execute(″′CREATE TABLE matching_index(

matching_group_id INTEGER PRIMARYKEY,

time_label TEXT,

keyword_list TEXT,

keyword_encoding TEXT

)”')；

插入匹配组数据到索引表，并构建编码索引

for group in matching_groups:

matching_group_id＝group[0]

time_label＝group[1]

keyword_list＝group[2]；

根据关键词列表构建编码索引

keywords＝re.split(r'\s*,\s*',keyword_list)

encoding_list＝[]

for keyword in keywords:；

这里是一个编码函数，根据关键词获取其编码

encoding＝get_encoding(keyword)

encoding_list.append(encoding)；

将编码列表转换为字符串

keyword_encoding＝','.join(encoding_list)；

插入匹配组数据和编码索引到索引表

cursor.execute('INSERT INTO matching_index(matching_group_id,time_label,keyword_list,keyword_encoding)VALUES(？,？,？,？)',(matching_group_id,time_label,keyword_list,keyword_encoding))

查询匹配库

cursor.execute(″′SELECT*FROM matching_index″′)

matching_library＝cursor.fetchall()；

#输出匹配库

for row in matching_library:

print(row)。

该例子创建了一个名为matching_index的表，其中包含了匹配组的唯一ID(matching_group_id)、时间标签(time_label)、关键词列表(keyword_list)和关键词编码索引(keyword_encoding)。然后插入了匹配组数据，并根据关键词列表构建了编码索引，最后将数据插入到索引表中。

具体地，本发明一实施例中，需求获取模块获取用户当前需求数据并提取当前关键词，采用自然语言处理技术进行当前关键词提取，过程如下：

分词：将用户输入的文本数据分解成单词或短语，以便后续处理。

去除停用词：去除常见的停用词，即在文本中频繁出现但缺乏实际含义的词。

词性标注：对每个词进行词性标注，以识别名词、动词、形容词等。

词形归并：将词汇归并到它的基本形式，以便将单词的不同形式(如单数和复数)视为同一词。

关键词提取：根据文本的上下文和语法结构，提取出文本中最具代表性和重要性的词语作为关键词。

具体地，如图5所示，本发明一实施例中，推荐模块包括：

本实施例中，第一推荐价值的计算公式为：

本实施例中，第二推荐价值的计算公式为：

/>

在一个具体的实施例中，推荐模块是由模糊推荐单元、价值计算单元和精确推荐单元组合进行的推荐工作，其中：

模糊推荐单元的作用是根据当前关键词在匹配库中进行检索查询，依照上述所构建索引表时建立的编码索引，当前关键词能自动匹配到相关的匹配组，将这些匹配组形成第一推荐列表，此时，由于编码索引是一个较为基础的索引，因此查询到的匹配组与当前关键词的相关性范围有大有小，即第一推荐列表中的匹配组与用户需求之间的关联度大小不一。

价值计算单元的作用是先根据第一推荐价值来计算每个匹配组自身的推荐价值，该第一推荐价值是依据匹配组中云数据的数量、时间标签的综合性来计算的，表征的是匹配组之间的推荐优先级，然后计算单个匹配组中每个云数据的第二推荐价值，该第二推荐价值是依据云数据的具体时间标签、云数据对应的历史关键词和当前关键词的相似度来计算的，表征的是单个匹配组中云数据之间的推荐优先级。

精确推荐单元的作用是将第一推荐价值作为主要排序依据，将第二推荐价值作为次要排序依据，以此来对第一推荐列表进行重排，得到最终推荐列表，此时，最终推荐列表中，排在前M个的云数据是第一推荐价值最高的最优匹配组，而排在第一个的云数据是最优匹配组中第二推荐价值最高的云数据。

本实施例中，第一推荐价值是根据每个匹配组中云数据的数量、时间标签、影响因子和映射矩阵等因素计算得出的。它反映了在模糊推荐单元中得到的初始推荐列表中，每个匹配组中的数据的重要性和价值，从而生成更精准的推荐列表。第二推荐价值是单个匹配组中每个云数据的价值，通过综合考虑了当前关键词、历史关键词、相似度和时间标签的调节因子，来评估每个匹配组中每个云数据的价值。由于第一推荐价值和第二推荐价值考虑了更多因素，系统生成的推荐列表更符合用户的兴趣和需求，因此可以提高用户对推荐结果的满意度。通过对匹配组和其中的数据进行综合评估和排序，系统可以将更相关、更有价值的数据排在更显眼的位置，从而提高这些数据的曝光率和点击率。

另外，请参阅图6，本发明还提供基于用户特征的云数据统筹管理方法，所述方法执行于上述任一项所述的系统中，所述方法包括以下步骤：

S1从公有云中获取云数据，云数据包含时间标签；

本发明提供的方法通过聚类算法对云数据进行聚类，并结合用户历史数据和当前需求数据，可以实现对云数据的精准推荐，提高了推荐的准确性和用户满意度；根据时间标签对推荐列表进行计算和重排，可以使得推荐列表更符合用户当前的需求和时间要求，提高了推荐的实时性和有效性；通过计算第二特征向量与第一特征中心的特征相似度，可以更好地匹配用户的历史数据和当前需求，提高了推荐的个性化和精准度；基于历史关键词为匹配组创建索引，可以提高搜索效率和推荐结果的准确性，加快了推荐列表的生成速度；通过推荐价值对第一推荐列表重排，能够实现对云数据的精准推荐，提高了推荐系统的效果和用户体验。

以上所述仅为本发明的较佳实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于用户特征的云数据统筹管理系统，其特征在于，包括：

2.如权利要求1所述的基于用户特征的云数据统筹管理系统，其特征在于，云数据处理模块包括：

3.如权利要求2所述的基于用户特征的云数据统筹管理系统，其特征在于，聚类算法包括：

第一步、设置初始化次数N_init和k值；

A_m＝∑D(point,centroid)²,m＝[1,N_init]

4.如权利要求1所述的基于用户特征的云数据统筹管理系统，其特征在于，匹配模块包括：

5.如权利要求4所述的基于用户特征的云数据统筹管理系统，其特征在于，相似度公式表示如下：

6.如权利要求4所述的基于用户特征的云数据统筹管理系统，其特征在于，匹配库的形成过程为：

7.如权利要求1所述的基于用户特征的云数据统筹管理系统，其特征在于，推荐模块包括：

8.如权利要求7所述的基于用户特征的云数据统筹管理系统，其特征在于，第一推荐价值的计算公式为：

9.如权利要求8所述的基于用户特征的云数据统筹管理系统，其特征在于，第二推荐价值的计算公式为：

10.基于用户特征的云数据统筹管理方法，其特征在于，所述方法执行于权利要求1-9任一项所述的系统中，所述方法包括以下步骤：

S1从公有云中获取云数据，云数据包含时间标签；