CN114780647A

CN114780647A - 可视化报告生成方法、装置、存储介质和程序产品

Info

Publication number: CN114780647A
Application number: CN202210393409.9A
Authority: CN
Inventors: 吴悔; 李佳佳
Original assignee: Shell Housing Network Beijing Information Technology Co Ltd
Current assignee: Shell Housing Network Beijing Information Technology Co Ltd
Priority date: 2022-04-14
Filing date: 2022-04-14
Publication date: 2022-07-22

Abstract

本发明实施方式公开了一种可视化报告生成方法、装置、存储介质和程序产品。方法包括：获取待生成可视化报告的用户的属性数据对象；从包含多个用户模型的用户模型集中确定出与所述属性数据对象相匹配的用户模型，其中所述多个用户模型是对已有用户的属性数据对象执行聚类处理所获取的；确定对应于所述与所述属性数据对象相匹配的用户模型的可视化模型；基于所述可视化模型，生成所述待生成可视化报告的用户的可视化报告。本发明实施方式可以根据用户的属性数据对象定制报告的可视化模型，降低配置难度。还可以基于相似用户推荐报告，并提高用户模型的匹配准确度。

Description

可视化报告生成方法、装置、存储介质和程序产品

技术领域

本发明实施方式涉及数据可视化技术领域，更具体的说，涉及一种可视化报告生成方法、装置、存储介质和程序产品。

背景技术

数据可视化是指将数据间的关系利用图表直观地展示出来。通过数据可视化将大量的数据集构成数据图像，同时将数据的各个属性值以多维数据的形式表示，可从不同的维度观察数据，从而对数据进行更深入的观察和分析。

在目前的可视化报告系统中，报告里的每个图表都需要用户手动配置。然而，图表种类较多，每个图表的配置项均不相同，而且从数据的选取、数据交互到数据可视化效果的配置(包括图表位置、大小、颜色等)都需要人工设置，工作量繁重，用户难以快速配置出报告。

发明内容

本发明实施方式提出一种可视化报告生成方法、装置、存储介质和程序产品。

本发明实施方式的技术方案如下：

一种可视化报告生成方法，包括：

获取待生成可视化报告的用户的属性数据对象；

从包含多个用户模型的用户模型集中确定出与所述属性数据对象相匹配的用户模型，其中所述多个用户模型是对已有用户的属性数据对象执行聚类处理所获取的；

确定对应于所述与所述属性数据对象相匹配的用户模型的可视化模型；

基于所述可视化模型，生成所述待生成可视化报告的用户的可视化报告。

在示范性实施方式中，还包括：

确定所述聚类处理的预定类数K，其中K为至少为2的正整数；

从所述已有用户的属性数据对象中随机选取K个属性数据对象作为聚类中心；

计算所述已有用户的属性数据对象中、除所述K个属性数据对象之外的每个属性数据对象与K个聚类中心的距离；

将所述每个属性数据对象分配到所述K个聚类中心中、距离该每个属性数据对象最近的聚类中心所代表的聚类中；

计算每个聚类中的每个属性数据对象到该聚类内其他属性数据对象的距离和，取距离和最小的属性数据对象作为该聚类的新聚类中心，直到各个聚类的聚类中心不再变化；

输出所述K个聚类中心。

在示范性实施方式中，所述从包含多个用户模型的用户模型集中确定出与所述属性数据对象相匹配的用户模型包括：

确定所述多个用户模型中的每个用户模型所包含的用户属性与所述属性数据对象所包含的、对应的用户属性之间的距离；

基于所述距离和所述用户属性的预定权重，确定所述属性数据对象与所述每个用户模型的相似度；

基于所述多个用户模型的相似度排序结果，从所述多个用户模型中确定出所述与所述属性数据对象相匹配的用户模型。

从所述多个用户模型中，确定出与最高相似度的差值的绝对值小于预定门限值的用户模型；

将确定出的用户模型组成为候选用户模型集合；

基于用户模型匹配概率向量，确定所述属性数据对象与所述候选用户模型集合中每个用户模型的相似度，其中所述用户模型匹配概率向量包括用户模型集中的每个用户模型的匹配概率，所述匹配概率是由该每个用户模型所代表的聚类中的已有用户个数所确定的；

基于所述候选用户模型集合中用户模型的相似度的排序结果，从所述候选用户模型集合中确定出所述与属性数据对象相匹配的用户模型。

在示范性实施方式中，该方法还包括：

基于所述待生成可视化报告的用户的初始报告，确定所述待生成可视化报告的用户与每个已有用户的兴趣相似度；

基于所述兴趣相似度的排序结果，确定所述待生成可视化报告的用户的相似用户；

确定所述相似用户的报告集；

确定所述待生成可视化报告的用户针对所述报告集中的每个报告的兴趣度；

基于所述兴趣度的排序结果，确定所述待生成可视化报告的用户的报告。

在示范性实施方式中，所述确定对应于所述用户模型的可视化模型包括下列中的至少一个：

基于用户模型与预先配置的单个可视化模型之间的一一对应关系，确定对应于所述用户模型的单个可视化模型；

基于用户模型与预先配置的多个可视化模型之间的一对多对应关系，确定对应于所述用户模型的多个可视化模型；基于用户选择指令，从所述多个可视化模型中选择单个可视化模型。

在示范性实施方式中，所述可视化模型包含可视化报告配置信息；

所述基于可视化模型，生成所述待生成可视化报告的用户的可视化报告包括：基于所述可视化报告配置信息生成所述用户的可视化报告；

其中所述可视化报告配置信息包括下列中的至少一个：

报告主题；数据源；图表布局。

一种可视化报告生成装置，包括：

获取模块，用于获取待生成可视化报告的用户的属性数据对象；

第一确定模块，用于从包含多个用户模型的用户模型集中确定出与所述属性数据对象相匹配的用户模型，其中所述多个用户模型是对已有用户的属性数据对象执行聚类处理所获取的；

第二确定模块，用于确定对应于所述与所述属性数据对象相匹配的用户模型的可视化模型；

生成模块，用于基于所述可视化模型，生成所述待生成可视化报告的用户的可视化报告。

在示范性实施方式中，还包括：

聚类模块，用于确定所述聚类处理的预定类数K，其中K为至少为2的正整数；从所述已有用户的属性数据对象中随机选取K个属性数据对象作为聚类中心；计算所述已有用户的属性数据对象中、除所述K个属性数据对象之外的每个属性数据对象与K个聚类中心的距离；将所述每个属性数据对象分配到所述K个聚类中心中、距离该每个属性数据对象最近的聚类中心所代表的聚类中；计算每个聚类中的每个属性数据对象到该聚类内其他属性数据对象的距离和，取距离和最小的属性数据对象作为该聚类的新聚类中心，直到各个聚类的聚类中心不再变化；输出所述K个聚类中心。

在示范性实施方式中，第一确定模块，用于确定所述多个用户模型中的每个用户模型所包含的用户属性与所述属性数据对象所包含的、对应的用户属性之间的距离；基于所述距离和所述用户属性的预定权重，确定所述属性数据对象与所述每个用户模型的相似度；基于所述多个用户模型的相似度排序结果，从所述多个用户模型中确定出所述与所述属性数据对象相匹配的用户模型。

在示范性实施方式中，第一确定模块，用于确定所述多个用户模型中的每个用户模型所包含的用户属性与所述属性数据对象所包含的、对应的用户属性之间的距离；基于所述距离和所述用户属性的预定权重，确定所述属性数据对象与所述每个用户模型的相似度；从所述多个用户模型中，确定出与最高相似度的差值的绝对值小于预定门限值的用户模型；将确定出的用户模型组成为候选用户模型集合；基于用户模型匹配概率向量，确定所述属性数据对象与所述候选用户模型集合中每个用户模型的相似度，其中所述用户模型匹配概率向量包括用户模型集中的每个用户模型的匹配概率，所述匹配概率是由该每个用户模型所代表的聚类中的已有用户个数所确定的；基于所述候选用户模型集合中用户模型的相似度的排序结果，从所述候选用户模型集合中确定出所述与属性数据对象相匹配的用户模型。

在示范性实施方式中，还包括：

内容推荐模块，用于基于所述待生成可视化报告的用户的初始报告，确定所述待生成可视化报告的用户与每个已有用户的兴趣相似度；基于所述兴趣相似度的排序结果，确定所述待生成可视化报告的用户的相似用户；确定所述相似用户的报告集；确定所述待生成可视化报告的用户针对所述报告集中的每个报告的兴趣度；基于所述兴趣度的排序结果，确定所述待生成可视化报告的用户的报告。

在示范性实施方式中，所述确定对应于所述用户模型的可视化模型包括下列中的至少一个：基于用户模型与预先配置的单个可视化模型之间的一一对应关系，确定对应于所述用户模型的单个可视化模型；基于用户模型与预先配置的多个可视化模型之间的一对多对应关系，确定对应于所述用户模型的多个可视化模型；基于用户选择指令，从所述多个可视化模型中选择单个可视化模型。

在示范性实施方式中，所述可视化模型包含可视化报告配置信息；所述基于可视化模型，生成所述待生成可视化报告的用户的可视化报告包括：基于所述可视化报告配置信息生成所述用户的可视化报告；其中所述可视化报告配置信息包括下列中的至少一个：报告主题；数据源；图表布局。

一种计算机可读存储介质，其上存储有计算机指令，所述指令被处理器执行时可实现如上所述的可视化报告生成方法的步骤。

一种电子设备，该电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现如上所述的可视化报告生成方法的步骤。

一种计算机程序产品，包括计算机指令，所述计算机指令在被处理器执行时实施如上任一项所述的可视化报告生成方法。

从上述技术方案可以看出，在本发明实施方式中，获取待生成可视化报告的用户的属性数据对象；从包含多个用户模型的用户模型集中确定出与所述属性数据对象相匹配的用户模型，其中多个用户模型是对已有用户的属性数据对象执行聚类处理所获取的；确定对应于与所述属性数据对象相匹配的用户模型的可视化模型；基于可视化模型生成用户的可视化报告。可见，本发明实施方式根据用户模型确定报告的可视化模型，降低了配置难度，减少用户在复杂报告配置的时间，提高报告生成效率，提供更适用于用户的可视化模型，提高工作效率，将重心更偏向于数据分析上。

而且，本发明实施方式可以基于相似用户为用户推荐报告，从而提高了报告内容的准确度。

另外，本发明实施方式基于聚类中的已有用户个数所确定的用户模型匹配概率确定匹配的用户模型，进一步提高了匹配准确度。

附图说明

为了更清楚地说明本发明实施方式中的技术方案，下面将对实施方式描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施方式的可视化报告生成方法的示范性流程图。

图2是本发明实施方式将用户匹配到用户模型的示范性流程图。

图3是本发明实施方式为用户推荐报告的示范性流程图。

图4是本发明实施方式的可视化报告生成系统的示范性结构图。

图5是本发明实施方式的可视化报告生成装置的示范性结构图。

图6是本发明实施方式中的电子设备的示范性结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

为了描述上的简洁和直观，下文通过描述若干代表性的实施方式来对本发明的方案进行阐述。实施方式中大量的细节仅用于帮助理解本发明的方案。但是很明显，本发明的技术方案实现时可以不局限于这些细节。为了避免不必要地模糊了本发明的方案，一些实施方式没有进行细致地描述，而是仅给出了框架。下文中，“包括”是指“包括但不限于”，“根据……”是指“至少根据……，但不限于仅根据……”。由于汉语的语言习惯，下文中没有特别指出一个成分的数量时，意味着该成分可以是一个也可以是多个，或可理解为至少一个。

下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。本发明实施方式的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施方式例如能够以除了在这里图示或描述的那些以外的顺序实施。

在本发明实施方式中，将已有用户的属性数据对象(比如，用户背景信息和用户行为信息)进行特征提取，根据提取后的用户特征划分出不同种类的用户模型进行建模，根据用户模型定制不同的可视化模型，其中可视化模型中可以相互区别地存储报告主题、数据源选取、图表布局选取等模板数据。而且，本发明实施方式可以结合基于用户的协同过滤算法为新用户匹配用户模型，并确定出对应于匹配的用户模型的可视化模型，从而给出报告可视化方案，减少用户针对复杂报告的配置时间，提高报告生成效率，提高工作效率。

如图1所示，该方法包括：

步骤101：获取待生成可视化报告的用户的属性数据对象。

步骤102：从包含多个用户模型的用户模型集中确定出与属性数据对象相匹配的用户模型，其中多个用户模型是对已有用户的属性数据对象执行聚类处理所获取的。

在一个实施方式中，步骤102中从包含多个用户模型的用户模型集中确定出与属性数据对象相匹配的用户模型包括：确定多个用户模型中的每个用户模型所包含的用户属性与属性数据对象所包含的、对应的用户属性之间的距离；基于距离和用户属性的预定权重，确定属性数据对象与每个用户模型的相似度；基于多个用户模型的相似度排序结果，从多个用户模型中确定出与属性数据对象相匹配的用户模型。

因此，本发明实施方式可以利用相似度算法，快速地确定出与属性数据对象相匹配的用户模型。

在一个实施方式中，步骤102中从包含多个用户模型的用户模型集中确定出与属性数据对象相匹配的用户模型包括：确定多个用户模型中的每个用户模型所包含的用户属性与属性数据对象所包含的、对应的用户属性之间的距离；基于距离和用户属性的预定权重，确定属性数据对象与每个用户模型的相似度；从多个用户模型中，确定出与最高相似度的差值的绝对值小于预定门限值的用户模型；将确定出的用户模型组成为候选用户模型集合；基于用户模型匹配概率向量，确定属性数据对象与候选用户模型集合中每个用户模型的相似度，其中用户模型匹配概率向量包括用户模型集中的每个用户模型的匹配概率，匹配概率是由该每个用户模型所代表的聚类中的已有用户个数所确定的；基于候选用户模型集合中用户模型的相似度的排序结果，从候选用户模型集合中确定出与属性数据对象相匹配的用户模型。

可见，本发明实施方式基于聚类中的已有用户个数所确定的用户模型匹配概率确定匹配的用户模型，进一步提高了匹配准确度。

步骤103：确定对应于与属性数据对象相匹配的用户模型的可视化模型。

在一个实施方式中，步骤103中确定对应于用户模型的可视化模型包括：

(1)、基于用户模型与预先配置的单个可视化模型之间的一一对应关系，确定对应于用户模型的单个可视化模型。也就是，用户模型与可视化模型具有一一对应关系。

(2)、基于用户模型与预先配置的多个可视化模型之间的一对多对应关系，确定对应于用户模型的多个可视化模型；基于用户选择指令，从多个可视化模型中选择单个可视化模型。也就是，用户模型与可视化模型具有一对多的对应关系。当基于该一对多的对应关系确定出多个可视化模型后，再基于用户选择确定出单个的可视化模型，作为最终选择的可视化模型。

步骤104：基于可视化模型，生成待生成可视化报告的用户的可视化报告。

在一个实施方式中，可视化模型包含可视化报告配置信息；步骤104能够基于可视化模型生成待生成可视化报告的用户的可视化报告包括：基于可视化报告配置信息生成用户的可视化报告；其中可视化报告配置信息包括下列中的至少一个：报告主题；数据源；图表布局。其中，图表布局可以包括图表位置、大小、颜色等等配置项。

在一个实施方式中，该方法还包括：确定聚类处理的预定类数K，其中K为至少为2的正整数；从已有用户的属性数据对象中随机选取K个属性数据对象作为聚类中心；计算已有用户的属性数据对象中、除K个属性数据对象之外的每个属性数据对象与K个聚类中心的距离；将每个属性数据对象分配到K个聚类中心中、距离该每个属性数据对象最近的聚类中心所代表的聚类中；计算每个聚类中的每个属性数据对象到该聚类内其他属性数据对象的距离和，取距离和最小的属性数据对象作为该聚类的新聚类中心，直到各个聚类的聚类中心不再变化；输出K个聚类中心。在这里，K个聚类中心即为对应的K个聚类的用户模板。

其中，聚类处理可以包含K-means或K-medoids，等等。K-means或K-medoids的主要区别主要在质心的选择中，k-means是样本点均值，k-medoids则是从样本点中选取。

可见，本发明实施方式可以基于预定类数的聚类算法，快速确定出用户模板。

在一个实施方式中，该方法还包括：基于待生成可视化报告的用户的初始报告，确定待生成可视化报告的用户与每个已有用户的兴趣相似度；基于兴趣相似度的排序结果，确定待生成可视化报告的用户的相似用户；确定相似用户的报告集；确定待生成可视化报告的用户针对报告集中的每个报告的兴趣度；基于兴趣度的排序结果，确定待生成可视化报告的用户的报告。

因此，本发明实施方式可以基于相似用户为用户推荐报告，从而提高了报告内容的准确度。

下面结合具体算法对本发明实施方式进行阐述。

本发明实施方式提供了推荐符合用户背景和行为特征的、简易且个性化的报告可视化方案。在本发明实施方式中，收集用户背景信息，构建用户模型，使用基于概率的用户模型匹配算法对模型进行匹配。根据用户模型设计多套用于匹配的可视化模型。基于现有报告数据集划分训练集和测试集，基于训练集设计基于用户模型匹配的推荐算法。

本发明实施方式的设计实现过程包括：

(1)、用户建模：基于用户的属性数据对象建立用户模型。

用户属性数据对象具体描述如下表1所示.

表1

在表1中，针对性别、职称、年龄、部门、计算机水平、工作地点等属性数据对象，对数据系统(比如奥丁系统)中的已有用户的属性数据对象进行量化，将属性数据对象转化为计算机可以读懂的信息。例如将二分类属性性别取值量化，选项中女性用整型0表示，男性则用1表示；对连续数值型属性年龄划分区段，年龄选项中20岁以下、20～35、35～50、50～60、60岁以上这几个选项分别对应值0、1、2、3、4，等等。

然后，使用K-medoids算法对已有用户进行建模，将已有用户的属性数据对象划分到各个簇，然后每次选择簇的均值作为新的中心点，通过不断迭代直到簇的变化趋于稳定。建模的具体算法步骤包括：

第一步：输入用户属性数据集，如下表2所示；

表2

表2所示的用户属性数据集中共有n个用户数据对象(userId₁～userId_n)，其中userId₁表示用户的标识(ID)，attr为表1中描述的6个用户属性的值。

第二步：确定聚类的个数K，K值可以根据需求自定义。

第三步：随机选取K个用户数据对象作为起始中心点假设选取的起始中心，表示为{userID_k:[attr_k1,attr_k2,attr_k3,attr_k4,attr_k5,attr_k6]}。

第四步：分别计算其余所有用户数据对象离K个初始中心的距离，这里采用欧氏距离进行计算划分，欧式距离公式如下式所示；

其中：d[k,i]表示用户数据对象i到中心点k的距离；attr_k1、attr_i1则分别表示中心点k和用户数据对象i的第一个属性，按表1的属性顺序，这里指的是用户的性别属性；依次类推，attr_k6、attr_i6则分别表示中心点k和用户数据对象i的第六个属性。

第五步：将每个用户数据对象到K个中心点最短距离的聚簇作为自己所属的聚簇，得到初始聚簇的划分。

第六步：依次在每个初始聚簇中取用户数据对象，计算其到所在聚簇内其他用户数据对象的距离和，取最终距离和最小的对象作为新的中心点。

重复第四步～第六步，直到各个用户聚簇中心不在变化。输出最终的K个聚类中心以及它所在的聚簇。

本发明实施方式还提出了一种基于概率的用户模型匹配算法。基于该算法可以将用户匹配到具体的用户模型。基于概率的用户模型匹配算法使用归一化的街坊距离以计算用户各个属性与用户模型属性的属性距离，再引入属性权重以计算用户与用户模型的初始背景相似度。给定阈值∮,这里的∮可以根据计算后的所有初始背景相似度来决定。取出最高初始背景相似度的用户模型，将最高初始背景相似度逐个与其他用户模型的初始相似度比较，得到差值，将所有差值小于∮的用户模型提取，然后引入用户模型概率，重新进行计算，得到最终的匹配结果。图2是本发明实施方式将用户匹配到用户模型的示范性流程图。

具体地，在基于概率的用户模型匹配算法中：

首先，确定用户属性权重。假定给定用户模型库UMB，其中包含N个用户模型，用向量UMB{U₁,U₂,U₃,…,U_n}表示。用户模型中的关键属性共有M个。为这M个关键属性分配相应的权重，用W{W₁,W₂,W₃,…,W_m}表示，其中所有属性的权重和W₁+W₂+W₃+…+W_m＝1。

不同的系统属性权重的不同，可以制定相应的权重体系，一般用户的属性权重确定的方法主要有两种：

(1)、专家赋值法，凭借相关领域的专家经验和知识，根据系统用户的个性化需求，对用户属性与系统之间的关系做出分析，采用层次分析法，设定用户属性权重。

(2)、用户赋值法，在用户注册系统填写相关属性信息时，由用户自身决定关键属性的权重。

实际应用时，可采用用户赋值法和专家赋值法相结合的方法来确定属性权重。系统管理员根据埋点数据和用户兴趣收集，结合自身经验确定初始属性权重。初始属性权重确定之后，当用户注册系统时，给出权重分配情况，并向用户解释权重体系对报告可视化的影响，使用户可以根据自身需求对属性权重进行调整。例如，目标用户背景信息为：性别女性，年龄在20～35之间，工作在北京，部门为部门1、计算机能力一般的总监。通过算法匹配概率最高的用户模型，也就是最常被用户使用的用户模型，而该用户进入系统后想要更换更符合总监职级和更易于理解的可视化界面，由于用户模型与可视化模型是相对应的，这时用户就可以自定义调整职称和计算机水平属性的权重，为用户重新匹配，找到更符合其个性特征的可视化模型。

计算用户模型匹配概率。用户模型初始的匹配概率P＝{p₁,p₂,…,p_k}可以根据聚簇中用户个数来确定。计算公式如下：

其中：p_i表示第i个用户模型的匹配概率，|userModel_i|表示用户模型中的匹配到的用户数，初始用户模型i中的用户数等于聚簇i中的用户数据对象个数，|U|为所有用户模型里的用户总数。

用户模型的初始匹配概率可以根据聚簇分配情况产生。后续实验时，可以根据实验用户匹配用户模型的情况对用户模型匹配概率进行调整,用户模型的概率等于匹配到的用户数在实验用户数中占的比重。

关键属性权重和用户模型匹配概率都计算完成后，对用户模型匹配算法进行设计。

具体地，用户模型匹配算法包括。

(1)、采用街坊距离的方式计算属性距离，计算如式2.3。假定U_k为要进行匹配的用户，U_i(1≤i≤n)为用户模型库中的用户模型。attr_ij(1≤j≤m)为用户模型U_i属性j的值，attr_kj(1≤j≤m)为U_k的属性j的值；D_ij则表示用户k与用户模型i在j属性上的属性距离；

D_ij＝|attr_ij-attr_kj|

从上式可以看出，当用户与用户模型属性值相差越大，属性距离也就越大。

根据前述确定的属性权重，计算初始用户背景相似度；

S_ki表示目标用户k和用户模型i的初始背景相似度，D_ij为属性距离，W_j为属性j的权重，共有m个关键属性；分析式2.3可以看出，当用户属性距离越大或属性权重越大时，初始用户背景相似度就越小，用户背景与用户模型的背景就越相似。

引入阈值∮，提取所有与最高初始背景相似度值相差小于∮的用户模型。计算公式如下：

max_Di为最高初始背景相似度值，ΔS_ki为初始背景相似度与最大相似度值的差值，阈值∮如果未确定，可以取所有差值的平均值作为∮值，计算公式如下：

将所有ΔS_ki≤∮的用户模型提取出来，构成新的用户模型-相似度集合{(S_k1,U₁),(S_k2,U₂),…,(S_km,U_m)}。引入用户模型概率向量p{p₁,p₂,…,p_n}，计算最终的用户背景相似度，计算公式如下：

假定初始相似度最高的用户模型为U^*，其匹配概率为p^*；S′_ki为最终用户背景相似度，μ(0≤μ≤1)为概率影响因子，通过调整μ的大小来调节匹配概率对相似度计算的影响。通过分析，可以得出：当μ固定，匹配概率p_i越大，由于初始背景相似度S_ki固定，S′_ki就越大，则用户与用户模型背景越相似；当匹配概率固定，初始相似度S_ki固定，μ越大，则S′_ki就越大，所以μ越大，表示概率对最终用户背景相似度的影响也就越大，当μ＝0时，S′_li＝S_li，表示不考虑概率对相似度计算的影响，初始的匹配模型即为最终匹配的模型。

本发明实施方式还提出了一种基于用户模型匹配的可视化报告推荐算法。图3是本发明实施方式为用户推荐报告的示范性流程图。基于用户的协同过滤算法是根据用户的历史行为信息，找到与目标用户兴趣相似的用户，通过相似用户对报告的偏好，找到相似用户喜爱查看而目标用户没有关注的报告，计算目标用户对该报告的兴趣度，然后将该报告推荐给用户，再利用确定的可视化模型展示该报告。

首先，计算新用户与每个目标用户的余弦相似度，相似度计算公式如下：

N(u)为用户u感兴趣的报告集合，N(v)为用户v感兴趣的报告集合，|N(u)∩N(v)|则表示两个用户共同感兴趣的报告个数,|N(u)||N(v)|分别表示用户u和用户v所有感兴趣的报告个数。

基于兴趣相似度计算找出最近邻用户，如下表3所示，表示共有5个用户v、u1、u2、u3、u4以及共5个用户感兴趣的报告a、b、c、d、e。v表示要推荐的目标用户，v用户的初始兴趣报告集为{a,b,d}，u1兴趣报告集为{d,e}，u2兴趣报告集为{a,b,e}，u3兴趣报告集为{a,d}，u4兴趣报告集为{b,c,e}。

v	a	b	d
				u1	c	d
u2	a	b	e
				u3	a	d
u4	b	c	e

表3

通过用户推荐算法(比如，UserCF)计算用户之间的余弦相似度，时间复杂度为O(|U|²)，|U|表示所有用户数，在用户数很大时用户的相似度矩阵计算会非常耗时。而实际上，许多用户之间并没有共同兴趣的报告，即很多时候|N(u)∩N(v)|＝0。所以在计算相似度之前，可以建立“报告-用户”倒排表，为每个报告记录所有对该报告感兴趣的用户。表4所示为报告-用户倒排表。

a	v	u2	u3
				b	v	u2	u4
c	u1	u4
				d	v	u1	u3
e	u2	u4

表4

逐行扫描该报告-用户倒排表，当两个用户存在于同一行，即两个用户共同关注某个报告时，则这两个用户在矩阵中对应的元素值加1。例如扫描倒排表第一行，报告a被v、u2和u3同时感兴趣，所以矩阵元素C[v][u2]、C[u2][v]、C[v][u3]、C[u3][v]、C[u2][u3]、C[u3][u2]均加1。以此类推，对用户矩阵进行填写。

通过报告用户倒排表，建立一个5×5的用户矩阵C，如下表5所示。C[i][j]为用户i与用户j共同感兴趣的报告数。矩阵中的元素值C[i][j]则为余弦相似度计算中的分子部分。

	v	u1	u2	u3	u4
						v	0	1	2	2	1
u1	1	0	0	1	1
						u2	2	0	0	1	2
u3	2	1	1	0	0
						u4	1	1	2	0	0

表5

通过扫描表3，可以得到用户i感兴趣的报告总数N[i]和用户j感兴趣的报告总数N[j]，计算得到分母部分。假定W[i][j]为用户i与用户j的兴趣相似度，则W[i][j]的计算如下所示：

计算两个用户的兴趣相似度，例如v与u1的兴趣相似度为：

逐一计算，得到用户兴趣相似度矩阵S如下表6所示。表6为用户兴趣相似度矩阵。

表6

按照与目标用户的兴趣相似度从大到小排序，返回与目标用户最邻近的K个用户，得到相似用户集合。基于处理后的用户-报告评分矩阵，逐一计算目标用户对报告的兴趣度，根据兴趣度排序得到最终推荐列表，其中兴趣度计算公式如下：

上式中，p(v,i)为目标用户v对报告i兴趣度，S(v,K)表示与v最相似的K个用户的集合，N(i)表示所有对待推荐报告i有过行为或产生过评价的用户集合，w_vu表示v与u的兴趣相似度，r_ui表示用户u对报告i的评分。

图4是本发明实施方式的可视化报告生成系统的示范性结构图。在该系统的实验设计中，可以收集数据系统中目前若干(比如，16688)活跃用户的背景信息、若干(比如27535)张报告以及若干(比如103466)条埋点数据，将其划分两次训练集和测试集；通过用户对报告的访问量确定用户对于改报告的评分，评分范围为0～5。在测试集一上，以用户模型概率影响因子μ作为变量，影响测试集上用户与用户模型的匹配，然后使用基于用户模型匹配的推荐算法给用户推荐报告，计算准确率与召回率。找到最佳μ值，为后两组对比实验做准备。在测试集一上，分别使用UserCF和UMMatch-CF对测试集一上的用户进行报告推荐，该组实验一共又分为两小组实验，对两组实验分别分析最近邻用户个数K、推荐列表长度n对实验结果的影响，每次固定其中一个参数，另一个参数为变量，进行实验，对比使用UserCF算法与UMMatch-CF算法进行推荐的准确率、召回率和平均绝对误差。以测试集二上的140个用户作为新用户，利用用户背景数据将新用户匹配到对应的用户模型中，采用UMMatch-CF对新用户进行报告推荐，并分别计算该算法运用到新用户推荐上的准确率、召回率。

图5是本发明实施方式的可视化报告生成装置的示范性结构图。可视化报告生成装置500包括：

获取模块501，用于获取待生成可视化报告的用户的属性数据对象；

第一确定模块502，用于从包含多个用户模型的用户模型集中确定出与属性数据对象相匹配的用户模型，其中多个用户模型是对已有用户的属性数据对象执行聚类处理所获取的；

第二确定模块503，用于确定对应于与属性数据对象相匹配的用户模型的可视化模型；

生成模块504，用于基于可视化模型，生成待生成可视化报告的用户的可视化报告。

在示范性实施方式中，还包括聚类模块，用于确定聚类处理的预定类数K，其中K为至少为2的正整数；从已有用户的属性数据对象中随机选取K个属性数据对象作为聚类中心；计算已有用户的属性数据对象中、除K个属性数据对象之外的每个属性数据对象与K个聚类中心的距离；将每个属性数据对象分配到K个聚类中心中、距离该每个属性数据对象最近的聚类中心所代表的聚类中；计算每个聚类中的每个属性数据对象到该聚类内其他属性数据对象的距离和，取距离和最小的属性数据对象作为该聚类的新聚类中心，直到各个聚类的聚类中心不再变化；输出K个聚类中心。

在示范性实施方式中，第一确定模块502，用于确定多个用户模型中的每个用户模型所包含的用户属性与属性数据对象所包含的、对应的用户属性之间的距离；基于距离和用户属性的预定权重，确定属性数据对象与每个用户模型的相似度；基于多个用户模型的相似度排序结果，从多个用户模型中确定出与属性数据对象相匹配的用户模型。

在示范性实施方式中，第一确定模块502，用于确定多个用户模型中的每个用户模型所包含的用户属性与属性数据对象所包含的、对应的用户属性之间的距离；基于距离和用户属性的预定权重，确定属性数据对象与每个用户模型的相似度；从多个用户模型中，确定出与最高相似度的差值的绝对值小于预定门限值的用户模型；将确定出的用户模型组成为候选用户模型集合；基于用户模型匹配概率向量，确定属性数据对象与候选用户模型集合中每个用户模型的相似度，其中用户模型匹配概率向量包括用户模型集中的每个用户模型的匹配概率，匹配概率是由该每个用户模型所代表的聚类中的已有用户个数所确定的；基于候选用户模型集合中用户模型的相似度的排序结果，从候选用户模型集合中确定出与属性数据对象相匹配的用户模型。

在示范性实施方式中，还包括内容推荐模块，用于基于待生成可视化报告的用户的初始报告，确定待生成可视化报告的用户与每个已有用户的兴趣相似度；基于兴趣相似度的排序结果，确定待生成可视化报告的用户的相似用户；确定相似用户的报告集；确定待生成可视化报告的用户针对报告集中的每个报告的兴趣度；基于兴趣度的排序结果，确定待生成可视化报告的用户的报告。

在示范性实施方式中，确定对应于用户模型的可视化模型包括下列中的至少一个：基于用户模型与预先配置的单个可视化模型之间的一一对应关系，确定对应于用户模型的单个可视化模型；基于用户模型与预先配置的多个可视化模型之间的一对多对应关系，确定对应于用户模型的多个可视化模型；基于用户选择指令，从多个可视化模型中选择单个可视化模型。

在示范性实施方式中，可视化模型包含可视化报告配置信息；基于可视化模型，生成待生成可视化报告的用户的可视化报告包括：基于可视化报告配置信息生成用户的可视化报告；其中可视化报告配置信息包括下列中的至少一个：报告主题；数据源；图表布局。

本发明实施方式还提供一种计算机可读介质，计算机可读存储介质存储指令，指令在由处理器执行时可执行如上所述的可视化报告生成方法中的步骤。实际应用中，计算机可读介质可以是上述实施方式中描述的设备/装置/系统中所包含的，也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或多个程序被执行时，可以实现上述各实施方式描述的小程序的可视化报告生成方法。根据本发明公开的实施方式，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件，或者上述的任意合适的组合，但不用于限制本发明保护的范围。在本发明公开的实施方式中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

如图6所示，本发明实施方式还提供一种电子设备，其中可以集成本发明实施方式实现方法的装置。如图6所示，其示出了本发明实施方式所涉及的电子设备的示范性结构图。

具体地：该电子设备可以包括一个或一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402以及存储在存储器上并可在处理器上运行的计算机程序。在执行存储器402的程序时，可以实现上述可视化报告生成方法。在实际应用中，该电子设备还可以包括电源403、输入单元404、以及输出单元405等部件。本领域技术人员可以理解，图6中示出的电子设备的结构并不构成对该电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行服务器的各种功能和处理数据，从而对该电子设备进行整体监控。存储器402可用于存储软件程序以及模块，即上述计算机可读存储介质。处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

该电子设备还包括给各个部件供电的电源403，可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。该电子设备还可以包括输出单元405，该输出单元405可以用于显示由用户输入的信息或提供给用户的信息以及各种图像用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。

本发明实施方式还提供一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令在被处理器执行时实施如上述任一实施方式的可视化报告生成方法。

本发明附图中的流程图和框图，示出了按照本发明公开的各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同附图中所标注的顺序发生。例如，两个连接地表示的方框实际上可以基本并行地执行，它们有时也可以按照相反的顺序执行，这根据所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或者流程图中的方框的组合，可以利用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本文中应用了具体实施方式对本发明的原理及实施方式进行了阐述，以上实施方式的说明只是用于帮助理解本发明的方法及其核心思路，并不用于限制本发明。对于本领域的技术人员来说，可以依据本发明的思路、精神和原则，在具体实施方式及应用范围上进行改变，其所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种可视化报告生成方法，其特征在于，包括：

获取待生成可视化报告的用户的属性数据对象；

2.根据权利要求1所述的可视化报告生成方法，其特征在于，还包括：

确定所述聚类处理的预定类数K，其中K为至少为2的正整数；

输出所述K个聚类中心。

3.根据权利要求1所述的可视化报告生成方法，其特征在于，所述从包含多个用户模型的用户模型集中确定出与所述属性数据对象相匹配的用户模型包括：

4.根据权利要求1所述的可视化报告生成方法，其特征在于，所述从包含多个用户模型的用户模型集中确定出与所述属性数据对象相匹配的用户模型包括：

将确定出的用户模型组成为候选用户模型集合；

5.根据权利要求1所述的可视化报告生成方法，其特征在于，该方法还包括：

确定所述相似用户的报告集；

6.根据权利要求1-5中任一项所述的可视化报告生成方法，其特征在于，

所述确定对应于所述用户模型的可视化模型包括下列中的至少一个：

7.根据权利要求1-5中任一项所述的可视化报告生成方法，其特征在于，所述可视化模型包含可视化报告配置信息；

其中所述可视化报告配置信息包括下列中的至少一个：

报告主题；数据源；图表布局。

8.一种可视化报告生成装置，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述指令被处理器执行时可实施权利要求1-7任一项所述的可视化报告生成方法的步骤。

10.一种计算机程序产品，其特征在于，包括计算机指令，所述计算机指令在被处理器执行时实施权利要求1-7任一项所述的可视化报告生成方法的步骤。