发明内容
本发明提供一种基于交互可视化的多维数据分析方法,用以通过根据交互数据的获取场景与交互数据分别基于交互需求的交互程度与场景突出程度,以及场景之间交互关联关系设置对应标签;再利用设置的标签确定对应可视化模式,实现对交互过程数据的可视化展示,从而提高数据的可理解性和可信度。
本发明提供一种基于交互可视化的多维数据分析方法,包括:
步骤1:获取交互需求下的交互过程数据,并根据交互过程数据所涉及到的获取场景,来得到不同维度场景下的第一数据;
步骤2:分析每个维度场景下的第一数据基于交互需求的数据交互程度以及对应维度场景基于交互需求的场景突出程度,设置第一标签;
步骤3:根据不同维度场景之间的交互关联关系,向对应维度场景设置第二标签;
步骤4:根据第一标签以及第二标签,从标签-模式数据库中,获取对应第一数据的可视化模式;
步骤5:基于所有可视化模式,来实现对交互过程数据的可视化展示。
优选的,获取交互需求下的交互过程数据,并根据交互过程数据所涉及到的获取场景,来得到不同维度场景下的第一数据,包括:
步骤11:从需求交互数据库中提取与所述交互需求所相应存储的交互过程数据;
步骤12:对提取的交互过程数据自主筛选并删除其中重复数据、根据数据的价值权重和价值密度处理所述交互过程数据中的缺失数据以及利用箱线图法对所述交互过程数据中存在的异常数据进行处理,最后得到目标数据集;
步骤13:采用K-means聚类分析的方式,对目标数据集进行场景聚类得到数据子集,从而获取不同维度场景下的第一数据。
优选的,分析每个维度场景下的第一数据基于交互需求的数据交互程度以及对应维度场景基于交互需求的场景突出程度,设置第一标签,包括:
步骤21:基于信息熵概念,采用矩阵描述每个第一数据中任意两个属性之间的基本信息值,构建第一基本信息矩阵;
步骤22:获取每个第一数据中任三个属性之间的重复度,并构建对应第一数据的冗余度矩阵;
步骤23:获取每个第一数据中不同属性之间的相关性的变化量,并作为对应属性的交互度构建交互度矩阵;
步骤24:对第一基本信息矩阵、冗余度矩阵以及交互度矩阵归一化处理后进行信息融合,得到的对应第一数据的可用性矩阵,并计算对应第一数据基于交互需求的数据交互程度,其中,数据交互程度求取公式如下:
;其中,/>表示为第i个第一数据基于交互需求的数据交互程度;/>表示为第i个第一数据的可用性矩阵的数据可用值;/>表示为第i个第一数据的数据量;/>表示为目标数据总量;/>表示为第一数据基于目标数据的数据量占比对数据交互程度的影响权重系数;/>表示为第一数据的平均交互传输速度;/>表示为第i个第一数据的交互传输速度;/>表示为第一数据平均交互传输速度与第i个第一数据的交互传输速度的速度差对数据交互程度的影响权重系数;/>表示为第一数据的最大交互传输速度;/>表示为交互需求所映射到的第一数据的总个数;表示对初始交互程度/>的微调函数;
步骤25:将同个维度场景下的数据交互程度与同维度场景采集数据的复杂度相结合,得到对应维度场景的场景突出程度;
步骤26:根据获取的不同维度场景的场景突出程度,对第一数据设置第一标签。
优选的,根据获取的不同维度场景的场景突出程度,对第一数据设置第一标签,包括:
根据获取的不同维度场景的场景突出程度,若存在场景突出程度小于预设低阈值的维度场景,则将该维度场景对应的第一数据设置内容为低交互的第一标签;
若存在场景突出程度不小于预设低阈值且不大于预设高阈值的维度场景,则将该维度场景对应的第一数据设置内容为中交互的第一标签;
若存在场景突出程度大于预设高阈值的维度场景,则将该维度场景对应的第一数据设置内容为高交互的第一标签。
优选的,根据不同维度场景之间的交互关联关系,向对应维度场景设置第二标签,包括:
步骤31:选取任意一个维度场景作为参考场景,其对应第一数据作为参考数据构建参考数据序列,其中,/>表示为第j1个参考样本,且j1的取值为/>;
步骤32:基于除参考场景以外的所有维度场景设置交互关联变量后,构建交互关联数据序列/>,其中m表示为第m个维度场景;n表示为样本容量;/>表示为第j1个交互关联样本;
步骤33:利用均值化方法对所述交互关联数据序列去量纲化处理后,得到第一关联序列;
步骤34:计算参考数据序列与每个第一交互序列之间的差序列以及两极最小差与最大差,从而得到第一关联系数;
步骤35:将每个维度场景充当一次参考场景,重复步骤31至步骤34,得到所有维度场景的相关系数矩阵,进而得到不同维度场景之间的交互关联度;
步骤36:根据交互关联度,对维度场景彼此之间的关联程度进行判定,再基于预设占比阈值,对不同维度场景设置第二标签。
优选的,根据交互关联度,对维度场景彼此之间的关联程度进行判定,再基于预设占比阈值,对不同维度场景设置第二标签,包括:
根据交互关联度,若存在两个维度场景之间的交互程度高于预设交互阈值,则将对应维度场景之间交互程度标记为一级交互;
否则,将对应维度场景之间交互程度标记为二级交互;
根据所有交互标记结果,分别获取每个维度场景的互为一级交互、二级交互的维度场景的个数占维度场景总数的第一比例结果和第二比例结果,以及存在交互的维度场景个数占维度场景总数的关键比例结果;
当关键比例结果小于预设比例阈值时,将对应的维度场景设置内容为极低关联的第二标签;
当关键比例结果不小于预设比例阈值时,若第一比例结果高于预设占比阈值,则将对应维度场景设置内容为高关联的第二标签;
若第二比例结果高于预设占比阈值,则将对应维度场景设置内容为低关联的第二标签;
若第一比例结果和第二比例结果均小于预设占比阈值,且第一比例结果大于第二比例结果,则将对应维度场景设置内容为中关联的第二标签;
否则,将对应维度场景设置内容为中低关联的第二标签。
优选的,根据第一标签以及第二标签,从标签-模式数据库中,获取对应第一数据的可视化模式,包括:
根据第一标签以及对应的第二标签,当第一标签为高交互或中交互的第一数据所对应维度场景设置的第二标签内容为高关联和中关联时,从标签-模式数据库中选取彩色图表与场景动态关联图结合的可视化模式;
若对应维度场景的第二标签为中低关联与低关联,则选取彩色图表与场景关联图结合的可视化模式;
若对应维度场景的第二标签为极低关联,则选取彩色图表的可视化模式;
若第一数据的第一标签为低交互,且对应维度场景的第二标签内容为高关联和中关联时,则从标签-模式数据库中选取基本图表与场景关联图结合的可视化模式;
否则,选取基本图表作为可视化模式。
优选的,对交互过程数据的可视化展示是基于从标签-模式数据库中提取的可视化模式,利用Echart可视化组件实现的。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供一种基于交互可视化的多维数据分析方法,如图1所示,包括:
步骤1:获取交互需求下的交互过程数据,并根据交互过程数据所涉及到的获取场景,来得到不同维度场景下的第一数据;
步骤2:分析每个维度场景下的第一数据基于交互需求的数据交互程度以及对应维度场景基于交互需求的场景突出程度,设置第一标签;
步骤3:根据不同维度场景之间的交互关联关系,向对应维度场景设置第二标签;
步骤4:根据第一标签以及第二标签,从标签-模式数据库中,获取对应第一数据的可视化模式;
步骤5:基于所有可视化模式,来实现对交互过程数据的可视化展示。
该实施例中,交互需求指的是基于具体交互功能的互联网平台,通过用户与用户或人机之间互动从而获得的相关信息或服务;交互过程数据是用户与用户或人机之间互动产生的数据,比如语音、图像;获取场景是指获取交互过程数据的情景;第一数据是对交互过程数据进行清洗处理后再采用K-means聚类分析的方式场景聚类得到的数据集。
该实施例中,数据交互程度是基于信息熵概念,结合冗余度以及交互度对第一数据基于交互需求的交互能力的描述;场景突出程度是通过将第一数据的数据交互程度与对应维度场景采集数据的复杂度相结合确定的基于交互需求的场景偏好;第一标签用于根据数据交互程度与场景突出程度,对对应第一数据的交互水平进行标记,比如高交互,代表交互水平高。
该实施例中,交互关联关系是指存在交互的不同维度场景彼此之间的相关影响性;第二标签用于基于根据交互关联关系得到的交互关联度,标记为一级交互、二级交互的维度场景的个数占维度场景总数的比例结果,来对场景进行场景与场景间的交互能力的标记;标签-模式数据库由第一标签、第二标签以及对应的可视化模式构成,比如彩色图表与场景动态关联图结合、基本图表。
该实施例中,对交互过程数据的可视化展示是基于从标签-模式数据库中提取的可视化模式,利用Echart可视化组件实现的。
上述技术方案的有益效果是:通过根据交互数据的获取场景与交互数据分别基于交互需求的交互程度与场景突出程度,以及场景之间交互关联关系设置对应标签;再利用设置的标签确定对应可视化模式,实现对交互过程数据的可视化展示,从而提高数据的可理解性和可信度。
本发明实施例提供一种基于交互可视化的多维数据分析方法,获取交互需求下的交互过程数据,并根据交互过程数据所涉及到的获取场景,来得到不同维度场景下的第一数据,包括:
步骤11:从需求交互数据库中提取与所述交互需求所相应存储的交互过程数据;
步骤12:对提取的交互过程数据自主筛选并删除其中重复数据、根据数据的价值权重和价值密度处理所述交互过程数据中的缺失数据以及利用箱线图法对所述交互过程数据中存在的异常数据进行处理,最后得到目标数据集;
步骤13:采用K-means聚类分析的方式,对目标数据集进行场景聚类得到数据子集,从而获取不同维度场景下的第一数据。
该实施例中,需求交互数据库由交互需求与对应交互过程中产生的数据构成;目标交互需求是指提前确定的基于具体交互功能的互联网平台,通过用户与用户或人机之间互动从而获得的相关信息或服务;交互过程数据是指用户与用户或人机之间互动产生的数据,比如语音、视频。
该实施例中,删除重复数据、处理缺失数据以及异常数据的目的是为了提高后续数据运用效率;数据价值权重指的是数据的可参考程度;价值密度指的是单位数据所产生的有价值的信息量;箱线图法实际上是指利用数据的统计量,比如最小值、中位数,来描述数据的一种方法,可用于异常数据检测;目标数据集是对交互过程数据进行数据清洗后得到的数据集。
该实施例中,K-means聚类分析方式是一种基于欧式聚类度量的数据划分方法,用于将目标数据集场景聚类得到数据子集,其中数据子集也是就第一数据。
上述技术方案的有益效果是:通过对交互过程数据数据清洗后,再结合K-means聚类分析的方式进行场景聚类,最终得到不同维度场景下的第一数据,为后续分析数据交互程度提供数据支撑。
本发明实施例提供一种基于交互可视化的多维数据分析方法,分析每个维度场景下的第一数据基于交互需求的数据交互程度以及对应维度场景基于交互需求的场景突出程度,设置第一标签,包括:
步骤21:基于信息熵概念,采用矩阵描述每个第一数据中任意两个属性之间的基本信息值,构建第一基本信息矩阵;
步骤22:获取每个第一数据中任三个属性之间的重复度,并构建对应第一数据的冗余度矩阵;
步骤23:获取每个第一数据中不同属性之间的相关性的变化量,并作为对应属性的交互度构建交互度矩阵;
步骤24:对第一基本信息矩阵、冗余度矩阵以及交互度矩阵归一化处理后进行信息融合,得到的对应第一数据的可用性矩阵,并计算对应第一数据基于交互需求的数据交互程度,其中,数据交互程度求取公式如下:
;其中,/>表示为第i个第一数据基于交互需求的数据交互程度;/>表示为第i个第一数据的可用性矩阵的数据可用值;/>表示为第i个第一数据的数据量;/>表示为目标数据总量;/>表示为第一数据基于目标数据的数据量占比对数据交互程度的影响权重系数;/>表示为第一数据的平均交互传输速度;/>表示为第i个第一数据的交互传输速度;/>表示为第一数据平均交互传输速度与第i个第一数据的交互传输速度的速度差对数据交互程度的影响权重系数;/>表示为第一数据的最大交互传输速度;/>表示为交互需求所映射到的第一数据的总个数;表示对初始交互程度/>的微调函数;
步骤25:将同个维度场景下的数据交互程度与同维度场景采集数据的复杂度相结合,得到对应维度场景的场景突出程度;
步骤26:根据获取的不同维度场景的场景突出程度,对第一数据设置第一标签。
该实施例中,信息熵用于解决信息的量化问题;基本信息值指的是一个属性变化对另一个属性变化的影响程度;第一基本信息矩阵是利用第一数据中任意两个属性之间的基本信息值构成的;冗余度矩阵是利用第一数据中的任三个属性之间的重复度,即基本信息的重复量构建得到的;交互度矩阵是利用不同属性之间的相关性的变化量构建得到的。
该实施例中,对第一基本信息矩阵、冗余度矩阵以及交互度矩阵归一化处理的目的是为了消除量纲的影响;可用性矩阵是将归一化处理的3个矩阵变量进行信息融合生成的;数据交互程度是基于信息熵概念,结合冗余度以及交互度对第一数据基于交互需求的交互能力的描述;场景突出程度是通过将第一数据的数据交互程度与对应维度场景采集数据的复杂度相结合确定的基于交互需求的场景偏好;第一标签用于根据数据交互程度与场景突出程度,对对应第一数据的交互水平进行标记,比如高交互、低交互。
上述技术方案的有益效果是:通过基于交互需求引入信息熵概念,并结合对第一数据冗余度、交互度的分析,得到第一数据基于交互需求的数据交互程度;将数据交互程度与采集数据复杂度相结合得到对应维度场景的场景突出程度,从而设置合适标签,为后续选取对应可视化模式奠定基础。
本发明实施例提供一种基于交互可视化的多维数据分析方法,根据获取的不同维度场景的场景突出程度,对第一数据设置第一标签,包括:
根据获取的不同维度场景的场景突出程度,若存在场景突出程度小于预设低阈值的维度场景,则将该维度场景对应的第一数据设置内容为低交互的第一标签;
若存在场景突出程度不小于预设低阈值且不大于预设高阈值的维度场景,则将该维度场景对应的第一数据设置内容为中交互的第一标签;
若存在场景突出程度大于预设高阈值的维度场景,则将该维度场景对应的第一数据设置内容为高交互的第一标签。
该实施例中,预设低阈值和预设高阈值是提前设定好的;维度场景指的是采集交互过程数据的情景;第一标签用于根据数据交互程度与场景突出程度,对对应第一数据的交互水平进行标记,比如高交互,代表交互水平高。
该实施例中,比如,存在维度场景1、2、3,对应场景突出程度c1、c2、c3,其中,c1小于预设低阈值,c2大于预设高阈值,c3不小于预设低阈值且不大于预设高阈值,此时对维度场景1对应的第一数据设置内容为低交互的第一标签;对维度场景2对应的第一数据设置内容为高交互的第一标签;对维度场景3对应的第一数据设置内容为中交互的第一标签。
上述技术方案的有益效果是:通过利用将场景突出程度与预设阈值进行比较得到的对比结果来对对应第一数据设置第一标签,有利于按照数据的交互水平准确选取可视化模式,增加数据的可理解性。
本发明实施例提供一种基于交互可视化的多维数据分析方法,根据不同维度场景之间的交互关联关系,向对应维度场景设置第二标签,包括:
步骤31:选取任意一个维度场景作为参考场景,其对应第一数据作为参考数据构建参考数据序列,其中,/>表示为第j1个参考样本,且j1的取值为/>;
步骤32:基于除参考场景以外的所有维度场景设置交互关联变量后,构建交互关联数据序列/>,其中m表示为第m个维度场景;n表示为样本容量;/>表示为第j1个交互关联样本;
步骤33:利用均值化方法对所述交互关联数据序列去量纲化处理后,得到第一关联序列;
步骤34:计算参考数据序列与每个第一交互序列之间的差序列以及两极最小差与最大差,从而得到第一关联系数;
步骤35:将每个维度场景充当一次参考场景,重复步骤31至步骤34,得到所有维度场景的相关系数矩阵,进而得到不同维度场景之间的交互关联度;
步骤36:根据交互关联度,对维度场景彼此之间的关联程度进行判定,再基于预设占比阈值,对不同维度场景设置第二标签。
该实施例中,参考场景是从维度场景中任意选取的,对应第一数据视为参考数据;参考数据序列是基于参考数据建立的;去量纲化处理采用的方法是均值化方法,其目的是为了避免因数据量纲不同导致计算得到不正确的结论;第一关联序列是对交互关联数据序列去量纲化处理后得到的,其中交互关联数据序列由除参考场景以外的所有维度场景对应的第一数据构成;第一关联系数是利用参考数据序列与每个第一交互序列之间的差序列以及两极最小差与最大差计算得到的。
该实施例中,相关系数矩阵是利用每个维度场景作为参考场景重复上述步骤31至步骤34得到的第一关联系数建立的,用于确定不同维度场景之间的交互关联度,其中交互关联度用于对维度场景彼此之间的关联程度进行判定;预设占比阈值是提前设定好的;第二标签用于基于根据交互关联度标记为一级交互、二级交互的维度场景的个数占维度场景总数的比例结果,来对场景进行场景与场景间的交互能力的标记。
上述技术方案的有益效果是:通过依次将维度场景作为参考场景,构建参考数据序列与除参考场景以外的所有维度场景构建的交互关联数据序列进行对比,来获取不同维度场景之间的交互关联度后,再对不同维度场景设置第二标签,可实现按照场景之间的交互能力准确选取可视化模式。
本发明实施例提供一种基于交互可视化的多维数据分析方法,根据交互关联度,对维度场景彼此之间的关联程度进行判定,再基于预设占比阈值,对不同维度场景设置第二标签,包括:
根据交互关联度,若存在两个维度场景之间的交互程度高于预设交互阈值,则将对应维度场景之间交互程度标记为一级交互;
否则,将对应维度场景之间交互程度标记为二级交互;
根据所有交互标记结果,分别获取每个维度场景的互为一级交互、二级交互的维度场景的个数占维度场景总数的第一比例结果和第二比例结果,以及存在交互的维度场景个数占维度场景总数的关键比例结果;
当关键比例结果小于预设比例阈值时,将对应的维度场景设置内容为极低关联的第二标签;
当关键比例结果不小于预设比例阈值时,若第一比例结果高于预设占比阈值,则将对应维度场景设置内容为高关联的第二标签;
若第二比例结果高于预设占比阈值,则将对应维度场景设置内容为低关联的第二标签;
若第一比例结果和第二比例结果均小于预设占比阈值,且第一比例结果大于第二比例结果,则将对应维度场景设置内容为中关联的第二标签;
否则,将对应维度场景设置内容为中低关联的第二标签。
该实施例中,预设交互阈值是提前设定好的。
该实施例中,比如,存在维度场景A、B、C,维度场景A、B的交互关联度高于预设交互阈值,维度场景A和C的交互关联度低于预设交互阈值,维度B和C之间的交互关联度等于预设交互阈值,则此时将维度场景A和B交互关联程度标记为一级交互;维度场景A和C以及维度场景B和C的交互关联程度均标记为二级交互。
该实施例中,比如,存在维度场景w1,与维度场景w1交互程度为一级交互的场景个数为,交互程度为二级交互的场景个数为/>,存在交互的场景个数为/>;维度场景总数为X,此时维度场景w1的第一比例结果为/>;第二比例结果为/>;关键比例结果为/>。
该实施例中,预设比例阈值是基于维度场景总数提前设定好的;预设占比阈值是提前设定好的。
该实施例中,比如,存在维度场景w2,w3,对应的关键比例结果大于预设比例阈值,且维度场景w2和w3对应的第一比例结果和第二比例结果均小于预设占比阈值,又维度场景w2的第一比例结果大于第二比例结果,维度场景w3的第一比例结果小于第二比例结果,此时对维度场景w2设置内容为中关键的第二标签;对维度场景w3设置内容为低关联的第二标签。
上述技术方案的有益效果是:通过基于不同维度场景之间的交互关联度分析不同维度场景间的交互能力,来对不同维度场景设置第二标签,有效实现可视化模式的合理化选取。
本发明实施例提供一种基于交互可视化的多维数据分析方法,根据第一标签以及第二标签,从标签-模式数据库中,获取对应第一数据的可视化模式,包括:
根据第一标签以及对应的第二标签,当第一标签为高交互或中交互的第一数据所对应维度场景设置的第二标签内容为高关联和中关联时,从标签-模式数据库中选取彩色图表与场景动态关联图结合的可视化模式;
若对应维度场景的第二标签为中低关联与低关联,则选取彩色图表与场景关联图结合的可视化模式;
若对应维度场景的第二标签为极低关联,则选取彩色图表的可视化模式;
若第一数据的第一标签为低交互,且对应维度场景的第二标签内容为高关联和中关联时,则从标签-模式数据库中选取基本图表与场景关联图结合的可视化模式;
否则,选取基本图表作为可视化模式。
该实施例中,第一标签用于根据数据交互程度与场景突出程度,对对应第一数据的交互水平进行标记,比如高交互,代表交互水平高;第二标签用于基于根据交互关联关系得到的交互关联度,标记为一级交互、二级交互的维度场景的个数占维度场景总数的比例结果,来对场景进行场景与场景间的交互能力的标记;标签-模式数据库由第一标签、第二标签以及对应的可视化模式构成。
上述技术方案的有益效果是:通过结合第一标签和第二标签,可实现从标签-模式数据库中选出与对应数据的交互频繁度以及重要程度相匹配的可视化模式,有助于后续数据的可视化展示。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。