CN117910518B

CN117910518B - 生成式数据分析方法及系统

Info

Publication number: CN117910518B
Application number: CN202410309287.XA
Authority: CN
Inventors: 张发恩; 高达辉; 徐安琪
Original assignee: Qingdao Chuangxin Qizhi Technology Group Co ltd
Current assignee: Innovation Qizhi Technology Group Co ltd
Priority date: 2024-03-19
Filing date: 2024-03-19
Publication date: 2024-06-11
Anticipated expiration: 2044-03-19
Also published as: CN117910518A

Abstract

本申请提供一种生成式数据分析方法及系统，属于数据处理技术领域，以实现降低对深度神经网络模型的性能要求，提高适用性。该方法包括：电子设备获取待处理的数据集合；电子设备对待处理的数据集合进行向量拟合处理，得到待处理的特征向量集合，其中，待处理的特征向量集合是待处理的数据集合的向量化表达，且待处理的特征向量集合中的向量数目小于待处理的数据集合中的数据数目；电子设备通过深度神经网络模型分析待处理的特征向量集合，得到分析结果。

Description

生成式数据分析方法及系统

技术领域

本申请涉及数据处理技术领域，尤其涉及一种生成式数据分析方法及系统。

背景技术

深度学习是机器学习的一个重要分支，它是通过构建多层神经网络来进行学习和预测的一种方法。这种方法在许多领域中都取得了显著的成果，包括图像识别、语音识别、自然语言处理等。

深度学习的核心思想是构建多层的神经网络，每一层都包含大量的神经元。这些神经元之间的连接权重是在训练过程中自动学习和调整的。这种自动学习的方式使得深度学习能够处理复杂的非线性问题，并且不需要手动设计特征。深度学习的一个重要特点是它可以自动学习和提取特征。在传统的机器学习方法中，通常需要手动设计和选择特征。然而，对于复杂的数据，手动设计特征往往是非常困难的。深度学习则不需要手动设计特征，它可以从原始数据中自动学习和提取有用的特征。此外，深度学习还具有强大的表示能力。由于深度学习模型有很多隐藏层，每个隐藏层都可以学习到不同的抽象特征。这使得深度学习模型能够学习到复杂的数据分布和模式，从而在许多任务上取得了优秀的表现。

在实际应用中，深度学习已经被广泛应用于各种领域。例如，在图像识别领域，深度学习已经在许多比赛中取得了最好的成绩。在自然语言处理领域，深度学习也被用于机器翻译、情感分析等任务。总的来说，深度学习是一种强大的机器学习方法，它通过构建多层神经网络来自动学习和提取特征，从而在许多任务上取得了优秀的表现。然而，随着大数据时代的来临，需要通过深度学习处理的数据量越来越大，或者说单一次输入深度学习处理的数据更多，导致对神经网络的模型能力要求越来越高，适用性变差。

发明内容

本申请实施例提供一种生成式数据分析方法及系统，以实现降低对深度神经网络模型的性能要求，提高适用性。

为达到上述目的，本申请采用如下技术方案：

第一方面，提供一种生成式数据分析方法，应用于电子设备，该方法包括：电子设备获取待处理的数据集合；电子设备对待处理的数据集合进行向量拟合处理，得到待处理的特征向量集合，其中，待处理的特征向量集合是待处理的数据集合的向量化表达，且待处理的特征向量集合中的向量数目小于待处理的数据集合中的数据数目；电子设备通过深度神经网络模型分析待处理的特征向量集合，得到分析结果。

可选地，电子设备对待处理的数据集合进行向量拟合处理，得到待处理的特征向量集合，包括：电子设备将待处理的数据集合中的数据转换为向量，得到待处理的向量集合；电子设备将待处理的向量集中的相似向量拟合为特征向量，得到待处理的特征向量集合。

可选地，电子设备将待处理的数据集合中的数据转换为向量，得到待处理的向量集合，包括：电子设备对待处理的数据集合中的M条数据分别进行独热编码，得到M个向量，M个向量即为待处理的向量集合，M个向量中的每个向量均为二进制的K维向量，M为大于1的整数，K为大于1的整数。

可选地，电子设备将待处理的向量集中的相似向量拟合为特征向量，得到待处理的特征向量集合，包括：电子设备通过计算M个向量中每两个向量之间的相似度，将满足星型关联结构且相似度小于或等于相似度阈值的至少两个向量确定为一组向量，共得到N组向量，N为大于或等于1且小于M的整数；电子设备将N组向量中每组向量所包含的至少两个向量拟合为一个特征向量，共拟合得到N个特征向量，N个特征向量即为待处理的特征向量集合。

可选地，电子设备通过计算M个向量中每两个向量之间的相似度，将满足星型关联结构且相似度小于或等于相似度阈值的至少两个向量确定为一组向量，共得到N组向量，包括：电子设备按M个向量的索引计算M个向量中每两个向量之间的相似度；在此基础上，若电子设备第一次确定有第一向量与第二向量之间的相似度小于或等于相似度阈值，则将第一向量确定为第一星型关联结构的中心，用以计算第一星型关联结构的中心与其他所有未与第一向量计算过相似度的向量之间的相似度，从而将相似度小于或等于相似度阈值的至少一个第三向量分别确定为第一星型关联结构的分支，得到完整的第一星型关联结构，完整的第一星型关联结构所包含的第一向量以及至少一个第三向量作为第一组向量；之后，电子设备按M个向量的索引，开始计算M个向量中除第一组向量以外的每两个向量之间的相似度；在此基础上，若电子设备第二次确定有第四向量与第五向量之间的相似度小于或等于相似度阈值，则将第四向量确定为第二星型关联结构的中心，用以计算第一星型关联结构的中心与其他所有未与第一向量计算过相似度的向量之间的相似度，从而将相似度小于或等于相似度阈值的至少一个第六向量分别确定为第二星型关联结构的分支，得到完整的第二星型关联结构，完整的第二星型关联结构所包含的第四向量以及至少一个第六向量作为第二组向量，以此类推，直至确定第N组向量。

可选地，第N组向量对应完整的第N星型关联结构，完整的第二星型关联结构中任一分支与第二星型关联结构的中心的相似度小于或等于相似度阈值；或者，第N组向量所包含任意两个向量之间的相似度均大于相似度阈值。

可选地，电子设备将N组向量中每组向量所包含的至少两个向量拟合为一个特征向量，共拟合得到N个特征向量，包括：针对N组向量中的第i组向量，i为遍历1至N的整数，电子设备确定第i组向量中每个向量各自所包含的K个比特的取值，确定第i组向量中所有向量在K个比特位中的同一比特位上的取值概率；针对N组向量中的第i组向量，电子设备根据第i组向量中所有向量在K个比特位中的同一比特位上的取值概率，确定一个K维的特征向量，K维的特征向量中K个比特位各自的取值为根据第i组向量中所有向量在K个比特位中的同一比特位上的取值概率确定。

可选地，电子设备通过深度神经网络模型分析待处理的特征向量集合，得到分析结果，包括：电子设备为待处理的特征向量集合中的每个特征向量添加噪声，得到包含噪声的特征向量集合；电子设备通过深度神经网络模型分析包含噪声的特征向量集合，得到分析结果。

可选地，电子设备将N组向量中每组向量所包含的至少两个向量拟合为一个特征向量，共拟合得到N个特征向量，包括：针对N组向量中的第i组向量，i为遍历1至N的整数，第i组向量包含Pi个向量，Pi大于或等于2，电子设备确定将Pi个向量的取值合并，得到一个Pi×K维的特征向量。

第二方面，提供一种生成式数据分析系统，该系统包括电子设备，该系统被配置为：电子设备获取待处理的数据集合；电子设备对待处理的数据集合进行向量拟合处理，得到待处理的特征向量集合，其中，待处理的特征向量集合是待处理的数据集合的向量化表达，且待处理的特征向量集合中的向量数目小于待处理的数据集合中的数据数目；电子设备通过深度神经网络模型分析待处理的特征向量集合，得到分析结果。

综上，上述方法及系统具有如下技术效果：

电子设备通过对待处理的数据集合进行向量拟合处理，使得拟合处理后的待处理的特征向量集合中的向量数目小于待处理的数据集合中的数据数目，也即，在保留数据特征的情况下降低数据量，可以实现在不影响深度神经网络模型的分析结果的情况下，降低处理开销，从而降低对深度神经网络模型的性能要求，提高适用性。

附图说明

图1为本申请实施例提供的生成式数据分析方法的流程示意图；

图2为本申请实施例提供的电子设备的结构示意图。

具体实施方式

本申请将围绕可包括多个设备、组件、模块等的系统来呈现各个方面、实施例或特征。应当理解和明白的是，各个系统可以包括另外的设备、组件、模块等，并且/或者可以并不包括结合附图讨论的所有设备、组件、模块等。此外，还可以使用这些方案的组合。

另外，在本申请实施例中，“示例的”、“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用示例的一词旨在以具体方式呈现概念。

本申请实施例中，“信息（information）”，“信号（signal）”，“消息（message）”，“信道（channel）”、“信令（singaling）”有时可以混用，应当指出的是，在不强调其区别时，其所要表达的含义是匹配的。“的（of）”，“相应的（corresponding，relevant）”和“对应的（corresponding）”有时可以混用，应当指出的是，在不强调其区别时，其所要表达的含义是匹配的。此外，本申请提到的“/”可以用于表示“或”的关系。

本申请实施例描述的网络架构以及业务场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着网络架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本申请实施例的方法可以由电子设备执行，该电子设备可以是终端，具为终端，或为可设置于该终端的芯片或芯片系统。该终端也可以称为用户设备（user equipment，UE）、接入终端、用户单元（subscriber unit）、用户站、移动站（mobile station，MS）、移动台、远方站、远端终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置。本申请的实施例中的终端可以是手机（mobile phone）、蜂窝电话（cellular phone）、智能电话（smart phone）、平板电脑（Pad）、无线数据卡、个人数字助理电脑（personal digitalassistant，PDA）、无线调制解调器（modem）、手持设备（handset）、膝上型电脑（laptopcomputer）、机器类型通信（machine type communication，MTC）终端、带无线收发功能的电脑、虚拟现实（virtual reality，VR）终端、增强现实（augmented reality，AR）终端、工业控制（industrial control）中的无线终端、无人驾驶（self driving）中的无线终端、远程医疗（remote medical）中的无线终端、智能电网（smart grid）中的无线终端、运输安全（transportation safety）中的无线终端、智慧城市（smart city）中的无线终端、智慧家庭（smart home）中的无线终端、车载终端、具有终端功能的路边单元（road side unit，RSU）等。本申请的终端还可以是作为一个或多个部件或者单元而内置于车辆的车载模块、车载模组、车载部件、车载芯片或者车载单元。

方便理解，下面将结合图1本申请实施例提供的生成式数据分析方法进行具体阐述。

示例性的，图1本申请实施例提供的生成式数据分析方法的流程示意图。该方法可以适用于上述电子设备的交互。

如图1所示，该生成式数据分析方法的流程如下：

S101，电子设备获取待处理的数据集合。

待处理的数据集合中的数据可以任何应用场下的数据。比如，对于工业生产场景，这些数据可以是一段时间内不同时刻的不同设备的状态数据，这种情况下，使用深度神经网络模型分析这些数据可以实现整体评估/预估设备的状态。又比如，对于通信场景，这些数据可以是一段时间内不同时刻的不同用户的位置，这种情况下，使用深度神经网络模型分析这些数据可以实现整体预估用户的移动性变化。

电子设备获取待处理的数据集合的方式可以有很多，如可以是其他采集数据的设备实时发送给电子设备，又或者可以是电子设备自行采集获取，不做限制。

S102，电子设备对待处理的数据集合进行向量拟合处理，得到待处理的特征向量集合。

其中，待处理的特征向量集合可以是待处理的数据集合的向量化表达，也即，是包含了数据的信息的向量，以保障后续的分析结果尽量不受影响。待处理的特征向量集合中的向量数目小于待处理的数据集合中的数据数目，以保证数据所包含的信息量不受影响的情况下实现数据缩容。

步骤1：电子设备可以将待处理的数据集合中的数据转换为向量，得到待处理的向量集合。比如，电子设备可以对待处理的数据集合中的M条数据分别进行独热编码，得到M个向量，M个向量即为待处理的向量集合，M个向量中的每个向量均为二进制的K维向量，M为大于1的整数，K为大于1的整数。比如，K=10，向量为二进制的10维向量，也即，包含10个比特的位串，如1100110111。当然，采用独热编码为一种示例，也可以其他文本数据转换为向量的方式，如CBOW模型，具体实现不做限制。

步骤2：电子设备可以将待处理的向量集中的相似向量拟合为特征向量，得到待处理的特征向量集合。

具体的，首先，电子设备可以通过计算M个向量中每两个向量之间的相似度，将满足星型关联结构且相似度小于或等于相似度阈值的至少两个向量确定为一组向量，共得到N组向量，N为大于或等于1且小于M的整数。比如，电子设备按M个向量的索引（如索引从小到大，或者从大到小）计算M个向量中每两个向量之间的相似度（如每两个向量的欧式距离，或者其他表达方式，如曼哈顿距离）。在此基础上，若电子设备第一次确定有第一向量与第二向量之间的相似度小于或等于相似度阈值，则将第一向量确定为第一星型关联结构的中心，用以计算第一星型关联结构的中心与其他所有未与第一向量计算过相似度的向量之间的相似度，从而将相似度小于或等于相似度阈值的至少一个第三向量分别确定为第一星型关联结构的分支，得到完整的第一星型关联结构，完整的第一星型关联结构所包含的第一向量以及至少一个第三向量作为第一组向量。示例，M=10，按索引从小到大包含，向量1到向量10，共10个向量。按照索引从小到大，电子设备先计算向量1与向量2的相似度，且该相似度小于相似度阈值，那么电子设备再计算向量2与向量3的相似度，且该相似度大于相似度阈值，此时，电子设备按照索引从小到大，将向量2确定为星型关联结构#1的中心，中心是作为计算相似度的参考。如此，电子设备依次计算向量2分别与向量4到向量10以及向量1各自的相似度，并确定向量1与向量4的相似度大于阈值，此时完整的星型关联结构#1包含向量2、向量3和向量4，向量3和向量4作为中心对应的分支。

之后，电子设备可以按M个向量的索引，开始计算M个向量中除第一组向量以外的每两个向量之间的相似度；在此基础上，若电子设备第二次确定有第四向量与第五向量之间的相似度小于或等于相似度阈值，则将第四向量确定为第二星型关联结构的中心，用以计算第一星型关联结构的中心与其他所有未与第一向量计算过相似度的向量之间的相似度，从而将相似度小于或等于相似度阈值的至少一个第六向量分别确定为第二星型关联结构的分支，得到完整的第二星型关联结构，完整的第二星型关联结构所包含的第四向量以及至少一个第六向量作为第二组向量，以此类推，直至确定第N组向量。继续上述的示例，剩下向量包含向量1、向量5到向量10，按照索引从小到大，电子设备先计算向量1与向量5的相似度，且该相似度小于相似度阈值，那么电子设备再计算向量5与向量6的相似度，且该相似度大于相似度阈值，此时，电子设备按照索引从小到大，将向量5确定为星型关联结构#2的中心，中心是作为计算相似度的参考。如此，电子设备依次计算向量5分别与向量7到向量10以及向量1各自的相似度，并确定向量1与向量5的相似度大于阈值，此时完整的星型关联结构#2包含向量1、向量5和向量6，向量1和向量6作为中心对应的分支。

可选地，第N组向量对应完整的第N星型关联结构，完整的第二星型关联结构中任一分支与第二星型关联结构的中心的相似度小于或等于相似度阈值；或者，第N组向量所包含任意两个向量之间的相似度均大于相似度阈值。继续上述示例，剩下向量包含向量7到向量10，按照索引从小到大，电子设备先计算向量7与向量8的相似度，且该相似度小于相似度阈值，那么电子设备再计算向量8与向量9的相似度，且该相似度小于相似度阈值，电子设备再计算向量9与向量10的相似度，且该相似度小于相似度阈值，最终电子设备再计算向量10与向量8的相似度，且该相似度小于相似度阈值，换言之，虽然向量8到向量10不相似，但由于大部分向量都已按照相似度高进行分组，就算将不相似的向量分到同一组也不影响后续的整体的分析结果。并且，这样做的好处还在于能降低输入参数的尺寸，比如，若因为向量8到向量10不相似，而将其各自作为一组向量，则后续输入深度神经网络模型的有5组向量，但若采用上述方式，则后续输入深度神经网络模型的只有3组向量，输入参数的尺寸更小，可以降低对模型结构的要求。

可以看出，上述处理的核心思想是通过计算向量的相似度，将类似的至少两条数据拟合为一条数据，从而实现在保留特征的情况下，将数据缩容。

最后，电子设备将N组向量中每组向量所包含的至少两个向量拟合为一个特征向量，共拟合得到N个特征向量，N个特征向量即为待处理的特征向量集合，可以有两种方式实现。

方式1：针对N组向量中的第i组向量，i为遍历1至N的整数，电子设备确定第i组向量中每个向量各自所包含的K个比特的取值，确定第i组向量中所有向量在K个比特位中的同一比特位上的取值概率；针对N组向量中的第i组向量，电子设备根据第i组向量中所有向量在K个比特位中的同一比特位上的取值概率，确定一个K维的特征向量，K维的特征向量中K个比特位各自的取值为根据第i组向量中所有向量在K个比特位中的同一比特位上的取值概率确定。继续上述示例，假设K=6，以第1组向量为例，如向量2、向量3和向量4，向量2为110011、向量3为111110、向量4为011100。如此，对于3个向量，在6个比特位中，第1个比特位的取值分别为1/1/0，电子设备可以按照66.7%的概率选择第1个比特位的取值为1，按照33.3%的概率选择第1个比特位的取值为0，如选择取值为1。第2个比特位的取值分别为1/1/1，电子设备可以按照100%的概率选择第2个比特位的取值为1。第3个比特位的取值分别为0/1/1，电子设备可以按照66.7%的概率选择第3个比特位的取值为1，按照33.3%的概率选择第3个比特位的取值为0，如选择取值为1。第4个比特位的取值分别为1/1/0，电子设备可以按照66.7%的概率选择第1个比特位的取值为1，按照33.3%的概率选择第1个比特位的取值为0，如选择取值为1，以此类推，直至选择到第6个比特位，如取值为0，那么将向量2、向量3和向量4拟合得到的一个特征向量为111010。

方式2：针对N组向量中的第i组向量，i为遍历1至N的整数，第i组向量包含Pi个向量，Pi大于或等于2，电子设备确定将Pi个向量的取值合并（取值合并的顺序可以按照索引从小到大，或者从大到小），得到一个Pi×K维的特征向量。继续上述示例，假设K=6，以第1组向量为例，如向量2、向量3和向量4，向量2为110011、向量3为111110、向量4为011100。如此，按照索引从小到大，将向量2、向量3和向量4拟合得到的一个特征向量为110011111110011100。

可以看出，方式1实现了进一步缩容，进一步降低对模型的性能要求，而方式2则保留了完整的数据信息量，使得最终的分析结果可以不受影响。

S103，电子设备通过深度神经网络模型分析待处理的特征向量集合，得到分析结果。

对于工业生产场景，分析结果可以是整体评估/预估设备的状态，如产能增加多少或减少多少，产线异常的概率是多少。又比如，对于通信场景，分析结果可以是用户的移动性变化，如小区内的用户数目将要增加或减少多少。

可以理解，通过设置相似度阈值的取值大小，可以使得待处理的特征向量集合中特征向量的数目小于或等于深度神经网络模型对输入数据的尺寸要求，也即，深度神经网络模型对输入数据的尺寸要求大于或等于N。

可选地，针对上述方式1，S103的实现具体可以为：电子设备为待处理的特征向量集合中的每个特征向量添加噪声（如随机噪声，噪声可以是二进制的随机位串，长度可以为向量的1/3到1/4），得到包含噪声的特征向量集合；电子设备通过深度神经网络模型分析包含噪声的特征向量集合，得到分析结果，以实现在特征缩容的情况下，提供鲁棒性，避免分析结果被特征缩容影响过多。

综上，电子设备通过对待处理的数据集合进行向量拟合处理，使得拟合处理后的待处理的特征向量集合中的向量数目小于待处理的数据集合中的数据数目，也即，在保留数据特征的情况下降低数据量，可以实现在不影响深度神经网络模型的分析结果的情况下，降低处理开销，从而降低对深度神经网络模型的性能要求，提高适用性。

以上结合图1详细说明了本申请实施例提供的生成式数据分析方法。以下详细说明用于执行本申请实施例提供的生成式数据分析方法的基于人工智能的电商数据处理系统。

该系统包括电子设备，该系统被配置为：电子设备获取待处理的数据集合；电子设备对待处理的数据集合进行向量拟合处理，得到待处理的特征向量集合，其中，待处理的特征向量集合是待处理的数据集合的向量化表达，且待处理的特征向量集合中的向量数目小于待处理的数据集合中的数据数目；电子设备通过深度神经网络模型分析待处理的特征向量集合，得到分析结果。

图2为本申请实施例提供的电子设备的结构示意图。示例性地，该电子设备可以是终端设备，也可以是可设置于终端设备的芯片（系统）或其他部件或组件。如图2所示，电子设备400可以包括处理器401。可选地，电子设备400还可以包括存储器402和/或收发器403。其中，处理器401与存储器402和收发器403耦合，如可以通过通信总线连接。此外，电子设备400也可以是芯片，如包括处理器401，此时，收发器可以是芯片的输出输入接口。

下面结合图2电子设备400的各个构成部件进行具体的介绍：

其中，处理器401是电子设备400的控制中心，可以是一个处理器，也可以是多个处理元件的统称。例如，处理器401是一个或多个中央处理器（central processing unit，CPU），也可以是特定集成电路（application specific integrated circuit，ASIC），或者是被配置成实施本申请实施例的一个或多个集成电路，例如：一个或多个微处理器（digital signal processor，DSP），或，一个或者多个现场可编程门阵列（fieldprogrammable gate array，FPGA）。

可选地，处理器401可以通过运行或执行存储在存储器402内的软件程序，以及调用存储在存储器402内的数据，执行电子设备400的各种功能，例如执行上述图2所示的生成式数据分析方法。

在具体的实现中，作为一种实施例，处理器401可以包括一个或多个CPU，例如图2中所示出的CPU0和CPU1。

在具体实现中，作为一种实施例，电子设备400也可以包括多个处理器。这些处理器中的每一个可以是一个单核处理器（single-CPU），也可以是一个多核处理器（multi-CPU）。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据（例如计算机程序或指令）的处理核。

其中，所述存储器402用于存储执行本申请方案的软件程序，并由处理器401来控制执行，具体实现方式可以参考上述方法实施例，此处不再赘述。

可选地，存储器402可以是只读存储器（read-only memory，ROM）或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器（random access memory，RAM）或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器（electrically erasable programmable read-only memory，EEPROM）、只读光盘（compactdisc read-only memory，CD-ROM）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器402可以和处理器401集成在一起，也可以独立存在，并通过电子设备400的接口电路（图2中未示出）与处理器401耦合，本申请实施例对此不作具体限定。

收发器403，用于与其他电子设备之间的通信。例如，电子设备400为终端设备，收发器403可以用于与网络设备通信，或者与另一个终端设备通信。又例如，电子设备400为网络设备，收发器403可以用于与终端设备通信，或者与另一个网络设备通信。

可选地，收发器403可以包括接收器和发送器（图2中未单独示出）。其中，接收器用于实现接收功能，发送器用于实现发送功能。

可选地，收发器403可以和处理器401集成在一起，也可以独立存在，并通过电子设备400的接口电路（图2中未示出）与处理器401耦合，本申请实施例对此不作具体限定。

可以理解的是，图2中示出的电子设备400的结构并不构成对该电子设备的限定，实际的电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

此外，电子设备400的技术效果可以参考上述方法实施例所述的方法的技术效果，此处不再赘述。

应理解，在本申请实施例中的处理器可以是中央处理单元（central processingunit，CPU），该处理器还可以是其他通用处理器、数字信号处理器（digital signalprocessor，DSP）、专用集成电路（application specific integrated circuit，ASIC）、现成可编程门阵列（field programmable gate array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器（read-only memory，ROM）、可编程只读存储器（programmable ROM，PROM）、可擦除可编程只读存储器（erasable PROM，EPROM）、电可擦除可编程只读存储器（electrically EPROM，EEPROM）或闪存。易失性存储器可以是随机存取存储器（random access memory，RAM），其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器（random accessmemory，RAM）可用，例如静态随机存取存储器（static RAM，SRAM）、动态随机存取存储器（DRAM）、同步动态随机存取存储器（synchronous DRAM，SDRAM）、双倍数据速率同步动态随机存取存储器（double data rate SDRAM，DDR SDRAM）、增强型同步动态随机存取存储器（enhanced SDRAM，ESDRAM）、同步连接动态随机存取存储器（synchlink DRAM，SLDRAM）和直接内存总线随机存取存储器（direct rambus RAM，DR RAM）。

上述实施例，可以全部或部分地通过软件、硬件（如电路）、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机程序或指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机程序或指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质（例如，软盘、硬盘、磁带）、光介质（例如，DVD）、或者半导体介质。半导体介质可以是固态硬盘。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A,B可以是单数或者复数。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系，但也可能表示的是一种“和/或”的关系，具体可参考前后文进行理解。

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项（个）或复数项（个）的任意组合。例如，a,b,或c中的至少一项（个），可以表示：a, b, c, a-b, a-c, b-c, 或a-b-c，其中a,b,c可以是单个，也可以是多个。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种生成式数据分析方法，其特征在于，应用于电子设备，所述方法包括：

所述电子设备获取待处理的数据集合；对于通信场景，所述待处理的数据集合包括一段时间内不同时刻的不同用户的位置；

所述电子设备对所述待处理的数据集合进行向量拟合处理，得到待处理的特征向量集合，其中，所述待处理的特征向量集合是所述待处理的数据集合的向量化表达，且所述待处理的特征向量集合中的向量数目小于所述待处理的数据集合中的数据数目；

所述电子设备通过深度神经网络模型分析所述待处理的特征向量集合，得到分析结果；对于通信场景，所述分析结果为用户的移动性变化；

所述电子设备对所述待处理的数据集合进行向量拟合处理，得到待处理的特征向量集合，包括：

所述电子设备将所述待处理的数据集合中的数据转换为向量，得到待处理的向量集合；

所述电子设备将所述待处理的向量集中的相似向量拟合为特征向量，得到所述待处理的特征向量集合；

所述电子设备将所述待处理的数据集合中的数据转换为向量，得到待处理的向量集合，包括：

所述电子设备对所述待处理的数据集合中的M条数据分别进行独热编码，得到M个向量，所述M个向量即为所述待处理的向量集合，所述M个向量中的每个向量均为二进制的K维向量，M为大于1的整数，K为大于1的整数；

所述电子设备将所述待处理的向量集中的相似向量拟合为特征向量，得到所述待处理的特征向量集合，包括：

所述电子设备通过计算所述M个向量中每两个向量之间的相似度，将满足星型关联结构且相似度小于或等于相似度阈值的至少两个向量确定为一组向量，共得到N组向量，N为大于或等于1且小于M的整数；

所述电子设备将所述N组向量中每组向量所包含的至少两个向量拟合为一个特征向量，共拟合得到N个特征向量，所述N个特征向量即为所述待处理的特征向量集合；

所述电子设备通过计算所述M个向量中每两个向量之间的相似度，将满足星型关联结构且相似度小于或等于相似度阈值的至少两个向量确定为一组向量，共得到N组向量，包括：

所述电子设备按所述M个向量的索引计算所述M个向量中每两个向量之间的相似度；在此基础上，若所述电子设备第一次确定有第一向量与第二向量之间的相似度小于或等于所述相似度阈值，则将所述第一向量确定为第一星型关联结构的中心，用以计算所述第一星型关联结构的中心与其他所有未与所述第一向量计算过相似度的向量之间的相似度，从而将相似度小于或等于所述相似度阈值的至少一个第三向量分别确定为所述第一星型关联结构的分支，得到完整的所述第一星型关联结构，完整的所述第一星型关联结构所包含的所述第一向量以及所述至少一个第三向量作为第一组向量；

之后，所述电子设备按所述M个向量的索引，开始计算所述M个向量中除所述第一组向量以外的每两个向量之间的相似度；在此基础上，若所述电子设备第二次确定有第四向量与第五向量之间的相似度小于或等于所述相似度阈值，则将所述第四向量确定为第二星型关联结构的中心，用以计算所述第一星型关联结构的中心与其他所有未与所述第一向量计算过相似度的向量之间的相似度，从而将相似度小于或等于所述相似度阈值的至少一个第六向量分别确定为所述第二星型关联结构的分支，得到完整的所述第二星型关联结构，完整的所述第二星型关联结构所包含的所述第四向量以及所述至少一个第六向量作为第二组向量，以此类推，直至确定第N组向量。

2.根据权利要求1所述的方法，其特征在于，所述第N组向量对应完整的第N星型关联结构，完整的所述第二星型关联结构中任一分支与所述第二星型关联结构的中心的相似度小于或等于所述相似度阈值；或者，所述第N组向量所包含任意两个向量之间的相似度均大于所述相似度阈值。

3.根据权利要求1或2所述的方法，其特征在于，所述电子设备将所述N组向量中每组向量所包含的至少两个向量拟合为一个特征向量，共拟合得到N个特征向量，包括：

针对所述N组向量中的第i组向量，i为遍历1至N的整数，所述电子设备确定所述第i组向量中每个向量各自所包含的K个比特的取值，确定所述第i组向量中所有向量在K个比特位中的同一比特位上的取值概率；

针对所述N组向量中的第i组向量，所述电子设备根据所述第i组向量中所有向量在K个比特位中的同一比特位上的取值概率，确定一个K维的特征向量，所述K维的特征向量中K个比特位各自的取值为根据所述第i组向量中所有向量在K个比特位中的同一比特位上的取值概率确定。

4.根据权利要求3所述的方法，其特征在于，所述电子设备通过深度神经网络模型分析所述待处理的特征向量集合，得到分析结果，包括：

所述电子设备为所述待处理的特征向量集合中的每个特征向量添加噪声，得到包含噪声的特征向量集合；

所述电子设备通过所述深度神经网络模型分析所述包含噪声的特征向量集合，得到所述分析结果。

5.根据权利要求1或2所述的方法，其特征在于，所述电子设备将所述N组向量中每组向量所包含的至少两个向量拟合为一个特征向量，共拟合得到N个特征向量，包括：

针对所述N组向量中的第i组向量，i为遍历1至N的整数，所述第i组向量包含Pi个向量，Pi大于或等于2，所述电子设备确定将所述Pi个向量的取值合并，得到一个Pi*K维的特征向量。

6.一种生成式数据分析系统，其特征在于，所述系统包括电子设备，所述系统被配置为：