CN116822577A - 一种数据生成系统、方法、介质及设备 - Google Patents
一种数据生成系统、方法、介质及设备 Download PDFInfo
- Publication number
- CN116822577A CN116822577A CN202310620107.5A CN202310620107A CN116822577A CN 116822577 A CN116822577 A CN 116822577A CN 202310620107 A CN202310620107 A CN 202310620107A CN 116822577 A CN116822577 A CN 116822577A
- Authority
- CN
- China
- Prior art keywords
- data
- layer
- present disclosure
- model
- sensor data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 230000007704 transition Effects 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 33
- 230000004927 fusion Effects 0.000 claims abstract description 16
- 230000003542 behavioural effect Effects 0.000 claims abstract description 8
- 230000003042 antagnostic effect Effects 0.000 claims abstract description 6
- 230000015654 memory Effects 0.000 claims description 39
- 230000006870 function Effects 0.000 claims description 27
- 230000006399 behavior Effects 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 19
- 238000003860 storage Methods 0.000 claims description 18
- 230000004913 activation Effects 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 4
- 230000008520 organization Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000006872 improvement Effects 0.000 abstract description 2
- 238000012546 transfer Methods 0.000 abstract description 2
- 230000009471 action Effects 0.000 description 25
- 238000010276 construction Methods 0.000 description 7
- 238000009826 distribution Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 230000001133 acceleration Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 239000004065 semiconductor Substances 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 241000209504 Poaceae Species 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000013145 classification model Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000011423 initialization method Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000003306 harvesting Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000004886 process control Methods 0.000 description 1
- 230000000276 sedentary effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及一种对抗网络和行为事理图谱融合的传感器数据生成系统、方法、介质及设备,所述系统包括:由鉴别器和生成器组成的对抗生成网络;其中,生成器由变分自编码器和解码器组成;鉴别器,用于通过训练来区分生成器在输入随机噪声时产生的样本和从真实数据集中提取的样本;状态转移模块,用于构建参考事理图谱的马尔科夫链为不同角色生成状态转移模板。本公开提出的系统和方法在准确率和多样性方面有显著改进。同时,通过事理图谱生成的状态转移模板,本公开创造性地生成了长效性、连续性、符合事理图谱逻辑的虚拟身份个性化传感器数据集,并且可以良好地反映用户的行为特征。
Description
技术领域
本公开涉及深度学习技术领域,更为具体来说,本公开涉及一种数据生成系统、方法、介质及设备。
背景技术
生成对抗网络和变分自编码器等生成模型已被证实可以生成高仿真的合成数据,并且在文本、图像、音频等领域取得了令人难以置信的效果。然而,到目前为止并没有一种成熟的方法用来生成移动终端的传感器数据。这是因为传感器产生的数据是高维度、高复杂度的,包含了大量的噪声和变化,这使得生成模型很难从这些数据中学习到真实的分布。此外,不同的用户采集同种动作的传感器数据也会存在不同的特征,这就给如何生成细粒度的传感器数据带来更大的挑战。为了解决上述问题,本公开提出了一种生成对抗网络和行为事理图谱融合的个性化传感器数据生成系统,该方案创造性地引入了事理图谱,旨在利用源自事理图谱的事理逻辑和时序关系,降低个性化传感器数据集中不符合事理逻辑情况的出现概率,进而提升用户行为传感器数据生成的准确率。
发明内容
为解决现有技术的没有一种成熟的方法用来生成移动终端的传感器数据的技术问题。
为实现上述技术目的,本公开提供了一种对抗网络和行为事理图谱融合的传感器数据生成系统,包括:
由鉴别器和生成器组成的对抗生成网络;
其中,
生成器由变分自编码器和解码器组成;
鉴别器,用于通过训练来区分生成器在输入随机噪声时产生的样本和从真实数据集中提取的样本;
状态转移模块,用于构建参考事理图谱的马尔科夫链为不同角色生成状态转移模板。
进一步,所述状态转移模块具体包括:
构建模式层和数据层;
其中,模式层是对实体概念、属性以及实体间关系进行描述的组织框架;
数据层用于对用户个性化传感器领域知识进行实体、关系抽取。
进一步,所述模式层具体包括:
实体类型定义单元、属性类型定义单元和实体关系定义单元;
所述数据层具体包括:
存储单元用于知识的存储和查询;
抽取单元用于实体抽取和关系抽取;
创建单元用于构建传感器领域角色、标签和/或关键词;
其中,所述模式层和数据层之间的各模块之间具有关联映射关系。
进一步,所述鉴别器具体包括:
四个一维卷积层,每个所述卷积层都使用了64个滤波器,算子尺寸设定为3;
激活函数为ReLU函数;
填充方式为same;
一个Flatten层用于将卷积层的输出展平,
一个dropout层用于减少过拟合;
一个BatchNormalization层用于加速训练过程;
两个全连接层,其中第一个全连接层有256个节点,激活函数为ReLU,第二个全连接层的节点数量则由数据集的实际类别数量决定,激活函数使用softmax。
进一步,所述变分自编码器和解码器包括:
一个RNN编码器和一个RNN解码器;
RNN编码器将输入x编码为潜在空间向量z,同时返回z的均值和方差,用于计算KL散度;
RNN解码器接受潜在空间向量z和标签y作为输入,并生成重构输出。
为实现上述技术目的,本公开还能够提供一种对抗网络和行为事理图谱融合的传感器数据生成方法,应用于上述的对抗网络和行为事理图谱融合的传感器数据生成系统中,包括:
利用辅助分类器评价样本条件标签的函数计算生成模型和辅助模型在最大序列长度条件下的采样准确率,将结果存储;
使用生成模型对固定的采样标签和固定的噪声向量进行采样,得到最大序列长度的生成样本,将结果存储;
将训练过程中的各种参数和模型保存到文件中,以备后续使用。
进一步,所述方法还包括:
通过使用循环来迭代训练数据中的每个批次;对于每个批次,使用梯度带来计算模型的预测值、重构损失和KL散度损失,并使用这些值来计算总损失。
进一步,所述方法还包括:
计算梯度并将其应用于模型的可训练变量上;
在训练过程中,还跟踪了重构损失和KL散度损失的平均值,并在每个批次结束时更新它们。
为实现上述技术目的,本公开还能够提供一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时用于实现上述的对抗网络和行为事理图谱融合的传感器数据生成的方法的步骤。
为实现上述技术目的,本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的对抗网络和行为事理图谱融合的传感器数据生成的方法的步骤。
本公开的有益效果为:
本公开提出的系统和方法在准确率和多样性方面有显著改进。同时,通过事理图谱生成的状态转移模板,本公开创造性地生成了长效性、连续性、符合事理图谱逻辑的虚拟身份个性化传感器数据集,并且可以良好地反映用户的行为特征。
附图说明
图1示出了本公开的实施例1的系统的结构示意图;
图2示出了本公开的实施例1的系统的用户个性化传感器领域事理图谱的构建过程示意图;
图3示出了本公开的实施例1的系统的生成对抗网络结构;
图4示出了本公开的实施例1的系统的鉴别器结构;
图5示出了本公开的实施例1的系统的编码器结构;
图6示出了本公开的实施例1的系统的解码器结构;
图7示出了权重改变曲线;
图8示出了本公开的实施例2的走路动作真实数据示意图;
图9示出了本公开的实施例2的走路动作生成数据示意图;
图10示出了本公开的实施例2的静坐生成数据示意图;
图11示出了本公开的实施例2的走路动作生成数据示意图;
图12示出了用户角色“本科生”相关节点以及关系构成的事理图谱;
图13示出了查询角色“本科生”,标签为“考研”和“普通人”对应事理图谱包含的关键词;
图14示出了本公开的实施例2的用户行为特征传感器数据;
图15示出了本公开的实施例2的流程示意图;
图16示出了本公开的实施例4的结构示意图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在附图中示出了根据本公开实施例的各种结构示意图。这些图并非是按比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些细节。图中所示的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
马尔可夫链为状态空间中经过从一个状态到另一个状态的转换的随机过程,该过程要求具备“无记忆性”,即下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关。这种特定类型的“无记忆性”称作马尔可夫性质。通过马尔可夫链的模型转换,本公开可以将事件的状态转换成概率矩阵。对于马尔可夫链的转移概率矩阵,张二艳等提出了用应用统计方法进行估计;李成燮和李永立分别利用线性方程组和非线性优化法进行估计;文士发等通过构造优化模型并将其转化为线性规划模型来进行估计;聂笃忠等介绍了一种迭代求解方法来确定状态概率转移矩阵。本公开采用了应用统计方法进行状态转移矩阵的构建。
知识图谱(Knowledge Graph)是一种典型的结构化知识表示形式,由实体、关系和语义描述组成,其起源于语义网络(Semantic Network),并由Google公司于2012年首次提出知识图谱的概念,近年来在构建知识图谱和基于知识图谱的应用等领域都取得了显著的进展。传统模式的知识图谱大多以实体为中心,无法满足对复杂时间多样化进行描述的需求,因此,需要将事件作为中心,并结合事件相关语义特征去构建知识图谱。事理图谱本质上也是(实体、关系、实体)三元组的集合,可以表现为由节点和边组成的语义网络图,具有潜在的丰富语义关系、灵活的语义内容和复杂的语义关联,同时由于其特有的事理关系,因此可以为传感器数据生成算法提供潜在的辅助信息来源。
事理图谱是由多个实体与实体间的连接关系组合而成,两个相距较远的实体会通过一条包含多个关系的长路径相连,这条长路径中隐含了非常多的语义信息。
生成对抗网络(GAN)是一种深度学习模型,通过训练两个神经网络——生成器和判别器,来生成逼真的数据。生成器从一个随机分布中产生数据,判别器将这些数据与真实数据混合在一起,然后判断哪些数据是真实的,哪些是虚假的。生成器的目标是生成越来越逼真的数据,而判别器的目标是尽可能准确地区分真实数据和虚假数据。在训练过程中,生成器和判别器不断对抗、学习和优化,最终生成器能够生成和真实数据类似的数据。
除了生成对抗网络以外,变分自编码器(VAE)是另一个用于训练生成模型的先进框架。VAE是一种基于神经网络的概率生成模型,它可以学习数据的潜在表示,并且可以用这个潜在表示来生成新的数据。VAE与自动编码器相似,它利用自动编码器的结构来学习数据的潜在表示,但是它还加入了一个隐变量,来表示数据的随机特征。此外,VAE使用了一种变分推断的方法,来学习数据的潜在表示。它将编码器和解码器结合在一起,通过最小化重构误差来学习数据的潜在表示,同时还通过最小化KL散度,来使潜在表示更加具有一定的随机性。
不过,与图像生成、音频生成等领域收获的巨大成功相比,生成高质量的个性化传感器数据集取得的进展要少的多,通过生成对抗网络及变分自编码器生成传感器数据的研究仍有很大的发展空间。而本公开提出的方案引入了事理图谱作为辅助信息,通过马尔科夫链借助事理图谱生成状态转移模板,再通过状态转移模板将生成的单个动作传感器数据拼接成用户一天的行为数据,进而可以更好地提升个性化用户行为传感器数据生成的准确率。
实施例一:
如图1所示:
本公开提供了一种对抗网络和行为事理图谱融合的传感器数据生成系统,包括:
由鉴别器和生成器组成的对抗生成网络;
其中,
生成器由变分自编码器和解码器组成;
鉴别器,用于通过训练来区分生成器在输入随机噪声时产生的样本和从真实数据集中提取的样本;
状态转移模块,用于构建参考事理图谱的马尔科夫链为不同角色生成状态转移模板。
进一步,所述状态转移模块具体包括:
构建模式层和数据层;
其中,模式层是对实体概念、属性以及实体间关系进行描述的组织框架;
数据层用于对用户个性化传感器领域知识进行实体、关系抽取。
进一步,所述模式层具体包括:
实体类型定义单元、属性类型定义单元和实体关系定义单元;
所述数据层具体包括:
存储单元用于知识的存储和查询;
抽取单元用于实体抽取和关系抽取;
创建单元用于构建传感器领域角色、标签和/或关键词;
其中,所述模式层和数据层之间的各模块之间具有关联映射关系。
进一步,所述鉴别器具体包括:
四个一维卷积层,每个所述卷积层都使用了64个滤波器,算子尺寸设定为3;
激活函数为ReLU函数;
填充方式为same;
一个Flatten层用于将卷积层的输出展平,
一个dropout层用于减少过拟合;
一个BatchNormalization层用于加速训练过程;
两个全连接层,其中第一个全连接层有256个节点,激活函数为ReLU,第二个全连接层的节点数量则由数据集的实际类别数量决定,激活函数使用softmax。
进一步,所述变分自编码器和解码器包括:
一个RNN编码器和一个RNN解码器;
RNN编码器将输入x编码为潜在空间向量z,同时返回z的均值和方差,用于计算KL散度;
RNN解码器接受潜在空间向量z和标签y作为输入,并生成重构输出。
为生成以天为单位的用户个性化行为传感器数据,需要利用事理图谱和马尔可夫链生成对应角色和标签的状态转移模板。
用户个性化传感器领域事理图谱的构建包括模式层构建和数据层构建。模式层是对实体概念、属性以及实体间关系进行描述的组织框架。数据层构建即选择合适方法对用户个性化传感器领域知识进行实体、关系抽取。数据层中的实体和关系按照模式层预设方式进行关联映射,从而得到用户个性化传感器领域事理图谱。模型层和数据层分别采用自顶向下和自底向上的方式构建。模式层构建从统计获得到的用户个性化传感器半结构化和非结构化数据提取出对应的实体和属性,包括角色、便签和关键词三层实体节点,从而实现事理图谱的构建。事理图谱可用G=(E,R,S)表示。其中,E={e1,e2,...}表示知识库中的实体集合,R={s1,s2,...}表示关系集合,表示“节点-关系-节点”三元组知识集合。数据层构建即在模式层组织框架指导下,从统计到的包含角色、标签和关键词在内的文本中提取出所需实体及关系。
马尔可夫链作为一种特殊的概率模式,其研究对象为一个运行系统的状态和状态转移。人的活动过程可以抽象成状态转移过程,所以本公开选择利用马尔可夫链方法来研究一个人日常活动的状态变化,并且使用应用统计方法构建状态转移矩阵。
假设预测对象有Xi(i=1,2,......,n)个状态,在采集的数据中,处于状态Xi的总数据量为ai,由状态Xi转到Xj的数据量为aij,满足那么由状态Xi转到Xj的转移频率为/>由概率论知识可知,当状态概率的理论分布未知时,若样本容量足够大,可以用样本分布近似地描述状态的理论分布。因此,对于未知的转移概率,可以用转移频率来近似地估计转移概率。所以,由状态Xi转到Xj的转移概率的估计值为/>经过数据采集,将一个角色的各个状态相互转移的概率排成表格,就得到了一步转移概率矩阵的估计值,如式3-1所示。
其中第i行表示行为状态Xi的转移概率向量。
马尔可夫链预测模型公式如式3-2所示:
μn+1=μnP (3-2);
其中μn是预测对象在时段n的概率向量,P为转移概率矩阵,μn+1是预测对象在时段n+1的概率向量,即预测结果。由于μ2=μ1P,所以也可以推导出公式3-3:
μn+1=μ1Pn+1 (3-3);
其中μ1为预测对象的初始状态向量,P为转移概率矩阵。利用公式3-2或3-3就可以进行状态的预测,从而得到一个角色一天的状态转移流程。
生成对抗网络及变分自编码器已经被证明能够有效的生成多模态数据,然而对于移动终端三轴传感器数据生成的研究目前还相对较少,本公开在现有研究的基础上,利用改进后的生成对抗网络与变分自编码器结合的模型,降低了生成对抗网络模式崩溃、模式塌缩问题发生的可能性,从而提高模型整体的稳定性。变分自编码器可以将数据从高维度空间映射到潜在空间,而生成对抗网络可以从潜在空间中生成数据,这种结合可以提高数据降维的能力。为了进一步提升模型生成数据的准确性与真实性,本公开设计了一种面向多种行为动作的高准确率深度学习分类模型,并将其作为生成对抗网络的鉴别器用于模型训练。图3展示了本公开所提出的数据生成模型的整体架构,主要由变分自编码器模块与鉴别器模块组成,变分自编码器模块又由编码器(Encoder)和解码器(Decoder)组成。
本公开设计的辅助分类器模型包含四个一维卷积层,每个卷积层都使用了64个filters,kernel_size设定为3,激活函数为ReLU函数,padding方式为same。接着使用了一个Flatten层将卷积层的输出展平,然后使用了一个dropout层和一个BatchNormalization层。其中dropout层用于减少过拟合,BatchNormalization层用于加速训练过程,使得模型更具鲁棒性,可以更好地适应不同的数据。模型的最后使用了两个全连接层,其中第一个全连接层有256个节点,激活函数为ReLU,第二个全连接层的节点数量则由数据集的实际类别数量决定,激活函数使用softmax。
鉴别器的结构与分类器基本一致,唯一不同的地方在于鉴别器的分类结果为n+1类,其中n为待分类的动作数量,多出的类别称为“假”类或者“生成”类。这样设计的目的是为了让鉴别器有更多的信息可以学习,从而提高其区分真假数据的准确性,进而提高生成对抗网络的训练效果[8]。鉴别器模型结构如图4所示。
本公开设计的生成器定义了一个变分自编码器类,其中包括一个RNN编码器和一个RNN解码器。RNN编码器将输入x编码为潜在空间向量z,同时返回z的均值和方差,用于计算KL散度。RNN解码器接受潜在空间向量z和标签y作为输入,并生成重构输出。最后,类的方法返回重构输出、均值和方差。下面将具体阐述RNN编码器和RNN解码器的实现过程:
RNN编码器结构如图3-5所示,其主要作用是将输入序列x编码成一个定长向量z,并且计算出z的均值和方差。具体而言,该编码器包括以下组件:
(1)初始化方法:方法中定义了一些超参数(如rnn单元数量、反馈方向),以及GRU层和两个全连接层,分别用于求均值和方差。
(2)重参数化方法:实现了重参数化技巧。该技巧将高斯分布的随机噪声ε通过学习到的均值μ和标准差参数σ转换成一个新的编码向量z,即z=μ+ε*σ,σ∈N(0,1)
通过这种方式可以保持解耦性和可微性,并且有助于提高训练稳定性。
(3)核心方法:它接收一个输入张量(三维张量),并返回编码向量z、均值向量和方差向量。在执行过程中,它首先使用GRU层处理输入x,然后提取最后一个时间步的输出h,再分别通过全连接层得到均值向量和方差向量,最后调用重参数化方法得到最终的编码向量z。
RNN解码器的结构如图3-6所示,其主要作用是将一个定长向量z和标签序列y解码成一个长度为时间步数max_len的序列x。
具体而言,解码器包括以下几个组件:
(1)初始化方法:方法中定义了一些超参数(如rnn单元数量、特征数量、标签数量),以及三层GRU层和一个全连接层。
(2)核心方法:它接收当前时间步的输入向量x、隐藏状态hidden和标签序列y,并返回当前时间步的输出向量output和更新后的隐藏状态new_hidden。在执行过程中,它首先对标签序列y进行词嵌入操作,然后将嵌入向量yemb与输入向量x按最后一维拼接起来得到新的输入张量rnn_input。接下来,利用三层GRU层分别处理rnn_input和前一层的隐状态,并将最后一层的输出通过全连接层映射到期望的输出向量维度。最后,将每个时间步的隐状态按顺序排列起来得到新的隐藏状态new_hidden。需要注意的是,由于GRU层是有状态的网络层,因此需要将前一时刻的隐藏状态作为本时刻的输入,这也是为什么在方法中需要传入hidden参数的原因。
实施例二:
为了解决上述技术问题,如图15所示:
本公开还能提供一种对抗网络和行为事理图谱融合的传感器数据生成方法,应用于上述的对抗网络和行为事理图谱融合的传感器数据生成系统中,包括:
利用辅助分类器评价样本条件标签的函数计算生成模型和辅助模型在最大序列长度条件下的采样准确率,将结果存储;
使用生成模型对固定的采样标签和固定的噪声向量进行采样,得到最大序列长度的生成样本,将结果存储;
将训练过程中的各种参数和模型保存到文件中,以备后续使用。
进一步,所述方法还包括:
通过使用循环来迭代训练数据中的每个批次;对于每个批次,使用梯度带来计算模型的预测值、重构损失和KL散度损失,并使用这些值来计算总损失。
进一步,所述方法还包括:
计算梯度并将其应用于模型的可训练变量上;
在训练过程中,还跟踪了重构损失和KL散度损失的平均值,并在每个批次结束时更新它们。
首先,利用辅助分类器评价样本条件标签的evaluate函数计算生成模型g_model和辅助模型aux_model在最大序列长度为max_len的条件下的采样准确率,将结果存储在变量sampling_acc中。然后,使用生成模型g_model对固定的采样标签labels和固定的噪声向量sampling_z进行采样,得到最大序列长度为max_len的生成样本,将结果存储在变量test_samples中。最后,将训练过程中的各种参数和模型保存到文件中,以备后续使用。其中,需要调整的各种参数包括训练的数据批处理大小batch_size,训练的轮次num_epoch,隐空间噪声维度z_dim,预训练轮次pre_train_epoch,RNN单元的个数num_units和学习率learning_rate。
在训练过程中,通过使用循环来迭代训练数据中的每个批次。对于每个批次,使用梯度带来计算模型的预测值、重构损失和KL散度损失,并使用这些值来计算总损失。然后,计算梯度并将其应用于模型的可训练变量上。在训练过程中,还跟踪了重构损失和KL散度损失的平均值,并在每个批次结束时更新它们。最后,方法将返回重构损失和KL散度损失的平均值。本公开还在训练时引入了逆sigmoid衰减方法,以此逐渐调整重构损失和KL散度损失在总损失中的权重占比。在训练前期,本公开增大重构损失的权重,使得模型增加对原数据细节的学习能力;在训练后期,本公开增大KL散度损失的权重,使得模型增大数据的类内差异,提高生成的多样性。如图7所示,权重的改变曲线符合逆sigmoid函数,体现了模型对抗的思想。
为了评估模型的有效性,本公开主要从以下三个方面进行考虑与评测。首先是视觉评估,通过生成器生成的传感器数据图像应该在外观上看起来逼真(例如传感器数据的最值相似、取值范围相似等),以至于第三方通过观察很难将其与训练样本中采样的真实数据区分开来。其次,生成数据还应该模仿与真实数据相同的显著特征。因此,任何在合成数据上计算的分析函数都应该返回一个接近于在真实数据上计算的同一函数的返回值。例如,在真实数据集上训练的深度学习分类模型,在使用来自生成器生成的样本进行测试时,应该能得到良好的准确性。最后,模型应具备生成个性化数据的能力,即避免生成不同用户的同一类动作数据相似而被检测为虚假用户数据。因此,本公开提出通过计算同一类动作下不同数据的DTW距离(Dynamic TimeWarping distance)来衡量数据间的相似程度。
除此之外,实验还展示了依据事理图谱和马尔科夫链生成的状态转移模板,并根据模板生成了不同角色的个性化行为特征传感器数据。
视觉评估
视觉评估主要包含两个方面,一是同种动作的生成数据与真实数据的对比,二是生成的不同动作数据之间的对比。如图8和图9所示。三个子图由上到下依次为加速度传感器波形、角速度传感器波形和方向传感器波形,蓝、红、黄三种颜色代表x轴、y轴、z轴的数据。从视觉上可以看出,生成的传感器数据符合真实数据的一般规律,数据均值、最大值、最小值、取值范围等特征也与真实数据大致相同。
生成的不同动作传感器数据如图10和图11所示。从视觉上可以看出,对于不同类型的动作,模型作出了很好的区分,两者的图形特征明显不同。坐处于静止状态,加速度传感器、角速度传感器、方向传感器的变化幅度均十分微小,且加速度传感器的z轴数据(图中黄线)接近重力加速度9.8m/s2,符合客观规律。而人在走路时加速度传感器、角速度传感器和方向传感器的数据会随着移动发生变化,生成的数据也符合这一客观规律。
分类准确度评估
本公开提出的生成系统支持上楼、下楼、站立、坐、跑步、走路、跳跃、打游戏、打电话9类动作。由于目前HAR领域的公开数据集如UCI HAR Dataset、HAPT Dataset、ADLDataset等数据集所使用的传感器数量较少,与本公开的需求不太相符。因此,本实验所使用的传感器数据集由50名学生和老师通过本公开自主研发的APP采集而成,包含上述9类动作的加速度传感器、角速度传感器和方向传感器的数据。为了提高生成数据分类的准确率,本公开在第三章提出的分类模型的基础上增加了0.99的阈值设定。生成数据与真实数据的分类准确度(accuracy)如表1所示。
表1真实数据与生成数据的分类准确度
可以看到,模型生成的三种传感器的模拟数据在行为动作识别任务下的准确率达到90%及以上,该准确度也与对应的真实数据十分接近,因此证实本公开模型生成的数据可以很好地模拟真实数据的特征。
个性化评估
DTW(Dynamic Time Warping,动态时间规整)是一种用于计算两个时间序列之间相似性的方法。它可以找到两个时间序列数据之间的最佳匹配,并返回一个距离值作为相似度依据。因此,DTW距离可以用于衡量两个序列之间的个性化差异。DTW距离越大,则两个动作间的个性化差异越明显。
为了比较模型生成数据的多样性与真实数据间的多样性,本公开选取了跑步、走路、上楼、下楼四种非静止状态下的动作,并计算不同用户间真实数据的值,和对应的用户生成数据的DTW距离。随后本公开将DTW距离除以数据长度进行归一化,再除以传感器的特征数量得到最终结果,以此来代表该动作的多样性评分。评分结果如表2所示:
表2生成数据的多样性评分
可以看到,生成数据在上楼、下楼、走路三种动作上的多样性评分与真实数据接近,而跑步动作的评分远大于真实数据。这证明了本公开生成的不同用户的数据彼此间存在着明显的差异性,符合真实生活中的规律。
个性化行为数据生成
本公开共形成包含了用户10种角色、31个标签和58个关键词的用户个性化传感器领域事理图谱,如图12所示为以用户角色“本科生”为例,其相关节点以及关系的创建结果。
为与马尔可夫链配合,需利用Cypher查询语句,针对设定的用户角色和标签,查询到对应的个性化行为传感器关键词,进而与与马尔可夫链中不同角色日常活动的状态进行对应。如查询角色“本科生”,标签为“考研”和“普通人”对应的个性化行为传感器关键词,查询语句如下:
MATCH(na{name:'本科生'})-[re1]->(nb{name:'考研'})-[re2]->(nc:`关键词`)with na,re1,nb,re2,nc MATCH(na)-[re3]->(nd{name:'普通人'})-[re4]->(ne:`关键词`)RETURNna,re1,re2,nb,nc,re3,re4,nd,ne
查询结果如图13所示:
通过马尔科夫链,本公开生成了10种角色的日常行为传感器数据,为不同角色设定了若干状态。具体状态如表3所示:
表3 10种角色和对应状态
在传感器数据生成领域,绝大多数的研究只是关注于单个动作的生成与识别,而没有考虑根据不同的角色,生成长时间的、包含多种动作的综合性个性化数据。本实验在设计的10种角色的状态转移模板的基础上,通过调用生成的不同角色的单一种类动作数据,组合成符合角色特征的长时间传感器数据。
本公开生成的状态转移模板样例如下:
{'6-7':{'吃饭':[('走路',946),('上楼',23),('坐下',1600),('起立',1),('走路',45),('下楼',33),('走路',945)]}
该模板包含了状态发生的时间段(早上6-7点)、状态名称(吃饭)、实现该状态所涉及的动作和对应时间。本公开通过提取相应的键值对得到动作和时间,并调用该角色已生成的动作数据逐一拼接起来,得到最终该用户的传感器数据。实现效果如图14所示:
这样,本公开便可以根据不同的状态转移模板生成不同用户行为特征、不同时间长度的个性化传感器数据。
由于数据量较大,因此用图像展示的效果不太美观,本公开后续也会改善可视化的方法。此外,目前不同动作之间的衔接不太平滑,这与真实数据不同动作间的过渡会存在些许差异,这也是本公开未来要改善的地方。
实施例三:
本公开还能够提供一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时用于实现上述的对抗网络和行为事理图谱融合的传感器数据生成的方法的步骤。
本公开的计算机存储介质可以采用半导体存储器、磁芯存储器、磁鼓存储器或磁盘存储器实现。
半导体存储器,主要用于计算机的半导体存储元件主要有Mos和双极型两种。Mos元件集成度高、工艺简单但速度较慢。双极型元件工艺复杂、功耗大、集成度低但速度快。NMos和CMos问世后,使Mos存储器在半导体存储器中开始占主要地位。NMos速度快,如英特尔公司的1K位静态随机存储器的存取时间为45ns。而CMos耗电省,4K位的CMos静态存储器存取时间为300ns。上述半导体存储器都是随机存取存储器(RAM),即在工作过程中可随机进行读出和写入新内容。而半导体只读存储器(ROM)在工作过程中可随机读出但不能写入,它用来存放已固化好的程序和数据。ROM又分为不可改写的熔断丝式只读存储器──PROM和可改写的只读存储器EPROM两种。
磁芯存储器,具有成本低,可靠性高的特点,且有20多年的实际使用经验。70年代中期以前广泛使用磁芯存储器作为主存储器。其存储容量可达10位以上,存取时间最快为300ns。国际上典型的磁芯存储器容量为4MS~8MB,存取周期为1.0~1.5μs。在半导体存储快速发展取代磁芯存储器作为主存储器的位置之后,磁芯存储器仍然可以作为大容量扩充存储器而得到应用。
磁鼓存储器,一种磁记录的外存储器。由于其信息存取速度快,工作稳定可靠,虽然其容量较小,正逐渐被磁盘存储器所取代,但仍被用作实时过程控制计算机和中、大型计算机的外存储器。为了适应小型和微型计算机的需要,出现了超小型磁鼓,其体积小、重量轻、可靠性高、使用方便。
磁盘存储器,一种磁记录的外存储器。它兼有磁鼓和磁带存储器的优点,即其存储容量较磁鼓容量大,而存取速度则较磁带存储器快,又可脱机贮存,因此在各种计算机系统中磁盘被广泛用作大容量的外存储器。磁盘一般分为硬磁盘和软磁盘存储器两大类。
硬磁盘存储器的品种很多。从结构上,分可换式和固定式两种。可换式磁盘盘片可调换,固定式磁盘盘片是固定的。可换式和固定式磁盘都有多片组合和单片结构两种,又都可分为固定磁头型和活动磁头型。固定磁头型磁盘的容量较小,记录密度低存取速度高,但造价高。活动磁头型磁盘记录密度高(可达1000~6250位/英寸),因而容量大,但存取速度相对固定磁头磁盘低。磁盘产品的存储容量可达几百兆字节,位密度为每英寸6 250位,道密度为每英寸475道。其中多片可换磁盘存储器由于盘组可以更换,具有很大的脱体容量,而且容量大,速度高,可存储大容量情报资料,在联机情报检索系统、数据库管理系统中得到广泛应用。
实施例四:
本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的对抗网络和行为事理图谱融合的传感器数据生成的方法的步骤。
图16为一个实施例中电子设备的内部结构示意图。如图16所示,该电子设备包括通过系统总线连接的处理器、存储介质、存储器和网络接口。其中,该计算机设备的存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种对抗网络和行为事理图谱融合的传感器数据生成的方法。该电设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种对抗网络和行为事理图谱融合的传感器数据生成的方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图16中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
该电子设备包括但不限于智能电话、计算机、平板电脑、可穿戴智能设备、人工智能设备、移动电源等。
所述处理器在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器内的程序或者模块(例如执行远端数据读写程序等),以及调用存储在所述存储器内的数据,以执行电子设备的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industrystandard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器以及至少一个处理器等之间的连接通信。
图16仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图16示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。
可选地,该电子设备还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(OrganicLight-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
进一步地,所述计算机可用存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。本公开的范围由所附权利要求及其等价物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
Claims (10)
1.一种对抗网络和行为事理图谱融合的传感器数据生成系统,其特征在于,包括:
由鉴别器和生成器组成的对抗生成网络;
其中,
生成器由变分自编码器和解码器组成;
鉴别器,用于通过训练来区分生成器在输入随机噪声时产生的样本和从真实数据集中提取的样本;
状态转移模块,用于构建参考事理图谱的马尔科夫链为不同角色生成状态转移模板。
2.根据权利要求1所述的系统,其特征在于,所述状态转移模块具体包括:
构建模式层和数据层;
其中,模式层是对实体概念、属性以及实体间关系进行描述的组织框架;
数据层用于对用户个性化传感器领域知识进行实体、关系抽取。
3.根据权利要求2所述的系统,其特征在于,所述模式层具体包括:
实体类型定义单元、属性类型定义单元和实体关系定义单元;
所述数据层具体包括:
存储单元用于知识的存储和查询;
抽取单元用于实体抽取和关系抽取;
创建单元用于构建传感器领域角色、标签和/或关键词;
其中,所述模式层和数据层之间的各模块之间具有关联映射关系。
4.根据权利要求1所述的系统,其特征在于,所述鉴别器具体包括:
四个一维卷积层,每个所述卷积层都使用了64个滤波器,算子尺寸设定为3;
激活函数为ReLU函数;
填充方式为same;
一个Flatten层用于将卷积层的输出展平,
一个dropout层用于减少过拟合;
一个BatchNormalization层用于加速训练过程;
两个全连接层,其中第一个全连接层有256个节点,激活函数为ReLU,第二个全连接层的节点数量则由数据集的实际类别数量决定,激活函数使用softmax。
5.根据权利要求1所述的系统,其特征在于,所述变分自编码器和解码器包括:
一个RNN编码器和一个RNN解码器;
RNN编码器将输入x编码为潜在空间向量z,同时返回z的均值和方差,用于计算KL散度;
RNN解码器接受潜在空间向量z和标签y作为输入,并生成重构输出。
6.一种对抗网络和行为事理图谱融合的传感器数据生成方法,应用于如权利要求1~5任一项中所述的对抗网络和行为事理图谱融合的传感器数据生成系统中,其特征在于,包括:
利用辅助分类器评价样本条件标签的函数计算生成模型和辅助模型在最大序列长度条件下的采样准确率,将结果存储;
使用生成模型对固定的采样标签和固定的噪声向量进行采样,得到最大序列长度的生成样本,将结果存储;
将训练过程中的各种参数和模型保存到文件中,以备后续使用。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
通过使用循环来迭代训练数据中的每个批次;对于每个批次,使用梯度带来计算模型的预测值、重构损失和KL散度损失,并使用这些值来计算总损失。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
计算梯度并将其应用于模型的可训练变量上;
在训练过程中,还跟踪了重构损失和KL散度损失的平均值,并在每个批次结束时更新它们。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现权利要求6~8任一项中所述的对抗网络和行为事理图谱融合的传感器数据生成方法对应的步骤。
10.一种计算机存储介质,其上存储有计算机程序指令,其特征在于,所述程序指令被处理器执行时用于实现权利要求6~8任一项中所述的对抗网络和行为事理图谱融合的传感器数据生成方法对应的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310620107.5A CN116822577A (zh) | 2023-05-29 | 2023-05-29 | 一种数据生成系统、方法、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310620107.5A CN116822577A (zh) | 2023-05-29 | 2023-05-29 | 一种数据生成系统、方法、介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116822577A true CN116822577A (zh) | 2023-09-29 |
Family
ID=88142067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310620107.5A Pending CN116822577A (zh) | 2023-05-29 | 2023-05-29 | 一种数据生成系统、方法、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116822577A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117315585A (zh) * | 2023-10-11 | 2023-12-29 | 湖南盛翔自控有限公司 | 电解槽智能控制系统及其方法 |
CN118643351A (zh) * | 2024-08-15 | 2024-09-13 | 深圳市智慧城市科技发展集团有限公司 | 模拟数据的生成方法、终端设备及可读存储介质 |
CN118643351B (zh) * | 2024-08-15 | 2024-10-22 | 深圳市智慧城市科技发展集团有限公司 | 模拟数据的生成方法、终端设备及可读存储介质 |
-
2023
- 2023-05-29 CN CN202310620107.5A patent/CN116822577A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117315585A (zh) * | 2023-10-11 | 2023-12-29 | 湖南盛翔自控有限公司 | 电解槽智能控制系统及其方法 |
CN117315585B (zh) * | 2023-10-11 | 2024-03-22 | 湖南盛翔自控有限公司 | 电解槽智能控制系统及其方法 |
CN118643351A (zh) * | 2024-08-15 | 2024-09-13 | 深圳市智慧城市科技发展集团有限公司 | 模拟数据的生成方法、终端设备及可读存储介质 |
CN118643351B (zh) * | 2024-08-15 | 2024-10-22 | 深圳市智慧城市科技发展集团有限公司 | 模拟数据的生成方法、终端设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Feng et al. | Analysis and prediction of students’ academic performance based on educational data mining | |
CN109754012A (zh) | 实体语义关系分类方法、模型训练方法、装置及电子设备 | |
US20220249906A1 (en) | On-device activity recognition | |
CN116128282A (zh) | 基于轨迹预测的目标人员动态风险预警方法及相关设备 | |
Wang et al. | A deep clustering via automatic feature embedded learning for human activity recognition | |
Weiwei | Classification of sport actions using principal component analysis and random forest based on three-dimensional data | |
CN113435335A (zh) | 微观表情识别方法、装置、电子设备及存储介质 | |
CN116205482A (zh) | 重点人员风险等级评估方法及相关设备 | |
CN116822577A (zh) | 一种数据生成系统、方法、介质及设备 | |
Zhang et al. | Representation learning of knowledge graphs with entity attributes | |
CN115457982A (zh) | 情感预测模型的预训练优化方法、装置、设备及介质 | |
CN115392237A (zh) | 情感分析模型训练方法、装置、设备及存储介质 | |
Zhong et al. | Face expression recognition based on NGO-BILSTM model | |
Bashar et al. | Algan: Time series anomaly detection with adjusted-lstm gan | |
Uddin et al. | Proposing logical table constructs for enhanced machine learning process | |
Verma et al. | ICT and Mobile Technology features predicting the university of Indian and Hungarian student for the real-time | |
CN115018215B (zh) | 基于多模态认知图谱的人口居住预测方法、系统和介质 | |
Li | Construction of Sports Training Performance Prediction Model Based on a Generative Adversarial Deep Neural Network Algorithm | |
CN115936003A (zh) | 基于神经网络的软件功能点查重方法、装置、设备及介质 | |
CN111797856A (zh) | 建模方法、装置、存储介质及电子设备 | |
Jia et al. | Investigating the geometric structure of neural activation spaces with convex hull approximations | |
Gulhane et al. | A Machine Learning based Model for Disease Prediction | |
Dai | Online English Teaching Quality Assessment Based on K‐Means and Improved SSD Algorithm | |
Wang et al. | An early warning method for abnormal behavior of college students based on multimodal fusion and improved decision tree | |
CN116522006B (zh) | 基于视图自监督训练的慕课推荐方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |