CN117391138A - 一种数据处理方法及其装置 - Google Patents
一种数据处理方法及其装置 Download PDFInfo
- Publication number
- CN117391138A CN117391138A CN202311284077.1A CN202311284077A CN117391138A CN 117391138 A CN117391138 A CN 117391138A CN 202311284077 A CN202311284077 A CN 202311284077A CN 117391138 A CN117391138 A CN 117391138A
- Authority
- CN
- China
- Prior art keywords
- frequency
- processing
- result
- frequency domain
- frequency bands
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title description 19
- 238000012545 processing Methods 0.000 claims abstract description 171
- 238000000034 method Methods 0.000 claims abstract description 91
- 238000001228 spectrum Methods 0.000 claims abstract description 30
- 230000036961 partial effect Effects 0.000 claims abstract description 28
- 230000015654 memory Effects 0.000 claims description 71
- 238000000605 extraction Methods 0.000 claims description 30
- 238000004891 communication Methods 0.000 claims description 16
- 230000007774 longterm Effects 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 13
- 230000005856 abnormality Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 description 58
- 230000006870 function Effects 0.000 description 56
- 230000008569 process Effects 0.000 description 35
- 238000013528 artificial neural network Methods 0.000 description 32
- 239000011159 matrix material Substances 0.000 description 31
- 238000011176 pooling Methods 0.000 description 31
- 230000010365 information processing Effects 0.000 description 29
- 238000013527 convolutional neural network Methods 0.000 description 28
- 238000010586 diagram Methods 0.000 description 18
- 239000013598 vector Substances 0.000 description 18
- 238000007781 pre-processing Methods 0.000 description 14
- 238000011161 development Methods 0.000 description 13
- 238000013473 artificial intelligence Methods 0.000 description 12
- 230000001537 neural effect Effects 0.000 description 11
- 210000002569 neuron Anatomy 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 10
- 230000008859 change Effects 0.000 description 10
- 230000004913 activation Effects 0.000 description 7
- 238000013500 data storage Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- MHABMANUFPZXEB-UHFFFAOYSA-N O-demethyl-aloesaponarin I Natural products O=C1C2=CC=CC(O)=C2C(=O)C2=C1C=C(O)C(C(O)=O)=C2C MHABMANUFPZXEB-UHFFFAOYSA-N 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 230000003190 augmentative effect Effects 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000011022 operating instruction Methods 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000000872 buffer Substances 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种数据处理方法,方法包括:获取时间序列信息;通过编码器处理所述时间序列信息,得到编码结果;其中,所述编码器包括目标网络层;所述目标网络层用于将所述时间序列信息的特征转换到频域,得到频谱信息;所述频谱信息包括多个频段以及频段对应的频域特征,根据所述频域特征,选择所述多个频段中的部分频段,并对所述部分频段的频域特征进行特征提取,得到处理结果,并将所述处理结果转换到时域;根据所述编码结果,通过任务网络,得到任务处理结果。本申请通过建模频域特征来提升编码器对于序列信息的处理性能。
Description
技术领域
本申请涉及人工智能领域,尤其涉及一种数据处理方法及其装置。
背景技术
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
序列信息可以称之为时间序列、动态序列等,是指将某种现象的指标数值按照时间顺序排列而成的数值序列,可以反映某个现象的发展变化状态。通过对时间序列的分析,可以反映现象发展变化的趋势和规律,再通过对影响时间序列的各种因素进行测定,可以进一步解释现象变化的内在原因,为预测和决策提供可靠的数据支持。
现有技术中,通过时序卷积网络(temporal convolutional network,TCN)方法对序列信息进行处理,具体的,可以通过沿时间维度滑动的卷积核捕获时序特征,然而,小的有效感受野限制了它们的性能。最近,TimesNet提出将一维时间序列转换为基于多周期分量的二维张量,并通过2D内核对其进行建模,从而建模时序的周期性与长距离依赖。然而,多周期转换是一个参数冗余操作,增加了网络的参数量与计算量,忽略了除时域之外的其他域上的有价值的信息。从而导致网络的处理能力较差。
发明内容
第一方面,本申请提供了一种数据处理方法,所述方法包括:获取时间序列信息;通过编码器处理所述时间序列信息,得到编码结果;其中,所述编码器包括目标网络层;所述目标网络层用于将所述时间序列信息的特征转换到频域,得到频谱信息;所述频谱信息包括多个频段以及频段对应的频域特征,根据所述频域特征,选择所述多个频段中的部分频段,并对所述部分频段的频域特征进行特征提取,得到处理结果,并将所述处理结果转换到时域,得到时域表示,所述时域表示用于作为所述编码结果或者通过特征提取得到所述编码结果;根据所述编码结果,通过任务网络,得到任务处理结果。
本申请通过建模频域特征来提升编码器对于序列信息的处理性能。
在一种可能的实现中,所述频谱信息包括多个频段以及频段对应的频域特征,目标网络层可以根据所述频域特征,选择所述多个频段中的部分频段,并对所述部分频段的频域特征进行特征提取,得到处理结果(由于是对部分频段的特征进行特征提取,因此核可以称之为稀疏核)。
其中,时域表示可以输入到相邻的下一个网络层继续进行特征提取,或者连接输出层得到编码结果,或者直接作为编码结果输出。
其中,仅对部分频段的频域特征进行特征提取,也就是进行稀疏化建模,可以在提升网络性能的同时降低计算量。具体的,由于大型稀疏核可以覆盖所有重要的频率,因此,可以捕获特征上的长期和短期依赖与不同周期信息,同时具备低计算复杂度。在这个过程中,即使只对显著频率部分进行稀疏操作,模型也会获得相似甚至更高的性能,同时使用更少的参数。
在一种可能的实现中,所述特征提取为通过核Kernel对所述部分频段的频域特征进行的点乘操作。与卷积的不同点在于(1)此处Kernel和特征点乘之后没对结果取平均而是保留原始尺度,(2)此处没有滑动窗口操作。因此只是稀疏核对特征点乘进行特征提取。
在一种可能的实现中,所述频域特征包括多个维度的特征,所述对所述部分频段的频域特征进行特征提取,包括:对所述部分频段的频域特征中所述多个维度中部分维度的特征进行特征提取。
也就是说,频域特征提取部分我们的特征提取方式还包含维度稀疏化。例如,在获得频域特征后,其中L为时域长度,为频域长度,C为维度数。我们的核Kernel尺度可以设置为此处K<C。此时Kernel对XF点乘的特征提取操作进行了稀疏化,仅在维度方向选取K个维度进行,其他的维度的特征保持不变。对这个K个维度的选取采取固定选取或者随机选取的方式,也可以通过可学习的方式使网络自适应进行选取。
在一种可能的实现中,所述将所述时间序列信息的特征转换到频域,包括:对所述时间序列信息的特征在时域方向和/或数据维度方向上进行变换,以转换到频域。
例如,上述将时域特征转入频域的操作可以使用傅里叶变换沿着时间的方向进行,此外,还可以进一步引入在维度方向的傅里叶变换获取维度方向的频域特征,或者通过二维傅里叶变换同时建模时间与维度两个方向的频域特征。通过上述方式,可以学到多种类型的丰富的频域特征。
在一种可能的实现中,所述将所述时间序列信息的特征转换到频域,包括:对所述时间序列信息的特征通过傅里叶变换或者小波变换,以转换到频域。
在一种可能的实现中,所述根据所述频域特征,选择所述多个频段中的部分频段,包括:根据所述频域特征,确定每个频段对应的幅值,选择所述多个频段中幅值最大的N个或者最小的N个频段。
在一种可能的实现中,所述将所述处理结果转换到时域,包括:将所述处理结果以及所述多个频段中除所述部分频段之外的其他频段的对应的频域特征,转换到时域。
在一种可能的实现中,所述编码器还包括嵌入层;所述嵌入层包括多个卷积核和SE注意力层。
使用更多的卷积层和SE注意力层聚合局部信息同时增加特征信噪比,通过该模块,可以有效提升模型在各种任务上的性能。
在一种可能的实现中,所述任务处理结果为对所述时间序列信息的长期或短期预测结果、对所述时间序列信息的编辑结果、对所述时间序列信息的异常检测结果或者对所述时间序列信息的分类结果。
第二方面,本申请提供了一种数据处理方法,所述方法包括:
获取时间序列信息;
通过编码器处理所述时间序列信息,得到编码结果;其中,
所述编码器包括目标网络层;所述目标网络层用于将所述时间序列信息的特征转换到频域,得到频谱信息;所述频谱信息包括多个频段以及频段对应的频域特征,通过多层感知机MLP对所述频域特征进行处理,得到处理结果,并将所述处理结果转换到时域,得到时域表示,所述时域表示用于作为所述编码结果或者通过特征提取得到所述编码结果;
根据所述编码结果,通过任务网络,得到任务处理结果。
在一种可能的实现中,所述通过多层感知机MLP对所述频域特征进行处理,包括:通过多层感知机MLP对所述频域特征在频段方向和/或数据维度方向上进行处理。
在一种可能的实现中,所述频域特征包括多个维度的特征,所述通过多层感知机MLP对所述频域特征进行处理,包括:
通过多层感知机MLP对所述部分频段的频域特征中所述多个维度中部分维度的特征进行处理。
在一种可能的实现中,所述任务处理结果为对所述时间序列信息的长期或短期预测结果、对所述时间序列信息的编辑结果、对所述时间序列信息的异常检测结果或者对所述时间序列信息的分类结果。
第三方面,本申请提供了一种数据处理装置,所述装置包括:
获取模块,用于获取时间序列信息;
处理模块,用于通过编码器处理所述时间序列信息,得到编码结果;其中,
所述编码器包括目标网络层;所述目标网络层用于将所述时间序列信息的特征转换到频域,得到频谱信息;所述频谱信息包括多个频段以及频段对应的频域特征,根据所述频域特征,选择所述多个频段中的部分频段,并对所述部分频段的频域特征进行特征提取,得到处理结果,并将所述处理结果转换到时域,得到时域表示,所述时域表示用于作为所述编码结果或者通过特征提取得到所述编码结果;
根据所述编码结果,通过任务网络,得到任务处理结果。
在一种可能的实现中,所述特征提取为通过核Kernel对所述部分频段的频域特征进行的点乘操作。
在一种可能的实现中,所述频域特征包括多个维度的特征,所述处理模块,具体用于:对所述部分频段的频域特征中所述多个维度中部分维度的特征进行特征提取。
在一种可能的实现中,所述将所述时间序列信息的特征转换到频域,包括:对所述时间序列信息的特征在时域方向和/或数据维度方向上进行变换,以转换到频域。
在一种可能的实现中,所述处理模块,具体用于:
对所述时间序列信息的特征通过傅里叶变换或者小波变换,以转换到频域。
在一种可能的实现中,所述处理模块,具体用于:
根据所述频域特征,确定每个频段对应的幅值,选择所述多个频段中幅值最大的N个或者最小的N个频段。
在一种可能的实现中,所述处理模块,具体用于:
将所述处理结果以及所述多个频段中除所述部分频段之外的其他频段的对应的频域特征,转换到时域。
在一种可能的实现中,所述编码器还包括嵌入层;
所述嵌入层包括多个卷积核和SE注意力层。
在一种可能的实现中,所述任务处理结果为对所述时间序列信息的长期或短期预测结果、对所述时间序列信息的编辑结果、对所述时间序列信息的异常检测结果或者对所述时间序列信息的分类结果。
第四方面,本申请提供了一种数据处理装置,所述装置包括:
获取模块,用于获取时间序列信息;
处理模块,用于通过编码器处理所述时间序列信息,得到编码结果;其中,
所述编码器包括目标网络层;所述目标网络层用于将所述时间序列信息的特征转换到频域,得到频谱信息;所述频谱信息包括多个频段以及频段对应的频域特征,通过多层感知机MLP对所述频域特征进行处理,得到处理结果,并将所述处理结果转换到时域,得到时域表示,所述时域表示用于作为所述编码结果或者通过特征提取得到所述编码结果;
根据所述编码结果,通过任务网络,得到任务处理结果。
在一种可能的实现中,所述通过多层感知机MLP对所述频域特征进行处理,包括:通过多层感知机MLP对所述频域特征在频段方向和/或数据维度方向上进行处理。
在一种可能的实现中,所述频域特征包括多个维度的特征,所述处理模块,具体用于:对所述部分频段的频域特征中所述多个维度中部分维度的特征进行特征提取。
在一种可能的实现中,所述任务处理结果为对所述时间序列信息的长期或短期预测结果、对所述时间序列信息的编辑结果、对所述时间序列信息的异常检测结果或者对所述时间序列信息的分类结果。
第五方面,本申请实施例提供了一种数据处理装置,可以包括存储器、处理器以及总线系统,其中,存储器用于存储程序,处理器用于执行存储器中的程序,以执行如上述第一方面及其任一可选的方法,以及上述第二方面及其任一可选的方法。
第六方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行上述第一方面及其任一可选的方法,以及上述第二方面及其任一可选的方法。
第七方面,本申请实施例提供了一种计算机程序,当其在计算机上运行时,使得计算机执行上述第一方面及其任一可选的方法,以及上述第二方面及其任一可选的方法。
第八方面,本申请提供了一种芯片系统,该芯片系统包括处理器,用于支持执行数据处理装置实现上述方面中所涉及的功能,例如,发送或处理上述方法中所涉及的数据;或,信息。在一种可能的设计中,所述芯片系统还包括存储器,所述存储器,用于保存执行设备或训练设备必要的程序指令和数据。该芯片系统,可以由芯片构成,也可以包括芯片和其他分立器件。
附图说明
图1A为人工智能主体框架的一种结构示意图;
图1B和图1C为本申请的应用系统框架示意;
图1D为终端的一种可选的硬件结构示意图;
图2为一种服务器的结构示意图;
图3为本申请的一种系统架构示意;
图4为一种云服务的流程;
图5A和图5B为一种网络的结构示意;
图6A为本申请实施例提供的一种数据处理方法的流程示意;
图6B为本申请的一种网络结构示意;
图7为本申请实施例提供的一种数据处理方法的流程示意;
图8为本申请实施例提供的数据处理装置的一种结构示意图;
图9为本申请实施例提供的执行设备的一种结构示意图;
图10为本申请实施例提供的训练设备一种结构示意图;
图11为本申请实施例提供的芯片的一种结构示意图。
具体实施方式
下面结合本申请实施例中的附图对本申请实施例进行描述。本申请的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释,而非旨在限定本申请。
下面结合附图,对本申请的实施例进行描述。本领域普通技术人员可知,随着技术的发展和新场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
本文中所用用语“基本(substantially)”、“大约(about)”及类似用语用作近似用语、而并非用作程度用语,且旨在考虑到所属领域中的普通技术人员将知的测量值或计算值的固有偏差。此外,在阐述本申请实施例时使用“可(may)”是指“可能的一个或多个实施例”。本文中所用用语“使用(use)”、“正使用(using)”、及“被使用(used)”可被视为分别与用语“利用(utilize)”、“正利用(utilizing)”、及“被利用(utilized)”同义。另外,用语“示例性(exemplary)”旨在指代实例或例示。
首先对人工智能系统总体工作流程进行描述,请参见图1A,图1A示出的为人工智能主体框架的一种结构示意图,下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。其中,“智能信息链”反映从数据的获取到处理的一列过程。举例来说,可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中,数据经历了“数据—信息—知识—智慧”的凝练过程。“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程,反映人工智能为信息技术产业带来的价值。
(1)基础设施
基础设施为人工智能系统提供计算能力支持,实现与外部世界的沟通,并通过基础平台实现支撑。通过传感器与外部沟通;计算能力由智能芯片(CPU、NPU、GPU、ASIC、FPGA等硬件加速芯片)提供;基础平台包括分布式计算框架及网络等相关的平台保障和支持,可以包括云存储和计算、互联互通网络等。举例来说,传感器和外部沟通获取数据,这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。
(2)数据
基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本,还涉及到传统设备的物联网数据,包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。
(3)数据处理
数据处理通常包括数据训练,机器学习,深度学习,搜索,推理,决策等方式。
其中,机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。
推理是指在计算机或智能系统中,模拟人类的智能推理方式,依据推理控制策略,利用形式化的信息进行机器思维和求解问题的过程,典型的功能是搜索与匹配。
决策是指智能信息经过推理后进行决策的过程,通常提供分类、排序、预测等功能。
(4)通用能力
对数据经过上面提到的数据处理后,进一步基于数据处理的结果可以形成一些通用的能力,比如可以是算法或者一个通用系统,例如,翻译,文本的分析,计算机视觉的处理,语音识别,图像的识别等等。
(5)智能产品及行业应用
智能产品及行业应用指人工智能系统在各领域的产品和应用,是对人工智能整体解决方案的封装,将智能信息决策产品化、实现落地应用,其应用领域主要包括:智能终端、智能交通、智能医疗、自动驾驶、智慧城市等。
本申请可以应用于人工智能领域的图像处理领域中,下面以图像处理为例将对多个落地到产品的多个应用场景进行介绍。
首先介绍本申请的应用场景。
本申请可以但不限于应用在具备序列信息处理功能的应用程序(以下可以简称为序列信息处理类应用程序)或者云侧服务器提供的云服务等,接下来分别进行介绍:
一、序列信息处理类应用程序
本申请实施例的产品形态可以为序列信息处理类应用程序,特别的,可以为具备序列信息处理类的应用程序。序列信息处理类应用程序可以运行在终端设备或者云侧的服务器上。
序列信息可以称之为时间序列、动态序列等,是指将某种现象的指标数值按照时间顺序排列而成的数值序列,可以反映某个现象的发展变化状态。通过对时间序列的分析,可以反映现象发展变化的趋势和规律,再通过对影响时间序列的各种因素进行测定,可以进一步解释现象变化的内在原因,为预测和决策提供可靠的数据支持。具体来说,时间序列分析包括长期或者短期时序预测、插补、异常检测和分类等一系列时间序列任务,在实际应用中被广泛使用,如电力负荷预测、智能系统检测、交通流量预测、能源消耗预测等。
在一种可能的实现中,序列信息处理类应用程序可以实现基于输入的序列信息进行序列信息处理类,得到处理结果。
在一种可能的实现中,用户可以打开终端设备上安装的序列信息处理类应用程序,并输入图像,序列信息处理类应用程序可以通过本申请实施例提供的方法对序列信息进行处理,并将处理结果呈现给用户(呈现方式可以但不限于是显示、保存、上传到云侧等)。
在一种可能的实现中,用户可以打开终端设备上安装的序列信息处理类应用程序,并输入序列信息,序列信息处理类应用程序可以将序列信息发送至云侧的服务器,云侧的服务器通过本申请实施例提供的方法对序列信息进行处理,并将处理结果回传至终端设备,终端设备可以将处理结果呈现给用户(呈现方式可以但不限于是显示、保存、上传到云侧等)。
接下来分别从功能架构以及实现功能的产品架构介绍本申请实施例中的序列信息处理类应用程序。
参照图1B,图1B为本申请实施例中序列信息处理类应用程序的功能架构示意:
在一种可能的实现中,如图1B所示,序列信息处理类应用程序102可接收输入的参数101(例如包含序列信息)且产生处理结果103。序列信息处理类应用程序102可在(举例来说)至少一个计算机系统上执行,且包括计算机代码,所述计算机代码在由一或多个计算机执行时致使所述计算机执行用于执行本申请实施例提供的方法。
参照图1C,图1C为本申请实施例中运行序列信息处理类应用程序的实体架构示意:
参见图1C,图1C示出了一种系统架构示意图。该系统可以包括终端100、以及服务器200。其中,服务器200可以包括一个或者多个服务器(图1C中以包括一个服务器作为示例进行说明),服务器200可以为一个或者多个终端提供本申请实施例提供的方法。
其中,终端100上可以安装有序列信息处理类应用程序,上述应用程序和网页可以提供一个界面,终端100可以接收用户在序列信息处理界面上输入的相关参数,并将上述参数发送至服务器200,服务器200可以基于接收到的参数,得到处理结果,并将处理结果返回至终端100。
应理解,在一些可选的实现中,终端100也可以由自身完成基于接收到的参数,得到处理结果的动作,而不需要服务器配合实现,本申请实施例并不限定。
接下来描述图1C中终端100的产品形态;
本申请实施例中的终端100可以为手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personaldigital assistant,PDA)等,本申请实施例对此不作任何限制。
图1D示出了终端100的一种可选的硬件结构示意图。
参考图1D所示,终端100可以包括射频单元110、存储器120、输入单元130、显示单元140、摄像头150(可选的)、音频电路160(可选的)、扬声器161(可选的)、麦克风162(可选的)、处理器170、外部接口180、电源190等部件。本领域技术人员可以理解,图1D仅仅是终端或多功能设备的举例,并不构成对终端或多功能设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
输入单元130可用于接收输入的数字或字符信息,以及产生与该便携式多功能装置的用户设置以及功能控制有关的键信号输入。具体地,输入单元130可包括触摸屏131(可选的)和/或其他输入设备132。该触摸屏131可收集用户在其上或附近的触摸操作(比如用户使用手指、关节、触笔等任何适合的物体在触摸屏上或在触摸屏附近的操作),并根据预先设定的程序驱动相应的连接装置。触摸屏可以检测用户对触摸屏的触摸动作,将该触摸动作转换为触摸信号发送给该处理器170,并能接收该处理器170发来的命令并加以执行;该触摸信号至少包括触点坐标信息。该触摸屏131可以提供该终端100和用户之间的输入界面和输出界面。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触摸屏。除了触摸屏131,输入单元130还可以包括其他输入设备。具体地,其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
其中,输入设备132可以接收到输入的序列信息等等。
该显示单元140可用于显示由用户输入的信息或提供给用户的信息、终端100的各种菜单、交互界面、文件显示和/或任意一种多媒体文件的播放。在本申请实施例中,显示单元140可用于显示序列信息处理类应用程序的界面、处理结果等。
该存储器120可用于存储指令和数据,存储器120可主要包括存储指令区和存储数据区,存储数据区可存储各种数据,如多媒体文件、文本等;存储指令区可存储操作系统、应用、至少一个功能所需的指令等软件单元,或者他们的子集、扩展集。还可以包括非易失性随机存储器;向处理器170提供包括管理计算处理设备中的硬件、软件以及数据资源,支持控制软件和应用。还用于多媒体文件的存储,以及运行程序和应用的存储。
处理器170是终端100的控制中心,利用各种接口和线路连接整个终端100的各个部分,通过运行或执行存储在存储器120内的指令以及调用存储在存储器120内的数据,执行终端100的各种功能和处理数据,从而对终端设备进行整体控制。可选的,处理器170可包括一个或多个处理单元;优选的,处理器170可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器170中。在一些实施例中,处理器、存储器、可以在单一芯片上实现,在一些实施例中,他们也可以在独立的芯片上分别实现。处理器170还可以用于产生相应的操作控制信号,发给计算处理设备相应的部件,读取以及处理软件中的数据,尤其是读取和处理存储器120中的数据和程序,以使其中的各个功能模块执行相应的功能,从而控制相应的部件按指令的要求进行动作。
其中,存储器120可以用于存储数据处理方法相关的软件代码,处理器170可以执行芯片的数据处理方法的步骤,也可以调度其他单元(例如上述输入单元130以及显示单元140)以实现相应的功能。
该射频单元110(可选的)可用于收发信息或通话过程中信号的接收和发送,例如,将基站的下行信息接收后,给处理器170处理;另外,将设计上行的数据发送给基站。通常,RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,LNA)、双工器等。此外,射频单元110还可以通过无线通信与网络设备和其他设备通信。该无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobile communication,GSM)、通用分组无线服务(General PacketRadio Service,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
其中,在本申请实施例中,该射频单元110可以将序列信息发送至服务器200,并接收到服务器200发送的处理结果。
应理解,该射频单元110为可选的,其可以被替换为其他通信接口,例如可以是网口。
终端100还包括给各个部件供电的电源190(比如电池),优选的,电源可以通过电源管理系统与处理器170逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
终端100还包括外部接口180,该外部接口可以是标准的Micro USB接口,也可以使多针连接器,可以用于连接终端100与其他装置进行通信,也可以用于连接充电器为终端100充电。
尽管未示出,终端100还可以包括闪光灯、无线保真(wireless fidelity,WiFi)模块、蓝牙模块、不同功能的传感器等,在此不再赘述。下文中描述的部分或全部方法均可以应用在如图1D所示的终端100中。
接下来描述图1C中服务器200的产品形态;
图2提供了一种服务器200的结构示意图,如图2所示,服务器200包括总线201、处理器202、通信接口203和存储器204。处理器202、存储器204和通信接口203之间通过总线201通信。
总线201可以是外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构(extended industry standard architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图2中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
处理器202可以为中央处理器(central processing unit,CPU)、图形处理器(graphics processing unit,GPU)、微处理器(micro processor,MP)或者数字信号处理器(digital signal processor,DSP)等处理器中的任意一种或多种。
存储器204可以包括易失性存储器(volatile memory),例如随机存取存储器(random access memory,RAM)。存储器204还可以包括非易失性存储器(non-volatilememory),例如只读存储器(read-only memory,ROM),快闪存储器,机械硬盘(hard drivedrive,HDD)或固态硬盘(solid state drive,SSD)。
其中,存储器204可以用于存储数据处理方法相关的软件代码,处理器202可以执行芯片的数据处理方法的步骤,也可以调度其他单元以实现相应的功能。
应理解,上述终端100和服务器200可以为集中式或者是分布式的设备,上述终端100和服务器200中的处理器(例如处理器170以及处理器202)可以为硬件电路(如专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field-programmable gate array,FPGA)、通用处理器、数字信号处理器(digital signalprocessing,DSP)、微处理器或微控制器等等)、或这些硬件电路的组合,例如,处理器可以为具有执行指令功能的硬件系统,如CPU、DSP等,或者为不具有执行指令功能的硬件系统,如ASIC、FPGA等,或者为上述不具有执行指令功能的硬件系统以及具有执行指令功能的硬件系统的组合。
应理解,本申请实施例中的和模型推理过程相关的步骤涉及AI相关的运算,在执行AI运算时,终端设备和服务器的指令执行架构不仅仅局限在上述介绍的处理器结合存储器的架构。下面结合图3对本申请实施例提供的系统架构进行详细的介绍。
图3为本申请实施例提供的系统架构示意图。如图3所示,系统架构500包括执行设备510、训练设备520、数据库530、客户设备540、数据存储系统550以及数据采集系统560。
执行设备510包括计算模块511、I/O接口512、预处理模块513和预处理模块514。计算模块511中可以包括目标模型/规则501,预处理模块513和预处理模块514是可选的。
其中,执行设备510可以为上述运行序列信息处理类应用程序的终端设备或者服务器。
数据采集设备560用于采集训练样本。训练样本可以为序列信息以及包括的文本和文本所在的位置等。在采集到训练样本之后,数据采集设备560将这些训练样本存入数据库530。
训练设备520可以基于数据库530中维护训练样本,对待训练的神经网络(例如本申请实施例中的序列信息识别网络和序列信息检测网络等),以得到目标模型/规则501。
应理解,训练设备520可以基于数据库530中维护训练样本,对待训练的神经网络进行预训练过程,或者是在预训练的基础上进行模型的微调。
需要说明的是,在实际应用中,数据库530中维护的训练样本不一定都来自于数据采集设备560的采集,也有可能是从其他设备接收得到的。另外需要说明的是,训练设备520也不一定完全基于数据库530维护的训练样本进行目标模型/规则501的训练,也有可能从云端或其他地方获取训练样本进行模型训练,上述描述不应该作为对本申请实施例的限定。
根据训练设备520训练得到的目标模型/规则501可以应用于不同的系统或设备中,如应用于图3所示的执行设备510,该执行设备510可以是终端,如手机终端,平板电脑,笔记本电脑,增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备,车载终端等,还可以是服务器等。
具体的,训练设备520可以将训练后的模型传递至执行设备510。
在图3中,执行设备510配置输入/输出(input/output,I/O)接口512,用于与外部设备进行数据交互,用户可以通过客户设备540向I/O接口512输入数据(例如本申请实施例中的序列信息等)。
预处理模块513和预处理模块514用于根据I/O接口512接收到的输入数据进行预处理。应理解,可以没有预处理模块513和预处理模块514或者只有的一个预处理模块。当不存在预处理模块513和预处理模块514时,可以直接采用计算模块511对输入数据进行处理。
在执行设备510对输入数据进行预处理,或者在执行设备510的计算模块511执行计算等相关的处理过程中,执行设备510可以调用数据存储系统550中的数据、代码等以用于相应的处理,也可以将相应处理得到的数据、指令等存入数据存储系统550中。
最后,I/O接口512将处理结果提供给客户设备540,从而提供给用户。
在图3所示情况下,用户可以手动给定输入数据,该“手动给定输入数据”可以通过I/O接口512提供的界面进行操作。另一种情况下,客户设备540可以自动地向I/O接口512发送输入数据,如果要求客户设备540自动发送输入数据需要获得用户的授权,则用户可以在客户设备540中设置相应权限。用户可以在客户设备540查看执行设备510输出的结果,具体的呈现形式可以是显示、声音、动作等具体方式。客户设备540也可以作为数据采集端,采集如图所示输入I/O接口512的输入数据及输出I/O接口512的输出结果作为新的样本数据,并存入数据库530。当然,也可以不经过客户设备540进行采集,而是由I/O接口512直接将如图所示输入I/O接口512的输入数据及输出I/O接口512的输出结果,作为新的样本数据存入数据库530。
值得注意的是,图3仅是本申请实施例提供的一种系统架构的示意图,图中所示设备、器件、模块等之间的位置关系不构成任何限制,例如,在图3中,数据存储系统550相对执行设备510是外部存储器,在其它情况下,也可以将数据存储系统550置于执行设备510中。应理解,上述执行设备510可以部署于客户设备540中。
从模型的推理侧来说:
本申请实施例中,上述执行设备520的计算模块511可以获取到数据存储系统550中存储的代码来实现本申请实施例中的和模型推理过程相关的步骤。
本申请实施例中,执行设备520的计算模块511可以包括硬件电路(如专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field-programmable gate array,FPGA)、通用处理器、数字信号处理器(digital signalprocessing,DSP)、微处理器或微控制器等等)、或这些硬件电路的组合,例如,训练设备520可以为具有执行指令功能的硬件系统,如CPU、DSP等,或者为不具有执行指令功能的硬件系统,如ASIC、FPGA等,或者为上述不具有执行指令功能的硬件系统以及具有执行指令功能的硬件系统的组合。
具体的,执行设备520的计算模块511可以为具有执行指令功能的硬件系统,本申请实施例提供的和模型推理过程相关的步骤可以为存储在存储器中的软件代码,执行设备520的计算模块511可以从存储器中获取到软件代码,并执行获取到的软件代码来实现本申请实施例提供的和模型推理过程相关的步骤。
应理解,执行设备520的计算模块511可以为不具有执行指令功能的硬件系统以及具有执行指令功能的硬件系统的组合,本申请实施例提供的和模型推理过程相关的步骤的部分步骤还可以通过执行设备520的计算模块511中不具有执行指令功能的硬件系统来实现,这里并不限定。
从模型的训练侧来说:
本申请实施例中,上述训练设备520可以获取到存储器(图3中未示出,可以集成于训练设备520或者与训练设备520分离部署)中存储的代码来实现本申请实施例中和模型训练相关的步骤。
本申请实施例中,训练设备520可以包括硬件电路(如专用集成电路(applicationspecific integrated circuit,ASIC)、现场可编程门阵列(field-programmable gatearray,FPGA)、通用处理器、数字信号处理器(digital signal processing,DSP)、微处理器或微控制器等等)、或这些硬件电路的组合,例如,训练设备520可以为具有执行指令功能的硬件系统,如CPU、DSP等,或者为不具有执行指令功能的硬件系统,如ASIC、FPGA等,或者为上述不具有执行指令功能的硬件系统以及具有执行指令功能的硬件系统的组合。
应理解,训练设备520可以为不具有执行指令功能的硬件系统以及具有执行指令功能的硬件系统的组合,本申请实施例提供的中和模型训练相关的部分步骤还可以通过训练设备520中不具有执行指令功能的硬件系统来实现,这里并不限定。
二、服务器提供的序列信息处理类云服务:
在一种可能的实现中,服务器可以通过应用程序编程接口(applicationprogramming interface,API)为端侧提供序列信息处理的服务。
其中,终端设备可以通过云端提供的API,将相关参数(例如序列信息)发送至服务器,服务器可以基于接收到的参数,得到处理结果等),并将处理结果返回至终端。
关于终端以及服务器的描述可以上述实施例的描述,这里不再赘述。
如图4示出了使用一项云平台提供的序列信息处理类云服务的流程。
1.开通并购买内容审核服务。
2.用户可以下载内容审核服务对应的软件开发工具包(software developmentkit,SDK),通常云平台提供多个开发版本的SDK,供用户根据开发环境的需求选择,例如JAVA版本的SDK、python版本的SDK、PHP版本的SDK、Android版本的SDK等。
3.用户根据需求下载对应版本的SDK到本地后,将SDK工程导入至本地开发环境,在本地开发环境中进行配置和调试,本地开发环境还可以进行其他功能的开发,使得形成一个集合了序列信息处理类能力的应用。
4.序列信息处理类应用在被使用的过程中,当需要进行序列信息处理时,可以触发序列信息处理的API调用。当应用触发序列信息处理功能时,发起API请求至云环境中的序列信息处理类服务的运行实例,其中,API请求中携带序列信息,由云环境中的运行实例对序列信息进行处理,获得处理结果。
5.云环境将处理结果返回至应用,由此完成一次的本申请实施例提供的方法调用。
由于本申请实施例涉及大量神经网络的应用,为了便于理解,下面先对本申请实施例涉及的相关术语及神经网络等相关概念进行介绍。
(1)神经网络
神经网络可以是由神经单元组成的,神经单元可以是指以xs(即输入数据)和截距1为输入的运算单元,该运算单元的输出可以为:
其中,s=1、2、……n,n为大于1的自然数,Ws为xs的权重,b为神经单元的偏置。f为神经单元的激活函数(activation functions),用于将非线性特性引入神经网络中,来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入,激活函数可以是sigmoid函数。神经网络是将多个上述单一的神经单元联结在一起形成的网络,即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连,来提取局部接受域的特征,局部接受域可以是由若干个神经单元组成的区域。
(2)卷积神经网络(convolutional neuron network,CNN)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器,该特征抽取器可以看作是滤波器。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中,一个神经元可以只与部分邻层神经元连接。一个卷积层中,通常包含若干个特征平面,每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重,这里共享的权重就是卷积核。共享权重可以理解为提取特征的方式与位置无关。卷积核可以以随机大小的矩阵的形式化,在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外,共享权重带来的直接好处是减少卷积神经网络各层之间的连接,同时又降低了过拟合的风险。
CNN是一种非常常见的神经网络,下面结合图3重点对CNN的结构进行详细的介绍。如前文的基础概念介绍所述,卷积神经网络是一种带有卷积结构的深度神经网络,是一种深度学习(deep learning)架构,深度学习架构是指通过机器学习的算法,在不同的抽象层级上进行多个层次的学习。作为一种深度学习架构,CNN是一种前馈(feed-forward)人工神经网络,该前馈人工神经网络中的各个神经元可以对输入其中的序列信息作出响应。
如图5A所示,卷积神经网络(CNN)200可以包括输入层210,卷积层/池化层220(其中池化层为可选的),以及全连接层(fully connected layer)230。
卷积层/池化层220:
卷积层:
如图5A所示卷积层/池化层220可以包括如示例221-226层,举例来说:在一种实现中,221层为卷积层,222层为池化层,223层为卷积层,224层为池化层,225为卷积层,226为池化层;在另一种实现方式中,221、222为卷积层,223为池化层,224、225为卷积层,226为池化层。即卷积层的输出可以作为随后的池化层的输入,也可以作为另一个卷积层的输入以继续进行卷积操作。
下面将以卷积层221为例,介绍一层卷积层的内部工作原理。
卷积层221可以包括很多个卷积算子,卷积算子也称为核,其在序列信息处理中的作用相当于一个从输入序列信息矩阵中提取特定信息的过滤器,卷积算子本质上可以是一个权重矩阵,这个权重矩阵通常被预先定义,在对序列信息进行卷积操作的过程中,权重矩阵通常在输入序列信息上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素……这取决于步长stride的取值)的进行处理,从而完成从序列信息中提取特定特征的工作。该权重矩阵的大小应该与序列信息的大小相关,需要注意的是,权重矩阵的纵深维度(depth dimension)和输入序列信息的纵深维度是相同的,在进行卷积运算的过程中,权重矩阵会延伸到输入序列信息的整个深度。因此,和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出,但是大多数情况下不使用单一权重矩阵,而是应用多个尺寸(行×列)相同的权重矩阵,即多个同型矩阵。每个权重矩阵的输出被堆叠起来形成卷积序列信息的纵深维度,这里的维度可以理解为由上面所述的“多个”来决定。不同的权重矩阵可以用来提取序列信息中不同的特征,例如一个权重矩阵用来提取序列信息边缘信息,另一个权重矩阵用来提取序列信息的特定颜色,又一个权重矩阵用来对序列信息中不需要的噪点进行模糊化等。该多个权重矩阵尺寸(行×列)相同,经过该多个尺寸相同的权重矩阵提取后的特征图的尺寸也相同,再将提取到的多个尺寸相同的特征图合并形成卷积运算的输出。
这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到,通过训练得到的权重值形成的各个权重矩阵可以用来从输入序列信息中提取信息,从而使得卷积神经网络200进行正确的预测。
当卷积神经网络200有多个卷积层的时候,初始的卷积层(例如221)往往提取较多的一般特征,该一般特征也可以称之为低级别的特征;随着卷积神经网络200深度的加深,越往后的卷积层(例如226)提取到的特征越来越复杂,比如高级别的语义之类的特征,语义越高的特征越适用于待解决的问题。
池化层:
由于常常需要减少训练参数的数量,因此卷积层之后常常需要周期性的引入池化层,在如图5A中220所示例的221-226各层,可以是一层卷积层后面跟一层池化层,也可以是多层卷积层后面接一层或多层池化层。在序列信息处理过程中,池化层的唯一目的就是减少序列信息的空间大小。池化层可以包括平均池化算子和/或最大池化算子,以用于对输入序列信息进行采样得到较小尺寸的序列信息。平均池化算子可以在特定范围内对序列信息中的像素值进行计算产生平均值作为平均池化的结果。最大池化算子可以在特定范围内取该范围内值最大的像素作为最大池化的结果。另外,就像卷积层中用权重矩阵的大小应该与序列信息尺寸相关一样,池化层中的运算符也应该与序列信息的大小相关。通过池化层处理后输出的序列信息尺寸可以小于输入池化层的序列信息的尺寸,池化层输出的序列信息中每个像素点表示输入池化层的序列信息的对应子区域的平均值或最大值。
全连接层230:
在经过卷积层/池化层220的处理后,卷积神经网络200还不足以输出所需要的输出信息。因为如前所述,卷积层/池化层220只会提取特征,并减少输入序列信息带来的参数。然而为了生成最终的输出信息(所需要的类信息或其他相关信息),卷积神经网络200需要利用全连接层230来生成一个或者一组所需要的类的数量的输出。因此,在全连接层230中可以包括多层隐含层(如图5A所示的231、232至23n),该多层隐含层中所包含的参数可以根据具体的任务类型的相关训练数据进行预先训练得到,例如该任务类型可以包括序列信息识别,序列信息分类,序列信息超分辨率重建等等……。
在全连接层230中的多层隐含层之后,也就是整个卷积神经网络200的最后层为输出层240,该输出层240具有类似分类交叉熵的损失函数,具体用于计算预测误差,一旦整个卷积神经网络200的前向传播(如图5A由210至240方向的传播为前向传播)完成,反向传播(如图5A由240至210方向的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差,以减少卷积神经网络200的损失,及卷积神经网络200通过输出层输出的结果和理想结果之间的误差。
需要说明的是,如图5A所示的卷积神经网络200仅作为一种卷积神经网络的示例,在具体的应用中,卷积神经网络还可以以其他网络模型的形式存在,例如,仅包括图5A中所示的网络结构的一部分,比如,本申请实施例中所采用的卷积神经网络可以仅包括输入层210、卷积层/池化层220和输出层240。
需要说明的是,如图5A所示的卷积神经网络100仅作为一种卷积神经网络的示例,在具体的应用中,卷积神经网络还可以以其他网络模型的形式存在,例如,如图5B所示的多个卷积层/池化层并行,将分别提取的特征均输入给全连接层230进行处理。
(3)深度神经网络
深度神经网络(Deep Neural Network,DNN),也称多层神经网络,可以理解为具有很多层隐含层的神经网络,这里的“很多”并没有特别的度量标准。从DNN按不同层的位置划分,DNN内部的神经网络可以分为三类:输入层,隐含层,输出层。一般来说第一层是输入层,最后一层是输出层,中间的层数都是隐含层。层与层之间是全连接的,也就是说,第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。虽然DNN看起来很复杂,但是就每一层的工作来说,其实并不复杂,简单来说就是如下线性关系表达式:其中,是输入向量,是输出向量,是偏移向量,W是权重矩阵(也称系数),α()是激活函数。每一层仅仅是对输入向量经过如此简单的操作得到输出向量由于DNN层数多,则系数W和偏移向量的数量也就很多了。这些参数在DNN中的定义如下所述:以系数W为例:假设在一个三层的DNN中,第二层的第4个神经元到第三层的第2个神经元的线性系数定义为上标3代表系数W所在的层数,而下标对应的是输出的第三层索引2和输入的第二层索引4。总结就是:第L-1层的第k个神经元到第L层的第j个神经元的系数定义为需要注意的是,输入层是没有W参数的。在深度神经网络中,更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言,参数越多的模型复杂度越高,“容量”也就越大,也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程,其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。
(4)损失函数
在训练深度神经网络的过程中,因为希望深度神经网络的输出尽可能的接近真正想要预测的值,所以可以通过比较当前网络的预测值和真正想要的目标值,再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然,在第一次更新之前通常会有初始化的过程,即为深度神经网络中的各层预先配置参数),比如,如果网络的预测值高了,就调整权重向量让它预测低一些,不断的调整,直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此,就需要预先定义“如何比较预测值和目标值之间的差异”,这便是损失函数(loss function)或目标函数(objective function),它们是用于衡量预测值和目标值的差异的重要方程。其中,以损失函数举例,损失函数的输出值(loss)越高表示差异越大,那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。
(5)反向传播算法
卷积神经网络可以采用误差反向传播(back propagation,BP)算法在训练过程中修正初始的超分辨率模型中参数的大小,使得超分辨率模型的重建误差损失越来越小。具体地,前向传递输入信号直至输出会产生误差损失,通过反向传播误差损失信息来更新初始的超分辨率模型中参数,从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动,旨在得到最优的超分辨率模型的参数,例如权重矩阵。
序列信息可以称之为时间序列、动态序列等,是指将某种现象的指标数值按照时间顺序排列而成的数值序列,可以反映某个现象的发展变化状态。通过对时间序列的分析,可以反映现象发展变化的趋势和规律,再通过对影响时间序列的各种因素进行测定,可以进一步解释现象变化的内在原因,为预测和决策提供可靠的数据支持。
现有技术中,通过时序卷积网络(TCN)方法对序列信息进行处理,具体的,可以通过沿时间维度滑动的卷积核捕获时序特征,然而,小的有效感受野限制了它们的性能。最近,TimesNet提出将一维时间序列转换为基于多周期分量的二维张量,并通过2D内核对其进行建模,从而建模时序的周期性与长距离依赖。然而,多周期转换是一个参数冗余操作,增加了网络的参数量与计算量,也忽略了频域上的许多有价值的信息。从而导致网络的处理能力较低。
为了解决上述问题,本申请实施例提供了一种数据处理方法。下面结合附图对本申请实施例的数据处理方法进行详细的介绍。
参照图6A,图6A为本申请实施例提供的一种数据处理方法的流程示意,如图6A所示,本申请实施例提供的一种数据处理方法,可以包括步骤601至603,下面分别对这些步骤进行详细的描述。
601、获取时间序列信息。
其中,时间序列信息可以称之为时间序列、动态序列等,是指将某种现象的指标数值按照时间顺序排列而成的数值序列,可以反映某个现象的发展变化状态。
602、通过编码器处理所述时间序列信息,得到编码结果;其中,所述编码器包括目标网络层;所述目标网络层用于将所述时间序列信息的特征转换到频域,得到频谱信息;所述频谱信息包括多个频段以及频段对应的频域特征,根据所述频域特征,选择所述多个频段中的部分频段,并对所述部分频段的频域特征进行特征提取,得到处理结果,并将所述处理结果转换到时域,得到时域表示,所述时域表示用于作为所述编码结果或者通过特征提取得到所述编码结果。
其中,编码器可以包括多个网络层,不同网络层之间的结构可以相同或者存在差异。网络层可以执行时间序列信息的特征提取过程,例如网络层可以接收到相邻的上一个网络层得到的特征表示,并继续执行特征提取过程。
本申请实施例中,多个网络层可以包括目标网络层,目标网络层可以将所述时间序列信息的特征转换到频域,得到频谱信息。
在一种可能的实现中,可以对所述时间序列信息的特征在时域方向或数据维度方向上进行变换,以转换到频域。
例如,上述将时域特征转入频域的操作可以沿着时间的方向进行,此外,还可以进一步引入在数据维度方向获取维度方向的频域特征,或者通过同时建模时间与维度两个方向的频域特征。通过上述方式,可以学到多种类型的丰富的频域特征。
在一种可能的实现中,可以对所述时间序列信息的特征通过但不限于傅里叶变换、小波变换或者逆小波变换等方式,以转换到频域。
例如,上述将时域特征转入频域的操作可以使用傅里叶变换沿着时间的方向进行,此外,还可以进一步引入在维度方向的傅里叶变换获取维度方向的频域特征,或者通过二维傅里叶变换同时建模时间与维度两个方向的频域特征。通过上述方式,可以学到多种类型的丰富的频域特征。
在一种可能的实现中,所述频谱信息包括多个频段以及频段对应的频域特征,目标网络层可以根据所述频域特征,选择所述多个频段中的部分频段,并对所述部分频段的频域特征进行特征提取,得到处理结果(例如,在一种可能的实现中,所述特征提取为通过核Kernel对所述部分频段的频域特征进行的点乘操作。与卷积的不同点在于(1)此处Kernel和特征点乘之后没对结果取平均而是保留原始尺度,(2)此处没有滑动窗口操作。因此只是稀疏核对特征点乘进行特征提取。由于是对部分频段的特征进行特征提取,因此核可以称之为稀疏核)。
其中,仅对部分频段的频域特征进行特征提取,也就是进行稀疏化建模,可以在提升网络性能的同时降低计算量。具体的,由于大型稀疏核可以覆盖所有重要的频率,因此,可以捕获特征上的长期和短期依赖与不同周期信息,同时具备低计算复杂度。在这个过程中,即使只对显著频率部分进行稀疏操作,模型也会获得相似甚至更高的性能,同时使用更少的参数。
在一种可能的实现中,所述频域特征包括多个维度的特征,所述对所述部分频段的频域特征进行特征提取,包括:对所述部分频段的频域特征中所述多个维度中部分维度的特征进行特征提取。
也就是说,频域特征提取部分我们的特征提取方式还包含维度稀疏化。例如,在获得频域特征后,其中L为时域长度,为频域长度,C为维度数。我们的核Kernel尺度可以设置为此处K<C。此时Kernel对XF点乘的特征提取操作进行了稀疏化,仅在维度方向选取K个维度进行,其他的维度的特征保持不变。对这个K个维度的选取采取固定选取或者随机选取的方式,也可以通过可学习的方式使网络自适应进行选取。
在一种可能的实现中,可以根据所述频域特征,确定每个频段对应的幅值,选择所述多个频段中幅值最大的N个或者最小的N个频段。应理解,选择幅值最大或者最小的多个频段仅为一种示意,还可以通过其他规则选择部分频段,本申请并不限定。
其中,每个频段对应的幅值可以但不限于通过将频段对应的不同维度的特征值取平均得到。
在一种可能的实现中,可以最除了选择出的部分频段之外的其他频段的频域特征不做处理。
在一种可能的实现中,目标网络层可以将所述处理结果,转换到时域。
在一种可能的实现中,目标网络层可以将所述处理结果以及所述多个频段中除所述部分频段之外的其他频段的对应的频域特征,转换到时域。
本申请实施例中,为了对周期和全局信息进行建模,首先使用快速离散傅里叶变换算法将特征转换到频域。在频域上,时间序列特征不具备平移不变性,因此可以对频率特征进行全局建模。
示例性的,给定已经获取的时域特征XT,首先通过快速傅里叶变化(FFT)将其转化到频域得到频域特征XF:
XF=FFT(XT);
接下来按频谱中不同频段的赋值大小确定该频段的重要性:
A=Avg(Amp(XF));
其中,Amp(·)代表每个频段下不同维度的幅度,A代表每个频段的幅度(通过将该频段不同维度的值取平均得到)。按重要性可以选出最重要的频段:随机选,或者是其他的规则(例如,最低的K个)选。
其中,f*代表所选出频段的具体频率值。此后仅对所选出来的最重要的频段进行特征提取操作:
最后便可通过逆傅里叶变换将特征重新转回时域:
注意这里的频域特征包含了所有频段。
此外,本申请实施例中的编码器还可以包括嵌入层(本申请实施例可以称之为语义感知数据嵌入模块(SAEmbed)),用于处理高噪声原始数据,使用更多的卷积层和SE注意力层聚合局部信息同时增加特征信噪比,如图6B所示。通过该模块,可以有效提升模型在各种任务上的性能。
603、根据所述编码结果,通过任务网络,得到任务处理结果。
在一种可能的实现中,所述任务处理结果为对所述时间序列信息的长期或短期预测结果、对所述时间序列信息的编辑结果、对所述时间序列信息的异常检测结果或者对所述时间序列信息的分类结果。
上述对频域的处理除了使用大稀疏核外,还可以通过多层感知机(multilayerperceptron,MLP)完成,参照图7,图7为本申请实施例提供的一种数据处理方法的流程示意,如图7所示,本申请实施例提供的一种数据处理方法,可以包括步骤701至703,下面分别对这些步骤进行详细的描述。
701、获取时间序列信息;
关于步骤701的介绍可以参照上述实施例中步骤601的介绍,这里不再赘述。
702、通过编码器处理所述时间序列信息,得到编码结果;其中,所述编码器包括目标网络层;所述目标网络层用于将所述时间序列信息的特征转换到频域,得到频谱信息;所述频谱信息包括多个频段以及频段对应的频域特征,通过多层感知机MLP对所述频域特征进行处理,得到处理结果,并将所述处理结果转换到时域,得到时域表示,所述时域表示用于作为所述编码结果或者通过特征提取得到所述编码结果。
上述对频域的处理除了使用大稀疏核外,还可以通过MLP完成。其中在对频域特征使用MLP进行处理时可以沿着两个方向进行,分别为频域的频段与维度方向。
在一种可能的实现中,可以通过多层感知机MLP对所述频域特征在频段方向和/或数据维度方向上进行处理。
在一种可能的实现中,可以通过多层感知机MLP对所述部分频段的频域特征中所述多个维度中部分维度的特征进行处理。
703、根据所述编码结果,通过任务网络,得到任务处理结果。
在一种可能的实现中,所述任务处理结果为对所述时间序列信息的长期或短期预测结果、对所述时间序列信息的编辑结果、对所述时间序列信息的异常检测结果或者对所述时间序列信息的分类结果。
接下来结合实验介绍本申请实施例的有益效果:
在表1中对比了本申请实施例的方法在各大公开数据集基准上的长序列预测任务性能,结果显示本申请实施例的算法在长序列任务上相比其他方案具备较大的优势。
具体实施时将输入序列x∈RL×C通过零值填补为x∈R(L+n)×C,其中n为需要预测的序列的长度,然后按图6B的结构处理。最后的Linear层将维度C映射到k,其中k为预测变量的数量。
表1
表2显示了本申请实施例的方法在M4短序列预测基准上同样具备较高的性能。
具体实施时与长序列预测相同。
表2
表3列举了本申请实施例的算法在插补任务公开数据集基准上的性能对比,本申请实施例的方法在所有数据集上均取得了最好的效果。
具体实施时最后的Linear层将特征维度映射到k,其中k为变量的数量。
表3
表4列举了本申请实施例的算法在分类任务公开数据集基准上的性能对比,本申请实施例的方法取得了领先的性能。
具体实施时直接将图6B中最后一层Linear层的输出维度设置成类别数量即为该实施例模型。
表4
表5列举了本申请实施例的算法在异常检测任务公开数据集基准上的性能对比,,本申请实施例的方法同样取得了领先的性能。
具体实施时最后的Linear层将特征维度映射到k,其中k为变量的数量。
表5
在表6中演示了本申请实施例的FL模型与其他模型在参数、推理时间和FLOPs方面的效率对比,本申请实施例提出的FL在实现了最优性能的同时维持了非常高的效率。此外值得注意的是,本申请实施例的模型参数相对于序列长度增长缓慢,同时仍然比其他模型的参数少很多。此外,当序列长度非常长时(如3072),本申请实施例的模型在参数、推理时间和FLOPs方面实现了最优的效率。
表6
参照图8,图8为本申请实施例提供的一种数据处理装置的结构示意,如图8所示,本申请实施例提供的一种数据处理装置800,包括:
获取模块801,用于获取序列信息;
其中,关于获取模块801的具体描述可以参照上述实施例中步骤601的描述,这里不再赘述。
处理模块802,用于通过编码器处理所述时间序列信息,得到编码结果;其中,
所述编码器包括目标网络层;所述目标网络层用于将所述时间序列信息的特征转换到频域,得到频谱信息;所述频谱信息包括多个频段以及频段对应的频域特征,根据所述频域特征,选择所述多个频段中的部分频段,并对所述部分频段的频域特征进行特征提取,得到处理结果,并将所述处理结果转换到时域,得到时域表示,所述时域表示用于作为所述编码结果或者通过特征提取得到所述编码结果;
根据所述编码结果,通过任务网络,得到任务处理结果。
其中,关于处理模块802的具体描述可以参照上述实施例中步骤601至603的描述,这里不再赘述。
在一种可能的实现中,所述特征提取为通过核Kernel对所述部分频段的频域特征进行的点乘操作。
在一种可能的实现中,所述频域特征包括多个维度的特征,所述处理模块,具体用于:对所述部分频段的频域特征中所述多个维度中部分维度的特征进行特征提取。
在一种可能的实现中,所述将所述时间序列信息的特征转换到频域,包括:对所述时间序列信息的特征在时域方向和/或数据维度方向上进行变换,以转换到频域。
在一种可能的实现中,所述处理模块,具体用于:
对所述时间序列信息的特征通过傅里叶变换或者小波变换,以转换到频域。
在一种可能的实现中,所述处理模块,具体用于:
根据所述频域特征,确定每个频段对应的幅值,选择所述多个频段中幅值最大的N个或者最小的N个频段。
在一种可能的实现中,所述处理模块,具体用于:
将所述处理结果以及所述多个频段中除所述部分频段之外的其他频段的对应的频域特征,转换到时域。
在一种可能的实现中,所述编码器还包括嵌入层;
所述嵌入层包括多个卷积核和SE注意力层。
在一种可能的实现中,所述任务处理结果为对所述时间序列信息的长期或短期预测结果、对所述时间序列信息的编辑结果、对所述时间序列信息的异常检测结果或者对所述时间序列信息的分类结果。
本申请实施例还提供了一种数据处理装置,所述装置包括:
获取模块,用于获取时间序列信息;
处理模块,用于通过编码器处理所述时间序列信息,得到编码结果;其中,
所述编码器包括目标网络层;所述目标网络层用于将所述时间序列信息的特征转换到频域,得到频谱信息;所述频谱信息包括多个频段以及频段对应的频域特征,通过多层感知机MLP对所述频域特征进行处理,得到处理结果,并将所述处理结果转换到时域,得到时域表示,所述时域表示用于作为所述编码结果或者通过特征提取得到所述编码结果;
根据所述编码结果,通过任务网络,得到任务处理结果。
在一种可能的实现中,所述通过多层感知机MLP对所述频域特征进行处理,包括:通过多层感知机MLP对所述频域特征在频段方向和/或数据维度方向上进行处理。
在一种可能的实现中,所述频域特征包括多个维度的特征,所述处理模块,具体用于:对所述部分频段的频域特征中所述多个维度中部分维度的特征进行特征提取。
在一种可能的实现中,所述任务处理结果为对所述时间序列信息的长期或短期预测结果、对所述时间序列信息的编辑结果、对所述时间序列信息的异常检测结果或者对所述时间序列信息的分类结果。
接下来介绍本申请实施例提供的一种执行设备,请参阅图9,图9为本申请实施例提供的执行设备的一种结构示意图,执行设备900具体可以表现为虚拟现实VR设备、手机、平板、笔记本电脑、智能穿戴设备、监控数据处理设备或服务器等,此处不做限定。具体的,执行设备900包括:接收器901、发射器902、处理器903和存储器904(其中执行设备900中的处理器903的数量可以一个或多个,图9中以一个处理器为例),其中,处理器903可以包括应用处理器9031和通信处理器9032。在本申请的一些实施例中,接收器901、发射器902、处理器903和存储器904可通过总线或其它方式连接。
存储器904可以包括只读存储器和随机存取存储器,并向处理器903提供指令和数据。存储器904的一部分还可以包括非易失性随机存取存储器(non-volatile randomaccess memory,NVRAM)。存储器904存储有处理器和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集,其中,操作指令可包括各种操作指令,用于实现各种操作。
处理器903控制执行设备的操作。具体的应用中,执行设备的各个组件通过总线系统耦合在一起,其中总线系统除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都称为总线系统。
上述本申请实施例揭示的方法可以应用于处理器903中,或者由处理器903实现。处理器903可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器903中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器903可以是通用处理器、数字信号处理器(digital signal processing,DSP)、微处理器或微控制器,还可进一步包括专用集成电路(application specific integratedcircuit,ASIC)、现场可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。该处理器903可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器904,处理器903读取存储器904中的信息,结合其硬件完成上述方法中涉及模型推理过程的步骤。
接收器901可用于接收输入的数字或字符信息,以及产生与执行设备的相关设置以及功能控制有关的信号输入。发射器902可用于通过第一接口输出数字或字符信息;发射器902还可用于通过第一接口向磁盘组发送指令,以修改磁盘组中的数据;发射器902还可以包括显示屏等显示设备。
本申请实施例还提供了一种训练设备,请参阅图10,图10是本申请实施例提供的训练设备一种结构示意图,具体的,训练设备1000由一个或多个服务器实现,训练设备1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)1010(例如,一个或一个以上处理器)和存储器1032,一个或一个以上存储应用程序1042或数据1044的存储介质1030(例如一个或一个以上海量存储设备)。其中,存储器1032和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对训练设备中的一系列指令操作。更进一步地,中央处理器1010可以设置为与存储介质1030通信,在训练设备1000上执行存储介质1030中的一系列指令操作。
训练设备1000还可以包括一个或一个以上电源1026,一个或一个以上有线或无线网络接口1050,一个或一个以上输入输出接口1058;或,一个或一个以上操作系统1041,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本申请实施例中,中央处理器1010,用于执行上述实施例中和模型训练相关的动作。
本申请实施例中还提供一种包括计算机程序产品,当其在计算机上运行时,使得计算机执行如前述执行设备所执行的步骤,或者,使得计算机执行如前述训练设备所执行的步骤。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有用于进行信号处理的程序,当其在计算机上运行时,使得计算机执行如前述执行设备所执行的步骤,或者,使得计算机执行如前述训练设备所执行的步骤。
本申请实施例提供的执行设备、训练设备或终端设备具体可以为芯片,芯片包括:处理单元和通信单元,所述处理单元例如可以是处理器,所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令,以使执行设备内的芯片执行上述实施例描述的数据处理方法,或者,以使训练设备内的芯片执行上述实施例描述的数据处理方法。可选地,所述存储单元为所述芯片内的存储单元,如寄存器、缓存等,所述存储单元还可以是所述无线接入设备端内的位于所述芯片外部的存储单元,如只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)等。
具体的,请参阅图11,图11为本申请实施例提供的芯片的一种结构示意图,所述芯片可以表现为神经网络处理器NPU 1100,NPU 1100作为协处理器挂载到主CPU(Host CPU)上,由Host CPU分配任务。NPU的核心部分为运算电路1103,通过控制器1104控制运算电路1103提取存储器中的矩阵数据并进行乘法运算。
在一些实现中,运算电路1103内部包括多个处理单元(Process Engine,PE)。在一些实现中,运算电路1103是二维脉动阵列。运算电路1103还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中,运算电路1103是通用的矩阵处理器。
举例来说,假设有输入矩阵A,权重矩阵B,输出矩阵C。运算电路从权重存储器1102中取矩阵B相应的数据,并缓存在运算电路中每一个PE上。运算电路从输入存储器1101中取矩阵A数据与矩阵B进行矩阵运算,得到的矩阵的部分结果或最终结果,保存在累加器(accumulator)1108中。
统一存储器1106用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(Direct Memory Access Controller,DMAC)1105,DMAC被搬运到权重存储器1102中。输入数据也通过DMAC被搬运到统一存储器1106中。
BIU为Bus Interface Unit即,总线接口单元1110,用于AXI总线与DMAC和取指存储器(Instruction Fetch Buffer,IFB)1109的交互。
总线接口单元1110(Bus Interface Unit,简称BIU),用于取指存储器1109从外部存储器获取指令,还用于存储单元访问控制器1105从外部存储器获取输入矩阵A或者权重矩阵B的原数据。
DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器1106或将权重数据搬运到权重存储器1102中或将输入数据数据搬运到输入存储器1101中。
向量计算单元1107包括多个运算处理单元,在需要的情况下,对运算电路1103的输出做进一步处理,如向量乘,向量加,指数运算,对数运算,大小比较等等。主要用于神经网络中非卷积/全连接层网络计算,如Batch Normalization(批归一化),像素级求和,对特征平面进行上采样等。
在一些实现中,向量计算单元1107能将经处理的输出的向量存储到统一存储器1106。例如,向量计算单元1107可以将线性函数;或,非线性函数应用到运算电路1103的输出,例如对卷积层提取的特征平面进行线性插值,再例如累加值的向量,用以生成激活值。在一些实现中,向量计算单元1107生成归一化的值、像素级求和的值,或二者均有。在一些实现中,处理过的输出的向量能够用作到运算电路1103的激活输入,例如用于在神经网络中的后续层中的使用。
控制器1104连接的取指存储器(instruction fetch buffer)1109,用于存储控制器1104使用的指令;
统一存储器1106,输入存储器1101,权重存储器1102以及取指存储器1109均为On-Chip存储器。外部存储器私有于该NPU硬件架构。
其中,上述任一处提到的处理器,可以是一个通用中央处理器,微处理器,ASIC,或一个或多个用于控制上述程序执行的集成电路。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本申请提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,训练设备,或者网络设备等)执行本申请各个实施例所述的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、训练设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、训练设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。
Claims (15)
1.一种数据处理方法,其特征在于,所述方法包括:
获取时间序列信息;
通过编码器处理所述时间序列信息,得到编码结果;其中,
所述编码器包括目标网络层;所述目标网络层用于将所述时间序列信息的特征转换到频域,得到频谱信息;所述频谱信息包括多个频段以及频段对应的频域特征,根据所述频域特征,选择所述多个频段中的部分频段,并对所述部分频段的频域特征进行特征提取,得到处理结果,并将所述处理结果转换到时域,得到时域表示,所述时域表示用于作为所述编码结果或者通过特征提取得到所述编码结果;
根据所述编码结果,通过任务网络,得到任务处理结果。
2.根据权利要求1所述的方法,其特征在于,所述特征提取为通过核Kernel对所述部分频段的频域特征进行的点乘操作。
3.根据权利要求1或2所述的方法,其特征在于,所述频域特征包括多个维度的特征,所述对所述部分频段的频域特征进行特征提取,包括:对所述部分频段的频域特征中所述多个维度中部分维度的特征进行特征提取。
4.根据权利要求1至3任一所述的方法,其特征在于,所述将所述时间序列信息的特征转换到频域,包括:对所述时间序列信息的特征在时域方向和/或数据维度方向上进行变换,以转换到频域。
5.根据权利要求1至4任一所述的方法,其特征在于,所述根据所述频域特征,选择所述多个频段中的部分频段,包括:
根据所述频域特征,确定每个频段对应的幅值,选择所述多个频段中幅值最大的N个或者最小的N个频段。
6.根据权利要求1至5任一所述的方法,其特征在于,所述将所述处理结果转换到时域,包括:
将所述处理结果以及所述多个频段中除所述部分频段之外的其他频段的对应的频域特征,转换到时域。
7.根据权利要求1至6任一所述的方法,其特征在于,所述编码器还包括嵌入层;
所述嵌入层包括多个卷积核和SE注意力层。
8.根据权利要求1至7任一所述的方法,其特征在于,所述任务处理结果为对所述时间序列信息的长期或短期预测结果、对所述时间序列信息的编辑结果、对所述时间序列信息的异常检测结果或者对所述时间序列信息的分类结果。
9.一种数据处理方法,其特征在于,所述方法包括:
获取时间序列信息;
通过编码器处理所述时间序列信息,得到编码结果;其中,
所述编码器包括目标网络层;所述目标网络层用于将所述时间序列信息的特征转换到频域,得到频谱信息;所述频谱信息包括多个频段以及频段对应的频域特征,通过多层感知机MLP对所述频域特征进行处理,得到处理结果,并将所述处理结果转换到时域,得到时域表示,所述时域表示用于作为所述编码结果或者通过特征提取得到所述编码结果;
根据所述编码结果,通过任务网络,得到任务处理结果。
10.根据权利要求9所述的方法,其特征在于,所述通过多层感知机MLP对所述频域特征进行处理,包括:通过多层感知机MLP对所述频域特征在频段方向和/或数据维度方向上进行处理。
11.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取时间序列信息;
处理模块,用于通过编码器处理所述时间序列信息,得到编码结果;其中,
所述编码器包括目标网络层;所述目标网络层用于将所述时间序列信息的特征转换到频域,得到频谱信息;所述频谱信息包括多个频段以及频段对应的频域特征,根据所述频域特征,选择所述多个频段中的部分频段,并对所述部分频段的频域特征进行特征提取,得到处理结果,并将所述处理结果转换到时域,得到时域表示,所述时域表示用于作为所述编码结果或者通过特征提取得到所述编码结果;
根据所述编码结果,通过任务网络,得到任务处理结果。
12.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取时间序列信息;
处理模块,用于通过编码器处理所述时间序列信息,得到编码结果;其中,
所述编码器包括目标网络层;所述目标网络层用于将所述时间序列信息的特征转换到频域,得到频谱信息;所述频谱信息包括多个频段以及频段对应的频域特征,通过多层感知机MLP对所述频域特征进行处理,得到处理结果,并将所述处理结果转换到时域,得到时域表示,所述时域表示用于作为所述编码结果或者通过特征提取得到所述编码结果;
根据所述编码结果,通过任务网络,得到任务处理结果。
13.一种计算机存储介质,其特征在于,所述计算机存储介质存储有一个或多个指令,所述指令在由一个或多个计算机执行时使得所述一个或多个计算机执行权利要求1至10中任一项所述方法的操作。
14.一种计算机程序产品,其特征在于,包括计算机可读指令,当所述计算机可读指令在计算机设备上运行时,使得所述计算机设备执行如权利要求1至10任一所述的方法。
15.一种系统,包括至少一个处理器,至少一个存储器;所述处理器、所述存储器通过通信总线连接并完成相互间的通信;
所述至少一个存储器用于存储代码;
所述至少一个处理器用于执行所述代码,以执行如权利要求1至10任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311284077.1A CN117391138A (zh) | 2023-09-28 | 2023-09-28 | 一种数据处理方法及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311284077.1A CN117391138A (zh) | 2023-09-28 | 2023-09-28 | 一种数据处理方法及其装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117391138A true CN117391138A (zh) | 2024-01-12 |
Family
ID=89469357
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311284077.1A Pending CN117391138A (zh) | 2023-09-28 | 2023-09-28 | 一种数据处理方法及其装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117391138A (zh) |
-
2023
- 2023-09-28 CN CN202311284077.1A patent/CN117391138A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113065636B (zh) | 一种卷积神经网络的剪枝处理方法、数据处理方法及设备 | |
CN112183718B (zh) | 一种用于计算设备的深度学习训练方法和装置 | |
CN112418392A (zh) | 一种神经网络构建方法以及装置 | |
WO2023231794A1 (zh) | 一种神经网络参数量化方法和装置 | |
CN112529149B (zh) | 一种数据处理方法及相关装置 | |
CN115512005A (zh) | 一种数据处理方法及其装置 | |
CN116737895A (zh) | 一种数据处理方法及相关设备 | |
CN116401552A (zh) | 一种分类模型的训练方法及相关装置 | |
CN117807472A (zh) | 一种数据处理方法及相关装置 | |
CN117273074A (zh) | 一种数据处理方法及其装置 | |
CN116258651A (zh) | 一种图像处理方法及相关装置 | |
CN117746047A (zh) | 一种图像处理方法及其相关设备 | |
CN115866291A (zh) | 一种数据处理方法及其装置 | |
CN117391138A (zh) | 一种数据处理方法及其装置 | |
CN113065638A (zh) | 一种神经网络压缩方法及其相关设备 | |
CN117350913A (zh) | 一种数据处理方法及其装置 | |
WO2024055952A1 (zh) | 一种数据处理方法及其装置 | |
CN117765341A (zh) | 一种数据处理方法及相关装置 | |
CN117251592A (zh) | 一种数据处理方法及其装置 | |
CN116542289A (zh) | 一种数据处理方法及其装置 | |
CN116433621A (zh) | 一种数据处理方法及其装置 | |
CN117669691A (zh) | 一种数据处理方法及其装置 | |
CN116521931A (zh) | 一种数据处理方法及相关设备 | |
CN116861968A (zh) | 一种数据处理方法及其装置 | |
CN116309074A (zh) | 一种数据处理方法及其装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |