CN113239990A - 对序列数据进行特征处理的方法、装置及存储介质 - Google Patents
对序列数据进行特征处理的方法、装置及存储介质 Download PDFInfo
- Publication number
- CN113239990A CN113239990A CN202110457559.7A CN202110457559A CN113239990A CN 113239990 A CN113239990 A CN 113239990A CN 202110457559 A CN202110457559 A CN 202110457559A CN 113239990 A CN113239990 A CN 113239990A
- Authority
- CN
- China
- Prior art keywords
- sequence data
- vector
- similarity
- feature vectors
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012545 processing Methods 0.000 title claims abstract description 28
- 238000003860 storage Methods 0.000 title claims abstract description 20
- 239000013598 vector Substances 0.000 claims abstract description 188
- 238000009826 distribution Methods 0.000 claims abstract description 87
- 238000010606 normalization Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 241001164374 Calyx Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Fuzzy Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种对序列数据进行特征处理的方法、装置及存储介质,其中该方法包括:获取多个序列数据,并两两比较各序列数据的相似度,得到所述多个序列数据的相似度分布,其中,序列数据至少有3个;为所述多个序列数据中的每一个序列数据初始化一个特征向量,并两两比较各特征向量的相似度,得到所述多个序列数据的特征向量的相似度分布,其中,各特征向量的维度相同;对所述多个序列数据的特征向量进行至少一次迭代,以使所述多个序列数据的特征向量的相似度分布趋向于所述多个序列数据的相似度分布,并在预设条件下停止迭代,将迭代得到的特征向量作为对应序列数据的特征编码。上述方法具有通用性和可解释性。
Description
技术领域
本申请属于人工智能领域,具体涉及对序列数据进行特征处理的方法、装置及计算机可读存储介质。
背景技术
本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认其为现有技术。
在数据挖掘的各项任务中,为了训练模型(如分类器),我们通常需要确定出大量样本的特征。这些特征一般情况下都具有相同的维度。例如对于分类器,本质上是学习一个映射:
x→y,
例如,在经典的iris鸢尾花数据集中,每条记录(即每一个样本)都有4项特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度。分类器可以通过这4个特征预测鸢尾花卉属于哪一品种。
目前几乎所有算法,都需要保证每一个样本均具有相同维度的特征。但是现实中的很多样本是具有不相同的维度的特征。
例如,对于人的行为轨迹序列,可能甲一天内去过三个地方,乙一天去过四个地方,那么甲乙两人的行为轨迹序列的长度不一致,无法直接作为模型的输入。
发明内容
针对上述现有技术的问题,本申请实施例提出了一种对序列数据进行特征处理的方法、装置及计算机可读存储介质。利用这种方法及装置,能够至少部分解决上述问题。
本申请的实施例中提供了以下方案:一种对序列数据进行特征处理的方法,包括:
获取多个序列数据,并两两比较各序列数据的相似度,得到所述多个序列数据的相似度分布,其中,序列数据至少有3个;
为所述多个序列数据中的每一个序列数据初始化一个特征向量,并两两比较各特征向量的相似度,得到所述多个序列数据的特征向量的相似度分布,其中,各特征向量的维度相同;
对所述多个序列数据的特征向量进行至少一次迭代,以使所述多个序列数据的特征向量的相似度分布趋向于所述多个序列数据的相似度分布,并在预设条件下停止迭代,将迭代得到的特征向量作为对应序列数据的特征编码。
本申请的实施例中提供了以下方案:一种对序列数据进行特征处理的装置,包括:
第一分布数据确定模块,用于获取多个序列数据,并两两比较各序列数据的相似度,得到所述多个序列数据的相似度分布,其中,序列数据至少有3个;
第二分布数据确定模块,用于为所述多个序列数据中的每一个序列数据初始化一个特征向量,并两两比较各特征向量的相似度,得到所述多个序列数据的特征向量的相似度分布,其中,各特征向量的维度相同;
迭代更新模块,用于对所述多个序列数据的特征向量进行至少一次迭代,以使所述多个序列数据的特征向量的相似度分布趋向于所述多个序列数据的相似度分布,并在预设条件下停止迭代,将迭代得到的特征向量作为对应序列数据的特征编码。
本申请的实施例中提供了以下方案:一种对序列数据进行特征处理的装置,包括:
至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行:前述的方法。
本申请的实施例中提供了以下方案:一种计算机可读存储介质,所述计算机可读存储介质存储有程序,当所述程序被处理器执行时,使得所述处理器执行:前述的方法。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:对于多个序列数据,不论序列数据的长度如何,均可按照现有技术两两比较序列数据之间的相似度,故可以得到确定的序列数据的相似度分布;不论这些序列数据自身的维度是什么样的,均可以在固定维度的空间内为每一个序列数据分配一个点(也就相当于分配一个特征向量),由于这些特征向量的维度是固定的,也可以按照现有技术两两比较序列数据的特征向量的相似度;序列数据的相似度分布与序列数据的特征向量的相似度分布越接近,则表明为序列数据分配的特征向量越符合序列数据彼此之间的相对关系,也就是为序列数据分配的特征向量越能符合该序列数据的特征;故可以在特征向量的空间内进行搜索,寻找到最符合序列数据彼此之间关系的一组特征向量,作为对应的序列数据的特征编码。为序列数据分配特征编码的过程具有通用性以及可解释性。
应当理解,上述说明仅是本申请技术方案的概述,以便能够更清楚地了解本申请的技术手段,从而可依照说明书的内容予以实施。为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举例说明本申请的具体实施方式。
附图说明
通过阅读下文的示例性实施例的详细描述,本领域普通技术人员将明白本文所述的优点和益处以及其他优点和益处。附图仅用于示出示例性实施例的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的标号表示相同的部件。在附图中:
图1本申请实施例的对序列数据进行特征处理的方法的流程示意图;
图2是一个距离矩阵的最短距离的示意图;
图3为根据本申请一实施例的对序列数据进行特征处理的装置的结构示意图;
图4为根据本申请另一实施例的对序列数据进行特征处理的装置的结构示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
在本申请中,应理解,诸如“包括”或“具有”等术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在的可能性。
另外还需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1为根据本申请一实施例的对序列数据进行特征处理的方法的流程示意图,该方法用于为多个序列数据分别分配一个等维度的特征编码,在该流程中,从设备角度而言,执行主体可以是一个或者多个电子设备;从程序角度而言,执行主体相应地可以是搭载于这些电子设备上的程序。
图1中的流程可以包括以下步骤101~步骤103。
步骤101、获取多个序列数据,并两两比较各序列数据的相似度,得到所述多个序列数据的相似度分布,其中,序列数据至少有3个;
步骤102、为所述多个序列数据中的每一个序列数据初始化一个特征向量,并两两比较各特征向量的相似度,得到所述多个序列数据的特征向量的相似度分布,其中,各特征向量的维度相同;
步骤103、对所述多个序列数据的特征向量进行至少一次迭代,以使所述多个序列数据的特征向量的相似度分布趋向于所述多个序列数据的相似度分布,并在预设条件下停止迭代,将迭代得到的特征向量作为对应序列数据的特征编码。
对于多个序列数据,不论序列数据的长度如何,均可按照现有技术两两比较序列数据之间的相似度,故可以得到确定的序列数据的相似度分布;不论这些序列数据自身的长度是什么样的,均可以在固定维度的空间内为每一个序列数据分配一个点(也就相当于分配一个特征向量),由于这些特征向量的维度是固定的,也可以按照现有技术两两比较序列数据的特征向量的相似度;序列数据的相似度分布与序列数据的特征向量的相似度分布越接近,则表明为序列数据分配的特征向量越符合序列数据彼此之间的相对关系,也就是为序列数据分配的特征向量越能符合该序列数据的特征;故可以在特征向量的空间内进行搜索,寻找到最符合序列数据彼此之间关系的一组特征向量,作为对应的序列数据的特征编码。为序列数据分配特征编码的过程具有通用性以及可解释性。
基于图1的对序列数据进行特征处理的方法,本申请的一些实施例还提供了该方法的一些具体实施方案,以及扩展方案,下面进行说明。
在一些实施例中,采用动态时间规整算法(Dynamic Time Warping,DTW)计算任意两个序列数据的相似度,或者计算任意两个序列数据的Jaccard系数作为对应的相似度。当然,不论两个序列数据的长度是否相等,根据现有技术均能够评价二者的相似度。
在一些实施例中,为所述多个序列数据中的每一个序列数据初始化一个特征向量,包括:为所述多个序列数据中的每一个序列数据初始化一个随机的特征向量。
即在特征向量的空间内,为每一个序列数据随机分配一个点。随后逐步挪动这些点的位置,使得序列数据的特征向量的相似度分布与序列数据的相似度分布趋于一致。
当然,作为为序列数据搜索最优的特征编码的起点,为序列数据分配特征向量时,也可以同时参考序列数据的一些特征。
例如,为所述多个序列数据中的每一个序列数据初始化一个随机的特征向量时,全部特征向量的全部分量满足均值为0、方差为1的正态分布。
又例如,为所述多个序列数据中的每一个序列数据初始化一个随机的特征向量时,全部特征向量的全部分量满足泊松分布。
在一些实施例中,所述多个序列数据的相似度分布按照如下方式确定:
将各序列数据两两比较得到的相似度按照预定顺序排列构成第一向量,并对第一向量进行归一化,将归一化的第一向量作为所述多个序列数据的相似度分布;
所述多个序列数据的特征向量的相似度分布按照如下方式确定:
将各序列数据的特征向量两两比较得到的相似度按照预定顺序排列构成第二向量,并对第二向量进行归一化,将归一化的第二向量作为所述多个序列数据的特征向量的相似度分布;
其中,所述第一向量和所第二向量中相同位置的分量对应相同的两个序列数据,对第一向量和第二特征向量采用相同的归一化方法。
以上归一化的方法例如是第一向量的所有分量的和为1,第二向量的所有分量的和为1。当然,归一化的方法也可以是第一向量的所有分量的平方和为1,第二向量的所有分量的平方和为1。
在一些实施例中,采用KL散度评价所述多个序列数据的特征向量的相似度分布与所述多个序列数据的相似度分布的差异,对所述多个序列数据的特征向量进行至少一次迭代的目的是使所述KL散度趋于0。
当然,比较两个相似度分布的差异大小的方法不限于此,例如将前述第一向量与第二向量做差,计算差向量的模。迭代的目的是使得差向量的模趋于0。
在一些实施例中,在预设条件下停止迭代,包括:当所述KL散度小于预设值时停止迭代,或者,当迭代次数达到预设值时停止迭代。
在一些实施例中,所述多个序列数据中至少两个序列数据的长度不等,或者,所述多个序列数据长度均相等。即以上方法既适用于等长的序列数据进行特征编码,也适用于对非等长的序列数据进行特征编码。
在一些实施例中,所述特征向量的维度大于等于2,且小于序列数据的个数。即对这些序列数据进行特征编码是一个降维的过程。当然,特征向量的维度也可以是等于序列数据的个数。
以下介绍一个对序列数据进行特征处理的实例。
对于两个序列数据a=(a1,a2,…,am)和b=(b1,b2,…,bn),计算这两个序列数据的距离矩阵D(a,b),其中
矩阵D(a,b)中的每个元素d(ai,bj)都表示序列数据a中的元素ai与序列数据b中的元素bj的距离。本实施例中采用欧式距离,即d(ai,bj)=|ai-bj|,但也可以采用其它距离代替。
用动态规划算法,找到矩阵D(a,b)中d(a1,b1)到d(am,bn)的最短距离,即为两个序列数据的“距离”,定义为dist(a,b)。因此,本方案进一步定义两个序列数据a和b的相似度为
第三步、定义不等长序列的相似度分布p,使得对任意的序列a, 定义等长特征向量的相似度分布q,使得对任意的序列a,的特征向量n(a),m(b),有q(a,b)=em(a)·m(b)。然后再对p(a,b)和q(a,b)归一化。
第四步、首先计算第三步中的两个相似度分布p和q的KL散度:
定义迭代的目标函数为最小化KL散度:
可以通过负采样和Adam算法优化上式,不断迭代,更新各序列数据的特征向量m(a),使得两个相似度分布p和q的KL散度趋于0。
以下以序列数据a=(1,3,5),b=(1,2,4,8),c=(7,2)为例对上述过程进行说明。当然,在进行数据挖掘的多数情况下,序列数据的数量是远大于3的。
第一步中,计算序列数据a和b距离矩阵为
这两个序列数据的距离矩阵的最短路径在图2中示出。
则序列数据a和b的距离dist(a,b)=0+1+1+3=5。类似地,可以得到序列数据a和c的距离dist(a,c)=9,序列数据b和c的距离dist(b,c)=14。进一步计算任意两个序列数据的相似度为
在第二步中,分别随机初始化序列a,b,c的特征向量m(a)、m(b)和m(c),这里指定特征向量的维度为3。由于序列数据共3个,特征向量也可以是二维的。三个特征向量分为为:
m(a)=(0.304,-0.286,0.076),
m(b)=(1.766,-0.259,2.245),
m(c)=(0.698,1.719,-0.193)。
在第三步中,首先计算序列数据的相似度分布为:
然后计算特征向量的相似度分布为:
q(a,b)=em(a)·m(b)=2.185,
q(a,c)=em(a)·m(c)=0.745,
q(b,c)=em(b)·m(c)=1.425.
将其归一化为
在第四步中,计算上述两个相似度分布之间的KL散度:
迭代优化的目标就是最小化上述的KL(p||q),使其逼近0。这里需要注意的是,序列数据的相似度分布p是提前确定的,因此固定不变的。而特征向量的相似度分布所依赖的特征向量是随机初始化的,是可以变动。在最小化KL散度的时候,只更新m(a),m(b),m(c)。优化目标为最小化:
其中Z=em(a)·m(b)+em(a)·m(c)+em(b)·m(c)。
在该例子中,采用梯度下降法更新特征向量,步长α为0.1。第一次迭代的过程如下:
更新各序列数据的特征向量后,重新计算上述KL散度:
反复执行第四步,直至上述KL散度收敛,最后得到的m(a),m(b),m(c)就分别是序列数据a,b,c的特征编码。
基于相同的技术构思,本申请实施例还提供一种一种对序列数据进行特征处理的装置,用于执行上述任一实施例所提供的方法。图3为本申请实施例提供的一种对序列数据进行特征处理的装置的结构示意图。
该对序列数据进行特征处理的装置包括:
第一分布数据确定模块1,用于获取多个序列数据,并两两比较各序列数据的相似度,得到所述多个序列数据的相似度分布,其中,序列数据至少有3个;
第二分布数据确定模块2,用于为所述多个序列数据中的每一个序列数据初始化一个特征向量,并两两比较各特征向量的相似度,得到所述多个序列数据的特征向量的相似度分布,其中,各特征向量的维度相同;
迭代更新模块3,用于对所述多个序列数据的特征向量进行至少一次迭代,以使所述多个序列数据的特征向量的相似度分布趋向于所述多个序列数据的相似度分布,并在预设条件下停止迭代,将迭代得到的特征向量作为对应序列数据的特征编码。
在一些实施例中,采用动态时间规整算法计算任意两个序列数据的相似度,或者计算任意两个序列数据的Jaccard系数作为对应的相似度。
在一些实施例中,第二分布数据确定模块具体用于:为所述多个序列数据中的每一个序列数据初始化一个随机的特征向量。
在一些实施例中,为所述多个序列数据中的每一个序列数据初始化一个随机的特征向量时,全部特征向量的全部分量满足均值为0、方差为1的正态分布。
在一些实施例中,为所述多个序列数据中的每一个序列数据初始化一个随机的特征向量时,全部特征向量的全部分量满足泊松分布。
在一些实施例中,所述多个序列数据的相似度分布按照如下方式确定:
将各序列数据两两比较得到的相似度按照预定顺序排列构成第一向量,并对第一向量进行归一化,将归一化的第一向量作为所述多个序列数据的相似度分布;
所述多个序列数据的特征向量的相似度分布按照如下方式确定:
将各序列数据的特征向量两两比较得到的相似度按照预定顺序排列构成第二向量,并对第二向量进行归一化,将归一化的第二向量作为所述多个序列数据的特征向量的相似度分布;
其中,所述第一向量和所第二向量中相同位置的分量对应相同的两个序列数据,对第一向量和第二特征向量采用相同的归一化方法。
在一些实施例中,采用KL散度评价所述多个序列数据的特征向量的相似度分布与所述多个序列数据的相似度分布的差异,对所述多个序列数据的特征向量进行至少一次迭代的目的是使所述KL散度趋于0。
在一些实施例中,在预设条件下停止迭代,包括:当所述KL散度小于预设值时停止迭代,或者,当迭代次数达到预设值时停止迭代。
在一些实施例中,所述多个序列数据中至少两个序列数据的长度不等,或者,所述多个序列数据长度均相等。
在一些实施例中,所述特征向量的维度大于等于2,且小于序列数据的个数。
需要说明的是,本申请实施例中的对序列数据进行特征处理的装置可以实现前述对序列数据进行特征处理的方法的实施例的各个过程,并达到相同的效果和功能,这里不再赘述。
图4为根据本申请一实施例的对序列数据进行特征处理的装置,用于执行图1所示出的方法,该装置包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行:前述的对序列数据进行特征处理的方法。
根据本申请的一些实施例,提供了用于执行前述方法的非易失性计算机存储介质,其上存储有计算机可执行指令,该计算机可执行指令设置为在由处理器运行时执行:前述的对序列数据进行特征处理的方法。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以其描述进行了简化,相关之处可参见方法实施例的部分说明即可。
本申请实施例提供的装置和计算机可读存储介质与方法是一一对应的,因此,装置和计算机可读存储介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述装置和计算机可读存储介质的有益技术效果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本申请的精神和原理,但是应该理解,本申请并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本申请旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
Claims (24)
1.一种对序列数据进行特征处理的方法,其特征在于,包括:
获取多个序列数据,并两两比较各序列数据的相似度,得到所述多个序列数据的相似度分布,其中,序列数据至少有3个;
为所述多个序列数据中的每一个序列数据初始化一个特征向量,并两两比较各特征向量的相似度,得到所述多个序列数据的特征向量的相似度分布,其中,各特征向量的维度相同;
对所述多个序列数据的特征向量进行至少一次迭代,以使所述多个序列数据的特征向量的相似度分布趋向于所述多个序列数据的相似度分布,并在预设条件下停止迭代,将迭代得到的特征向量作为对应序列数据的特征编码。
2.根据权利要求1所述的方法,其特征在于,采用动态时间规整算法计算任意两个序列数据的相似度,或者计算任意两个序列数据的Jaccard系数作为其对应的相似度。
3.根据权利要求1所述的方法,其特征在于,为所述多个序列数据中的每一个序列数据初始化一个特征向量,包括:为所述多个序列数据中的每一个序列数据初始化一个随机的特征向量。
4.根据权利要求3所述的方法,其特征在于,为所述多个序列数据中的每一个序列数据初始化一个随机的特征向量时,全部特征向量的全部分量满足均值为0、方差为1的正态分布。
5.根据权利要求3所述的方法,其特征在于,为所述多个序列数据中的每一个序列数据初始化一个随机的特征向量时,全部特征向量的全部分量满足泊松分布。
6.根据权利要求1所述的方法,其特征在于,所述多个序列数据的相似度分布按照如下方式确定:
将各序列数据两两比较得到的相似度按照预定顺序排列构成第一向量,并对第一向量进行归一化,将归一化的第一向量作为所述多个序列数据的相似度分布;
所述多个序列数据的特征向量的相似度分布按照如下方式确定:
将各序列数据的特征向量两两比较得到的相似度按照预定顺序排列构成第二向量,并对第二向量进行归一化,将归一化的第二向量作为所述多个序列数据的特征向量的相似度分布;
其中,所述第一向量和所第二向量中相同位置的分量对应相同的两个序列数据,对第一向量和第二特征向量采用相同的归一化方法。
7.根据权利要求6所述的方法,其特征在于,归一化后的第一向量各分量之和等于1,归一化后的第二向量各分量之和等于1。
8.根据权利要求6所述的方法,其特征在于,采用KL散度评价所述多个序列数据的特征向量的相似度分布与所述多个序列数据的相似度分布的差异,对所述多个序列数据的特征向量进行至少一次迭代的目的是使所述KL散度趋于0。
9.根据权利要求8所述的方法,其特征在于,在预设条件下停止迭代,包括:当所述KL散度小于预设值时停止迭代,或者,当迭代次数达到预设值时停止迭代。
10.根据权利要求1所述的方法,其特征在于,所述多个序列数据中至少两个序列数据的长度不等,或者,所述多个序列数据长度均相等。
11.根据权利要求1所述的方法,其特征在于,所述特征向量的维度大于等于2,且小于序列数据的个数。
12.一种对序列数据进行特征处理的装置,其特征在于,包括:
第一分布数据确定模块,用于获取多个序列数据,并两两比较各序列数据的相似度,得到所述多个序列数据的相似度分布,其中,序列数据至少有3个;
第二分布数据确定模块,用于为所述多个序列数据中的每一个序列数据初始化一个特征向量,并两两比较各特征向量的相似度,得到所述多个序列数据的特征向量的相似度分布,其中,各特征向量的维度相同;
迭代更新模块,用于对所述多个序列数据的特征向量进行至少一次迭代,以使所述多个序列数据的特征向量的相似度分布趋向于所述多个序列数据的相似度分布,并在预设条件下停止迭代,将迭代得到的特征向量作为对应序列数据的特征编码。
13.根据权利要求12所述的装置,其特征在于,采用动态时间规整算法计算任意两个序列数据的相似度,或者计算任意两个序列数据的Jaccard系数作为对应的相似度。
14.根据权利要求12所述的装置,其特征在于,第二分布数据确定模块具体用于:为所述多个序列数据中的每一个序列数据初始化一个随机的特征向量。
15.根据权利要求14所述的装置,其特征在于,为所述多个序列数据中的每一个序列数据初始化一个随机的特征向量时,全部特征向量的全部分量满足均值为0、方差为1的正态分布。
16.根据权利要求14所述的装置,其特征在于,为所述多个序列数据中的每一个序列数据初始化一个随机的特征向量时,全部特征向量的全部分量满足泊松分布。
17.根据权利要求12所述的装置,其特征在于,所述多个序列数据的相似度分布按照如下方式确定:
将各序列数据两两比较得到的相似度按照预定顺序排列构成第一向量,并对第一向量进行归一化,将归一化的第一向量作为所述多个序列数据的相似度分布;
所述多个序列数据的特征向量的相似度分布按照如下方式确定:
将各序列数据的特征向量两两比较得到的相似度按照预定顺序排列构成第二向量,并对第二向量进行归一化,将归一化的第二向量作为所述多个序列数据的特征向量的相似度分布;
其中,所述第一向量和所第二向量中相同位置的分量对应相同的两个序列数据,对第一向量和第二特征向量采用相同的归一化方法。
18.根据权利要求17所述的装置,其特征在于,归一化后的第一向量各分量之和等于1,归一化后的第二向量各分量之和等于1。
19.根据权利要求17所述的装置,其特征在于,采用KL散度评价所述多个序列数据的特征向量的相似度分布与所述多个序列数据的相似度分布的差异,对所述多个序列数据的特征向量进行至少一次迭代的目的是使所述KL散度趋于0。
20.根据权利要求19所述的装置,其特征在于,在预设条件下停止迭代,包括:当所述KL散度小于预设值时停止迭代,或者,当迭代次数达到预设值时停止迭代。
21.根据权利要求12所述的装置,其特征在于,所述多个序列数据中至少两个序列数据的长度不等,或者,所述多个序列数据长度均相等。
22.根据权利要求12所述的装置,其特征在于,所述特征向量的维度大于等于2,且小于序列数据的个数。
23.一种对序列数据进行特征处理的装置,其特征在于,包括:
至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行:根据权利要求1至11任意一项所述的方法。
24.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序,当所述程序被处理器执行时,使得所述处理器执行:根据权利要求1至11任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110457559.7A CN113239990A (zh) | 2021-04-27 | 2021-04-27 | 对序列数据进行特征处理的方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110457559.7A CN113239990A (zh) | 2021-04-27 | 2021-04-27 | 对序列数据进行特征处理的方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113239990A true CN113239990A (zh) | 2021-08-10 |
Family
ID=77129288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110457559.7A Pending CN113239990A (zh) | 2021-04-27 | 2021-04-27 | 对序列数据进行特征处理的方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113239990A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480685A (zh) * | 2016-06-08 | 2017-12-15 | 国家计算机网络与信息安全管理中心 | 一种基于GraphX的分布式幂迭代聚类方法和装置 |
CN109948646A (zh) * | 2019-01-24 | 2019-06-28 | 西安交通大学 | 一种时序数据相似度度量方法及度量系统 |
CN110633421A (zh) * | 2019-09-09 | 2019-12-31 | 北京瑞莱智慧科技有限公司 | 特征提取、推荐以及预测方法、装置、介质和设备 |
CN111373415A (zh) * | 2017-05-05 | 2020-07-03 | 阿里莫有限责任公司 | 使用神经网络分析序列数据 |
CN111814897A (zh) * | 2020-07-20 | 2020-10-23 | 辽宁大学 | 一种基于多层次shapelet的时间序列数据分类方法 |
CN112446399A (zh) * | 2019-09-02 | 2021-03-05 | 华为技术有限公司 | 标签确定方法、装置和系统 |
CN112668632A (zh) * | 2020-12-25 | 2021-04-16 | 浙江大华技术股份有限公司 | 一种数据处理方法、装置、计算机设备及存储介质 |
-
2021
- 2021-04-27 CN CN202110457559.7A patent/CN113239990A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480685A (zh) * | 2016-06-08 | 2017-12-15 | 国家计算机网络与信息安全管理中心 | 一种基于GraphX的分布式幂迭代聚类方法和装置 |
CN111373415A (zh) * | 2017-05-05 | 2020-07-03 | 阿里莫有限责任公司 | 使用神经网络分析序列数据 |
CN109948646A (zh) * | 2019-01-24 | 2019-06-28 | 西安交通大学 | 一种时序数据相似度度量方法及度量系统 |
CN112446399A (zh) * | 2019-09-02 | 2021-03-05 | 华为技术有限公司 | 标签确定方法、装置和系统 |
CN110633421A (zh) * | 2019-09-09 | 2019-12-31 | 北京瑞莱智慧科技有限公司 | 特征提取、推荐以及预测方法、装置、介质和设备 |
CN111814897A (zh) * | 2020-07-20 | 2020-10-23 | 辽宁大学 | 一种基于多层次shapelet的时间序列数据分类方法 |
CN112668632A (zh) * | 2020-12-25 | 2021-04-16 | 浙江大华技术股份有限公司 | 一种数据处理方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112368697B (zh) | 经由对偶分解评估损失函数或损失函数的梯度的系统和方法 | |
US20190130249A1 (en) | Sequence-to-sequence prediction using a neural network model | |
US20180341862A1 (en) | Integrating a memory layer in a neural network for one-shot learning | |
CN107122327B (zh) | 一种利用训练数据训练模型的方法和训练系统 | |
US10909442B1 (en) | Neural network-based artificial intelligence system for content-based recommendations using multi-perspective learned descriptors | |
JP2019028839A (ja) | 分類器、分類器の学習方法、分類器における分類方法 | |
CN112825249B (zh) | 语音处理方法和设备 | |
JP7070653B2 (ja) | 学習装置、音声認識順位推定装置、それらの方法、およびプログラム | |
WO2018166273A1 (zh) | 高维图像特征匹配方法和装置 | |
CN106570173B (zh) | 一种基于Spark的高维稀疏文本数据聚类方法 | |
EP3779806A1 (en) | Automated machine learning pipeline identification system and method | |
CN112396085B (zh) | 识别图像的方法和设备 | |
CN114792387A (zh) | 图像恢复方法和设备 | |
Tacchetti et al. | GURLS: a toolbox for large scale multiclass learning | |
CN109597982A (zh) | 摘要文本识别方法及装置 | |
CN117557872B (zh) | 一种优化存储模式的无监督异常检测方法及装置 | |
CN113239990A (zh) | 对序列数据进行特征处理的方法、装置及存储介质 | |
JP6984729B2 (ja) | 意味推定システム、方法およびプログラム | |
KR102441442B1 (ko) | 그래프 컨볼루션 네트워크 학습 방법 및 장치 | |
JP2023099283A (ja) | 情報検索のためのスパース表現を生成するニューラルランキングモデル | |
JP2009116593A (ja) | 単語ベクトル生成装置、単語ベクトル生成方法、プログラムおよびプログラムを記録した記録媒体 | |
JP6988991B2 (ja) | 意味推定システム、方法およびプログラム | |
JP6981860B2 (ja) | 系列データ解析装置、系列データ解析方法及びプログラム | |
KR20240109538A (ko) | 텐서 분해방법 및 텐서 분해장치 | |
Isaev et al. | Melif+: optimization of filter ensemble algorithm with parallel computing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |