CN105512480A - 基于编辑距离的可穿戴设备数据优化处理方法 - Google Patents

基于编辑距离的可穿戴设备数据优化处理方法 Download PDF

Info

Publication number
CN105512480A
CN105512480A CN201510885804.9A CN201510885804A CN105512480A CN 105512480 A CN105512480 A CN 105512480A CN 201510885804 A CN201510885804 A CN 201510885804A CN 105512480 A CN105512480 A CN 105512480A
Authority
CN
China
Prior art keywords
data
similarity
character string
editing distance
centerdot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510885804.9A
Other languages
English (en)
Other versions
CN105512480B (zh
Inventor
李卓
王聪
王新兵
田晓华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201510885804.9A priority Critical patent/CN105512480B/zh
Publication of CN105512480A publication Critical patent/CN105512480A/zh
Application granted granted Critical
Publication of CN105512480B publication Critical patent/CN105512480B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • G06F19/3481

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于编辑距离的可穿戴设备数据优化处理方法,包括:对传感器反馈的数据进行简单的过零点数据分割;首先进行周期检测,周期检测完成后,如若符合周期性动作标准,则进行下列更加详细的周期性判别;对于经过步骤二的数据流,进行编辑距离计算,并得到计算结果;根据步骤三的结果,辅以校正函数得到最终的精确结果,使之符合客观常理;对于多传感器系统,提出无向图观念,并且通过相似度算法计算出各边权值;通过最优节点算法,得到最小传感器集Vf。本发明在单传感器系统中摒弃原有的冗长的数据处理流程,在多传感器系统中,利用无向图及动态规划函数,以达到节能和减少空间开销的目的。

Description

基于编辑距离的可穿戴设备数据优化处理方法
技术领域
本发明涉及一种数据优化处理的方法,具体是一种用于单传感器、多传感器系统中动作判定与节能的基于编辑距离的可穿戴设备数据优化处理方法。
背景技术
随着可穿戴设备的广泛使用,数据的处理过程使得设备的精准性、灵敏性与持续性愈加重要。尤其是在一些新兴的应用领域,例如医药领域,采用可穿戴设备进行重症监护和动作矫正,因此,传统的数据处理流程会造成很多不必要的时间、空间开销。在可穿戴设备系统中,一般分为终端和中心处理器。终端主要作用为采集动作数据,多为传感器,例如加速度传感器,陀螺仪传感器等。中心处理器主要用于快速处理终端传递过来的数据,并且进行及时的反馈,可用手机或者相关单片机完成系统需要。因此基于可穿戴系统,我们优化了中心处理器的数据流处理流程。
近年,人们对可穿戴设备数据处理,包括数据分割、特征提取与分类行了深入的研究。经对现有技术文献的检索发现,Khalifa,Sara,MehdiHassan和ArunaSeneviratne在2014年MobileComputingandUbiquitousNetworking(ICMU)会议上发表的“Featureselectionforfloor-changingactivityrecognitioninmulti-floorpedestriannavigation”。本文使用了较为经典的传统处理方式,并且获得了较好的数据结果,然而通过我们的学习发现,在实际应用中,有着诸多的限制并且有很多冗余计算。
并且上述技术中没有考虑过可穿戴设备应用于新兴领域时,带来的数据特征要求转变的问题。例如,在多动症矫正的案例中,可穿戴设备要求的是能够判定患病儿童是否进行持续的不必要动作,而非判定该不必要动作具体是什么。另外,在他们的工作中,需要大量的数据集与机器学习,导致整个系统的开销大大增加,而且随着判定条件的多样化,系统开销也在逐渐增加。
发明内容
本发明针对上述现有技术的不足,提供了一种传感器网络中更加简便的基于编辑距离的可穿戴设备数据优化处理方法。该方法基于编辑距离计算以及无向图相关知识,一方面保证了数据计算的精准性,另一方面减小了冗余的计算与系统开销,能够取得传感器网络中优化的数据处理与优化传感器网络节点选择。
为实现上述目的,本发明是通过以下技术方案实现的。
一种基于编辑距离的可穿戴设备数据优化处理方法,包括如下步骤:
步骤一,对单传感器系统和/或多传感器系统反馈的数据进行过零点数据分割,得到分割数据流;
步骤二,
首先进行分割数据流周期检测:即对于步骤一中得到的分割数据流,判别分割数据流数据集中数据数量的差别,进行初步判断该分给数据流是否为拟周期性动作;
周期检测完成后,拟周期性动作如若符合周期性动作标准,则进行如下步骤三至步骤四,完成更加详细的周期性判别;拟周期性动作如不符合周期性动作标准,则重新执行步骤一和步骤二,直至符合周期性动作标准;
所述周期性动作标准为:动作周期波动幅度小于10%;动作幅度归一化后有超过90%的相似度;
步骤三,对于经过步骤二的分割数据流,进行编辑距离计算,并得到计算结果LD(A,B);
步骤四,根据步骤三中得到的计算结果,辅以校正函数得到最终的精确结果S(A,B)即,字符串A与字符串B的相似度,使分割数据流符合客观常理;
所述客观常理为:0≤S(A,B)≤1;S(A,B)=S(B,A);
对于多传感器系统,还需要继续执行如下步骤:
步骤五,采用无向图观念,并且通过相似度算法计算出每一个传感器系统的各边权值;
步骤六,在步骤五得到的各边权值的基础上,通过最优节点算法,得到最小传感器集Vf
优选地,在步骤一中,所述过零点数据分割通过计算协方差来比对动作相关性的方法,达到减少时间、空间开销的目的;具体为:
对于在过零点附近的两个矢量A、B,协方差ρ为:
ρ = c o s ( A , B ) = A · B | A | · | B |
通过对协方差ρ设阈值,淘汰一部分不相似的分割数据流数据集。
优选地,在步骤三中,编辑距离是指,两个字符串之间,一个字符串转化成另外一个所需要的最少编辑操作次数;编辑操作包括替换、插入和删除。
优选地,在步骤四中,编辑距离越短,两个字符串相似度越高,计算结果LD(A,B)与精确结果S(A,B)之间的线性变换公式表达为:
S ( A , B ) = L D ( A , B ) + 1 2
由于连续错误集Nk的存在,因此使用数组来存储在[0,1]内的精确结果;同时辅以一个校正函数来提高精确结果S(A,B)的精度获得相似度:
T = [ Σ i = 1 k N i - 1 2 ] - 1 , L D > - 50 %
T &prime; = &lsqb; &Sigma; i = 1 k N i - 1 k &rsqb; , L D < - 50 %
其中,k是数字序列的长度,Ni是第i个元素的值,[]是高斯取整,T和T’是两个字符,表示两个不同的矫正因子;
在线性变换公式中加入C(A,B)得:
S ( A , B ) = C ( A , B ) + L D ( A , B ) + 1 2
对于LD(A,B)>-50%的情况:
C ( A , B ) = &Sigma; i = 1 T i - 1 N - 1 &CenterDot; &lambda; r + 1 2 &lambda; b &CenterDot; N b
对于LD(A,B)<-50%的情况:
C ( A , B ) = &Sigma; i = 1 T &prime; i n - 1 &CenterDot; 2 &CenterDot; m a x { n m a x { x k } k } &CenterDot; &lambda; r + 1 2 &lambda; b &CenterDot; N b
其中,N表示比对字符串最大长度,λr表示正确数据位权重,λb表示空白数据位权重,xk表示最大连续错误数据位长度,Nb表示两个数据序列的长度差。
优选地,在步骤五中,所述无向图观念是指,各个节点代表传感器终端,路径代表传感器相似度。
优选地,所述编辑距离计算采用一个m×n的矩阵来记录分割数据流中两个字符串Am和An的最大相似度Dmn
对于两个字符串Am和An之间的相似度,有如下三种评估方式:
-如果两个字符串Am和An之间相应位置的数据序列互相符合,则相似度为λr
-如果两个字符串Am和An之间相应位置的数据序列不符合,则相似度分别用λb和λe表示;其中,λb与两个字符串之间长度不一致导致的空格有关,λe表征错误位;则:
D i , j = m a x D i - 1 , j - 1 + s u b s t ( A i , B j ) D i - 1 , j - k + W ( k ) , k = 1 , ... , j - 1 D i - k , j - 1 + W ( k ) , k = 1 , ... , i - 1
W(k)=λb·k
其中,Di,j表示m×n矩阵中第i行第j列的数据,同理,Di-1,j-1表示m×n矩阵中第i-1行第j-1列的数据,Di-1,j-k表示m×n矩阵中第i-1行第j-k列的数据,Di-k,j-1表示m×n矩阵中第i-k行第j-1列的数据,subst(Ai,Bj)表示字符串A第i位与字符串B第j位的比对结果,即为λr或者λe
假设两个字符串完全相符则相似度是1,完全不符合是0,则:
∑λr=1
为了简化模型,假设λr是一个固定的参数,即其中n为字符串最大长度;
考虑λb时分两种情况:
第一种情况:只有一个字符串的数据序列有空格,对于一个相同动作,由于运动时间不同导致一方出现空格,认为这样两个字符串的两组数据序列相同;
第二种情况:两个字符串的数据序列都有空格,由于情况较复杂,采用如下计算方法:
首先,Nbij表示Dij处的空格总数,假设第一个空格的值为-3λr;因为采样率固定,空格总数Nbij为m-n,;当进行周期性动作时,一个周期性动作不存在剧烈的减速,所以λb对相似度检测没有影响;
考虑到λe,假设初始值为λe=-λr,参数Ne表示连续匹配的长度,于是有:
&lambda; e = - &lambda; r ( 1 + Ne i j - 1 n - 1 ) = - 1 n ( 1 + Ne i j - 1 n - 1 )
其中,Neij为Dij处的连续错误数,n为比对字符串最大长度;
同时,辅以校正函数得到最终的精确结果,所述校正函数符合以下任一个原则:
原则一:0≤S(A,B)≤100%;
原则二:S(A,B)=S(B,A),其中,S(B,A)表示字符串B与字符串A的相似度;
假设任一个字符串的数据序列中个连续元素是错误位,则有:
L D ( A , B ) = 0.9 - &Sigma; i = 1 n 10 ( 1 + i - 1 n - 1 ) &CenterDot; 1 n = 0.8 - 0. l n ( 0. l n - 1 ) 2 n ( n - 1 )
此时{Nk}={N1}={n/10},于是有:
C ( A , B ) = &Sigma; i = 1 0.05 n i - 1 n - 1 &CenterDot; 1 n = 0.05 n ( 0.05 n - 1 ) 4 n ( n - 1 )
于是计算出S(A,B):
S ( A , B ) = L D + 1 2 + C = 0.9 - 0. l n ( 0. l n - 1 ) - 0.05 n ( 0.05 n - 1 ) 4 n ( n - 1 )
为了消除内部信号串扰,则通过以下方式:
0. l n ( 0. l n - 1 ) - 0.05 n ( 0.05 n - 1 ) 4 n ( n - 1 ) < 1 n
3n2<1620n-1600
在采样频率为50Hz的情况下,周期性动作的时间被限制在4s则有
3×2002<1620×200-1600
因此保证周期性动作在16s内无重叠。
优选地,所述最优节点算法具体为:
首先使用动态相似度检测算法检测传感器之间的相似度,该相似度包括强相关与弱相关两种相关性;
弱相关即:
S(A,B)<λF
强相关即:
S(A,B)>λF
其中,λF表示权重阈值,与系统实现要求有关;
每一条边的权值计算公式为:
W e i g h t ( A , B ) = 1 + C ( A , B ) S ( A , B )
如果存在其他的因数则有:
W e i g h t ( A , B ) = 1 + C ( A , B ) S ( A , B ) + v ( x )
其中,v(x)表示其他相关因素,如电量消耗等;
在确认无向图权值之后,采用如下算法计算最优节点集:
首先,根据Dijkstra算法,我们进行第一步简化无向图;
而后,计算各个节点的兄弟节点数目,进行如下步骤:
步骤1,将目前拥有兄弟节点最多的顶点F放入顶点集VF
步骤2,将与步骤1中得到的顶点F相关的边放入边集Es
步骤3,检测步骤2中得到的边集Es是否等于简化无向图的边集,如果等于,则进
行如下步骤4和步骤5,如果不等于,则返回步骤1;
步骤4,检测顶点集VF内顶点F的兄弟节点是否全部在顶点集VF中,如在,删除该
顶点F,如不在,则返回步骤1;
步骤5,最终得到最优顶点集,即最小传感器集Vf
与现有技术相比,本发明具有如下有益效果:
1、对于单传感器系统,摒弃原有的冗长的数据处理流程,在数据分割后进行优化数据处理;基于原始数据的编辑距离相似度比对,设法计算出最小的编辑距离使得数据相似度最大,以达到判别是否为周期性动作及动作间差异;
2、在多传感器系统中,对于同一时间段的不同传感器反馈回来的数据,利用无向图及动态规划函数,判别传感器间关系;并且通过赋予参数不同的标准值,以达到节能和减少空间开销的目的。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的算法流程图。
图2为动态相似度检测算法示意图。
图3为多传感器无向图示意图。
图4实例数据比较示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
实施例
本实施例提供了一种基于编辑距离的可穿戴设备数据优化处理方法,包括如下步骤:
步骤一,对传感器(单传感器系统和/或多传感器系统)反馈的数据进行简单的过零点数据分割;
步骤二,首先进行周期检测:即对于步骤一中的分割数据,判别数据集中数据数量的差别,进行初步判断是否为拟周期性动作;周期检测完成后,如若符合周期性动作标准,则进行下列更加详细的周期性判别;
步骤三,对于经过步骤二的数据流,进行编辑距离计算,并得到计算结果LD(A,B);
步骤四,根据步骤三的结果,辅以校正函数得到最终的精确结果S(A,B),使之符合客观常理;
对于多传感器系统,还需要继续执行以下步骤:
步骤五,提出无向图观念,并且通过相似度算法计算出各边权值;
步骤六,在步骤五得到的各边权值的基础上,通过最优节点算法,得到最小传感器集Vf
在步骤一中所述的数据分割采用最基本的方法到达减少时间、空间开销,通过计算协方差来比对动作相关性.
对于在过零点附近的两个矢量A、B,协方差为:
&rho; = c o s ( A , B ) = A &CenterDot; B | A | &CenterDot; | B |
通过对协方差设阈值而淘汰一部分不可能相似的数据集。
在步骤三中编辑距离是指,两个字符串之间,一个字符串转化成另外一个所需要的最少编辑操作次数。编辑操作包括替换,插入和删除。一般而言,编辑距离越短,两个字符串相似度越高。
编辑距离计算是采用一个m×n的矩阵来记录两个字符串Am和An的最大相似度Dmn。对于相似度,有三种评估方式。如果相应位置的数据互相符合,则相似度为λr;如果相应位置的数据不符合,相似度则用λb和λe表示。其中λb与字符串长度不一致导致的空格有关,λe表征错误位。
D i , j = m a x D i - 1 , j - 1 + s u b s t ( A i , B i ) D i - 1 , j - k + W ( k ) , k = 1 , ... , j - 1 D i - k , j - 1 + W ( k ) , k = 1 , ... , i - 1
在生物学领域广泛使用的Needleman-Wunsch算法中,λr、λb和λe都是固定值。但是在可穿戴数据流比较中需要在原有算法基础上改进。
与生物学领域不同,倘若出现长串的数据不符合的情况,则很有可能是两个数据对应的动作不一样。数据不符合的位数越多,相似度越差。
在Needleman算法的基础上提出了动态相似度检测算法(DynamicAffinityDetectionAlgorithm)。假设两个字符串完全相符则相似度是1,完全不符合则是0。因此有
∑λr=1
为了简化模型,假设λr是一个固定的参数,即考虑λb时分两种情况:第一种情况是只有一个数据序列有空格,对于一个相同动作,由于运动时间不同导致一方出现空格,认为这样的两组数据相同;第二种情况是两个数据序列都有空格,由于情况较复杂,提出一个计算方法。
首先,Nbij表示Dij处的空格总数,假设第一个空格的值为-3λr。大多数情况下,空格数为m-n,因为采样率固定。当进行周期性动作如走路的时候,一个周期的动作一般而言不会有剧烈的减速,所以大多数情况下λb对相似度检测没有影响
考虑到λe,假设初始值为λe=-λr。参数Ne表示连续匹配的长度。于是有
&lambda; e = - &lambda; r ( 1 + Ne i j - 1 n - 1 ) = - 1 n ( 1 + Ne i j - 1 n - 1 )
上式中Neij为Dij处的连续错误数。
对于经过上述计算的编辑距离,并不符合日常使用相似度的要求,所以需要一个校正功能。校正功能须符合符合以下原则:
原则一:0≤S(A,B)≤100%;原则二:S(A,B)=S(B,A)。
提出一个线性变换公式:
S ( A , B ) = L D ( A , B ) + 1 2
考虑到Nk为连续错误集,考虑使用数组来存储在[0,1]内的结果。同时使用一个校正函数来提高精度获得相似度。
T = &lsqb; &Sigma; i = 1 k N i - 1 2 &rsqb; - 1 , L D > - 50 %
T &prime; = &lsqb; &Sigma; i = 1 k N i - 1 k &rsqb; , L D < - 50 %
其中k是数字序列的长度,Ni是每一个元素的值,T是高斯取整。
因此在原式中加入C(A,B)得:
S ( A , B ) = C ( A , B ) + L D ( A , B ) + 1 2
对于LD>-50%的情况:
C ( A , B ) = &Sigma; i = 1 T i - 1 N - 1 &CenterDot; &lambda; r + 1 2 &lambda; b &CenterDot; N b
对于LD<-50%的情况:
C ( A , B ) = &Sigma; i = 1 T i n - 1 &CenterDot; 2 &CenterDot; m a x { n m a x { x k } k } + 1 2 &lambda; b &CenterDot; N b
Nb表示两个数据序列的长度差。接下来计算算法的精准性。
假设序列中个连续元素是错误位,则有
L D ( A , B ) = 0.9 - &Sigma; i = 1 n 10 ( 1 + i - 1 n - 1 ) &CenterDot; 1 n = 0.8 - 0. l n ( 0. l n - 1 ) 2 n ( n - 1 )
此时{Nk}={N1}={n/10},于是有
C ( A , B ) = &Sigma; i = 1 0.05 n i - 1 n - 1 &CenterDot; 1 n = 0.05 n ( 0.05 n - 1 ) 4 n ( n - 1 )
于是计算出S:
S ( A , B ) = L D + 1 2 + C = 0.9 - 0. l n ( 0. l n - 1 ) - 0.05 n ( 0.05 n - 1 ) 4 n ( n - 1 )
为了消除内部信号串扰,需有
0. l n ( 0. l n - 1 ) - 0.05 n ( 0.05 n - 1 ) 4 n ( n - 1 ) < 1 n
3n2<1620n-1600
在采样频率为50Hz的情况下,大多数周期性动作的时间被限制在4s则有
3×2002<1620×200-1600
因此得到结论,的结果不会重叠。可以保证周期性动作在16s内无重叠。
由此,的计算结果可以进一步的应用于多传感器系统中,以使在保证系统正常工作情况下,极可能的减小系统开销。
对于多传感器系统,提出一种如图2的无向图,各个节点(P1~P4)代表传感器终端,路径代表传感器相似度。而后通过相似度计算以及最优节点算法,得到最优节点集。
如图2的无向图,各个节点代表传感器终端,路径代表传感器相似度。首先使用动态相似度检测算法检测传感器之间的相似度,定义两种相关性:强相关与弱相关。
弱相关即:
S(A,B)<λF
强相关即:
S(A,B)>λF
每一条边的权值计算公式为:
W e i g h t ( A , B ) = 1 + C ( A , B ) S ( A , B )
如果存在其他的因数则有:
W e i g h t ( A , B ) = 1 + C ( A , B ) S ( A , B ) + v ( x )
在确认无向图权值之后,提出如下算法计算最优节点集。
首先根据Dijkstra算法,进行第一步简化无向图。而后,首先计算各个节点的兄弟节点数目,进行如下步骤:
步骤1,将目前拥有兄弟顶点最多的顶点放入定点集VF
步骤2,将与该顶点相关的边放入边集Es
步骤3,检测目前边集是否等于简化无向图的边集,如果等于,则进行如下步骤4
和步骤5,如果不等于,返回步骤1;
步骤4,检测顶点集内顶点的兄弟顶点是否全VF中,如在,删除该顶点,如不在,
则返回步骤1;
步骤5,得到最优顶点集,即最小传感器集Vf
本实施例具体为:
将传感器置于测试人员的双手双脚处,并且测试人员协助完成走路等基本动作。首先通过步骤一步骤二进行初期数据分割和比对,得到图3,通过图例可以看出,当对于单一传感器进行周期间比对时,用matlab拟合出本周期和前一周期的比对情况,可以大致看出相似程度的比对,然而这只是人工不精确的比对,于是利用动态相似度检测算法,首先计算出编辑距离,并且在计算编辑距离的过程中,将相关参数例如连续错误位等进行保存,而后通过修正函数,计算出每两个周期间修正值,最后得到比较客观的相似度值。
而在多传感器系统中,由于之前要求测试人员将传感器依附在双手双脚处,因此,当完成走路这个动作时,一次按照之前的步骤一与步骤二,进行简单的数据处理,而后计算不同传感器之间同一时刻的相似度,并且根据步骤四,计算出在所提出的无向图中各个路径的权值,而后根据最优节点筛选算法,首先p1,p2拥有最多的兄弟节点,将p1,p2放入Vf子集中,
在简化图中,根据最小顶点算法,p1,p2有两个最大数字的兄弟顶点,于是把p1,p2放到Vf中,同时e12,e13和e24放到Ef中。因为传感器数量不是很大所以一次操作后Ef就包括了Es。接着再核对Vf中有没有多余的顶点。p1,p2都有不在Vf中的相邻顶点。因此最后的结果是Vf={p1,p1},意味着走路时只可以用在左/右手腕上的传感器。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (7)

1.一种基于编辑距离的可穿戴设备数据优化处理方法,其特征在于,包括如下步骤:
步骤一,对单传感器系统和/或多传感器系统反馈的数据进行过零点数据分割,得到分割数据流;
步骤二,
首先进行分割数据流周期检测:即对于步骤一中得到的分割数据流,判别分割数据流数据集中数据数量的差别,进行初步判断该分给数据流是否为拟周期性动作;
周期检测完成后,拟周期性动作如若符合周期性动作标准,则进行如下步骤三至步骤四,完成更加详细的周期性判别;拟周期性动作如不符合周期性动作标准,则重新执行步骤一和步骤二,直至符合周期性动作标准;
步骤三,对于经过步骤二的分割数据流,进行编辑距离计算,并得到计算结果LD(A,B);
步骤四,根据步骤三中得到的计算结果,辅以校正函数得到最终的精确结果S(A,B)即,字符串A与字符串B的相似度,使分割数据流符合客观常理;
对于多传感器系统,还需要继续执行如下步骤:
步骤五,采用无向图观念,并且通过相似度算法计算出每一个传感器系统的各边权值;
步骤六,在步骤五得到的各边权值的基础上,通过最优节点算法,得到最小传感器集Vf
2.根据权利要求1所述的基于编辑距离的可穿戴设备数据优化处理方法,其特征是,在步骤一中,所述过零点数据分割通过计算协方差来比对动作相关性的方法,达到减少时间、空间开销的目的;具体为:
对于在过零点附近的两个矢量A、B,协方差ρ为:
&rho; = c o s ( A , B ) = A &CenterDot; B | A | &CenterDot; | B |
通过对协方差ρ设阈值,淘汰一部分不相似的分割数据流数据集。
3.根据权利要求1所述的基于编辑距离的可穿戴设备数据优化处理方法,其特征是,在步骤三中,编辑距离是指,两个字符串之间,一个字符串转化成另外一个所需要的最少编辑操作次数;编辑操作包括替换、插入和删除。
4.根据权利要求3所述的基于编辑距离的可穿戴设备数据优化处理方法,其特征是,在步骤四中,编辑距离越短,两个字符串相似度越高,计算结果LD(A,B)与精确结果S(A,B)之间的线性变换公式表达为:
S ( A , B ) = L D ( A , B ) + 1 2
由于连续错误集的存在,因此使用数组来存储在[0,1]内的精确结果;同时辅以一个校正函数来提高精确结果S(A,B)的精度获得相似度:
T = &lsqb; &Sigma; i = 1 k N i - 1 2 &rsqb; - 1 , L D > - 50 %
T &prime; = &lsqb; &Sigma; i = 1 k N i - 1 k &rsqb; , L D < - 50 %
其中k是数字序列的长度,Ni是第i个元素的值,[]是高斯取整,T和T′是两个字符,表示不同的矫正因子;
在线性变换公式中加入C(A,B)得:
S ( A , B ) = C ( A , B ) + L D ( A , B ) + 1 2
对于LD(A,B)>-50%的情况:
C ( A , B ) = &Sigma; i = 1 T i - 1 N - 1 &CenterDot; &lambda; r + 1 2 &lambda; b &CenterDot; N b
对于LD(A,B)<-50%的情况:
C ( A , B ) = &Sigma; i = 1 T &prime; i n - 1 &CenterDot; 2 &CenterDot; m a x { n m a x { x k } , k } . &lambda; r + 1 2 &lambda; b &CenterDot; N b
其中,N表示比对字符串最大长度,λr表示正确数据位权重,λb表示空白数据位权重,xk表示最大连续错误数据位长度,Nb表示两个数据序列的长度差。
5.根据权利要求3所述的基于编辑距离的可穿戴设备数据优化处理方法,其特征是,在步骤五中,所述无向图观念是指,各个节点代表传感器终端,路径代表传感器相似度。
6.根据权利要求4所述的基于编辑距离的可穿戴设备数据优化处理方法,其特征是,所述编辑距离计算采用一个m×n的矩阵来记录分割数据流中两个字符串Am和An的最大相似度Dmn
对于两个字符串Am和An之间的相似度,有如下三种评估方式:
-如果两个字符串Am和An之间相应位置的数据序列互相符合,则相似度为λr
-如果两个字符串Am和An之间相应位置的数据序列不符合,则相似度分别用λb和λe表示;其中,λb与两个字符串之间长度不一致导致的空格有关,λe表征错误位;则:
D i , j = m a x D i - 1 , j - 1 + s u b s t ( A i , B j ) D i - 1 , j - k + W ( k ) , k = 1 , ... , j - 1 D i - k , j - 1 + W ( k ) , k = 1 , ... , i - 1
W(k)=λb·k
其中,Di,j表示m×n矩阵中第i行第j列的数据,subst(Ai,Bj)表示字符串A的第i位与字符串B的第j位的比对结果,即为λr或者λe
假设两个字符串完全相符则相似度是1,完全不符合是0,则:
∑λr=1
为了简化模型,假设λr是一个固定的参数,即其中n为字符串最大长度;
考虑λb时分两种情况:
第一种情况:只有一个字符串的数据序列有空格,对于一个相同动作,由于运动时间不同导致一方出现空格,认为这样两个字符串的两组数据序列相同;
第二种情况:两个字符串的数据序列都有空格,由于情况较复杂,采用如下计算方法:
首先,Nbij表示Dij处的空格总数,假设第一个空格的值为-3λr;因为采样率固定,空格总数Nbij为m-n,;当进行周期性动作时,一个周期性动作不存在剧烈的减速,所以λb对相似度检测没有影响;
考虑到λe,假设初始值为λe=-λr,参数Ne表示连续匹配的长度,于是有:
&lambda; e = - &lambda; r ( 1 + Ne i j - 1 n - 1 ) = - 1 n ( 1 + Ne i j - 1 n - 1 )
其中,Neij为Dij处的连续错误数,n为比对字符串最大长度;
并且,辅以校正函数得到最终的精确结果,所述校正函数符合以下任一个原则:
原则一:0≤S(A,B)≤100%;
原则二:S(A,B)=S(B,A),其中,S(B,A)表示字符串B与字符串A的相似度;
假设任一个字符串的数据序列中个连续元素是错误位,则有:
L D ( A , B ) = 0.9 - &Sigma; i = 1 n 10 ( 1 + i - 1 n - 1 ) &CenterDot; 1 n = 0.8 - 0.1 n ( 0.1 n - 1 ) 2 n ( n - 1 )
此时{Nk}={N1}={n/10},于是有:
C ( A , B ) = &Sigma; i = 1 0.05 n i - 1 n - 1 &CenterDot; 1 n = 0.05 n ( 0.05 n - 1 ) 4 n ( n - 1 )
于是计算出S(A,B):
S ( A , B ) = L D + 1 2 + C = 0.9 - 0.1 n ( 0.1 n - 1 ) - 0.05 n ( 0.05 n - 1 ) 4 n ( n - 1 )
为了消除内部信号串扰,则通过以下方式:
0.1 n ( 0.1 n - 1 ) - 0.05 n ( 0.05 n - 1 ) 4 n ( n - 1 ) < 1 n
3n2<1620n-1600
在采样频率为50Hz的情况下,周期性动作的时间被限制在4s则有
3×2002<1620×200-1600
因此保证周期性动作在16s内无重叠。
7.根据权利要求5所述的基于编辑距离的可穿戴设备数据优化处理方法,其特征是,所述最优节点算法具体为:
首先使用动态相似度检测算法检测传感器之间的相似度,该相似度包括强相关与弱相关两种相关性;
弱相关即:
S(A,B)<λF
强相关即:
S(A,B)>λF
其中,λF表示权重阈值,与系统实现要求有关;
每一条边的权值计算公式为:
W e i g h t ( A , B ) = 1 + C ( A , B ) S ( A , B )
如果存在其他的因数则有:
W e i g h t ( A , B ) = 1 + C ( A , B ) S ( A , B ) + v ( x )
其中,v(x)表示其他相关因素;
在确认无向图权值之后,采用如下算法计算最优节点集:
首先,根据Dijkstra算法,我们进行第一步简化无向图;
而后,计算各个节点的兄弟节点数日,进行如下步骤:
步骤1,将目前拥有兄弟节点最多的顶点F放入顶点集VF
步骤2,将与步骤1中得到的顶点F相关的边放入边集Es
步骤3,检测步骤2中得到的边集Es是否等于简化无向图的边集,如果等于,则进行如下步骤4和步骤5,如果不等于,则返回步骤1;
步骤4,检测顶点集VF内顶点F的兄弟节点是否全部在顶点集VF中,如在,删除该顶点F,如不在,则返回步骤1;
步骤5,最终得到最优顶点集,即最小传感器集Vf
CN201510885804.9A 2015-12-04 2015-12-04 基于编辑距离的可穿戴设备数据优化处理方法 Active CN105512480B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510885804.9A CN105512480B (zh) 2015-12-04 2015-12-04 基于编辑距离的可穿戴设备数据优化处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510885804.9A CN105512480B (zh) 2015-12-04 2015-12-04 基于编辑距离的可穿戴设备数据优化处理方法

Publications (2)

Publication Number Publication Date
CN105512480A true CN105512480A (zh) 2016-04-20
CN105512480B CN105512480B (zh) 2018-07-03

Family

ID=55720457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510885804.9A Active CN105512480B (zh) 2015-12-04 2015-12-04 基于编辑距离的可穿戴设备数据优化处理方法

Country Status (1)

Country Link
CN (1) CN105512480B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650803A (zh) * 2016-12-09 2017-05-10 北京锐安科技有限公司 一种计算字符串间相似度的方法及装置
CN113696454A (zh) * 2021-10-28 2021-11-26 南通三信塑胶装备科技股份有限公司 一种基于人工智能的挤塑设备故障预警方法及系统
CN116722876A (zh) * 2023-08-08 2023-09-08 北京点聚信息技术有限公司 一种用于版式轻阅读的用户数据智能存储方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103546916A (zh) * 2013-11-07 2014-01-29 东南大学 基于数据增量图的异常检测方法
CN104699719A (zh) * 2013-12-10 2015-06-10 中国科学院沈阳自动化研究所 一种物联网终端设备的语义化方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103546916A (zh) * 2013-11-07 2014-01-29 东南大学 基于数据增量图的异常检测方法
CN104699719A (zh) * 2013-12-10 2015-06-10 中国科学院沈阳自动化研究所 一种物联网终端设备的语义化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HASSAN G等: "Structural action recognition in body sensor networks:distributed classification based on string matching", 《IEEE TRANSACTIONS OF INFORMATION TECHNOLOGY IN BIOMEDICINE》 *
王艳秋: "面向实时监控应用的事件流相似性分析技术的研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650803A (zh) * 2016-12-09 2017-05-10 北京锐安科技有限公司 一种计算字符串间相似度的方法及装置
CN106650803B (zh) * 2016-12-09 2019-06-18 北京锐安科技有限公司 一种计算字符串间相似度的方法及装置
CN113696454A (zh) * 2021-10-28 2021-11-26 南通三信塑胶装备科技股份有限公司 一种基于人工智能的挤塑设备故障预警方法及系统
CN116722876A (zh) * 2023-08-08 2023-09-08 北京点聚信息技术有限公司 一种用于版式轻阅读的用户数据智能存储方法
CN116722876B (zh) * 2023-08-08 2023-10-20 北京点聚信息技术有限公司 一种用于版式轻阅读的用户数据智能存储方法

Also Published As

Publication number Publication date
CN105512480B (zh) 2018-07-03

Similar Documents

Publication Publication Date Title
Liang et al. A convolutional neural network for transportation mode detection based on smartphone platform
Liang et al. A deep learning model for transportation mode detection based on smartphone sensing data
CN101558996B (zh) 基于人体运动结构正投影三维重建的步态识别方法
CN105206041B (zh) 一种考虑时序dbscan的智能手机轨迹链簇识别方法
CN103970271A (zh) 融合运动和生理传感数据的日常活动识别方法
CN107273490A (zh) 一种基于知识图谱的组合错题推荐方法
CN110427924A (zh) 一种基于lstm的心冲击信号自动多分类识别方法
CN108362289B (zh) 一种基于多传感器融合的移动智能终端pdr定位方法
CN108304887A (zh) 基于少数类样本合成的朴素贝叶斯数据处理系统及方法
CN105512480A (zh) 基于编辑距离的可穿戴设备数据优化处理方法
CN110047291A (zh) 一种考虑扩散过程的短时交通流预测方法
CN112801000B (zh) 一种基于多特征融合的居家老人摔倒检测方法及系统
CN112884134A (zh) 面向地震震相识别的基于时域的卷积神经网络模型及应用
CN113779260B (zh) 一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统
Yang et al. GPS and acceleration data in multimode trip data recognition based on wavelet transform modulus maximum algorithm
CN113779880B (zh) 一种基于超前钻探数据的隧道围岩二维质量评价方法
CN103714154A (zh) 一种确定最佳聚类数的方法
CN110443309A (zh) 一种结合跨模态关联关系模型的肌电信号手势识别方法
CN108562950A (zh) 一种基于测井信息对地层层位进行智能化划分的方法
CN114037945A (zh) 一种基于多粒度特征交互的跨模态检索方法
CN102880870A (zh) 人脸特征的提取方法及系统
CN110132276B (zh) 一种基于行人运动状态的自适应步长估计方法
CN109350072B (zh) 一种基于人工神经网络的步频探测方法
CN110568496B (zh) 一种复杂介质条件下射线追踪方法
CN114757237B (zh) 一种基于WiFi信号的速度无关步态识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant