CN117171589B - 一种数据分割方法、装置、设备及存储介质 - Google Patents

一种数据分割方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117171589B
CN117171589B CN202311444376.7A CN202311444376A CN117171589B CN 117171589 B CN117171589 B CN 117171589B CN 202311444376 A CN202311444376 A CN 202311444376A CN 117171589 B CN117171589 B CN 117171589B
Authority
CN
China
Prior art keywords
time sequence
candidate
segmentation point
subsequences
candidate segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311444376.7A
Other languages
English (en)
Other versions
CN117171589A (zh
Inventor
石志林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202311444376.7A priority Critical patent/CN117171589B/zh
Publication of CN117171589A publication Critical patent/CN117171589A/zh
Application granted granted Critical
Publication of CN117171589B publication Critical patent/CN117171589B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本申请实施例公开了一种数据分割方法、装置、设备及存储介质。该方法包括:获取第一时间序列段和第二时间序列段;针对任一时间序列段,基于预设偏移量对上一次确定的候选分割点进行偏移,得到候选分割点,基于候选分割点对任一时间序列段进行分割处理,得到第一时间序列组和第二时间序列组;获取候选分割点对应的验证评估值;将候选分割点作为上一次确定的候选分割点,触发执行基于预设偏移量对上一次确定的候选分割点进行偏移,得到任一时间序列段的一个候选分割点;获取第一时间序列段和第二时间序列段包含的各个候选分割点对应的验证评估值中的极值,将极值对应的候选分割点确定为时间序列的分割点,实现了对时间序列进行分割的各领域通用性。

Description

一种数据分割方法、装置、设备及存储介质
技术领域
本发明涉及互联网领域,尤其涉及一种数据分割方法、装置、设备及存储介质。
背景技术
随着互联网和移动设备的普及,在互联网领域产生了很多时间序列数据,这些序列通常由多个状态组成,例如用户的行为状态,因此这些状态会在任意且事先不知道的时间点之间切换,而通过分割算法来找到这些状态切换的时间点可以便于进一步分析这些行为状态,然而目前的分割算法需要人为设置领域相关的超参数,并对时间序列分布或类型做出假设,不具有普遍适用性。
因此如何使对时间序列数据进行分割具有各领域通用性,以便于企业更好地了解用户需求,提高产品的用户体验和市场竞争力是一个亟需解决的问题。
发明内容
本发明实施例所要解决的技术问题在于,提供一种数据分割方法、装置、设备及存储介质,实现了对时间序列数据进行分割的各领域通用性。
第一方面,本发明实施例提供了一种数据分割方法,包括:
获取时间序列中的第一时间序列段和第二时间序列段;
针对任一时间序列段,基于预设偏移量对上一次确定的候选分割点进行偏移,得到该任一时间序列段的一个候选分割点,并基于该候选分割点对该任一时间序列段进行分割处理,得到第一时间序列组和第二时间序列组;
获取该候选分割点对应的验证评估值,该验证评估值用于表征该第一时间序列组的属性特征与该第二时间序列组的属性特征的差异;
将该候选分割点作为上一次确定的候选分割点,触发执行该基于预设偏移量对上一次确定的候选分割点进行偏移,得到该任一时间序列段的一个候选分割点的步骤;
获取该第一时间序列段和该第二时间序列段包含的各个候选分割点对应的验证评估值中的极值,并将该极值对应的候选分割点确定为该时间序列的分割点。
可见,本申请实施例中,获取时间序列的第一时间序列段和第二时间序列段,针对任一时间序列段,对上一次确定的候选分割点进行偏移,得到该任一时间序列段的一个候选分割点,基于该候选分割点对该任一时间序列段进行分割处理,得到第一时间序列组和第二时间序列组,基于该候选分割点,可以获取该候选分割点对应的验证评估值,将该候选分割点作为上一次确定的候选分割点,触发执行基于预设偏移量对上一次确定的候选分割点进行偏移,得到该任一时间序列段的一个候选分割点的步骤,然后获取第一时间序列段和第二时间序列段包含的各个候选分割点对应的验证评估值中的极值,并将该极值对应的候选分割点确定为该时间序列的分割点,由于该验证评估值表征该第一时间序列组与该第二时间序列组的属性特征的差异,因此获取各个候选分割点对应的验证评估值中的极值,并将该极值对应的候选分割点确定为该时间序列的分割点可以在不需要人为设置超参数的情况下,自动对时间序列数据进行分割。基于此,本申请实施例实现了对时间序列数据进行分割的各领域通用性。
在一种可选的实施方式中,该方法还包括:
基于该分割点对该时间序列进行分割,得到该时间序列中的第一时间序列段和第二时间序列段,并触发执行该针对任一时间序列段,基于预设偏移量对上一次确定的候选分割点进行偏移,得到该任一时间序列段的一个候选分割点的步骤,直至满足分割截止条件。
在一种可选的实施方式中,分割截止条件包括以下任一项:
第一时间序列段和第二时间序列段包含的各个候选分割点对应的验证评估值均小于第一预设阈值;
或者,第一时间序列段和第二时间序列段包含的各个候选分割点对应的验证评估值均大于第二预设阈值;
或者,确定的时间序列的分割点的数量达到预设数量阈值。
在一种可选的实施方式中,时间序列的第一个分割点的确定方式,包括:
获取一个时间序列;
基于预设偏移量对上一次确定的候选分割点进行偏移,得到时间序列的一个候选分割点,并基于候选分割点对时间序列进行分割处理,得到第一时间序列段和第二时间序列段;
获取候选分割点对应的验证评估值;
将候选分割点作为上一次确定的候选分割点,触发执行基于预设偏移量对上一次确定的候选分割点进行偏移,得到时间序列的一个候选分割点的步骤;
获取时间序列包含的各个候选分割点对应的验证评估值中的极值,并将极值对应的候选分割点确定为时间序列的第一个分割点。
在一种可选的实施方式中,时间序列包括多个子序列,各个子序列的窗口长度相同;
获取候选分割点对应的验证评估值,包括:
设置第一时间序列组包含的各个子序列的参考标签,以及第二时间序列组包含的各个子序列的参考标签;其中,第一时间序列组包含的各个子序列的参考标签,和第二时间序列组包含的各个子序列的参考标签不同;
遍历任一时间序列段包含的各个子序列,基于当前遍历的子序列与多个子序列中的其他子序列的距离,确定当前遍历的子序列的预测标签;其中,每两个子序列之间的距离用于表征每两个子序列的属性特征的相似度;
基于任一时间序列段包含的各个子序列的参考标签和预测标签,计算候选分割点对应的验证评估值,验证评估值用于表征第一时间序列组与所述第二时间序列组的属性特征的差异。
在一种可选的实施方式中,基于当前遍历的子序列与多个子序列中的其他子序列的距离,确定当前遍历的子序列的预测标签,包括:
基于当前遍历的子序列与多个子序列中的其他子序列的距离,从多个子序列中获取至少一个目标子序列;其中,至少一个目标子序列与当前遍历的子序列之间的距离,均小于其他子序列与当前遍历的子序列之间的距离;每两个子序列之间的距离用于表征每两个子序列的属性特征的相似度;
从至少一个目标子序列中确定同一参考标签的数量较多的目标子序列,并将确定的目标子序列的参考标签作为当前遍历的子序列的预测标签。
在一种可选的实施方式中,该方法还包括:
获取时间序列的属性特征;
基于目标窗口长度对时间序列进行划分,得到多个候选子序列;各个候选子序列的窗口长度均为目标窗口长度;
获取多个候选子序列的属性特征;
针对任一候选子序列,基于时间序列的属性特征和多个候选子序列的属性特征,得到任一候选子序列和时间序列的距离,任一候选子序列和所述时间序列的距离用于表征时间序列的属性特征和任一候选子序列的属性特征的相似度;
按照减小多个候选子序列和时间序列的距离的方向,更新目标窗口长度,并触发执行基于目标窗口长度对时间序列进行划分,得到多个候选子序列的步骤,直至基于更新后的目标窗口长度对时间序列进行划分得到的多个候选子序列和时间序列的距离小于预设距离阈值;
将基于更新后的目标窗口长度对时间序列进行划分得到的多个候选子序列,作为时间序列包含的多个子序列。
在一种可选的实施方式中,基于更新后的目标窗口长度对时间序列进行划分得到的多个候选子序列和时间序列的距离小于预设距离阈值,包括:
获取基于更新后的目标窗口长度对时间序列进行划分得到的各个候选子序列和时间序列的距离;
基于获取到的各个候选子序列和时间序列的距离,计算基于更新后的目标窗口长度对时间序列进行划分得到的多个候选子序列,和时间序列的距离总和;
若距离总和小于预设距离阈值,则触发执行将基于更新后的目标窗口长度对时间序列进行划分得到的多个候选子序列,作为时间序列包含的多个子序列的步骤。
第二方面,本发明实施例提供了一种数据分割方法的装置,该装置包括:
获取单元,用于获取时间序列中的第一时间序列段和第二时间序列段;
偏移单元,用于针对任一时间序列段,基于预设偏移量对上一次确定的候选分割点进行偏移,得到任一时间序列段的一个候选分割点,并基于候选分割点对任一时间序列段进行分割处理,得到第一时间序列组和第二时间序列组;
获取单元,用于获取候选分割点对应的验证评估值,验证评估值用于表征第一时间序列组的属性特征与第二时间序列组的属性特征的差异;
确定单元,用于将候选分割点作为上一次确定的候选分割点,触发执行基于预设偏移量对上一次确定的候选分割点进行偏移,得到任一时间序列段的一个候选分割点的步骤;
获取单元,用于获取第一时间序列段和第二时间序列段包含的各个候选分割点对应的验证评估值中的极值;
确定单元,将极值对应的候选分割点确定为时间序列的分割点。
第三方面,本发明实施例提供了一种服务器,该服务器包括存储器、通信接口以及处理器,其中,存储器、通信接口和处理器相互连接;存储器存储有计算机程序,处理器调用所述存储器中存储的计算机程序,用于实现上述第一方面所述的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现第一方面所述的方法。
第五方面,本发明实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序代码,当该计算机程序代码在计算机上运行时,使得计算机执行上述第一方面所述的方法。
第六方面,本发明实施例提供了一种计算机程序,该计算机程序包括计算机程序代码,当该计算机程序代码在计算机上运行时,使得计算机执行上述第一方面所述的方法。
附图说明
为了更清楚地说明本发明实施例或背景技术中的技术方案,下面将对本发明实施例或背景技术中所需要使用的附图进行说明。
图1是本申请实施例提供的一种时间序列分割图;
图2是本申请实施例提供的一种数据分割方法的流程示意图;
图3是本申请实施例提供的一种验证评估值的获取方式的流程示意图;
图4是申请实施例提供的一种时间序列中第一个分割点的确定方式的示意图;
图5是本申请实施例提供的一种窗口长度的确定方式的流程示意图;
图6是本申请实施例提供的一种数据分割装置的结构示意图;
图7是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面结合本发明实施例中的附图对本发明实施例进行描述。
本申请实施例提供的数据分割方法可以应用在包括电商平台、社交平台、在线视频平台以及金融服务平台等互联网产品中。请参见图1,图1是本申请实施例提供的一种时间序列分割图,以电商平台为例,可以获取一个时间序列,该时间序列由用户状态组成,如用户在一段时间内的购买次数、购买金额、购买商品种类等,基于本申请实施例提供的数据分割方法对该时间序列进行分割,得到分割后的时间序列段,每段时间序列段可以指示一种用户状态,从而更好地了解用户的购物习惯和偏好,提高电商平台的销售效率和用户体验。
由于时间序列通常会产生多次变化,以时间序列为一个周期性时间序列为例,该周期性时间序列的局部部分也可能有变化,如周期长度、形状或振幅等。因此对时间序列进行分割处理,得到多个时间序列段,然后对各个时间序列段进行分析是有必要的。
进一步的,本申请实施例提供的数据分割方法可以应用于各种互联网产品,帮助企业更好地了解用户偏好和需求,提高用户体验和市场竞争力。
本申请实施例提供的数据分割方法可以由计算机设备执行。计算机设备可以是服务器、客户端或者任意终端设备等等,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
请参见图2,图2是本申请实施例提供的一种数据分割方法的流程示意图,如图2所示。
S201、获取时间序列中的第一时间序列段和第二时间序列段。
其中,时间序列可以由多个测量值组成,不同的测量值对应不同状态,也就是说,不同状态可以通过不同测量值表示。示例性的,以时间序列为一个用户浏览时间序列为例,在预设时间范围内统计到的状态可以包括用户的浏览行为状态,浏览行为状态可以分为多种状态,如查看主页、浏览商品、加入购物车、结算等,不同状态各自对应不同的测量值。可选的,同一维度的状态可以基于状态的持续时长的不同细分为不同状态,一个维度的状态可以用于指示一种浏览行为,例如对于浏览商品这个维度的状态而言,浏览时长位于第一时间区间内,那么可以确定该浏览行为状态为第一浏览商品状态;浏览时长位于第二时间区间内,那么可以确定该浏览行为状态为第二浏览商品状态,在此基础上,由于不同状态可以通过不同测量值表示,那么第一浏览商品状态对应的测量值和第二浏览商品状态对应的测量值会有所不同。
一个时间序列可以包括不止一个时间序列段,一个时间序列段可以包括不止一个时间序列组。
其中,第一时间序列段和第二时间序列段可以是基于该时间序列的上一个确定的分割点,对该时间序列进行分割处理得到。
分割点是指示一个时间序列中状态发生变化的点,以时间序列为一个用户浏览时间序列为例,该用户浏览时间序列中统计到的状态可以由查看主页变化为加入购物车,该变化所对应的时间点即指的是一个分割点。
由于一个时间序列通常会产生多次变化,即有不止一个分割点,相应的,通过执行一次本申请实施例中的步骤S201至步骤S205,可以确定一个分割点。示例性的,若一个时间序列对应的状态发生了三次变化,那么该时间序列有三个确定的分割点,分别对应三次确定分割点处理。若对该时间序列进行第二次确定分割点处理,则上一个确定的分割点为该时间序列进行第一次确定分割点处理得到的第一个确定的分割点。若对该时间序列进行第三次确定分割点处理,则上一个确定的分割点为该时间序列进行第二次确定分割点处理得到的第二个确定的分割点。
S202、针对任一时间序列段,基于预设偏移量对上一次确定的候选分割点进行偏移,得到任一时间序列段的一个候选分割点,并基于该候选分割点对该任一时间序列段进行分割处理,得到第一时间序列组和第二时间序列组。
针对任一时间序列段,可以基于预设偏移量对上一次确定的候选分割点进行偏移,那么就可以得到该时间序列段对应的多个候选分割点。可以理解为,针对任一时间序列段,可以从该时间序列段的起始点开始选取候选分割点,基于预设偏移量对该候选分割点进行偏移,直至偏移到该时间序列段的终止点。进而可以通过本申请实施例中的步骤S202至步骤S205,从第一时间序列段对应的多个候选分割点和第二时间序列段对应的多个候选分割点中确定出一个分割点。
示例性的,针对一个基于预设偏移量可以得到三个候选分割点的时间序列段,从该时间序列段的起始点选取候选分割点,可以得到第一候选分割点,基于第一候选分割点获取第一候选分割点对应的第一验证评估值。再基于预设偏移量对第一候选分割点进行偏移即,此时上一次确定的候选分割点即第一分割点,得到第二候选分割点,基于第二候选分割点获取第二候选分割点对应的第二验证评估值。然后基于预设偏移量对第二候选分割点进行偏移,此时上一次确定的候选分割点即第二分割点,得到第三候选分割点,基于第三候选分割点获取第三候选分割点对应的第三验证评估值。
S203、获取候选分割点对应的验证评估值,验证评估值用于表征第一时间序列组的属性特征与第二时间序列组的属性特征的差异。
针对任一时间序列段,在得到该任一时间序列段的一个候选分割点,并基于该候选分割点对该任一时间序列段进行分割处理,得到第一时间序列组和第二时间序列组之后,可以获取该候选分割点对应的验证评估值,其中,该验证评估值可以用于表征第一时间序列组与第二时间序列组的属性特征的差异。该验证评估值越大,第一时间序列组与第二时间序列组的属性特征的差异就越大,表明该候选分割点为状态变换点的可能性就越大,即该候选分割点被确定为分割点的概率就越大。
本申请实施例中候选分割点对应的验证评估值的具体获取方式可以参见下述图3所示实施例的相关描述。
S204、将候选分割点作为上一次确定的候选分割点。
将候选分割点作为上一次确定的候选分割点,触发执行基于预设偏移量对上一次确定的候选分割点进行偏移,得到任一时间序列段的一个候选分割点的步骤。
对每个候选分割点执行上述S203到S204的操作,得到每个候选分割点对应的验证评估值,直至基于预设偏移量对上一次确定的候选分割点进行偏移,得到的任一时间序列段的一个候选分割点为该任一时间序列段的终止点。
S205、若候选分割点为该任一时间序列段的结束点,则获取第一时间序列段和第二时间序列段包含的各个候选分割点对应的验证评估值中的极值,并将极值对应的候选分割点确定为时间序列的分割点。
在一种实施方式中,该极值可以包括极小值或者极大值,由具体问题决定。将该极值对应的候选分割点确定为该时间序列的一个分割点后,可以基于该分割点对该时间序列进行分割,得到步骤S201时间序列中的第一时间序列段和第二时间序列段,并触发执行针对任一时间序列段,基于预设偏移量对上一次确定的候选分割点进行偏移,得到该任一时间序列段的一个候选分割点的步骤,对候选分割点对应的验证评估值进行比较得到极值对应的候选分割点确定为该时间序列的一个分割点,步骤S201到步骤S205即为一次确定分割点处理,不断重复该确定分割点处理,直至满足分割截止条件。该分割截至条件可以包括:当S205中的极值为极大值时,第一时间序列段和该第二时间序列段包含的各个候选分割点对应的验证评估值均小于预设阈值;
或者,当S205中的极值为极小值时,该第一时间序列段和所述第二时间序列段包含的各个候选分割点对应的验证评估值均大于预设阈值;
或者,确定的该时间序列的分割点的数量达到预设数量阈值。
在该实施例中,获取时间序列的第一时间序列段和第二时间序列段,针对任一时间序列段,对上一次确定的候选分割点进行偏移,得到该任一时间序列段的一个候选分割点,基于该候选分割点对该任一时间序列段进行分割处理,基于该候选分割点,可以获取该候选分割点对应的验证评估值,将该候选分割点作为上一次确定的候选分割点,触发执行基于预设偏移量对上一次确定的候选分割点进行偏移,得到该任一时间序列段的一个候选分割点的步骤,然后获取第一时间序列段和第二时间序列段包含的各个候选分割点对应的验证评估值中的极值,并将该极值对应的候选分割点确定为该时间序列的分割点,由于该验证评估值表征该第一时间序列组与该第二时间序列组的属性特征的差异,因此获取各个候选分割点对应的验证评估值中的极值,并将该极值对应的候选分割点确定为该时间序列的分割点可以在不需要人为设置超参数的情况下,自动对时间序列数据进行分割。基于此,本申请实施例实现了对时间序列数据进行分割的各领域通用性。
在一种实现方式中,候选分割点对应的验证评估值的具体获取方式可以参见图3所示的一种验证评估值的获取方式的流程示意图。获取一个时间序列,该时间序列包括多个子序列,各个子序列的窗口长度相同,一个序列组至少包括一个子序列。
S301、设置第一时间序列组包含的各个子序列的参考标签,以及该第二时间序列组包含的各个子序列的参考标签。
其中,该第一时间序列组包含的各个子序列的参考标签,和该第二时间序列组包含的各个子序列的参考标签不同,该参考标签可以包括数字或者字母等,示例性的,可以设置该第一时间序列组包含的各个子序列的参考标签为1,该第二时间序列组包含的各个子序列的参考标签为0。通过设置不同的参考标签可以将第一时间序列组和第二时间序列进行区分,表征两个序列组中包含的子序列为不同状态。
在分割的时候,分割得到的时间序列组可以包括至少一个子序列,也就是说,任一候选分割点指的是时间序列中某个子序列的终止点或者起始点。
S302、遍历该任一时间序列段包含的各个子序列,基于当前遍历的子序列与该多个子序列中除所述当前遍历的子序列以外的其他子序列的距离,确定该当前遍历的子序列的预测标签。
其中,每两个子序列之间的距离用于表征所述每两个子序列的属性特征的相似度,距离越远则其两个子序列的属性特征越不相似,距离越近则其两个子序列的属性特征越相似,即距离越接近的两个子序列中的状态更可能属于同一状态。
其中,属性特征表征该时间序列中包含的数据的某种属性或特性,示例性的,在文本分类中,该属性特征可以包括词频或者TF-IDF值;在图像处理中,该属性特征可以包括像素值或者颜色直方图。
在一个示例中,该距离可以通过如下过程得到:假定N个子序列,每个子序列具有一个特征向量。对每一对子序列i和j,计算两者的特征向量点积,再进一步通过距离度量公式,如欧几里得距离等,计算该两个子序列的距离,可以得到一个N计N的距离矩阵,该矩阵每个元素表示一对子序列之间的距离。
在一种可选的实施方式中,当前遍历的子序列的预测标签的确定过程可以为:基于当前遍历的子序列与该多个子序列中除所述当前遍历的子序列以外的其他子序列的距离,从该多个子序列中获取至少一个目标子序列;获取该至少一个目标子序列中参考标签为第一标签的目标子序列的第一数量,以及参考标签为第二标签的目标子序列的第二数量,将该第一数量和第二数量中较大的数量对应的参考标签确定为该当前遍历的子序列的预测标签。
其中,该至少一个目标子序列与该当前遍历的子序列之间的距离,均小于所述多个子序列中除所述至少一个目标子序列和所述当前遍历的子序列以外的其他子序列与该当前遍历的子序列之间的距离,该至少一个目标子序列的数目可以通过提前预设得到。
示例性的,从多个子序列中获取了五个目标子序列,该五个目标子序列与当前遍历的子序列之间的距离均小于其他子序列与该当前遍历的子序列之间的距离,该五个目标子序列中,三个目标子序列的参考标签为第一标签,两个目标子序列的参考标签为第二标签,由于三个多于两个,因此该当前遍历的子序列的预测标签确定为第一标签。
通过当前遍历的子序列的预测标签的确定过程,可以得到与当前遍历的子序列属性特征最相似的多个子序列,并使该多个子序列与该当前遍历的子序列为同一预测标签,参考标签与预测标签差异越大即表明此时的候选分割点两边的子序列属性特征差异越大。
因此基于各个子序列的参考标签和预测标签可以计算得到的验证评估值可以表征该验证评估值对应的候选分割点对该时间序列段进行分割处理对应得到的第一时间序列组和第二时间序列组的属性特征差异。
S303、基于任一时间序列段包含的各个子序列的参考标签和预测标签,计算该候选分割点对应的验证评估值。
每一候选分割点对应一个验证评估值。该验证评估值可以表征,基于该验证评估值对应的候选分割点对该时间序列段进行分割处理对应得到的第一时间序列组和第二时间序列组的属性特征差异。其中,属性特征表征该时间序列中包含的数据的某种属性或特性,示例性的,在文本分类中,该属性特征可以包括词频或者TF-IDF值;在图像处理中,该属性特征可以包括像素值或者颜色直方图。
验证评估值通常在真正例(TP)、假正例(FP)、假反例(FP)以及真反例(FN)的基础上定义。其中,真正例,表示模型正确地将正例预测为正例,即实际上是正例,且预测为正例;假正例,表示模型错误地将反例预测为正例,即实际上是反例,但预测为正例;假反例,表示模型错误的将正例预测为反例,即实际上是正例,但模型预测为反例;真反例,表示模型正确地将反例预测为反例,即实际上是反例,且预测为反例。
示例性的,若第一标签为正,第二标签为反。一个子序列的参考标签为第一标签,预测标签也为第一标签,即为一个真正例;一个子序列的参考标签为第二标签,预测标签为第一标签,即为一个假正例;一个子序列的参考标签为第一标签,预测标签为第二标签,即为一个假反例;一个子序列的参考标签为第二标签,预测标签为第二标签,即为一个真反例。
验证评估值的计算可以包括真正例率(Positive Rate,TPR)、精确率(Precision)、F1分数(F1-Score)、假正例率(/>Positive Rate,FPR)等指标分数的计算。
其中,真正例率(Positive Rate,TPR)的公式可以如下公式(1)所示:
(1)
精确率(Precision)的公式可以如下公式(2)所示:
(2)
F1分数(F1-Score)的公式可以如下公式(3)所示:
(3)
假正例率(Positive Rate,FPR)的公式可以如下公式(4)所示:
(4)
该验证评估值的计算还可以包括ROC/AUC的计算,其中ROC(Receiver OperatingCharacteristic)曲线是以假正例率(FPR)为横轴,真正例率(TPR)为纵轴绘制的曲线。它展示了在不同分类阈值下,模型的真正例率和特异度之间的权衡关系。AUC(Area Under theCurve)指的是ROC曲线下的面积,即ROC曲线与坐标轴围成的区域的面积。AUC的取值范围在0到1之间,AUC值越接近1,表示模型的性能越好,能更好地区分正例和反例。ROC/AUC的公式可以如下公式(5)所示:
(5)
可以理解的是,上述图2所示的流程图实现了本申请实施例提供的一种数据分割方法描述的是第n个分割点的确定过程,n为正整数,且n大于1,请参见图4,图4是本申请实施例提供的一种时间序列中第一个分割点的确定方式的示意图,如图4所示,获取一个时间序列,从该时间序列一端选取一个候选分割点,基于该候选分割点对该时间序列进行分割处理,得到第一时间序列段和第二时间序列段,获取该候选分割点对应的验证评估值,将该候选分割点作为上一次确定的候选分割点,基于预设偏移量对上一次确定的候选分割点进行偏移,得到该时间序列的一个候选分割点,并基于该候选分割点对该时间序列进行分割处理,得到第一时间序列段和第二时间序列段,获取该候选分割点对应的验证评估值,将该候选分割点作为上一次确定的候选分割点,触发执行上述基于预设偏移量对上一次确定的候选分割点进行偏移,得到该时间序列的一个候选分割点的步骤,获取该时间序列包含的各个候选分割点对应的验证评估值中的极值,并将该极值对应的候选分割点确定为所述时间序列的第一个分割点。示例性的,如图4所示,若极大值对应的候选分割点为该时间序列的第一个分割点,该时间序列的一个候选分割点为s=1.8k,另一个候选分割点为s=3k,该一个候选分割点为s=1.8k对应的验证评估值为0.7,另一个候选分割点为s=3k对应的验证评估值为0.8,其中0.8为该时间序列所有候选分割点对应的验证评估值的极大值,则该时间序列的第一个分割点确定为该分割点s=3k。
在一种实现方式中,该时间序列包括多个子序列,各个子序列的窗口长度相同,该时间序列获取候选分割点对应的验证评估值的过程与上述图3所描述的获取验证评估值流程中除序列组均变为序列段外其余流程相同,故在此不再赘述。
在一种实现方式中,上述时间序列包括多个子序列,各个子序列的窗口长度相同,获取该子序列的窗口长度的方法可以参见图5,图5是本申请实施例提供的一种窗口长度的确定方式的流程示意图,如图所示。
S501、获取时间序列的属性特征。
该时间序列的组成可以包括在多个不同时间点上观察到的一系列数据点或状态,该时间序列的属性特征可以包括组成该时间序列的一系列数据点或状态的算术平均值、标准差和范围。
S502、基于目标窗口长度对该时间序列进行划分,得到多个候选子序列。
各个候选子序列的窗口长度均为该目标窗口长度。该目标长度可以为预设初始长度然后通过后续流程不断迭代更新。
S503、获取该多个候选子序列的属性特征。
该多个候选子序列的属性特征与上述时间序列的属性特征相同,该属性特征可以由包括组成该多个候选子序列的一系列数据点或状态的算术平均值、标准差和范围进行表征。示例性的,以该时间序列为股票价格时间序列为例,可以用该股票价格时间序列的算术平均值表征该股票价格时间序列的属性特征,该股票价格时间序列的算术平均值即该股票价格时间序列中包含的所有股票价格的平均值。
S504、针对任一候选子序列,基于该时间序列的属性特征和该多个候选子序列的属性特征,得到该任一候选子序列和该时间序列的距离。
该距离表征该时间序列和该任一候选子序列的属性特征的相似度,该距离越大,则该候选子序列与该时间序列的属性特征越不相似。
S505、按照减小该多个候选子序列和该时间序列的距离的方向,更新该目标窗口长度。
按照减小该多个候选子序列和该时间序列的距离的方向,更新该目标窗口长度,并触发执行该基于目标窗口长度对该时间序列进行划分,得到多个候选子序列的步骤,直至基于更新后的目标窗口长度对该时间序列进行划分得到的多个候选子序列和该时间序列的距离小于预设距离阈值。
获取基于更新后的目标窗口长度对该时间序列进行划分得到的各个候选子序列和该时间序列的距离,基于获取到的各个候选子序列和所述时间序列的距离,计算该基于更新后的目标窗口长度对该时间序列进行划分得到的多个候选子序列,和该时间序列的距离总和。若该距离总和小于预设距离阈值,则触发执行将该基于更新后的目标窗口长度对该时间序列进行划分得到的多个候选子序列,作为该时间序列包含的多个子序列的步骤。
在一种实现方式中,若该时间序列为T,计算该时间序列T的均值、标准差和范围,作为该时间序列属性特征的统计向量。然后将该时间序列属性特征的统计向量与基于更新后的目标窗口长度对该时间序列进行划分得到的各个候选子序列的属性特征的统计向量/>之间的距离进行计算。
对于候选子序列的目标窗口长度大小,各个候选子序列的属性特征的统计向量/>被计算为一个矩阵,该矩阵的第/>行包含/>的统计向量。可以计算和所有候选子序列的属性特征的统计向量/>之间的欧几里得距离,并用对应的目标窗口长度大小的平方根的倒数加权,归一化子序列之间的距离,以纠正较大目标窗口长度的偏差。然后可以得到/>和/>之间的欧几里得距离的平均距离,代表/>的最终选择分数。
由于候选子序列和时间序列的统计向量随着目标窗口长度大小的增加而对齐,的最终选择分数会随着/>的增加而单调递增。因此可以进行指数和二分搜索,以有效地找到具有大于预设阈值/>的分数的最小目标窗口长度大小/>
可选的,寻找该最小目标窗口长度大小,使子序列的统计向量与该时间序列的统计向量紧密匹配,可以将该预设阈值固定为与该时间序列包含的状态所属的领域无关的默认值。通过指数搜索跨越一个小范围lbound/>ubound,再在此范围内进行二分搜索以得到最终的/>。两种搜索程序的结合确保了快速目标窗口长度大小选择和少量比较。
S506、若基于更新后的目标窗口长度对该时间序列进行划分得到的多个候选子序列和该时间序列的距离小于预设距离阈值,则将该基于更新后的目标窗口长度对该时间序列进行划分得到的多个候选子序列,作为该时间序列包含的多个子序列。
下面以一种数据分割方法为例,该数据分割方法的应用方法可以包括:获取一个时间序列,该时间序列包括多个子序列,各个子序列的窗口长度相同,从该时间序列起始点选取一个候选分割点,基于该候选分割点对该时间序列进行分割处理,得到第一时间序列段和第二时间序列段,获取该候选分割点对应的验证评估值,将该候选分割点作为上一次确定的候选分割点,基于预设偏移量对上一次确定的候选分割点进行偏移,得到该时间序列的一个候选分割点,并基于该一个候选分割点对该时间序列进行分割处理,得到该一个候选分割点对应的第一时间序列段和第二时间序列段,获取该一个候选分割点对应的验证评估值,将该一个候选分割点作为上一次确定的候选分割点,触发执行上述基于预设偏移量对上一次确定的候选分割点进行偏移,得到该时间序列的一个候选分割点的步骤,直至偏移到该时间序列的终止点。获取该时间序列包含的各个候选分割点对应的验证评估值中的极大值,将该极值对应的候选分割点确定为所述时间序列的第一个分割点。
将该第一个分割点作为上一个确定的分割点,基于该上一个确定的分割点,获取该时间序列中的第一时间序列段和第二时间序列段,针对该任一时间序列段,从该时间序列段一端选取一个候选分割点,基于该候选分割点对该时间序列段进行分割处理,得到第一时间序列组和第二时间序列组,获取该候选分割点对应的验证评估值,将该候选分割点作为上一次确定的候选分割点,基于预设偏移量对该上一次确定的候选分割点进行偏移,得到该任一时间序列段的一个候选分割点,并基于该一个候选分割点对所述任一时间序列段进行分割处理,得到该一个候选分割点对应的第一时间序列组和第二时间序列组。获取该一个候选分割点对应的验证评估值,将该一个候选分割点作为上一次确定的候选分割点,触发执行上述基于预设偏移量对上一次确定的候选分割点进行偏移,得到该时间序列的一个候选分割点的步骤,获取各个候选分割点对应的验证评估值,将该各个候选分割点对应的验证评估值进行比较,得到该第一时间序列段和第二时间序列段包含的各个候选分割点对应的验证评估值中的极大值,并将极大值对应的候选分割点确定为该时间序列的一个分割点,再基于该确定的分割点得到此时的第一时间序列段和第二时间序列段,并触发执行针对任一时间序列段,从该时间序列段一端选取一个候选分割点,基于该候选分割点对该时间序列段进行分割处理,得到第一时间序列组和第二时间序列组,获取该候选分割点对应的验证评估值,将该候选分割点作为上一次确定的候选分割点,基于预设偏移量对该上一次确定的候选分割点进行偏移,得到该任一时间序列段的一个候选分割点的步骤,直至满足第一时间序列段和第二时间序列段包含的各个候选分割点对应的验证评估值均小于预设阈值,则分割结束。
可见,本申请实施例提供了一种数据分割方法,该方法不需要用户针对应用领域提前设置超参数,可以自动确定分割点数目和相应的分割点,同时该数据分割方法还包括了一种自动选择子序列窗口长度大小的方法,可以从获取的时间序列数据中自动推断子序列的窗口长度大小,使得该数据分割方法可以广泛地应用于各种领域的互联网产品中,实现了对时间序列数据进行分割的各领域通用性,便于企业更好地了解用户需求,提高产品的用户体验和市场竞争力。
基于相关实施例的描述,本申请实施例还提供了一种数据分割的装置,该数据分割装置可以执行图1到图5所示的时间序列分割操作。请参见图6,图6是本申请实施例提供的一种数据分割装置的结构示意图。如图6所示,该数据处理装置可包括但不限于获取单元601、偏移单元602以及确定单元603。
获取单元601,用于获取时间序列中的第一时间序列段和第二时间序列段;
偏移单元602,用于针对任一时间序列段,基于预设偏移量对上一次确定的候选分割点进行偏移,得到所述任一时间序列段的一个候选分割点,并基于所述候选分割点对所述任一时间序列段进行分割处理,得到第一时间序列组和第二时间序列组;
获取单元601,还用于获取所述候选分割点对应的验证评估值,所述验证评估值用于表征所述第一时间序列组与所述第二时间序列组的属性特征的差异;
确定单元603,用于将所述候选分割点作为上一次确定的候选分割点,触发执行所述基于预设偏移量对上一次确定的候选分割点进行偏移,得到所述任一时间序列段的一个候选分割点的步骤;
获取单元601,还用于获取所述第一时间序列段和所述第二时间序列段包含的各个候选分割点对应的验证评估值中的极值;
确定单元603,还用于将所述极值对应的候选分割点确定为所述时间序列的分割点。
在一种可选的实施方式中,确定单元603还用于基于所述分割点对所述时间序列进行分割,得到所述时间序列中的第一时间序列段和第二时间序列段,并触发执行所述针对任一时间序列段,基于预设偏移量对上一次确定的候选分割点进行偏移,得到所述任一时间序列段的一个候选分割点的步骤,直至满足分割截止条件。
在一种可选的实施方式中,确定单元603的截止条件包括以下任一项:
所述第一时间序列段和所述第二时间序列段包含的各个候选分割点对应的验证评估值均小于第一预设阈值;
或者,所述第一时间序列段和所述第二时间序列段包含的各个候选分割点对应的验证评估值均大于第二预设阈值;
或者,确定的所述时间序列的分割点的数量达到预设数量阈值。
在一种可选的实施方式中,获取单元601,用于获取一个时间序列;
偏移单元602,用于基于预设偏移量对上一次确定的候选分割点进行偏移,得到所述时间序列的一个候选分割点,并基于所述候选分割点对所述时间序列进行分割处理,得到第一时间序列段和第二时间序列段;
获取单元601,还用于获取所述候选分割点对应的验证评估值;
确定单元603,用于将所述候选分割点作为上一次确定的候选分割点,触发执行所述基于预设偏移量对上一次确定的候选分割点进行偏移,得到所述时间序列的一个候选分割点的步骤;
获取单元601,还用于获取所述时间序列包含的各个候选分割点对应的验证评估值中的极值;
确定单元603,还用于将所述极值对应的候选分割点确定为所述时间序列的第一个分割点。
在一种可选的实施方式中,所述时间序列包括多个子序列,各个子序列的窗口长度相同;
所述获取单元601获取所述候选分割点对应的验证评估值,包括:
设置所述第一时间序列组包含的各个子序列的参考标签,以及所述第二时间序列组包含的各个子序列的参考标签;其中,所述第一时间序列组包含的各个子序列的参考标签,和所述第二时间序列组包含的各个子序列的参考标签不同;
遍历所述任一时间序列段包含的各个子序列,基于当前遍历的子序列与所述多个子序列中除所述当前遍历的子序列以外的其他子序列的距离,确定所述当前遍历的子序列的预测标签;其中,每两个子序列之间的距离用于表征所述每两个子序列的属性特征的相似度;
基于所述各个子序列的参考标签和预测标签,计算所述候选分割点对应的验证评估值,所述验证评估值用于表征所述第一时间序列组与所述第二时间序列组的属性特征的差异。
在一种可选的实施方式中,所述获取单元601基于当前遍历的子序列与所述多个子序列中的其他子序列的距离,确定所述当前遍历的子序列的预测标签,包括:
基于当前遍历的子序列与所述多个子序列中的其他子序列的距离,从所述多个子序列中获取至少一个目标子序列;其中,所述至少一个目标子序列与所述当前遍历的子序列之间的距离,均小于其他子序列与所述当前遍历的子序列之间的距离;
从所述至少一个目标子序列中确定同一参考标签的数量较多的目标子序列,并将确定的目标子序列的参考标签作为所述当前遍历的子序列的预测标签。
在一种可选的实施方式中,所述获取单元601还用于获取所述时间序列的属性特征;
基于目标窗口长度对所述时间序列进行划分,得到多个候选子序列;各个候选子序列的窗口长度均为所述目标窗口长度;
获取所述多个候选子序列的属性特征;
针对任一候选子序列,基于所述时间序列的属性特征和所述多个候选子序列的属性特征,得到所述任一候选子序列和所述时间序列的距离,所述距离表征所述时间序列和所述任一候选子序列的属性特征相似度;
按照减小所述多个候选子序列和所述时间序列的距离的方向,更新所述目标窗口长度,并触发执行所述基于目标窗口长度对所述时间序列进行划分,得到多个候选子序列的步骤,直至基于更新后的目标窗口长度对所述时间序列进行划分得到的多个候选子序列和所述时间序列的距离小于预设距离阈值;
将所述基于更新后的目标窗口长度对所述时间序列进行划分得到的多个候选子序列,作为所述时间序列包含的多个子序列。
在一种可选的实施方式中,所述获取单元601基于更新后的目标窗口长度对所述时间序列进行划分得到的多个候选子序列和所述时间序列的距离小于预设距离阈值,包括:
获取基于更新后的目标窗口长度对所述时间序列进行划分得到的各个候选子序列和所述时间序列的距离;
基于获取到的各个候选子序列和所述时间序列的距离,计算所述基于更新后的目标窗口长度对所述时间序列进行划分得到的多个候选子序列,和所述时间序列的距离总和;
若所述距离总和小于预设距离阈值,则触发执行所述将所述基于更新后的目标窗口长度对所述时间序列进行划分得到的多个候选子序列,作为所述时间序列包含的多个子序列的步骤。
本申请实施例中,获取单元601获取时间序列的第一时间序列段和第二时间序列段,偏移单元602针对任一时间序列段,对上一次确定的候选分割点进行偏移,得到该任一时间序列段的一个候选分割点,基于该候选分割点对该任一时间序列段进行分割处理,获取单元601还基于该候选分割点,可以获取该候选分割点对应的验证评估值,确定单元603将该候选分割点作为上一次确定的候选分割点,触发执行基于预设偏移量对上一次确定的候选分割点进行偏移,得到该任一时间序列段的一个候选分割点的步骤,然后获取单元601获取第一时间序列段和第二时间序列段包含的各个候选分割点对应的验证评估值中的极值,确定单元603将该极值对应的候选分割点确定为该时间序列的分割点。
由于该验证评估值表征该第一时间序列组与该第二时间序列组的属性特征的差异,因此获取各个候选分割点对应的验证评估值中的极值,并将该极值对应的候选分割点确定为该时间序列的分割点可以在不需要人为设置超参数的情况下,自动对时间序列数据进行分割。基于此,本申请实施例实现了对时间序列数据进行分割的各领域通用性。
本申请实施例还提供了一种计算机设备,请参见图7,图7是本申请实施例提供的一种计算机设备的结构示意图。如图7所示,该计算机设备至少包括处理器701、存储器702和通信接口703可通过总线704或其他方式连接,本申请实施例以通过总线704连接为例。本申请实施例的处理器701可通过运行存储器702中存储的计算机程序,执行前述数据分割方法的操作,例如:
获取时间序列中的第一时间序列段和第二时间序列段;
针对任一时间序列段,基于预设偏移量对上一次确定的候选分割点进行偏移,得到所述任一时间序列段的一个候选分割点,并基于所述候选分割点对所述任一时间序列段进行分割处理,得到第一时间序列组和第二时间序列组;
获取所述候选分割点对应的验证评估值,所述验证评估值用于表征所述第一时间序列组与所述第二时间序列组的属性特征的差异;
将所述候选分割点作为上一次确定的候选分割点,触发执行所述基于预设偏移量对上一次确定的候选分割点进行偏移,得到所述任一时间序列段的一个候选分割点的步骤;
获取所述第一时间序列段和所述第二时间序列段包含的各个候选分割点对应的验证评估值中的极值,并将所述极值对应的候选分割点确定为所述时间序列的分割点。
在一种可选的实施方式中,处理器701还用于执行如下操作:
基于所述分割点对所述时间序列进行分割,得到所述时间序列中的第一时间序列段和第二时间序列段,并触发执行所述针对任一时间序列段,基于预设偏移量对上一次确定的候选分割点进行偏移,得到所述任一时间序列段的一个候选分割点的步骤,直至满足分割截止条件。
在一种可选的实施方式中,所述分割截止条件包括以下任一项:
所述第一时间序列段和所述第二时间序列段包含的各个候选分割点对应的验证评估值均小于第一预设阈值;
或者,所述第一时间序列段和所述第二时间序列段包含的各个候选分割点对应的验证评估值均大于第二预设阈值;
或者,确定的所述时间序列的分割点的数量达到预设数量阈值。
在一种可选的实施方式中,处理器701执行所述时间序列的第一个分割点的确定方式包括:
获取一个时间序列;
基于预设偏移量对上一次确定的候选分割点进行偏移,得到所述时间序列的一个候选分割点,并基于所述候选分割点对所述时间序列进行分割处理,得到第一时间序列段和第二时间序列段;
获取所述候选分割点对应的验证评估值;
将所述候选分割点作为上一次确定的候选分割点,触发执行所述基于预设偏移量对上一次确定的候选分割点进行偏移,得到所述时间序列的一个候选分割点的步骤;
获取所述时间序列包含的各个候选分割点对应的验证评估值中的极值,并将所述极值对应的候选分割点确定为所述时间序列的第一个分割点。
在一种可选的实施方式中,所述时间序列包括多个子序列,各个子序列的窗口长度相同;
处理器701获取所述候选分割点对应的验证评估值,具体用于执行如下操作:
设置所述第一时间序列组包含的各个子序列的参考标签,以及所述第二时间序列组包含的各个子序列的参考标签;其中,所述第一时间序列组包含的各个子序列的参考标签,和所述第二时间序列组包含的各个子序列的参考标签不同;
遍历所述任一时间序列段包含的各个子序列,基于当前遍历的子序列与所述多个子序列中除所述当前遍历的子序列以外的其他子序列的距离,确定所述当前遍历的子序列的预测标签;其中,每两个子序列之间的距离用于表征所述每两个子序列的属性特征的相似度;
基于所述各个子序列的参考标签和预测标签,计算所述候选分割点对应的验证评估值,所述验证评估值用于表征所述第一时间序列组与所述第二时间序列组的属性特征的差异。
在一种可选的实施方式中,处理器701基于当前遍历的子序列与所述多个子序列中除所述当前遍历的子序列以外的其他子序列的距离,确定所述当前遍历的子序列的预测标签,具体用于执行如下操作:
基于当前遍历的子序列与所述多个子序列中除所述当前遍历的子序列以外的其他子序列的距离,从所述多个子序列中获取至少一个目标子序列;其中,所述至少一个目标子序列与所述当前遍历的子序列之间的距离,均小于所述多个子序列中除所述至少一个目标子序列和所述当前遍历的子序列以外的其他子序列与所述当前遍历的子序列之间的距离;每两个子序列之间的距离用于表征所述每两个子序列的属性特征的相似度;
从所述至少一个目标子序列中确定同一参考标签的数量较多的目标子序列,并将确定的目标子序列的参考标签作为所述当前遍历的子序列的预测标签。
在一种可选的实施方式中,处理器701还用于执行如下操作:
获取所述时间序列的属性特征;
基于目标窗口长度对所述时间序列进行划分,得到多个候选子序列;各个候选子序列的窗口长度均为所述目标窗口长度;
获取所述多个候选子序列的属性特征;
针对任一候选子序列,基于所述时间序列的属性特征和所述多个候选子序列的属性特征,得到所述任一候选子序列和所述时间序列的距离,所述距离表征所述时间序列和所述任一候选子序列的属性特征相似度;
按照减小所述多个候选子序列和所述时间序列的距离的方向,更新所述目标窗口长度,并触发执行所述基于目标窗口长度对所述时间序列进行划分,得到多个候选子序列的步骤,直至基于更新后的目标窗口长度对所述时间序列进行划分得到的多个候选子序列和所述时间序列的距离小于预设距离阈值;
将所述基于更新后的目标窗口长度对所述时间序列进行划分得到的多个候选子序列,作为所述时间序列包含的多个子序列。
在一种可选的实施方式中,处理器701基于更新后的目标窗口长度对所述时间序列进行划分得到的多个候选子序列和所述时间序列的距离小于预设距离阈值,具体用于执行如下操作:
获取基于更新后的目标窗口长度对所述时间序列进行划分得到的各个候选子序列和所述时间序列的距离;
基于获取到的各个候选子序列和所述时间序列的距离,计算所述基于更新后的目标窗口长度对所述时间序列进行划分得到的多个候选子序列,和所述时间序列的距离总和;
若所述距离总和小于预设距离阈值,则触发执行所述将所述基于更新后的目标窗口长度对所述时间序列进行划分得到的多个候选子序列,作为所述时间序列包含的多个子序列的步骤。
在本申请实施例中,处理器701获取时间序列的第一时间序列段和第二时间序列段,针对任一时间序列段,对上一次确定的候选分割点进行偏移,得到该任一时间序列段的一个候选分割点,基于该候选分割点对该任一时间序列段进行分割处理,基于该候选分割点,可以获取该候选分割点对应的验证评估值,将该候选分割点作为上一次确定的候选分割点,触发执行基于预设偏移量对上一次确定的候选分割点进行偏移,得到该任一时间序列段的一个候选分割点的步骤,然后获取第一时间序列段和第二时间序列段包含的各个候选分割点对应的验证评估值中的极值,并将该极值对应的候选分割点确定为该时间序列的分割点。
由于该验证评估值表征该第一时间序列组与该第二时间序列组的属性特征的差异,因此获取各个候选分割点对应的验证评估值中的极值,并将该极值对应的候选分割点确定为该时间序列的分割点可以在不需要人为设置超参数的情况下,自动对时间序列数据进行分割。基于此,本申请实施例实现了对时间序列数据进行分割的各领域通用性。
本申请还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述任一方法实施例中的步骤。
本申请实施例还提供一种计算机程序产品,计算机程序产品包括计算机程序代码,当计算机程序代码在计算机上运行时,使得计算机执行上述任一方法实施例中的步骤。
本申请实施例还提供一种芯片,包括存储器和处理器,存储器用于存储计算机程序,处理器用于从存储器中调用并运行计算机程序,使得安装有芯片的设备执行上述任一方法实施例中的步骤。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。

Claims (11)

1.一种数据分割方法,其特征在于,包括:
获取时间序列中的第一时间序列段和第二时间序列段;
针对任一时间序列段,基于预设偏移量对上一次确定的候选分割点进行偏移,得到所述任一时间序列段的一个候选分割点,并基于所述候选分割点对所述任一时间序列段进行分割处理,得到第一时间序列组和第二时间序列组;
获取所述候选分割点对应的验证评估值,所述验证评估值用于表征所述第一时间序列组的属性特征与所述第二时间序列组的属性特征的差异;
将所述候选分割点作为上一次确定的候选分割点,触发执行所述基于预设偏移量对上一次确定的候选分割点进行偏移,得到所述任一时间序列段的一个候选分割点的步骤;
获取所述第一时间序列段和所述第二时间序列段包含的各个候选分割点对应的验证评估值中的极值,并将所述极值对应的候选分割点确定为所述时间序列的分割点。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述分割点对所述时间序列进行分割,得到所述时间序列中的第一时间序列段和第二时间序列段,并触发执行所述针对任一时间序列段,基于预设偏移量对上一次确定的候选分割点进行偏移,得到所述任一时间序列段的一个候选分割点的步骤,直至满足分割截止条件。
3.如权利要求2所述的方法,其特征在于,所述分割截止条件包括以下任一项:
所述第一时间序列段和所述第二时间序列段包含的各个候选分割点对应的验证评估值均小于第一预设阈值;
或者,所述第一时间序列段和所述第二时间序列段包含的各个候选分割点对应的验证评估值均大于第二预设阈值;
或者,确定的所述时间序列的分割点的数量达到预设数量阈值。
4.如权利要求1所述的方法,其特征在于,所述时间序列的第一个分割点的确定方式包括:
获取一个时间序列;
基于预设偏移量对上一次确定的候选分割点进行偏移,得到所述时间序列的一个候选分割点,并基于所述候选分割点对所述时间序列进行分割处理,得到第一时间序列段和第二时间序列段;
获取所述候选分割点对应的验证评估值;
将所述候选分割点作为上一次确定的候选分割点,触发执行所述基于预设偏移量对上一次确定的候选分割点进行偏移,得到所述时间序列的一个候选分割点的步骤;
获取所述时间序列包含的各个候选分割点对应的验证评估值中的极值,并将所述极值对应的候选分割点确定为所述时间序列的第一个分割点。
5.如权利要求1-4任一项所述的方法,其特征在于,所述时间序列包括多个子序列,各个子序列的窗口长度相同;
所述获取所述候选分割点对应的验证评估值,包括:
设置所述第一时间序列组包含的各个子序列的参考标签,以及所述第二时间序列组包含的各个子序列的参考标签;其中,所述第一时间序列组包含的各个子序列的参考标签,和所述第二时间序列组包含的各个子序列的参考标签不同;
遍历所述任一时间序列段包含的各个子序列,基于当前遍历的子序列与所述多个子序列中除所述当前遍历的子序列以外的其他子序列的距离,确定所述当前遍历的子序列的预测标签;其中,每两个子序列之间的距离用于表征所述每两个子序列的属性特征的相似度;
基于所述任一时间序列段包含的各个子序列的参考标签和预测标签,计算所述候选分割点对应的验证评估值。
6.如权利要求5所述的方法,其特征在于,所述基于当前遍历的子序列与所述多个子序列中除所述当前遍历的子序列以外的其他子序列的距离,确定所述当前遍历的子序列的预测标签,包括:
基于当前遍历的子序列与所述多个子序列中除所述当前遍历的子序列以外的其他子序列的距离,从所述多个子序列中获取至少一个目标子序列;其中,所述至少一个目标子序列与所述当前遍历的子序列之间的距离,均小于所述多个子序列中除所述至少一个目标子序列和所述当前遍历的子序列以外的其他子序列与所述当前遍历的子序列之间的距离;
从所述至少一个目标子序列中确定同一参考标签的数量较多的目标子序列,并将确定的目标子序列的参考标签作为所述当前遍历的子序列的预测标签。
7.如权利要求5所述的方法,其特征在于,所述方法还包括:
获取所述时间序列的属性特征;
基于目标窗口长度对所述时间序列进行划分,得到多个候选子序列;各个候选子序列的窗口长度均为所述目标窗口长度;
获取所述多个候选子序列的属性特征;
针对任一候选子序列,基于所述时间序列的属性特征和所述多个候选子序列的属性特征,得到所述任一候选子序列和所述时间序列的距离,所述任一候选子序列和所述时间序列的距离用于表征所述时间序列的属性特征和所述任一候选子序列的属性特征的相似度;
按照减小所述多个候选子序列和所述时间序列的距离的方向,更新所述目标窗口长度,并触发执行所述基于目标窗口长度对所述时间序列进行划分,得到多个候选子序列的步骤,直至基于更新后的目标窗口长度对所述时间序列进行划分得到的多个候选子序列和所述时间序列的距离小于预设距离阈值;
将所述基于更新后的目标窗口长度对所述时间序列进行划分得到的多个候选子序列,作为所述时间序列包含的多个子序列。
8.如权利要求7所述的方法,其特征在于,所述基于更新后的目标窗口长度对所述时间序列进行划分得到的多个候选子序列和所述时间序列的距离小于预设距离阈值,包括:
获取基于更新后的目标窗口长度对所述时间序列进行划分得到的各个候选子序列和所述时间序列的距离;
基于获取到的各个候选子序列和所述时间序列的距离,计算所述基于更新后的目标窗口长度对所述时间序列进行划分得到的多个候选子序列,和所述时间序列的距离总和;
若所述距离总和小于预设距离阈值,则触发执行所述将所述基于更新后的目标窗口长度对所述时间序列进行划分得到的多个候选子序列,作为所述时间序列包含的多个子序列的步骤。
9.一种数据分割的装置,其特征在于,所述装置包括:
获取单元,用于获取时间序列中的第一时间序列段和第二时间序列段;
偏移单元,用于针对任一时间序列段,基于预设偏移量对上一次确定的候选分割点进行偏移,得到所述任一时间序列段的一个候选分割点,并基于所述候选分割点对所述任一时间序列段进行分割处理,得到第一时间序列组和第二时间序列组;
所述获取单元,还用于获取所述候选分割点对应的验证评估值,所述验证评估值用于表征所述第一时间序列组的属性特征与所述第二时间序列组的属性特征的差异;
确定单元,用于将所述候选分割点作为上一次确定的候选分割点,触发执行所述基于预设偏移量对上一次确定的候选分割点进行偏移,得到所述任一时间序列段的一个候选分割点的步骤;
所述获取单元,还用于获取所述第一时间序列段和所述第二时间序列段包含的各个候选分割点对应的验证评估值中的极值;
所述确定单元,还用于将所述极值对应的候选分割点确定为所述时间序列的分割点。
10.一种计算机设备,其特征在于,所述计算机设备包括存储器、通信接口以及处理器,其中,所述存储器、所述通信接口和所述处理器相互连接;所述存储器存储有计算机程序,所述处理器调用所述存储器中存储的计算机程序,用于实现权利要求1至8任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的方法。
CN202311444376.7A 2023-11-02 2023-11-02 一种数据分割方法、装置、设备及存储介质 Active CN117171589B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311444376.7A CN117171589B (zh) 2023-11-02 2023-11-02 一种数据分割方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311444376.7A CN117171589B (zh) 2023-11-02 2023-11-02 一种数据分割方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN117171589A CN117171589A (zh) 2023-12-05
CN117171589B true CN117171589B (zh) 2024-01-02

Family

ID=88945298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311444376.7A Active CN117171589B (zh) 2023-11-02 2023-11-02 一种数据分割方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117171589B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315802A (zh) * 2007-05-29 2008-12-03 索尼株式会社 数据处理装置、方法和程序以及记录装置、方法和程序
WO2015162748A1 (ja) * 2014-04-24 2015-10-29 株式会社日立製作所 データ変換装置およびデータ変換方法
CN111797127A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 时序数据分割方法、装置、存储介质及电子设备
CN114610572A (zh) * 2022-03-10 2022-06-10 中国工商银行股份有限公司 服务异常检测方法、装置、计算机设备和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7970718B2 (en) * 2001-05-18 2011-06-28 Health Discovery Corporation Method for feature selection and for evaluating features identified as significant for classifying data
US20230176535A1 (en) * 2021-12-08 2023-06-08 Optumsoft, Inc. Autonomous control of complex engineered systems

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315802A (zh) * 2007-05-29 2008-12-03 索尼株式会社 数据处理装置、方法和程序以及记录装置、方法和程序
WO2015162748A1 (ja) * 2014-04-24 2015-10-29 株式会社日立製作所 データ変換装置およびデータ変換方法
CN111797127A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 时序数据分割方法、装置、存储介质及电子设备
CN114610572A (zh) * 2022-03-10 2022-06-10 中国工商银行股份有限公司 服务异常检测方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于EMD和BoF模型的时间序列数据挖掘及应用;黄炜平;《中国博士学位论文全文数据库 信息科技辑》;第I138-14页 *

Also Published As

Publication number Publication date
CN117171589A (zh) 2023-12-05

Similar Documents

Publication Publication Date Title
US11310559B2 (en) Method and apparatus for recommending video
CN108073902B (zh) 基于深度学习的视频总结方法、装置及终端设备
CN107464132B (zh) 一种相似用户挖掘方法及装置,电子设备
CN109460519B (zh) 浏览对象推荐方法及装置、存储介质、服务器
US20210073890A1 (en) Catalog-based image recommendations
CN111291765A (zh) 用于确定相似图片的方法和装置
CN110750615B (zh) 文本重复性判定方法和装置、电子设备和存储介质
CN108595448B (zh) 信息推送方法和装置
CN107766467B (zh) 一种信息检测方法、装置、电子设备及存储介质
CN112330398B (zh) 一种对象处理方法、装置、电子设备及存储介质
CN105718951B (zh) 用户相似度的估算方法及估算系统
JP2017182628A (ja) 拡張現実ユーザインタフェース適用装置および制御方法
CN111784462A (zh) 基于区块链的交易处理方法、客户端、处理终端及系统
CN107291774B (zh) 错误样本识别方法和装置
CN109697240B (zh) 一种基于特征的图像检索方法及装置
CN112765478A (zh) 用于推荐内容的方法、装置、设备、介质和程序产品
CN112860993A (zh) 兴趣点的分类方法、装置、设备、存储介质及程序产品
CN109961308B (zh) 评估标签数据的方法和装置
CN117171589B (zh) 一种数据分割方法、装置、设备及存储介质
CN115169489B (zh) 数据检索方法、装置、设备以及存储介质
CN104850600B (zh) 一种用于搜索包含人脸的图片的方法和装置
CN110992127A (zh) 一种物品推荐方法及装置
CN110827101A (zh) 一种店铺推荐的方法和装置
CN112905885B (zh) 向用户推荐资源的方法、装置、设备、介质和程序产品
CN116029891A (zh) 图数据存储、访问、处理方法、训练方法、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant