CN115357813B - 采样方法、装置及电子设备 - Google Patents
采样方法、装置及电子设备 Download PDFInfo
- Publication number
- CN115357813B CN115357813B CN202211286944.0A CN202211286944A CN115357813B CN 115357813 B CN115357813 B CN 115357813B CN 202211286944 A CN202211286944 A CN 202211286944A CN 115357813 B CN115357813 B CN 115357813B
- Authority
- CN
- China
- Prior art keywords
- sampling
- data
- threshold
- cell
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005070 sampling Methods 0.000 title claims abstract description 466
- 238000000034 method Methods 0.000 title claims abstract description 101
- 238000004590 computer program Methods 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 abstract description 37
- 230000000694 effects Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 16
- 230000006399 behavior Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/021—Services related to particular areas, e.g. point of interest [POI] services, venue services or geofences
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请提供一种采样方法、装置及电子设备,该方法包括:获取第一采样数据,第一采样数据为第一时间周期内至少一个终端上报的采样数据,采样数据中包括用于学习围栏特征的至少一个cell的数据;根据第一采样数据和采样阈值,确定采样策略,采样阈值包括欠采样阈值或过采样阈值中的至少一项;向至少一个目标终端发送指示信息,用于指示至少一个目标终端根据采样策略进行采样。该方案通过一段时间周期内的采样数据跟采样阈值来确定这段时间周期内的采样情况,进而确定后续的采样策略,能够有效指导采样过程,从而提高终端上报的采样数据的质量,进而使得在利用这些采样数据进行围栏特征的学习时能够达到更好的效果。
Description
技术领域
本申请涉及融合感知围栏技术领域,尤其涉及一种采样方法、装置及电子设备。
背景技术
融合感知围栏旨在学习通用围栏和业务围栏,赋能更多业务。也就是说,当手机等终端设备处在某个地理围栏里,就可以触发所在围栏,终端设备可以上报一些通用信息或者业务信息,或者可以给这些终端设备推送一些围栏信息。cell(即基站)信息作为通用围栏特征学习的基础数据,其数据采集的有效性和完整性决定了cell围栏特征学习是否准确、全面。由于基站的个数是有限的,因此基于cell信息学习通用围栏特征时,希望尽可能全面的覆盖已有基站,提高围栏特征的全面性。简而言之,cell特征学习的准确性影响了上层业务围栏使用的准确性。
目前,对于围栏特征的学习,关注点大多在于如何通过优化训练方法使得学习到的围栏特征更充分,例如采用有监督学习方法、神经网络算法、强化学习方法等各类训练方法,以达到充分挖掘cell信息中的围栏特征的目的。
但实际上数据采集环节对于后续的特征学习也很重要,如果终端上报的数据不足或者过多甚至上报的数据有问题都会严重影响到后续的训练阶段,导致不能充分学习到围栏特征。
因此,如何更好的进行数据采集,也就是数据采样是亟待解决的技术问题。
发明内容
本申请提供一种采样方法、装置及电子设备,能够更好的进行采样。
第一方面,提供了一种采样方法,该方法包括:获取第一采样数据,第一采样数据为第一时间周期内至少一个终端上报的采样数据,采样数据中包括用于学习围栏特征的至少一个cell的数据;根据第一采样数据和采样阈值,确定采样策略,采样阈值包括欠采样阈值或过采样阈值中的至少一项;向至少一个目标终端发送指示信息,用于指示至少一个目标终端根据采样策略进行采样。
在本申请技术方案中,通过一段时间周期内的采样数据跟采样阈值来确定这段时间周期内的采样情况,进而确定后续的采样策略,能够有效指导采样过程,从而提高终端上报的采样数据的质量,进而使得在利用这些采样数据进行围栏特征的学习时能够达到更好的效果。
需要说明的是,上报采样数据的终端和接收指示信息的目标终端之间既可以是相同的终端也可以不是相同的终端,因为cell特征的学习是一种群体参与的群体行为的学习过程,并不需要以单个终端设备为粒度。
在本申请实施例中,采样阈值可以包括欠采样阈值或过采样阈值中的至少一项。
对于欠采样阈值,当采样数据的数据量小于或等于欠采样阈值的时候认为这些采样数据是欠采样的,这些采样数据对应的时间段是欠采样的,或者可以说这些采样数据对应的时间周期是欠采样状态的时间周期。例如,假设第N天的采样数据的数据量小于或等于欠采样阈值,就认为第N天是欠采样状态。而当采样数据的数据量大于欠采样阈值的时候认为这些采样数据不是欠采样的,这些采样数据对应的时间段不是欠采样的,或者可以说这些采样数据对应的时间周期不是欠采样状态的时间周期,但是这些采样数据是正常的还是过采样的需要进一步判断。
对于过采样阈值,当采样数据的数据量大于或等于过采样阈值的时候认为这些采样数据是过采样的,这些采样数据对应的时间段是过采样的,或者可以说这些采样数据对应的时间周期是过采样状态的时间周期。例如,假设第N天的采样数据的数据量大于或等于过采样阈值,就认为第N天是过采样状态。而当采样数据的数据量小于过采样阈值的时候认为这些采样数据不是过采样的,这些采样数据对应的时间段不是过采样的,或者可以说这些采样数据对应的时间周期不是过采样状态的时间周期,但是这些采样数据是正常的还是欠采样的需要进一步判断。
当采样数据的数据量大于欠采样阈值且小于过采样阈值的时候,认为这些采样数据是正常的或者说是适中的。
需要说明的是,采样阈值可以是每个cell对应一个采样阈值,可以看成是每个cell都有专用的采样阈值,或者说专属阈值。采样阈值也可以是所有cell对应一个采样阈值,可以看成是所有cell共用一个采样阈值,或者说通用的采样阈值。
上述采样阈值可以在线更新,也就是说,可以每隔一段时间更新一次采样阈值。能够进一步提高采样方法的准确性。
结合第一方面,在第一方面的某些实现方式中,当采样阈值包括欠采样阈值时,上述方法还包括:获取第二采样数据,第二采样数据为第二时间周期内至少一个终端上报的采样数据;根据第二采样数据,更新欠采样阈值。
应理解,第二时间周期可以跟第一时间周期是同时或存在先后、有交集或者没有交集,不存在限定。
欠采样阈值的初始值是能够生成围栏特征和/或cell特征需要的cell数据的最小数据量。如果欠采样阈值是所有cell通用的,就是所有cell特征的需要的最小数据量,如果欠采样阈值是每个cell对应一个欠采样阈值,就是每个cell分别的最小数据量作为每个cell的欠采样阈值的初始值。
结合第一方面,在第一方面的某些实现方式中,在根据第二采样数据,更新欠采样阈值时,可以包括:根据欠采样阈值的初始值与第一备选值中的最大值,更新欠采样阈值,其中,第一备选值是根据第二采样数据中能够生成围栏特征的cell数据的均值和方差确定的,欠采样阈值的初始值为能够生成围栏特征需要的cell数据的最小数据量。
结合第一方面,在第一方面的某些实现方式中,上述方法还包括:获取第三采样数据,第三采样数据为第三时间周期内至少一个终端上报的采样数据;根据更新后的欠采样阈值与第二备选值中的最大值,再次更新欠采样阈值,其中,第二备选值是根据第三采样数据中能够生成围栏特征的所有cell的数据的均值和方差确定的。
第三时间周期可以是第二时间周期之后的时间周期,二者可以存在交集,也可以不存在交集。第三时间周期可以跟第一时间周期是同时或存在先后、有交集或者没有交集,不存在限定。
结合第一方面,在第一方面的某些实现方式中,当采样阈值包括过采样阈值时,上述方法还包括:获取第四采样数据,第四采样数据为第四时间周期内至少一个终端上报的采样数据;根据第四采样数据中能够生成围栏特征的所有cell的数据的均值和方差,确定过采样阈值的初始值,过采样阈值的初始值为所有cell通用的初始值。
第四时间周期可以与上述第一时间周期、第二时间周期、第三时间周期是同时或存在先后、有交集或者没有交集,不存在限定。当第四时间周期和第二时间周期或第三时间周期是完全相同的时候,相当于采用的同一时间段的数据既更新了欠采样阈值又确定了过采样阈值的初始值。
结合第一方面,在第一方面的某些实现方式中,上述方法还包括:获取第五采样数据,第五采样数据为第五时间周期内至少一个终端上报的采样数据;当过采样阈值为所有cell通用的阈值时,根据第五采样数据中能够生成围栏特征的所有cell的数据的均值和方差,更新所有cell通用的过采样阈值;或者,当过采样阈值为每个cell分别对应一个阈值时,将第五采样数据中能够生成围栏特征的目标cell的数据的均值和过采样阈值的初始值中的最小值确定为第三备选值;根据第三备选值和第五采样数据中能够生成围栏特征的所有cell的数据的均值中的最大值,更新目标cell的过采样阈值。
针对每个cell分别更新过采样阈值相比于针对所有cell更新通用的过采样阈值准确性更高。但针对所有cell进行通用过采样阈值的更新的执行过程更简单,相比于传统方案中不关心采样而言,能够在提高了采样准确性的前提下提高处理效率,但是提高准确性的程度有限,即针对每个cell更新过采样阈值的方式提高采样准确性的程度更高。
结合第一方面,在第一方面的某些实现方式中,上述方法还包括:获取第六采样数据,第六采样数据为第六时间周期内至少一个终端上报的采样数据;当过采样阈值为每个cell分别对应一个阈值时,将第六采样数据中能够生成围栏特征的目标cell的数据的均值和更新后的过采样阈值中的最小值确定为第四备选值;根据第四备选值和第六采样数据中能够生成围栏特征的所有cell的数据的均值中的最大值,再次更新目标cell的过采样阈值。
第六时间周期可以是第五时间周期之后的时间周期,二者可以存在交集,也可以不存在交集。第六时间周期可以跟第一时间周期、第二时间周期、第三时间周期是同时或存在先后、有交集或者没有交集,不存在限定。
结合第一方面,在第一方面的某些实现方式中,上述第一时间周期包括多个子周期,在根据第一采样数据和采样阈值,确定采样策略时,可以包括:根据第一时间周期内每个cell中欠采样状态的子周期数量在第一时间周期的所有子周期数量中的占比,增加每个cell的采样频次,欠采样状态的子周期用于表示数据量小于或等于欠采样阈值的子周期;或者,根据第一时间周期内每个cell中过采样状态的子周期数量在第一时间周期的所有子周期数量中的占比,减少每个cell的采样频次,过采样状态的子周期用于表示数据量大于或等于过采样阈值的子周期。
通过统计一段时间内的过采样状态和/或欠采样状态的占比来确定调整的采样频次的幅度,使得目标终端能够按照新的采样频次进行采样,对于过采样的情况可以适当减少采样频次,对于欠采样的情况可以适当增加采样频次,使得整个采样过程能够在保证采样的数据量满足需求且防止增加数据传输负担。
结合第一方面,在第一方面的某些实现方式中,在根据第一采样数据和采样阈值,确定采样策略时,还可以包括:当第一时间周期内任一cell的问题状态的子周期数量为非零时,确定采样策略为中止采样,问题状态的子周期用于表示无效数据的占比大于或等于预设无效数据占比阈值的子周期。
结合第一方面,在第一方面的某些实现方式中,上述至少一个目标终端是以cell维度和/或城市维度确定的。由于本申请是一种群体行为学习的场景,所以不需要针对每个终端去控制终端的采样,而是以更高的维度去控制终端的采样。
结合第一方面,在第一方面的某些实现方式中,上述采样策略包括每个cell分别对应的采样频次,或者,采样策略包括所有cell的通用采样频次。
第二方面,提供了一种采样装置,该装置包括由软件和/或硬件组成的用于执行第一方面中的任意一种方法的单元。
第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,当处理器执行计算机程序时能够实现第一方面的任意一种方法。
第四方面,提供了一种芯片,包括处理器,该处理器用于读取并执行存储在存储器中的计算机程序,当计算机程序被处理器执行时能够实现第一方面中的任意一种方法。
可选地,该芯片还包括存储器,存储器与处理器电连接。
可选地,该芯片还可以包括通信接口。
第五方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,当计算机程序被处理器执行时能够实现第一方面中的任意一种方法。
第六方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,当计算机程序被处理器执行时能够实现第一方面中的任意一种方法。
附图说明
图1是本申请实施例的一种适用场景的示意图。
图2是本申请实施例的一种采样方法的执行过程的示意图。
图3是本申请实施例的一种采样方法的示意性流程图。
图4是本申请实施例的一种欠采样阈值的更新方法的示意性流程图。
图5是本申请实施例的一种过采样阈值的更新方法的示意性流程图。
图6是本申请实施例的k值与采样频次的关系示意图。
图7是本申请实施例的采样数据的正态分布曲线的示意图。
图8是本申请实施例的一种采样过程的示意图。
图9是本申请实施例的云端设备的执行过程的示意图。
图10是本申请实施例的终端的采样执行过程的示意图。
图11是本申请实施例的一种采样装置的示意图。
图12是本申请实施例的一种电子设备的硬件结构的示意图。
具体实施方式
下面结合附图对本申请实施例的方案进行介绍。
为了便于理解,首先对本申请涉及的一些技术术语进行介绍。
图1是本申请实施例的一种适用场景的示意图。如图1所示,至少一个采样终端110上报采样数据给云端设备120。云端设备120对这些上报的采样数据进行特征学习,得到cell特征,以及进行cell特征与围栏特征的关联的学习,就可以得到围栏特征。云端设备120就可以下发这些围栏特征给至少一个目标终端130。
应理解,由于围栏特征本质上是一种群体行为的学习,所以并不需要区分采样数据到底来自于哪个终端设备。此外,采样终端110也可以作为目标终端130,目标终端130也可以作为采样终端110。例如,用户A的手机是一个采样终端,上报了采样数据之后可能会作为目标终端接收围栏特征,也可能不会作为目标终端,就不会接收到围栏特征。又例如,用户B的平板电脑是一个目标终端,它接收到的围栏特征是不是通过自己上报的采样数据得到的并不需要关心。
在本申请实施例中,终端(例如采样终端110,目标终端130)可以是手机、智能手表、平板电脑、笔记本电脑、XR终端、车载终端、只能穿戴设备等。XR终端还可以包括虚拟现实(virtual reality,VR)终端、增强现实(augmented reality,AR)终端和混合现实(mixedreality,MR)终端。云端设备可以是云端服务器、主机、电脑等能够进行特征学习等数据处理过程的设备。
在传统方案中,往往是通过改进云端设备120进行特征学习时的训练方法,来提高围栏特征的准确性,却忽视了采样阶段对于后续训练过程的影响,如果采样数据质量不高,就会导致后续的特征学习的效果并不好。例如,如果上报的采样数据的数据量太少,不足以学习到代表群体行为的特征,如果强行进行特征学习就导致学习到的特征并不准确。又例如,如果上报的采样数据的数据量太多,一方面可能会导致局部收敛的问题,另一方面也会给端云设备之间的数据交互增加负担。再例如,如果上报的采样数据存在大量的无效数据,就会导致无法学习到准确特征,如果不进行干预,就会一直接收到大量的无效数据,却学习不到正确的围栏特征。
针对上述问题,本申请提供一种采样方法,通过设定采样阈值,并根据一段时间周期内的采样数据跟采样阈值的关系来确定这段时间周期内的采样情况,进而确定后续的采样策略,能够有效指导采样过程,从而提高终端上报的采样数据的质量,进而使得在利用这些采样数据进行围栏特征的学习时能够达到更好的效果。
图2是本申请实施例的一种采样方法的执行过程的示意图。如图2所示,采样终端110根据采样策略采样和上报采样数据给云端设备120,云端设备对采样数据进行分析之后更新采样策略,之后下发新的采样策略给新的采样终端110(目标采样终端),之后新的采样终端110就会根据新的采样策略进行采样和上报采样数据,如此循环。
可以看出,在这个循环过程中,采样终端是可以发生变化的,也就是说,下发采样策略的时候并不是必须要发给此次上报采样数据的终端,或者可以理解为,下一次根据新的采样策略进行采样和上报采样数据的终端(也就是目标采样终端)不一定就是此次上报采样数据的采样终端。原因在于,采样策略能够以cell维度、城市维度进行下发,假设用户A的终端在B城市上报了采样数据,在下发采样策略的时候是以B城市的维度进行下发的,也就是所有B城市的能够进行采样的终端都会按照下发的采样策略进行后续采样和上报,但此时用户A已经离开了B城市,就不需要再给用户A的终端下发采样策略了。
图3是本申请实施例的一种采样方法的示意性流程图。下面对图3所示步骤进行介绍。
S301、获取第一采样数据。
第一采样数据为第一时间周期内至少一个终端上报的采样数据。例如,近期两周的采样数据作为第一采样数据,那么第一时间周期就是这两周。第一时间周期内又包括14天,因此还可以天为单位,将第一时间周期划分成14个子周期,每个子周期的时间长度是一天。但应理解,第一时间周期具体取多长是不存在限定的,可以根据需求来取,在第一时间周期内怎么划分子周期也是不存在限定的,例如也可以是把第一时间周期划分成7个子周期,每个子周期的时间长度是2天,或者按照每个子周期是20小时划分等,不再逐一列举。
上述至少一个终端就是上文中的采样终端的一例,也就是说,第一采样数据是第一时间周期内所有采样终端上报的采样数据,但是具体哪些采样终端进行了上报并不需要逐一分辨出来。例如可能A终端上报了连续两天的采样数据,B终端只上报过一次采样数据,C终端每天都上报采样数据等,不存在限定。
在这些采样数据中包括用于学习围栏特征的至少一个cell的数据。本申请主要用于围栏特征学习这一场景的采样阶段的控制,因此,这些采样数据中会包括能够学习到围栏特征的cell数据,但具体包括多少cell,以及包括哪些cell可以通过后面的特征学习过程中的处理步骤得到。上报的采样数据在后续例如可以如图1所示进行特征学习得到cell特征,以及进一步学习得到围栏特征。但应理解,本申请实施例主要是采样阶段的控制,所以对于后续特征学习阶段具体采用什么学习方法,执行什么样的步骤不存在限定。
S302、根据第一采样数据和采样阈值,确定采样策略。
在本申请实施例中,采样阈值可以包括欠采样阈值或过采样阈值中的至少一项。
对于欠采样阈值,当采样数据的数据量小于或等于欠采样阈值的时候认为这些采样数据是欠采样的,这些采样数据对应的时间段是欠采样的,或者可以说这些采样数据对应的时间周期是欠采样状态的时间周期。例如,假设第N天的采样数据的数据量小于或等于欠采样阈值,就认为第N天是欠采样状态。而当采样数据的数据量大于欠采样阈值的时候认为这些采样数据不是欠采样的,这些采样数据对应的时间段不是欠采样的,或者可以说这些采样数据对应的时间周期不是欠采样状态的时间周期,但是这些采样数据是正常的还是过采样的需要进一步判断。
对于过采样阈值,当采样数据的数据量大于或等于过采样阈值的时候认为这些采样数据是过采样的,这些采样数据对应的时间段是过采样的,或者可以说这些采样数据对应的时间周期是过采样状态的时间周期。例如,假设第N天的采样数据的数据量大于或等于过采样阈值,就认为第N天是过采样状态。而当采样数据的数据量小于过采样阈值的时候认为这些采样数据不是过采样的,这些采样数据对应的时间段不是过采样的,或者可以说这些采样数据对应的时间周期不是过采样状态的时间周期,但是这些采样数据是正常的还是欠采样的需要进一步判断。
当采样数据的数据量大于欠采样阈值且小于过采样阈值的时候,认为这些采样数据是正常的或者说是适中的。
需要说明的是,采样阈值可以是每个cell对应一个采样阈值,可以看成是每个cell都有专用的采样阈值,或者说专属阈值。采样阈值也可以是所有cell对应一个采样阈值,可以看成是所有cell共用一个采样阈值,或者说通用的采样阈值。例如,假设cell包括cellA和cellB,cellA的欠采样阈值是UA,cellB的欠采样阈值是UB,这就是每个cell对应一个欠采样阈值,但应理解,无论这里的UA是否跟UB相等都还是每个cell对应一个欠采样阈值;假设cellA和cellB的欠采样阈值是通用的欠采样阈值U,这就是所有cell对应一个欠采样阈值,U就是通用的欠采样阈值。又例如,假设cell包括cellA和cellB,cellA的过采样阈值是OA,cellB的过采样阈值是OB,这就是每个cell对应一个过采样阈值,但应理解,无论这里的OA是否跟OB相等都还是每个cell对应一个过采样阈值;假设cellA和cellB的过采样阈值是通用的过采样阈值O,这就是所有cell对应一个过采样阈值,O就是通用的过采样阈值。
在一些实现方式中,采样阈值还可以包括无效数据占比阈值。当采样数据中包括太多的无效数据的时候,就可以认为这些采样数据是问题数据,这些采样数据学习到的cell特征和围栏特征准确性过低。也就是说,当采样数据在进行特征学习的时候生成的cell特征太少,就说明很多采样数据没有生成cell特征,就是无效数据。无效数据可以认为是不能生成cell特征的数据。
当无效数据在所有采样数据的占比大于或等于无效数据占比阈值的时候,认为这些采样数据是问题数据,当无效数据在所有采样数据的占比小于无效数据占比阈值的时候,认为这些采样数据不是问题数据。
在一个例子中,可以只有当采样数据的数据量大于或等于过采样阈值且无效数据的占比大于或等于无效数据占比阈值的时候才认为这些采样数据是问题数据。也就是说,明明数据都已经过量了,但生成的cell特征却很少的时候认为采样数据是问题数据,采样数据对应的时间周期的采样状态是问题数据的状态。
可选地,在步骤S302中,可以根据第一采样数据的数据量与采样阈值的关系,来确定第一采样数据的采样情况,进而根据采样情况确定相应的采样策略。
在一种实现方式中,步骤S302可以包括:根据第一时间周期内每个cell中欠采样状态的子周期数量在第一时间周期的所有子周期数量中的占比,增加每个cell的采样频次,欠采样状态的子周期用于表示数据量小于或等于欠采样阈值的子周期;或者,根据第一时间周期内每个cell中过采样状态的子周期数量在第一时间周期的所有子周期数量中的占比,减少每个cell的采样频次,过采样状态的子周期用于表示数据量大于或等于过采样阈值的子周期。
在另一种实现方式中,步骤S302还可以包括:当第一时间周期内任一cell的问题状态的子周期数量为非零时,确定采样策略为中止采样,问题状态的子周期用于表示无效数据的占比大于或等于预设无效数据占比阈值的子周期。
假设欠采样阈值用λmin表示,过采样阈值用λmax表示,则数据加工过程中,例如利用上报的采样数据进行特征学习的过程中,将同一城市(city)、基站(cell)、地区区域(location)、运营商(operator)的采样数据汇总在一起后,调用cell特征学习算法时,将cell数据量
num、参数λmin和/或λmax输入算法中,按照如下逻辑进行处理:
当
num ≤ λmin时,认为采样状态为欠采样状态;
当λmin <
num <λmax时,认为采样状态为正常采样状态;
当
num ≥ λmax时,认为采样状态为过采样状态。
也就是说,当
num ≤ λmin时,cell数据的采样不足,不满足生成条件,此还可以将欠采样状态记录到数据库中;当λmin <
num < λmax时,cell数据量适中,不对该cell处理,也就是说,正常采样状态可以不进行记录,但应理解,记录正常采样状态也不影响整体方案的实现;当
num ≥ λmax时,认为cell数据过采样,将该cell的过采样状态记录至数据库中。
在一个例子中,如果没有生成cell特征的采样数据的占比,也就是无效数据的占比大于或等于无效数据占比阈值的时候,采样状态可以记录为问题数据。后续研发人员可以根据问题数据这个状态确认一下算法或采样逻辑是否存在问题。
还可以将cell数据量、cell特征是否生成的结果记录下来。
在一个例子中,采样数据的记录的存储形式可以如表1所示,表1是采样数据的记录存储表的一个示例。
表1
在表1中,cellid表示cell的标识,lac表示地区区域编码(location code),operator表示运营商标识,citycode表示城市编码,cnt表示数据量,λ表示采样阈值,可以是λmin或λmax,cnt-λ表示cnt和λ的差值,status表示采样状态。cellid、lac、operator和citycode能够构成每个cell的唯一标识。
在一个例子中,可以按天将过采样和欠采样统计结果写入数据库后,按调度周期统计一段时间内的记录情况,用于得到cell数据的采样策略,记统计周期时长为T,即调度周期为T天;
欠采样统计:如果 status=0,r_ucell=C_ucell /T;
过采样统计:如果status=1,r_ocell=C_ocell /T;
数据问题统计:如果status=2,C_scell。
r_ucell表示欠采样状态的占比,r_ocell表示过采样状态的占比,C_ucell表示欠采样状态的天数,也就是子周期为天,欠采样状态子周期的数量为C_ucell,C_ocell表示过采样状态的天数,也就是子周期为天,过采样状态子周期的数量为C_ocell,C_scell表示问题数据这个状态的天数(即子周期数量)。
假设某个cell在统计周期内,欠采样的占比r_ucell≥0.5,则周期内该cell的采样数据欠缺,需要在采样策略中增强该cell的采样,采样增强公式可以满足:,其中,表示欠采样统计结果的平均值。
假设某个Cell在统计周期内,过采样的占比r_ocell=C_ocell /T≥0.5,则周期内该cell的采样数据过多,需要在采样策略中抑制该cell的采样,采样抑制公式可以满足:,其中,表示过采样统计结果的平均值。
假设某个cell在统计周期内,出现无效数据占比过大的情况,即C_scell非零,就认为该cell的数据采集或算法存在问题,需要协调开发人员确认和解决问题。或者也可以假设某个cell在统计周期内,出现无效数据占比过大的次数超过预设阈值,即C_scell的数值大于预设阈值,就认为该cell的数据采集或算法存在问题,需要协调开发人员确认和解决问题。
假设某个cell在统计周期内,出现多次数据量足够但未生成cell特征的情况,即C_scell和C_ocell的数值大于预设阈值,就认为该cell的数据采集或算法存在问题,需要协调开发人员确认和解决问题。
可以看出,k值越大,采样增强;反之,k值越小,采样抑制。k值与采样策略之间的关系可以如图6所示,其中纵轴为k值,横轴为采样频次,从图6中可以看出,随着k值的逐渐增大,采样频次增多,反之亦然。
在一些实现方式中,上述采样策略包括每个cell分别对应的采样频次,或者,采样策略包括所有cell的通用采样频次。
下面举例说明ku和ko在采样终端侧如何发挥作用。
当ku∈[0.5, 0.75]时,采样终端在满足采样条件时,采集两条数据;
当ku∈(0.75, 1]时,采样终端在满足采样条件时,采集三条数据;
当ko∈[0.25, 0.5)时,采样终端在满足两次采样条件时,采集一条数据;
当ko∈[0, 0.25)时,采样终端在满足三次采样条件时,采集一条数据。
但应理解,上述数值只是一个具体示例,在实际应用时,本领域技术人员可以按需设定合适的数值。还可以动态调整上述区间的划分,进一步细化采样流程。还应理解,此处的采样终端就是步骤S303中的目标终端,也就是接收到下发的上述采样策略的采样终端。
通过统计一段时间内的过采样状态和/或欠采样状态的占比来确定调整的采样频次的幅度,使得目标终端能够按照新的采样频次进行采样,对于过采样的情况可以适当减少采样频次,对于欠采样的情况可以适当增加采样频次,使得整个采样过程能够在保证采样的数据量满足需求且防止增加数据传输负担。
在一种实现方式中,上述采样阈值可以在线更新,也就是说,可以每隔一段时间更新一次采样阈值。
但应理解,采样阈值的更新和图3所示步骤可以同步进行、交叉进行或者先后进行,不存在限定。当执行步骤S302时,如果采样阈值已经更新就采用更新后的采样阈值,如果采样阈值没有更新或者正在更新但还没更新完成,就采用更新前的采样阈值。详细的采样阈值的在线更新方法会在后文给出,为了简洁,此处不再展开。
S303、向至少一个目标终端发送指示信息。
该指示信息用于指示至少一个目标终端根据采样策略进行采样。
需要说明的是,此处的目标终端可能是步骤S301中的上报采样数据的终端,但也可能不是,因为这是一个群体行为的学习过程,而不是个人行为的定点学习过程。
可选地,可以将欠采样cell和过采样cell按照城市维度汇总,数据中台后续可以根据城市维度下发采样策略,但应理解也可以根据cell维度下发采样策略。也就是说,上述至少一个目标终端是以cell维度和/或城市维度确定的。
图3所示方法通过一段时间周期内的采样数据跟采样阈值来确定这段时间周期内的采样情况,进而确定后续的采样策略,能够有效指导采样过程,从而提高终端上报的采样数据的质量,进而使得在利用这些采样数据进行围栏特征的学习时能够达到更好的效果。
对于欠采样阈值而言,能够针对不易生成cell特征的采样数据增加采样,提高cell特征生成的可能性,提升cell特征覆盖范围,例如通过每次采样多采几条采样数据,增加采样数据的数据量,使得采样数据的数据量满足需求。
对于过采样阈值而言,也就是对于密集人群地域的数据采集、上传流程,通过减少易生成cell数据的采集,既降低了端侧数据采集的功耗,又减少云侧数据上传通道的压力,节省更多的资源。
对于无效数据占比阈值而言,能够及时发现采样过程和/或学习过程存在问题,以免反复采样数据却无法学习到特征,导致浪费采样、通信、特征学习整个围栏业务的资源和时间。
如上文所述,采样阈值可以在线更新,下面结合图4和图5分别对欠采样阈值的在新更新和过采样阈值的在线更新过程进行介绍。
图4是本申请实施例的一种欠采样阈值的更新方法的示意性流程图。
S401、获取第二采样数据。
第二采样数据为第二时间周期内至少一个终端上报的采样数据。应理解,第二时间周期可以跟第一时间周期是同时或存在先后、有交集或者没有交集,不存在限定。
S402、根据第二采样数据,更新欠采样阈值。
在一种实现方式中,步骤S402可以包括:根据欠采样阈值的初始值与第一备选值中的最大值,更新欠采样阈值,其中,第一备选值是根据第二采样数据中能够生成围栏特征的cell数据的均值和方差确定的,欠采样阈值的初始值为能够生成围栏特征需要的cell数据的最小数据量。
欠采样阈值的初始值是能够生成围栏特征和/或cell特征需要的cell数据的最小数据量。如果欠采样阈值是所有cell通用的,就是所有cell特征的需要的最小数据量,如果欠采样阈值是每个cell对应一个欠采样阈值,就是每个cell分别的最小数据量作为每个cell的欠采样阈值的初始值。
可以计算第二采样数据的均值和方差,或者绘制第二采样数据的正态分布曲线,然后确定第一备选值。
采样数据的正态分布曲线例如可以如图7所示,图7中的百分比表示采样数据的数据量落在该区间的概率,例如采样数据的数据量落在μ±σ区间内的概率是68.2%,其中,μ是均值,σ是方差。需要说明的是,在本申请实施例中,采样数据的正太分布利用的是采样数据中能够生成围栏特征的采样数据,而不是所有的采样数据,或者说利用的是采样数据中能够生成cell特征的采样数据。
可选地,可以在采样数据的数据量相对稳定的时候获取第二采样数据。如果采样数据的数据量在短期内波动较大可以重新选取时间段获取第二采样数据。
在一个例子中,欠采样阈值的更新满足:λmin=max(nμ-3σ, λmin),则等号左边的λmin就是更新后的欠采样阈值,等号右边的λmin就是更新前的欠采样阈值,nμ-3σ就是欠采样阈值的备选值,欠采样阈值的备选值会根据每次的采样数据发生变化。在步骤S402中,等号左边的λmin就是更新后的欠采样阈值,等号右边的λmin就是欠采样阈值的初始值,nμ-3σ就是利用第二采样数据中能够生成围栏特征的数据的均值和方差确定的备选值。
S403、获取第三采样数据。
第三采样数据为第三时间周期内至少一个终端上报的采样数据。
第三时间周期可以是第二时间周期之后的时间周期,二者可以存在交集,也可以不存在交集。第三时间周期可以跟第一时间周期是同时或存在先后、有交集或者没有交集,不存在限定。
S404、根据步骤S402更新后的欠采样阈值与第二备选值中的最大值,再次更新欠采样阈值。
第二备选值是根据第三采样数据中能够生成围栏特征的所有cell的数据的均值和方差确定的。
在一个例子中,假设欠采样阈值的更新满足上述λmin=max(nμ-3σ, λmin),则在步骤S404中,等号左边的λmin就是再次更新后的欠采样阈值,等号右边的λmin就是步骤S402得到的欠采样阈值,nμ-3σ就是利用第三采样数据中能够生成围栏特征的数据的均值和方差确定的备选值。
为了便于理解,下面结合具体数值举例说明图4所示过程。假设10月的第一周的采样数据为上述第二采样数据,也就是第二时间周期是10月的第一周,10月的第二周的采样数据为上述第三采样数据,也就是第三时间周期是10月的第二周,子周期都是天。那么利用10月第一周的数据计算出第一周对应的nμ-3σ(第一备选值),然后跟欠采样阈值的初始值取最大值作为新的欠采样阈值,假设新的欠采样阈值就是第一周对应的nμ-3σ,则在利用10月第二周的数据计算出第二周对应的nμ-3σ(第二备选值),然后跟更新后的欠采样阈值,也就是第一周对应的nμ-3σ取最大值作为新的欠采样阈值,假设新的欠采样阈值还是第一周对应的nμ-3σ,以此类推。
图5是本申请实施例的一种过采样阈值的更新方法的示意性流程图。
S501、获取第四采样数据。
第四采样数据为第四时间周期内至少一个终端上报的采样数据。
第四时间周期可以与上述第一时间周期、第二时间周期、第三时间周期是同时或存在先后、有交集或者没有交集,不存在限定。当第四时间周期和第二时间周期或第三时间周期是完全相同的时候,相当于采用的同一时间段的数据既更新了欠采样阈值又确定了过采样阈值的初始值。
S502、根据第四采样数据中能够生成围栏特征的所有cell的数据的均值和方差,确定过采样阈值的初始值,过采样阈值的初始值为所有cell通用的初始值。
可以计算第四采样数据的均值和方差,或者绘制第四采样数据的正态分布曲线,然后确定过采样阈值的初始值。例如可以确定过采样阈值的初始值为nμ+σ。
S503、获取第五采样数据。
第五采样数据为第五时间周期内至少一个终端上报的采样数据。
第五时间周期可以是第四时间周期之后的时间周期,二者可以存在交集,也可以不存在交集。第五时间周期可以跟第一时间周期、第二时间周期、第三时间周期是同时或存在先后、有交集或者没有交集,不存在限定。
S504、当过采样阈值为所有cell通用的阈值时,根据第五采样数据,更新所有cell通用的过采样阈值;或者,当过采样阈值为每个cell分别对应一个阈值时,根据第五采样数据,更新目标cell的过采样阈值。
在一种实现方式中,当过采样阈值为所有cell通用的阈值时,根据第五采样数据中能够生成围栏特征的所有cell的数据的均值和方差,更新所有cell通用的过采样阈值;或者,当过采样阈值为每个cell分别对应一个阈值时,将第五采样数据中能够生成围栏特征的目标cell的数据的均值和过采样阈值的初始值中的最小值确定为第三备选值;根据第三备选值和第五采样数据中能够生成围栏特征的所有cell的数据的均值中的最大值,更新目标cell的过采样阈值。
在一个例子中,当过采样阈值为所有cell通用的阈值时,可以每次获取采样数据之后,直接根据这些采样数据中能够生成围栏特征/cell特征的所有cell的数据的均值和方差确定一个新的过采样阈值。举例说明,假设过采样阈值是取nμ+σ的值,就是每次获取采样数据之后,例如上述第五采样数据,根据采样数据算出均值和方差,确定出nμ+σ的值,就是更新后的过采样阈值。
在另一个例子中,当过采样阈值为每个cell分别对应一个阈值时,先将第五采样数据中能够生成围栏特征/cell特征的目标cell的数据的均值(此处是每个目标cell一个均值)和过采样阈值的初始值(例如步骤S502得到的是nμ+σ)中的最小值确定为第三备选值,然后将第三备选值和第五采样数据中能够生成围栏特征的所有cell的数据的均值中的最大值确定为新的过采样阈值。
在这个例子中,过采样阈值的更新可以满足:λmax= max( min(ncell, λmax), μ),则等号左边的λmax就是更新后的过采样阈值,等号右边的λmax就是更新前的过采样阈值,ncell就是单个cell的均值,μ就是所有cell的均值,min(ncell, λmax)过采样阈值的备选值,ncell和μ会根据每次的采样数据发生变化。则步骤S504中,等号右边的λmax可以是步骤S502确定的初始值,例如可以是利用第四采样数据确定的nμ+σ,此时min(ncell, λmax)= min(ncell, nμ+σ),也就是第三备选值,ncell和μ都是利用第五采样数据计算出来的。
为了便于理解,下面结合具体数值举例说明。假设9月的1-14号的采样数据为上述第四采样数据,也就是第四时间周期是9月的1-14号,9月的15-28号的采样数据为上述第五采样数据,也就是第五时间周期是9月的15-28号,子周期都是天。那么利用9月1-14号的数据计算出1-14号对应的ncell,就可以将过采样阈值的初始值设定为ncell。假设是cellA是目标cell,利用9月15-28号的数据计算出cellA的均值ncellA,取ncellA(单个cell的均值)和nμ+σ(初始值)中的最大值作为第三备选值,假设第三备选值算出来是ncellA,之后利用9月15-28号的数据计算出所有cell的均值μ,取第三备选值ncellA和μ中的最小值作为更新后的过采样阈值。
所有cell的均值的引入是为了保证低于平均值的cell特征的生成不会被影响。
针对每个cell分别更新过采样阈值相比于针对所有cell更新通用的过采样阈值准确性更高。但针对所有cell进行通用过采样阈值的更新的执行过程更简单,相比于传统方案中不关心采样而言,能够在提高了采样准确性的前提下提高处理效率,但是提高准确性的程度有限,即针对每个cell更新过采样阈值的方式提高采样准确性的程度更高。
S505、获取第六采样数据。
第六采样数据为第六时间周期内至少一个终端上报的采样数据。
第六时间周期可以是第五时间周期之后的时间周期,二者可以存在交集,也可以不存在交集。第六时间周期可以跟第一时间周期、第二时间周期、第三时间周期是同时或存在先后、有交集或者没有交集,不存在限定。
S506、当过采样阈值为每个cell分别对应一个阈值时,根据第六采样数据,再次更新目标cell的过采样阈值。
在一种实现方式中,当过采样阈值为每个cell分别对应一个阈值时,将第六采样数据中能够生成围栏特征的目标cell的数据的均值和更新后的过采样阈值中的最小值确定为第四备选值;根据第四备选值和第六采样数据中能够生成围栏特征的所有cell的数据的均值中的最大值,再次更新目标cell的过采样阈值。
第四备选值可以参照第三备选值的解释,不再赘述。
如上所述,过采样阈值的更新可以满足:λmax= max( min(ncell, λmax), μ),则步骤S506中,等号右边的λmax可以是步骤S504确定的更新后的过采样阈值,此时min(ncell, λmax)= min(ncell, nμ+σ),也就是第四备选值,等号右边的ncell和μ都是利用第六采样数据计算出来的。
为了便于理解,下面继续结合具体数值举例说明。假设9月的1-14号的采样数据为上述第四采样数据,也就是第四时间周期是9月的1-14号,9月的15-28号的采样数据为上述第五采样数据,也就是第五时间周期是9月的15-28号,10月的1-14号的采样数据为上述第六采样数据,子周期都是天。那么利用9月1-14号的数据计算出1-14号对应的nμ+σ,就可以将过采样阈值的初始值设定为nμ+σ。假设是cellA是目标cell,利用9月15-28号的数据计算出cellA的均值ncellA,取ncellA(单个cell的均值)和nμ+σ(初始值)中的最大值作为第三备选值,假设第三备选值算出来是ncellA,之后利用9月15-28号的数据计算出所有cell的均值μ,取第三备选值ncellA和μ中的最小值作为更新后的过采样阈值,假设更新后的过采样阈值是μ。利用10月1-14号的数据计算出cellA的均值ncellA,取ncellA(单个cell的均值)和nμ+σ(初始值)中的最大值作为第四备选值,假设第四备选值算出来是nμ+σ,之后利用10月1-14号的数据计算出所有cell的均值μ,取第四备选值nμ+σ和μ中的最小值作为更新后的过采样阈值。
可以看出,欠采样阈值的更新和过采样阈值的更新可以分别独立执行,也可以叠加执行。
为了便于理解,下面结合图8-图10 对本申请实施例的方案的执行流程进行介绍。
图8是本申请实施例的一种采样过程的示意图。如图8所示,云端设备对采样数据进行特征学习之后可以记录下特征学习情况,也就是得到cell特征学习记录,然后根据cell特征学习记录生成采样策略,然后可以将采样策略同步数据众泰,数据中台将采样策略下发给终端。终端对采样策略进行解析,根据采样策略的指示调整采样频次进行采样以及上传采样数据。云端设备就可以再次对采样数据进行特征学习。
在终端上报采样数据之后,云端设备还可以对采样数据进行二次筛选。
cell特征数据库可以用来存储学习到的cell特征等。
图8中虚线上方为云端设备执行的步骤,虚线下方为终端设备执行的步骤。二者之间的交互如图8所示,包括采样数据的上传和采样策略的下发。
在一个例子中,步骤S301获取的第一采样数据就可以是图示被终端上传到云端的一段时间周期内的采样数据。
在一个例子中,步骤S302可以包括图8中的获取cell特征学习记录,以及根据cell特征学习记录生成采样策略。此处的特征学习记录可以是如表1所示的记录。
在一个例子中,步骤S303的采样策略的下发可以是数据中台执行,下发维度例如可以是城市维度。
图9是本申请实施例的云端设备的执行过程的示意图。如图9所示,以14天采样数据为例,云端设备可以基于最近14天的采样数据学习cell特征,且在学习的时候可以根据上述采样阈值进行学习情况的记录,并将结果存储至“cell特征生成记录表”,也就是图示的将cell特征过采样和欠采样记录存入数据库中。
云端设备可以按照一定周期(如周),例如上述第一时间周期,对cell特征生成记录表中的结果进行汇总,统计得到最近一段时间内cell特征生成情况,为后续数据采样进行指导。
云端设备根据汇总结果,同步到数据中台,利用数据中台将采样策略下发至指定端侧用户,也就是目标终端,指示目标终端根据采样策略进行数据采集。
图10是本申请实施例的终端的采样执行过程的示意图。如图10所示,采样终端接收下下发的采样策略,对采样策略进行解析,得到欠采样cell的信息和过采样cell的信息,然后按照采样策略指示的采样频次对欠采样cell进行采样增强或采样抑制。也就是说对于欠采样的cell需要增加采样频次,对于过采样的cell需要减少采样频次。之后将采样数据再次上传云端设备。
也就是说,终端接收采样策略之后,将采样策略进行解析,其中包括“欠采样cell信息”和“过采样cell信息” 。针对“欠采样cell信息”,当端侧满足数据采样条件时,增强数据采样,针对指定cell采集更多的数据,促进云侧学习得到cell特征。针对“过采样信息”,当端侧满足数据采样条件时,抑制数据采样,针对指定cell采集少量数据,保证已有cell特征的学习避免使用过采样数据。端侧进行数据上传时,先读取采样任务中的“过采样cell信息”,如若上传信息中包含指定cell数据量较多,则可以使用随机采样的方式对cell信息上传,避免上传全量数据。具体采样频次可以参照上述k值确定过程和采样频次确定过程的相关内容,不再赘述。
应理解,虽然图8-图10主要以数据中台下发的采样策略为例,但是在实际场景中,也可以云端设备直接下发采样策略,不存在限定。
上文主要结合附图对本申请实施例的方法进行了介绍。应理解,虽然如上所述的各实施例所涉及的流程图中的各个步骤依次显示,但是这些步骤并不是必然按照图中所示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。下面结合附图对本申请实施例的装置进行介绍。
图11是本申请实施例的一种采样装置的示意图。如图11所示,该装置1000包括获取单元1001、处理单元1002和发送单元1003。该装置1000可以为上述任意一种云端设备。
该装置1000能够用于执行上文任意一种采样方法。例如,获取单元1001可用于执行步骤S301,处理单元1002可用于执行步骤S302,发送单元1003可以用于执行步骤S303。又例如,获取单元1001可用于执行步骤S401、S403,处理单元1002可用于执行步骤S402、S404。又例如,获取单元1001可用于执行步骤S501、S503、S505,处理单元1002可用于执行步骤S502、S504、S506。该装置1000还能够用于执行图2、图8或图9中云端设备执行的步骤。
在一种实现方式中,装置1000还可以包括存储单元,用于存储采样数据、采样阈值等数据。该存储单元可以是集成在处理单元1002中,也可以是独立的单元。
图12是本申请实施例的一种电子设备的硬件结构示意图。如图12所示,该电子设备2000包括:至少一个处理器2001(图12中仅示出一个)处理器、存储器2002以及存储在所述存储器2002中并可在所述至少一个处理器2001上运行的计算机程序2003,所述处理器2001执行所述计算机程序2003时实现上述任意一种方法中的步骤。
本领域技术人员可以理解,图12仅仅是电子设备的举例,并不构成对电子设备限定,实际中电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
处理器2001可以是中央处理单元(central processing unit,CPU),其他通用处理器、数字信号处理器 (digital signal processor,DSP)、专用集成电路 (applicationspecific integrated circuit,ASIC)、现成可编程门阵列 (field-programmable gatearray,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器2002在一些实施例中可以是电子设备2000的内部存储单元,例如电子设备2000的硬盘或内存。存储器2002在另一些实施例中也可以是电子设备2000的外部存储设备,例如电子设备2000上配备的插接式硬盘,智能存储卡(smart media card, SMC),安全数字(secure digital, SD)卡,闪存卡(flash card)等。可选地,存储器2002还可以既包括电子设备2000的内部存储单元也包括外部存储设备。存储器2002用于存储操作系统、应用程序、引导装载程序、数据以及其他程序等,例如所述计算机程序的程序代码等。存储器2002还可以用于暂时地存储已经输出或者将要输出的数据。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供了一种电子设备,该电子设备包括:至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,当计算机程序被处理器执行时能够实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序,当计算机程序被处理器执行时能够实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/电子设备的任何实体或装置、记录介质、计算机存储器、只读存储器(read-only memory,ROM)、随机存取存储器(random accessmemory,RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (12)
1.一种采样方法,其特征在于,包括:
获取第一采样数据,所述第一采样数据为第一时间周期内至少一个终端上报的采样数据,所述采样数据包括用于学习围栏特征的至少一个基站cell的数据;
根据所述第一采样数据和采样阈值,确定采样策略,所述采样阈值包括欠采样阈值或过采样阈值中的至少一项;
向至少一个目标终端发送指示信息,所述指示信息用于指示所述至少一个目标终端根据所述采样策略进行采样;
当所述采样阈值包括所述过采样阈值时,所述方法还包括:
获取第四采样数据,所述第四采样数据为第四时间周期内至少一个终端上报的采样数据;
根据所述第四采样数据中能够生成围栏特征的所有cell的数据的均值和方差,确定所述过采样阈值的初始值,所述过采样阈值的初始值为所有cell通用的初始值;
获取第五采样数据,所述第五采样数据为第五时间周期内至少一个终端上报的采样数据;
当所述过采样阈值为所有cell通用的阈值时,根据所述第五采样数据中能够生成围栏特征的所有cell的数据的均值和方差,更新所有cell通用的所述过采样阈值;或者,
当所述过采样阈值为每个cell分别对应一个阈值时,将所述第五采样数据中能够生成围栏特征的目标cell的数据的均值和所述过采样阈值的初始值中的最小值确定为第三备选值;根据所述第三备选值和所述第五采样数据中能够生成围栏特征的所有cell的数据的均值中的最大值,更新所述目标cell的所述过采样阈值。
2.根据权利要求1所述的方法,其特征在于,当所述采样阈值包括所述欠采样阈值时,所述方法还包括:
获取第二采样数据,所述第二采样数据为第二时间周期内至少一个终端上报的采样数据;
根据所述第二采样数据,更新所述欠采样阈值。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第二采样数据,更新所述欠采样阈值,包括:
根据所述欠采样阈值的初始值与第一备选值中的最大值,更新所述欠采样阈值,其中,所述第一备选值是根据所述第二采样数据中能够生成围栏特征的cell数据的均值和方差确定的,所述欠采样阈值的初始值为能够生成围栏特征需要的cell数据的最小数据量。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取第三采样数据,所述第三采样数据为第三时间周期内至少一个终端上报的采样数据;
根据更新后的所述欠采样阈值与第二备选值中的最大值,再次更新所述欠采样阈值,其中,所述第二备选值是根据所述第三采样数据中能够生成围栏特征的所有cell的数据的均值和方差确定的。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取第六采样数据,所述第六采样数据为第六时间周期内至少一个终端上报的采样数据;
当所述过采样阈值为每个cell分别对应一个阈值时,将所述第六采样数据中能够生成围栏特征的目标cell的数据的均值和更新后的所述过采样阈值中的最小值确定为第四备选值;根据所述第四备选值和所述第六采样数据中能够生成围栏特征的所有cell的数据的均值中的最大值,再次更新所述目标cell的所述过采样阈值。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述第一时间周期包括多个子周期,所述根据所述第一采样数据和采样阈值,确定采样策略,包括:
根据所述第一时间周期内每个cell中欠采样状态的子周期数量在所述第一时间周期的所有子周期数量中的占比,增加每个cell的采样频次,所述欠采样状态的子周期用于表示数据量小于或等于所述欠采样阈值的子周期;或者,
根据所述第一时间周期内每个cell中过采样状态的子周期数量在所述第一时间周期的所有子周期数量中的占比,减少每个cell的采样频次,所述过采样状态的子周期用于表示数据量大于或等于所述过采样阈值的子周期。
7.根据权利要求6所述的方法,其特征在于,所述根据所述第一采样数据和采样阈值,确定采样策略,还包括:
当所述第一时间周期内任一cell的问题状态的子周期数量为非零时,确定采样策略为中止采样,所述问题状态的子周期用于表示无效数据的占比大于或等于预设无效数据占比阈值的子周期。
8.根据权利要求1至5中任一项所述的方法,其特征在于,所述至少一个目标终端是以cell维度和/或城市维度确定的。
9.根据权利要求1至5中任一项所述的方法,其特征在于,所述采样策略包括每个cell分别对应的采样频次,或者,所述采样策略包括所有cell的通用采样频次。
10.一种采样装置,其特征在于,包括:
获取单元,用于获取第一采样数据,所述第一采样数据为第一时间周期内至少一个终端上报的采样数据,所述采样数据包括用于学习围栏特征的至少一个基站cell的数据;
处理单元,用于根据所述第一采样数据和采样阈值,确定采样策略,所述采样阈值包括欠采样阈值或过采样阈值中的至少一项;
发送单元,用于向至少一个目标终端发送指示信息,所述指示信息用于指示所述至少一个目标终端根据所述采样策略进行采样;
当所述采样阈值包括所述过采样阈值时,所述获取单元还用于,获取第四采样数据,所述第四采样数据为第四时间周期内至少一个终端上报的采样数据;
所述处理单元还用于,根据所述第四采样数据中能够生成围栏特征的所有cell的数据的均值和方差,确定所述过采样阈值的初始值,所述过采样阈值的初始值为所有cell通用的初始值;
所述获取单元还用于,获取第五采样数据,所述第五采样数据为第五时间周期内至少一个终端上报的采样数据;
所述处理单元还用于,当所述过采样阈值为所有cell通用的阈值时,根据所述第五采样数据中能够生成围栏特征的所有cell的数据的均值和方差,更新所有cell通用的所述过采样阈值;或者,
所述处理单元还用于,当所述过采样阈值为每个cell分别对应一个阈值时,将所述第五采样数据中能够生成围栏特征的目标cell的数据的均值和所述过采样阈值的初始值中的最小值确定为第三备选值;根据所述第三备选值和所述第五采样数据中能够生成围栏特征的所有cell的数据的均值中的最大值,更新所述目标cell的所述过采样阈值。
11.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至9中任一项所述的方法。
12.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211286944.0A CN115357813B (zh) | 2022-10-20 | 2022-10-20 | 采样方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211286944.0A CN115357813B (zh) | 2022-10-20 | 2022-10-20 | 采样方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115357813A CN115357813A (zh) | 2022-11-18 |
CN115357813B true CN115357813B (zh) | 2023-04-07 |
Family
ID=84008101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211286944.0A Active CN115357813B (zh) | 2022-10-20 | 2022-10-20 | 采样方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115357813B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112135309A (zh) * | 2020-10-22 | 2020-12-25 | 中国联合网络通信集团有限公司 | 一种网络优化方法及装置 |
WO2021194850A1 (en) * | 2020-03-27 | 2021-09-30 | Intuitive Surgical Operations, Inc. | Mitigation of registration data oversampling |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7080136B2 (en) * | 2001-03-18 | 2006-07-18 | At & T Corp. | Method and apparatus for size-dependent sampling for managing a data network |
US20140129293A1 (en) * | 2012-11-08 | 2014-05-08 | xAd, Inc. | Method and Apparatus for Dynamic Fencing |
US9116958B2 (en) * | 2012-12-07 | 2015-08-25 | At&T Intellectual Property I, L.P. | Methods and apparatus to sample data connections |
US9357343B2 (en) * | 2014-07-22 | 2016-05-31 | Telenav, Inc. | Navigation system with content delivery mechanism and method of operation thereof |
US10158671B2 (en) * | 2016-03-07 | 2018-12-18 | Intel Corporation | Reverse DRM geo-fencing of UAV method and apparatus |
EP3665537A4 (en) * | 2017-08-11 | 2021-04-28 | Lenovo (Beijing) Limited | GEOGRAPHIC BARRIER DATA GENERATION |
CN108810829B (zh) * | 2018-04-19 | 2021-12-14 | 奇安信科技集团股份有限公司 | 一种彩信拦截处理方法及装置 |
CN112395558B (zh) * | 2020-11-27 | 2023-05-26 | 广东电网有限责任公司肇庆供电局 | 一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法 |
CN113891240B (zh) * | 2021-11-02 | 2024-07-23 | Oppo广东移动通信有限公司 | 地理围栏生成方法及装置、定位方法及装置、介质与设备 |
-
2022
- 2022-10-20 CN CN202211286944.0A patent/CN115357813B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021194850A1 (en) * | 2020-03-27 | 2021-09-30 | Intuitive Surgical Operations, Inc. | Mitigation of registration data oversampling |
CN112135309A (zh) * | 2020-10-22 | 2020-12-25 | 中国联合网络通信集团有限公司 | 一种网络优化方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115357813A (zh) | 2022-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112311617A (zh) | 一种配置化数据监控告警方法及系统 | |
CN110852882B (zh) | 用于区块链网络的分组共识方法、装置、设备和介质 | |
CN109408468A (zh) | 文件处理方法和装置、计算设备及存储介质 | |
CN113592156B (zh) | 电厂煤量调度方法、装置、终端设备及存储介质 | |
CN111680016A (zh) | 分布式服务器集群日志数据处理方法、装置及系统 | |
CN109347938B (zh) | 一种流量监控方法、电话手表、移动终端及服务器 | |
CN107689998A (zh) | 一种增量数据同步方法及终端设备 | |
CN111800292A (zh) | 基于历史流量的预警方法、装置、计算机设备及存储介质 | |
CN114490882B (zh) | 一种异构数据库数据同步分析方法 | |
CN109246731B (zh) | Prb干扰指标的优化方法、装置、计算机存储介质及设备 | |
CN108170292B (zh) | 表情管理方法、表情管理装置及智能终端 | |
CN115357813B (zh) | 采样方法、装置及电子设备 | |
CN113190516A (zh) | 数据同步监控方法及装置 | |
CN111898027A (zh) | 确定特征维度的方法、装置、电子设备和计算机可读介质 | |
EP3800603A1 (en) | Payment collection control method and device, server, and readable storage medium | |
CN114745452B (zh) | 设备管理方法、装置及电子设备 | |
CN111222739B (zh) | 核电站的任务分配方法及核电站的任务分配系统 | |
CN113239085A (zh) | 实时数据处理方法、装置、计算机设备和介质 | |
CN109598488B (zh) | 群红包异常行为识别方法、装置、介质及电子设备 | |
CN113626516A (zh) | 数据增量同步方法和系统 | |
CN108984101B (zh) | 在分布式存储系统中确定事件之间关系的方法及装置 | |
CN110908886A (zh) | 一种数据发送方法、装置、电子设备和存储介质 | |
CN117221049B (zh) | 一种网关数据智能采集方法及系统 | |
CN114638604B (zh) | 基于区块链的金融业务计费、收费方法及装置 | |
CN112100056B (zh) | 应用评估方法、系统、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |