CN116662638B - 数据采集方法及相关装置 - Google Patents
数据采集方法及相关装置 Download PDFInfo
- Publication number
- CN116662638B CN116662638B CN202211084077.2A CN202211084077A CN116662638B CN 116662638 B CN116662638 B CN 116662638B CN 202211084077 A CN202211084077 A CN 202211084077A CN 116662638 B CN116662638 B CN 116662638B
- Authority
- CN
- China
- Prior art keywords
- data
- time
- moment
- electronic device
- prediction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 99
- 238000012549 training Methods 0.000 claims abstract description 43
- 230000008569 process Effects 0.000 claims abstract description 26
- 238000004590 computer program Methods 0.000 claims description 7
- 230000002085 persistent effect Effects 0.000 claims 1
- 238000005070 sampling Methods 0.000 description 146
- 238000004891 communication Methods 0.000 description 37
- 230000006854 communication Effects 0.000 description 37
- 238000007726 management method Methods 0.000 description 34
- 238000010586 diagram Methods 0.000 description 24
- 230000006870 function Effects 0.000 description 24
- 230000033001 locomotion Effects 0.000 description 20
- 230000008859 change Effects 0.000 description 18
- 238000013480 data collection Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 14
- 230000000875 corresponding effect Effects 0.000 description 13
- 238000010295 mobile communication Methods 0.000 description 13
- 230000005236 sound signal Effects 0.000 description 12
- 230000006399 behavior Effects 0.000 description 10
- 230000001413 cellular effect Effects 0.000 description 8
- 238000007405 data analysis Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 238000011161 development Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 229920001621 AMOLED Polymers 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000003416 augmentation Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000002096 quantum dot Substances 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 239000004575 stone Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001680 brushing effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 210000003041 ligament Anatomy 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003238 somatosensory effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Power Sources (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本申请实施例提供了数据采集方法及相关装置,其中,该方法包括:检测目标事件,该目标事件是根据待训练的预测模型配置的事件;在第一时刻检测到该目标事件的情况下,采集第二时刻与该第一时刻之间的第一数据,该第二时刻早于该第一时刻,该第二时刻与该第一时刻之间的时间间隔小于或等于第一阈值;该第一数据为第一类数据项的数据,该第一类数据项为根据该待训练的预测模型配置的数据项;该第一数据用于对该待训练的预测模型进行训练。本申请既可以有效地采集用于预测模型训练的样本数据;还可以降低电子设备在采集数据过程的功耗。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及数据采集方法及相关装置。
背景技术
随着计算机技术的不断发展,例如手机、平板电脑等电子设备的功能越来越丰富。例如,电子设备可以分析和挖掘用户的个性化需求,将用户可能感兴趣的内容推荐给用户。
电子设备进行个性化推荐是基于预测模型进行的,为了让预测模型的推荐更加准确,比如推荐内容更加符合用户要求、推荐的时机更加准确,需要采集数据并整理成样本对预测模型进行训练。
发明内容
本申请实施例提供了数据采集方法及相关装置,本申请既可以有效地采集用于预测模型训练的样本数据;还可以降低电子设备在采集数据过程的功耗。
第一方面,本申请实施例提供了一种数据采集方法,包括:
检测目标事件,上述目标事件是根据待训练的预测模型配置的事件;
在第一时刻检测到上述目标事件的情况下,采集第二时刻与上述第一时刻之间的第一数据,上述第二时刻早于上述第一时刻,上述第二时刻与上述第一时刻之间的时间间隔小于或等于第一阈值;上述第一数据为第一类数据项的数据,上述第一类数据项为根据上述待训练的预测模型配置的数据项;上述第一数据用于对上述待训练的预测模型进行训练。
本申请实施例中,首先对目标事件进行检测,在第一时刻检测到目标事件的情况下,采集上述第二时刻与上述第一时刻之间的第一数据。一方面,上述第二时刻早于上述第一时刻,即本申请采集的是目标事件发生之前的前序数据,由于前序数据已经可以有效地记录发生目标事件之前的情况,前序数据与目标事件的发生是强相关的。而那些比前序数据更早的数据与目标事件的发生已经几乎没有影响,因此,基于本申请实施例中的前序数据可以对预测模型进行有效地训练。
另一方面,上述第一数据为第一类数据项的数据,该第一类数据项是根据待训练的预测模型配置的,即本申请是针对性地采集能够有效训练上述待训练的预测模型的数据,其他不相关的数据并不需要采集。
综上,本申请采集第二时刻与第一时刻之间的第一数据,可以从时域上采集有效数据,采集与待训练的预测模型相关的第一类数据项的数据,可以从空间上采集有效数据。因此,本申请在能够有效采集到对预测模型进行有效训练的数据。
结合第一方面,在一种可能的实现方式中,上述采集第二时刻与上述第一时刻之间的第一数据之前,上述方法还包括:
将电子设备运行过程中上述第一类数据项的数据存入第一存储单元,上述第一存储单元用于对数据进行缓存;
上述采集第二时刻与上述第一时刻之间的第一数据,包括:
将上述第一存储单元中,上述第二时刻与上述第一时刻之间的上述第一数据作为采集的用于训练上述待训练的预测模型的数据存入第二存储单元,上述第二存储单元用于对数据进行持久存储。
本实施例中,先将电子设备运行过程中第一类数据项的数据存入第一存储单元,使得电子设备在第一时刻能够回溯到第一时刻之前的第一数据,也就是说,在上述第一时刻,电子设备将上述第一存储单元中,上述第二时刻与上述第一时刻之间的上述第一数据作为采集的用于训练上述待训练的预测模型的数据存入第二存储单元,存入上述第二存储单元中的数据就可以认为是用于预测模型训练的样本数据。
可以理解的是,虽然电子设备在运行过程中需要将产生的数据存入缓存器,但是,上述操作所消耗的电量是非常小的,可以忽略不计,而由于本申请真正存入上述第二存储单元的数据在时间上和空间上是有效的,相比于其他方案可以有效减低功耗,有效节约存储器(例如上述第二存储单元)的存储空间。
结合第一方面,在一种可能的实现方式中,上述方法还包括:
在根据上述目标事件输出推荐内容的情况下,采集上述第一时刻与第三时刻之间的第二数据,上述第三时刻为接收到针对上述推荐内容的用户反馈的时刻;上述第二数据用于对上述待训练的预测模型进行训练,上述第二数据为第二类数据项的数据,上述第二类数据项是根据上述待训练的预测模型配置的数据项。
本实施例中,在采集了第二时刻与第一时刻之间的第一数据的基础上,进一步采集第一时刻与第三时刻之间的数据。其中,由于第二时刻早于第一时刻,因此,第一数据可以理解为前序数据;由于用户反馈必定晚于上述第一时刻,那么第三时刻必定晚于第一时刻,因此,上述第二数据可以理解为后序数据。通过前序数据和目标事件发生时刻与接收到用户反馈时刻之间的后序数据,可以更好记录目标事件发生的前因后果以及用户反馈的具体情况(例如正向反馈或负向反馈),从而更好地学习用户习惯,得到更加准确的新模型。
结合第一方面,在一种可能的实现方式中,上述方法还包括:
在根据上述目标事件未输出推荐内容的情况下,采集上述第一时刻与第四时刻之间的上述第二数据,上述第四时刻晚于上述第一时刻,上述第四时刻与上述第一时刻之间的时间间隔小于或等于第二阈值。
可以理解的是,在根据上述目标事件未输出推荐内容的情况下,电子设备将不会接收到用户反馈,因此,本实施例中,电子设备采集上述第一时刻之后一段时间内的数据,即采集上述第一时刻与第四时刻之间的第二数据。也就是说,电子设备即使不会接收到用户反馈,还是会采集上述第二类数据项在第一时刻与第四时刻之间的第二数据,以记录上述第一时刻之后的后序数据,对待训练的预测模型进行更好的训练。
结合第一方面,在一种可能的实现方式中,上述在根据上述目标事件输出推荐内容的情况下,采集上述第一时刻与第三时刻之间的第二数据,包括:
在根据上述目标事件输出推荐内容,且在超时时刻之前接收到针对上述推荐内容的用户反馈的情况下,执行上述采集上述第一时刻与第三时刻之间的第二数据步骤;上述超时时刻晚于上述第一时刻,上述超时时刻与上述第一时刻之间的时间间隔小于或等于第三阈值。
可以理解的是,向用户输出推荐内容后,用户可能会对推荐内容作出反馈,也可能会因为忽视掉推荐内容而未作出反馈。因此,本实施例中,设定超时时刻,避免花费过多时间等待用户反馈,从而提高数据采集的效率。
结合第一方面,在一种可能的实现方式中,上述方法还包括:
在根据上述目标事件输出推荐内容,且在超时时刻之前未接收到针对上述推荐内容的用户反馈的情况下,采集上述第一时刻与上述超时时刻之间的上述第二数据。
本实施例中,在超时时刻之前未接收到用户反馈的情况下,采集第一时刻与超时时刻之间的第二数据,不再等待用户反馈,以提高数据采集效率,具体还可以参阅图4的相关描述。
结合第一方面,在一种可能的实现方式中,上述方法还包括:
将电子设备运行过程中第三类数据项的数据存入第一存储单元;上述第三类数据项是根据上述待训练的预测模型配置的数据项;上述第三类数据项的数据用于对上述待训练的预测模型进行训练;上述第一存储单元用于对数据进行缓存;
在上述第一存储单元中的数据大于或等于第五阈值的情况下,将上述第三类数据项的数据作为采集的用于训练上述待训练的预测模型的数据存入第二存储单元,上述第二存储单元用于对数据进行持久存储。
本实施例中,对上述第三类数据项的数据采样可以理解为长采样,因此,上述第三类数据项的数据可以理解为长数据。本实施例中,在短采样的基础上进一步进行长采样,可以采集到更加完整的样本数据,有助于预测模型对用户习惯进行学习,得到更加准确的预测模型。
结合第一方面,在一种可能的实现方式中,上述方法还包括:
采集位于上述第一时刻,第三时刻,第四时刻,超时时刻中至少一个时刻的第三数据;上述第三数据用于对上述待训练的预测模型进行训练,上述第三数据为根据上述待训练的预测模型配置的第四类数据项的数据。
本申请实施例中,对于第一时刻,第三时刻,第四时刻以及超时时刻,除了第三时刻与第一时刻之间的数据,第四时刻与第一时刻之间的数据以及超时时刻与第一时刻之间的数据可以反映目标事件发生的前因后果之外,上述4个时刻本身的数据也可以反映用户习惯,因此,进一步采集第一时刻,第三时刻,第四时刻,超时时刻中至少一个时刻的第三数据可以得到更加完整的样本数据,有助于得到更加准确的预测模型。
第二方面,本申请实施例提供了一种数据采集装置,包括:
检测单元,用于检测目标事件,所述目标事件是根据待训练的预测模型配置的事件;
采集单元,用于在第一时刻检测到所述目标事件的情况下,采集第二时刻与所述第一时刻之间的第一数据,所述第二时刻早于所述第一时刻,所述第二时刻与所述第一时刻之间的时间间隔小于或等于第一阈值;所述第一数据为第一类数据项的数据,所述第一类数据项为根据所述待训练的预测模型配置的数据项;所述第一数据用于对所述待训练的预测模型进行训练。
第三方面,本申请实施例提供一种电子设备,所述电子设备包括处理器、存储器;所述存储器与所述处理器耦合,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,所述处理器调用所述计算机指令,以使第一方面或第一方面的任意可能的实现方式中的方法被执行。
第四方面,本申请实施例提供一种芯片,包括逻辑电路和接口,所述逻辑电路和接口耦合;所述接口用于输入和/或输出代码指令,所述逻辑电路用于执行所述代码指令,以使第一方面或第一方面的任意可能的实现方式中的方法被执行。
第五方面,本申请实施例公开了一种计算机程序产品,上述计算机程序产品包括程序指令,上述程序指令当被处理器执行时,使第一方面或第一方面的任意可能的实现方式中的方法被执行。
第六方面,本申请实施例提供一种计算机可读存储介质,上述计算机可读存储介质中存储有计算机程序,当上述计算机程序在处理器上运行时,使第一方面或第一方面的任意可能的实现方式中的方法被执行。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种向用户推荐地铁乘车码的界面示意图;
图2是本申请实施例提供的一种多任务采样的示意图;
图3是本申请实施例提供的一种短采样的示意图;
图4是本申请实施例提供的一种根据用户反馈确定触发时刻B的示意图;
图5是本申请实施例提供的一种采集状态数据的示意图;
图6是本申请实施例提供的一种数据采集方法的流程示意图;
图7是本申请实施例提供的一种电子设备100的结构示意图;
图8是本申请实施例提供的一种电子设备100的软件结构框图;
图9是本申请实施例提供的一种数据采样模块的示意图;
图10是本申请实施例提供的一种交互流程的示意图;
图11是本申请实施例提供的一种数据采集结果的示意图;
图12是本申请实施例提供的另一种数据采集结果的示意图;
图13是本申请实施例提供的一种从采集的数据中确定样本的示意图。
具体实施方式
本申请以下实施例中所使用的术语只是为了描述特定实施例的目的,而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样,单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式,除非其上下文中明确地有相反指示。还应当理解,本申请中使用的术语“和/或”是指并包含一个或多个所列出项目的任何或所有可能组合。
随着计算机技术的不断发展,例如手机、平板电脑等电子设备的功能越来越丰富。示例性地,为了提高用户体验,电子设备可以通过分析和挖掘用户行为,发现用户的个性化需求与兴趣特点,将用户可能感兴趣的内容推荐给用户,即进行个性化推荐。
可以理解的是,电子设备向用户进行个性化推荐的场景有多种。示例性地,电子设备可以根据用户喜好向用户推荐商品,以节约用户挑选商品的时间,从而增强用户的购物体验。也可以根据用户对电子设备中的应用软件的使用频率对应用进行位置安排,让使用频率更高的应用软件比使用频率低的应用软件放置在更靠前的屏幕中,以减少用户切换屏幕查找应用软件的时间,提高用户体验。还可以根据用户的支付习惯在合适的时间点向用户主动展示付款码(比如第三方付款码),以简化用户的支付流程;还可以根据用户的出行习惯在合适的时间点向用户主动展示乘车码,比如地铁乘车码、公交乘车码等,以简化用户的乘车流程。
为便于理解,可以将上述各个推荐场景分别简称为购物场景、应用使用场景、支付推荐场景以及出行场景。为了更加清楚地理解电子设备的推荐场景,这里以出行场景中向用户主动展示地铁乘车码为例进行介绍。
示例性地,请参阅图1,图1是本申请实施例提供的一种向用户推荐地铁乘车码的界面示意图。可以理解的是,日常生活中,用户一般在靠近或进入地铁站后,将通过地铁乘车应用软件或小程序等入口打开乘车码以进行乘车准备。上述过程中,用户需要从屏幕(主屏幕或其他屏幕)中找到相关的乘车应用软件,然后打开该乘车应用软件,再查找并点击地铁乘车码图标得到地铁乘车码进行刷码乘车,整个流程繁琐耗时。
但是,在出行推荐场景中,电子设备可以在电子设备的位置接近或进入地铁站(比如电子设备与地铁站进站口之间的距离小于或等于10米)的情况下,可以在主屏幕(或者也可以称为第0屏)向用户推荐地铁卡片,用户直接点击该地铁卡片即可得到地铁乘车码进行乘车。
示例性地,在持有电子设备的用户接进入1号线的小石桥站的过程中,电子设备可以处于多种状态。比如电子设备可以处于打开某一应用的状态,如图1中的用户界面101所示,用户可以通过社交软件与朋友进行聊天;电子设备也可以处于锁屏状态,如图1中的用户界面102所示。
在持有电子设备的用户进入1号线的小石桥站时,电子设备在主屏幕显示地铁卡片。该地铁卡片可以理解为用于显示地铁站信息的显示区域,例如图1中的用户界面103,用户界面103也可以称为主屏幕103,主屏幕103包括地铁卡片1031,用于显示电子设备接近的地铁站信息,如“1号线小石桥站”,还可以用于显示其他提示信息,如“点击打开乘车码”等。
示例性地,电子设备显示用户界面101,响应于用户从屏幕底部边缘上滑操作,电子设备回到主屏幕103;或者,电子设备显示用户界面102,响应于用户在指纹图标1021上的长按操作,电子设备进行解锁并进入主屏幕103。主屏幕103显示地铁卡片1031。
在主屏幕103,响应于用户在地铁卡片1031上的点击操作,电子设备显示用户界面104。其中,用户界面104显示地铁乘车码,用户通过用户界面104显示的地铁乘车码即可进行刷码乘车,整个流程简单方便,大大地提高了用户体验。
可见,电子设备根据用户行为习惯进行个性化推荐可以提高电子设备的使用体验,让人们的生活更加便捷。可以理解的是,电子设备进行个性化推荐是基于预测模型进行的,为了让预测模型的推荐更加准确,比如推荐内容更加符合用户要求、推荐的时机更加准确,需要采集用户数据并整理成样本对预测模型进行训练,得到更加符合用户习惯的、新的预测模型。
本申请实施例中,不同场景可以选择不同的预测模型,示例性地,预测模型可以是基于协同过滤(collaborative filtering,CF)的模型、比如可以是隐语义模型(latentfactor model,LFM)、基于图的随机游走算法等;还可以是神经网络因子分解机(neuralfactorization machines,NFM)等。
可以理解的是,本申请实施例中所涉及的用户数据采集行为都是在得到用户同意后进行的,并且所采集的数据为用户授权可采集的数据,采集到的数据也会按照规定进行保密处理。
本申请实施例中,事件跟踪(event tracking)可以理解为针对用户行为或事件进行捕获、处理和发送的相关技术及其实施过程。一般地,事件跟踪也可以称为埋点。
目前,用户数据采集可以通过硬编码打点或者全埋点的方式进行。其中,硬编码打点也可以称为代码埋点,开发人员等操作者在原本的代码逻辑中增加用于进行数据采集的埋点代码,在埋点代码节点调用相关接口,进行数据采集和数据上报。容易理解,上述硬编码打点方式严重依赖开发人员、开发周期长;在后续数据采集任务更新后需要改代码并发布新的版本,更新埋点代码的代价大。
全埋点也可以称为叫无埋点、无码埋点或者自动埋点,可以理解为预先采集用户的大部分行为数据,然后再根据实际分析需求从中提取需要的行为数据。容易理解,上述全埋点方式的埋点密度太高,电子设备的功耗太大,且后续服务器分析压力大。
基于上述问题,本申请实施例提供了数据采集方法及相关装置。本申请在接收到采样任务后,根据采样任务配置触发采样的目标事件以及需要采集的数据项,然后检测该目标事件,在时刻A检测到该目标事件的情况下,采集该数据项在该时刻A之前时长t内的数据(可以称为前序数据),该数据用于对待训练的预测模型的训练。
可以理解的是,不同的预测模型需要采集的数据一般不同,因此可以认为不同的预测模型对应不同的采样任务。本申请提供的数据采集方法可以用于多种预测模型的数据采集,例如可以适用于上述购物场景、应用使用场景、支付推荐场景以及出行场景等场景中的预测模型。
本申请实施例中,目标事件可以理解为根据待训练的预测模型配置的事件。本申请实施例中,电子设备检测到目标事件后进行数据采集,因此,上述目标事件也可以理解为触发事件,用于触发电子设备采集数据。
本申请实施例中,上述目标事件可以是电子设备的状态发生变化对应的事件,示例性地,上述目标事件可以是电子设备的运动状态发生变化,比如从静止状态变为运动状态,也可以是电子设备的蓝牙连接状态发生变化,比如蓝牙从断开状态变为连接状态,还可以是电子设备的位置发生变化,比如位置A变为位置B或位置C等。
本申请实施例中,上述目标事件也可以是状态发生预设变化对应的事件,可以理解的是,上述预设变化可以包括一种或多种状态的变化,相应地,电子设备可以进行一个或多个参数的判断。
示例性地,上述目标事件可以是电子设备的运动状态发生变化,且运动状态从静止状态变为走路状态(而不是跑步状态)。因此,在确定运动状态发生变化的基础上,电子设备需要确定变化后的运动状态是否为走路状态。
又示例性地,上述目标事件可以是电子设备的蓝牙连接状态发生变化,且蓝牙连接状态从断开状态变为连接到设备A的状态。因此,在确定蓝牙连接状态发生变化的基础上,电子设备需要确定蓝牙连接状态是从断开状态变为连接状态,以及连接的设备为设备A。
本申请实施例中,上述目标事件可以是多个事件的统称,也就是说,电子设备可以在检测到多个事件后采集数据。示例性地,上述目标事件可以包括解锁事件以及运动状态变化事件,电子设备在检测到解锁事件以及运动状态变化事件时采集数据,具体可以根据预测模型进行配置,本申请对此不作限定。
可以理解的是,不用的预测模型所关注的事件一般是不同的,因此,不同的预测模型可以对应不同的目标事件。示例性地,待训练的预测模型为出行场景中的模型,那么,上述目标事件可以是用户使用乘车码乘坐地铁、公交等,也可以是用户使用打车软件乘坐出租车,还可以是用户离开家等事件。又示例性地,待训练的预测模型为购物场景中的模型,那么,上述目标事件可以是用户对商品进行下单或支付等事件。
可以理解的是,预测本身可以理解为在掌握现有信息的基础上,依照一定的方法和规律对未来的事情进行测算,以预先了解事情发展的过程与结果,一个事件的发生是多个原因综合作用而产生的结果。示例性地,用户出行这一事件可能综合了时间、天气、交通以及目的地等多个因素,比如时间是否为节假日、天气是否适合出行,交通是否拥堵,目的地远近等。
本申请实施例中,由于前序数据是目标事件发生之前时长t的数据(即前序数据),前序数据已经可以有效地记录发生目标事件之前的情况,前序数据与目标事件的发生是强相关的。而那些比前序数据更早的数据与目标事件的发生已经几乎没有影响,可以认为与目标事件的发生是弱相关的,因此,基于本申请实施例中的前序数据可以对预测模型进行有效地训练。本申请在能够采集到对预测模型进行有效训练的数据的基础上,相比于例如全埋点等其他方案,还可以节约数据采集过程中的功耗。
接下来,对本申请中采集的数据、采集数据的方式以及数据采集的触发机制进行介绍。
为便于理解,本申请实施例中,电子设备采集的数据可以包括长数据和短数据。其中,长数据可以理解为用于统计推导出规律性信息的数据,长数据可以被长期采集,比如在1年甚至2年内对电子设备的地理位置信息进行采集,以统计推导出电子设备的常驻地,或者,统计推导出电子设备的用户是否为需要通勤的通勤用户。
与长数据对应,短数据可以理解为与目标事件发生时刻之间的时间差小于或等于阈值的数据,短数据可以被短期采样,比如用户打开支付二维码这一目标事件发生的前后几分钟或十几分钟内对电子设备的蓝牙连接信息进行采集。
本申请实施例中,对长数据进行采样可以称为长采样,对短数据进行采样可以称为短采样。其中,长采样和短采样的数据项可以相同,也可以不同,具体的数据项可以根据采样任务确定。
示例性地,请参阅图2,图2是本申请实施例提供的一种多任务采样的示意图。
如图2所示,在得到电子设备的用户的授权后,电子设备可以采集的数据项包括息屏/亮屏、蓝牙连接、天气状态、打开/关闭应用、全球定位系统(global positioningsystem,GPS)定位、wifi网络、蜂窝网络、音量、生物特征识别、睡眠情况、环境光等。
对于任一采样任务(采样任务A或采样任务B),横向的长方形区域对应的数据项可以理解为长采样,纵向的长方向区域对应的数据项可以理解为短采样。
如图2所示,采样任务A需要采集的数据项包括睡眠情况、生物特征识别、音量、蜂窝网络、wifi网络、GPS定位、打开关闭应用、天气状态、蓝牙连接。其中,睡眠情况、生物特征识别作为采样任务A的长数据进行长采样。
类似地,采样任务B需要采集的数据项包括息屏/亮屏、蓝牙连接、天气状态、打开/关闭应用、GPS定位、wifi网络、蜂窝网络以及音量。其中,打开/关闭应用、GPS定位、wifi网络作为采样任务B的长数据进行长采样。
可以理解的是,图2所示的采样任务A和采样任务B仅仅是示例,实际情况下可以有其他的数据项可以被采集,还可以有其他采样任务,比如采样任务C、采样任务D等。可以理解,不同的采样任务采集的数据项也可以有交叉,比如蜂窝网络可以在采样任务D中作为短数据进行短采样,同时也可以在采样任务E中作为短数据进行短采样,还可以在采样任务F中作为长数据进行长采样。
本申请实施例中,不同的采样任务中需要采集的数据项,以及哪些数据项需要被长采样,哪些数据项需要被短采样可以根据预测模型本身的需求进行配置。
如图2所示,坐标轴的横轴可以表示时间,不同的长采样和短采样的采样时机并不相同:采样任务B比采样任务A更早开始进行数据采样、采样任务A中进行短采样的时长T2与采样任务B中进行短采样的时长T1和时长T3不同、甚至同一采样任务(即采样任务B)中不同时间发生的短采样也可以不同,如时长T1和时长T3。
本申请实施例中,长采样的采样方式与短采样的采样方式并不相同,接下来对本申请实施例的采样方式进行介绍。
一、长采样
对于长采样,长采样的开始时刻可以是电子设备从其他设备(比如服务器)接收到采样任务的时刻,也可以是采样任务指示的一个开始时刻。
可以理解的是,长采样在开始后将会在一段时间内进行不断地数据采集,本申请实施例中,长采样的结束时刻可以是采样任务的结束时刻,也可以是采样任务指示的其他时刻,比如长采样采集到的数据可以得到足够的样本数据,那么可以停止长采样。
示例性地,电子设备第一次从服务器下载安装包后得到采样任务A,那么电子设备接收到该采样任务A的时刻就可以认为是采样任务A的开始时刻。
又示例性地,电子设备在执行采样任务A的过程中接收采样任务B,类似地,电子设备接收到该采样任务B的时刻可以认为是采样任务B的开始时刻。
又示例性地,电子设备在执行采样任务A的过程中接收采样任务A的更新,比如增加或删除某些数据项,那么电子设备接收到该更新的采样任务A的时刻可以认为是该更新的采样任务A的开始时刻。
可以理解的是,在电子设备接收采样任务后,将按照采样任务的配置进行长采样。以图2所示的采样任务A为例,在电子设备接收到采样任务A后,将对电子设备中产生的睡眠情况、生物特征识别数据进行采集,然后上报给服务器。
二、短采样
对于短采样,可以理解的是,短采样的采样时长较短,因此,一个采样任务中可能进行多次短采样。如图2示出的部分,采样任务A包括至少1次短采样,采样任务B包括至少两次短采样。为了便于理解,接下来以一次短采样为例对于短采样的采样方式进行介绍,可以理解的是,采样任务中发生的其他短采样的触发机制与之类似,可以类推。
示例性地,请参阅图3,图3是本申请实施例提供的一种短采样的示意图。
如图3所示的短采样可以理解为采样任务中的一次短采样,比如可以是图2所示的采样任务A中的时长为T1的短采样。示例性地,如图3所示,采样任务需要进行短采样的数据项可以为数据项A、数据项B、数据项C以及数据项D。为便于描述,在后续描述过程中直接将上述4个数据项的数据统称为短数据。
本申请实施例中,电子设备在运作过程中会将产生的数据依照时间顺序入队存放在缓存器中。在一些实施例中,电子设备可以在时刻tb进行短采样,从缓存器中读取时刻ta至时刻tb之间的短数据,例如图3中时长T11内的短数据。在另一些实施例中,电子设备可以在时刻tc进行短采样,从缓存器中读取时刻tb至时刻tc之间的短数据,例如图3中时长T12内的短数据。
在又一些实施例中,电子设备可以在时刻tb和时刻tc分别进行短采样,即在时刻tb从缓存器中读取时刻ta至时刻tb之间的短数据,且在时刻tc从缓存器中读取时刻tb至时刻tc之间的短数据。
在又一些实施例中,电子设备可以在时刻tc进行短采样,即在时刻tc从缓存器中读取时刻ta至时刻tc之间的短数据。其中,电子设备可以记录对时刻tb进行记录,在时刻tc从缓存器中分别读取时刻ta至时刻tb之间的短数据以及读取时刻tb至时刻tc之间的短数据。
从上述实施例可以看出,本申请中的短采样是在某个时刻从缓存器中读取该时刻之前的数据,因此,本申请实施例中的短采样可以形象地理解为从缓存器中对数据进行回溯。而在其他方案中,数据采样是以某个时刻为起始,采集该时刻之后的数据,这与本方案中的采集方式有本质的不同。
可以理解的是,图3所示的数据项A-数据项D仅仅是示例性说明,实际情况中,电子设备在时刻tb从缓存器中回溯的数据项可以与电子设备在时刻tc从缓存器中回溯的数据项不同,比如可以部分相同,具体可以根据实际情况设定,本申请对此不作限定,另外,后文图5与之类似,后续不再赘述。
本申请实施例中,在时刻tc,电子设备从缓存器中回溯的是时刻tb至时刻tc之间的数据。而电子设备在时刻tb回溯多长时间内的短数据,即上述时长T11的具体大小,可以根据采样任务的具体需求设定,本申请对此不作限定。示例性地,上述时长T11可以是小于10分钟的数值。而在时刻tc,电子设备从缓存器中回溯时刻tb至时刻tc之间的数据。
可以理解的是,在电子设备从服务器接收到采样任务后,将按照上述长采样和短采样的采样方式进行数据采集,在达到采样任务规定的时间(比如一年)或采集的数据可以得到足够的样本对预测模型进行训练时,可以停止采样。示例性地,可以是采样任务自动停止采样,比如达到1年的采样时长,也可以是服务器向电子设备发送停止采样的指令等。
以上介绍了本申请实施例中的采样方式,接下来对短采样的触发机制进行介绍,即对上述时刻tb和时刻tc进行介绍。本申请实施例中,上述时刻tb和时刻tc均可以理解为触发电子设备采集短数据的时刻,因此,可以将上述时刻tb称为触发时刻A,可以将上述时刻tc称为触发时刻B。
接下来分别对上述触发时刻A和触发时刻B进行介绍。
一、触发时刻A
本申请实施例中,上述触发时刻A可以理解为电子设备检测到目标事件的时刻。其中,对目标事件的介绍可以参阅前文实施例,这里不再赘述。
可以理解的是,上述目标事件可以是多个事件的统称。因此,在上述目标事件包括多个事件的情况下,上述触发时刻A可以是检测到其中一个事件的时刻,也可以是在短时间内(比如2秒内)检测到上述多个事件后,根据上述多个事件的检测时间确定的时刻,比如可以是最后一个被检测到的事件的时刻等。
二、触发时刻B
本申请实施例中,上述触发时刻B可以根据电子设备中是否存在预测模型有不同的定义。
可以理解的是,不同推荐场景适用的预测模型是不同的,因此,在真正应用预测模型向用户进行推荐之前需要根据推荐场景采集样本数据对预测模型进行训练。比如出行场景中需要采集与出行相关的数据作为样本,训练得到一个初始预测模型;又比如购物场景中需要采集与购物相关的数据作为样本,训练得到一个初始预测模型,得到初始预测模型可以运用该模型向用户输出推荐内容。
还应理解,为了提高预测的准确率,给用户推荐出更加准确的内容,一般会对预测模型进行多次训练。比如在得到初始预测模型后,还需要进一步采集样本对初始预测模型进行训练,得到第2版本、第3版本,甚至第4版本的预测模型等,直到某个版本的预测模型的准确率达到预设值。
接下来以电子设备中存在预测模型作为情况一,以电子设备中不存在预测模型作为情况二分别对上述触发时刻B进行介绍。
情况一、电子设备中存在预测模型
可以理解的是,电子设备中存在的预测模型可能是初始版本模型,或者第2版本、第3版本预测模型等,本申请对此不作限定。在电子设备中存在预测模型的情况下,电子设备检测到目标事件发生时将调用已经存在的预测模型,然后由预测模型根据目标事件之前的数据(即前序数据)进行综合判定,确定是否输出推荐内容;以及在确定输出内容的情况下,进一步确定输出哪种推荐内容等。其中,上述前序数据可以是传感器状态、系统状态、系统事件以及业务事件等数据。
示例性地,在出行场景中,在电子设备从其他界面切换到第0屏这个目标事件发生后,电子设备可以调用预测算法对该目标事件之前的前序数据进行分析,确定需要输出卡片,并且确定输出地铁卡片(而不是公交卡片)。又示例性地,在出行场景中,在电子设备从其他界面切换到第0屏这个目标事件发生后,电子设备可以调用预测算法对该目标之前的前序数据进行分析,确定不需要输出推荐内容。
容易理解,在目标事件发生后,电子设备可能输出推荐内容,也可能不输出内容,由于上述两种情况的后续流程不同,接下来分别进行介绍。
(1)电子设备输出推荐内容
本申请实施例中,在电子设备根据预测模型输出推荐内容的情况下,上述触发时刻B可以理解为接收到用户反馈的时刻。
由于从电子设备检测到目标事件发生的时刻与输出推荐内容的时刻之间的时间差较小,远远小于电子设备采集的数据对应的时长(例如上述时长T11),因此,上述触发时刻A可以理解为电子设备输出推荐内容的时刻。示例性地,在出行场景中,如图1所示,电子设备输出地铁卡片1031的时刻可以理解为上述触发时刻A。
容易理解,不同的推荐场景中,用户针对推荐内容的反馈行为是不同的。示例性地,在如图1所示的出行场景中,电子设备向用户输出地铁卡片后,用户点击上述地铁卡片获取地铁乘车码的时刻,或者,用户点击上述地铁卡片获取到的地铁乘车码被扫码的时刻,可以理解为上述触发时刻B。可以理解的是,上述场景中用户接受了电子设备的推荐内容,因此,触发上述触发时刻B的用户行为可以理解为用户正向反馈,根据用户正向反馈采集的数据得到的样本可以作为正样本对预测模型进行训练。
又示例性地,在如图1所示的出行场景中,电子设备向用户输出地铁卡片后,用户点击删除按钮删除上述地铁卡片的时刻也可以理解为上述触发时刻B。可以理解的是,上述场景中,用户拒绝了电子设备推荐的地铁卡片,因此,触发上述触发时刻B的用户行为可以理解为用户负向反馈,根据用户负向反馈采集的数据得到的样本可以作为负样本对预测模型进行训练。
可以理解的是,在电子设备中存在预测模型,向用户输出推荐内容后,用户可能会对推荐内容作出反馈,也可能会因为忽视掉推荐内容而未作出反馈。因此,在一些实施例中,在电子设备存在预测模型的情况下,设定超时时刻,避免花费过多时间等待用户反馈,从而提高数据采集的效率。
本申请实施例中,上述超时时刻晚于上述触发时刻A,且与上述触发时刻A之间的时间间隔小于或等于阈值A。其中,在上述触发时刻A与上述超时时刻之间接收到的用户反馈可以理解为有效反馈,在上述超时时刻之后接收到的用户反馈可以理解为无效反馈。
可以理解的是,在电子设备接收到用户反馈的时刻正好为上述超时时刻的特殊情况下,可以认为是有效反馈,也可以认为是无效反馈,具体可以根据实际需求设定。
本申请实施例中,上述阈值A可以根据不同的推荐场景进行设置,本申请对此不作限定。比如在出行场景中,从输出推荐内容到用户采纳该推荐内容之间的时长一般较短,那么上述阈值A示例性地可以设定为小于或等于5分钟的值。比如在应用使用场景中,从输出推荐内容到用户采纳该推荐内容之间的时长一般较长,那么上述阈值A示例性地可以设定为小于半个小时的值。
为便于理解,示例性地,请参阅图4,图4是本申请实施例提供的一种根据用户反馈确定触发时刻B的示意图。
为了与前文图3所示的时刻tb和时刻tc形成呼应,图4复用时刻tb和时刻tc进行介绍。因此,图4中的时刻tb可以理解为上述触发时刻A,图4中的时刻tc可以理解为上述触发时刻B。
如图4中的(a)可以理解为电子设备接收到有效反馈的情况,即电子设备在时刻tb与超时时刻之间的时刻tc收到用户反馈。上述情况下,上述触发时刻B可以理解为电子设备接收到用户反馈的时刻tc,电子设备在时刻tc从缓存器中回溯时刻tb与时刻tc之间的短数据。
如图4中的(b)可以理解为电子设备接收到无效反馈的情况,即电子设备在超时时刻之后收到用户反馈。上述情况下,上述触发时刻B(即时刻tc)可以理解为超时时刻,电子设备在超时时刻从缓存器中回溯时刻tb与超时时刻之间的短数据。
如图4中的(c)可以理解为电子设备未接收到用户反馈的情况。比如在出行场景中,电子设备在时刻A向用户输出地铁卡片1,在用户还未作出反馈行为的较短时间内,电子设备在时刻B向用户输出地铁卡片2,且上述地铁卡片2替换了上述地铁卡片1,因此,电子设备将无法接收到用户针对上述地铁卡片的用户反馈。
在如图4中的(c)对应的情况下,上述触发时刻B(即时刻tc)可以理解为超时时刻,电子设备在超时时刻从缓存器中回溯时刻tb与超时时刻之间的短数据。
(2)电子设备不输出推荐内容
可以理解的是,在电子设备中存在预测模型,但是在检测到目标事件后不输出推荐内容的情况下,电子设备不可能接收到任何用户反馈。因此,上述触发时刻B可以理解为上述超时时刻。
情况二、电子设备中不存在预测模型
可以理解的是,与上述情况一的第(2)部分类似,在电子设备本身不存在预测模型的情况下,电子设备无法向用户输出推荐内容,也不可能接收到任何用户反馈。因此,上述触发时刻B可以理解为上述超时时刻。
根据以上介绍可以知道,电子设备在上述触发时刻A回溯的数据是上述触发时刻A之前产生的数据,在上述触发时刻B回溯的数据是上述触发时刻A之后产生的数据。因此,本申请实施例中,相对于上述触发时刻A来说,电子设备在触发时刻A采集的数据可以理解为短因数据,相应地,电子设备在触发时刻B采集的数据可以理解为短果数据。
本申请实施例中,长采样和短采样采集的是一段时间内的数据,为了节约电子设备的功耗以及节约电子设备的存储空间,在长采样、短采样的过程中采集事件数据。本申请实施例中,事件数据可以理解为记录电子设备发生状态变化对应的事件的数据,或者可以理解为增量数据。与事件数据类似,状态数据可以理解为记录电子设备在某个时刻的状态的数据,可以理解为全量数据。
为便于理解,以电子设备的蓝牙和无线网络为例进行解释。假设从早上8点到早上10点,蓝牙连接到无线耳机,无线网络连接到网络1;用户在早上10:01将蓝牙连接到手表,在中午12点将无线网络连接到网络2,上述状态一直持续到13点。
那么,在上述早上8点到13点之间,蓝牙在早上10:01被连接到手表可以理解为一个事件,无线网络在中午12点被连接到网络2也可以理解为一个事件,将上述事件记录下来的数据可以理解为上述事件数据。类似地,电子设备在早上9点的蓝牙状态是连接到耳机,在中午12点的蓝牙状态是连接到耳机和手表,那么,记录上述两个蓝牙状态的数据均可以理解为上述状态数据。
又示例性地,本申请实施例中,上述事件数据可以是记录蓝牙打开、蓝牙关闭、蓝牙连接设备事件的数据;或者也可以是记录电子设备从地点A离开、到达地点A事件的数据,其中,上述地点A可以是用户的常驻地、用户的家或者用户的工作地等。上述状态数据可以是电子设备在时刻A的蓝牙状态数据,比如蓝牙的关闭状态,或者蓝牙的打开状态,或者蓝牙连接的设备信息,比如蓝牙连接的耳机、手表等。上述状态数据还可以是电子设备在时刻A获取的天气状态数据、音乐播放状态数据、用户的运动状态数据等。
在一些实施例中,电子设备可以在触发时刻(比如上述触发时刻A、上述触发时刻B)从缓存器中回溯短数据,还可以在触发时刻采集电子设备在触发时刻的状态数据。
示例性地,请参阅图5,图5是本申请实施例提供的一种采集状态数据的示意图。
同样,为了与前文图3和图4所示的时刻tb和时刻tc形成呼应,图5复用时刻tb和时刻tc进行介绍。因此,图5中的时刻tb可以理解为上述触发时刻A,图5中的时刻tc可以理解为上述触发时刻B。
如图5所示,电子设备在时刻tb从缓存器中采集时刻ta与时刻tb之间的短因数据,还可以采集时刻tb的状态数据A;类似地,电子设备在时刻tc从缓存器中采集时刻tb与时刻tc之间的短果数据,还可以采集时刻tb的状态数据A。
以上对本申请实施例中的长采样、短采样以及采样方式和采样触发机制进行了详细介绍,接下来介绍本申请实施例提供的数据采集方法。本申请实施例提供的数据采集方法可以由电子设备执行,该电子设备可以是任意能够执行本方法的设备,示例性地可以是手机,平板电脑以及笔记本电脑等设备,本申请对此不作限定。
示例性地,请参阅图6,图6是本申请实施例提供的一种数据采集方法的流程示意图。
如图6所示,上述方法包括:
601:检测目标事件,该目标事件是根据待训练的预测模型配置的事件。
本步骤中,对上述目标事件的描述可以参考前文实施例,这里不再赘述。
可以理解的是,不用的预测模型所对应的目标事件一般是不同的,本步骤中,目标事件是根据待训练的预测模型配置的。示例性地,电子设备可以从服务器等其他设备处接收为上述待训练的预测模型采集样本数据的采集任务,根据采集任务获知上述目标事件以及后续步骤中的第一类数据项、第二类数据项、第三类数据项以及第四类数据项等信息,然后对电子设备进行配置。
可以理解的是,电子设备在运行过程中会发生各种各样的事件,比如息屏、接到来电、断开网络、电量小于20%等。本步骤中,检测目标事件可以理解为检测运行过程中的事件是否为目标事件。
602:在第一时刻检测到该目标事件的情况下,采集第二时刻与该第一时刻之间的第一数据,该第二时刻早于该第一时刻,该第二时刻与该第一时刻之间的时间间隔小于或等于第一阈值;该第一数据为第一类数据项的数据,该第一类数据项为根据该待训练的预测模型配置的数据项;该第一数据用于对该待训练的预测模型进行训练。
可以理解的是,在电子设备获知了目标事件后,可能在一段时间内未检测到目标事件。本申请实施例中,检测到目标事件的时刻为第一时刻。在第一时刻,响应于检测到上述目标事件,电子设备采集上述第二时刻与上述第一时刻之间的第一数据,上述第一数据为上述第一类数据项的数据。
可以理解的是,在得到用户的授权后,电子设备可以采集的数据项有多个,可能包括几十甚至上百个数据项,例如图2所示的数据项。本申请实施例中,上述第一类数据项是根据待训练的预测模型配置的,不同的待训练的预测模型可以配置不同类型的数据项。因此,可以认为电子设备在第一时刻针对性地采集能够有效训练上述待训练的预测模型的数据。
本申请实施例中,第一类数据项的数据可以理解为第一数据,第一类数据项可以包括多个数据项,具体可以根据上述待训练的预测模型进行配置。示例性地,上述第一类数据项可以是蜂窝网络、wifi网络以及GPS定位;也可以是环境光值、睡眠、生物特征识别以及GPS定位。
本申请实施例中,上述第二时刻与上述第一时刻之间的时间间隔小于或等于第一阈值,其中,上述第一阈值可以根据待训练的预测模型设定,不同的待训练的预测模型可以有不同的第一阈值。示例性地,上述第一阈值可以是5分钟以内的一个值。
可选地,上述第二时刻与上述第一时刻之间的时间间隔大于或等于第一时间阈值,与第一阈值类似,上述第一时间阈值也可以根据待训练的预测模型设定,示例性地,上述第一时间阈值可以是5分钟以内,2分钟以上的一个值。本实施例中,由于第二时刻与第一时刻之间的时间间隔大于或等于第一时间阈值,那么第二时刻与第一时刻之间的时间间隔不会太小;由于第二时刻与第一时刻之间的时间间隔小于或等于第一阈值,那么第二时刻与第一时刻之间的时间间隔不会太大,从而提高采集的数据的精准性。
可选地,上述第一时刻可以理解为前文实施例中的触发时刻A或时刻tb,上述第二时刻可以理解为上述时刻ta。因此,上述第二时刻与上述第一时刻之间的时间间隔可以理解为上述时长T11,具体还可以参阅前文图3的相关描述。
本申请实施例中,采集的数据用于对上述待训练的预测模型进行训练,因此可以将采集的数据称为样本数据,例如上述第一数据,以及后文中的第二数据、第三类数据项的数据、第三数据。可以理解的是,本申请实施例中,在采集到足够的数据对待训练的预测模型进行训练后,可以的得到新的预测模型。
本申请实施例中,首先对目标事件进行检测,在第一时刻检测到目标事件的情况下,采集上述第二时刻与上述第一时刻之间的第一数据。一方面,上述第二时刻早于上述第一时刻,即本申请采集的是目标事件发生之前的前序数据,由于前序数据已经可以有效地记录发生目标事件之前的情况,前序数据与目标事件的发生是强相关的。而那些比前序数据更早的数据与目标事件的发生已经几乎没有影响,因此,基于本申请实施例中的前序数据可以对预测模型进行有效地训练。
另一方面,上述第一数据为第一类数据项的数据,该第一类数据项是根据待训练的预测模型配置的,即本申请是针对性地采集能够有效训练上述待训练的预测模型的数据,其他不相关的数据并不需要采集。
综上,本申请采集第二时刻与第一时刻之间的第一数据,可以从时域上采集有效数据,采集与待训练的预测模型相关的第一类数据项的数据,可以从空间上采集有效数据。因此,本申请在能够有效采集到对预测模型进行有效训练的数据。
另外,由于本申请采集的数据项(上述第一类数据项)是针对性的数据项,采集的时间(上述第二时刻与上述第一时刻之间)是针对性的时间,相比于其他方案(例如全埋点),本申请在能够有效采集到对预测模型进行训练的数据基础上,还可以节约数据采集过程中的功耗,节约存储样本数据的存储资源。
在一些实施例中,上述步骤602之前,图6上述的方法还包括:
6021:将电子设备运行过程中上述第一类数据项的数据存入第一存储单元,上述第一存储单元用于对数据进行缓存。
上述步骤602包括:
6022:将上述第一存储单元中,上述第二时刻与上述第一时刻之间的上述第一数据作为采集的用于训练上述待训练的预测模型的数据存入第二存储单元,上述第二存储单元用于对数据进行持久存储。
本实施例中,上述第一存储单元用于对数据进行缓存,上述第二存储单元用于对数据进行持久存储。其中,上述第一存储单元中的数据具有易失性,即在电子设备断电后所存储的数据将随之丢失,而上述第二存储单元中的数据具有非易失性,即在电子设备断电后所存储的数据将不会丢失,重新对电子设备供电后,能够读取上述数据。
示例性地,上述第一存储单元可以是随机存取存储器(random access memory,RAM),或者也可以称为缓存器,易失性存储器等;上述第二存储单元可以理解为非易失性存储器(non-volatile memory,NVM),比如可以是只读存储器(read-only memory,ROM)、快闪存储器(flash memory)、磁盘(magnetic storage)等。
可以理解的是,在存取数据时,上述第一存储单元和上述第二存储单元采用的方式是不同的。其中,向上述第二存储单元存入数据时,数据是通过离磁性表面很近的磁头由电磁流来改变极性的方式被写入到磁盘上,是通过电信号让磁道在物理特性上发生变化来实现非易失性存储的。而上述第一存储单元是根据电容内存储电荷的多寡来代表一个二进制比特是1还是0,即向上述第一存储单元存储数据是基于电平的高低变化来实现的。
对比上述第一存储单元和上述第二存储单元存入数据的原理可以知道,将数据存入上述第一存储单元所消耗的电量是远远小于将数据存入上述第二存储单元所消耗的电量。可以理解,由于上述第一存储单元的易失性,采集的样本数据不可能存入上述第一存储单元,而是应该存入上述第二存储单元。因此,在其他方案中,例如上述全埋点方案,直接将采集的各种数据源源不断存入上述第二存储单元,电子设备的功耗消耗大。
而在本申请中,先将电子设备运行过程中上述第一类数据项的数据存入第一存储单元,使得电子设备在上述第一时刻能够回溯到第一时刻之前的第一数据,也就是说,在上述第一时刻,电子设备将上述第一存储单元中,上述第二时刻与上述第一时刻之间的上述第一数据作为采集的用于训练上述待训练的预测模型的数据存入第二存储单元,存入上述第二存储单元中的数据就可以认为是用于预测模型训练的样本数据。
可以理解的是,虽然电子设备在运行过程中需要将产生的数据存入缓存器,但是,上述操作所消耗的电量是非常小的,可以忽略不计,而由于本申请真正存入上述第二存储单元的数据在时间上和空间上是有效的(具体分析可以参阅前文图6对应的实施例),相比于其他方案可以有效减低功耗,有效节约存储器(例如上述第二存储单元)的存储空间。
在另一些实施例中,图6所示的方法还包括:
603:在根据上述目标事件输出推荐内容的情况下,采集上述第一时刻与第三时刻之间的第二数据,上述第三时刻为接收到针对上述推荐内容的用户反馈的时刻;上述第二数据用于对上述待训练的预测模型进行训练,上述第二数据为第二类数据项的数据,上述第二类数据项是根据上述待训练的预测模型配置的数据项。
如前文情况一的相关描述可以知道,在电子设备中存在预测模型的情况下,电子设备检测到目标事件发生时将调用已经存在的预测模型,然后由预测模型根据目标事件之前的数据(即前序数据)进行综合判定,确定是否输出推荐内容;以及在确定输出内容的情况下,进一步确定输出哪种推荐内容等。
因此,本申请实施例中,电子设备在第一时刻检测到上述目标事件的情况下,可能会根据目标事件输出相关的推荐内容,也可能未输出推荐内容。以出行场景的目标事件为事件A为例,示例性地,电子设备检测到事件A调用预测模型后可能会输出地铁卡片,也可能会输出公交卡片,也可能不输出任何推荐内容。
本实施例中,根据目标事件输出推荐内容的情况下,电子设备采集第一时刻与第三时刻之间的第二数据。其中,第二类数据项的数据可以理解为第二数据,上述第二类数据项中可以包括多个数据项,且上述第二类数据项与上述第一类数据项中的数据项可以相同,也可以不同,具体可以根据待训练的预测模型配置。
可选地,上述第三时刻也可以理解为前文实施例中的触发时刻B,具体可以参阅前文情况一中的第(1)部分,这里不再赘述。
本实施例中,在采集了上述第二时刻与上述第一时刻之间的第一数据的基础上,进一步采集上述第一时刻与上述第三时刻之间的数据。其中,由于上述第二时刻早于上述第一时刻,因此,上述第一数据可以理解为前序数据;由于用户反馈必定晚于上述第一时刻,那么上述第三时刻必定晚于上述第一时刻,因此,上述第二数据可以理解为后序数据。通过前序数据和目标事件发生时刻与接收到用户反馈时刻之间的后序数据,可以更好记录目标事件发生的前因后果以及用户反馈的具体情况(例如正向反馈或负向反馈),从而更好地学习用户习惯,得到更加准确的新模型。
可以理解的是,本申请提供的方法并不依赖于电子设备中存在的预测模型。在电子设备中不存在任何预测模型的情况下,采用本申请实施例提供的数据采集方法得到的足够的样本数据对待训练的预测模型进行训练后,可以有效地得到初始预测模型。在电子设备中存在A版本预测模型的情况下,采用本申请实施例提供的数据采集方法得到的足够的样本数据对上述A版本预测模型进行训练后,可以的到预测更加准确预测模型。
在又一些实施例中,上述步骤603对应的实施例还包括:
604:在根据上述目标事件未输出推荐内容的情况下,采集上述第一时刻与第四时刻之间的上述第二数据,上述第四时刻晚于上述第一时刻,上述第四时刻与上述第一时刻之间的时间间隔小于或等于第二阈值。
可以理解的是,在电子设备中存在预测模型的情况下,电子设备可能在目标事件发生时不会输出推荐内容,在电子设备中不存在预测模型的情况下,也必不会输出推荐内容。
可以理解的是,在根据上述目标事件未输出推荐内容的情况下,电子设备将不会接收到用户反馈,因此,本实施例中,电子设备采集上述第一时刻之后一段时间内的数据,即采集上述第一时刻与第四时刻之间的第二数据。也就是说,电子设备即使不会接收到用户反馈,还是会采集上述第二类数据项在第一时刻与第四时刻之间的第二数据,以记录上述第一时刻之后的后序数据,对待训练的预测模型进行更好的训练。
本申请实施例中,上述第二阈值可以根据待训练的预测模型设定,不同的待训练的预测模型可以有不同的第二阈值。示例性地,上述第二阈值可以是3分钟以内的一个值。对本实施例的介绍还可以参阅前文情况一中的第(2)部分以及上述情况二的描述,这里不再赘述。
在又一些实施例中,上述步骤603包括:
6031:在根据上述目标事件输出推荐内容,且在超时时刻之前接收到针对上述推荐内容的用户反馈的情况下,执行上述采集上述第一时刻与第三时刻之间的第二数据步骤;上述超时时刻晚于上述第一时刻,上述超时时刻与上述第一时刻之间的时间间隔小于或等于第三阈值。
可以理解的是,向用户输出推荐内容后,用户可能会对推荐内容作出反馈,也可能会因为忽视掉推荐内容而未作出反馈。因此,本实施例中,设定超时时刻,避免花费过多时间等待用户反馈,从而提高数据采集的效率。
本申请实施例中,上述第三阈值可以根据待训练的预测模型设定,不同的待训练的预测模型可以有不同的第三阈值。示例性地,上述第三阈值可以是5分钟以内的一个值。
本实施例中,在超时时刻之前接收到用户反馈的情况下,采集第一时刻与第三时刻之间的第二数据,具体可以参阅前文图4的相关描述。
在又一些实施例中,上述步骤6031对应的实施例还包括:
在根据上述目标事件输出推荐内容,且在超时时刻之前未接收到针对上述推荐内容的用户反馈的情况下,采集上述第一时刻与上述超时时刻之间的上述第二数据。
本实施例中,在超时时刻之前未接收到用户反馈的情况下,采集第一时刻与超时时刻之间的第二数据,不再等待用户反馈,以提高数据采集效率,具体可以参阅前文图4的相关描述。
以上实施例中基于第一时刻进行数据采集可以理解为短采样,采集的第一数据,第二数据可以理解为短数据,对短采样以及短数据的相关介绍可以参阅前文的描述,这里不再赘述。
在又一些实施例中,上述图6所示的方法还包括:
605:将电子设备运行过程中第三类数据项的数据存入第一存储单元;上述第三类数据项是根据上述待训练的预测模型配置的数据项;上述第三类数据项的数据用于对上述待训练的预测模型进行训练;上述第一存储单元用于对数据进行缓存;
606:在上述第一存储单元中的数据大于或等于第五阈值的情况下,将上述第三类数据项的数据作为采集的用于训练上述待训练的预测模型的数据存入第二存储单元,上述第二存储单元用于对数据进行持久存储。
本实施例中,对上述第一存储单元,上述第二存储单元的介绍可以参阅前文步骤6022,这里不再赘述。上述第三类数据项可以包括多个数据项,具体可以根据待训练的预测模型设定,可以与上述第一类数据项和上述第二类数据项中的数据项相同,也可以不同。
可以理解的是,电子设备将运行过程中将不断产生第三类数据项的数据,本实施例中,电子设备将运行过程中第三类数据项的数据存入第一存储单元。可以理解的是,第一存储单元的存储空间是有限的,在第一存储单元中的数据大于或等于第五阈值的情况下,电子设备将第一存储单元中存储的第三类数据项的数据作为采集的样本数据存入第二存储单元,用于后续的模型训练。
本实施例中,上述第五阈值可以根据实际情况设定,例如在第一存储单元的存储空间较大的情况下,可以设置较大的第五阈值;在第一存储单元的存储空间较小的情况下,可以设置较小的第五阈值,本申请对此不作限定。
本实施例中,对上述第三类数据项的数据采样可以理解为长采样,因此,上述第三类数据项的数据可以理解为长数据。本实施例中,在短采样的基础上进一步进行长采样,可以采集到更加完整的样本数据,有助于预测模型对用户习惯进行学习,得到更加准确的预测模型。
在又一些实施例中,上述图6所示的方法还包括:
采集位于上述第一时刻,第三时刻,第四时刻,超时时刻中至少一个时刻的第三数据;上述第三数据用于对上述待训练的预测模型进行训练,上述第三数据为根据上述待训练的预测模型配置的第四类数据项的数据。
对于第一时刻,第三时刻,第四时刻以及超时时刻,除了第三时刻与第一时刻之间的数据,第四时刻与第一时刻之间的数据以及超时时刻与第一时刻之间的数据可以反映目标事件发生的前因后果之外,上述4个时刻本身的数据也可以反映用户习惯,因此,进一步采集第一时刻,第三时刻,第四时刻,超时时刻中至少一个时刻的第三数据可以得到更加完整的样本数据,有助于得到更加准确的预测模型。
在一些实施例中,上述第一数据、上述第二数据以及上述第三类数据项的数据为事件数据,上述第三数据为状态数据,对事件数据以及状态数据的介绍可以参阅前文图5的相关描述,这里不再赘述。因此,电子设备在上述第一时刻采集的第三数据可以理解为上述状态数据A,在第三时刻、第四时刻、超时时刻采集的状态数据可以理解为上述状态数据B。
可以理解的是,在第一时刻之前采集前序数据,在第一时刻之后采集后序数据时,可能电子设备的某些数据项未发生改变,因此,采集不到事件数据。通过在上述第一时刻,第三时刻,第四时刻,超时时刻采集状态数据,那么可以与前序数据或后序数据形成互补。
示例性地,电子设备第二时刻与第一时刻之间的运动状态一直为运动状态A,即运动状态未发生变化,那么电子设备在采集第一数据时将无法采集到运动状态这一数据项的数据。在第一时刻采集状态数据后,采集到运动状态为运动状态A,那么就可以认为电子设备在第二时刻与第一时刻之间的运动状态一直为运动状态A,即状态数据与前序数据形成互补。
需要说明的是,本申请实施例中,步骤之前的编号应该理解为步骤的标识,一方面便于回引对方案进行描述,另一方面增加可读性便于读者理解方案,而不应该理解为步骤执行的先后顺序的限定。
以上介绍了本申请实施例提供的方法,接下来对本申请实施例涉及的电子设备进行介绍。
请参阅图7,图7是本申请实施例提供的一种电子设备100的结构示意图。
电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,加速度传感器180C,指纹传感器180D,温度传感器180E,触摸传感器180F,环境光传感器180G等。
可理解地,本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
其中,控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从上述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
I2C接口是一种双向同步串行总线,包括一根串行数据线(serial data line,SDA)和一根串行时钟线(derail clock line,SCL)。在一些实施例中,处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180F,充电器,闪光灯,摄像头193等。例如:处理器110可以通过I2C接口耦合触摸传感器180F,使处理器110与触摸传感器180F通过I2C总线接口通信,实现电子设备100的触摸功能。
I2S接口可以用于音频通信。在一些实施例中,处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合,实现处理器110与音频模块170之间的通信。在一些实施例中,音频模块170可以通过I2S接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。
PCM接口也可以用于音频通信,将模拟信号抽样,量化和编码。在一些实施例中,音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中,音频模块170也可以通过PCM接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。
UART接口是一种通用串行数据总线,用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中,UART接口通常被用于连接处理器110与无线通信模块160。例如:处理器110通过UART接口与无线通信模块160中的蓝牙模块通信,实现蓝牙功能。在一些实施例中,音频模块170可以通过UART接口向无线通信模块160传递音频信号,实现通过蓝牙耳机播放音乐的功能。
MIPI接口可以被用于连接处理器110与显示屏194,摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface,CSI),显示屏串行接口(displayserial interface,DSI)等。在一些实施例中,处理器110和摄像头193通过CSI接口通信,实现电子设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信,实现电子设备100的显示功能。
GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号,也可被配置为数据信号。在一些实施例中,GPIO接口可以用于连接处理器110与摄像头193,显示屏194,无线通信模块160,音频模块170,传感器模块180等。GPIO接口还可以被配置为I2C接口,I2S接口,UART接口,MIPI接口等。
USB接口130是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电,也可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该接口还可以用于连接其他电子设备,例如AR设备等。
可理解地,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备100的结构限定。在本申请另一些实施例中,电子设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为电子设备供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,外部存储器,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
电子设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏194显示图片或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,电子设备100的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(codedivision multiple access,CDMA),宽带码分多址(wideband code division multipleaccess,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system,GPS),全球导航卫星系统(global navigation satellite system,GLONASS),北斗卫星导航系统(beidounavigation satellite system,BDS),准天顶卫星系统(quasi-zenith satellitesystem,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。
电子设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图片,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,电子设备100可以包括1个或N个显示屏194,N为大于1的正整数。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令,从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图片或视频播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。
本申请实施例中,上述内部存储器121可以包括上述第一存储单元和上述第二存储单元,上述第一存储单元可以称为缓存器。
电子设备100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中,电子设备100可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备100还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A,电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194,电子设备100根据压力传感器180A检测所述触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中,可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的,当按下快门,陀螺仪传感器180B检测电子设备100抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消电子设备100的抖动,实现防抖。陀螺仪传感器180B还可以用于导航,体感游戏场景。
加速度传感器180C可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态,应用于横竖屏切换,计步器等应用。
环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合,检测电子设备100是否在口袋里,以防误触。
指纹传感器180D用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
温度传感器180E用于检测温度。在一些实施例中,电子设备100利用温度传感器180E检测的温度,执行温度处理策略。例如,当温度传感器180E上报的温度超过阈值,电子设备100执行降低位于温度传感器180E附近的处理器的性能,以便降低功耗实施热保护。在另一些实施例中,当温度低于另一阈值时,电子设备100对电池142加热,以避免低温导致电子设备100异常关机。在其他一些实施例中,当温度低于又一阈值时,电子设备100对电池142的输出电压执行升压,以避免低温导致的异常关机。
触摸传感器180F,也称“触控面板”。触摸传感器180F可以设置于显示屏194,由触摸传感器180F与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180F用于检测作用于其上或附近的触摸操作。触摸传感器180F可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180F也可以设置于电子设备100的表面,与显示屏194所处的位置不同。
SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195,或从SIM卡接口195拔出,实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口,N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡,Micro SIM卡,SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同,也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。电子设备100通过SIM卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,电子设备100采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在电子设备100中,不能和电子设备100分离。
本申请实施例中,上述显示屏194可以用于显示预测模型的推荐内容,示例性地,可以用于显示推荐的地铁卡片。
本申请实施例中,上述内部存储器121还可以包括高速缓冲存储器,或者也可以称为缓存器。上述缓存器用于存储电子设备运作过程中的数据,例如前文图2所示的环境光数据、睡眠数据、生物特征识别数据、音量、蜂窝网络数据、wifi网路数据、GPS定位数据、打开/关闭应用的数据、天气状态数据、蓝牙连接数据以及息屏/亮屏数据等。
在一些实施例中,移动通信模块150或无线通信模块160可以接收服务器发送的采集任务,处理器110可以调用内部存储器121存储的计算机指令对上述采集任务进行解析等。
在另一些实施例中,处理器110可以调用内部存储器121存储的计算机指令,以实现本申请实施例提供的数据采集方法。可选地,处理器110可以调用内部存储器121存储的计算机指令,向服务器发送通过上述数据采集方法采集的数据。
可以理解的是,电子设备100的软件系统可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。本申请实施例以分层架构的安卓系统为例,示例性说明电子设备100的软件结构。
请参阅图8,图8是本申请实施例提供的一种电子设备100的软件结构框图。
分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,可以将Android系统分为四层,从上至下分别为应用程序层,应用程序框架层,系统运行库层,以及内核层。对上述各个层的描述如下:
首先,应用程序层可以包括一系列应用程序包。示例性地,应用程序层的应用程序包可以包括相机、图库、日历、通话、地图、导航、浏览器、蓝牙、音乐、视频以及短信息等应用程序。
示例性地,当上述浏览器、视频、音乐等应用程序在电子设备上运行时,可以显示动画。
其次,应用程序框架层可以为应用程序层中的应用程序提供应用编程接口(application programming interface,API)和编程框架。应用程序框架层可以包括一些预先定义的函数。
示例性地,应用程序框架层可以包括活动管理器(activity manager)、窗口管理器(window manager),内容提供器(content provider),视图系统(view system),电话管理器(telephony manager),资源管理器(resource manager),通知管理器(notificationmanager)等。其中:
活动管理器可以用于管理各个应用程序生命周期以及通常的导航回退功能。
窗口管理器可以用于管理窗口程序。示例性地,窗口管理器可以获取电子设备100的显示屏大小,锁定屏幕,截取屏幕以及判断是否有状态栏等。
内容提供器可以用来存放和获取数据,并使这些数据可以被应用程序访问,使得不同的应用程序之间可以存取或分享数据。示例性地,上述数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签以及电话簿等。
视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
电话管理器用于提供电子设备100的通信功能,例如通话状态的管理(包括接通电话,挂断电话等)。
资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。示例性地,通知管理器可以被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,电子设备振动,指示灯闪烁等。
再者、系统运行库层可以包括系统库和安卓运行时(Android runtime)。其中:
安卓运行时包括核心库和虚拟机。安卓运行时负责安卓系统的调度和管理。其中,核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
系统库可以理解为应用程序框架的支撑,是连接应用程序框架层与内核层的重要纽带。系统层可以包括多个功能模块,例如可以包括表面管理器(surface manager),媒体库(media libraries),三维图形处理库(例如OpenGL ES),2D图形引擎(例如:SGL)等。其中:
表面管理器可以用于对显示子系统进行管理,比如在电子设备100执行多个应用程序的情况下,负责管理显示与存取操作间的互动。表面管理器还可以用于为多个应用程序提供了2D和3D图层的融合。
媒体库可以支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如可以是MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。
三维图形处理库用于实现三维图形绘图,图像渲染,合成以及图层处理等。
2D图形引擎可以理解为2D绘图的绘图引擎。
最后,内核层可以理解为硬件和软件之间的抽象层。内核层可以包括安全性、内存管理、进程管理、电源管理、网路协议管理以及驱动管理等系统服务。示例性地,内核层可以包括显示驱动,摄像头驱动,音频驱动以及传感器驱动等。
在一些实施例中,上述应用程序层还可以包括数据采集模块,上述数据采集模块用于实现本申请实施例提供的数据采集方法。示例性地,上述数据采集模块可以是Android应用程序包(Android application package,APK)。
在另一些实施例中,上述应用程序层还可以包括数据服务模块,用于与上述数据采集模块进行交互,采集上述数据采集模块所需要的数据。可选地,上述数据服务模块可以与上述数据采集模块位于同一个APK中,也可以单独存在。
在又一些实施例中,上述数据采集模块可以包括采集模块、管理模块以及数据上传模块,以实现本申请实施例提供的数据采集方法。示例性地,为便于理解,请参阅图9,图9是本申请实施例提供的一种数据采样模块的示意图。
如图9所示,第1部分的采集模块可以包括主动采集模块、缓存模块、样本输出模块、数据分析模块以及触发识别模块。第2部分的管理模块可以包括配置管理模块、功耗管理模块以及安全策略模块。第3部分可以理解为数据上传模块。
图9还示例性地示出了第4部分的数据服务模块,数据服务模块可以根据采集模块需要采集的数据项采集事件数据、状态数据,并将采集到的数据发送给采集模块。示例性地,用于发送事件数据的模块可以称为事件数据发送,用于发送状态数据的模块可以称为状态数据发送。
为了便于理解基于上述各个模块实现本申请实施例中的数据采集方法的过程,示例性地,请参阅图10,图10是本申请实施例提供的一种交互流程的示意图。
示例性地,配置管理模块可以用于接收服务器发送的采样任务,或者,可以定期连接到服务器,以查询是否有新的采样任务。在配置管理模块接收到采样任务的情况下进行任务调度,从采样任务中解析出触发短采样的目标事件,需要采集的数据项等信息,以触发采集模块进行数据采集。
在配置管理模块进行任务调度后,如图10所示,上述流程包括以下步骤:
1001:主动采集模块从数据采集服务模块处订阅待采集数据的数据项。相应地,数据采集服务模块接收该订阅。
本步骤中,主动采集模块可以先根据采样任务的配置信息确定采样任务待采集数据的数据项,然后在数据采集服务模块处订阅上述数据项。可以理解的是,上述数据项可以包括本申请实施例中长采样的数据项、短采样的数据项以及采集状态数据的数据项。
1002:数据采集服务模块向数据解析模块发送根据该数据项采集的数据。相应地,数据解析模块接收该数据。
可以理解的是,在主动采集模块从数据采集服务模块处订阅上述数据项后,数据采集服务模块就可以在电子设备的运作过程中获取到上述数据项的相关数据,然后将获取到的数据不断发送给数据解析模块,因此,上述步骤1002可以多次执行。其中,上述数据可以是事件数据,也可以是状态数据。
1003:数据解析模块将该数据发送给缓存模块。相应地,缓存模块接收该数据。
1004:缓存模块将该数据存入缓存器。
可以理解的是,本申请实施例中,缓存模块是按照时间的先后顺序将数据存入缓存器的,因此,从缓存器中读取数据时可以根据时间信息读取。
1005:数据解析器向触发识别模块发送事件数据。相应地,触发识别模块接收该事件数据。
可以理解的是,本申请实施例中,数据解析器接收到上述数据后,一方面将数据发送给缓存模块存入缓存器,以便后续在触发时刻进行数据回溯;另一方面,数据解析器将事件数据发送给触发识别模块,以便于触发识别模块根据事件数据判断是否触发采样。
可以理解的是,在一些实施例中,上述应用程序层还包括业务逻辑模块,该业务逻辑模块也用于获取电子设备中的事件数据。因此,触发识别模块可以从数据解析模块和业务逻辑模块分别接收事件数据,用于后续的采样触发判断。
可以理解的是,本申请实施例中的步骤编号应该理解为步骤的标识,以便于描述和理解,而不应理解为对步骤执行顺序的限定。本申请实施例中,不限定执行上述步骤1004和步骤1005的先后顺序。可选地,也可以先执行步骤1005,再执行步骤1004。
1006:触发识别模块判断是否触发短采样。
在步骤1006的判断结果为是的情况下,执行步骤1007:从缓存器中采集短数据。
在步骤1006的判断结果为否的情况下,可以认为数据解析器不执行短数据采集的相关操作,继续等待接收数据解析模块的事件数据进行下一次判断。
对于触发识别模块触发短采样的步骤1006和上述步骤1007,可以是触发识别模块根据事件数据确定采集上述触发时刻A之前的短数据(比如上述时长T11内的短数据),也可以是触发识别模块根据事件数据确定采集上述处触发时刻A与上述触发时刻B之前的短数据。关于上述触发时刻A和触发时刻B的介绍可以参阅前文图3和图4的相关描述。
1008:触发识别模块向样本生成模块发送该短数据。相应地,样本生成模块接收该短数据。
可以理解的是,缓存模块将数据采集服务模块采集的数据存储在缓存器,样本生成模块接收到上述短数据后,将短数据存入磁盘,例如图7中的内部存储器121。
可以理解的是,上述步骤1002中,数据采集服务模块向数据解析模块发送的数据是根据步骤1001订阅的数据项采集的数据,在一些实施例中,上述步骤1001中订阅的数据项包括采样任务中长采样所需要采集的数据项,因此,缓存器中还包括采集任务所需的长数据。
对于上述长数据,示例性地,在缓存器中的长数据的数据量达到阈值的情况下,缓存模块将缓存器中的长数据发送给样本生成模块,由样本生成模块将长数据存入磁盘。
在一些实施例中,触发识别模块还可以确定采集上述触发时刻A的状态数据,或者,触发识别模块还可以确定采集上述触发时刻B的状态数据。对应地,触发识别模块将向样本生成模块发送上述状态数据。
对于其他模块,例如功耗管理模块用于数据采集过程中的功耗监管,安全策略模块用于数据采集过程中的数据安全监管,数据上传模块用于向服务器传输采集到的数据,示例性地,可以在电子设备息屏充电的情况下上传采集到的数据。
可以理解的是,长数据和短数据从缓存器中出队的时间可以是相同的,也可以是不同的,两者相互不影响。还应理解,上述模块之间的发送和接收操作应该理解为通过函数调用等手段实现的数据交互,而不是两个设备之间的通信;而数据上传模块向服务器发送数据可以理解为电子设备与服务器之间的通信交互。
可以理解的是,如图9所示的数据采集模块的模块划分方式仅仅是示例,数据采集模块也可以采用其他的划分方式,只要能够实现本申请实施例提供的数据传采集方法即可。
为了便于理解,复用上述地铁卡片的例子,示例性地给出通过本申请实施例提供的数据采集方法进行数据采集得到的数据结果。请参阅图11,图11是本申请实施例提供的一种数据采集结果的示意图。
示例性地,假设地铁卡片对应的采样任务需要采集的长数据的数据项为亮/灭屏、步数、打开/关闭应用以及地理位置;需要的短数据的数据项为解锁、运动状态;触发时刻A的触发事件为电子设备从其他界面回到第0屏;用户反馈事件为用户使用推荐的地铁卡片乘坐地铁或删除上述地铁卡片。基于上述数据项,最终可以得到如图11所示的结果。
可选地,电子设备还可以采集天气以及网络作为状态数据,具体如图11所示。
可选地,电子设备还可以对数据项进行编号,编号可以与数据项之间一一对应,以方便数据项管理,具体如图11所示。
可以理解的是,图11所示的数据仅仅是示例,实际情况下可以采集更多的数据项以及采集不同的数据项。另外,图11所示的数据可以理解为一小段时间内数据采集结果,随着时间的推移,电子设备还可以采集更多的数据。示例性地,经过一段时间(比如半年、一年等)的数据采集,可以得到如图12所示的结果,图12是本申请实施例提供的另一种数据采集结果的示意图。
图12示例性地给出了两个采样任务的采样结果,其中,灰色部分可以理解为采样任务A采集的数据,黑色部分可以理解为采样任务B采集的数据。可以理解的是,本申请实施例提供的数据采集方法可以理解为采集一个或多个采样任务要求的数据,比如长数据、短数据以及状态数据等,每个采样任中采集到的数据可以整理得到多个样本。如图12所示,示例性地,采样任务A可以得到样本1、样本2、样本3以及样本4等;采样任务B可以得到样本1、样本2以及样本3等。
可以理解的是,电子设备采集到的初始数据具体怎样整理成样本可以由预测模型相关研究人员确定。示例性地,从采集初始数据到将数据整理为样本,每个样本中可以包括触发时刻A和触发时刻B采集到的短数据和一部分长数据。以采样任务A中的样本4为例,如图12所示,示例性地,样本4中可以包括在触发时刻A和触发时刻B采集的短数据以及状态数据,即状态数据A和状态数据B,还可以包括一部分长数据。
对于样本中加入的长数据,样本中的长数据的数据量也可以根据实际情况确定。为便于理解,请参阅图13,图13是本申请实施例提供的一种从采集的数据中确定样本的示意图。如图13所示,以采样任务A中的样本4为例,可以将图13中的(a),或(b),或(c)所示的数据作为一个样本。
可以理解的是,图13所示的3种样本整理方式仅仅是示例性介绍,实际情况下也可以采用其他的方式,比如将样本4中短数据对应的时长内的长数据加入到样本4中。另外,不同的样本中的长数据可以没有重叠,也可以有重叠,具体可以根据预测模型的训练需要确定,本申请对此不作限定。
本申请还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机代码,当计算机代码在计算机上运行时,使得计算机执行上述实施例的方法。
本申请还提供一种计算机程序产品,该计算机程序产品包括计算机代码或计算机程序,当该计算机代码或计算机程序在计算机上运行时,使得上述实施例中的方法被执行。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以上述权利要求的保护范围为准。
Claims (11)
1.一种数据采集方法,其特征在于,所述方法包括:
检测目标事件,所述目标事件是根据待训练的预测模型配置的事件;
在第一时刻检测到所述目标事件的情况下,将电子设备运行过程中第一类数据项的数据存入第一存储单元,并将所述第一存储单元中,第二时刻与所述第一时刻之间的第一数据作为采集的用于训练所述待训练的预测模型的数据存入第二存储单元,所述第一存储单元用于对数据进行缓存,所述第二存储单元用于对数据进行持久存储,所述第二时刻早于所述第一时刻,所述第二时刻与所述第一时刻之间的时间间隔小于或等于第一阈值;所述第一数据为第一类数据项的数据,所述第一类数据项为根据所述待训练的预测模型配置的数据项;所述第一数据用于对所述待训练的预测模型进行训练。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在根据所述目标事件输出推荐内容的情况下,采集所述第一时刻与第三时刻之间的第二数据,所述第三时刻为接收到针对所述推荐内容的用户反馈的时刻;所述第二数据用于对所述待训练的预测模型进行训练,所述第二数据为第二类数据项的数据,所述第二类数据项是根据所述待训练的预测模型配置的数据项。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在根据所述目标事件未输出推荐内容的情况下,采集所述第一时刻与第四时刻之间的所述第二数据,所述第四时刻晚于所述第一时刻,所述第四时刻与所述第一时刻之间的时间间隔小于或等于第二阈值。
4.根据权利要求2所述的方法,其特征在于,所述在根据所述目标事件输出推荐内容的情况下,采集所述第一时刻与第三时刻之间的第二数据,包括:
在根据所述目标事件输出推荐内容,且在超时时刻之前接收到针对所述推荐内容的用户反馈的情况下,执行所述采集所述第一时刻与第三时刻之间的第二数据步骤;所述超时时刻晚于所述第一时刻,所述超时时刻与所述第一时刻之间的时间间隔小于或等于第三阈值。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
在根据所述目标事件输出推荐内容,且在超时时刻之前未接收到针对所述推荐内容的用户反馈的情况下,采集所述第一时刻与所述超时时刻之间的所述第二数据。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述方法还包括:
将电子设备运行过程中第三类数据项的数据存入第一存储单元;所述第三类数据项是根据所述待训练的预测模型配置的数据项;所述第三类数据项的数据用于对所述待训练的预测模型进行训练;所述第一存储单元用于对数据进行缓存;
在所述第一存储单元中的数据大于或等于第五阈值的情况下,将所述第三类数据项的数据作为采集的用于训练所述待训练的预测模型的数据存入第二存储单元,所述第二存储单元用于对数据进行持久存储。
7.根据权利要求1-5中任一项所述的方法,其特征在于,所述方法还包括:
采集位于所述第一时刻,第三时刻,第四时刻,超时时刻中至少一个时刻的第三数据;所述第三数据用于对所述待训练的预测模型进行训练,所述第三数据为根据所述待训练的预测模型配置的第四类数据项的数据。
8.根据权利要求6所述的方法,其特征在于,所述方法还包括:
采集位于所述第一时刻,第三时刻,第四时刻,超时时刻中至少一个时刻的第三数据;所述第三数据用于对所述待训练的预测模型进行训练,所述第三数据为根据所述待训练的预测模型配置的第四类数据项的数据。
9.一种电子设备,其特征在于,包括处理器、存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,使得如权利要求1-8中任一项所述的方法被执行。
10.一种芯片,其特征在于,包括逻辑电路和接口,所述逻辑电路和接口耦合;所述接口用于输入和/或输出代码指令,所述逻辑电路用于执行所述代码指令,以使权利要求1-8中任一项所述的方法被执行。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,使得如权利要求1-8中任一项所述的方法被执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211084077.2A CN116662638B (zh) | 2022-09-06 | 2022-09-06 | 数据采集方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211084077.2A CN116662638B (zh) | 2022-09-06 | 2022-09-06 | 数据采集方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116662638A CN116662638A (zh) | 2023-08-29 |
CN116662638B true CN116662638B (zh) | 2024-04-12 |
Family
ID=87715910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211084077.2A Active CN116662638B (zh) | 2022-09-06 | 2022-09-06 | 数据采集方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116662638B (zh) |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108463806A (zh) * | 2014-12-01 | 2018-08-28 | 摄取技术有限公司 | 用于基于预测模型修改数据采集参数的计算机体系结构和方法 |
US10248910B2 (en) * | 2015-10-28 | 2019-04-02 | Fractal Industries, Inc. | Detection mitigation and remediation of cyberattacks employing an advanced cyber-decision platform |
CN110110901A (zh) * | 2019-04-15 | 2019-08-09 | 平安科技(深圳)有限公司 | 数据预测方法、装置、计算机设备和存储介质 |
CN110134316A (zh) * | 2019-04-17 | 2019-08-16 | 华为技术有限公司 | 模型训练方法、情绪识别方法及相关装置和设备 |
CN110766215A (zh) * | 2019-10-17 | 2020-02-07 | 东北电力大学 | 基于特征自适应选择和wdnn的风电爬坡事件预测方法 |
CN111241453A (zh) * | 2020-01-20 | 2020-06-05 | 平安科技(深圳)有限公司 | 页面访问时长采集方法、装置、介质及电子设备 |
CN111738122A (zh) * | 2020-06-12 | 2020-10-02 | Oppo广东移动通信有限公司 | 图像处理的方法及相关装置 |
CN111782879A (zh) * | 2020-07-06 | 2020-10-16 | Oppo(重庆)智能科技有限公司 | 模型训练方法及装置 |
CN111885012A (zh) * | 2020-07-03 | 2020-11-03 | 安徽继远软件有限公司 | 基于多种网络设备信息采集的网络态势感知方法及系统 |
CN111968750A (zh) * | 2020-10-23 | 2020-11-20 | 平安科技(深圳)有限公司 | 一种服务器、数据处理方法、装置及可读存储介质 |
CN112085293A (zh) * | 2020-09-18 | 2020-12-15 | 支付宝(杭州)信息技术有限公司 | 训练交互预测模型、预测交互对象的方法及装置 |
CN112699971A (zh) * | 2021-03-25 | 2021-04-23 | 荣耀终端有限公司 | 一种身份认证方法和装置 |
CN113837984A (zh) * | 2020-06-24 | 2021-12-24 | 华为技术有限公司 | 播放异常检测方法、电子设备和计算机可读存储介质 |
CN114169401A (zh) * | 2021-11-15 | 2022-03-11 | 阿里巴巴(中国)有限公司 | 数据处理、预测模型训练方法和设备 |
CN114547616A (zh) * | 2022-03-01 | 2022-05-27 | 展讯通信(天津)有限公司 | 检测垃圾软件的方法、装置及电子设备 |
CN114946165A (zh) * | 2020-01-15 | 2022-08-26 | 思科技术公司 | 用于sd-wan隧道的遥测数据收集和分析 |
CN114970621A (zh) * | 2022-05-20 | 2022-08-30 | 京东城市(北京)数字科技有限公司 | 异常聚集事件的检测方法、装置、电子设备和存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8126748B2 (en) * | 2008-02-25 | 2012-02-28 | Tixtrack, Inc. | Sports and concert event ticket pricing and visualization system |
US20170124497A1 (en) * | 2015-10-28 | 2017-05-04 | Fractal Industries, Inc. | System for automated capture and analysis of business information for reliable business venture outcome prediction |
-
2022
- 2022-09-06 CN CN202211084077.2A patent/CN116662638B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108463806A (zh) * | 2014-12-01 | 2018-08-28 | 摄取技术有限公司 | 用于基于预测模型修改数据采集参数的计算机体系结构和方法 |
US10248910B2 (en) * | 2015-10-28 | 2019-04-02 | Fractal Industries, Inc. | Detection mitigation and remediation of cyberattacks employing an advanced cyber-decision platform |
CN110110901A (zh) * | 2019-04-15 | 2019-08-09 | 平安科技(深圳)有限公司 | 数据预测方法、装置、计算机设备和存储介质 |
CN110134316A (zh) * | 2019-04-17 | 2019-08-16 | 华为技术有限公司 | 模型训练方法、情绪识别方法及相关装置和设备 |
CN110766215A (zh) * | 2019-10-17 | 2020-02-07 | 东北电力大学 | 基于特征自适应选择和wdnn的风电爬坡事件预测方法 |
CN114946165A (zh) * | 2020-01-15 | 2022-08-26 | 思科技术公司 | 用于sd-wan隧道的遥测数据收集和分析 |
CN111241453A (zh) * | 2020-01-20 | 2020-06-05 | 平安科技(深圳)有限公司 | 页面访问时长采集方法、装置、介质及电子设备 |
CN111738122A (zh) * | 2020-06-12 | 2020-10-02 | Oppo广东移动通信有限公司 | 图像处理的方法及相关装置 |
CN113837984A (zh) * | 2020-06-24 | 2021-12-24 | 华为技术有限公司 | 播放异常检测方法、电子设备和计算机可读存储介质 |
CN111885012A (zh) * | 2020-07-03 | 2020-11-03 | 安徽继远软件有限公司 | 基于多种网络设备信息采集的网络态势感知方法及系统 |
CN111782879A (zh) * | 2020-07-06 | 2020-10-16 | Oppo(重庆)智能科技有限公司 | 模型训练方法及装置 |
CN112085293A (zh) * | 2020-09-18 | 2020-12-15 | 支付宝(杭州)信息技术有限公司 | 训练交互预测模型、预测交互对象的方法及装置 |
CN111968750A (zh) * | 2020-10-23 | 2020-11-20 | 平安科技(深圳)有限公司 | 一种服务器、数据处理方法、装置及可读存储介质 |
CN112699971A (zh) * | 2021-03-25 | 2021-04-23 | 荣耀终端有限公司 | 一种身份认证方法和装置 |
CN114169401A (zh) * | 2021-11-15 | 2022-03-11 | 阿里巴巴(中国)有限公司 | 数据处理、预测模型训练方法和设备 |
CN114547616A (zh) * | 2022-03-01 | 2022-05-27 | 展讯通信(天津)有限公司 | 检测垃圾软件的方法、装置及电子设备 |
CN114970621A (zh) * | 2022-05-20 | 2022-08-30 | 京东城市(北京)数字科技有限公司 | 异常聚集事件的检测方法、装置、电子设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
基于LSTM的集群用户作业执行时间预测模;朱正东等;《计算机工程与科学》;20220815;第1331-1341页 * |
基于LSTM的集群用户作业执行时间预测模型;朱正东等;《计算机工程与科学》;第1331-1341页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116662638A (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102470275B1 (ko) | 음성 제어 방법 및 전자 장치 | |
US11871328B2 (en) | Method for identifying specific position on specific route and electronic device | |
CN110134316B (zh) | 模型训练方法、情绪识别方法及相关装置和设备 | |
CN113704014B (zh) | 日志获取系统、方法、电子设备及存储介质 | |
CN111316199B (zh) | 一种信息处理方法及电子设备 | |
CN109766036A (zh) | 消息处理方法及电子设备 | |
CN116564304A (zh) | 语音交互方法及装置 | |
WO2020259554A1 (zh) | 可进行学习的关键词搜索方法和电子设备 | |
CN113254409A (zh) | 文件共享方法、系统及相关设备 | |
CN113747374B (zh) | 一种消息推送方法及装置 | |
CN114363462A (zh) | 一种界面显示方法及相关装置 | |
US20230418630A1 (en) | Operation sequence adding method, electronic device, and system | |
WO2023273543A1 (zh) | 一种文件夹管理方法及装置 | |
CN112740148A (zh) | 一种向输入框中输入信息的方法及电子设备 | |
CN114911400A (zh) | 分享图片的方法和电子设备 | |
CN116684525B (zh) | 一种事件提醒的方法、电子设备及存储介质 | |
CN115022982B (zh) | 多屏协同无感接入方法、电子设备及存储介质 | |
CN116662638B (zh) | 数据采集方法及相关装置 | |
CN114489469B (zh) | 一种数据读取方法、电子设备及存储介质 | |
CN111586236A (zh) | 电子设备标记方法及装置、计算机可读介质及电子设备 | |
CN116708656B (zh) | 打卡方法及打卡系统 | |
CN116027933B (zh) | 处理服务信息的方法和装置 | |
CN114006976B (zh) | 一种界面显示方法及终端设备 | |
CN116450026B (zh) | 用于识别触控操作的方法和系统 | |
WO2023207890A1 (zh) | 一种界面显示方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |