具体实施方式
发明人在发现了如背景技术所述的技术问题之后,着手对现目前的用户数据处理技术进行了长期的研究和分析。在长期的研究和分析过程中,发明人发现,常见的用户行为处理技术是批量化的且无选择性地对用户业务终端的所有用户数据进行分析,然而针对用户业务终端的所有用户数据而言,其中可能有一部分数据是与用户行为无关的数据,也就是说这一部分数据是没有分析和挖掘价值的。而采用常规的用户数据处理技术对这些无用数据进行处理时,不仅会占用处理资源,降低用户画像的分析速率,还可能引入不少噪声数据,这样会影响用户画像的分析精度。
有鉴于此,发明人创新性地提供了一种基于大数据和业务分析的用户数据处理方法及大数据平台,能够在进行用户画像分析之前实现对用户数据的针对性采集,从而过滤掉一些无用的数据,这样一来,在进行用户画像分析时,能够直接对具有数据分析和挖掘价值的用户数据进行分析,不仅可以提高用户画像的分析速率,还可以提高用户画像的分析精度,从而提升用户数据的处理效率。
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
在下面的详细描述中,通过实例阐述了许多具体细节,以便提供对相关指导的全面了解。然而,对于本领域的技术人员来说,显然可以在没有这些细节的情况下实施本发明。在其他情况下,公知的方法、程序、系统、组成和/或电路已经在一个相对较高水平上被描述,没有细节,以避免不必要的模糊本发明的方面。
这些和其他特性、当前申请披露的功能、执行的方法、结构中相关元素的功能和部件的组合和生产经济性,在参照附图进行以下描述的考虑中可能会变得更加明显,所有这些形成本申请的一部分。然而,需要理解清楚的是,附图仅仅是为了说明和描述的目的,并不旨在限制本申请的范围。应当了解的是,这些图纸不是按比例绘制的。然而,应当明确理解的是,附图仅用于说明和描述的目的,并不意图限制本发明的范围。应当知晓的是,这些附图并不依照比例。
本申请中使用流程图说明根据本申请的实施例的系统所执行的执行过程。应当明确理解的是,流程图的执行过程可以不按顺序执行。相反,这些执行过程可以以相反的顺序或同时执行。另外,可以将至少一个其他执行过程添加到流程图。一个或多个执行过程可以从流程图中删除。
图1是根据本发明的一些实施例所示的一种示例性基于大数据和业务分析的用户数据处理系统10的框图,基于大数据和业务分析的用户数据处理系统10可以包括大数据平台100和用户业务终端200。
在一些实施例中,如图2所示,大数据平台100可以包括处理引擎110、网络模块120和存储器130,处理引擎110和存储器130通过网络模块120通信。
处理引擎110可以处理相关的信息和/或数据以执行本申请中描述的一个或多个功能。例如,在一些实施例中,处理引擎110可以包括至少一个处理引擎(例如,单核处理引擎或多核处理器)。仅作为示例,处理引擎110可以包括中央处理单元(Central ProcessingUnit,CPU)、专用集成电路(Application-Specific Integrated Circuit,ASIC)、专用指令集处理器(Application-Specific Instruction-set Processor,ASIP)、图形处理单元(Graphics Processing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(Field ProgrammableGate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、精简指令集计算机(Reduced Instruction-Set Computer,RISC)、微处理器等或其任意组合。
网络模块120可以促进信息和/或数据的交换。在一些实施例中,网络模块120可以是任何类型的有线或无线网络或其组合。仅作为示例,网络模块120可以包括缆线网络、有线网络、光纤网络、电信网络、内部网络、互联网、局域网络(Local Area Network,LAN)、广域网(Wide Area Network,WAN)、无线局域网络(Wireless Local Area Network,WLAN)、城域网(Metropolitan Area Network,MAN)、公用电话交换网(Public Telephone SwitchedNetwork,PSTN)、蓝牙网络、无线个域网络、近场通讯(Near Field Communication,NFC)网络等或上述举例的任意组合。在一些实施例中,网络模块120可以包括至少一个网络接入点。例如,网络模块120可以包括有线或无线网路接入点,如基站和/或网路接入点。
存储器130可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器130用于存储程序,所述处理引擎110在接收到执行指令后,执行所述程序。
可以理解,图2所示的结构仅为示意,大数据平台100还可包括比图2中所示更多或者更少的组件,或者具有与图2所示不同的配置。图2中所示的各组件可以采用硬件、软件或其组合实现。
图3是根据本发明的一些实施例所示的一种示例性基于大数据和业务分析的用户数据处理方法和/或过程的流程图,基于大数据和业务分析的用户数据处理方法应用于图1中的大数据平台100,具体可以包括以下步骤S31-步骤S35。
步骤S31,获取针对用户业务终端的业务数据分析指令。例如,用户业务终端可以是智能设备,包括但不限于智能手机、各类电脑产品以及车载通信设备等。业务数据分析指令可以是与大数据平台通信的服务商平台发起的。当然,该业务数据分析指令仅针对用户业务终端的非隐私性交互业务,例如经过用户业务终端授权的视频观看业务、在线购物业务、在线论坛业务或政企服务业务等。
步骤S32,当基于所述业务数据分析指令确定所述用户业务终端处于业务数据交互状态时,基于所述业务数据分析指令确定用户数据分析策略。例如,业务数据交互状态可以用于表征用户业务终端处于业务交互在线状态或者业务交互活跃状态。不同的业务场景下,业务数据交互状态可以不同,在视频观看业务场景下,业务数据交互状态可以是用户进行弹幕输入状态,对于在线购物业务而言,业务数据交互状态可以是用户进行商品查找的浏览状态或者商品购买的点击状态。用户数据分析策略用于提供对用户数据进行分析的指导性意见。进一步地,可以通过业务数据分析指令中携带的业务数据分析需求来制定用户数据分析策略,业务数据分析需求可以包括针对不同类型的用户画像的获取需求,在此不作一一赘述。
步骤S33,获取与业务交互时段相关的业务交互对象和业务交互类型数据,基于所述与业务交互时段相关的业务交互对象得到目标业务交互对象数据。例如,业务交互时段可以是与业务数据交互状态对应的时段,例如用户进行弹幕输入的时段,或者用户进行商品查找的浏览状态的时段,在此不作限定。业务交互对象可以是与用户业务终端存在业务交互的其他终端。业务交互类型数据用于表征不同的业务交互类型,如上述提到的视频弹幕交互、购物交互等。目标业务交互对象数据用于记录业务交互对象的相关特征信息。
步骤S34,基于所述用户数据分析策略的分析策略指示信息、所述业务交互类型数据及所述目标业务交互对象数据确定用户数据采集策略。例如,分析策略指示信息可以包含针对不同用户数据的数据分析逻辑算法或者逻辑编程语句,关于底层的逻辑算法以及逻辑编程语句在此不再进行进一步说明。用户数据采集策略用于指导大数据平台进行针对性的用户数据采集,进一步如指导大数据平台对哪些类型的用户数据进行采集,对哪些类型的用户数据进行过滤或者丢弃,如此一来,能够在进行用户画像分析之前,预先对用户数据进行针对性采集,避免引入过多的无用数据而增加用户数据的噪声比例。
步骤S35,通过所述用户数据采集策略从所述用户业务终端中采集待处理用户数据,并基于所述用户数据分析策略对所述待处理用户数据进行用户画像分析,得到用户画像分析结果。例如,待处理用户数据基本都是具有分析价值和挖掘价值的数据,这样一来,在进行用户画像分析时,能够针对性地对待处理用户数据进行分析,不仅可以提高用户画像的分析速率,还可以提高用户画像的分析精度,从而提升用户数据的处理效率。
综上步骤S31-步骤S35所述,本方案在进行用户画像分析之前,会基于业务数据分析指令确定用户数据分析策略,然后与业务交互时段相关的业务交互对象和业务交互类型数据,这样可以确定出用户数据采集策略。如此,大数据平台能够基于用户数据采集策略对用户业务终端的用户数据进行针对性采集,从而过滤掉一些无用的数据,这样一来,在进行用户画像分析时,能够直接对具有数据分析和挖掘价值的待处理用户数据进行分析,不仅可以提高用户画像的分析速率,还可以提高用户画像的分析精度,从而提升用户数据的处理效率。可以理解,上述方法能够将用户数据分析策略以及用户数据采集策略进行结合,从而提高用户画像分析的智能化程度。
接下来将对一些可选实施例进行说明,这些实施例应当理解为示例,不应理解为实现本方案所必不可少的技术特征。
可以理解,在可能的实施例中,为了确保目标业务交互对象数据的实时性,从而提高用户画像分析的时效性,避免用户画像分析出现滞后,步骤S33中,基于所述与业务交互时段相关的业务交互对象得到目标业务交互对象数据,可以包括以下步骤S331和步骤S332。
步骤S331,对所述与业务交互时段相关的业务交互对象进行业务交互行为检测,得到业务交互行为所对应的实时业务交互对象数据及所述实时业务交互对象数据的交互对象变化数据。例如,业务交互行为检测可以通过预先设置的检测线程实现,检测线程的相关配置为现有技术,在此不作更多说明。
步骤S332,将所述业务交互行为所对应的实时业务交互对象数据及所述实时业务交互对象数据的交互对象变化数据作为目标业务交互对象数据。
如此设计,基于上述步骤S331和步骤S332,能够基于预设的检测线程实现对实时业务交互对象数据及所述实时业务交互对象数据的交互对象变化数据的确定,这样可以确保目标业务交互对象数据的实时性,从而提高用户画像分析的时效性,避免用户画像分析出现滞后。
在一个更为进一步的实施例中,步骤S34所描述的基于所述用户数据分析策略的分析策略指示信息、所述业务交互类型数据及所述目标业务交互对象数据确定用户数据采集策略,可以通过以下步骤S340实现。
步骤S340,将所述用户数据分析策略的分析策略指示信息、所述业务交互类型数据及所述目标业务交互对象数据发送至预设的采集策略生成模型,在预设的采集策略生成模型中基于所述用户数据分析策略的分析策略指示信息、所述业务交互类型数据及所述目标业务交互对象数据确定用户数据采集策略。例如,预设的采集策略生成模型可以是预先搭建的算法模型,该模型的训练样本和测试样本可以根据之前的用户画像分析记录得到,在此不作赘述。如此设计,能够基于采集策略生成模型对用户数据采集策略进行确定,从而确保用户数据采集策略与实际用户行为相匹配。
可以理解的时,在步骤S340的基础上,在预设的采集策略生成模型中基于所述用户数据分析策略的分析策略指示信息、所述业务交互类型数据及所述目标业务交互对象数据确定用户数据采集策略,进一步包括以下步骤S341-步骤S344所描述的内容。其中,以下的采集策略生成模型的不同的功能单元可以理解为采集策略生成模型的不同处理层或者不同处理线程,而这些功能单元的相关功能可以通过参数调节进行适应性调整,在此也不作更多说明。
步骤S341,通过调用所述采集策略生成模型的数据整合单元,将所述业务交互类型数据及所述目标业务交互对象数据整合为采集策略匹配信息;通过调用所述采集策略生成模型的信息处理单元,生成所述分析策略指示信息对应的页面点击分析结果,生成所述采集策略匹配信息对应的用户行为模拟结果;其中,所述页面点击分析结果和所述用户行为模拟结果分别包括多个具有不同用户兴趣热度值的用户行为事件。例如,用户兴趣热度值用于表征用户行为事件中的不同点击事件之间的相关度,用户行为事件中包括多个不同点击事件。
步骤S342,提取所述分析策略指示信息在所述页面点击分析结果的任一用户行为事件的原始用户访问轨迹信息,将所述用户行为模拟结果中具有最小用户兴趣热度值的用户行为事件确定为目标用户行为事件;通过所述信息处理单元,将所述原始用户访问轨迹信息映射到所述目标用户行为事件,在所述目标用户行为事件中得到原始访问轨迹映射信息,并根据所述原始用户访问轨迹信息、所述原始访问轨迹映射信息,生成所述分析策略指示信息和所述采集策略匹配信息之间的信息关联标签集。
步骤S343,以所述原始访问轨迹映射信息为参考信息在所述目标用户行为事件中获取业务交互描述信息,根据所述信息关联标签集对应的标签分组结果,将所述业务交互描述信息映射到所述原始用户访问轨迹信息所在用户行为事件,在所述原始用户访问轨迹信息所在用户行为事件中得到所述业务交互描述信息对应的待处理策略匹配信息,确定与所述待处理策略匹配信息对应的目标用户访问轨迹信息。
步骤S344,获取所述原始用户访问轨迹信息映射到所述目标用户行为事件中的信息映射记录;根据所述待处理策略匹配信息与所述信息映射记录上的多个待匹配事件记录对应的历史策略匹配信息之间的信息关联度,在所述用户行为模拟结果中依次获取所述目标用户访问轨迹信息对应的目标点击事件,直至获取到的所述目标点击事件所在用户行为事件的影响权重与所述目标用户访问轨迹信息在所述页面点击分析结果中的影响权重一致时,停止获取下一用户行为事件中的目标点击事件,并建立所述目标用户访问轨迹信息与最后一次获取到的目标点击事件之间的数据处理关联关系;根据所述数据处理关联关系,调用所述采集策略生成模型的策略生成单元对所述采集策略匹配信息进行信息特征提取,并根据信息特征提取结果生成所述用户数据采集策略。例如,数据处理关联关系可以用于记录分析策略指示信息和采集策略匹配信息之间的对应关系,从而实现用户数据分析策略和用户数据采集策略的深度融合。
这样一来,通过上述步骤S341-步骤S344,能够通过调用采集策略生成模型的不同功能单元实现对分析策略指示信息、业务交互类型数据及目标业务交互对象数据的关联分析,这样能够考虑用户数据分析策略和用户数据采集策略之间的互相关联性,从而确保通过用户数据采集策略采集得到的待处理用户数据能够与用户数据分析策略进行高度匹配,这样可以精准、实时地得到用户画像分析结果。
在上述内容的基础上,为了实现对用户数据的针对性采集以尽可能地减少或者剔除噪声数据,步骤S35所描述的通过所述用户数据采集策略从所述用户业务终端中采集待处理用户数据,进一步可以包括3511-步骤S3516所描述的内容。
步骤S3511,根据所述用户数据采集策略中的数据采集指示信息确定用户数据类别集合,其中,所述用户数据类别集合包括n个用户数据类别,每个用户数据类别具有m个数据类别标签,所述n为大于1的整数,所述m为大于1的整数。例如,数据采集指示信息用于指导所需要采集的用户数据是哪些,用户数据类别可以理解为一级标签,数据类别标签可以理解为二级标签。
步骤S3512,根据所述用户数据类别集合生成热度数据类别集合,其中,所述热度数据类别集合包括n个热度数据类别,每个热度数据类别为对用户数据类别进行筛分后得到的,且所述每个热度数据类别具有m个热度数据类别标签。例如,热度数据类别用于表征较为热门的数据类别,也就是那些具有潜在价值的用户数据对应的类别。
步骤S3513,针对于目标热度数据类别标签,根据所述热度数据类别集合确定类别标签选用率,其中,所述目标热度数据类别标签属于所述m个热度数据类别标签中的任意一个热度数据类别标签。顾名思义,类别标签选用率用于表征类别标签被选中的概率。
步骤S3514,针对于所述目标热度数据类别标签,若满足数据热度评价条件,则将所述类别标签选用率对应的所述目标热度数据类别标签作为待筛选类别标签。例如,数据热度评价条件可以根据实际需求进行设计,在此不作限定。
步骤S3515,重复上述确定所述待筛选类别标签的步骤,直至完成对所述m个热度数据标签的处理。
步骤S3516,判断确定出的待筛选类别标签的数量是否超过预设数量;在确定出的待筛选类别标签的数量未超过所述预设数量的前提下,根据所述待筛选类别标签从所述用户业务终端中采集与所述待筛选类别标签对应的待处理用户数据;在确定出的待筛选类别标签的数量超过所述预设数量的前提下,将确定出的待筛选类别标签按照类别标签选用率的由大到小的顺序进行排序,并选取排序考前的所述预设数量个待筛选类别标签作为待使用类别标签,根据所述待使用类别标签从所述用户业务终端中采集与所述待使用类别标签对应的待处理用户数据。例如,预设数据量可以根据实际情况进行调整,在此不作限定。
可以理解,根据上述步骤S3511-步骤S3516所描述的内容,能够确定多级的类别标签,并且将热度数据考虑在内,然后分析类别标签选用率,这样能够基于选择出的待使用类别标签精准地从用户业务终端中采集对应的待处理用户数据,确保待处理用户数据是具有潜在的挖掘和分析价值的,尽可能避免引入过多的噪声数据。
对于一些可以考虑选择的实施例而言,步骤S35所描述的基于所述用户数据分析策略对所述待处理用户数据进行用户画像分析,得到用户画像分析结果,进一步可以包括步骤S3521-步骤S3524。
步骤S3521,根据所述用户数据分析策略中包括用户画像分析指标以及所述待处理用户数据,获取用于进行用户画像特征比较的各用户行为数据特征的数据特征识别度及画像特征比较事项对应的全局特征描述信息的全局特征描述置信度,其中,针对任一用户行为数据特征,该用户行为数据特征的数据特征识别度为该用户行为数据特征能够匹配的局部特征描述信息的局部特征描述置信度。例如,用户画像分析指标用于指示用户画像分析的方向和侧重点。用户行为数据特征可以以特征向量或者其他形式进行表示,在此不作限定。特征描述可以理解为对特征进行的可视化描述,本领域技术人员在本申请所提供的内容的基础上结合现有的专利文献或者论坛,能够合理地推导出前后文的相关技术术语的含义,在此不作更多说明。
步骤S3522,根据各所述用户行为数据特征的数据特征识别度及所述全局特征描述置信度,为各所述用户行为数据特征分配局部特征描述信息,其中,各所述用户行为数据特征分别分配所述全局特征描述信息的部分局部特征描述信息,且各所述用户行为数据特征分配的局部特征描述信息的信息集合包括所述全局特征描述信息。
步骤S3523,根据为各所述用户行为数据特征分配的局部特征描述信息,分别生成各所述用户行为数据特征对应的数据特征匹配指示,其中,针对任一用户行为数据特征,该用户行为数据特征对应的数据特征匹配指示表示分配给该用户行为数据特征的局部特征描述信息。
步骤S3524,分别执行各所述用户行为数据特征对应的数据特征匹配指示,以实现为各所述用户行为数据特征分别匹配自身所分配的局部特征描述信息,并基于各所述用户行为数据特征分别将参考画像分析结果的画像分析描述信息与各所述用户行为数据特征自身匹配的局部特征描述信息进行比对,得到所述用户业务终端的用户画像分析结果。例如,参考画像分析结果是预先配置的,可以根据实际需求进行灵活配置,在此不作更多说明。
这样一来,通过上述步骤S3521-步骤S3524,能够对用户行为数据特征进行全局性和局部性的分析,从而考虑用户画像在全局层面和局部层面的差异性以及关联性,这样确定出的用户画像分析结果能够从实际层面反应用户的实际画像情况。
更进一步地,步骤S3522中,所述根据各所述用户行为数据特征的数据特征识别度及所述全局特征描述置信度,为各所述用户行为数据特征分配局部特征描述信息,可以包括以下步骤S35221和步骤S35222。
步骤S35221,获取各所述用户行为数据特征的用户点击频率,其中,所述用户点击频率表示用户行为数据特征的点击事件关联度。
步骤S35222,基于所述全局特征描述置信度、各所述用户行为数据特征的用户点击频率及各所述用户行为数据特征的数据特征识别度,为各所述用户行为数据特征分配局部特征描述信息,其中,针对任一用户行为数据特征,该用户行为数据特征分配的局部特征描述信息的局部特征识别度与该用户行为数据特征的用户点击频率正相关,且该用户行为数据特征分配的局部特征描述信息的局部特征识别度不大于该用户行为数据特征的数据特征识别度。
在上述步骤S35222的基础上,所述基于所述全局特征描述置信度、各所述用户行为数据特征的用户点击频率及各所述用户行为数据特征的数据特征识别度,为各所述用户行为数据特征分配局部特征描述信息,示例性地可以包括以下步骤a-步骤d。
步骤a,计算各未分配的用户行为数据特征的用户点击频率的页面点击频率均值,并计算各未分配的用户行为数据特征的用户点击频率与所述页面点击频率均值的比值,分别得到各未分配的用户行为数据特征的点击事件关联度的有效点击事件占比,其中,所述未分配的用户行为数据特征为尚未分配局部特征描述信息的用户行为数据特征。
步骤b,根据各未分配的用户行为数据特征的点击事件关联度的有效点击事件占比及所述全局特征描述置信度,分别得到各未分配的用户行为数据特征的待分配局部特征识别度,其中,针对任一未分配的用户行为数据特征,该未分配的用户行为数据特征的待分配局部特征识别度与该未分配的用户行为数据特征的点击事件关联度的有效点击事件占比正相关。
步骤c,若各未分配的用户行为数据特征的待分配局部特征识别度均不大于自身的数据特征识别度,针对任一未分配的用户行为数据特征,在所述全局特征描述信息的未分配的局部特征描述信息中,选取该未分配的用户行为数据特征自身待分配局部特征识别度大小的局部特征描述信息,分配给该未分配的用户行为数据特征,其中,各所述用户行为数据特征分配的局部特征描述信息不存在信息交集。
步骤d,若存在目标用户行为数据特征,针对任一目标用户行为数据特征,在所述全局特征描述信息的未分配的局部特征描述信息中,选取与该目标用户行为数据特征的数据特征识别度大小匹配的局部特征描述信息,分配给该目标用户行为数据特征,将所述全局特征描述置信度的大小更新为当前全局特征描述信息中未分配的局部特征描述信息的局部特征识别度大小,返回上述步骤计算各未分配的用户行为数据特征的用户点击频率的页面点击频率均值,并计算各未分配的用户行为数据特征的用户点击频率与所述页面点击频率均值的比值,分别得到各未分配的用户行为数据特征的点击事件关联度的有效点击事件占比继续执行,其中,所述目标用户行为数据特征为待分配局部特征识别度大于自身的数据特征识别度的未分配局部特征描述信息的用户行为数据特征。
如此设计,基于上述步骤a-步骤d,能够在为各用户行为数据特征分配局部特征描述信息时,充分考虑用户点击频率的页面点击频率均值以及各未分配的用户行为数据特征的点击事件关联度的有效点击事件占比,以上用户点击频率、点击事件关联度以及对应的有效点击事件占比能够从数值层面上反应各用户行为数据特征之间的关联关系以及对应的局部特征描述信息之间的关联关系,这样能够确保分配得到的局部特征描述信息之间不会存在较多的误差和缺失。
在另外的实施例中,除了实施上述步骤a-步骤d,还可以选择性地实施以下实施例:一个所述用户行为数据特征对应一个数据特征分组,同一数据特征分组中的各用户行为数据特征的用户点击频率及数据特征识别度相同。基于此,在上述步骤S35222的基础上,所述基于所述全局特征描述置信度、各所述用户行为数据特征的用户点击频率及各所述用户行为数据特征的数据特征识别度,为各所述用户行为数据特征分配局部特征描述信息,可以包括以下步骤S11-步骤S15。
步骤S11,计算各未分配的用户行为数据特征的用户点击频率的页面点击频率均值,其中,所述未分配的用户行为数据特征为尚未分配局部特征描述信息的用户行为数据特征。
步骤S12,针对任一未分配数据特征分组,计算该数据特征分组中单个用户行为数据特征的用户点击频率与所述页面点击频率均值的比值,得到该数据特征分组中单个用户行为数据特征的点击事件关联度的有效点击事件占比,其中,所述未分配数据特征分组为尚未分配局部特征描述信息的用户行为数据特征所属数据特征分组。
步骤S13,针对任一未分配数据特征分组,根据该数据特征分组中单个用户行为数据特征的点击事件关联度的有效点击事件占比及所述全局特征描述置信度,得到该数据特征分组中单个用户行为数据特征的待分配局部特征识别度,其中,针对任一用户行为数据特征,该用户行为数据特征的待分配局部特征识别度与该用户行为数据特征的点击事件关联度的有效点击事件占比正相关。
步骤S14,若各未分配数据特征分组对应的待分配局部特征识别度均不大于自身数据特征分组对应的数据特征识别度,针对任一未分配局部特征描述信息的用户行为数据特征,在所述全局特征描述信息的未分配的局部特征描述信息中,选取该用户行为数据特征自身待分配局部特征识别度大小的局部特征描述信息,分配给该用户行为数据特征,其中,各所述用户行为数据特征分配的局部特征描述信息不存在信息交集。
步骤S15,若存在目标数据特征分组,针对任一目标数据特征分组,在所述全局特征描述信息的未分配的局部特征描述信息中,分别为该目标数据特征分组中的各用户行为数据特征选取该目标数据特征分组对应的数据特征识别度大小的局部特征描述信息,分配给该目标数据特征分组中的各用户行为数据特征,将所述全局特征描述置信度的大小更新为当前全局特征描述信息中未分配的局部特征描述信息的局部特征识别度大小,返回上述步骤计算各未分配的用户行为数据特征的用户点击频率的页面点击频率均值继续执行,其中,所述目标数据特征分组为对应的待分配局部特征识别度大于自身对应的数据特征识别度的未分配局部特征描述信息的数据特征分组。
可以理解,上述步骤S11-步骤S15对应的技术效果差不多与上述步骤a-步骤d类似,因此上述步骤a-步骤d以及步骤S11-步骤S15可以任意选择一种进行实施,在此不作限定。
在其他的一些可以进行替换的实施例中,步骤S3524所描述的所述基于各所述用户行为数据特征分别将参考画像分析结果的画像分析描述信息与各所述用户行为数据特征自身匹配的局部特征描述信息进行比对,得到所述用户业务终端的用户画像分析结果,可以包括:基于各所述用户行为数据特征,并行地将所述参考画像分析结果的画像分析描述信息与各所述用户行为数据特征自身匹配的局部特征描述信息进行比对;当基于任一所述用户行为数据特征进行比对得到比对时效性权重大于预设时效性权重阈值的目标分析结果时,结束各所述用户行为数据特征针对所述参考画像分析结果的画像分析描述信息的比对;通过比对时效性权重大于预设时效性权重阈值的目标分析结果,确定所述参考画像分析结果的画像分析描述信息的用户画像分析结果。如此,在确定用户画像分析结果时,能够充分考虑比对时效性权重对用户画像的影响,从而确保用户画像分析结果能够及时地反应用户的实际情况,从而为服务商提供及时的画像信息指导,便于服务商及时地进行相关服务产品的推送。
在其他的一些可以进行替换的实施例中,在步骤S3521所描述的所述获取用于进行用户画像特征比较的各用户行为数据特征的数据特征识别度及所述用户画像特征比较对应的全局特征描述信息的全局特征描述置信度之后,所述方法还包括:计算各所述用户行为数据特征的数据特征识别度的置信度分析结果,得到第一识别置信度;若所述第一识别置信度小于所述全局特征描述置信度,在所述全局特征描述信息中删除部分局部特征描述信息,使得删除后的所述全局特征描述信息的全局特征描述置信度不大于所述第一识别置信度。
在其他的一些可以进行替换的实施例中,所述用户业务终端的业务处理线程中预先配置有分析指令上报子线程。基于此,步骤S31中,所述获取针对用户业务终端的业务数据分析指令,包括:获取所述分析指令上报子线程上报的业务数据分析指令。在步骤S31的所述获取针对所述用户业务终端的业务数据分析指令之后,还包括:基于所述分析指令上报子线程上报的业务数据分析指令检测业务处理线程的线程运行标签;当检测到业务处理线程的线程运行标签的数量变化时,确定所述用户业务终端处于业务数据交互状态。
在其他的一些可以进行替换的实施例中,所述用户业务终端的业务处理线程预先配置有交互对象识别子线程。基于此,步骤S31中,所述获取针对用户业务终端的业务数据分析指令,包括:获取所述交互对象识别子线程采集到的所述业务处理线程的当前业务交互对象。在步骤S31的所述获取针对所述用户业务终端的业务数据分析指令之后,还包括:基于所述交互对象识别子线程采集到的所述业务处理线程的当前业务交互对象,获取交互对象标识集;当所述业务处理线程对应的线程运行记录中出现所述交互对象标识集的更新记录时,确定所述用户业务终端处于业务数据交互状态。
在其他的一些可以进行替换的实施例中,所述用户业务终端的业务处理线程预先配置有交互对象识别子线程。基于此,步骤S31中,所述获取针对所述用户业务终端的业务数据分析指令,包括:获取所述交互对象识别子线程采集到的所述用户业务终端的业务处理线程的当前业务交互对象。在步骤S31的所述获取针对所述用户业务终端的业务数据分析指令之后,还包括:在所述当前业务交互对象中检测交互状态标识;基于检测结果确定所述用户业务终端是否处于业务数据交互状态。
可以理解,以上确定业务数据交互状态的方式可以择一使用,在此不作限定。
图4是根据本发明的一些实施例所示的一种示例性基于大数据和业务分析的用户数据处理装置140的框图,所述基于大数据和业务分析的用户数据处理装置140可以包括以下功能模块。
分析指令获取模块141,用于获取针对用户业务终端的业务数据分析指令。
分析策略确定模块142,用于当基于所述业务数据分析指令确定所述用户业务终端处于业务数据交互状态时,基于所述业务数据分析指令确定用户数据分析策略。
对象数据获取模块143,用于获取与业务交互时段相关的业务交互对象和业务交互类型数据,基于所述与业务交互时段相关的业务交互对象得到目标业务交互对象数据。
采集策略确定模块144,用于基于所述用户数据分析策略的分析策略指示信息、所述业务交互类型数据及所述目标业务交互对象数据确定用户数据采集策略。
用户数据处理模块145,用于通过所述用户数据采集策略从所述用户业务终端中采集待处理用户数据,并基于所述用户数据分析策略对所述待处理用户数据进行用户画像分析,得到用户画像分析结果。
关于上述分析指令获取模块141、分析策略确定模块142、对象数据获取模块143、采集策略确定模块144以及用户数据处理模块145的描述请参阅对上述对应的方法实施例的描述。
基于上述同样的或相似的发明构思,还提供了一种系统实施例。
一种基于大数据和业务分析的用户数据处理系统,包括大数据平台,以及与所述大数据平台通信的用户业务终端和服务商平台;
服务商平台用于:向大数据平台发送针对用户业务终端的业务数据分析指令;
大数据平台用于:获取针对用户业务终端的业务数据分析指令;当基于所述业务数据分析指令确定所述用户业务终端处于业务数据交互状态时,基于所述业务数据分析指令确定用户数据分析策略;获取与业务交互时段相关的业务交互对象和业务交互类型数据,基于所述与业务交互时段相关的业务交互对象得到目标业务交互对象数据;基于所述用户数据分析策略的分析策略指示信息、所述业务交互类型数据及所述目标业务交互对象数据确定用户数据采集策略;通过所述用户数据采集策略从所述用户业务终端中采集待处理用户数据,并基于所述用户数据分析策略对所述待处理用户数据进行用户画像分析,得到用户画像分析结果;将所述用户画像分析结果反馈给服务商平台。
上述系统实施例的描述可以参阅对应的方法实施例的描述。
需要理解的是,针对上述内容没有进行名词解释的技术术语,本领域技术人员可以根据上述所公开的内容进行前后推导毫无疑义地确定其所指代的含义,例如针对一些值、系数、权重、指数、因子、置信度等术语,本领域技术人员可以根据前后的逻辑关系进行推导和确定,这些数值的取值范围可以根据实际情况进行选取,例如0~1,又例如1~10,再例如50~100,在此均不作限定。
本领域技术人员可以根据上述已公开的内容毫无疑义对一些预设的、基准的、预定的、设定的以及目标的技术特征/技术术语进行确定,例如阈值、阈值区间、阈值范围等。对于一些未作解释的技术特征术语,本领域技术人员完全能够基于前后文的逻辑关系进行合理地、毫无疑义地推导,从而清楚、完整地实施上述技术方案。未作解释的技术特征术语的前缀,例如“第一”、“第二”、“上一个”、“下一个”、“前一个”、“后一个”、“当前”、“历史”、“最新”、“最佳”、“目标”、“指定”和“实时”等,可以根据前后文进行毫无疑义地推导和确定。未作解释的技术特征术语的后缀,例如“列表”、“特征”、“序列”、“集合”、“矩阵”、“单元”、“元素”、“轨迹”和“清单”等,也可以根据前后文进行毫无疑义地推导和确定。
本发明实施例公开的上述内容对于本领域技术人员而言是清楚完整的。应当理解,本领域技术人员基于上述公开的内容对未作解释的技术术语进行推导和分析的过程是基于本申请所记载的内容进行的,因此上述内容并不是对整体方案的创造性的评判。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅作为示例,而并不构成对本申请的限定。虽然此处并没有明确说明,本领域技术人员可以对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议,所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。
同时,本申请使用了特定术语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同部分两次或多次提到的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本申请的至少一个实施例中的某些特征、结构或特点可以进行适当的组合。
另外,本领域普通技术人员可以理解的是,本申请的各个方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可以被称为“单元”、“组件”或“系统”。此外,本申请的各方面可以表现为位于至少一个计算机可读介质中的计算机产品,所述产品包括计算机可读程序编码。
计算机可读信号介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等等、或合适的组合形式。计算机可读信号介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机可读信号介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤缆线、RF、或类似介质、或任何上述介质的组合。
本申请各方面执行所需的计算机程序码可以用一种或多种程序语言的任意组合编写,包括面向对象程序设计,如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET,Python等,或类似的常规程序编程语言,如"C"编程语言,Visual Basic,Fortran2003,Perl,COBOL 2002,PHP,ABAP,动态编程语言如Python,Ruby和Groovy或其它编程语言。所述程式设计编码可以完全在用户计算机上执行、或作为独立的软体包在用户计算机上执行、或部分在用户计算机上执行部分在远程计算机执行、或完全在远程计算机或服务器上执行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网络(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非申请专利范围中明确说明,本申请所述处理元件和序列的顺序、数位字母的使用、或其他名称的使用,并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的申请专利范围并不仅限于披露的实施例,相反,申请专利范围旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件装置实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或行动装置上安装所描述的系统。
同样应当理解的是,为了简化本申请揭示的表述,从而帮助对至少一个发明实施例的理解,前文对本申请实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法幷不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。