发明内容
本发明提供一种基于互联网平台系统优化的大数据分析方法及服务器,为实现上述技术目的,本发明采用如下技术方案。
第一方面是一种基于互联网平台系统优化的大数据分析方法,应用于大数据分析服务器,所述方法包括:
获得在不少于一个会话数据采集节点分别统计的互联网平台会话数据流;
针对各互联网平台会话数据流所包含的多个在先交互阶段的平台用户活动信息,确定所述平台用户活动信息包括的每种平台用户的统计分布向量、所述平台用户活动信息的页面跳转描述字段和用户活动行为文本描述;
对于每个平台用户活动信息,分别将相应平台用户活动信息所对应的统计分布向量、页面跳转描述字段和用户活动行为文本描述进行联动处理,得到与相应平台用户活动信息对应的平台负载决策特征;
结合所述不少于一个会话数据采集节点在相同在先交互阶段的平台用户活动信息所对应的平台负载决策特征,生成相应在先交互阶段的平台负载运行报告;
根据各个在先交互阶段分别对应的平台负载运行报告,确定所述不少于一个会话数据采集节点的平台负载估测结果。
在一些可能的实施例中,确定所述平台用户活动信息包括的每种平台用户的统计分布向量的步骤,包括:
从所述平台用户活动信息挖掘出用户活动向量关系网;
对所述用户活动向量关系网进行特征强化,得到目标用户活动向量关系网;
将目标用户活动向量关系网进行滑动平均处理,生成所述平台用户活动信息中包括的每一个活动参与方所对应的待处理捕捉窗口;
依据属于同一种平台用户的全部活动参与方所对应的待处理捕捉窗口,确定与相应类型的平台用户相对应的统计分布向量。
在一些可能的实施例中,所述依据属于同一种平台用户的全部活动参与方所对应的待处理捕捉窗口,确定与相应类型的平台用户相对应的统计分布向量,包括:
对于每个所述待处理捕捉窗口,识别出所述待处理捕捉窗口捕捉到的活动参与方所属平台用户的类型,并确定对应的类型可信指数;
挑选出类型可信指数高于可信指数限值的待处理捕捉窗口作为目标捕捉窗口;
汇总各所述目标捕捉窗口捕捉到的活动参与方所属平台用户的类型,并基于属于同一平台用户的活动参与方所对应的目标捕捉窗口,确定所述平台用户活动信息中包括的每种平台用户的统计分布向量。
在一些可能的实施例中,所述对所述用户活动向量关系网进行特征强化,得到目标用户活动向量关系网,包括:
对所述用户活动向量关系网中的各级用户活动向量分别进行信息承载特征强化,得到对应的信息承载向量关系网;
对所述用户活动向量关系网中的各级用户活动向量分别进行交互场景特征强化,得到对应的交互场景向量关系网;
组合所述用户活动向量关系网、所述信息承载向量关系网和所述交互场景向量关系网,得到目标用户活动向量关系网。
在一些可能的实施例中,确定所述平台用户活动信息的页面跳转描述字段的步骤,包括:
对所述平台用户活动信息进行交互事件识别,得到所述平台用户活动信息中识别出的每一个活动参与方的目标页面流式会话事项;
将所述平台用户活动信息中的目标页面流式会话事项的事项定位标签增添到待识别集合中,以使得所述待识别集合中历史平台用户活动信息所对应的历史目标页面流式会话事项,与当前的平台用户活动信息所对应的目标页面流式会话事项,形成各活动参与方的会话事项状态数据;
根据所述平台用户活动信息中各活动参与方的会话事项状态数据的数目和事项推演趋势特征,确定所述平台用户活动信息的页面跳转描述字段。
在一些可能的实施例中,所述对所述平台用户活动信息进行交互事件识别,得到所述平台用户活动信息中识别出的每一个活动参与方的目标页面流式会话事项,包括:
对所述平台用户活动信息进行并行事项识别,得到所述平台用户活动信息中识别出的每一个活动参与方的第一页面流式会话事项;
对所述平台用户活动信息进行单一事项识别,得到所述平台用户活动信息中识别出的每一个活动参与方的第二页面流式会话事项;
采用会话事项判决网络从所述第一页面流式会话事项和所述第二页面流式会话事项中,确定所述平台用户活动信息中识别出的每一个活动参与方的目标页面流式会话事项。
在一些可能的实施例中,所述对所述平台用户活动信息进行并行事项识别,得到所述平台用户活动信息中识别出的每一个活动参与方的第一页面流式会话事项,包括:
从所述平台用户活动信息挖掘出用户活动向量关系网;其中,所述用户活动向量关系网包括有至少两级规模递增的用户活动向量;
对于所述用户活动向量关系网中除规模最大的用户活动向量之外的每一级用户活动向量,进行特征衍生,得到对应的特征衍生向量,并通过跨接将所述特征衍生向量与相应级所对应的上一规模的用户活动向量进行联动处理,得到所述平台用户活动信息中识别出的每一个活动参与方的第一动态定位标签;
结合所述第一动态定位标签确定每一个活动参与方的第一页面流式会话事项。
在一些可能的实施例中,所述对所述平台用户活动信息进行单一事项识别,得到所述平台用户活动信息中识别出的每一个活动参与方的第二页面流式会话事项,包括:
获得结合所述平台用户活动信息进行用户行为解析而得到的用户行为文本数据;
对所述平台用户活动信息和所述用户行为文本数据分别进行滑动平均操作,挖掘出所述平台用户活动信息中各活动参与方的第一页面互动元素和所述用户行为文本数据中各活动参与方的第二页面互动元素;
采用显著性策略对各所述第一页面互动元素和各所述第二页面互动元素分别进行处理,得到完成显著性优化的第一页面互动元素和完成显著性优化的第二页面互动元素;
将完成显著性优化的第一页面互动元素和完成显著性优化的第二页面互动元素进行共性分析,得到完成显著性优化的第一页面互动元素和完成显著性优化的第二页面互动元素之间的共性支撑向量;
根据各所述共性支撑向量,得到所述平台用户活动信息中识别出的每一个活动参与方的第二页面流式会话事项。
在一些可能的实施例中,所述根据各所述共性支撑向量,得到所述平台用户活动信息中识别出的每一个活动参与方的第二页面流式会话事项,包括:
对每个所述共性支撑向量分别进行分团操作,得到分团信任度集;
对每个所述共性支撑向量分别进行定位预测,得到定位预测信息;
结合所述分团信任度集和所述定位预测信息,确定每个所述活动参与方的第二动态定位标签;
结合所述第二动态定位标签确定每一个活动参与方的第二页面流式会话事项。
在一些可能的实施例中,所述会话事项判决网络的调优步骤包括:
获得多个平台用户活动信息样例,对每个平台用户活动信息样例进行并行事项识别得到第一会话事项样例;
对每个平台用户活动信息样例进行单一事项识别得到第二会话事项样例;
在当前次调优过程中,对于当前次的每张平台用户活动信息样例,皆通过待调优的会话事项判决网络从所述第一会话事项样例和所述第二会话事项样例中选择目标会话事项样例,并确定所述目标会话事项样例和所述平台用户活动信息样例的正确会话事项样例之间的信息交叉系数;
对所述当前次的全部平台用户活动信息样例的信息交叉系数进行求和,得到当前次的全局信息交叉系数;
通过使得所述全局信息交叉系数最大化以改进所述待调优的会话事项判决网络,并返回进行下一次的调优过程,直至符合设定结束要求时停止调优,得到调优完成的会话事项判决网络。
在一些可能的实施例中,所述根据各个在先交互阶段分别对应的平台负载运行报告,确定所述不少于一个会话数据采集节点的平台负载估测结果,包括:
将各个在先交互阶段分别对应的平台负载运行报告进行组合,得到组合平台负载运行报告;
对所述组合平台负载运行报告分别进行场景负载挖掘和流式负载挖掘,挖掘出联动负载描述向量;
将所述联动负载描述向量输入负载估测单元,通过所述负载估测单元输出所述不少于一个会话数据采集节点的平台负载估测结果。
在一些可能的实施例中,所述将各个在先交互阶段分别对应的平台负载运行报告进行组合,得到组合平台负载运行报告,包括:
获得至少两个平台运行时段;对于每个平台运行时段,将所述平台运行时段内的各个在先交互阶段分别对应的平台负载运行报告进行组合,得到平台运行时段平台负载运行报告;
将各个平台运行时段分别对应的平台运行时段平台负载运行报告进行组合,得到组合平台负载运行报告。
第二方面是一种大数据分析服务器,包括存储器和处理器;所述存储器和所述处理器耦合;所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;其中,当所述处理器执行所述计算机指令时,使得所述大数据分析服务器执行第一方面的方法。
第三方面是一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在运行时执行第一方面的方法。
针对由于数据采集而导致的系统过载的问题,传统技术难以对其进行有效地改进,归根结底是难以精准实现相关平台系统在数据采集过程中的负载预测处理,基于此,本发明实施例获得在不少于一个会话数据采集节点分别统计的互联网平台会话数据流;针对各互联网平台会话数据流所包含的多个在先交互阶段的平台用户活动信息,确定平台用户活动信息包括的每种平台用户的统计分布向量、平台用户活动信息的页面跳转描述字段和用户活动行为文本描述;对于每个平台用户活动信息,分别将相应平台用户活动信息所对应的统计分布向量、页面跳转描述字段和用户活动行为文本描述进行联动处理,得到与相应平台用户活动信息对应的平台负载决策特征;基于不少于一个会话数据采集节点在相同在先交互阶段的平台用户活动信息所对应的平台负载决策特征,生成相应在先交互阶段的平台负载运行报告;可知,该平台负载运行报告既包含有各个会话数据采集节点在交互场景层面下的数据,还包含在时序层面下的数据;基于此,根据各个在先交互阶段分别对应的平台负载运行报告,可以获得到各在先交互阶段的综合数据负载特征在场景层面和时序层面下的关联性,以精准合理地确定不少于一个会话数据采集节点的平台负载估测结果,这样可以基于平台负载估测结果进行针对性的数据采集策略更新,尽可能避免互联网平台系统在数据采集过程中出现过载问题。
具体实施方式
以下,术语“第一”、“第二”和“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”或“第三”等的特征可以明示或者隐含地包括一个或者更多个该特征。
图1示出了本发明实施例提供的基于互联网平台系统优化的大数据分析方法的流程示意图,基于互联网平台系统优化的大数据分析方法可以通过大数据分析服务器实现,大数据分析服务器可以包括存储器和处理器;所述存储器和所述处理器耦合;所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;其中,当所述处理器执行所述计算机指令时,使得所述大数据分析服务器执行STEP202-STEP210所描述的技术方案。
STEP202,获得在不少于一个会话数据采集节点分别统计的互联网平台会话数据流。
会话数据采集节点是处于数据采集任务下的数据采集模块。会话数据采集节点可以设置在不同的子任务中,比如可以设置在用户浏览数据采集子任务中,也可以设置在系统推送数据采集子任务中,在此不做限定。
在会话数据采集节点对应配置有数据爬虫/网页蜘蛛,通过数据爬虫/网页蜘蛛可以采集互联网平台会话数据流,并将采集到的互联网平台会话数据流发送至大数据分析服务器。大数据分析服务器获得在不少于一个会话数据采集节点分别统计的互联网平台会话数据流。
互联网平台会话数据流是互联网平台系统对应的会话数据采集节点采集到的数据流。在一些示例下,在互联网平台会话数据流中,可以包括有各类平台用户,包括但不限于注册用户、游客用户、认证用户等。进一步地,互联网平台系统可以是社交平台系统、电商平台系统、游戏平台系统、办公平台系统等。
STEP204,针对各互联网平台会话数据流所包含的多个在先交互阶段的平台用户活动信息,确定平台用户活动信息中包括的每种平台用户的统计分布向量、平台用户活动信息的页面跳转描述字段和用户活动行为文本描述。
平台用户活动信息是互联网平台会话数据流中所包含的一组平台用户活动信息。在先交互阶段是平台用户活动信息的采集时间。数据爬虫/网页蜘蛛在采集互联网平台会话数据流时,还可以获得当前采集的平台用户活动信息的时间,并按照各时间的先后进行整理,生成一段时间内的互联网平台会话数据流。
平台用户指的是数据采集任务上属于某一类型的活动参与方。平台用户具体可以是注册用户、游客用户、认证用户等。统计分布向量指的是包括有数目信息的特征。每种平台用户的统计分布向量,比如,属于注册用户这一类平台用户的统计分布向量为50,属于游客用户这一类平台用户的统计分布向量为100。
用户活动行为文本描述指的是平台用户活动信息所包含的行为特征。用户活动行为文本描述主要有平台用户活动信息的行为偏好、活动意图、反馈情绪、活动频繁度和场景行为描述。
示例性的,针对各互联网平台会话数据流所包含的多个在先交互阶段中每个在先交互阶段所对应的平台用户活动信息,大数据分析服务器识别出平台用户活动信息中每一个活动参与方所属的类型,统计出平台用户活动信息中包括的每种平台用户的统计分布向量;大数据分析服务器对平台用户活动信息进行交互事件识别,得到平台用户活动信息的页面跳转描述字段;页面跳转描述字段包括有平台用户活动信息中各活动参与方的数据载荷(各活动参与方在交互活动过程中产生的数据信息的数据量大小,数据量的单位包括但不限于MB或者GB);大数据分析服务器采用CNN对平台用户活动信息进行滑动平均操作(卷积处理),挖掘出平台用户活动信息的用户活动行为文本描述。
其中,活动参与方指的是活跃于数据采集任务中的用户。可以理解,不同的活动参与方可以属于同一种的平台用户。比如,在其中一帧平台用户活动信息中,包括有5个游客用户,那么这5个游客用户都属于同一种平台用户,但是每个游客用户则都作为一个相对独立的活动参与方。页面跳转描述字段指的是活动参与方所表征的数据载荷的特征。页面跳转描述字段可以包括活动参与方的数据传递特征、信息传递特征等。
STEP206,对于每个平台用户活动信息,分别将相应平台用户活动信息所对应的统计分布向量、页面跳转描述字段和用户活动行为文本描述进行联动处理,得到与相应平台用户活动信息对应的平台负载决策特征。
平台负载决策特征是对平台用户活动信息所对应的统计分布向量、页面跳转描述字段和用户活动行为文本描述进行特征融合所得到的用于反映平台负载变化情况的特征。
示例性地,对于每个平台用户活动信息,大数据分析服务器将该平台用户活动信息所对应的统计分布向量、页面跳转描述字段和用户活动行为文本描述分别作为待生成的平台负载决策特征中的一个要素,从而联动处理得到该平台用户活动信息对应的平台负载决策特征。或者,大数据分析服务器可对该平台用户活动信息所对应的统计分布向量、页面跳转描述字段和用户活动行为文本描述进行加权融合,得到该平台用户活动信息对应的平台负载决策特征。
进一步地,大数据分析服务器还可以获得平台用户活动信息中的其他描述向量,将平台用户活动信息所对应的统计分布向量、页面跳转描述字段、用户活动行为文本描述和其他描述向量进行联动处理,得到与相应平台用户活动信息对应的平台负载决策特征。其中,其他描述向量可以至少包括是否发生会话链接中断、会话链接中断类型等。
STEP208,基于不少于一个会话数据采集节点在相同在先交互阶段的平台用户活动信息所对应的平台负载决策特征,生成相应在先交互阶段的平台负载运行报告。
平台负载运行报告指的是包括有各个会话数据采集节点的数据载荷的趋势分析数据。会话数据采集节点在在先交互阶段的平台负载决策特征,可以表征该会话数据采集节点在在先交互阶段(历史时刻)的数据载荷。不少于一个会话数据采集节点在相同在先交互阶段的平台用户活动信息所对应的平台负载决策特征,可以表征不少于一个会话数据采集节点在相同在先交互阶段的数据载荷。平台负载运行报告既包含有时序层面下的信息,也包括有各个会话数据采集节点在交互场景层面下的数据。
STEP210,根据各个在先交互阶段分别对应的平台负载运行报告,确定不少于一个会话数据采集节点的平台负载估测结果。
平台负载估测结果是估计得到的平台负载。平台负载估测结果可以包括平台用户的数目信息、活动参与方的数据交互传递轨迹等。平台用户的数目信息,比如,注册用户的数目为200,游客用户的数目为399。活动参与方的数据交互传递轨迹,比如,注册用户的数据传递轨迹、游客用户的数据接收轨迹等,可以理解,在数据采集过程中,针对不同的活动参与方的双向数据(接收的数据或者发送的数据)都可以作为平台负载的分析依据。
在一些设计思路下,大数据分析服务器根据各个在先交互阶段分别对应的平台负载运行报告,确定后序交互阶段(未来某一时段)的不少于一个会话数据采集节点的平台负载估测结果。该平台负载估测结果能够反映互联网平台系统在基于会话数据采集节点进行数据采集过程中的负载均衡情况,如果平台负载估测结果表征互联网平台系统在后序交互阶段的数据采集过程中出现过载,则应余弦针对后序交互阶段的数据采集过程进行策略更新,比如更新数据采集的放行规则,数据采集的持续时长等,从而避免互联网平台系统在后序交互阶段的数据采集过程中出现过载而导致互联网平台系统崩溃。
在另一设计思路下,大数据分析服务器根据互联网平台会话数据流所处的平台运行时段,确定在之后的平台运行时段时段的不少于一个会话数据采集节点的平台负载估测结果。比如,互联网平台会话数据流所处的平台运行时段是一周,则大数据分析服务器可以确定在下一周的不少于一个会话数据采集节点的平台负载估测结果。又如,互联网平台会话数据流所处的平台运行时段是一小时,则大数据分析服务器可以确定在下一个小时不少于一个会话数据采集节点的平台负载估测结果。
可以理解,获得在不少于一个会话数据采集节点分别统计的互联网平台会话数据流;针对各互联网平台会话数据流所包含的多个在先交互阶段的平台用户活动信息,确定平台用户活动信息中包括的每种平台用户的统计分布向量、平台用户活动信息的页面跳转描述字段和用户活动行为文本描述;对于每个平台用户活动信息,分别将相应平台用户活动信息所对应的统计分布向量、页面跳转描述字段和用户活动行为文本描述进行联动处理,得到与相应平台用户活动信息对应的平台负载决策特征;基于不少于一个会话数据采集节点在相同在先交互阶段的平台用户活动信息所对应的平台负载决策特征,生成相应在先交互阶段的平台负载运行报告;可知,该平台负载运行报告既包含有各个会话数据采集节点在交互场景层面下的数据,还包含在时序层面下的数据;基于此,根据各个在先交互阶段分别对应的平台负载运行报告,可以获得到各在先交互阶段的综合数据负载特征在场景层面和时序层面下的关联性,以精准合理地确定不少于一个会话数据采集节点的平台负载估测结果,这样可以基于平台负载估测结果进行针对性的数据采集策略更新,尽可能避免互联网平台系统在数据采集过程中出现过载问题。
在一些可能的设计思路下,确定平台用户活动信息包括的每种平台用户的统计分布向量的步骤,包括STEP402-STEP408。
STEP402,从平台用户活动信息挖掘出用户活动向量关系网。
用户活动向量关系网指的是从平台用户活动信息中挖掘出的多级规模(特征尺度)递增的用户活动向量的集合。用户活动向量关系网所包含的特征等级(特征层级)可以根据需要进行设置。比如,用户活动向量关系网的所包含的特征等级可以是3级,也可以是4级等。
示例性地,大数据分析服务器采用经过预调优的DCNN对平台用户活动信息进行向量挖掘,从平台用户活动信息中挖掘出用户活动向量关系网。其中,大数据分析服务器可以创建平台用户活动信息分团任务,在平台用户活动信息分团任务中对DCNN进行预调优,得到预调优(预训练)的DCNN。
STEP404,对用户活动向量关系网进行特征强化,得到目标用户活动向量关系网。
显著性策略可以理解为注意力机制,用于基于特征的贡献性进行处理资源的合理分配。
显著性策略至少包括信息承载显著性策略和交互场景显著性策略。信息承载显著性策略是信息承载层面下的显著性策略,交互场景显著性策略是交互场景下的显著性策略。
大数据分析服务器对用户活动向量关系网进行特征强化,可以从用户活动向量关系网中确定出不同重要性的特征,即目标用户活动向量关系网。
示例性地,大数据分析服务器对用户活动向量关系网中每个规模的用户活动向量分别提取两次局部活动信息特征,将各规模的用户活动向量所提取到的局部活动信息特征进行组合,得到组合局部活动信息特征,并将组合局部活动信息特征作为卷积算子的权重,与获得的共性特征关系网进行转秩卷积,得到目标用户活动向量关系网。
STEP406,将目标用户活动向量关系网进行滑动平均处理,生成平台用户活动信息中包括的每一个活动参与方所对应的待处理捕捉窗口。
待处理捕捉窗口是平台用户活动信息中活动参与方所对应的视觉窗口。待处理捕捉窗口的形状不限,可以是规则形状也可以是不规则形状。
示例性地,大数据分析服务器将目标用户活动向量关系网输入多个卷积单元和下采样单元,对目标用户活动向量关系网进行滑动平均处理,挖掘出平台用户活动信息中包括的每一个活动参与方的动态定位标签,从而在每一个活动参与方的动态定位标签所反映的位置处生成待处理捕捉窗口。
进一步地,大数据分析服务器对平台用户活动信息中包括的每一个活动参与方所对应的待处理捕捉窗口进行更新,得到更新后的平台用户活动信息中包括的每一个活动参与方所对应的待处理捕捉窗口,再根据更新后的平台用户活动信息中包括的每一个活动参与方所对应的待处理捕捉窗口,确定与相应类型的平台用户相对应的统计分布向量。
STEP408,依据属于同一种平台用户的全部活动参与方所对应的待处理捕捉窗口,确定与相应类型的平台用户相对应的统计分布向量。
大数据分析服务器对平台用户活动信息的各待处理捕捉窗口中活动参与方进行分团,确定出各待处理捕捉窗口中的活动参与方的类型,统计出属于同一种平台用户的全部活动参与方所对应的待处理捕捉窗口,确定与相应类型的平台用户相对应的统计分布向量。
比如,平台用户活动信息中包括的每一个活动参与方所对应的待处理捕捉窗口有10个,大数据分析服务器对这10个待处理捕捉窗口中活动参与方进行分团,确定出属于注册用户(类型)这一平台用户的活动参与方所对应的待处理捕捉窗口有3个,属于游客用户(类型)这一平台用户的活动参与方所对应的待处理捕捉窗口有7个,即属于注册用户(类型)这一平台用户相应的统计分布向量为3,属于游客用户(类型)这一平台用户相应的统计分布向量为7。
在本发明实施例中,大数据分析服务器从平台用户活动信息挖掘出用户活动向量关系网,对用户活动向量关系网进行特征强化,得到目标用户活动向量关系网;该目标用户活动向量关系网可以确定出不同贡献性的特征,再通过滑动平均处理更准确地挖掘出特征,更准确地生成每一个活动参与方所对应的待处理捕捉窗口,从而更准确确定出与相应类型的平台用户相对应的统计分布向量。
在一些可能的设计思路下,依据属于同一种平台用户的全部活动参与方所对应的待处理捕捉窗口,确定与相应类型的平台用户相对应的统计分布向量,包括:对于每个待处理捕捉窗口,识别出待处理捕捉窗口捕捉到的活动参与方所属平台用户的类型,并确定对应的类型可信指数;挑选出类型可信指数高于可信指数限值的待处理捕捉窗口作为目标捕捉窗口;汇总各目标捕捉窗口捕捉到的活动参与方所属平台用户的类型,并基于属于同一平台用户的活动参与方所对应的目标捕捉窗口,确定平台用户活动信息中包括的每种平台用户的统计分布向量。
类型可信指数指的是识别出的类型的置信度。活动参与方所属平台用户的类型对应的类型可信指数越高,则该类型的精度越高。可信指数限值可以根据需要进行设置。比如,可信指数限值可以是0.9,0.95等。
对于每个待处理捕捉窗口,大数据分析服务器采用分类器对待处理捕捉窗口捕捉到的活动参与方进行分团,识别出活动参与方的所属的平台用户的类型,并确定对应的类型可信指数。其中,分类器采用交叉熵损失函数对待处理捕捉窗口捕捉到的活动参与方进行分团。
大数据分析服务器挑选出类型可信指数高于可信指数限值的待处理捕捉窗口作为目标捕捉窗口,并删除可信指数低于或等于可信指数限值的待处理捕捉窗口。
在本发明实施例中,对于每个待处理捕捉窗口,大数据分析服务器识别出待处理捕捉窗口捕捉到的活动参与方所属平台用户的类型,并确定对应的类型可信指数;挑选出类型可信指数高于可信指数限值的待处理捕捉窗口作为目标捕捉窗口,从而可以根据挑选出的目标捕捉窗口捕捉到的活动参与方所属平台用户的类型,更准确地确定出平台用户活动信息中包括的每种平台用户的统计分布向量。
例如,大数据分析服务器将平台用户活动信息IN输入CNN001中,通过CNN001挖掘出用户活动向量关系网vector map。大数据分析服务器采用显著性策略attentionstrategy对用户活动向量关系网vector map进行特征强化,得到目标用户活动向量关系网target vector map。大数据分析服务器将目标用户活动向量关系网target vector map进行滑动平均处理,生成平台用户活动信息IN中包括的每一个活动参与方所对应的待处理捕捉窗口;对于每个待处理捕捉窗口,识别出待处理捕捉窗口捕捉到的活动参与方所属平台用户的类型,并确定对应的类型可信指数;对各待处理捕捉窗口进行挑选,挑选出类型可信指数高于可信指数限值的待处理捕捉窗口作为目标捕捉窗口,得到挑选结果result。大数据分析服务器汇总各目标捕捉窗口捕捉到的活动参与方所属平台用户的类型,并基于属于同一平台用户的活动参与方所对应的目标捕捉窗口,得到用户捕捉结果window,用户捕捉结果window即平台用户活动信息中包括的每种平台用户的统计分布向量。
在一些可能的设计思路下,对用户活动向量关系网进行特征强化,得到目标用户活动向量关系网,包括:对用户活动向量关系网中的各级用户活动向量分别进行信息承载特征强化,得到对应的信息承载向量关系网;对用户活动向量关系网中的各级用户活动向量分别进行交互场景特征强化,得到对应的交互场景向量关系网;组合用户活动向量关系网、信息承载向量关系网和交互场景向量关系网,得到目标用户活动向量关系网。
信息承载向量关系网是经过信息承载特征强化的多层级特征。交互场景向量关系网是经过交互场景特征强化的多层级特征。
大数据分析服务器对用户活动向量关系网中的各级用户活动向量分别进行信息承载特征强化,得到用户活动向量关系网在信息承载层面上的信息承载系数;将该信息承载系数加权到用户活动向量关系网上,得到对应的信息承载向量关系网。
同理,大数据分析服务器对用户活动向量关系网中的各级用户活动向量分别进行交互场景特征强化,得到用户活动向量关系网在交互场景上的交互场景系数;将该交互场景系数加权到用户活动向量关系网上,得到对应的交互场景向量关系网。
大数据分析服务器组合用户活动向量关系网、信息承载向量关系网和交互场景向量关系网,得到目标用户活动向量关系网,该目标用户活动向量关系网也就是强化特征关系网。
在本发明实施例中,大数据分析服务器分别对用户活动向量关系网中的各级用户活动向量进行信息承载特征强化和交互场景特征强化,可以分别得到已强化信息承载特征和已强化交互场景特征,组合用户活动向量关系网、信息承载向量关系网和交互场景向量关系网,可以联合信息承载层面和交互场景对用户活动向量关系网进行残差特征强化,从而更准确地得挖掘出用户活动向量关系网。
在一些可能的设计思路下,确定平台用户活动信息的页面跳转描述字段的步骤,包括STEP702-STEP706。
STEP702,对平台用户活动信息进行交互事件识别,得到平台用户活动信息中识别出的每一个活动参与方的目标页面流式会话事项。
目标页面流式会话事项是平台用户活动信息中识别出的活动参与方所对应的会话事项。通过活动参与方的会话事项状态数据,可以获得到该活动参与方的信息传递特征。
在一些设计思路下,大数据分析服务器可以对平台用户活动信息进行单一事项识别,得到平台用户活动信息中识别出的每一个活动参与方的目标页面流式会话事项。在另一设计思路下,大数据分析服务器可以对平台用户活动信息进行并行事项识别,得到平台用户活动信息中识别出的每一个活动参与方的目标页面流式会话事项。
STEP704,将平台用户活动信息中的目标页面流式会话事项的事项定位标签增添到待识别集合中,以使得待识别集合中历史平台用户活动信息所对应的历史目标页面流式会话事项,与当前的平台用户活动信息所对应的目标页面流式会话事项,形成各活动参与方的会话事项状态数据。
事项定位标签是目标页面流式会话事项所对应的位置的特征。通过事项定位标签,可以确定出目标页面流式会话事项所对应的位置。待识别集合是记录有各活动参与方的会话事项的动态定位标签的队列。历史平台用户活动信息指的是按照采集时间的时序,处于当前平台用户活动信息之前的平台用户活动信息。历史目标页面流式会话事项是历史平台用户活动信息中识别出的活动参与方所对应的会话事项。
大数据分析服务器将平台用户活动信息中的目标页面流式会话事项的事项定位标签增添到待识别集合中,通过待识别集合中该活动参与方的目标页面流式会话事项的事项定位标签,可以确定出目标页面流式会话事项,通过历史平台用户活动信息该活动参与方所对应的各历史目标页面流式会话事项的前序动态定位标签,可以确定出各历史目标页面流式会话事项,从而将目标页面流式会话事项和各历史目标页面流式会话事项连接,可以得到活动参与方的会话事项状态数据。
比如,当前的平台用户活动信息为第五组平台用户活动信息,该平台用户活动信息中包括有注册用户registered userA这一活动参与方,待识别集合中存有注册用户registered userA的第一组平台用户活动信息至第四组平台用户活动信息分别对应的前序动态定位标签。大数据分析服务器从第五组平台用户活动信息中捕捉到注册用户registered userA的目标页面流式会话事项,将注册用户registered userA的目标页面流式会话事项的事项定位标签增添到待识别集合中,则通过待识别集合中注册用户registered userA的第一组平台用户活动信息至第四组平台用户活动信息分别对应的前序动态定位标签(在先位置特征),可以确定出注册用户registered userA在第一组平台用户活动信息至第四组平台用户活动信息分别对应的会话事项,通过注册用户registereduserA在第五组平台用户活动信息的目标页面流式会话事项的事项定位标签,可以确定出注册用户registered userA在第五组平台用户活动信息中对应的会话事项,再将确定出的各会话事项相连接,可以得到注册用户registered userA的会话事项状态数据。
STEP706,根据平台用户活动信息中各活动参与方的会话事项状态数据的数目和事项推演趋势特征,确定平台用户活动信息的页面跳转描述字段。
其中,大数据分析服务器获得到各活动参与方的会话事项状态数据后,可以统计平台用户活动信息中会话事项状态数据的数目,以及确定出各活动参与方的事项推演趋势特征,即活动参与方的事项活动趋势分析结果。
对于每个平台用户活动信息,大数据分析服务器获得该平台用户活动信息识别出的每一个活动参与方的会话事项状态数据的数目和事项推演趋势特征,将每一个活动参与方的会话事项状态数据的数目和事项推演趋势特征作为待生成的页面跳转描述字段中的一个要素,从而生成该平台用户活动信息的页面跳转描述字段。
在本发明实施例中,大数据分析服务器对平台用户活动信息进行交互事件识别,得到平台用户活动信息中识别出的每一个活动参与方的目标页面流式会话事项;将平台用户活动信息中的目标页面流式会话事项的事项定位标签增添到待识别集合中,以使得待识别集合中历史平台用户活动信息所对应的历史目标页面流式会话事项,与当前的平台用户活动信息所对应的目标页面流式会话事项,形成各活动参与方的会话事项状态数据;根据平台用户活动信息中各活动参与方的会话事项状态数据的数目和事项推演趋势特征,确定平台用户活动信息的页面跳转描述字段,则平台用户活动信息的页面跳转描述字段中既包括有各活动参与方的会话事项状态数据的数目,也包括各活动参与方的活动趋势的事项推演趋势特征,可以更准确地表征平台用户活动信息中各活动参与方的信息量载荷联系,提高针对平台负载估测的精度。
在一些可能的设计思路下,对平台用户活动信息进行交互事件识别,得到平台用户活动信息中识别出的每一个活动参与方的目标页面流式会话事项,包括:对平台用户活动信息进行并行事项识别,得到平台用户活动信息中识别出的每一个活动参与方的第一页面流式会话事项;对平台用户活动信息进行单一事项识别,得到平台用户活动信息中识别出的每一个活动参与方的第二页面流式会话事项;采用会话事项判决网络从第一页面流式会话事项和第二页面流式会话事项中,确定平台用户活动信息中识别出的每一个活动参与方的目标页面流式会话事项。
并行事项识别指的是同时对至少两个事项进行捕捉。单一事项识别指的是对两个事项进行捕捉。大数据分析服务器对平台用户活动信息进行并行事项识别,捕捉速度更快,可以更快速获得到平台用户活动信息中各活动参与方的第一页面流式会话事项;而大数据分析服务器对平台用户活动信息进行单一事项识别,可以更准确地对每一个活动参与方进行捕捉,从而更准确获得到平台用户活动信息中各活动参与方的第二页面流式会话事项。
第一页面流式会话事项指的是对平台用户活动信息进行并行事项识别得到的活动参与方所对应的会话事项。第二页面流式会话事项指的是对平台用户活动信息进行单一事项识别得到的活动参与方所对应的会话事项。会话事项判决网络(可以理解为自适应的决策网络)是从第一页面流式会话事项和第二页面流式会话事项中自动确定出最优的目标页面流式会话事项的模型。
在一些可能的设计思路下,大数据分析服务器采用调优完成的会话事项判决网络从第一页面流式会话事项和第二页面流式会话事项中,确定平台用户活动信息中识别出的每一个活动参与方的目标页面流式会话事项。其中,大数据分析服务器采用AI技术对会话事项判决网络进行调优,则会话事项判决网络可以学习到挑选出最优结果的方式。
在本发明实施例中,大数据分析服务器对平台用户活动信息进行并行事项识别,可以更快速得到平台用户活动信息中识别出的每一个活动参与方的第一页面流式会话事项;对平台用户活动信息进行单一事项识别,可以更准确得到平台用户活动信息中识别出的每一个活动参与方的第二页面流式会话事项;而采用会话事项判决网络,可以兼顾并行事项识别的时效性和单一事项识别的精度,从捕捉时效性更高的第一页面流式会话事项和精度更高的第二页面流式会话事项中,选择出最优的目标页面流式会话事项,保障全局层面的平台负载估测精度。
在一些可能的设计思路下,对平台用户活动信息进行并行事项识别,得到平台用户活动信息中识别出的每一个活动参与方的第一页面流式会话事项,包括:从平台用户活动信息挖掘出用户活动向量关系网;用户活动向量关系网包括有至少两级规模递增的用户活动向量;对于用户活动向量关系网中除规模最大的用户活动向量之外的每一级用户活动向量,进行特征衍生(上采样处理),得到对应的特征衍生向量,并通过跨接将特征衍生向量与相应级所对应的上一规模的用户活动向量进行联动处理,得到平台用户活动信息中识别出的每一个活动参与方的第一动态定位标签;基于第一动态定位标签确定每一个活动参与方的第一页面流式会话事项。
用户活动向量关系网包括有至少两级规模递增的用户活动向量。比如,用户活动向量关系网包括有3级规模递增的用户活动向量,规模分别为N1、N2和N3,N1、N2和N3递减。
第一动态定位标签是并行事项识别过程中,识别出的活动参与方所处位置的特征。待识别集合是用于存入活动参与方所识别出的动态定位标签的队列。
大数据分析服务器采用深度特征联动处理网络从平台用户活动信息中挖掘出用户活动向量关系网。例如,用户活动向量关系网包括有3级规模递增的用户活动向量,规模分别为N1、N2和N3,对于用户活动向量关系网中除规模最大的用户活动向量之外的每一级用户活动向量,即对规模为N2和N3的特征分别进行特征衍生,得到对应的特征衍生向量,并通过跨接将特征衍生向量与相应级所对应的上一规模的用户活动向量进行联动处理,得到平台用户活动信息中识别出的每一个活动参与方的第一动态定位标签。
在本发明实施例中,大数据分析服务器从平台用户活动信息挖掘出用户活动向量关系网;对于用户活动向量关系网中除规模最大的用户活动向量之外的每一级用户活动向量,进行特征衍生,得到对应的特征衍生向量,并通过跨接将特征衍生向量与相应级所对应的上一规模的用户活动向量进行联动处理,得到平台用户活动信息中识别出的每一个活动参与方的第一动态定位标签,低阶特征和低阶特征之间具有更多的跨接(特征跳跃连接),可以挖掘出更准确的第一动态定位标签,从而得到更准确的活动参与方的第一页面流式会话事项。
在一些可能的设计思路下,对平台用户活动信息进行单一事项识别,得到平台用户活动信息中识别出的每一个活动参与方的第二页面流式会话事项,包括:获得基于平台用户活动信息进行用户行为解析而得到的用户行为文本数据;对平台用户活动信息和用户行为文本数据分别进行滑动平均操作,挖掘出平台用户活动信息中各活动参与方的第一页面互动元素和用户行为文本数据中各活动参与方的第二页面互动元素;采用显著性策略对各第一页面互动元素和各第二页面互动元素分别进行处理,得到完成显著性优化的第一页面互动元素和完成显著性优化的第二页面互动元素;将完成显著性优化的第一页面互动元素和完成显著性优化的第二页面互动元素进行共性分析,得到完成显著性优化的第一页面互动元素和完成显著性优化的第二页面互动元素之间的共性支撑向量;根据各共性支撑向量,得到平台用户活动信息中识别出的每一个活动参与方的第二页面流式会话事项。
用户行为文本数据是对平台用户活动信息进行用户行为解析得到的平台用户活动信息。第一页面互动元素平台用户活动信息所包含的特征。第二页面互动元素是用户行为文本数据所包含的特征。共性支撑向量是完成显著性优化的第一页面互动元素和完成显著性优化的第二页面互动元素之间存在共性(相似度)的特征。
在一些设计思路下,大数据分析服务器可以获得预先收集得到的用户行为文本数据。在另一设计思路下,大数据分析服务器可以实时对平台用户活动信息进行用户行为解析,得到用户行为文本数据。
大数据分析服务器采用CNN分别对平台用户活动信息和用户行为文本数据分别进行滑动平均操作,挖掘出平台用户活动信息中各活动参与方的第一页面互动元素和用户行为文本数据中各活动参与方的第二页面互动元素。其中,CNN可以预先进行调优。
大数据分析服务器将完成显著性优化的第一页面互动元素和完成显著性优化的第二页面互动元素进行共性分析,可以挖掘出完成显著性优化的第一页面互动元素和完成显著性优化的第二页面互动元素之间的相似性,从而挖掘出存在相似性的共性支撑向量。
大数据分析服务器采用显著性策略对各第一页面互动元素和各第二页面互动元素分别进行处理,得到完成显著性优化的第一页面互动元素和完成显著性优化的第二页面互动元素,包括:对各第一页面互动元素分别进行信息承载特征强化,得到各第一页面互动元素在信息承载层面上的信息承载系数;将各信息承载系数分别加权到相应的第一页面互动元素中,得到各第一页面信息承载元素;对各第一页面互动元素分别进行交互场景特征强化,得到各第一页面互动元素在交互场景上的交互场景系数;将各交互场景系数分别加权到相应的第一页面互动元素中,得到各第一页面场景交互元素;组合相应的第一页面信息承载元素、第一页面场景交互元素和第一页面互动元素,得到完成显著性优化的各第一页面互动元素;
对各第二页面互动元素分别进行信息承载特征强化,得到各第二页面互动元素在信息承载层面上的信息承载系数;将各信息承载系数分别加权到相应的第二页面互动元素中,得到各第二页面信息承载元素;对各第二页面互动元素分别进行交互场景特征强化,得到各第二页面互动元素在交互场景上的交互场景系数;将各交互场景系数分别加权到相应的第二页面互动元素中,得到各第二页面场景交互元素;组合相应的第二页面信息承载元素、第二页面场景交互元素和第二页面互动元素,得到完成显著性优化的各第二页面互动元素。
其中,第一页面信息承载元素是信息承载系数加权到相应的第一页面互动元素得到的页面互动元素。第一页面场景交互元素是交互场景系数加权到相应的第一页面互动元素得到的页面互动元素。第二页面信息承载元素是信息承载系数加权到相应的第二页面互动元素得到的页面互动元素。第二页面场景交互元素是交互场景系数加权到相应的第二页面互动元素得到的页面互动元素。
在本发明实施例中,大数据分析服务器基于行为数据检测得到的用户行为文本数据,可以从用户行为文本数据中挖掘出第二页面互动元素,可以将平台用户活动信息的第一页面互动元素和用户行为文本数据的第二页面互动元素进行共性分析,从而更准确地得到平台用户活动信息中识别出的每一个活动参与方的第二页面流式会话事项。进一步地,大数据分析服务器还采用显著性策略对各第一页面互动元素和各第二页面互动元素分别进行处理,可以得到完成显著性优化的第一页面互动元素和完成显著性优化的第二页面互动元素,从而可以有针对性地对完成显著性优化的第一页面互动元素和完成显著性优化的第二页面互动元素进行共性分析,保障了针对用户活动分析和捕捉的精度。
在一些可能的设计思路下,根据各共性支撑向量,得到平台用户活动信息中识别出的每一个活动参与方的第二页面流式会话事项,包括:对每个共性支撑向量分别进行分团操作,得到分团信任度集;对每个共性支撑向量分别进行定位预测,得到定位预测信息;基于分团信任度集和定位预测信息,确定每个活动参与方的第二动态定位标签;基于第二动态定位标签确定每一个活动参与方的第二页面流式会话事项。分团信任度集指的是对各共性支撑向量进行分团操作的分团可信指数的集合。共性支撑向量的分团可信指数越高,则大数据分析服务器对该共性支撑向量进行分团操作的置信度越高。
定位预测信息是多个预测评分的集合,预测评分是对共性支撑向量进行定位预测得到的数值。预测评分用于表征共性支撑向量相应的在用户行为文本数据中活动参与方的动态定位检测标签的准确度。预测评分越高,用户行为文本数据中活动参与方的动态定位检测标签越准确。
在一些设计思路下,从分团信任度集获得大于预设分团可信指数限值的分团可信指数时,大数据分析服务器确定该分团可信指数对应的用户行为文本数据中活动参与方的动态定位检测标签,获得该动态定位检测标签所对应的预测评分,当预测评分大于设定回归限值时,将该动态定位检测标签作为活动参与方的第二动态定位标签,可以确定出该活动参与方的第二页面流式会话事项。在另一设计思路下,大数据分析服务器可以将最高的预测评分所对应的动态定位检测标签作为活动参与方的第二动态定位标签,可以确定出该活动参与方的第二页面流式会话事项。在另一设计思路下,大数据分析服务器可以分别获得分团信任度集和预测评分的加权系数,将分团信任度集中各分团可信指数和预测评分分别乘以对应的加权系数,得到对动态定位检测标签的目标预测得分,将高于预设预测得分的目标预测得分所对应的动态定位检测标签作为活动参与方的第二动态定位标签,可以确定出该活动参与方的第二页面流式会话事项。
在本发明实施例中,大数据分析服务器对每个共性支撑向量分别进行分团操作,得到分团信任度集;对每个共性支撑向量分别进行定位预测,得到定位预测信息;基于分团信任度集和定位预测信息确定活动参与方的第二动态定位标签;基于第二动态定位标签可以准确地确定出每一个活动参与方的第二页面流式会话事项。
在一些可能的设计思路下,会话事项判决网络的调优步骤包括:获得多个平台用户活动信息样例,对每个平台用户活动信息样例进行并行事项识别得到第一会话事项样例;对每个平台用户活动信息样例进行单一事项识别得到第二会话事项样例;在当前次调优过程中,对于当前次的每张平台用户活动信息样例,皆通过待调优的会话事项判决网络从第一会话事项样例和第二会话事项样例中选择目标会话事项样例,并确定目标会话事项样例和平台用户活动信息样例的正确会话事项样例之间的信息交叉系数(信息重叠率);对当前次的全部平台用户活动信息样例的信息交叉系数进行求和,得到当前次的全局信息交叉系数;通过使得全局信息交叉系数最大化以改进待调优的会话事项判决网络,并返回进行下一次的调优过程,直至符合设定结束要求时停止调优,得到调优完成的会话事项判决网络。
平台用户活动信息样例是用于调优会话事项判决网络的平台用户活动信息。第一会话事项样例是对平台用户活动信息样例进行并行事项识别得到的会话事项。第二会话事项样例是对平台用户活动信息样例进行单一事项识别得到的会话事项。目标会话事项样例是从第一会话事项样例和第二会话事项样例中选择的会话事项。正确会话事项样例是平台用户活动信息样例中正确的会话事项。正确会话事项样例的准确度较高;正确会话事项样例可以理解为真实的会话事项样例。进一步地,全局信息交叉系数越高,表示该会话事项判决网络越能准确地选择出更优的会话事项。设定结束要求可以根据需要进行设置。比如,设定结束要求可以是对会话事项判决网络的调优次达到预设数目,也可以是全局信息交叉系数达到预设全局信息交叉系数等,在此不做限定。
在本发明实施例中,大数据分析服务器采用平台用户活动信息样例对会话事项判决网络进行调优,计算出会话事项判决网络每一次的全局信息交叉系数,从而通过使得全局信息交叉系数最大化以改进待调优的会话事项判决网络,可以得到更准确的会话事项判决网络,则调优得到的会话事项判决网络可以在使用时,更准确地确定出平台用户活动信息中识别出的每一个活动参与方的目标页面流式会话事项。
例如,针对各互联网平台会话数据流所包含的多个在先交互阶段的平台用户活动信息,大数据分析服务器对平台用户活动信息进行特征提取,获得平台用户活动信息的页面互动元素;对平台用户活动信息进行用户行为解析,获得每种平台用户的统计分布向量;对平台用户活动信息进行交互事件识别,获得平台用户活动信息的页面跳转描述字段。其中,对平台用户活动信息进行交互事件识别,获得平台用户活动信息的页面跳转描述字段,具体包括:对平台用户活动信息进行并行事项识别,得到平台用户活动信息中识别出的每一个活动参与方的第一页面流式会话事项;对平台用户活动信息进行单一事项识别,得到平台用户活动信息中识别出的每一个活动参与方的第二页面流式会话事项;采用会话事项判决网络从第一页面流式会话事项和第二页面流式会话事项中,确定平台用户活动信息中识别出的每一个活动参与方的目标页面流式会话事项;将平台用户活动信息中的目标页面流式会话事项的事项定位标签增添到待识别集合中,以使得待识别集合中历史平台用户活动信息所对应的历史目标页面流式会话事项,与当前的平台用户活动信息所对应的目标页面流式会话事项,形成各活动参与方的会话事项状态数据;根据平台用户活动信息中各活动参与方的会话事项状态数据的数目和事项推演趋势特征,确定平台用户活动信息的页面跳转描述字段。
对于每个平台用户活动信息,大数据分析服务器分别将相应平台用户活动信息所对应的统计分布向量、页面跳转描述字段和用户活动行为文本描述进行特征联动处理,得到与相应平台用户活动信息对应的平台负载决策特征;基于不少于一个会话数据采集节点在相同在先交互阶段的平台用户活动信息所对应的平台负载决策特征,生成相应在先交互阶段的平台负载运行报告;采用信息承载显著性策略对平台负载运行报告进行处理,得到经过信息承载角度优化的平台负载运行报告;根据各个在先交互阶段分别对应的经过信息承载角度优化的平台负载运行报告,确定不少于一个会话数据采集节点的平台负载估测结果。
在一些可能的设计思路下,根据各个在先交互阶段分别对应的平台负载运行报告,确定不少于一个会话数据采集节点的平台负载估测结果,包括:将各个在先交互阶段分别对应的平台负载运行报告进行组合,得到组合平台负载运行报告;对组合平台负载运行报告分别进行场景负载挖掘和流式负载挖掘,挖掘出联动负载描述向量;将联动负载描述向量输入负载估测单元,通过负载估测单元输出不少于一个会话数据采集节点的平台负载估测结果。
组合平台负载运行报告是各个在先交互阶段分别对应的平台负载运行报告进行组合得到的平台负载趋势分析图。联动负载描述向量是包括有时序层面和交互场景的特征。场景负载挖掘是基于会话场景进行数据处理负载的确定,是基于场景层面的滑动平均处理。流式负载挖掘是时序层面上的滑动平均处理。
大数据分析服务器对组合平台负载运行报告进行场景负载挖掘,可以挖掘出组合平台负载运行报告在交互场景上的特征;对组合平台负载运行报告进行流式负载挖掘,可以挖掘出组合平台负载运行报告在时序层面上的特征,再将挖掘出的交互场景上的特征和时序层面上的特征进行联动处理,得到联动负载描述向量。
负载估测单元中的每个估测执行单位与其前一层的全部估测执行单位进行连接,负载估测单元可以整合卷积单元或者下采样单元中具有类型区分的部分数据。大数据分析服务器将联动负载描述向量输入负载估测单元,可以确定不少于一个会话数据采集节点的平台负载估测结果。
进一步地,得到组合平台负载运行报告之后,还包括:大数据分析服务器对组合平台负载运行报告进行信息承载特征强化,得到经过信息承载角度优化的组合平台负载运行报告;对组合平台负载运行报告分别进行场景负载挖掘和流式负载挖掘,挖掘出联动负载描述向量,包括:对经过信息承载角度优化的组合平台负载运行报告分别进行场景负载挖掘和流式负载挖掘,挖掘出联动负载描述向量。
大数据分析服务器采用信息承载显著性策略对组合平台负载运行报告进行信息承载特征强化,可以保障负载特征的表征丰富程度。
在本发明实施例中,大数据分析服务器将各个在先交互阶段分别对应的平台负载运行报告进行组合,得到组合平台负载运行报告,则组合平台负载运行报告既包括有各个会话数据采集节点在交互场景下的信息,也包括有时序层面下的信息,故可以对组合平台负载运行报告分别进行场景负载挖掘和流式负载挖掘,可以捕获各会话数据采集节点的数据传输负载之间的关联度与匹配度,再将联动负载描述向量输入负载估测单元,可以准确地输出不少于一个会话数据采集节点的平台负载估测结果。
在一些可能的设计思路下,将各个在先交互阶段分别对应的平台负载运行报告进行组合,得到组合平台负载运行报告,包括:获得至少两个平台运行时段;对于每个平台运行时段,将平台运行时段内的各个在先交互阶段分别对应的平台负载运行报告进行组合,得到平台运行时段平台负载运行报告;将各个平台运行时段分别对应的平台运行时段平台负载运行报告进行组合,得到组合平台负载运行报告。
平台运行时段平台负载运行报告指的是平台运行时段内的各个在先交互阶段分别对应的平台负载运行报告进行组合得到的平台负载运行报告。其中,平台运行时段(运行周期)可以根据需要进行设置。比如,平台运行时段可以是1h、1day或则1week等。
对于每个平台运行时段,大数据分析服务器将平台运行时段内的各个在先交互阶段分别对应的平台负载运行报告进行组合,可以得到各个平台运行时段分别对应的平台运行时段平台负载运行报告,再将各个平台运行时段分别对应的平台运行时段平台负载运行报告进行组合,可以得到组合数据传输负载,则该组合平台负载运行报告包括了各个平台运行时段之间的联系性,从该组合平台负载运行报告挖掘出的联动负载描述向量包括有各个平台运行时段之间联系性,可以更准确地确定不少于一个会话数据采集节点的平台负载估测结果。
在一些可能的设计思路下,提供了一种基于互联网平台系统优化的大数据分析方法,应用于大数据分析服务器中,包括以下步骤。
步骤一:获得在不少于一个会话数据采集节点分别统计的互联网平台会话数据流。
步骤二:针对各互联网平台会话数据流所包含的多个在先交互阶段的平台用户活动信息,从平台用户活动信息挖掘出用户活动向量关系网。
步骤三:对用户活动向量关系网中的各级用户活动向量分别进行信息承载特征强化,得到对应的信息承载向量关系网;对用户活动向量关系网中的各级用户活动向量分别进行交互场景特征强化,得到对应的交互场景向量关系网;组合用户活动向量关系网、信息承载向量关系网和交互场景向量关系网,得到目标用户活动向量关系网。
步骤四:将目标用户活动向量关系网进行滑动平均处理,生成平台用户活动信息中包括的每一个活动参与方所对应的待处理捕捉窗口。
步骤五:对于每个待处理捕捉窗口,识别出待处理捕捉窗口捕捉到的活动参与方所属平台用户的类型,并确定对应的类型可信指数;挑选出类型可信指数高于可信指数限值的待处理捕捉窗口作为目标捕捉窗口;汇总各目标捕捉窗口捕捉到的活动参与方所属平台用户的类型,并基于属于同一平台用户的活动参与方所对应的目标捕捉窗口,确定平台用户活动信息中包括的每种平台用户的统计分布向量。
步骤六:针对各互联网平台会话数据流所包含的多个在先交互阶段的平台用户活动信息,从平台用户活动信息挖掘出用户活动向量关系网;用户活动向量关系网包括有至少两级规模递增的用户活动向量;对于用户活动向量关系网中除规模最大的用户活动向量之外的每一级用户活动向量,进行特征衍生,得到对应的特征衍生向量,并通过跨接将特征衍生向量与相应级所对应的上一规模的用户活动向量进行联动处理,得到平台用户活动信息中识别出的每一个活动参与方的第一动态定位标签;基于第一动态定位标签确定每一个活动参与方的第一页面流式会话事项。
步骤七:针对各互联网平台会话数据流所包含的多个在先交互阶段的平台用户活动信息,获得基于平台用户活动信息进行用户行为解析而得到的用户行为文本数据;对平台用户活动信息和用户行为文本数据分别进行滑动平均操作,挖掘出平台用户活动信息中各活动参与方的第一页面互动元素和用户行为文本数据中各活动参与方的第二页面互动元素;采用显著性策略对各第一页面互动元素和各第二页面互动元素分别进行处理,得到完成显著性优化的第一页面互动元素和完成显著性优化的第二页面互动元素;将完成显著性优化的第一页面互动元素和完成显著性优化的第二页面互动元素进行共性分析,得到完成显著性优化的第一页面互动元素和完成显著性优化的第二页面互动元素之间的共性支撑向量;对每个共性支撑向量分别进行分团操作,得到分团信任度集;对每个共性支撑向量分别进行定位预测,得到预测评分,以及基于分团信任度集和预测评分,确定每个活动参与方的第二动态定位标签;基于第二动态定位标签确定每一个活动参与方的第二页面流式会话事项。
步骤八:采用会话事项判决网络从第一页面流式会话事项和第二页面流式会话事项中,确定平台用户活动信息中识别出的每一个活动参与方的目标页面流式会话事项。其中,会话事项判决网络的调优步骤包括:获得多个平台用户活动信息样例,对每个平台用户活动信息样例进行并行事项识别得到第一会话事项样例;对每个平台用户活动信息样例进行单一事项识别得到第二会话事项样例;在当前次调优过程中,对于当前次的每张平台用户活动信息样例,皆通过待调优的会话事项判决网络从所述第一会话事项样例和所述第二会话事项样例中选择目标会话事项样例,并确定所述目标会话事项样例和所述平台用户活动信息样例的正确会话事项样例之间的信息交叉系数;对所述当前次的全部平台用户活动信息样例的信息交叉系数进行求和,得到当前次的全局信息交叉系数;通过使得所述全局信息交叉系数最大化以改进所述待调优的会话事项判决网络,并返回进行下一次的调优过程,直至符合设定结束要求时停止调优,得到调优完成的会话事项判决网络。
步骤九:将平台用户活动信息中的目标页面流式会话事项的事项定位标签增添到待识别集合中,以使得待识别集合中历史平台用户活动信息所对应的历史目标页面流式会话事项,与当前的平台用户活动信息所对应的目标页面流式会话事项,形成各活动参与方的会话事项状态数据;根据平台用户活动信息中各活动参与方的会话事项状态数据的数目和事项推演趋势特征,确定平台用户活动信息的页面跳转描述字段。
步骤十:针对各互联网平台会话数据流所包含的多个在先交互阶段的平台用户活动信息,从平台用户活动信息中挖掘出用户活动行为文本描述。
步骤十一:对于每个平台用户活动信息,分别将相应平台用户活动信息所对应的统计分布向量、页面跳转描述字段和用户活动行为文本描述进行联动处理,得到与相应平台用户活动信息对应的平台负载决策特征。
步骤十二:基于不少于一个会话数据采集节点在相同在先交互阶段的平台用户活动信息所对应的平台负载决策特征,生成相应在先交互阶段的平台负载运行报告。
步骤十三:获得至少两个平台运行时段;对于每个平台运行时段,将平台运行时段内的各个在先交互阶段分别对应的平台负载运行报告进行组合,得到平台运行时段平台负载运行报告;将各个平台运行时段分别对应的平台运行时段平台负载运行报告进行组合,得到组合平台负载运行报告。
步骤十四:对组合平台负载运行报告分别进行场景负载挖掘和流式负载挖掘,挖掘出联动负载描述向量;将联动负载描述向量输入负载估测单元,通过负载估测单元输出不少于一个会话数据采集节点的平台负载估测结果。
在本发明实施例中,获得在不少于一个会话数据采集节点分别统计的互联网平台会话数据流;针对各互联网平台会话数据流所包含的多个在先交互阶段的平台用户活动信息,准确地挖掘出平台用户活动信息中包括的每种平台用户的统计分布向量、平台用户活动信息的页面跳转描述字段和用户活动行为文本描述;对于每个平台用户活动信息,分别将相应平台用户活动信息所对应的统计分布向量、页面跳转描述字段和用户活动行为文本描述进行联动处理,得到与相应平台用户活动信息对应的平台负载决策特征;基于不少于一个会话数据采集节点在相同在先交互阶段的平台用户活动信息所对应的平台负载决策特征,生成相应在先交互阶段的平台负载运行报告;可知,该平台负载运行报告既包含有各个会话数据采集节点在交互场景层面下的数据,还包含在时序层面下的数据;基于此,根据各个在先交互阶段分别对应的平台负载运行报告,可以获得到各在先交互阶段的综合数据负载特征在场景层面和时序层面下的关联性,以精准合理地确定不少于一个会话数据采集节点的平台负载估测结果。
示例性地,该基于互联网平台系统优化的大数据分析方法在示例性的应用场景的应用如下:大数据分析服务器获得各个会话数据采集节点所配置的数据爬虫/网页蜘蛛分别统计的互联网平台会话数据流,对可以充分挖掘出各个会话数据采集节点所统计的多个在先交互阶段的平台用户活动信息的特征,以及各特征在时序层面上和交互场景上的联系和匹配性,从而可以准确地确定出不少于一个会话数据采集节点的平台负载估测结果。
示例性地,该基于互联网平台系统优化的大数据分析方法在其他应用场景的应用如下:大数据分析服务器获得各个会话数据采集节点分别统计的、并且处于历史平台运行时段内的互联网平台会话数据流,可以充分挖掘出各个会话数据采集节点处于历史平台运行时段内各平台用户活动信息的特征,以及各特征在时序层面上和交互场景上的联系和匹配性,从而可以准确地确定出不少于一个会话数据采集节点在与历史平台运行时段相对应的未来平台运行时段内的平台负载估测结果。
比如,大数据分析服务器获得各个会话数据采集节点分别统计的、并且处于前一天的互联网平台会话数据流,则可以准确地确定出不少于一个会话数据采集节点在后一天的平台负载估测结果。又如,大数据分析服务器获得各个会话数据采集节点分别统计的、并且处于上一个周日的互联网平台会话数据流,则可以准确地确定出不少于一个会话数据采集节点在下一个周日的平台负载估测结果。
在本发明实施例中,平台负载可以包括互联网平台系统在处理线上业务时的资源/内存分配等,如果平台负载估测结果表征互联网平台系统过载,可能导致资源/内存分配出现不均衡,从而影响相关线上业务的正常办理,通过上述技术方案,能够准确、合理地确定出之后的平台负载估测结果,从而基于平台负载估测结果进行数据采集策略的优化,避免数据采集处理占用过多的互联网平台系统资源。基于此,在一些可独立的设计思路下,在根据各个在先交互阶段分别对应的平台负载运行报告,确定所述不少于一个会话数据采集节点的平台负载估测结果之后,该方法还可以包括如下内容:响应于所述目标会话数据采集节点的平台负载估测结果为过载标签,基于互联网平台系统的业务处理任务进行数据采集优化。
在一些可独立的设计思路下,基于互联网平台系统的业务处理任务进行数据采集优化,可以包括如下内容:获取针对所述互联网平台系统的业务处理任务集合,所述业务处理任务集合包括至少两组业务处理任务;获得所述业务处理任务集合中的各组业务处理任务与所述互联网平台系统之间的业务匹配度;根据所述各组业务处理任务对应的业务匹配度,以及所述各组业务处理任务的需求热度描述,对所述各组业务处理任务进行整理,得到相应的业务处理任务队列;基于所述业务处理任务队列生成针对所述互联网平台系统的目标负载优先级队列,所述目标负载优先级队列包括至少两个目标负载优先级;从所述目标负载优先级队列中确定所述平台负载估测结果对应的数据采集任务的第一负载优先级,基于负载优先级位于所述第一负载优先级之前的至少一个目标业务处理任务进行数据采集优化。
其中,基于负载优先级位于所述第一负载优先级之前的至少一个目标业务处理任务进行数据采集优化可以理解为:根据目标业务处理任务的负载需求对数据采集任务的任务执行模式进行调整,比如减少数据采集任务在执行时的资源占用等。
如此设计,能够基于业务匹配度和需求热度描述进行多个业务处理任务的负载优先级排序,并基于负载优先级进行针对性的数据采集优化,从而减少系统过载问题。
在一些可独立的设计思路下,所述根据所述各组业务处理任务对应的业务匹配度,以及所述各组业务处理任务的需求热度描述,对所述各组业务处理任务进行整理,得到相应的业务处理任务队列,具体包括:根据所述各组业务处理任务对应的业务匹配度,以及所述各组业务处理任务的需求热度描述,对所述各组业务处理任务进行拆解,得到至少两个业务处理任务子集;对各个业务处理任务子集进行整理,并分别对所述各个业务处理任务子集中的各组业务处理任务进行整理,得到所述业务处理任务队列。
针对由于数据采集而导致的系统过载的问题,传统技术难以对其进行有效地改进,归根结底是难以精准实现相关平台系统在数据采集过程中的负载预测处理,基于此,本发明实施例获得在不少于一个会话数据采集节点分别统计的互联网平台会话数据流;针对各互联网平台会话数据流所包含的多个在先交互阶段的平台用户活动信息,确定平台用户活动信息包括的每种平台用户的统计分布向量、平台用户活动信息的页面跳转描述字段和用户活动行为文本描述;对于每个平台用户活动信息,分别将相应平台用户活动信息所对应的统计分布向量、页面跳转描述字段和用户活动行为文本描述进行联动处理,得到与相应平台用户活动信息对应的平台负载决策特征;基于不少于一个会话数据采集节点在相同在先交互阶段的平台用户活动信息所对应的平台负载决策特征,生成相应在先交互阶段的平台负载运行报告;可知,该平台负载运行报告既包含有各个会话数据采集节点在交互场景层面下的数据,还包含在时序层面下的数据;基于此,根据各个在先交互阶段分别对应的平台负载运行报告,可以获得到各在先交互阶段的综合数据负载特征在场景层面和时序层面下的关联性,以精准合理地确定不少于一个会话数据采集节点的平台负载估测结果,这样可以基于平台负载估测结果进行针对性的数据采集策略更新,尽可能避免互联网平台系统在数据采集过程中出现过载问题
以上所述,仅为本发明的具体实施方式。熟悉本技术领域的技术人员根据本发明提供的具体实施方式,可想到变化或替换,都应涵盖在本发明的保护范围之内。