CN115687732A - 基于ai和流式计算的用户分析方法及系统 - Google Patents
基于ai和流式计算的用户分析方法及系统 Download PDFInfo
- Publication number
- CN115687732A CN115687732A CN202211516603.8A CN202211516603A CN115687732A CN 115687732 A CN115687732 A CN 115687732A CN 202211516603 A CN202211516603 A CN 202211516603A CN 115687732 A CN115687732 A CN 115687732A
- Authority
- CN
- China
- Prior art keywords
- debugging
- template
- target event
- streaming data
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
本申请实施例提供的基于AI和流式计算的用户分析方法及系统,依据目标事件识别网络对流式数据事件集进行按组识别,在识别出包含目标事件数据的目标流式数据组的同时,还确定目标事件数据的事件分布,使得目标事件数据的识别过程更加精准。此外,获得目标流式数据组后,依据流式数据组的时序和目标事件数据事件分布的匹配性对目标流式数据组进行划分,生成在采集时间上紧邻的目标流式数据序列,基于此得到的目标流式数据序列在拟分析流式数据事件集中的时序分布情况能够体现目标事件数据在拟分析流式数据事件集的时序分布情况,获得流式数据事件集中目标事件数据的时序分布情况以及目标事件数据的事件分布,使得目标事件识别的准确性得到提高。
Description
技术领域
本申请涉及数据处理领域,具体而言,涉及一种基于AI和流式计算的用户分析方法及系统。
背景技术
在金融银行领域,大量用户的金融行为使得系统内部每时每刻都产生大量的数据,同时包括系统与外部业务系统交互产生的数据,对这些用户的金融数据进行实时分析,挖掘其中蕴含的特征信息,识别出目标事件,可以帮助运营平台进行决策,如用户异常识别、针对用户进行金融产品推送等。出于金融领域数据变化快的特性,对其数据处理的实时性具备较高的要求,通常采取流式计算进行处理,传统的流式数据处理方式中,因为数据综合展现能力较弱,对目标事件的识别准确性和定位能力较差,造成用户分析不准确。基于此,如何准确识别目标事件并精确定位是亟待解决的技术问题。
发明内容
本发明的目的在于提供一种基于AI和流式计算的用户分析方法及系统,以改善上述的问题。
本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供了一种基于AI和流式计算的用户分析方法,应用于用户分析AI系统,所述方法包括:
接收目标用户对应的终端设备上传的所述目标用户的流式数据,依据所述流式数据的产生时序进行归集,得到拟分析流式数据事件集,其中,所述拟分析流式数据事件集中的数据时间跨度为预设的时间跨度;
获取所述拟分析流式数据事件集对应的流式数据组链;
依据调试完成的目标事件识别网络按序对所述流式数据组链中的每一流式数据组进行目标事件识别,获得所述流式数据组链中存在目标事件数据的目标流式数据组以及所述目标流式数据组中目标事件数据的事件分布;
针对所述拟分析流式数据事件集中在采集时间上紧邻的所述目标流式数据组,依据目标事件数据的事件分布的匹配性进行分桶,得到多个在采集时间上紧邻的目标流式数据序列;
输出所述多个在采集时间上紧邻的目标流式数据序列分别在所述拟分析流式数据事件集中的时序分布情况以及所述目标事件数据的事件分布。
可选地,所述获取拟分析流式数据事件集对应的流式数据组链,包括:
获取拟分析流式数据事件集,将所述拟分析流式数据事件集按所述拟分析流式数据事件集的流式数据组容量进行分离,得到多个流式数据分团;
在每一所述流式数据分团中依据预设的挖掘频率进行数据采样,得到预设数目的流式数据组;
依据在每一流式数据分团得到的预设数目的流式数据组,得到所述流式数据组链。
可选地,所述依据调试完成的目标事件识别网络按序对所述流式数据组链中的每一流式数据组进行目标事件识别,包括:
将所述流式数据组链中的多个所述流式数据组按序加载至所述调试完成的目标事件识别网络;
依据所述目标事件识别网络的表征向量挖掘模块,挖掘所述流式数据组对应的表征向量集合;
依据所述目标事件识别网络的事件分类模块,依据所述流式数据组的表征向量集合,获得所述表征向量集合中的每一表征向量的类型和概率变量;
所述获得所述流式数据组链中存在目标事件数据的目标流式数据组以及所述目标流式数据组中目标事件数据的事件分布,包括:
获取所述事件分类模块输出的所述表征向量集合中的每一表征向量的类型和概率变量;
依据所述表征向量集合的各个表征向量对应的数据区间为目标事件数据的概率变量,以及各个表征向量对应的预估临时窗口的预估事件分布,确定所述流式数据组的目标事件数据识别结果;其中,所述目标事件数据识别结果包括所述流式数据组中是否包括目标事件数据以及所述目标事件数据的事件分布;
依据所述流式数据组链中的每一流式数据组的目标事件数据识别结果,获得所述流式数据组链中存在目标事件数据的目标流式数据组以及所述目标流式数据组中目标事件数据的事件分布。
可选地,所述方法还包括:
获取用于调试目标事件识别网络的标记调试模板集合;
依据所述标记调试模板集合中的每一个标记调试模板的标记指示信息,确定所述标记调试模板中目标事件数据的字段覆盖范围;
对所述标记调试模板中目标事件数据的字段覆盖范围进行分桶,得到多个分桶质心;
将所述分桶质心表征的字段覆盖范围确定为调试所述目标事件识别网络的外部参变量,然后通过所述标记调试模板对所述目标事件识别网络进行依据有监督的调试。
可选地,用于调试所述目标事件识别网络的标记调试模板通过如下步骤获取得到:
获取多个流式数据事件调试集;
针对每个所述流式数据事件调试集,在所述流式数据事件调试集的第一个流式数据组开始搜寻,当搜寻到的流式数据组和相邻流式数据组相异时,将所述搜寻到的流式数据组添加到拟标记调试模板集合;当所述搜寻到的流式数据组和相邻流式数据组相似时,跳过所述搜寻到的流式数据组直到所述流式数据事件调试集的流式数据组全部完成搜寻;
依据所述多个流式数据事件调试集搜寻结束后得到的拟标记调试模板集合,确定用于调试目标事件识别网络的标记调试模板集合。
可选地,用于调试所述目标事件识别网络的标记调试模板通过如下步骤获取得到:
获取所述标记调试模板集合中指示没有目标事件数据的目标事件数据缺失调试模板;
依据事先设置的嵌入事件分布,对所述目标事件数据缺失调试模板进行目标事件数据模拟嵌入,得到模拟目标事件数据调试模板;
将所述嵌入事件分布确定为所述模拟目标事件数据调试模板的标记指示信息,然后将指示有目标事件数据的模拟目标事件数据调试模板加入所述标记调试模板集合;
其中,所述依据事先设置的嵌入事件分布,对所述目标事件数据缺失调试模板进行目标事件数据模拟嵌入,得到模拟目标事件数据调试模板,包括:依据事先设置的嵌入事件分布,依据目标事件交易类型、目标事件交易对象和目标事件交易链路中的一个或多个,对所述目标事件数据缺失调试模板进行目标事件数据模拟嵌入,得到模拟目标事件数据调试模板。
可选地,所述目标事件识别网络的调试过程包括:
通过目标事件识别网络对标记调试模板集合中的标记调试模板进行预估,得到所述标记调试模板的表征向量集合中的每一表征向量的预估信息;其中,所述表征向量的预估信息包括预估临时窗口的预估事件分布、所述预估临时窗口中是否包括目标事件数据的预估概率变量以及所述预估临时窗口是否为目标事件数据的预估概率变量;
依据所述表征向量集合的表征向量的预估信息以及所述标记调试模板的标记指示信息,得到所述标记调试模板的第一误差信息、第二误差信息和第三误差信息;
其中,所述第一误差信息用于指示预估临时窗口的事件分布和标注临时窗口的事件分布之间的误差;
所述第二误差信息用于指示表征向量对应的数据区间存在目标事件数据的预估概率变量和标注概率变量之间的误差,以及指示表征向量对应的数据区间不存在目标事件数据的预估概率变量和实际概率变量之间的误差;
第三误差信息用于指示表征向量对应的数据区间是否包括目标事件数据的预估概率变量和实际概率变量之间的误差;
依据所述标记调试模板集合中的标记调试模板的第一误差信息、第二误差信息和第三误差信息,对目标事件识别网络的网络参变量进行优化,从而对所述目标事件识别网络进行依据有监督的调试。
可选地,所述方法还包括:
获取无标记调试模板集合,对所述无标记调试模板集合中的无标记调试模板进行噪声注入,依据所述无标记调试模板和加噪得到的调试模板,得到无标记模板近似组;
将依据标记调试模板集合进行依据有监督的调试得到的目标事件识别网络确定为基础目标事件识别网络,通过所述基础目标事件识别网络对所述无标记模板近似组包括的调试模板分别进行预估,获取所述无标记模板近似组包括的调试模板各自对应的预估结果;
依据所述无标记模板近似组包括的调试模板各自对应的预估结果间的误差确定所述无标记模板近似组的共同性误差;
依据所述无标记模板近似组的共同性误差和标记调试模板的标记调试误差,确定半监督误差,通过所述半监督误差对所述基础目标事件识别网络的网络参变量进行优化,得到调试完成的目标事件识别网络;
其中,所述获取无标记调试模板集合,包括:
获取原始的无标记调试模板集合,依据所述基础目标事件识别网络,对所述原始的无标记调试模板集合中的每一无标记调试模板进行预估,依据预估结果确定所述无标记调试模板的半监督标记;
所述半监督标记包括第一半监督标记和第二半监督标记;
如果所述预估结果表征所述半监督标记为第一半监督标记的无标记调试模板的数量比所述半监督标记为第二半监督标记的无标记调试模板的数量多,则依据所述半监督标记为第二半监督标记的无标记调试模板的数量对半监督标记为第一半监督标记的无标记调试模板进行抽取,依据所述半监督标记为第二半监督标记的无标记调试模板与抽取获得的半监督标记为第一半监督标记的无标记调试模板,得到无标记调试模板集合。
可选地,所述依据所述无标记模板近似组的共同性误差和标记调试模板的标记调试误差确定半监督误差,包括:
依据所述基础目标事件识别网络对所述标记调试模板的预估结果,获取所述标记调试模板中是否包括目标事件数据的预估概率变量;
将所述是否包括目标事件数据的预估概率变量不大于预设概率变量的标记调试模板确定为目标调试模板;
依据所述无标记模板近似组的共同性误差和所述目标调试模板的标记调试误差确定半监督误差;
所述依据所述无标记模板近似组包括的调试模板各自对应的预估结果之间的误差确定所述无标记模板近似组的共同性误差,包括:对所述无标记模板近似组包括的调试模板各自对应的预估结果进行加强操作,依据加强操作的预估结果确定所述无标记模板近似组的共同性误差;
其中,所述对所述无标记模板近似组包括的调试模板各自对应的预估结果进行加强操作,包括:当所述无标记模板近似组包括的调试模板的预估结果中的预估概率变量大于预设概率变量时,维持所述无标记模板近似组以进行所述共同性误差的确定;当所述无标记模板近似组包括的调试模板的预估结果中的预估概率变量小于预设概率变量时,清洗掉所述无标记模板近似组。
第二方面,本申请实施例提供了一种用户分析AI系统,包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序在被所述处理器执行时,实现以上所述的方法。
本申请实施例提供的基于AI和流式计算的用户分析方法及系统,依据调试完成的目标事件识别网络对流式数据事件集进行按组识别,在识别出包含目标事件数据的目标流式数据组的同时,还确定目标流式数据组中目标事件数据的事件分布,使得目标事件数据的识别过程更加精准,此外,获得目标流式数据组后,依据流式数据组的时序和目标事件数据事件分布的匹配性对目标流式数据组进行划分,生成在采集时间上紧邻的目标流式数据序列,同一流式数据序列中目标事件数据的事件分布的匹配性大于预设值,基于此得到的目标流式数据序列在拟分析流式数据事件集中的时序分布情况能够体现目标事件数据在拟分析流式数据事件集的时序分布情况,目标流式数据序列中目标事件数据的事件分布能够体现目标事件数据在拟分析流式数据事件集中的事件分布,如此获得流式数据事件集中目标事件数据的时序分布情况以及目标事件数据的事件分布,使得目标事件识别的准确性得到提高。
此外,在目标事件识别网络的调试过程中,依据少量的标记调试模板对目标事件识别网络进行依据有监督的调试,依据有标记约束调试获取的基础目标事件识别网络对无标记调试模板集合进行预估,获得无标记调试模板和对应的加噪调试模板间的共同性误差,依据标记调试模板的标记调试误差和共同性误差,对基础目标事件识别网络进行联合调试,获得调试完成的目标事件识别网络,无需依赖大批量标记调试模板,缓解标记压力并且增加目标事件识别网络的识别性能。
在后面的描述中,将部分地陈述其他的特征。在检查后面内容和附图时,本领域的技术人员将部分地发现这些特征,或者可以通过生产或运用了解到这些特征。通过实践或使用后面所述详细示例中列出的方法、工具和组合的各个方面,当前申请中的特征可以被实现和获得。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。
图1是本申请实施例提供的基于AI和流式计算的用户分析方法的应用场景示意图。
图2是本申请实施例提供的一种基于AI和流式计算的用户分析方法的流程图。
图3是本申请实施例提供的用户分析装置的功能模块架构示意图。
图4是本申请实施例提供的一种用户分析AI系统的组成示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”、“作为一种实施方式/方案”、“在一种实施方式中”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”、“作为一种实施方式/方案”、“在一种实施方式中”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”等类似术语,仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
本申请实施例提供的基于AI和流式计算的用户分析方法可以由用户分析AI系统等电子设备执行,其中电子设备可以是笔记本电脑,平板电脑,台式计算机,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)等各种类型的终端,也可以实施为服务器。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
下面,将说明用户分析AI系统实施为服务器时的示例性应用,将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
图1是本申请实施例提供的基于AI和流式计算的用户分析方法的应用场景示意图。多个终端设备100和用户分析AI系统300之间通过网络200实现通信连接。用户分析AI系统300用于执行本申请实施例提供的方法。具体地,本申请实施例提供了一种基于AI和流式计算的用户分析方法,该方法应用于用户分析AI系统300,如图2所示,该方法包括:
步骤101:接收目标用户对应的终端设备上传的所述目标用户的流式数据,依据流式数据的产生时序进行归集,得到拟分析流式数据事件集。
本申请实施例中,拟分析流式数据事件集中的数据时间跨度为预设的时间跨度,例如预设的时间跨度为12h,则拟分析流式数据事件集中的数据时12h内连续的流式数据。由于流式数据是实时采集到的数据,那么在预设的时间跨度中,数据也是流动的,流动的速度例如为流式数据的采集周期,如此保证数据分析的实时性。本申请实施例中,流式数据的具体应用场景可以是金融领域,尤其是金融银行领域,其时时刻刻都产生大量数据,以在各个业务系统之间流转,通过对这些流式数据进行分析获取隐含特性,帮助完成数据对应的用户的分析,例如分析金融诈骗、证券交易诈骗等风险,帮助进行决策,其中,目标用户对应的终端设备可以是搭载金融app的客户端,如智能手机、平板电脑等,通过终端设备与其他金融业务设备进行数据的交互,产生目标用户的流式数据。
步骤102:获取拟分析流式数据事件集对应的流式数据组链。
拟分析流式数据事件集包括多个流式数据组,各个流式数据组对应的数据产生链路或时间不同,依据流式数据组对应的时序对流式数据组进行排布以获得流式数据组链。其中,流式数据组链可以是依据拟分析流式数据事件集包括的全部流式数据组构建的,或者依据拟分析流式数据事件集的部分流式数据组构建得到。
具体而言,作为一种实施方式,获取流式数据组链可以包括如下步骤:获取拟分析流式数据事件集,将拟分析流式数据事件集按拟分析流式数据事件集的流式数据组容量进行分离,得到多个流式数据分团;在每一流式数据分团中依据预设的挖掘频率进行数据采样,得到预设数目的流式数据组;依据在每一流式数据分团得到的预设数目的流式数据组,得到流式数据组链。其中,流式数据分团是依据拟分析流式数据事件集的流式数据组容量对拟分析流式数据事件集进行划分获得的数据簇,举例而言,拟分析流式数据事件集的流式数据组容量为x,拟分析流式数据事件集的数据组数为y,自第一个流式数据组开始,每x容量进行划分获得对应的流式数据分团。然后依据预设的挖掘频率和预设数目对单个流式数据分团进行抽取,得到预设数目的流式数据组,通过预设的挖掘频率对流式数据分团进行抽取,依据时间均分法则进行抽取,流式数据组链可以综合体现拟分析流式数据事件集,依据拟分析流式数据事件集的流式数据组容量对拟分析流式数据事件集进行划分得到流式数据分团,提升了流式数据组链的综合体现度。
步骤103:依据调试完成的目标事件识别网络按序对流式数据组链中的每一流式数据组进行目标事件识别,获得流式数据组链中存在目标事件数据的目标流式数据组以及目标流式数据组中目标事件数据的事件分布。
本申请实施例中,目标事件识别网络例如为依据深度学习网络架构建立,通过目标事件识别网络学习识别目标事件数据的特征信息,例如字段覆盖范围、交易类型、交易对象、交易链路等。基于此,目标事件识别网络对目标事件数据的变化可以拥有泛化识别性能,为了让目标事件识别网络能够学习以上特征信息,调试采取的调试模板包括的目标事件数据在字段覆盖范围、交易类型、交易对象、交易链路等不同的,丰富的信息。目标事件识别网络对流式数据组进行目标事件识别输出的识别结果包括流式数据组是否包括目标事件数据,以及对于存在目标事件数据的流式数据组、目标事件数据的事件分布(例如事件分布的数据位置、时间分布情况、链路分布情况),本申请中将流式数据组链中存在目标事件数据的流式数据组确定为目标流式数据组。本申请实施例中涉及的目标事件可以是分析需要关注的金融事件,例如异常识别中的事件,如程序交易,或者在营销管理分析中,目标事件为目标类型的消费记录(如信用卡支付)。本申请实施例对于目标事件的具体类型不做限定。
获得流式数据组链后,将流式数据组链的流式数据组逐一加载至目标事件识别网络,目标事件识别网络逐一对流式数据组进行目标事件识别,输出每个流式数据组对应的识别结果,识别存在目标事件数据的目标流式数据组和目标流式数据组中目标事件数据的事件分布。
步骤104:针对拟分析流式数据事件集中在采集时间上紧邻的目标流式数据组,依据目标事件数据的事件分布的匹配性进行分桶,得到多个在采集时间上紧邻的目标流式数据序列。
本申请实施中,任意的两个目标流式数据组之间是否为在采集时间上紧邻的目标流式数据组,可以依据两个目标流式数据组对应的事件时刻之间的时间差是否在预设的时间差之内进行识别,预设的时间差可以按照实际需要进行设定,本申请对此不做限定。作为一种实施方式,获取任意的两个目标流式数据组,在任意的两个目标流式数据组对应的事件时刻的时间差值不大于预设时间差时确定任意的两个目标流式数据组为在采集时间上紧邻的目标流式数据组。举例而言,依据目标事件识别网络确定每一目标流式数据组后,将目标流式数据组和对应的事件时刻进行保存,然后依据事件时刻的顺序对目标流式数据组排序,分析紧邻的两个目标流式数据组是否是在采集时间上紧邻的目标流式数据组(通过获取紧邻的两个目标流式数据组的事件时刻,在紧邻的两个目标流式数据组的事件时刻的时间差值不大于预设时间差时确定该两个目标流式数据组为在采集时间上紧邻的目标流式数据组),方便快捷。其中,目标事件数据的事件分布的匹配性,代表目标事件数据在两个流式数据组的事件分布的匹配性,匹配性越高,目标事件数据在这两个流式数据组的可以进行分桶(如均值聚类)的可能性越大。获得在采集时间上紧邻的目标流式数据组后,依据目标事件数据在各个目标流式数据组的事件分布的匹配性对目标流式数据组进行分桶,得到多个在采集时间上紧邻的目标流式数据序列,相同的目标流式数据序列中,紧邻的目标流式数据组是连续的,此外目标事件数据在目标流式数据序列中的多个目标流式数据组的事件分布匹配性高且事件分布相似度高。作为一种实施方式,目标事件数据的事件分布的匹配性可以通过向量距离(如杰卡德距离,当然还可以为余弦距离、欧式距离)进行评估,例如获取在采集时间上紧邻的目标流式数据组的目标事件数据的数据范围交并比,将数据范围交并比确定为在采集时间上紧邻的目标流式数据组中目标事件数据的事件分布的匹配性。
举例而言,在采集时间上紧邻的两个目标流式数据组包括A、B,则依据目标流式数据组A中目标事件数据的事件分布,目标流式数据组B中目标事件数据的事件分布,得到目标流式数据组A和目标流式数据组B中目标事件数据的数据范围交并比,将数据范围交并比确定为在采集时间上紧邻的目标流式数据组A和目标流式数据组B中目标事件数据的事件分布的匹配性。依据目标事件数据在目标流式数据组中的数据范围交并比以获取对应的匹配性,目标事件数据在目标流式数据组的分桶特性得到充分体现。
步骤105:输出多个在采集时间上紧邻的目标流式数据序列分别在拟分析流式数据事件集中的时序分布情况以及目标事件数据的事件分布。
因为流式数据事件集中的目标事件数据是变化的,目标事件数据在流式数据事件集中的存在时刻和存在数据区间可能产生改变,基于此,本申请在流式数据事件集的维度进行目标事件数据的整合,获得多个在采集时间上紧邻的目标流式数据序列。然后将各个在采集时间上紧邻的目标流式数据序列投影到时间维度,获得各个在采集时间上紧邻的目标流式数据序列在拟分析流式数据事件集中的时序分布情况,同时依据在采集时间上紧邻的目标流式数据序列中各目标流式数据组中目标事件数据的事件分布,获得在采集时间上紧邻的目标流式数据序列的目标事件数据的事件分布。
以上所述的基于AI和流式计算的用户分析方法,依据调试完成的目标事件识别网络对流式数据事件集进行依次识别,同时确定存在目标事件数据的目标流式数据组和目标流式数据组中目标事件数据的事件分布,目标事件数据识别得更加准确,此外,获得目标流式数据组后,依据流式数据组的连续性和目标事件数据事件分布的匹配性对目标流式数据组进行整理,得到在采集时间上紧邻的目标流式数据序列,相同的流式数据序列中目标事件数据的事件分布的匹配性大于预设值,基于此输出的目标流式数据序列在拟分析流式数据事件集中的时序分布情况能够体现目标事件数据在拟分析流式数据事件集的时序分布情况,目标流式数据序列中目标事件数据的事件分布能够体现目标事件数据在拟分析流式数据事件集中的事件分布,提高目标事件识别的准确性。
作为一种实施方式,在依据目标事件识别网络对流式数据组进行目标事件识别时,将流式数据组链中的多个流式数据组按序加载至调试完成的目标事件识别网络;依据目标事件识别网络的表征向量挖掘模块,挖掘流式数据组对应的表征向量集合;依据目标事件识别网络的事件分类模块,依据流式数据组的表征向量集合,获得表征向量集合中的每一表征向量的类型和概率变量。
作为一种实施方式,目标事件识别网络包括表征向量挖掘模块和事件分类模块。表征向量挖掘模块可以是基于CNN、RNN、LSTM等成熟架构搭建得到,其中可以容纳卷积、池化、归一化、激活等子单元,示例性而言,表征向量挖掘模块可以是基于谷歌机器翻译模型训练得到,表征向量用于表征数据的特征矢量特性。
流式数据组的组成可以是一个三阶张量,通过目标事件识别网络进行处理,得到的表征向量集合则也可以是三阶张量,每个表征向量对应的预估信息包括每个预估临时窗口的预估事件分布、预估概率变量(即预估临时窗口存在目标事件数据的可能性)以及类型(用于指示预估临时窗口的数据是否为目标事件数据),窗口的作用为框选目标事件对应的数据,临时窗口即候选的窗口。
作为一种实施方式,获得目标事件识别网络的事件分类模块输出的表征向量集合中的每一表征向量的类型和概率变量后,依据各个表征向量对应的数据区间为目标事件数据的概率变量和每个表征向量对应的预估临时窗口的预估事件分布,确定流式数据组的目标事件数据识别结果,目标事件数据识别结果包括流式数据组中是否包括目标事件数据以及目标事件数据的事件分布;依据流式数据组链中的每一流式数据组的目标事件数据识别结果,获得流式数据组链中存在目标事件数据的目标流式数据组以及目标流式数据组中目标事件数据的事件分布。流式数据组的每个表征向量对应有类型和概率变量,依据类型和概率变量确定哪些表征向量对应的数据区间是目标事件数据,如果流式数据组存在表征向量对应的数据区间为目标事件数据的可能性大于预设值,则该流式数据组为目标流式数据组,针对可能性大于预设值的表征向量的预估临时窗口的预估事件分布,将各预估临时窗口的预估事件分布确定为目标事件数据的事件分布,得到流式数据组的目标事件识别结果,也就是流式数据组存在目标事件数据以及目标事件数据的事件分布。
以上过程中,因为事件分类模块是依据较多模板调试获得,学习到了识别目标事件数据的相关特征信息,则依据事件分类模块输出的表征向量集合获取的各流式数据组的目标事件数据识别结果置信水平高,有利于识别结果的精确度。
那么,下面将介绍目标事件识别网络的调试步骤,本申请实施例目标事件识别网络的调试过程可以采取有标记约束调试、无标记自由调试或二者的联合调试。在依据联合调试时,通过标记调试模板集合对目标事件识别网络进行调试,获得基础目标事件识别网络,再通过标记调试模板集合和无标记调试模板集合对基础目标事件识别网络进行调试得到对应的网络,将其确定为目标事件识别网络。
对于有标记约束调试而言,其是基于有监督的过程,作为一种实施方式,获取用于调试目标事件识别网络的标记调试模板集合;依据标记调试模板集合中的每一个标记调试模板的标记指示信息,确定标记调试模板中目标事件数据的字段覆盖范围;对标记调试模板中目标事件数据的字段覆盖范围进行分桶,得到多个分桶质心(即分桶的中心点,围绕其进行聚类);将分桶质心表征的字段覆盖范围确定为调试目标事件识别网络的外部参变量后,通过标记调试模板对目标事件识别网络进行依据有监督的调试。
在有标记约束调试前,确定作为外部参变量的预估临时窗口的字段覆盖范围,例如当标记调试模板存在目标事件数据时,其标记指示信息包括包含该目标事件数据的标注临时窗口的字段覆盖范围;在标记调试模板集合内获取存在目标事件数据的标记调试模板对应的字段覆盖范围,对字段覆盖范围进行分桶(如采用K均值算法),分桶结束后获得多个分桶质心,将分桶质心对应的字段覆盖范围确定为外部参变量,外部参变量是超参,以在有标记约束调试时,目标事件识别网络依据外部参变量对标记调试模板集合进行预估,获得对应的预估结果。以上过程中,在进行依据有监督的调试前,先依据有标记约束调试采取的标记调试模板集合,确定作为外部参变量的预估临时窗口的字段覆盖范围,保证目标事件识别网络的学习性能。作为一种实施方式,用于调试目标事件识别网络的标记调试模板可依据人工标注获取到。
依据标注获取标记调试模板的过程具体可以包括:获取多个流式数据事件调试集;针对每个流式数据事件调试集,从流式数据事件调试集的第一个流式数据组开始搜寻,当搜寻到的流式数据组和相邻流式数据组相异时,将搜寻到的流式数据组添加到拟标记调试模板集合中,当搜寻的流式数据组和相邻流式数据组相似时,跳过搜寻到的流式数据组直到流式数据事件调试集的流式数据组全部完成搜寻;依据多个流式数据事件调试集搜寻结束后得到的拟标记调试模板集合,确定用于调试目标事件识别网络的标记调试模板集合。流式数据事件调试集是在法律法规允许范围内获取的信息,上述关于两个流式数据组相异或相似的判断,可以是基于确定该两个流式数据组的哈希向量之间的距离(如明氏距离)来确定,例如设定一预设距离,在哈希向量距离小于预设距离时确定二者相似,并在大于预设距离时确定二者相异。以上过程中,对流式数据事件调试集的流式数据组实施去重搜寻,在搜寻到的流式数据组和相邻流式数据组相异时,对搜寻到的流式数据组进行标注,清洗掉相似的流式数据组,防止反复标注以提升标注速度。
作为一种实施方式,获取的流式数据事件调试集中,可能大多为没有目标事件数据的流式数据组,而一旦有目标事件数据的流式数据组太少,目标事件识别网络调试的难度将会变得很大,调试获得的网络具备较弱的泛化性,为了克服这个问题,本申请实施例依据模拟方针对依据标注得到的标记调试模板进行完善,那么,作为一种实施方式,获取标记调试模板集合中指示没有目标事件数据的目标事件数据缺失调试模板;依据事先设置的嵌入事件分布,对目标事件数据缺失调试模板(即没有目标事件数据的调试模板)进行目标事件数据模拟嵌入,得到模拟目标事件数据调试模板;将嵌入事件分布确定为模拟目标事件数据调试模板的标记指示信息,然后将指示有目标事件数据的模拟目标事件数据调试模板加入标记调试模板集合。
以上过程中,依据模拟获得模拟目标事件数据调试模板,可以减少标注成本,而模拟的场景是可以自由确定的,更加丰富,得到的模拟目标事件数据调试模板可以包含多样化的目标事件数据,使得目标事件识别网络在调试时学习更多的特征信息,提升网络泛化性。作为一种实施方式,目标事件数据模拟嵌入具体包括:基于事先设置的嵌入事件分布,依据目标事件交易类型、目标事件交易对象和目标事件交易链路中的一个或多个对目标事件数据缺失调试模板进行目标事件数据模拟嵌入,得到模拟目标事件数据调试模板。
作为一种实施方式,目标事件识别网络的有标记约束调试过程具体可以包括:通过目标事件识别网络对标记调试模板集合中的标记调试模板进行预估,得到标记调试模板的表征向量集合中的每一表征向量的预估信息;表征向量的预估信息包括:预估临时窗口的预估事件分布、预估临时窗口中是否包括目标事件数据的预估概率变量以及预估临时窗口是否为目标事件数据的预估概率变量;依据表征向量集合的表征向量的预估信息以及标记调试模板的标记指示信息,得到标记调试模板的第一误差信息、第二误差信息和第三误差信息;其中,第一误差信息表征预估临时窗口的事件分布和标注临时窗口的事件分布之间的误差;第二误差信息用于指示表征向量对应的数据区间存在目标事件数据的预估概率变量和标注概率变量之间的误差,以及用于指示表征向量对应的数据区间不存在目标事件数据的预估概率变量和实际概率变量之间的误差;第三误差信息用于指示表征向量对应的数据区间是否包括目标事件数据的预估概率变量和实际概率变量之间的误差;依据标记调试模板集合中的标记调试模板的第一误差信息、第二误差信息和第三误差信息,对目标事件识别网络的网络参变量进行优化,以对目标事件识别网络进行依据有监督的调试。依据以上标注和模拟获得标记调试模板集合,再将标记调试模板集合加载至目标事件识别网络中进行依据有监督的调试,有标记约束调试依据的误差确定算法可以根据实际情况进行配置,如交叉熵、对数似然等,本申请对此不做限定。以上过程在进行依据有监督的调试时,综合多类误差进行网络参变量的优化,提升了目标事件识别网络的识别能力。
有标记约束调试时,依据标注获得标记调试模板的成本较高,标记调试模板数量不足,即便通过目标事件数据缺失调试模板得到的模拟目标事件数据调试模板能对依据标注获得的有标注目标事件数据调试模板进行扩充,但数量有限,无法令目标事件识别网络的识别能力发挥到最优异。因此,本申请实施例提供对目标事件识别网络进行联合调试(即半监督的学习方式),通过无标记调试模板集合和标记调试模板集合共同对目标事件识别网络进行调试,增加目标事件识别网络的识别能力,让网络的泛化性更强。
作为一种实施方式,获取无标记调试模板集合,对无标记调试模板集合中的无标记调试模板进行噪声注入,以对模板数据进行增强,依据无标记调试模板和加噪得到的调试模板,得到无标记模板近似组;将依据标记调试模板集合进行依据有监督的调试得到的目标事件识别网络确定为基础目标事件识别网络,通过基础目标事件识别网络分别对无标记模板近似组包括的调试模板进行预估,获取无标记模板近似组包括的调试模板各自对应的预估结果;依据无标记模板近似组包括的调试模板各自对应的预估结果之间的误差确定无标记模板近似组的共同性误差;依据无标记模板近似组的共同性误差和标记调试模板的标记调试误差,确定半监督误差,通过半监督误差对基础目标事件识别网络的网络参变量进行优化,得到调试完成的目标事件识别网络,其中,无标记模板近似组包括无标记调试模板和加噪得到的调试模板。
作为一种实施方式,无标记调试模板集合通过类型调节获得,具体可以包括:获取原始的无标记调试模板集合,依据基础目标事件识别网络,对原始的无标记调试模板集合中的每一无标记调试模板进行预估,依据预估结果确定无标记调试模板的半监督标记(伪标记,Pseudo Labelling);半监督标记包括第一半监督标记和第二半监督标记;如果预估结果指示半监督标记为第一半监督标记的无标记调试模板的数量比半监督标记为第二半监督标记的无标记调试模板的数量多,则依据半监督标记为第二半监督标记的无标记调试模板的数量对半监督标记为第一半监督标记的无标记调试模板进行抽取采样,依据半监督标记为第二半监督标记的无标记调试模板与抽取获得的半监督标记为第一半监督标记的无标记调试模板得到无标记调试模板集合。基础目标事件识别网络对原始的无标记调试模板集合进行预估后,得到原始的无标记调试模板集合中的每一无标记调试模板的半监督标记,如果第一半监督标记下的无标记调试模板的数量比第二半监督标记下的无标记调试模板的数量多,则有半监督标记为第二半监督标记的无标记调试模板的数量对半监督标记为第一半监督标记的无标记调试模板进行抽取,令抽取获得的第一半监督标记的无标记调试模板的数量与第二半监督标记的无标记调试模板的数量相等,再依据抽取获得的第一半监督标记的无标记调试模板与第二半监督标记的无标记调试模板得到无标记调试模板集合,无标记调试模板集合是以上类型调节处理获得。以上过程依据基础目标事件识别网络的预估结果得到的半监督标记,进行类型调节处理,可以防止过拟合,目标事件识别网络的识别能力得到加强。通过类型调节处理后的无标记调试模板集合生成后,依据以上加噪处理对无标记调试模板的数据进行强化得到无标记模板近似组,再通过基础目标事件识别网络对无标记模板近似组包括的调试模板分别进行预估(如预估共同性)。共同性预估是联合调试中在无标记调试调试模板中挖掘信息的过程,将共同性预估加入联合调试,以图数据不稳定,被加噪时,目标事件识别网络还是可以精准将其预估,共同性预估是针对大量无障碍得到的无标记调试模板和对其加噪得到的调试模板,通过配置的误差算法让目标事件识别网络对无标记调试模板和加噪得到的调试模板进行共同性预估,换言之,目标事件识别网络对二者的预估结果需要保持相同,那么共同性预估为目标事件识别网络的泛化性能给出约束,通过数量较大的无标记调试模板引导目标事件识别网络向泛化性能高的方向延伸。
在基础目标事件识别网络输出的无标记模板近似组包括的调试模板各自对应的预估结果间的误差确定无标记模板近似组的共同性误差,然后综合标记调试模板的标记调试误差确定半监督误差,依据半监督误差确定梯度,依据梯度对基础目标事件识别网络的网络参变量进行优化,实施联合调试,获得调试完成的目标事件识别网络。半监督误差的获取过程可以是:Y=L1+α·L2。其中,Y为半监督误差,L1为标记调试误差,L2为共同性误差,α为优化调节标记调试误差和共同性误差权重的参变量。以上过程中,通过无标记调试模板集合得到共同性误差,通过标记调试模板集合得到标记调试误差,综合共同性误差和标记调试误差对目标事件识别网络的网络参变量进行优化进行联合调试,加强了目标事件识别网络的识别能力,让网络的泛化性更强。
作为一种实施方式,在联合调试时,因为标记调试模板数量不足,容易产生过拟合,为克服该问题,作为一种实施方式,在依据无标记模板近似组的共同性误差和标记调试模板的标记调试误差确定半监督误差时,可以依据基础目标事件识别网络对标记调试模板的预估结果,获取标记调试模板中是否包括目标事件数据的预估概率变量;将是否包括目标事件数据的预估概率变量不大于预设概率变量的标记调试模板确定为目标调试模板;依据无标记模板近似组的共同性误差和目标调试模板的标记调试误差确定半监督误差。针对标记调试模板,预估概率变量过高表示目标事件识别网络对该调试模板的预估预期太强,容易造成针对该调试模板的过拟合现象,因此本申请实施例将预估概率变量不大于预设概率变量的标记调试模板确定为目标调试模板,进行误差的确定,预估概率变量大于预设概率变量的标记调试模板则清洗掉,防止过拟合。
作为一种实施方式,可以对无标记模板近似组包括的调试模板各自对应的预估结果进行加强操作,依据加强操作的预估结果确定无标记模板近似组的共同性误差。如果标记调试模板数量不足,基础目标事件识别网络对标记调试模板的学习不够,无标记调试模板的预估结果的预估分布欠拟合,使得半监督误差大多源自标记调试模板,背离了通过无标记调试模板进行联合调试,无标记调试模板的预估结果包括的预估结果分布如果是充盈的便于联合调试。那么,本申请实施例对无标记模板近似组包括的调试模板各自对应的预估结果进行加强操作,依据加强操作的预估结果确定无标记模板近似组的共同性误差,得到对应的半监督误差。以上过程对无标记模板近似组包括的调试模板各自对应的预估结果进行加强操作,杜绝半监督误差大多源自标记调试误差,便于联合调试。作为一种实施方式,加强操作的过程具体可以包括:当无标记模板近似组包括的调试模板的预估结果中的预估概率变量大于预设概率变量时,维持无标记模板近似组以进行共同性误差的确定;当无标记模板近似组包括的调试模板的预估结果中的预估概率变量小于预设概率变量时,清洗掉无标记模板近似组。
无标记调试模板的预估概率变量低,代表基础目标事件识别网络对无标记调试模板的预估效果较差,那么无标记调试模板所在的无标记模板近似组就不进行共同性误差的确定。无标记调试模板的预估概率变量高,代表基础目标事件识别网络对该无标记调试模板的预估效果好,则无标记调试模板所在的无标记模板近似组进行共同性误差的确定。
作为一种实施方式,本申请实施例中,目标事件识别网络的调试过程还可以包括:
步骤100:依据标记调试模板集合,对目标事件识别网络进行依据有监督的调试得到基础目标事件识别网络。
标记调试模板可以通过标注和模拟获取,标注过程具体可以包括::获取多个流式数据事件调试集;针对每个流式数据事件调试集,从流式数据事件调试集的第一个流式数据组开始搜寻,如果搜寻到的流式数据组和相邻流式数据组相异,将搜寻到的流式数据组添加到拟标记调试模板集合中,如果搜寻的流式数据组和相邻流式数据组相似,跳过搜寻到的流式数据组直到流式数据事件调试集的流式数据组全部完成搜寻;依据多个流式数据事件调试集搜寻结束后得到的拟标记调试模板集合,确定用于调试目标事件识别网络的标记调试模板集合。模拟过程具体可以包括:获取标记调试模板集合中指示没有目标事件数据的目标事件数据缺失调试模板;依据事先设置的嵌入事件分布,对目标事件数据缺失调试模板进行目标事件数据模拟嵌入,得到模拟目标事件数据调试模板;将嵌入事件分布确定为模拟目标事件数据调试模板的标记指示信息后,将指示有目标事件数据的模拟目标事件数据调试模板加入标记调试模板集合。
步骤200:获取无标记调试模板集合,通过基础目标事件识别网络分别对无标记调试模板集合中的无标记调试模板和对应的加噪调试模板进行预估,获取各自对应的预估结果,依据无标记调试模板和对应的加噪调试模板各自对应的预估结果之间的误差确定共同性误差。
步骤300:依据标记调试模板的标记调试误差与共同性误差对基础目标事件识别网络进行联合调试,得到调试完成的目标事件识别网络。
具体过程和原理在前述实施方式已经进行说明,此处不再赘述,以上过程先对目标事件识别网络进行依据有监督的调试,依据有标记约束调试得到的基础目标事件识别网络对无标记调试模板集合进行预估,得到无标记调试模板和对应的加噪调试模板之间的共同性误差,依据标记调试模板的标记调试误差和共同性误差,对基础目标事件识别网络进行综合调试,不仅减少调试模板的标记成本,还增强了目标事件识别网络的识别能力。
本申请实施例提供的方法总体而言可以分为流式数据组挖掘、流式数据组的目标事件数据识别和识别结果整合,细化的步骤上主要包括流式数据事件集数据组划分、目标事件识别网络建立、调试模板选取、模拟调试模板生成、联合调试架构生成、识别结果整合分析等。具体而言,完整的流程可以是包括如下过程:
获取拟分析流式数据事件集,将拟分析流式数据事件集依据拟分析流式数据事件集的流式数据组容量进行分离,得到多个流式数据分团;在每一流式数据分团中按预设的挖掘频率进行数据采样,得到预设数目的流式数据组;依据在每一流式数据分团得到的预设数目的流式数据组,得到流式数据组链;将流式数据组链中的各流式数据组按序加载至调试完成的目标事件识别网络;依据目标事件识别网络的表征向量挖掘模块,挖掘流式数据组对应的表征向量集合;依据目标事件识别网络的事件分类模块,依据流式数据组的表征向量集合,获得表征向量集合中的每一表征向量的类型和概率变量;获取事件分类模块输出的表征向量集合中的每一表征向量的类型和概率变量;依据表征向量集合的每个表征向量对应的数据区间为目标事件数据的概率变量以及每个表征向量对应的预估临时窗口的预估事件分布,确定流式数据组的目标事件数据识别结果,目标事件数据识别结果包括流式数据组中是否包括目标事件数据以及目标事件数据的事件分布;依据流式数据组链中的每一流式数据组的目标事件数据识别结果,获得流式数据组链中存在目标事件数据的目标流式数据组以及目标流式数据组中目标事件数据的事件分布;获取任意的两个目标流式数据组;当任意的两个目标流式数据组对应的事件时刻的时间差值不大于预设时间差时,确定任意的两个目标流式数据组为在采集时间上紧邻的目标流式数据组;获取在采集时间上紧邻的目标流式数据组的目标事件数据的数据范围交并比;将数据范围交并比确定为在采集时间上紧邻的目标流式数据组中目标事件数据的事件分布的匹配性;针对拟分析流式数据事件集中在采集时间上紧邻的目标流式数据组,依据目标事件数据的事件分布的匹配性进行分桶,得到多个在采集时间上紧邻的目标流式数据序列;输出多个在采集时间上紧邻的目标流式数据序列分别在拟分析流式数据事件集中的时序分布情况以及目标事件数据的事件分布。
另外,对于目标事件识别网络的调试,其过程主要包括:获取用于调试目标事件识别网络的标记调试模板集合;依据标记调试模板集合中的每一个标记调试模板的标记指示信息,确定标记调试模板中目标事件数据的字段覆盖范围;对标记调试模板中目标事件数据的字段覆盖范围进行分桶,得到多个分桶质心;将分桶质心表征的字段覆盖范围确定为调试目标事件识别网络的外部参变量后,使用标记调试模板对目标事件识别网络进行依据有监督的调试。
联合调试采用的调试模板,标记调试模板集合依据标记和模拟进行获取,对于标记获取,包括:获取流式数据事件调试集,得到多个流式数据事件调试集;在多个流式数据事件调试集获取小批量流式数据事件调试集,得到余下流式数据事件调试集,小批量流式数据事件调试集用于生成标记调试模板,余下流式数据事件调试集用于生成无标记调试模板;针对每个流式数据事件调试集,在流式数据事件调试集的第一个流式数据组开始搜寻,如果搜寻到的流式数据组和相邻流式数据组相异,将搜寻到的流式数据组添加到拟标记调试模板集合中,如果搜寻的流式数据组和相邻流式数据组相似,跳过搜寻到的流式数据组直到流式数据事件调试集的流式数据组全部完成搜寻;依据多个流式数据事件调试集搜寻结束后得到的拟标记调试模板集合,确定用于调试目标事件识别网络的标记调试模板集合;该标记调试模板集合包括有目标事件数据调试模板和目标事件数据缺失调试模板。依据模拟获取调试模板的过程包括:获取标记调试模板集合中指示没有目标事件数据的目标事件数据缺失调试模板;依据事先设置的嵌入事件分布,依据目标事件交易类型、目标事件交易对象和目标事件交易链路中的一个或多个,对目标事件数据缺失调试模板进行目标事件数据模拟嵌入,得到模拟目标事件数据调试模板;将嵌入事件分布确定为模拟目标事件数据调试模板的标记指示信息后,将指示有目标事件数据的模拟目标事件数据调试模板添加至标记调试模板集合中。
对于有标记约束调试的部分主要包括:通过目标事件识别网络对标记调试模板集合中的标记调试模板进行预估,得到标记调试模板的表征向量集合中的每一表征向量的预估信息;表征向量的预估信息包括:预估临时窗口的预估事件分布、预估临时窗口中是否包括目标事件数据的预估概率变量以及预估临时窗口是否为目标事件数据的预估概率变量;依据表征向量集合的表征向量的预估信息和标记调试模板的标记指示信息,获取标记调试模板的第一误差信息、第二误差信息和第三误差信息,其中,第一误差信息用于指示预估临时窗口的事件分布和标注临时窗口的事件分布之间的误差,第二误差信息用于指示表征向量对应的数据区间存在目标事件数据的预估概率变量和标注概率变量之间的误差,以及用于指示表征向量对应的数据区间不存在目标事件数据的预估概率变量和实际概率变量之间的误差,第三误差信息用于指示表征向量对应的数据区间是否包括目标事件数据的预估概率变量和实际概率变量之间的误差;依据标记调试模板集合中的标记调试模板的第一误差信息、第二误差信息和第三误差信息,对目标事件识别网络的网络参变量进行优化,以对目标事件识别网络进行依据有监督的调试。将通过有标记约束调试得到的网络确定为基础目标事件识别网络进行联合调试,提高目标事件识别网络的识别能力。
对于联合调试的部分主要包括:获取原始的无标记调试模板集合,依据基础目标事件识别网络,对原始的无标记调试模板集合中的每一无标记调试模板进行预估,依据预估结果确定无标记调试模板的半监督标记,半监督标记包括第一半监督标记和第二半监督标记;如果预估结果指示半监督标记为第一半监督标记的无标记调试模板的数量比半监督标记为第二半监督标记的无标记调试模板的数量多,则依据半监督标记为第二半监督标记的无标记调试模板的数量对半监督标记为第一半监督标记的无标记调试模板进行抽取,依据半监督标记为第二半监督标记的无标记调试模板与抽取获得的半监督标记为第一半监督标记的无标记调试模板,得到无标记调试模板集合;通过基础目标事件识别网络分别对无标记调试模板集合中的无标记调试模板和对应的加噪调试模板进行预估,获取各自对应的预估结果;对无标记模板近似组包括的调试模板各自对应的预估结果进行加强操作,依据加强操作的预估结果确定无标记模板近似组的共同性误差;依据基础目标事件识别网络对标记调试模板的预估结果,获取标记调试模板中是否包括目标事件数据的预估概率变量;将是否包括目标事件数据的预估概率变量不大于预设概率变量的标记调试模板确定为目标调试模板;依据无标记模板近似组的共同性误差和目标调试模板的标记调试误差,确定半监督误差;依据标记调试模板的标记调试误差与共同性误差对基础目标事件识别网络进行联合调试,得到调试完成的目标事件识别网络。
综上所述,本申请实施例提供的基于AI和流式计算的用户分析方法及系统,依据调试完成的目标事件识别网络对流式数据事件集进行按组识别,在识别出包含目标事件数据的目标流式数据组的同时,还确定目标流式数据组中目标事件数据的事件分布,使得目标事件数据的识别过程更加精准,此外,获得目标流式数据组后,依据流式数据组的时序和目标事件数据事件分布的匹配性对目标流式数据组进行划分,生成在采集时间上紧邻的目标流式数据序列,同一流式数据序列中目标事件数据的事件分布的匹配性大于预设值,基于此得到的目标流式数据序列在拟分析流式数据事件集中的时序分布情况能够体现目标事件数据在拟分析流式数据事件集的时序分布情况,目标流式数据序列中目标事件数据的事件分布能够体现目标事件数据在拟分析流式数据事件集中的事件分布,如此获得流式数据事件集中目标事件数据的时序分布情况以及目标事件数据的事件分布,使得目标事件识别的准确性得到提高。
此外,在目标事件识别网络的调试过程中,依据少量的标记调试模板对目标事件识别网络进行依据有监督的调试,依据有标记约束调试获取的基础目标事件识别网络对无标记调试模板集合进行预估,获得无标记调试模板和对应的加噪调试模板间的共同性误差,依据标记调试模板的标记调试误差和共同性误差,对基础目标事件识别网络进行联合调试,获得调试完成的目标事件识别网络,无需依赖大批量标记调试模板,缓解标记压力并且增加目标事件识别网络的识别性能。
基于上述实施例,本申请实施例提供一种用户分析装置,图3是本申请实施例提供的一种用户分析装置340,如图3所示,所述装置340包括:
事件数据获取模块341,用于接收目标用户对应的终端设备上传的所述目标用户的流式数据,依据所述流式数据的产生时序进行归集,得到拟分析流式数据事件集,其中,所述拟分析流式数据事件集中的数据时间跨度为预设的时间跨度;
数据组链获取模块342,用于获取所述拟分析流式数据事件集对应的流式数据组链;
目标事件识别模块343,用于依据调试完成的目标事件识别网络按序对所述流式数据组链中的每一流式数据组进行目标事件识别,获得所述流式数据组链中存在目标事件数据的目标流式数据组以及所述目标流式数据组中目标事件数据的事件分布;
数据序列确定模块344,用于针对所述拟分析流式数据事件集中在采集时间上紧邻的所述目标流式数据组,依据目标事件数据的事件分布的匹配性进行分桶,得到多个在采集时间上紧邻的目标流式数据序列;
事件信息输出模块345,用于输出所述多个在采集时间上紧邻的目标流式数据序列分别在所述拟分析流式数据事件集中的时序分布情况以及所述目标事件数据的事件分布。
以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
若本申请技术方案涉及个人或私密信息,应用本申请技术方案的产品在处理个人信息前,已明确告知个人信息处理规则,并取得个人自主同意。若本申请技术方案涉及敏感个人信息,应用本申请技术方案的产品在处理敏感个人信息前,已取得个人单独同意,并且同时满足“明示同意”的要求,同时在法律法规的范围内收集。例如,在摄像头等个人信息采集装置处,设置明确显著的标识告知已进入个人信息采集范围,将会对个人信息进行采集,若个人自愿进入采集范围即视为同意对其个人信息进行采集;或者在个人信息处理的装置上,利用明显的标识/信息告知个人信息处理规则的情况下,通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权;其中,个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式、处理的个人信息种类等信息。
需要说明的是,本申请实施例中,如果以软件功能模块的形式实现上述告警处理方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。
本申请实施例提供一种电子设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述告警处理方法。
本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述告警处理方法。所述计算机可读存储介质可以是瞬时性的,也可以是非瞬时性的。
本申请实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序被计算机读取并执行时,实现上述方法中的部分或全部步骤。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software DevelopmentKit,SDK)等等。
需要说明的是,图4是本申请实施例提供的一种用户分析AI系统300的硬件实体示意图,如图4所示,该用户分析AI系统300的硬件实体包括:处理器310、通信接口320和存储器330,其中:处理器310通常控制用户分析AI系统300的总体操作。通信接口320可以使电子设备通过网络与其他终端或服务器通信。存储器330配置为存储由处理器310可执行的指令和应用,还可以缓存待处理器310以及用户分析AI系统300中各模块待处理或已经处理的数据(例如,图像数据、音频数据、语音通信数据和视频通信数据),可以通过闪存(FLASH)或随机访问存储器(Random Access Memory,RAM)实现。处理器310、通信接口320和存储器330之间可以通过总线340进行数据传输。这里需要指出的是:以上存储介质和设备实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请存储介质和设备实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。
Claims (10)
1.一种基于AI和流式计算的用户分析方法,其特征在于,应用于用户分析AI系统,所述方法包括:
接收目标用户对应的终端设备上传的所述目标用户的流式数据,依据所述流式数据的产生时序进行归集,得到拟分析流式数据事件集;其中,所述拟分析流式数据事件集中的数据时间跨度为预设的时间跨度;
获取所述拟分析流式数据事件集对应的流式数据组链;
依据调试完成的目标事件识别网络按序对所述流式数据组链中的每一流式数据组进行目标事件识别,获得所述流式数据组链中存在目标事件数据的目标流式数据组以及所述目标流式数据组中目标事件数据的事件分布;
针对所述拟分析流式数据事件集中在采集时间上紧邻的所述目标流式数据组,依据目标事件数据的事件分布的匹配性进行分桶,得到多个在采集时间上紧邻的目标流式数据序列;
输出所述多个在采集时间上紧邻的目标流式数据序列分别在所述拟分析流式数据事件集中的时序分布情况以及所述目标事件数据的事件分布。
2.根据权利要求1所述的方法,其特征在于,所述获取所述拟分析流式数据事件集对应的流式数据组链,包括:
获取所述拟分析流式数据事件集,将所述拟分析流式数据事件集按所述拟分析流式数据事件集的流式数据组容量进行分离,得到多个流式数据分团;
在每一所述流式数据分团中依据预设的挖掘频率进行数据采样,得到预设数目的流式数据组;
依据在每一流式数据分团得到的预设数目的流式数据组,得到所述流式数据组链。
3.根据权利要求1所述的方法,其特征在于,所述依据调试完成的目标事件识别网络按序对所述流式数据组链中的每一流式数据组进行目标事件识别,包括:
将所述流式数据组链中的多个所述流式数据组按序加载至所述调试完成的目标事件识别网络;
依据所述目标事件识别网络的表征向量挖掘模块,挖掘所述流式数据组对应的表征向量集合;
依据所述目标事件识别网络的事件分类模块,依据所述流式数据组的表征向量集合,获得所述表征向量集合中的每一表征向量的类型和概率变量;
所述获得所述流式数据组链中存在目标事件数据的目标流式数据组以及所述目标流式数据组中目标事件数据的事件分布,包括:
获取所述事件分类模块输出的所述表征向量集合中的每一表征向量的类型和概率变量;
依据所述表征向量集合的各个表征向量对应的数据区间为目标事件数据的概率变量,以及各个表征向量对应的预估临时窗口的预估事件分布,确定所述流式数据组的目标事件数据识别结果;其中,所述目标事件数据识别结果包括所述流式数据组中是否包括目标事件数据以及所述目标事件数据的事件分布;
依据所述流式数据组链中的每一流式数据组的目标事件数据识别结果,获得所述流式数据组链中存在目标事件数据的目标流式数据组以及所述目标流式数据组中目标事件数据的事件分布。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取用于调试目标事件识别网络的标记调试模板集合;
依据所述标记调试模板集合中的每一个标记调试模板的标记指示信息,确定所述标记调试模板中目标事件数据的字段覆盖范围;
对所述标记调试模板中目标事件数据的字段覆盖范围进行分桶,得到多个分桶质心;
将所述分桶质心表征的字段覆盖范围确定为调试所述目标事件识别网络的外部参变量,然后通过所述标记调试模板对所述目标事件识别网络进行有监督的调试。
5.根据权利要求1所述的方法,其特征在于,用于调试所述目标事件识别网络的标记调试模板通过如下步骤获取得到:
获取多个流式数据事件调试集;
针对每个所述流式数据事件调试集,在所述流式数据事件调试集的第一个流式数据组开始搜寻,当搜寻到的流式数据组和相邻流式数据组相异时,将所述搜寻到的流式数据组添加到拟标记调试模板集合;当所述搜寻到的流式数据组和相邻流式数据组相似时,跳过所述搜寻到的流式数据组直到所述流式数据事件调试集的流式数据组全部完成搜寻;
依据所述多个流式数据事件调试集搜寻结束后得到的拟标记调试模板集合,确定用于调试目标事件识别网络的标记调试模板集合。
6.根据权利要求1所述的方法,其特征在于,用于调试所述目标事件识别网络的标记调试模板通过如下步骤获取得到:
获取所述标记调试模板集合中指示没有目标事件数据的目标事件数据缺失调试模板;
依据事先设置的嵌入事件分布,对所述目标事件数据缺失调试模板进行目标事件数据模拟嵌入,得到模拟目标事件数据调试模板;
将所述嵌入事件分布确定为所述模拟目标事件数据调试模板的标记指示信息,然后将指示有目标事件数据的模拟目标事件数据调试模板加入所述标记调试模板集合;
其中,所述依据事先设置的嵌入事件分布,对所述目标事件数据缺失调试模板进行目标事件数据模拟嵌入,得到模拟目标事件数据调试模板,包括:依据事先设置的嵌入事件分布,依据目标事件交易类型、目标事件交易对象和目标事件交易链路中的一个或多个,对所述目标事件数据缺失调试模板进行目标事件数据模拟嵌入,得到模拟目标事件数据调试模板。
7.根据权利要求1所述的方法,其特征在于,所述目标事件识别网络的调试过程包括:
通过目标事件识别网络对标记调试模板集合中的标记调试模板进行预估,得到所述标记调试模板的表征向量集合中的每一表征向量的预估信息;其中,所述表征向量的预估信息包括预估临时窗口的预估事件分布、所述预估临时窗口中是否包括目标事件数据的预估概率变量以及所述预估临时窗口是否为目标事件数据的预估概率变量;
依据所述表征向量集合的表征向量的预估信息以及所述标记调试模板的标记指示信息,得到所述标记调试模板的第一误差信息、第二误差信息和第三误差信息;
其中,所述第一误差信息用于指示预估临时窗口的事件分布和标注临时窗口的事件分布之间的误差;
所述第二误差信息用于指示表征向量对应的数据区间存在目标事件数据的预估概率变量和标注概率变量之间的误差,以及指示表征向量对应的数据区间不存在目标事件数据的预估概率变量和实际概率变量之间的误差;
所述第三误差信息用于指示表征向量对应的数据区间是否包括目标事件数据的预估概率变量和实际概率变量之间的误差;
依据所述标记调试模板集合中的标记调试模板的所述第一误差信息、所述第二误差信息和所述第三误差信息,对目标事件识别网络的网络参变量进行优化,从而对所述目标事件识别网络进行有监督的调试。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取无标记调试模板集合,对所述无标记调试模板集合中的无标记调试模板进行噪声注入,依据所述无标记调试模板和加噪得到的调试模板,得到无标记模板近似组;
将依据标记调试模板集合进行依据有监督的调试得到的目标事件识别网络确定为基础目标事件识别网络,通过所述基础目标事件识别网络对所述无标记模板近似组包括的调试模板分别进行预估,获取所述无标记模板近似组包括的调试模板各自对应的预估结果;
依据所述无标记模板近似组包括的调试模板各自对应的预估结果间的误差确定所述无标记模板近似组的共同性误差;
依据所述无标记模板近似组的共同性误差和标记调试模板的标记调试误差,确定半监督误差,通过所述半监督误差对所述基础目标事件识别网络的网络参变量进行优化,得到调试完成的目标事件识别网络;
其中,所述获取无标记调试模板集合,包括:
获取原始的无标记调试模板集合,依据所述基础目标事件识别网络,对所述原始的无标记调试模板集合中的每一无标记调试模板进行预估,依据预估结果确定所述无标记调试模板的半监督标记;
所述半监督标记包括第一半监督标记和第二半监督标记;
如果所述预估结果表征所述半监督标记为第一半监督标记的无标记调试模板的数量比所述半监督标记为第二半监督标记的无标记调试模板的数量多,则依据所述半监督标记为第二半监督标记的无标记调试模板的数量对半监督标记为第一半监督标记的无标记调试模板进行抽取,依据所述半监督标记为第二半监督标记的无标记调试模板与抽取获得的半监督标记为第一半监督标记的无标记调试模板,得到无标记调试模板集合。
9.根据权利要求8所述的方法,其特征在于,所述依据所述无标记模板近似组的共同性误差和标记调试模板的标记调试误差确定半监督误差,包括:
依据所述基础目标事件识别网络对所述标记调试模板的预估结果,获取所述标记调试模板中是否包括目标事件数据的预估概率变量;
将所述是否包括目标事件数据的预估概率变量不大于预设概率变量的标记调试模板确定为目标调试模板;
依据所述无标记模板近似组的共同性误差和所述目标调试模板的标记调试误差确定半监督误差;
所述依据所述无标记模板近似组包括的调试模板各自对应的预估结果之间的误差确定所述无标记模板近似组的共同性误差,包括:对所述无标记模板近似组包括的调试模板各自对应的预估结果进行加强操作,依据加强操作的预估结果确定所述无标记模板近似组的共同性误差;
其中,所述对所述无标记模板近似组包括的调试模板各自对应的预估结果进行加强操作,包括:当所述无标记模板近似组包括的调试模板的预估结果中的预估概率变量大于预设概率变量时,维持所述无标记模板近似组以进行所述共同性误差的确定;当所述无标记模板近似组包括的调试模板的预估结果中的预估概率变量小于预设概率变量时,清洗掉所述无标记模板近似组。
10.一种用户分析AI系统,其特征在于,包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序在被所述处理器执行时,实现权利要求1~9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211516603.8A CN115687732A (zh) | 2022-11-30 | 2022-11-30 | 基于ai和流式计算的用户分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211516603.8A CN115687732A (zh) | 2022-11-30 | 2022-11-30 | 基于ai和流式计算的用户分析方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115687732A true CN115687732A (zh) | 2023-02-03 |
Family
ID=85055200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211516603.8A Pending CN115687732A (zh) | 2022-11-30 | 2022-11-30 | 基于ai和流式计算的用户分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115687732A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117273765A (zh) * | 2023-11-21 | 2023-12-22 | 广州欧派创意家居设计有限公司 | 基于自动核检的多级经销商流转数据处理方法及系统 |
CN117891811A (zh) * | 2024-03-13 | 2024-04-16 | 南京数策信息科技有限公司 | 一种客户数据采集分析方法、装置及云服务器 |
-
2022
- 2022-11-30 CN CN202211516603.8A patent/CN115687732A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117273765A (zh) * | 2023-11-21 | 2023-12-22 | 广州欧派创意家居设计有限公司 | 基于自动核检的多级经销商流转数据处理方法及系统 |
CN117273765B (zh) * | 2023-11-21 | 2024-02-06 | 广州欧派创意家居设计有限公司 | 基于自动核检的多级经销商流转数据处理方法及系统 |
CN117891811A (zh) * | 2024-03-13 | 2024-04-16 | 南京数策信息科技有限公司 | 一种客户数据采集分析方法、装置及云服务器 |
CN117891811B (zh) * | 2024-03-13 | 2024-05-07 | 南京数策信息科技有限公司 | 一种客户数据采集分析方法、装置及云服务器 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109583468B (zh) | 训练样本获取方法,样本预测方法及对应装置 | |
CN115687732A (zh) | 基于ai和流式计算的用户分析方法及系统 | |
CN110310114B (zh) | 对象分类方法、装置、服务器及存储介质 | |
CN113011889B (zh) | 账号异常识别方法、系统、装置、设备及介质 | |
CN110135505B (zh) | 图像分类方法、装置、计算机设备及计算机可读存储介质 | |
CN110825969A (zh) | 数据处理方法、装置、终端和存储介质 | |
CN116049412B (zh) | 文本分类方法、模型训练方法、装置及电子设备 | |
CN112115996B (zh) | 图像数据的处理方法、装置、设备及存储介质 | |
CN111260220A (zh) | 群控设备识别方法、装置、电子设备和存储介质 | |
CN114492601A (zh) | 资源分类模型的训练方法、装置、电子设备及存储介质 | |
CN113722719A (zh) | 针对安全拦截大数据分析的信息生成方法及人工智能系统 | |
CN114897085A (zh) | 一种基于封闭子图链路预测的聚类方法及计算机设备 | |
CN116361788A (zh) | 一种基于机器学习的二进制软件漏洞预测方法 | |
CN115062709A (zh) | 模型优化方法、装置、设备、存储介质及程序产品 | |
CN114328942A (zh) | 关系抽取方法、装置、设备、存储介质和计算机程序产品 | |
CN111652320B (zh) | 一种样本分类方法、装置、电子设备及存储介质 | |
CN117608889A (zh) | 基于日志语义的异常检测方法以及相关设备 | |
CN113407837A (zh) | 基于人工智能的智慧医疗大数据处理方法及智慧医疗系统 | |
CN110555007B (zh) | 盗号行为判别方法、装置、计算设备及存储介质 | |
CN115757900A (zh) | 应用人工智能模型的用户需求分析方法及系统 | |
CN112905987B (zh) | 账号识别方法、装置、服务器及存储介质 | |
CN112749851B (zh) | 基于人工智能的大数据需求预测方法及大数据云服务中心 | |
CN114528908A (zh) | 网络请求数据分类模型训练方法、分类方法及存储介质 | |
CN113298504A (zh) | 基于人工智能的业务大数据分组识别方法及系统 | |
CN116996708B (zh) | 基于机器学习的短视频数据标签推荐方法、系统及云平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |