CN114840486B - 用户行为数据采集方法、系统及云平台 - Google Patents
用户行为数据采集方法、系统及云平台 Download PDFInfo
- Publication number
- CN114840486B CN114840486B CN202210738520.7A CN202210738520A CN114840486B CN 114840486 B CN114840486 B CN 114840486B CN 202210738520 A CN202210738520 A CN 202210738520A CN 114840486 B CN114840486 B CN 114840486B
- Authority
- CN
- China
- Prior art keywords
- user behavior
- interest
- user
- strategy
- requirement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 230000006399 behavior Effects 0.000 claims abstract description 347
- 238000005065 mining Methods 0.000 claims abstract description 71
- 238000012545 processing Methods 0.000 claims description 62
- 230000008569 process Effects 0.000 claims description 42
- 238000001914 filtration Methods 0.000 claims description 34
- 230000003542 behavioural effect Effects 0.000 claims description 29
- 238000003066 decision tree Methods 0.000 claims description 25
- 238000007418 data mining Methods 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 15
- 230000003044 adaptive effect Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 6
- 238000013461 design Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000219109 Citrullus Species 0.000 description 1
- 235000012828 Citrullus lanatus var citroides Nutrition 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例提供的用户行为数据采集方法、系统及云平台,通过用户行为捕捉策略解析得到互联网金融业务会话日志中的用户行为数据集,分离出对应于用户行为数据集的行为事件会话日志,再通过兴趣点挖掘策略对行为事件会话日志进行事件兴趣点挖掘并获得用户兴趣知识字段,能够准确高效地从各类形式和采集方式的互联网金融业务会话日志解析得到用户行为数据集,还能够针对性地从用户行为数据集对应的行为事件会话日志中解析得到用户兴趣知识字段,能够实现对海量的用户行为事件的兴趣知识类别精准区分,从而对互联网金融业务会话日志的用户行为进行智能化且精准的兴趣挖掘分析。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种用户行为数据采集方法、系统及云平台。
背景技术
在用户行为数据处理当中,用户行为数据的采集、分析、挖掘等各个环节环环相扣,每一环节都不可或缺。随着用户行为数据规模和类型的不断激增,现目前的用户行为数据处理需求大多需要实现采集分析挖掘一体化,这给传统的用户行为数据处理技术带来了不小的挑战。比如在一些情况下,传统技术难以对采集到的海量用户行为数据进行分类处理和兴趣挖掘。
发明内容
为改善相关技术中存在的技术问题,本发明提供了一种用户行为数据采集方法、系统及云平台。
第一方面,本发明实施例提供了一种用户行为数据采集方法,应用于Saas数据挖掘云平台,所述方法包括:采集互联网金融业务会话日志,并将所述互联网金融业务会话日志加载到用户行为捕捉策略,通过所述用户行为捕捉策略解析得到所述互联网金融业务会话日志中的用户行为数据集;其中,所述用户行为数据集反映用户行为事件在所述互联网金融业务会话日志中所在的日志段落,所述用户行为捕捉策略通过多个注释了用户行为数据集的示例型金融业务会话日志对第一用户行为联动分析策略调试所得;
从所述互联网金融业务会话日志中分离出对应于所述用户行为数据集的行为事件会话日志;将所述行为事件会话日志加载到兴趣点挖掘策略,通过所述兴趣点挖掘策略对所述行为事件会话日志进行事件兴趣点挖掘并获得用户兴趣知识字段;其中,所述兴趣点挖掘策略通过多个携带了用户兴趣知识字段的示例型行为事件会话日志对第二用户行为联动分析策略调试所得。
在一些可能的实施例中,所述第一用户行为联动分析策略包括级联的第一窗口化特征滤波算法、第一行为细节提取算法和第一多层感知机算法;以及,在所述用户行为捕捉策略的调试过程中依据自适应矩估计规则。
在一些可能的实施例中,所述第二用户行为联动分析策略包括级联的第二窗口化特征滤波算法、第二行为细节提取算法和第二多层感知机算法;以及,在所述兴趣点挖掘策略的调试过程中,依据自适应矩估计规则;以及,在所述兴趣点挖掘策略的调试过程中,对所述示例型行为事件会话日志进行行为特征关注处理。
在一些可能的实施例中,所述用户兴趣知识字段包括:用户行为事件的兴趣知识类别和兴趣知识字段在所述行为事件会话日志中的分布特征;所述第二多层感知机算法包括第一窗口化特征滤波单元、兴趣类别决策树单元和兴趣知识定位单元,所述第一窗口化特征滤波单元的输出分别与所述兴趣类别决策树单元和所述兴趣知识定位单元相连,所述兴趣类别决策树单元生成所述兴趣知识类别,所述兴趣知识定位单元生成所述兴趣知识字段在所述行为事件会话日志中的分布特征;所述兴趣类别决策树单元包括级联的第一知识综合处理单元和第二知识综合处理单元,所述兴趣知识定位单元包括级联的第二窗口化特征滤波单元和第三知识综合处理单元。
在一些可能的实施例中,在所述将所述互联网金融业务会话日志加载到用户行为捕捉策略的步骤之前,所述方法还包括:对所述互联网金融业务会话日志进行调整,得到完成标准化处理的互联网金融业务会话日志,其中,所述完成标准化处理的互联网金融业务会话日志的字段密度为指定字段密度,所述互联网金融业务会话日志的相对段落约束值在调整前后维持一致;
所述将所述互联网金融业务会话日志加载到用户行为捕捉策略的步骤,包括:将所述完成标准化处理的互联网金融业务会话日志加载到所述用户行为捕捉策略。
在一些可能的实施例中,在所述将所述行为事件会话日志加载到兴趣点挖掘策略的步骤之前,所述方法还包括:将所述行为事件会话日志调整得到完成标准化处理的行为事件会话日志,其中,所述完成标准化处理的行为事件会话日志的字段密度为指定字段密度,所述行为事件会话日志的相对段落约束值在调整前后维持一致;
所述将所述行为事件会话日志加载到兴趣点挖掘策略的步骤,包括:将所述完成标准化处理的行为事件会话日志加载到所述兴趣点挖掘策略。
在一些可能的实施例中,所述用户行为捕捉策略还用于生成所述用户行为数据集对应的第一可信系数;所述从所述互联网金融业务会话日志中分离出对应于所述用户行为数据集的行为事件会话日志的步骤,包括:挑选第一可信系数大于第一可信判定值的目标用户行为数据集;从所述互联网金融业务会话日志中分离出对应于所述目标用户行为数据集的行为事件会话日志;
以及,所述兴趣点挖掘策略还用于生成所述用户兴趣知识字段对应的第二可信系数;所述获得用户兴趣知识字段的步骤,包括:挑选第二可信系数大于第二可信判定值的目标用户兴趣知识字段。
在一些可能的实施例中,所述第一用户行为联动分析策略和第二用户行为联动分析策略的调试思路如下:
获得多个示例型金融业务会话日志,所述示例型金融业务会话日志携带了用户行为数据集标签;
将所述示例型金融业务会话日志加载到第一用户行为联动分析策略,通过所述第一用户行为联动分析策略解析得到所述示例型金融业务会话日志中的用户行为数据集标签;
将从所述示例型金融业务会话日志中分离出的对应于所述用户行为数据集标签的行为事件会话日志作为示例型行为事件会话日志,并加载到第二用户行为联动分析策略,通过所述第二用户行为联动分析策略对所述示例型行为事件会话日志进行事件兴趣点挖掘并获得用户兴趣知识字段;其中,所述示例型行为事件会话日志携带了用户兴趣知识字段;
确定每轮循环调试过程中所述第一用户行为联动分析策略生成的用户行为数据集标签与先验的用户行为数据集标签的第一比较数据,以及所述第二用户行为联动分析策略生成的用户兴趣知识字段与先验的用户兴趣知识字段的第二比较数据;
通过所述第一比较数据和第二比较数据改进所述第一用户行为联动分析策略的策略变量和/或第二用户行为联动分析策略的策略变量,直到满足循环终止要求。
在一些可能的实施例中,所述第一用户行为联动分析策略包括级联的第一窗口化特征滤波算法、第一行为细节提取算法和第一多层感知机算法;以及,在所述第一用户行为联动分析策略的调试过程中依据自适应矩估计规则;以及,所述第二用户行为联动分析策略包括级联的第二窗口化特征滤波算法、第二行为细节提取算法和第二多层感知机算法;以及,在所述第二用户行为联动分析策略的调试过程中,依据自适应矩估计规则;以及,在所述第二用户行为联动分析策略的调试过程中,对所述示例型行为事件会话日志进行行为特征关注处理。
在一些可能的实施例中,所述用户兴趣知识字段包括:用户行为事件的兴趣知识类别和兴趣知识字段在所述示例型行为事件会话日志中的分布特征;所述第二多层感知机算法包括第一窗口化特征滤波单元、兴趣类别决策树单元和兴趣知识定位单元,所述第一窗口化特征滤波单元的输出分别与所述兴趣类别决策树单元和所述兴趣知识定位单元相连,所述兴趣类别决策树单元生成所述兴趣知识类别,所述兴趣知识定位单元生成所述兴趣知识字段在所述示例型行为事件会话日志中的分布特征;所述兴趣类别决策树单元包括级联的第一知识综合处理单元和第二知识综合处理单元,所述兴趣知识定位单元包括级联的第二窗口化特征滤波单元和第三知识综合处理单元。
第二方面,本发明还提供了一种用户行为数据采集系统,包括互相之间通信的Saas数据挖掘云平台和数据服务器;所述Saas数据挖掘云平台用于:通过所述数据服务器采集互联网金融业务会话日志,并将所述互联网金融业务会话日志加载到用户行为捕捉策略,通过所述用户行为捕捉策略解析得到所述互联网金融业务会话日志中的用户行为数据集;其中,所述用户行为数据集反映用户行为事件在所述互联网金融业务会话日志中所在的日志段落,所述用户行为捕捉策略通过多个注释了用户行为数据集的示例型金融业务会话日志对第一用户行为联动分析策略调试所得;从所述互联网金融业务会话日志中分离出对应于所述用户行为数据集的行为事件会话日志;将所述行为事件会话日志加载到兴趣点挖掘策略,通过所述兴趣点挖掘策略对所述行为事件会话日志进行事件兴趣点挖掘并获得用户兴趣知识字段;其中,所述兴趣点挖掘策略通过多个携带了用户兴趣知识字段的示例型行为事件会话日志对第二用户行为联动分析策略调试所得。
第三方面,本发明还提供了一种Saas数据挖掘云平台,包括处理器和存储器;所述处理器和所述存储器通信连接,所述处理器用于从所述存储器中读取计算机程序并执行,以实现上述所述的方法。
通过用户行为捕捉策略解析得到互联网金融业务会话日志中的用户行为数据集,分离出对应于用户行为数据集的行为事件会话日志,再通过兴趣点挖掘策略对行为事件会话日志进行事件兴趣点挖掘并获得用户兴趣知识字段,能够准确高效地从各类形式和采集方式的互联网金融业务会话日志解析得到用户行为数据集,还能够针对性地从用户行为数据集对应的行为事件会话日志中解析得到用户兴趣知识字段,能够实现对海量的用户行为事件的兴趣知识类别精准区分,从而对互联网金融业务会话日志的用户行为进行智能化且精准的兴趣挖掘分析。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
图1是本发明实施例提供的一种Saas数据挖掘云平台的硬件结构示意图。
图2是本发明实施例提供的一种用户行为数据采集方法的流程示意图。
图3是本发明实施例提供的一种用户行为数据采集系统的通信架构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本发明实施例所提供的方法实施例可以在Saas数据挖掘云平台、计算机设备或者类似的运算装置中执行。以运行在Saas数据挖掘云平台上为例,图1是本发明实施例的实施一种用户行为数据采集方法的Saas数据挖掘云平台的硬件结构框图。如图1所示,Saas数据挖掘云平台10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述Saas数据挖掘云平台还可以包括用于通信功能的传输装置106。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述Saas数据挖掘云平台的结构造成限定。例如,Saas数据挖掘云平台10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的一种用户行为数据采集方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至Saas数据挖掘云平台10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括Saas数据挖掘云平台10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(RadioFrequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
基于此,请参阅图2,图2是本发明实施例所提供的一种用户行为数据采集方法的流程示意图,该方法应用于Saas数据挖掘云平台,进一步可以包括以下内容描述的技术方案。
步骤11,采集互联网金融业务会话日志。
举例而言,互联网金融业务会话日志可以是各类线上金融业务活动的会话记录,比如各类业务营销活动对应的数字化/可视化交互记录,涉及跨境电商、在线金融办公等领域。
步骤12,将互联网金融业务会话日志加载到用户行为捕捉策略,通过用户行为捕捉策略解析得到互联网金融业务会话日志中的用户行为数据集。
在步骤12中,用户行为数据集反映用户行为事件(比如评论事件、反馈事件、操作事件等)在互联网金融业务会话日志中所在的日志段落(比如日志区域),用户行为捕捉策略通过多个注释了用户行为数据集的示例型金融业务会话日志对第一用户行为联动分析策略(联合神经网络模型)调试所得,该联合神经网络模型可以通过不同功能的神经网络组合得到。
步骤13,从互联网金融业务会话日志中分离出对应于用户行为数据集的行为事件会话日志。
举例而言,可以对互联网金融业务会话日志进行拆解,得到用户行为数据集所对应的行为事件会话日志。
步骤14,将行为事件会话日志加载到兴趣点挖掘策略,通过兴趣点挖掘策略对行为事件会话日志进行事件兴趣点挖掘并获得用户兴趣知识字段。
在步骤14中,兴趣点挖掘策略通过多个携带了用户兴趣知识字段的示例型行为事件会话日志对第二用户行为联动分析策略(联合神经网络模型)调试所得,进一步地,第一用户行为联动分析策略和第二用户行为联动分析策略的模型结构可以根据实际情况适应性调整。
举例而言,用户兴趣知识字段可以反映用户行为事件的兴趣特征或者需求偏好,比如电商兴趣特征“正品海淘”、“正品代购”等,又比如金融业务需求偏好“个人信息保护”、“流氓推送拦截”等。
可以理解的是,本发明实施例通过用户行为捕捉策略解析得到互联网金融业务会话日志中的用户行为数据集,分离出对应于用户行为数据集的行为事件会话日志,再通过兴趣点挖掘策略对行为事件会话日志进行事件兴趣点挖掘并获得用户兴趣知识字段,能够准确高效地从各类形式和采集方式的互联网金融业务会话日志解析得到用户行为数据集,还能够针对性地从用户行为数据集对应的行为事件会话日志中解析得到用户兴趣知识字段,能够实现对海量的用户行为事件的兴趣知识类别精准区分,从而对互联网金融业务会话日志的用户行为进行智能化且精准的兴趣挖掘分析。
在实际实施过程中,第一用户行为联动分析策略包括级联的第一窗口化特征滤波算法(图卷积神经网络)、第一行为细节提取算法(特征金字塔网络)和第一多层感知机算法(分类网络)。其中,第一窗口化特征滤波算法可以采用深度为50的残差网络。
本发明实施例中,在第一用户行为联动分析策略中添配了第一行为细节提取算法,改善了第一用户行为联动分析策略对于不同信息量的会话日志的处理和分析性能,能够灵活应对各类会话日志的处理分析,提高兴趣挖掘分析的可信度和效率。
在实际实施过程中,在用户行为捕捉策略的调试过程中依据自适应矩估计规则,该自适应矩估计规则可以理解为Adam优化算法。本发明实施例中,通过自适应矩估计规则,能够提高算法的配置调试时效性,加快用户行为捕捉策略的调试过程,避免算法策略的过拟合。
在实际实施过程中,第二用户行为联动分析策略包括级联的第二窗口化特征滤波算法(图卷积神经网络)、第二行为细节提取算法(特征金字塔网络)和第二多层感知机算法(分类网络)。其中,第二窗口化特征滤波算法可以采用深度为100的残差网络。
本发明实施例中,在第二用户行为联动分析策略中添配了第二行为细节提取算法,改善了第二用户行为联动分析策略对于不同信息量的会话日志的处理和分析性能,能够灵活应对各类会话日志的处理分析,提高兴趣挖掘分析的可信度和效率。
在实际实施过程中,在兴趣点挖掘策略的调试过程中,依据自适应矩估计规则。本发明实施例中,通过自适应矩估计规则,能够提高算法的配置调试时效性,加快兴趣点挖掘策略的调试过程,避免算法策略的过拟合。
在实际实施过程中,在兴趣点挖掘策略的调试过程中,对示例型行为事件会话日志进行行为特征关注处理。其中,行为特征关注处理包括:优化特征识别度、语义向量维度以及上下游关系,会话日志文本整理、重构、纠错等。本发明实施例中,通过行为特征关注处理,扩展了调试示例,能够使得兴趣点挖掘策略适应不同的会话日志,实现对各种差别较为明显的用户行为事件的兴趣知识的挖掘,提升了兴趣点挖掘策略对于不同用户行为事件的兴趣知识分析性能。
在实际实施过程中,用户兴趣知识字段包括:用户行为事件的兴趣知识类别和兴趣知识字段在行为事件会话日志中的分布特征(比如位置标签信息)。第二多层感知机算法包括第一窗口化特征滤波单元(比如卷积核)、兴趣类别决策树单元(比如分类单元)和兴趣知识定位单元(比如回归单元),第一窗口化特征滤波单元的输出分别与兴趣类别决策树单元和兴趣知识定位单元相连,兴趣类别决策树单元输出兴趣知识类别,兴趣知识定位单元输出兴趣知识字段在行为事件会话日志中的分布特征。兴趣类别决策树单元包括级联的第一知识综合处理单元和第二知识综合处理单元,兴趣知识定位单元包括级联的第二窗口化特征滤波单元和第三知识综合处理单元。
进一步地,兴趣知识定位单元的算法代价可以采用交叉熵损失。鉴于通常采用的算法代价LOSS1在算法调试后期的变化特征较大,噪声算法稳定性差,因此可以采用交叉熵损失调节算法在调试后期的剧烈波动。
本发明实施例中,优化了第二多层感知机算法的架构,通过兴趣类别决策树单元和兴趣知识定位单元分别得到用户行为事件的兴趣知识类别和对应的兴趣知识字段在行为事件会话日志中的分布特征,在兴趣知识定位单元加入窗口化特征滤波单元能够提升得到的兴趣知识字段在行为事件会话日志中的分布特征(比如定位窗口)的定位精度。
在一些可独立实施的设计思路下,在步骤12之前,该方法还包括如下内容。
步骤110、对互联网金融业务会话日志进行调整,得到完成标准化处理的互联网金融业务会话日志。
其中,完成标准化处理的互联网金融业务会话日志的字段密度为指定字段密度,互联网金融业务会话日志的相对段落约束值在调整前后维持一致。举例而言,相对段落约束值可以是互联网金融业务会话日志每行最大字符数与最大行数的比例值。
基于此,步骤12可以包括如下内容。
步骤121、将完成标准化处理的互联网金融业务会话日志加载到用户行为捕捉策略,通过用户行为捕捉策略解析得到互联网金融业务会话日志中的用户行为数据集。
本发明实施例中,通过将互联网金融业务会话日志调整至指定字段密度(字段密度用于描述会话日志的规模)的会话日志,实现了对互联网金融业务会话日志的标准化,提升了用户行为捕捉策略的对于用户行为数据集的抗干扰性。
在实际实施过程中,在步骤14之前,方法还包括如下内容。
步骤130、将行为事件会话日志调整得到完成标准化处理的行为事件会话日志。其中,完成标准化处理的行为事件会话日志的字段密度为指定字段密度,行为事件会话日志的相对段落约束值在调整前后维持一致。
基于此,步骤14包括如下内容。
步骤141、将完成标准化处理的行为事件会话日志加载到兴趣点挖掘策略,通过兴趣点挖掘策略对行为事件会话日志进行事件兴趣点挖掘并获得用户兴趣知识字段。
本发明实施例中,通过将行为事件会话日志调整至指定字段密度的会话日志,实现了对行为事件会话日志的标准化,提升了兴趣点挖掘策略的对于用户兴趣知识字段的抗干扰性。
在实际实施过程中,用户行为捕捉策略还输出用户行为数据集对应的第一可信系数(比如置信度)。
在一些可能的示例下,步骤13可以包括如下内容。
步骤131、挑选第一可信系数大于第一可信判定值的目标用户行为数据集。
步骤132从互联网金融业务会话日志中分离出对应于目标用户行为数据集的行为事件会话日志。
其中,可以基于需求调整第一可信判定值。本发明实施例中,能够通过第一可信判定值挑选出目标用户行为数据集,从而减少行为数据采集的资源开销。
在实际实施过程中,兴趣点挖掘策略还获得用户兴趣知识字段对应的第二可信系数。
步骤14中“获得用户兴趣知识字段”的步骤,可以包括如下内容:挑选第二可信系数大于第二可信判定值的目标用户兴趣知识字段。其中,可以根据实际情况设置第二可信判定值。
本发明实施例中,能够通过第二可信判定值挑选出目标用户兴趣知识字段,从而减少对用户行为事件的兴趣知识进行挖掘分析的资源开销。
在另一些可能的实施例中,上述第一用户行为联动分析策略和第二用户行为联动分析策略的调试思路包括如下内容。
步骤21,获得多个示例型金融业务会话日志,示例型金融业务会话日志携带了用户行为数据集标签。
步骤22,将示例型金融业务会话日志加载到第一用户行为联动分析策略,通过第一用户行为联动分析策略解析得到示例型金融业务会话日志中的用户行为数据集标签。
步骤23,将从示例型金融业务会话日志中分离出的对应于用户行为数据集标签的行为事件会话日志作为示例型行为事件会话日志,并加载到第二用户行为联动分析策略,通过第二用户行为联动分析策略对示例型行为事件会话日志进行事件兴趣点挖掘并获得用户兴趣知识字段。其中,示例型行为事件会话日志携带了用户兴趣知识字段。
步骤24,确定每轮循环调试过程中第一用户行为联动分析策略生成的用户行为数据集标签与先验的用户行为数据集标签的第一比较数据,以及第二用户行为联动分析策略生成的用户兴趣知识字段与先验的用户兴趣知识字段的第二比较数据。
步骤25,基于第一比较数据和第二比较数据改进第一用户行为联动分析策略的策略变量和/或第二用户行为联动分析策略的策略变量,直到满足循环终止要求。
本发明实施例通过第一用户行为联动分析策略调试所得用户行为联动分析策略中的用户行为捕捉策略,以解析得到互联网金融业务会话日志中的用户行为数据集;通过第二用户行为联动分析策略调试所得用户行为联动分析策略中的兴趣点挖掘策略,以对行为事件会话日志进行事件兴趣点挖掘并获得用户兴趣知识字段,能够准确高效地从各类形式和采集方式的互联网金融业务会话日志解析得到用户行为数据集,还能够针对性地从用户行为数据集对应的行为事件会话日志中解析得到用户兴趣知识字段,能够实现对海量的用户行为事件的兴趣知识类别精准区分,从而对互联网金融业务会话日志的用户行为进行智能化且精准的兴趣挖掘分析。
在实际实施过程中,第一用户行为联动分析策略包括级联的第一窗口化特征滤波算法、第一行为细节提取算法和第一多层感知机算法。其中,第一窗口化特征滤波算法可以采用深度为50的残差网络。
本发明实施例中,在第一用户行为联动分析策略中添配了第一行为细节提取算法,改善了第一用户行为联动分析策略对于不同信息量的会话日志的处理和分析性能,能够灵活应对各类会话日志的处理分析,提高兴趣挖掘分析的可信度和效率。
在实际实施过程中,在第一用户行为联动分析策略的调试过程中依据自适应矩估计规则。本发明实施例中,通过自适应矩估计规则,能够提高算法的配置调试时效性,加快第一用户行为联动分析策略的调试过程,避免算法策略的过拟合。
在实际实施过程中,第二用户行为联动分析策略包括级联的第二窗口化特征滤波算法、第二行为细节提取算法和第二多层感知机算法。其中,第二窗口化特征滤波算法可以采用深度为100的残差网络。
本发明实施例中,在第二用户行为联动分析策略中添配了第二行为细节提取算法,改善了第二用户行为联动分析策略对于不同信息量的会话日志的处理和分析性能,能够灵活应对各类会话日志的处理分析,提高兴趣挖掘分析的可信度和效率。
在实际实施过程中,在第二用户行为联动分析策略的调试过程中,依据自适应矩估计规则。本发明实施例中,通过自适应矩估计规则,能够提高算法的配置调试时效性,加快第二用户行为联动分析策略的调试过程,避免算法策略的过拟合。
在实际实施过程中,在第二用户行为联动分析策略的调试过程中,对示例型行为事件会话日志进行行为特征关注处理。
其中,行为特征关注处理包括:优化特征识别度、语义向量维度以及上下游关系,会话日志文本整理、重构、纠错等。
本发明实施例中,通过行为特征关注处理,丰富了调试示例,能够使得第二用户行为联动分析策略适应不同的会话日志,实现对各种差别较为明显的用户行为事件的兴趣知识的挖掘,提升了第二用户行为联动分析策略对于不同用户行为事件的兴趣知识的分析性能。
在实际实施过程中,用户兴趣知识字段包括:用户行为事件的兴趣知识类别和兴趣知识字段在示例型行为事件会话日志中的分布特征。第二多层感知机算法包括第一窗口化特征滤波单元、兴趣类别决策树单元和兴趣知识定位单元,第一窗口化特征滤波单元的输出分别与兴趣类别决策树单元和兴趣知识定位单元相连,兴趣类别决策树单元输出兴趣知识类别,兴趣知识定位单元输出兴趣知识字段在示例型行为事件会话日志中的分布特征。
兴趣类别决策树单元包括级联的第一知识综合处理单元和第二知识综合处理单元,兴趣知识定位单元包括级联的第二窗口化特征滤波单元和第三知识综合处理单元。其中,兴趣知识定位单元的算法代价可以采用交叉熵损失。
在一些独立性设计思路下,在确定出用户兴趣知识字段之后,该方法还可以包括如下内容:基于所述用户兴趣知识字段确定推送需求向量;利用所述推送需求向量进行信息推荐。
如此一来,能够结合用户兴趣知识字段顺藤摸瓜获得推送需求向量,进而实现针对性的信息推荐处理,提高大数据推送的效率和质量。
在一些独立性设计思路下,基于所述用户兴趣知识字段确定推送需求向量,可以包括如下内容:对所述用户兴趣知识字段进行需求短语提取,得到第一需求短语;确定第一需求短语的第一需求类型标签和第二需求短语的第二需求类型标签;根据所述第一需求类型标签和所述第二需求类型标签,对需求短语分析变量中的至少一个变量进行调节,得到调节信息,所述需求短语分析变量包括:所述第一需求短语和所述第二需求短语的第一词向量相关度和相关度判定值;根据所述调节信息,确定第一需求短语和第二需求短语是否匹配;在第一需求短语和第二需求短语匹配的基础上,通过所述第二需求短语确定所述第一需求短语的推送需求向量;其中,所述第二需求短语为样本需求短语。
如此设计,能够基于样本需求短语间接确定第一需求短语的推送需求向量,从而提高推送需求向量的确定精度。此外,鉴于需求短语是与需求类型标签相关的,并且有些需求类型标签的需求短语之间的差异较大,有些需求类型标签的需求短语之间的差异较小,在进行需求短语匹配的过程中,依据两个需求短语的需求类型标签对需求短语分析变量进行调节,依据调节信息来确定两个需求短语是否匹配,能提高需求短语匹配过程的精度。
在一些独立性设计思路下,所述根据所述第一需求类型标签和所述第二需求类型标签,对需求短语分析变量中的至少一个变量进行调节,得到调节信息,包括:在第一需求类型标签和第二需求类型标签一致的基础上,根据所述第一需求类型标签,对所述第一词向量相关度进行调节,得到第二词向量相关度;所述根据所述调节信息,确定第一需求短语和第二需求短语是否匹配,包括:根据所述第二词向量相关度与所述相关度判定值,确定第一需求短语和第二需求短语是否匹配。
在一些独立性设计思路下,所述根据所述第二词向量相关度与所述相关度判定值,确定第一需求短语和第二需求短语是否匹配,包括:根据第一需求短语对应所述第一需求类型标签的第一可能性评分,所述第二需求短语对应所述第二需求类型标签的第二可能性评分、所述第一词向量相关度、以及所述第二词向量相关度,得到第三词向量相关度;将所述第三词向量相关度与相关度判定值进行比对,确定第一需求短语第二需求短语是否匹配。
在一些独立性设计思路下,所述根据第一需求短语对应所述第一需求类型标签的第一可能性评分、所述第二需求短语对应所述第二需求类型标签的第二可能性评分、所述第一词向量相关度、以及所述第二词向量相关度,得到第三词向量相关度,包括:确定所述第一需求短语对应所述第一需求类型标签的第一可能性评分,以及所述第二需求短语对应所述第二需求类型标签的第二可能性评分;以所述第一可能性评分和所述第二可能性评分,对所述第二词向量相关度与所述第一词向量相关度的差值进行全局计算,得到全局计算值;将所述第一词向量相关度与所述全局计算值进行求和,得到第三词向量相关度。
在一些可能的示例下,通过构建一套通用的数据采集Saas平台,提供强大的数据API服务能力,为营销活动开发者提供OAuth2.0的统一接入模式;重点在于通过提供可视化采集+代码采集混合的方式,将营销活动常见的用户交互行为SDK化,API化、及数据可视化。可视化定义指标,在大数据中实时统计分析,建立多种个性化效能实时报表,追溯每个用户行为轨迹,精准、快速地分析用户行为习惯;支持路径分析,留存分析,漏斗分析,事件分行等多种经典分析模型,达到提高开发人员采集数据的工作效率的效果,并且具备营销活动金融场景下的通用性。
基于上述相同或相似的发明构思,如图3所示,本发明实施例还提供了一种用户行为数据采集系统30的架构示意图,包括互相之间通信的Saas数据挖掘云平台10和数据服务器20,Saas数据挖掘云平台10和数据服务器20在运行时实现或者部分实现上述方法实施例所描述的技术方案。
进一步地,本发明实施例还提供了一种可读存储介质,其上存储有程序,该程序被处理器执行时实现上述的方法。
在本发明实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,媒体业务服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何调节、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种用户行为数据采集方法,其特征在于,应用于Saas数据挖掘云平台,所述方法包括:
采集互联网金融业务会话日志,并将所述互联网金融业务会话日志加载到用户行为捕捉策略,通过所述用户行为捕捉策略解析得到所述互联网金融业务会话日志中的用户行为数据集;其中,所述用户行为数据集反映用户行为事件在所述互联网金融业务会话日志中所在的日志段落,所述用户行为捕捉策略通过多个注释了用户行为数据集的示例型金融业务会话日志对第一用户行为联动分析策略调试所得;
从所述互联网金融业务会话日志中分离出对应于所述用户行为数据集的行为事件会话日志;将所述行为事件会话日志加载到兴趣点挖掘策略,通过所述兴趣点挖掘策略对所述行为事件会话日志进行事件兴趣点挖掘并获得用户兴趣知识字段;其中,所述兴趣点挖掘策略通过多个携带了用户兴趣知识字段的示例型行为事件会话日志对第二用户行为联动分析策略调试所得;
其中,所述第二用户行为联动分析策略包括级联的第二窗口化特征滤波算法、第二行为细节提取算法和第二多层感知机算法;以及,在所述兴趣点挖掘策略的调试过程中,依据自适应矩估计规则;以及,在所述兴趣点挖掘策略的调试过程中,对所述示例型行为事件会话日志进行行为特征关注处理;
其中,所述用户兴趣知识字段包括:用户行为事件的兴趣知识类别和兴趣知识字段在所述行为事件会话日志中的分布特征;所述第二多层感知机算法包括第一窗口化特征滤波单元、兴趣类别决策树单元和兴趣知识定位单元,所述第一窗口化特征滤波单元的输出分别与所述兴趣类别决策树单元和所述兴趣知识定位单元相连,所述兴趣类别决策树单元生成所述兴趣知识类别,所述兴趣知识定位单元生成所述兴趣知识字段在所述行为事件会话日志中的分布特征;所述兴趣类别决策树单元包括级联的第一知识综合处理单元和第二知识综合处理单元,所述兴趣知识定位单元包括级联的第二窗口化特征滤波单元和第三知识综合处理单元;
其中,所述用户行为捕捉策略还用于生成所述用户行为数据集对应的第一可信系数;所述从所述互联网金融业务会话日志中分离出对应于所述用户行为数据集的行为事件会话日志的步骤,包括:挑选第一可信系数大于第一可信判定值的目标用户行为数据集;从所述互联网金融业务会话日志中分离出对应于所述目标用户行为数据集的行为事件会话日志;以及,所述兴趣点挖掘策略还用于生成所述用户兴趣知识字段对应的第二可信系数;所述获得用户兴趣知识字段的步骤,包括:挑选第二可信系数大于第二可信判定值的目标用户兴趣知识字段;
其中,所述第一用户行为联动分析策略和第二用户行为联动分析策略的调试思路如下:获得多个示例型金融业务会话日志,所述示例型金融业务会话日志携带了用户行为数据集标签;将所述示例型金融业务会话日志加载到第一用户行为联动分析策略,通过所述第一用户行为联动分析策略解析得到所述示例型金融业务会话日志中的用户行为数据集标签;将从所述示例型金融业务会话日志中分离出的对应于所述用户行为数据集标签的行为事件会话日志作为示例型行为事件会话日志,并加载到第二用户行为联动分析策略,通过所述第二用户行为联动分析策略对所述示例型行为事件会话日志进行事件兴趣点挖掘并获得用户兴趣知识字段;其中,所述示例型行为事件会话日志携带了用户兴趣知识字段;确定每轮循环调试过程中所述第一用户行为联动分析策略生成的用户行为数据集标签与先验的用户行为数据集标签的第一比较数据,以及所述第二用户行为联动分析策略生成的用户兴趣知识字段与先验的用户兴趣知识字段的第二比较数据;通过所述第一比较数据和第二比较数据改进所述第一用户行为联动分析策略的策略变量和/或第二用户行为联动分析策略的策略变量,直到满足循环终止要求;
其中,在确定出用户兴趣知识字段之后,所述方法还包括:基于所述用户兴趣知识字段确定推送需求向量;利用所述推送需求向量进行信息推荐;其中,基于所述用户兴趣知识字段确定推送需求向量,包括:对所述用户兴趣知识字段进行需求短语提取,得到第一需求短语;确定第一需求短语的第一需求类型标签和第二需求短语的第二需求类型标签;根据所述第一需求类型标签和所述第二需求类型标签,对需求短语分析变量中的至少一个变量进行调节,得到调节信息,所述需求短语分析变量包括:所述第一需求短语和所述第二需求短语的第一词向量相关度和相关度判定值;根据所述调节信息,确定第一需求短语和第二需求短语是否匹配;在第一需求短语和第二需求短语匹配的基础上,通过所述第二需求短语确定所述第一需求短语的推送需求向量;其中,所述第二需求短语为样本需求短语;其中,所述根据所述第一需求类型标签和所述第二需求类型标签,对需求短语分析变量中的至少一个变量进行调节,得到调节信息,包括:在第一需求类型标签和第二需求类型标签一致的基础上,根据所述第一需求类型标签,对所述第一词向量相关度进行调节,得到第二词向量相关度;所述根据所述调节信息,确定第一需求短语和第二需求短语是否匹配,包括:根据所述第二词向量相关度与所述相关度判定值,确定第一需求短语和第二需求短语是否匹配。
2.根据权利要求1所述的用户行为数据采集方法,其特征在于,所述第一用户行为联动分析策略包括级联的第一窗口化特征滤波算法、第一行为细节提取算法和第一多层感知机算法;以及,在所述用户行为捕捉策略的调试过程中依据自适应矩估计规则。
3.根据权利要求1所述的用户行为数据采集方法,其特征在于,在所述将所述互联网金融业务会话日志加载到用户行为捕捉策略的步骤之前,所述方法还包括:对所述互联网金融业务会话日志进行调整,得到完成标准化处理的互联网金融业务会话日志,其中,所述完成标准化处理的互联网金融业务会话日志的字段密度为指定字段密度,所述互联网金融业务会话日志的相对段落约束值在调整前后维持一致;
所述将所述互联网金融业务会话日志加载到用户行为捕捉策略的步骤,包括:将所述完成标准化处理的互联网金融业务会话日志加载到所述用户行为捕捉策略。
4.根据权利要求1所述的用户行为数据采集方法,其特征在于,在所述将所述行为事件会话日志加载到兴趣点挖掘策略的步骤之前,所述方法还包括:将所述行为事件会话日志调整得到完成标准化处理的行为事件会话日志,其中,所述完成标准化处理的行为事件会话日志的字段密度为指定字段密度,所述行为事件会话日志的相对段落约束值在调整前后维持一致;
所述将所述行为事件会话日志加载到兴趣点挖掘策略的步骤,包括:将所述完成标准化处理的行为事件会话日志加载到所述兴趣点挖掘策略。
5.一种用户行为数据采集系统,其特征在于,包括互相之间通信的Saas数据挖掘云平台和数据服务器;
所述Saas数据挖掘云平台用于:
通过所述数据服务器采集互联网金融业务会话日志,并将所述互联网金融业务会话日志加载到用户行为捕捉策略,通过所述用户行为捕捉策略解析得到所述互联网金融业务会话日志中的用户行为数据集;其中,所述用户行为数据集反映用户行为事件在所述互联网金融业务会话日志中所在的日志段落,所述用户行为捕捉策略通过多个注释了用户行为数据集的示例型金融业务会话日志对第一用户行为联动分析策略调试所得;
从所述互联网金融业务会话日志中分离出对应于所述用户行为数据集的行为事件会话日志;将所述行为事件会话日志加载到兴趣点挖掘策略,通过所述兴趣点挖掘策略对所述行为事件会话日志进行事件兴趣点挖掘并获得用户兴趣知识字段;其中,所述兴趣点挖掘策略通过多个携带了用户兴趣知识字段的示例型行为事件会话日志对第二用户行为联动分析策略调试所得;
其中,所述第二用户行为联动分析策略包括级联的第二窗口化特征滤波算法、第二行为细节提取算法和第二多层感知机算法;以及,在所述兴趣点挖掘策略的调试过程中,依据自适应矩估计规则;以及,在所述兴趣点挖掘策略的调试过程中,对所述示例型行为事件会话日志进行行为特征关注处理;
其中,所述用户兴趣知识字段包括:用户行为事件的兴趣知识类别和兴趣知识字段在所述行为事件会话日志中的分布特征;所述第二多层感知机算法包括第一窗口化特征滤波单元、兴趣类别决策树单元和兴趣知识定位单元,所述第一窗口化特征滤波单元的输出分别与所述兴趣类别决策树单元和所述兴趣知识定位单元相连,所述兴趣类别决策树单元生成所述兴趣知识类别,所述兴趣知识定位单元生成所述兴趣知识字段在所述行为事件会话日志中的分布特征;所述兴趣类别决策树单元包括级联的第一知识综合处理单元和第二知识综合处理单元,所述兴趣知识定位单元包括级联的第二窗口化特征滤波单元和第三知识综合处理单元;
其中,所述用户行为捕捉策略还用于生成所述用户行为数据集对应的第一可信系数;所述从所述互联网金融业务会话日志中分离出对应于所述用户行为数据集的行为事件会话日志的步骤,包括:挑选第一可信系数大于第一可信判定值的目标用户行为数据集;从所述互联网金融业务会话日志中分离出对应于所述目标用户行为数据集的行为事件会话日志;以及,所述兴趣点挖掘策略还用于生成所述用户兴趣知识字段对应的第二可信系数;所述获得用户兴趣知识字段的步骤,包括:挑选第二可信系数大于第二可信判定值的目标用户兴趣知识字段;
其中,所述第一用户行为联动分析策略和第二用户行为联动分析策略的调试思路如下:获得多个示例型金融业务会话日志,所述示例型金融业务会话日志携带了用户行为数据集标签;将所述示例型金融业务会话日志加载到第一用户行为联动分析策略,通过所述第一用户行为联动分析策略解析得到所述示例型金融业务会话日志中的用户行为数据集标签;将从所述示例型金融业务会话日志中分离出的对应于所述用户行为数据集标签的行为事件会话日志作为示例型行为事件会话日志,并加载到第二用户行为联动分析策略,通过所述第二用户行为联动分析策略对所述示例型行为事件会话日志进行事件兴趣点挖掘并获得用户兴趣知识字段;其中,所述示例型行为事件会话日志携带了用户兴趣知识字段;确定每轮循环调试过程中所述第一用户行为联动分析策略生成的用户行为数据集标签与先验的用户行为数据集标签的第一比较数据,以及所述第二用户行为联动分析策略生成的用户兴趣知识字段与先验的用户兴趣知识字段的第二比较数据;通过所述第一比较数据和第二比较数据改进所述第一用户行为联动分析策略的策略变量和/或第二用户行为联动分析策略的策略变量,直到满足循环终止要求;
其中,在确定出用户兴趣知识字段之后,还用于:基于所述用户兴趣知识字段确定推送需求向量;利用所述推送需求向量进行信息推荐;其中,基于所述用户兴趣知识字段确定推送需求向量,包括:对所述用户兴趣知识字段进行需求短语提取,得到第一需求短语;确定第一需求短语的第一需求类型标签和第二需求短语的第二需求类型标签;根据所述第一需求类型标签和所述第二需求类型标签,对需求短语分析变量中的至少一个变量进行调节,得到调节信息,所述需求短语分析变量包括:所述第一需求短语和所述第二需求短语的第一词向量相关度和相关度判定值;根据所述调节信息,确定第一需求短语和第二需求短语是否匹配;在第一需求短语和第二需求短语匹配的基础上,通过所述第二需求短语确定所述第一需求短语的推送需求向量;其中,所述第二需求短语为样本需求短语;其中,所述根据所述第一需求类型标签和所述第二需求类型标签,对需求短语分析变量中的至少一个变量进行调节,得到调节信息,包括:在第一需求类型标签和第二需求类型标签一致的基础上,根据所述第一需求类型标签,对所述第一词向量相关度进行调节,得到第二词向量相关度;所述根据所述调节信息,确定第一需求短语和第二需求短语是否匹配,包括:根据所述第二词向量相关度与所述相关度判定值,确定第一需求短语和第二需求短语是否匹配。
6.一种Saas数据挖掘云平台,其特征在于,包括处理器和存储器;所述处理器和所述存储器通信连接,所述处理器用于从所述存储器中读取计算机程序并执行,以实现上述权利要求1-4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210738520.7A CN114840486B (zh) | 2022-06-28 | 2022-06-28 | 用户行为数据采集方法、系统及云平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210738520.7A CN114840486B (zh) | 2022-06-28 | 2022-06-28 | 用户行为数据采集方法、系统及云平台 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114840486A CN114840486A (zh) | 2022-08-02 |
CN114840486B true CN114840486B (zh) | 2022-09-16 |
Family
ID=82573787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210738520.7A Active CN114840486B (zh) | 2022-06-28 | 2022-06-28 | 用户行为数据采集方法、系统及云平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114840486B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115422463B (zh) * | 2022-09-27 | 2024-04-19 | 耳纹元智能科技(广东)有限公司 | 基于大数据的用户分析推送处理方法及系统 |
CN115374186B (zh) * | 2022-09-29 | 2023-08-08 | 上海罗盘信息科技有限公司 | 基于大数据的数据处理方法及ai系统 |
CN115455300B (zh) * | 2022-09-29 | 2023-04-14 | 临沂沂川网络科技有限公司 | 基于人工智能的数据推送方法、系统及云平台 |
CN115905702B (zh) * | 2022-12-06 | 2023-10-10 | 雨果跨境(厦门)科技有限公司 | 基于用户需求分析的数据推荐方法及系统 |
CN115982236B (zh) * | 2022-12-23 | 2023-08-22 | 海南益磊投资有限公司 | 一种应用于ai的大数据优化方法及服务器 |
CN115827944B (zh) * | 2022-12-23 | 2024-03-01 | 山东新明辉安全科技有限公司 | 基于互联网平台系统优化的大数据分析方法及服务器 |
CN116010370B (zh) * | 2023-03-28 | 2023-06-06 | 太仓市律点信息技术有限公司 | 结合边缘计算的数字业务信息处理方法及服务器 |
CN116405551B (zh) * | 2023-04-14 | 2024-03-29 | 深圳市优友网络科技有限公司 | 基于社交平台的数据推送方法、系统及云平台 |
CN116975455B (zh) * | 2023-09-24 | 2023-12-22 | 太仓市律点信息技术有限公司 | 用户兴趣识别方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103399883A (zh) * | 2013-07-19 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 根据用户兴趣点/关注点进行个性化推荐的方法和系统 |
CN103678652A (zh) * | 2013-12-23 | 2014-03-26 | 山东大学 | 一种基于Web日志数据的信息个性化推荐方法 |
CN105512334A (zh) * | 2015-12-29 | 2016-04-20 | 成都陌云科技有限公司 | 基于搜索词的数据挖掘方法 |
JP2018136845A (ja) * | 2017-02-23 | 2018-08-30 | 株式会社Wacul | ログ収集システム、ログ収集方法、アクセス解析システム、アクセス解析方法、及びプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9928295B2 (en) * | 2014-01-31 | 2018-03-27 | Vortext Analytics, Inc. | Document relationship analysis system |
CN114564522B (zh) * | 2022-03-08 | 2022-11-15 | 山邮数字科技(山东)有限公司 | 基于区块链和大数据挖掘的智能推送处理方法及系统 |
-
2022
- 2022-06-28 CN CN202210738520.7A patent/CN114840486B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103399883A (zh) * | 2013-07-19 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 根据用户兴趣点/关注点进行个性化推荐的方法和系统 |
CN103678652A (zh) * | 2013-12-23 | 2014-03-26 | 山东大学 | 一种基于Web日志数据的信息个性化推荐方法 |
CN105512334A (zh) * | 2015-12-29 | 2016-04-20 | 成都陌云科技有限公司 | 基于搜索词的数据挖掘方法 |
JP2018136845A (ja) * | 2017-02-23 | 2018-08-30 | 株式会社Wacul | ログ収集システム、ログ収集方法、アクセス解析システム、アクセス解析方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN114840486A (zh) | 2022-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114840486B (zh) | 用户行为数据采集方法、系统及云平台 | |
WO2020037917A1 (zh) | 一种用户行为数据推荐方法、服务器及计算机可读介质 | |
CN110688553A (zh) | 基于数据分析的信息推送方法、装置、计算机设备及存储介质 | |
CN114357197B (zh) | 事件推理方法和装置 | |
CN108446333B (zh) | 一种大数据文本挖掘处理系统及其方法 | |
CN112258254A (zh) | 基于大数据架构的互联网广告风险监测方法及系统 | |
CN113468432A (zh) | 基于移动互联网的用户行为大数据分析方法及系统 | |
CN111444424A (zh) | 一种信息推荐方法和信息推荐系统 | |
CN115168453A (zh) | 关于电子商务数据推送的兴趣分析方法及系统 | |
Rao et al. | An optimal machine learning model based on selective reinforced Markov decision to predict web browsing patterns | |
CN117574915A (zh) | 基于多方数据源的公共数据平台及其数据分析方法 | |
CN107016561B (zh) | 一种信息处理方法和装置 | |
CN107679097A (zh) | 一种分布式数据处理方法、系统和存储介质 | |
CN116881430A (zh) | 一种产业链识别方法、装置、电子设备及可读存储介质 | |
US20170109637A1 (en) | Crowd-Based Model for Identifying Nonconsecutive Executions of a Business Process | |
CN107734534A (zh) | 一种网络负荷评估方法及装置 | |
CN115455151A (zh) | 一种ai情绪可视化识别方法、系统及云平台 | |
CN113327154B (zh) | 基于大数据的电商用户讯息推送方法及系统 | |
CN114625961A (zh) | 应用于大数据的智能化在线服务推送方法及大数据服务器 | |
CN104376021A (zh) | 文件推荐系统及方法 | |
CN112785095A (zh) | 贷款预测方法、装置、电子设备和计算机可读存储介质 | |
CN111552785A (zh) | 人机交互系统数据库更新方法、装置、计算机设备和介质 | |
CN115658675B (zh) | 应用于数据处理的噪声优化方法及ai系统 | |
CN115174633B (zh) | 工业互联网业务数据处理方法、系统及云平台 | |
CN108037917A (zh) | 国际贸易数据管理系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240113 Address after: Room 312, Building A1-1, Xuelang Town Data Innovation Center, No.1 Fengrun Road, Wuxi Economic Development Zone, Wuxi City, Jiangsu Province, 214000 Patentee after: Wuxi Qumi Digital Technology Co.,Ltd. Address before: 510000 rooms 4210-4211 and 4212-4214, second floor, No. 37 yuangangheng Road, Tianhe District, Guangzhou City, Guangdong Province Patentee before: Guangzhou Qumi Network Technology Co.,Ltd. |
|
TR01 | Transfer of patent right |