CN115062200A - 基于人工智能的用户行为挖掘方法及系统 - Google Patents
基于人工智能的用户行为挖掘方法及系统 Download PDFInfo
- Publication number
- CN115062200A CN115062200A CN202210680079.1A CN202210680079A CN115062200A CN 115062200 A CN115062200 A CN 115062200A CN 202210680079 A CN202210680079 A CN 202210680079A CN 115062200 A CN115062200 A CN 115062200A
- Authority
- CN
- China
- Prior art keywords
- data
- target
- browsing
- clustering
- ontology
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及智能决策领域,揭露一种基于人工智能的用户行为挖掘方法及系统,方法包括:侦测用户在网页的浏览记录,提取浏览记录的浏览数据,对浏览数据进行去重处理,得到目标数据;识别目标数据的数据本体,计算数据本体在浏览记录的置信度,选取置信度大于预设阈值的数据本体作为目标本体,以将目标数据的数据进行聚类,得到多个初始聚类数据,检测每个初始聚类数据的数据类别,以将多个初始聚类数据的数据进行重聚类,得到目标聚类数据;分析目标聚类数据中每个数据的数据属性,根据数据属性,构建目标聚类数据的数据关联图,以识别用户的偏好行为。本发明可以实现用户行为的偏好准确分析,提高用户行为的数据挖掘准确性。
Description
技术领域
本发明涉及智能决策领域,尤其涉及一种基于人工智能的用户行为挖掘方法及系统。
背景技术
随着互联网技术的快速发展,网上用户的数量日益剧增,网上用户的线上行为也带来了网络数据的爆炸式增长,而在这爆炸式增长的网络数据中存在着大量极具价值的信息,因此,如何从网络数据中挖掘出具有价值的信息数据显得尤为重要。
目前,网络数据的挖掘通常是基于数据统计工具来对移动用户的行为进行建模分析实现,但是通过数据统计工具无法准确定位到移动用户所处的网络环境和无法准确了解到移动用户的全局信息,导致在对移动用户的行为进行建模时会丢失部分移动用户信息的现象,从而会影响移动用户的行为分析准确性。
发明内容
为了解决上述问题,本发明提供了一种基于人工智能的用户行为挖掘方法及系统,可以实现用户行为的偏好准确分析,提高用户行为的数据挖掘准确性。
第一方面,本发明提供了一种基于人工智能的用户行为挖掘方法,包括:
侦测用户在网页中的浏览记录,提取所述浏览记录中每条记录的浏览数据,并对所述浏览数据进行去重处理,得到目标数据;
识别所述目标数据的数据本体,并计算所述数据本体在所述浏览记录中的原始支持度,根据所述原始支持度,计算所述数据本体在所述浏览记录中的置信度,选取所述置信度大于预设阈值的数据本体作为目标本体;
根据所述目标本体,将所述目标数据中的数据进行聚类,得到多个初始聚类数据,并利用预训练好的数据分类模型检测每个所述初始聚类数据的数据类别,并根据所述数据类别,将所述多个初始聚类数据中的数据进行重聚类,得到目标聚类数据;
分析所述目标聚类数据中每个数据的数据属性,根据所述数据属性,构建所述目标聚类数据的数据关联图,根据所述数据关联图,识别所述用户在所述网页中的偏好行为。
在第一方面的一种可能实现方式中,所述侦测用户在网页中的浏览记录,包括:
响应于所述用户在所述网页中的浏览事件,触发预先在所述网页中配置的埋点工具;
通过所述埋点工具记录所述用户在所述网页中的浏览日志,根据所述浏览日志,生成所述浏览记录。
在第一方面的一种可能实现方式中,所述对所述浏览数据进行去重处理,得到目标数据包括:
将所述浏览数据中每个数据进行向量转换,得到数据向量,计算所述数据向量中任意两个向量的相似度;
在所述相似度大于预设相似度时,删除所述任意两个向量中一个向量对应的数据,得到所述目标数据;
其中,利用下述公式计算所述数据向量中任意两个向量的相似度:
其中,d表示数据向量中任意两个向量的相似度,P1i和P2i表示原始数据中任意两个数据,n表示数据向量中的向量数量,d表示距离函数。
在第一方面的一种可能实现方式中,所述识别所述目标数据的数据本体,包括:
查询所述目标数据中每个数据的数据字段,根据所述数据字段,识别所述目标数据中每个数据的数据类型;
根据所述数据类型,提取所述目标数据中每个数据的数据特征,根据所述数据特征,识别所述目标数据的数据本体。
在第一方面的一种可能实现方式中,所述根据所述原始支持度,计算所述数据本体在所述浏览记录中的置信度,包括:
将所述原始支持度对应的数据本体作为第一本体,并从所述数据本体的剩余本体中随机选取一个本体,得到第二本体;
统计所述第一本体与所述第二本体在所述浏览记录中每条记录同时出现的同时数量,根据所述同时数量和所述浏览记录的记录数量,计算所述第一本体与所述第二本体的支持度,得到目标支持度;
根据所述原始支持度和所述目标支持度,计算所述数据本体在所述浏览记录中的置信度;
其中,利用下述公式计算所述数据本体在所述浏览记录中的置信度:
其中,S(A)表示数据本体A的置信度,P(A|B)表示数据本体A和数据本体B的目标支持度,P(A)表示数据本体A的原始支持度。
在第一方面的一种可能实现方式中,所述根据所述目标本体,将所述目标数据中的数据进行聚类,得到多个初始聚类数据,包括:
根据所述目标本体,划分所述目标数据中数据的聚类中心点;
计算所述目标数据中每个数据与所述聚类中心点的距离值;
在所述距离值小于预设距离值时,将所述距离值对应的数据归类至所述聚类中心点中,得到所述多个初始聚类数据。
在第一方面的一种可能实现方式中,所述利用预训练好的数据分类模型检测每个所述初始聚类数据的数据类别之前,还包括:
获取训练样本及其对应的真实标签,并初始化待训练数据分类模型的模型参数;
将所述训练样本输入至所述待训练数据分类模型的输入层中;以通过所述待训练数据分类模型中的隐藏层计算所述训练样本的预测分类概率,并根据所述预测分类概率,利用所述待训练数据分类模型中的输出层输出所述训练样本的预测类别,并计算所述预测类别与所述真实标签的损失值;
在所述损失值大于预设损失值时,调整所述待训练数据分类模型的模型参数后,返回执行所述将所述训练样本输入至所述待训练数据分类模型的输入层中的步骤;
在所述损失值不大于所述预设损失时,得到预训练好的数据分类模型;
其中,利用下述公式输出所述训练样本的预测类别:
其中,y1表示预测类别,f表示输出层的激励函数,pi表示隐藏层与输出层的节点连接权值,g表示隐藏层的激励函数,ωij表示输入层与隐藏层的节点连接权值,ζi表示隐藏层的阈值,η表示输出层的阈值,n表示训练样本的数量,m表示神经元的数量。
第二方面,本发明提供了一种基于人工智能的用户行为挖掘系统,所述系统包括:
浏览数据去重模块,用于侦测用户在网页中的浏览记录,提取所述浏览记录中每条记录的浏览数据,并对所述浏览数据进行去重处理,得到目标数据;
数据本体选取模块,用于识别所述目标数据的数据本体,并计算所述数据本体在所述浏览记录中的原始支持度,根据所述原始支持度,计算所述数据本体在所述浏览记录中的置信度,选取所述置信度大于预设阈值的数据本体作为目标本体;
目标数据聚类模块,用于根据所述目标本体,将所述目标数据中的数据进行聚类,得到多个初始聚类数据,并利用预训练好的数据分类模型检测每个所述初始聚类数据的数据类别,并根据所述数据类别,将所述多个初始聚类数据中的数据进行重聚类,得到目标聚类数据;
偏好行为分析模块,用于分析所述目标聚类数据中每个数据的数据属性,根据所述数据属性,构建所述目标聚类数据的数据关联图,根据所述数据关联图,识别所述用户在所述网页中的偏好行为。
与现有技术相比,本方案的技术原理及有益效果在于:
本发明实施例首先通过侦测用户在网页中的浏览记录,提取浏览记录中的浏览数据,对浏览数据进行去重处理,得到目标数据,可以筛选出所述浏览数据中的重复数据,保障后续数据的处理效率,并识别目标数据的数据本体,计算数据本体在浏览记录中的置信度,选取置信度大于预设阈值的数据本体作为目标本体,可以明确用户在网页中的浏览对象,了解用户所处的网页环境,保障后续在分析用户行为时网络环境的数据不会丢失,保障后续数据的偏好准确分析;其次,本发明实施例通过将目标数据中的数据进行聚类,得到多个初始聚类数据,以将所述目标数据中的数据按照所述目标本体进行初始归类,了解用户的全局信息,保障后续数据的准确和高效分析,并利用预训练好的数据分类模型检测每个初始聚类数据的数据类别,以将多个初始聚类数据中的数据进行重聚类,得到目标聚类数据,可以智能化的检测每个所述初始聚类数据的聚类类别,进一步明确用户所处包含的全局信息,从而可以进一步保障后续数据分析的准确性;进一步地,本发明实施例通过分析目标聚类数据中每个数据的数据属性,根据数据属性,构建目标聚类数据的数据关联图,以识别用户在所述网页中的偏好行为,可以确定所述目标聚类数据中每个数据的描述信息,实现所述用户在所述网页中的行为可视化分析,保障所述用户的行为挖掘的准确性。因此,本发明实施例提出的一种基于人工智能的用户行为挖掘方法、系统、设备及介质,可以实现用户行为的偏好准确分析,提高用户行为的数据挖掘准确性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种基于人工智能的用户行为挖掘方法的流程示意图;
图2为本发明一实施例中图1提供的一种基于人工智能的用户行为挖掘方法的其中一个步骤的流程示意图;
图3为本发明一实施例中图1提供的一种基于人工智能的用户行为挖掘方法的另外一个步骤的流程示意图;
图4为本发明一实施例提供的一种基于人工智能的用户行为挖掘系统的模块示意图;
图5为本发明一实施例提供的实现一种基于人工智能的用户行为挖掘方法的电子设备的内部结构示意图。
具体实施方式
应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
本发明实施例提供一种基于人工智能的用户行为挖掘方法,所述一种基于人工智能的用户行为挖掘方法的执行主体包括但不限于服务端、终端等能够被配置为执行本发明实施例提供的该方法的电子设备中的至少一种。换言之,所述一种基于人工智能的用户行为挖掘方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参阅图1所示,是本发明一实施例提供的一种基于人工智能的用户行为挖掘方法的流程示意图。其中,图1中描述的一种基于人工智能的用户行为挖掘方法包括:
S1、侦测用户在网页中的浏览记录,提取所述浏览记录中每条记录的浏览数据,并对所述浏览数据进行去重处理,得到目标数据。
本发明实施例中,所述网页是指用于加载至浏览器提供给用户进行数据操作的前端页面,如搜索页面、展示页面等,所述用户可以理解为需要通过所述网页去获取其本身需求的个体,所述浏览记录是指通过所述用户在所述网页中进行数据操作时所产生的数据记录,常见的如浏览时间、浏览目标、用户信息等数据记录。
作为本发明的一个实施例,所述侦测用户在网页中的浏览记录,包括:响应于所述用户在所述网页中的浏览事件,触发预先在所述网页中配置的埋点工具,通过所述埋点工具记录所述用户在所述网页中的浏览日志,根据所述浏览日志,生成所述浏览记录。
其中,所述浏览事件是指描述所述用户在所述网页中的行为事件,如搜索事件、查询事件等,详细地如查询订单物流事件、搜索产品参数事件等,所述埋点工具是用于采集所述用户在所述网页中所产生的日志工具,其可以通过埋点技术进行构建,如半埋点、无埋点等技术。
进一步地,本发明实施例通过提取所述浏览记录中每条记录的浏览数据,以获取所述用户在所述网页中所产生的具体用户数据,所述浏览数据包括用户基本数据和用户行为数据,所述用户基本数据包括姓名、性别以及年龄等数据,所述行为数据包括行为对象、行为域名以及行为IP等数据。可选的,所述浏览数据可以通过编译自动化脚本工具进行提取,以提高所述浏览数据的提取效率,所述自动化脚本工具可以通过JS脚本语言进行编译得到。
进一步地,本发明实施例通过对所述浏览数据进行去重处理,以筛选出所述浏览数据中的重复数据,保障后续数据的处理效率。
作为本发明的一个实施例,所述对所述浏览数据进行去重处理,得到目标数据包括:将所述浏览数据中每个数据进行向量转换,得到数据向量,计算所述数据向量中任意两个向量的相似度,在所述相似度大于预设相似度时,删除所述任意两个向量中一个向量对应的数据,得到所述目标数据。
其中,所述数据向量是指所述浏览数据中每个数据的数值化形式,其用于保障后续所述浏览数据中数据相似度的计算前提。
进一步地,本发明一可选实施例中,所述浏览数据中每个数据的向量转换可以通过向量转换算法实现,如word2vec算法。
进一步地,本发明一可选实施例中,利用下述公式计算所述数据向量中任意两个向量的相似度:
其中,d表示数据向量中任意两个向量的相似度,P1i和P2i表示原始数据中任意两个数据,n表示数据向量中的向量数量,d表示距离函数。进一步可选的,所述预设相似度可以设置0.88,也可以根据实际业务场景设置。
S2、识别所述目标数据的数据本体,并计算所述数据本体在所述浏览记录中的原始支持度,根据所述原始支持度,计算所述数据本体在所述浏览记录中的置信度,选取所述置信度大于预设阈值的数据本体作为目标本体
本发明实施例通过识别所述目标数据的数据本地,以明确用户在网页中的浏览对象,了解用户所处的网页环境,保障后续在分析用户行为时网络环境的数据不会丢失,保障后续数据的偏好准确分析,所述数据本地可以理解为用户在网页中进行浏览的主题对象。可选的,所述识别所述目标数据的数据本体,包括:查询所述目标数据中每个数据的数据字段,根据所述数据字段,识别所述目标数据中每个数据的数据类型,根据所述数据类型,提取所述目标数据中每个数据的数据特征,根据所述数据特征,识别所述目标数据的数据本体。
其中,所述数据字段用于描述所述目标数据中每个数据的数据结构,所述数据类型用于表征所述目标数据中每个数据的数据身份维度,所述数据特征用于描述所述目标数据中每个数据的数据语义信息。
进一步地,本发明一可选实施例中,所述数据字段可以通过查询语句向预构建的数据字段映射表中进行查询,所述查询语句包括SQL语句,所述数据字段映射表是指通过历史数据进行构建的字段数据表,所述数据类型可以通过ID标识进行识别,所述数据特征可以通过信息熵算法进行提取,所述数据本体可以通过所述数据特征,分析所述目标数据中的数据主题对象进行识别。
进一步地,本发明实施例通过计算所述数据本体在所述浏览记录的原始支持度,以保障后续所述数据本体的置信度计算前提,所述原始支持度可以理解为所述数据本体在所述浏览记录中出现的频次。
作为本发明的一个实施例,所述计算所述数据本体在所述浏览记录中的原始支持度,包括:获取所述浏览记录中的记录数量,并统计所述数据本体在所述浏览记录中每条记录的本体数量,根据所述记录数量和所述本体数据,计算所述数据本体在所述浏览记录中的原始支持度。
其中,所述记录数量是指用户在网页中的所产生的浏览记录总量,所述本体数据量是指所述数据本体在每条记录中所出现的数量。
进一步地,本发明一可选实施例中,利用下述公式计算所述数据本体在所述浏览记录中的原始支持度:
其中,P(A)表示数据本体A的原始支持度,n表示数据本体A的本体数量,m表示本体数量和记录数量的总和数量。
进一步地,本发明实施例通过根据所述原始支持度,计算所述数据本体在所述浏览记录中的置信度,以选取所述置信度大于预设阈值的数据本体作为目标本体,保障所述浏览记录中的数据本体的确定可靠性,从而可以保障后续用户在网页中的数据分析准确性。可选的,所述预设阈值可以设置为0.5,也可以根据实际业务场景进行设置。
作为本发明的一个实施例,参阅图2所示,所述根据所述原始支持度,计算所述数据本体在所述浏览记录中的置信度,包括:
S201、将所述原始支持度对应的数据本体作为第一本体,并从所述数据本体的剩余本体中随机选取一个本体,得到第二本体;
S202、统计所述第一本体与所述第二本体在所述浏览记录中每条记录同时出现的同时数量,根据所述同时数量和所述浏览记录的记录数量,计算所述第一本体与所述第二本体的支持度,得到目标支持度;
S203、根据所述原始支持度和所述目标支持度,计算所述数据本体在所述浏览记录中的置信度。
需要说明的是,所述目标支持度与上述的原始支持度的计算原理相同,在此不做进一步地赘述,可选的,利用下述公式计算所述数据本体在所述浏览记录中的置信度:
其中,S(A)表示数据本体A的置信度,P(A|B)表示数据本体A和数据本体B的目标支持度,P(A)表示数据本体A的原始支持度。
S3、根据所述目标本体,将所述目标数据中的数据进行聚类,得到多个初始聚类数据,并利用预训练好的数据分类模型检测每个所述初始聚类数据的数据类别,并根据所述数据类别,将所述多个初始聚类数据中的数据进行重聚类,得到目标聚类数据。
本发明实施例通过根据所述目标本体,将所述目标数据中的数据进行聚类,以将所述目标数据中的数据按照所述目标本体进行初始归类,了解用户的全局信息,保障后续数据的准确和高效分析。
作为本发明的一个实施例,参阅图3所示,所述根据所述目标本体,将所述目标数据中的数据进行聚类,得到多个初始聚类数据,包括:
S301、根据所述目标本体,划分所述目标数据中数据的聚类中心点;
S302、计算所述目标数据中每个数据与所述聚类中心点的距离值;
S303、在所述距离值小于预设距离值时,将所述距离值对应的数据归类至所述聚类中心点中,得到所述多个初始聚类数据。
其中,所述聚类中心点可以理解为所述目标数据中每个数据的聚类区域位置。可选的,利用下述公式划分所述目标数据中数据的聚类中心点:
其中,F表示聚类中心点,K表示数据本体的数量,c表示目标数据的数量,xj表示目标数据中第j个用户,yi表示第i个数据本体的簇心质量。进一步可选的,所述预设距离值可以设置为0.75。
进一步地,本发明实施例通过利用预训练好的数据分类模型检测每个所述初始聚类数据的数据类别,以智能化的检测每个所述初始聚类数据的聚类类别,保障后续所述初始聚类数据的重聚类前提。其中,所述预训练好的数据分类模型通过BP神经网络构建,其包括输入层、隐藏层以及输出层,所述输入层用于接收需要进行分类的数据,所述隐藏层用于计算和处理需要进行分类的数据,所述输出层用于输出数据类别。
作为本发明的一个实施例,所述利用预训练好的数据分类模型检测每个所述初始聚类数据的数据类别,包括:获取训练样本及其对应的真实标签,并初始化待训练数据分类模型的模型参数,将所述训练样本输入至所述待训练数据分类模型的输入层中,以通过所述待训练数据分类模型中的隐藏层计算所述训练样本的预测分类概率,并根据所述预测分类概率,利用所述待训练数据分类模型中的输出层输出所述训练样本的预测类别,并计算所述预测类别与所述真实标签的损失值,在所述损失值大于预设损失值时,调整所述待训练数据分类模型的模型参数后,返回执行所述将所述训练样本输入至所述待训练数据分类模型的输入层中的步骤,在所述损失值不大于所述预设损失时,得到预训练好的数据分类模型。
其中,所述训练样本可以通过历史数据进行获取,所述真实标签用于表征所述训练样本的真实数据类别,所述模型参数包括权值和偏差,其用于描述所述待训练数据分类模型的训练效果,进一步地,为加速所述待训练数据分类模型的训练收敛速度,提高所述待训练数据分类模型的训练速度,本发明实施例通过采用遗传算法+粒子群算法初始化所述待训练数据分类模型的模型参数。
进一步地,本发明一可选实施例中,所述训练样本的预测分类概率通过所述隐藏层中的神经元计算得到,所述神经元包括但不限于卷积神经元、池化神经元以及全连接神经元等,需要说明的是,所述隐藏层的神经元数量由实际业务需求进行设置,在此不做限定。
进一步地,本发明一可选实施例中,利用下述公式输出所述训练样本的预测类别:
其中,y1表示预测类别,f表示输出层的激励函数,pi表示隐藏层与输出层的节点连接权值,g表示隐藏层的激励函数,ωij表示输入层与隐藏层的节点连接权值,ζi表示隐藏层的阈值,η表示输出层的阈值,n表示训练样本的数量,m表示神经元的数量。
进一步地,本发明一可选实施例中,利用下述公式计算所述预测类别与所述真实标签的损失值:
其中,Loss表示损失值,n表示训练样本的数量,i表示预测类别的位置序列,y1表示预测类别,y2表示真实标签。进一步地,所述预设损失值可以设置为0.1。
进一步地,本发明实施例通过根据所述数据类别,将所述多个初始聚类数据中的数据进行重聚类,以按照所述数据类别,更新所述初始聚类数据的聚类中心,进一步明确用户所处包含的全局信息,保障所述初始聚类数据中每个数据的聚类划分准确性,进而保障后续数据分析的准确性。
可选的,所述根据所述数据类别,将所述多个初始聚类数据中的数据进行重聚类,得到目标聚类数据,包括:获取每个所述初始聚类数据的目标本体,将所述目标本体和所述数据类别进行结合后作为重聚类中心点,计算每个所述初始聚类数据中数据与所述重聚类中心点的重距离值,在所述重距离值小于预设重距离值时,将所述重距离值对应的数据归类至所述重聚类中心点中,得到所述目标聚类数据。
需要说明的是,所述重距离值计算与上述距离值计算原理相同,在此不做进一步地赘述,所述预设重距离值与上述预设距离值设置相同。
S4、分析所述目标聚类数据中每个数据的数据属性,根据所述数据属性,构建所述目标聚类数据的数据关联图,根据所述数据关联图,计算所述用户在所述网页中的偏好行为概率,以分析所述用户在所述网页中的偏好行为事件。
本发明实施例通过分析所述目标聚类数据中每个数据的数据属性,以确定所述目标聚类数据中每个数据的描述信息,保障后续数据关联图的构建前提,其中,所述数据属性可以理解为用于描述所述目标聚类数据中每个数据的信息维度,如所述数据为订单,则该订单的数据属性包括名称、时间、区域等属性。
进一步地,本发明实施例通过根据所述数据属性,构建所述目标聚类数据的数据关联图,以可视化的角度展示所述目标聚类数据中数据之间的关系,方便后续数据的分析效率和提高后续数据分析的准确性,可选的,所述数据关联图可以通过E-R图的形式进行构建。
进一步地,本发明实施例通过根据所述数据关联图,识别所述用户在所述网页中的偏好行为,以分析所述用户在所述网页中的偏好事件,从而实现所述用户在所述网页中的行为可视化分析,进一步保障所述用户的行为挖掘的准确性。其中,所述偏好行为可以理解为用户在所述网页中的感兴趣行为。
作为本发明的一个实施例,所述根据所述数据关联图,识别所述用户在所述网页中的偏好行为,包括:根据所述数据关联图,计算所述用户在所述网页中的偏好行为概率,根据所述偏好行为概率,分析所述用户在所述网页中的偏好事件,以生成所述用户在所述网页中的偏好行为。可选的,所述偏好行为概率通过决策算法进行计算,如XGboost算法。
可以看出,本发明实施例首先通过侦测用户在网页中的浏览记录,提取浏览记录中的浏览数据,对浏览数据进行去重处理,得到目标数据,可以筛选出所述浏览数据中的重复数据,保障后续数据的处理效率,并识别目标数据的数据本体,计算数据本体在浏览记录中的置信度,选取置信度大于预设阈值的数据本体作为目标本体,可以明确用户在网页中的浏览对象,了解用户所处的网页环境,保障后续在分析用户行为时网络环境的数据不会丢失,保障后续数据的偏好准确分析;其次,本发明实施例通过将目标数据中的数据进行聚类,得到多个初始聚类数据,以将所述目标数据中的数据按照所述目标本体进行初始归类,了解用户的全局信息,保障后续数据的准确和高效分析,并利用预训练好的数据分类模型检测每个初始聚类数据的数据类别,以将多个初始聚类数据中的数据进行重聚类,得到目标聚类数据,可以智能化的检测每个所述初始聚类数据的聚类类别,进一步明确用户所处包含的全局信息,从而可以进一步保障后续数据分析的准确性;进一步地,本发明实施例通过分析目标聚类数据中每个数据的数据属性,根据数据属性,构建目标聚类数据的数据关联图,以识别用户在所述网页中的偏好行为,可以确定所述目标聚类数据中每个数据的描述信息,实现所述用户在所述网页中的行为可视化分析,保障所述用户的行为挖掘的准确性。因此,本发明实施例提出的一种基于人工智能的用户行为挖掘方法可以实现用户行为的偏好准确分析,提高用户行为的数据挖掘准确性。
如图4所示,是本发明一种基于人工智能的用户行为挖掘系统功能模块图。
本发明所述一种基于人工智能的用户行为挖掘系统400可以安装于电子设备中。根据实现的功能,所述一种基于人工智能的用户行为挖掘系统可以包括浏览数据去重模块401、数据本体选取模块402、目标数据聚类模块403以及偏好行为分析模块404。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本发明实施例中,关于各模块/单元的功能如下:
所述浏览数据去重模块401,用于侦测用户在网页中的浏览记录,提取所述浏览记录中每条记录的浏览数据,并对所述浏览数据进行去重处理,得到目标数据;
所述数据本体选取模块402,用于识别所述目标数据的数据本体,并计算所述数据本体在所述浏览记录中的原始支持度,根据所述原始支持度,计算所述数据本体在所述浏览记录中的置信度,选取所述置信度大于预设阈值的数据本体作为目标本体;
所述目标数据聚类模块403,用于根据所述目标本体,将所述目标数据中的数据进行聚类,得到多个初始聚类数据,并利用预训练好的数据分类模型检测每个所述初始聚类数据的数据类别,并根据所述数据类别,将所述多个初始聚类数据中的数据进行重聚类,得到目标聚类数据;
所述偏好行为分析模块404,用于分析所述目标聚类数据中每个数据的数据属性,根据所述数据属性,构建所述目标聚类数据的数据关联图,根据所述数据关联图,识别所述用户在所述网页中的偏好行为。
详细地,本发明实施例中所述一种基于人工智能的用户行为挖掘系统400中的所述各模块在使用时采用与上述的图1至图3中所述的一种基于人工智能的用户行为挖掘一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
如图5所示,是本发明实现一种基于人工智能的用户行为挖掘的设备的结构示意图。
所述设备可以包括处理器50、存储器51、通信总线52以及通信接口53,还可以包括存储在所述存储器51中并可在所述处理器50上运行的计算机程序,如基于人工智能的用户行为挖掘程序。
其中,所述处理器50在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器50是所述电子设备的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器51内的程序或者模块(例如执行基于人工智能的用户行为挖掘等),以及调用存储在所述存储器51内的数据,以执行电子设备的各种功能和处理数据。
所述存储器51至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器51在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器51在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器51还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器51不仅可以用于存储安装于电子设备的应用软件及各类数据,例如数据库配置化连接程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述通信总线52可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器51以及至少一个处理器50等之间的连接通信。
所述通信接口53用于上述电子设备5与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,所述用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
图5仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图5示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理系统与所述至少一个处理器50逻辑相连,从而通过电源管理系统实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利发明范围上并不受此结构的限制。
所述电子设备中的所述存储器51存储的数据库配置化连接程序是多个计算机程序的组合,在所述处理器50中运行时,可以实现:
侦测用户在网页中的浏览记录,提取所述浏览记录中每条记录的浏览数据,并对所述浏览数据进行去重处理,得到目标数据;
识别所述目标数据的数据本体,并计算所述数据本体在所述浏览记录中的原始支持度,根据所述原始支持度,计算所述数据本体在所述浏览记录中的置信度,选取所述置信度大于预设阈值的数据本体作为目标本体;
根据所述目标本体,将所述目标数据中的数据进行聚类,得到多个初始聚类数据,并利用预训练好的数据分类模型检测每个所述初始聚类数据的数据类别,并根据所述数据类别,将所述多个初始聚类数据中的数据进行重聚类,得到目标聚类数据;
分析所述目标聚类数据中每个数据的数据属性,根据所述数据属性,构建所述目标聚类数据的数据关联图,根据所述数据关联图,识别所述用户在所述网页中的偏好行为。
具体地,所述处理器50对上述计算机程序的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非易失性计算机可读取存储的介质中。所述介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或系统、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明还提供一种介质,所述介质存储有计算机程序,所述计算机程序在被设备的处理器所执行时,可以实现:
侦测用户在网页中的浏览记录,提取所述浏览记录中每条记录的浏览数据,并对所述浏览数据进行去重处理,得到目标数据;
识别所述目标数据的数据本体,并计算所述数据本体在所述浏览记录中的原始支持度,根据所述原始支持度,计算所述数据本体在所述浏览记录中的置信度,选取所述置信度大于预设阈值的数据本体作为目标本体;
根据所述目标本体,将所述目标数据中的数据进行聚类,得到多个初始聚类数据,并利用预训练好的数据分类模型检测每个所述初始聚类数据的数据类别,并根据所述数据类别,将所述多个初始聚类数据中的数据进行重聚类,得到目标聚类数据;
分析所述目标聚类数据中每个数据的数据属性,根据所述数据属性,构建所述目标聚类数据的数据关联图,根据所述数据关联图,识别所述用户在所述网页中的偏好行为。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所发明的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种基于人工智能的用户行为挖掘方法,其特征在于,所述方法包括:
侦测用户在网页中的浏览记录,提取所述浏览记录中每条记录的浏览数据,并对所述浏览数据进行去重处理,得到目标数据;
识别所述目标数据的数据本体,并计算所述数据本体在所述浏览记录中的原始支持度,根据所述原始支持度,计算所述数据本体在所述浏览记录中的置信度,选取所述置信度大于预设阈值的数据本体作为目标本体;
根据所述目标本体,将所述目标数据中的数据进行聚类,得到多个初始聚类数据,并利用预训练好的数据分类模型检测每个所述初始聚类数据的数据类别,并根据所述数据类别,将所述多个初始聚类数据中的数据进行重聚类,得到目标聚类数据;
分析所述目标聚类数据中每个数据的数据属性,根据所述数据属性,构建所述目标聚类数据的数据关联图,根据所述数据关联图,识别所述用户在所述网页中的偏好行为。
2.根据权利要求1所述的方法,其特征在于,所述侦测用户在网页中的浏览记录,包括:
响应于所述用户在所述网页中的浏览事件,触发预先在所述网页中配置的埋点工具;
通过所述埋点工具记录所述用户在所述网页中的浏览日志,根据所述浏览日志,生成所述浏览记录。
4.根据权利要求1所述的方法,其特征在于,所述识别所述目标数据的数据本体,包括:
查询所述目标数据中每个数据的数据字段,根据所述数据字段,识别所述目标数据中每个数据的数据类型;
根据所述数据类型,提取所述目标数据中每个数据的数据特征,根据所述数据特征,识别所述目标数据的数据本体。
5.根据权利要求1所述的方法,其特征在于,所述根据所述原始支持度,计算所述数据本体在所述浏览记录中的置信度,包括:
将所述原始支持度对应的数据本体作为第一本体,并从所述数据本体的剩余本体中随机选取一个本体,得到第二本体;
统计所述第一本体与所述第二本体在所述浏览记录中每条记录同时出现的同时数量,根据所述同时数量和所述浏览记录的记录数量,计算所述第一本体与所述第二本体的支持度,得到目标支持度;
根据所述原始支持度和所述目标支持度,计算所述数据本体在所述浏览记录中的置信度;
其中,利用下述公式计算所述数据本体在所述浏览记录中的置信度:
其中,S(A)表示数据本体A的置信度,P(A|B)表示数据本体A和数据本体B的目标支持度,P(A)表示数据本体A的原始支持度。
6.根据权利要求1所述的方法,其特征在于,所述根据所述目标本体,将所述目标数据中的数据进行聚类,得到多个初始聚类数据,包括:
根据所述目标本体,划分所述目标数据中数据的聚类中心点;
计算所述目标数据中每个数据与所述聚类中心点的距离值;
在所述距离值小于预设距离值时,将所述距离值对应的数据归类至所述聚类中心点中,得到所述多个初始聚类数据。
7.根据权利要求1至6中任意一项所述的方法,其特征在于,所述利用预训练好的数据分类模型检测每个所述初始聚类数据的数据类别之前,还包括:
获取训练样本及其对应的真实标签,并初始化待训练数据分类模型的模型参数;
将所述训练样本输入至所述待训练数据分类模型的输入层中;以通过所述待训练数据分类模型中的隐藏层计算所述训练样本的预测分类概率,并根据所述预测分类概率,利用所述待训练数据分类模型中的输出层输出所述训练样本的预测类别,并计算所述预测类别与所述真实标签的损失值;
在所述损失值大于预设损失值时,调整所述待训练数据分类模型的模型参数后,返回执行所述将所述训练样本输入至所述待训练数据分类模型的输入层中的步骤;
在所述损失值不大于所述预设损失时,得到预训练好的数据分类模型;
其中,利用下述公式输出所述训练样本的预测类别:
其中,y1表示预测类别,f表示输出层的激励函数,pi表示隐藏层与输出层的节点连接权值,g表示隐藏层的激励函数,ωij表示输入层与隐藏层的节点连接权值,ζi表示隐藏层的阈值,η表示输出层的阈值,n表示训练样本的数量,m表示神经元的数量。
8.一种基于人工智能的用户行为挖掘系统,其特征在于,所述系统包括:
浏览数据去重模块,用于侦测用户在网页中的浏览记录,提取所述浏览记录中每条记录的浏览数据,并对所述浏览数据进行去重处理,得到目标数据;
数据本体选取模块,用于识别所述目标数据的数据本体,并计算所述数据本体在所述浏览记录中的原始支持度,根据所述原始支持度,计算所述数据本体在所述浏览记录中的置信度,选取所述置信度大于预设阈值的数据本体作为目标本体;
目标数据聚类模块,用于根据所述目标本体,将所述目标数据中的数据进行聚类,得到多个初始聚类数据,并利用预训练好的数据分类模型检测每个所述初始聚类数据的数据类别,并根据所述数据类别,将所述多个初始聚类数据中的数据进行重聚类,得到目标聚类数据;
偏好行为分析模块,用于分析所述目标聚类数据中每个数据的数据属性,根据所述数据属性,构建所述目标聚类数据的数据关联图,根据所述数据关联图,识别所述用户在所述网页中的偏好行为。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210680079.1A CN115062200A (zh) | 2022-06-15 | 2022-06-15 | 基于人工智能的用户行为挖掘方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210680079.1A CN115062200A (zh) | 2022-06-15 | 2022-06-15 | 基于人工智能的用户行为挖掘方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115062200A true CN115062200A (zh) | 2022-09-16 |
Family
ID=83200696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210680079.1A Pending CN115062200A (zh) | 2022-06-15 | 2022-06-15 | 基于人工智能的用户行为挖掘方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115062200A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116188049A (zh) * | 2023-02-21 | 2023-05-30 | 广东八块钱网络科技有限公司 | 基于链式分析的潜在用户挖掘方法及装置 |
CN117349658A (zh) * | 2023-10-17 | 2024-01-05 | 佛山锐科信息科技有限公司 | 一种经济信息自动化统计分析方法及系统 |
-
2022
- 2022-06-15 CN CN202210680079.1A patent/CN115062200A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116188049A (zh) * | 2023-02-21 | 2023-05-30 | 广东八块钱网络科技有限公司 | 基于链式分析的潜在用户挖掘方法及装置 |
CN116188049B (zh) * | 2023-02-21 | 2023-09-29 | 广东八块钱网络科技有限公司 | 基于链式分析的潜在用户挖掘方法及装置 |
CN117349658A (zh) * | 2023-10-17 | 2024-01-05 | 佛山锐科信息科技有限公司 | 一种经济信息自动化统计分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112632385B (zh) | 课程推荐方法、装置、计算机设备及介质 | |
CN109634698B (zh) | 菜单显示方法、装置、计算机设备及存储介质 | |
CN107657048B (zh) | 用户识别方法及装置 | |
WO2019218514A1 (zh) | 网页目标信息的提取方法、装置及存储介质 | |
US20200110842A1 (en) | Techniques to process search queries and perform contextual searches | |
CN115062200A (zh) | 基于人工智能的用户行为挖掘方法及系统 | |
US10956469B2 (en) | System and method for metadata correlation using natural language processing | |
CN110706015B (zh) | 一种面向广告点击率预测的特征选取方法 | |
US11514054B1 (en) | Supervised graph partitioning for record matching | |
CN114648392B (zh) | 基于用户画像的产品推荐方法、装置、电子设备及介质 | |
CN113254354A (zh) | 测试用例推荐方法、装置、可读存储介质及电子设备 | |
Sakr et al. | An efficient fast-response content-based image retrieval framework for big data | |
CN108959550B (zh) | 用户关注点挖掘方法、装置、设备及计算机可读介质 | |
CN111612610A (zh) | 风险预警方法及系统、电子设备及存储介质 | |
CN111488385A (zh) | 基于人工智能的数据处理方法、装置和计算机设备 | |
CN113360803A (zh) | 基于用户行为的数据缓存方法、装置、设备及存储介质 | |
CN114416998A (zh) | 文本标签的识别方法、装置、电子设备及存储介质 | |
CN113592605A (zh) | 基于相似产品的产品推荐方法、装置、设备及存储介质 | |
CN106294406B (zh) | 一种用于处理应用访问数据的方法与设备 | |
CN113886708A (zh) | 基于用户信息的产品推荐方法、装置、设备及存储介质 | |
CN117743985A (zh) | 基于移动互联网的在线培训课程推荐方法及系统 | |
CN113706253A (zh) | 实时产品推荐方法、装置、电子设备及可读存储介质 | |
CN112579781A (zh) | 文本归类方法、装置、电子设备及介质 | |
CN112069269A (zh) | 基于大数据和多维特征的数据溯源方法及大数据云服务器 | |
CN115186240A (zh) | 基于关联性信息的社交网络用户对齐方法、装置、介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |