CN111488385B

CN111488385B - 基于人工智能的数据处理方法、装置和计算机设备

Info

Publication number: CN111488385B
Application number: CN202010264714.9A
Authority: CN
Inventors: 刘志煌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2023-08-15
Anticipated expiration: 2040-04-07
Also published as: CN111488385A

Abstract

本申请涉及一种基于人工智能的数据处理方法、装置、计算机设备和存储介质。所述方法包括：获取预设数量的样本，所述样本中包括用户特征以及用户行为序列；基于所述用户行为序列进行序列模式挖掘，得到多种用户行为序列模式；识别所述用户特征与所述用户行为序列模式之间的相关度，根据所述相关度提取与所述用户特征对应的强相关序列模式；统计所述强相关序列模式中各用户特征对应的特征值分布；当其中一个样本存在缺失特征值的用户特征时，根据所述特征值分布对所述缺失特征值进行填充，得到填充特征值后的样本。采用本方法能够为模型学习提供包含准确有效的用户特征的样本，继而提高机器学习的准确性。

Description

基于人工智能的数据处理方法、装置和计算机设备

技术领域

本申请涉及人工智能技术领域，特别是涉及一种基于人工智能的数据处理方法、装置、计算机设备和存储介质。

背景技术

随着人工智能技术的发展，出现了大数据分析以及机器学习等技术。对于大数据分析以及机器学习而言，数据样本的质量往往起着至关重要的作用。数据样本中的样本特征能够决定模型效果和学习能力。在实际应用中，样本特征的特征值缺失频繁发生，这对于建模学习和模型预测都会造成偏差。

针对缺失值的处理，传统的方式中通常是采用缺失值过滤或者缺失值填充。缺失值过滤的方式是直接删除含有缺失值的特征，会导致信息丢失，当特征维度不够大时会影响模型学习的参考信息。缺失值填充的方式是利用连续型特征的均值进行填充，或者利用离散型特征的众数进行填充，由于没考虑被填充的特征值对类别标签预测的影响，容易引入噪音，对模型学习造成影响。因此，为模型学习提供包含准确有效的用户特征的样本成为目前需要解决的一个技术问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够为模型学习提供包含准确有效的用户特征的样本的基于人工智能的数据处理方法、装置、计算机设备和存储介质。

一种基于人工智能的数据处理方法，所述方法包括：

获取预设数量的样本，所述样本中包括用户特征以及用户行为序列；

基于所述用户行为序列进行序列模式挖掘，得到多种用户行为序列模式；

识别所述用户特征与所述用户行为序列模式之间的相关度，根据所述相关度提取与所述用户特征对应的强相关序列模式；

统计所述强相关序列模式中各用户特征对应的特征值分布；

当其中一个样本存在缺失特征值的用户特征时，根据所述特征值分布对所述缺失特征值进行填充，得到填充特征值后的样本。

一种基于人工智能的数据处理装置，所述装置包括：

获取模块，用于获取预设数量的样本，所述样本中包括用户特征以及用户行为序列；

挖掘模块，用于基于所述用户行为序列进行序列模式挖掘，得到多种用户行为序列模式；

关联模块，用于识别所述用户特征与所述用户行为序列模式之间的相关度；根据所述相关度提取与所述用户特征对应的强相关序列模式；统计所述强相关序列模式中各用户特征对应的特征值分布；

填充模块，用于当其中一个样本存在缺失特征值的用户特征时，根据所述特征值分布对所述缺失特征值进行填充，得到填充特征值后的样本。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

统计所述强相关序列模式中各用户特征对应的特征值分布；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

统计所述强相关序列模式中各用户特征对应的特征值分布；

上述基于人工智能的数据处理方法、装置、计算机设备和存储介质，通过对预设数量样本中的用户行为序列进行序列模式挖掘，识别用户特征与用户行为序列模式之间的相关度，通过根据相关度提取与用户特征对应的强相关序列模式，从而有效搭建了用户特征与用户行为序列模式之间的联系。当其中一个样本存在缺失特征值的用户特征时，能够通过强相关序列模式的特征值分布对缺失特征值进行填充，由此得到填充特征值后的样本。由于是通过预设数量的样本进行序列模式挖掘后，建立了用户特征与强相关序列模式之间的关系，由此能够结合样本间的联系和差异，使得填充至更接近缺失特征值本身的属性值。从而能够为模型学习提供包含准确有效的用户特征的样本，继而提高机器学习的准确性。

一种基于人工智能的数据处理方法，所述方法包括：

获取预设数量的样本，所述样本中包括用户标识、用户特征以及用户行为序列；

统计所述强相关序列模式中各用户特征对应的特征值分布；

根据所述用户标识实时获取对应的用户行为序列，对所述用户标识的用户特征进行实时校验；

当存在未通过校验的用户特征时，根据所述强相关序列模式中的特征值分布对所述未通过校验的用户特征进行特征值更新，得到更新后的样本。

一种基于人工智能的数据处理装置，所述装置包括：

获取模块，用于获取预设数量的样本，所述样本中包括用户标识、用户特征以及用户行为序列；

关联模块，用于识别所述用户特征与所述用户行为序列模式之间的相关度，根据所述相关度提取与所述用户特征对应的强相关序列模式；统计所述强相关序列模式中各用户特征对应的特征值分布；

校验更新模块，用于根据所述用户标识实时获取对应的行为序列，对所述用户标识的用户特征进行实时校验；当存在未通过校验的用户特征时，根据所述强相关序列模式中的特征值分布对所述未通过校验的用户特征进行特征值更新，得到更新后的样本。

统计所述强相关序列模式中各用户特征对应的特征值分布；

上述基于人工智能的数据处理方法、装置、计算机设备和存储介质，由于是对用户行为实时进行采集，进行序列模式挖掘后即对相应用户特征进行更新，由此能够确保样本中的用户特征能够及时进行动态更新，能够确保用户特征的实时性和准确性，同时也能够确保机器学习时能够学习到最真实的用户特征，有效提高了机器学习的准确性。

附图说明

图1为一个实施例中基于人工智能的数据处理方法的应用环境图；

图2为另一个实施例中基于人工智能的数据处理方法的应用环境图；

图3为一个实施例中基于人工智能的数据处理方法的流程示意图；

图4为一个实施例中基于浏览行为序列挖掘的结果示意图；

图5为一个实施例中基于购物行为序列挖掘的结果示意图；

图6为另一个实施例中基于人工智能的数据处理方法的流程示意图；

图7为又一个实施例中基于人工智能的数据处理方法的流程示意图；

图8为一个实施例中基于人工智能的数据处理装置的结构框图；

图9为另一个实施例中基于人工智能的数据处理装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例提供的方案设计人工智能的机器学习等技术。具体通过如下实施例进行说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的基于人工智能的数据处理方法，可以应用于如图1所示的应用环境中。其中，服务器102通过网络与数据库104通过网络进行通信。其中，服务器102与数据库104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。数据库中存储了大量的样本，样本中包括用户特征和用户行为序列。服务器102在数据库中获取预设数量的样本，基于样本中的用户行为序列进行序列模式挖掘，得到多种用户行为序列模式。服务器102识别用户特征与用户行为序列模式之间的相关度，根据相关度提取与用户特征对应的强相关序列模式，统计强相关序列模式中各用户特征对应的特征值分布。当其中一个样本存在缺失特征值的用户特征时，根据特征值分布对缺失特征值进行填充，得到填充特征值后的样本。由此能够为模型学习提供包含准确有效的用户特征的样本。

本申请还提供一种应用场景，终端202通过网络与服务器204进行通信。其中，终端202可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器204可以用独立的服务器或者是多个服务器组成的服务器集群来实现。用户通过终端202访问服务器204，服务器204采集用户浏览、购物等一系列行为，服务器能够采集终端行为轨迹，例如，用户连续浏览了5款品牌的衣服，其中4款来自国内品牌，1款来自国外品牌，同时4款为精致女装，1款为家居服，价格分别为588元、788元、830元、920元、260元。通过对这一系列用户行为序列进行序列模式挖掘，得到多种用户行为序列模式。通过识别与用户特征对应的强相关序列模式，对样本中存在缺失特征值的用户特征进行填充。例如，填充的用户特征值为偏向国内品牌、中等价位。由此能够为模型学习提供包含准确有效的用户特征的样本。在机器学习后，模型能够准确的向用户进行个性化推荐。

在一个实施例中，如图3所示，提供了一种基于人工智能的数据处理方法，以该方法应用于图1中的终端为例进行说明，

步骤302，获取预设数量的样本，样本中包括用户特征以及用户行为序列。

服务器在数据库中获取样本。样本中可以记录与用户标识对应的用户特征以及用户行为序列。其中，用户特征是指与用户相关的一系列特征，包括用户画像特征以及与用户相关的物品特征等。其中，用户画像特征包括用户年龄、性别、用户物品消费偏好、用户好友关系特征、相互关注特征、作息习惯特征等。物品特征包括物品基本特征和物品消费特征。其中，物品基本特征包括物品类别、物品价格、物品品牌、物品购买评分、物品评论情感等。物品消费特征包括物品被购买次数、被点击浏览次数、添加购物车次数、同类物品被购买次数等。物品特征可以是用户在特定网站中发生行为时采集的，例如可以在浏览物品、购买物品等环节中采集。

服务器可以根据用户标识采集用户在网站上发生的行为，包括搜索、浏览、打分、点评、加入购物车移出购物车、加入列表、购买、使用优惠券、退货、比价、参与相关评测、讨论、交流、与好友互动等。服务器可以为每种行为添加对应的行为标签，不同的行为标签可以组合为不同的用户行为序列，例如，浏览行为序列、购物行为序列、投资行为序列等。

步骤304，基于用户行为序列进行序列模式挖掘，得到多种用户行为序列模式。

用户行为序列与用户的用户特征相关联。通过对用户行为序列进行用户行为序列模式挖掘(下文简称为序列模式挖掘)，可以在一定时间内反映用户的年龄、性别、兴趣爱好、职业等。例如，职业为程序员的用户，在相同职业样本的浏览行为序列中挖掘序列模式，能够挖掘该部分用户的用户行为序列模式倾向于浏览编程相关书籍和材料，偏好与技术相关的内容产品，性别大部分为男性，年龄集中在20-35岁之间等。

用户行为序列可以是根据用户在特定网站上进行浏览等留下的序列信息或者行为轨迹。以浏览序列为例。用户甲通过在A页面点击a按钮进入到B页面，然后浏览一段时间后又点击b按钮进入到C页面。用户乙通过在A页面点击a按钮进入到B页面，然后浏览一段时间后又点击c按钮返回到A页面。那么用户甲的浏览序列可标记为：AaBbC，用户乙的浏览序列标记为：AaBcA。序列中的字符可以成为序列中的项，序列中的项具有分先后顺序。

用户行为序列是指利用用户在网站中的活动轨迹所生成的序列。其中，对于用户在特定网站或者其他网站的活动轨迹，服务器可以先对用户行为中的行为项进行编码，利用编码后的行为项和行为项对应的顺序生成用户行为序列。服务器中存储了配置文件，配置文件中记录了行为标签及其对应的行为编码，如下表1所示。当增加新的行为标签时，可以直接在配置文件中进行行为编码的新增。当删除某一行为标签时，可以直接在配置文件文件中进行行为编码的删除。通过配置文件可以方便对行为标签及其行为编码进行更新。服务器获取用户行为序列，根据用户行为序列中的行为标签，在配置文件中获取对应的行为编码，生成相应的用户行为序列编码。

行为标签	行为编码
		购买行为	h
添加购物车行为	g
		收藏行为	f
评论行为	e
		搜索行为	d
登录行为	c
		注册行为	b
浏览行为	a

表1

以用户通过其他渠道进入特定网站为例，用户甲通过渠道进入特定网站，然后进行注册和登录，在页面浏览一段时间后点击进入查看物品详情页，浏览一段时间后点击收藏按钮收藏物品，然后点击添加购物车购买物品。用户甲的用户行为序列为：bcafgh。用户乙通过其他渠道进入特定网站，然后进行注册和登录，在页面浏览一段时间后点击搜索特定商品，浏览后添加购物车，并且付款购买，购买后又添加收藏，用户乙的用户行为序列为：bcdaghf。

服务器可以基于prefixspan算法进行优化处理，得到优化后的prefixspan算法，利用优化后的prefixspan算法挖掘用户行为序列模式，即基于优化后的Prefixspan算法挖掘用户行为轨迹中满足最小支持度阈值的各个长度的频繁序列模式。

步骤306，识别用户特征与用户行为序列模式之间的相关度，根据相关度提取与用户特征对应的强相关序列模式。

步骤308，统计强相关序列模式中各用户特征对应的特征值分布。

步骤310，当其中一个样本存在缺失特征值的用户特征时，根据特征值分布对缺失特征值进行填充，得到填充特征值后的样本。

由于序列模式隐含了不同用户在用户行为序列中所存在的共性，因此可以通过将用户特征相似的用户进行群体划分，可以针对每个用户群体识别各用户特征与各用户行为序列模式之间的相关度。通过建立各用户特征与用户行为序列模式之间的映射关系，在所有的用户群体中提取出于用户特征对应的强相关序列模式。其中，一个强相关序列模式也可以对应一个或多个用户特征。多个是指两个或两个以上。服务器可以统计每个强相关序列模式对应的用户特征及其特征值。当其中一个样本的某一用户特征的特征值缺失时，将该用户特征标记为待填充特征。根据待填充特征获取对应的强相关序列，根据强相关序列对应的用户特征及其特征值分布，填充待填充特征的特征值。

上述基于人工智能的数据处理方法中，通过对预设数量样本用户行为序列进行序列模式挖掘，识别用户特征与用户行为序列模式之间的相关度，通过根据相关度提取与用户特征对应的强相关序列模式，从而有效搭建了用户特征与用户行为序列模式之间的联系。当其中一个样本存在缺失特征值的用户特征时，能够通过强相关序列模式的特征值分布对缺失特征值进行填充。由于是通过预设数量的样本进行用户行为序列模式挖掘后，建立了用户特征与强相关序列模式之间的关系，由此能够结合样本间的联系和差异，使得填充至更接近缺失特征值本身的属性值。从而能够为模型学习提供包含准确有效的用户特征的样本，进而能够提高机器学习的准确性。

在一个实施例中，基于用户行为序列进行序列模式挖掘包括：获取用户行为序列与最小支持度参数；对用户行为序列逐轮进行迭代挖掘，得到符合最小支持度参数的多个序列模式；其中，上一轮挖掘出的用户行为序列模式作为下一轮挖掘的挖掘对象进行迭代挖掘，直至挖掘结束。

服务器可以基于优化后的prefixspan算法挖掘用户行为序列模式，即基于优化后的Prefixspan算法挖掘用户行为轨迹中满足最小支持度阈值的各个长度的频繁序列模式。

传统的Prefixspan算法中，首先找出单位长度为1的序列前缀和对应的投影数据集，统计序列前缀的在投影数据集中的出现频率，将支持度低于阈值的前缀对应的项从对应的投影数据集中删除，同时得到所有的频繁1项序列，对每个长度为j满足支持度要求的前缀进行递归挖掘，依次得到频繁2项序列、频繁3项序列等，直至挖掘不出更多项序列，挖掘结束。也就是说，在传统的Prefixspan算法中，第一次挖掘得到频繁1项序列、第二次挖掘得到频繁2项序列、第三次挖掘得到频繁3项序列，若挖掘不出更多项序列挖掘结束。

本实施例中，为了进一步提高用户行为序列模式的挖掘的准确性，提高迭代挖掘的查全率和查准率，对传统的Prefixspan算法进行了优化。即第一轮挖掘时，采用传统Prefixspan算法进行多次挖掘，分别得到频繁项数不同的多个用户行为序列模式，将挖掘出的多个用户行为序列模式添加至下一轮的挖掘对象中。在下一轮的挖掘中，继续进行多次挖掘，分别得到频繁项数不同的多个用户行为序列模式。也就是说，在每一轮挖掘中，都会按照传统Prefixspan算法进行多次挖掘。假设传统Prefixspan算法的挖掘，只挖三次，那么本实施例中提供的优化后的Prefixspan算法，在每一轮的挖掘中都可以挖三次，直至挖不出符合支持度的用户行为序列模式。

在每轮挖掘时，服务器可以对支持度进行调整。例如，可以将支持度调高，由此能够随着挖掘轮数的增多，保证用户行为序列挖掘的准确性。服务器也可以对支持度不做调整，例如，可以设置一个较高的支持度，以此确保用户行为序列挖掘的准确性。

以浏览行为序列为例，用户甲的浏览序列可标记为：AaBbC，用户乙的浏览序列标记为：AaBcA。假设所设定的最小支持度阈值为0.5，经过优化后的Prefixspan算法进行用户行为序列模式挖掘，如图4所示可以得到满足该阈值的一项前缀与其对应后缀，满足最小支持度阈值的二项前缀和对应后缀，满足最小支持度阈值的三项前缀和对应后缀。

以购物行为序列为例，假设所设定的最小支持度阈值为0.5，经过优化后的Prefixspan算法进行用户行为序列模式挖掘，那么经过优化后的Prefixspan算法进行用户行为序列模式挖掘，如图5所示，可以得到满足该阈值的一项前缀与其对应后缀，满足最小支持度阈值的二项前缀和对应后缀，满足最小支持度阈值的三项前缀和对应后缀，满足最小支持度阈值的四项前缀和对应后缀，满足最小支持度阈值的五项前缀和对应后缀。

在一个实施例中，识别用户特征与用户行为序列模式之间的相关度包括：根据用户标识对应的用户特征进行群体划分，得到至少两个或两个以上的用户群体；根据用户群体对应的用户行为序列模式、用户数量、用户特征确定各用户特征与各用户行为序列模式之间的相关度。

基于各种用户行为，可以挖掘得到用户的各个用户行为序列模式。用户行为序列模式隐含了不同用户在该用户行为序列中所存在的共性，因此，通过对用户群体进行用户行为序列模式挖掘可以得到具有共性的用户行为序列模式。服务器根据用户标识在对应的用户特征中提取用户画像特征，利用用户画像特征进行向量化编码。其中，用户画像特征对应的特征值可以作为离散值，服务器通过离散值的特征处理得到每个用户标识对应的向量化编码。由此将用户画像特征映射到向量空间，在向量空间进行用户群体的划分。

在其中一个实施例中，根据用户标识对应的用户特征进行群体划分包括：根据用户标识在对应的用户特征中提取用户画像特征；对用户画像特征进行向量化编码，利用向量化编码计算用户相似度；根据相似度阈值与用户相似度进行用户群体划分。

用户相似度可以通过欧氏距离进行计算，即服务器可以采用如下公式(1)计算用户相似度。

其中，X，Y分别表示不同的用户标识，x_i和y_i分别为与用户标识对应的向量化编码。欧氏距离越小，表示用户相似度越大。通过预先设定欧氏距离阈值，服务器可以根据欧氏距离阈值与用户相似度对用户群体进行划分。其中，将小于欧式距离阈值的用户相似度划分为同一个群体，相对应的用户标识记录至同一用户群体。

在其中一个实施例中，根据用户标识对应的用户特征进行群体划分包括：根据用户标识在对应的用户特征中提取用户画像特征；利用向量化编码进行聚类，根据聚类结果进行用户群体划分。

服务器可以以每个用户标识对应的向量化编码作为数据对象进行聚类，得到至少两个类。每个类可以对应一个用户群体。服务器根据聚类结果，将多个用户标识划分为至少两个用户群体。其中，用户群体内用户之间相似，不同用户群体之间用户存在较大差异。

服务器可以利用用户群体对应的用户行为序列模式、用户数量、用户特征确定各用户特征与各用户行为序列模式之间的相关度。其中，相关度可以通过计算各用户行为序列模式与用户特征之间的关系概率得到。相关度越高，表示对应的用户行为序列模式出现的越频繁，对应的用户特征出现的可能性就越大。由于用户群体中存在多个用户具有共性的用户特征以及行为，因此通过对用户群体确定各用户特征与各用户行为序列模式之间的相关度，能够得到出现频繁程度较高的用户行为序列模式及出现程度较高的用户特征，从而能够建立用户特征与用户行为序列模式之间的映射关系，继而能够根据该映射关系提取得到与用户特征对应的强相关序列模式。

在传统的用户数据训练模型预测特征的方法都是有监督的，也就是需要能够确保可靠的样本，即种子用户。但是在实际应用中难以获取分类所需的种子用户。上述实施例中，无需种子用户，通过用户行为序列挖掘的用户行为序列模式与特征计算相关度，基于最大相关度获取与属性强关联序列模式，该过程完全无监督的。有效克服了实际应用中种子用户较难获取的问题。

进一步的，服务器在计算各用户特征与各用户行为序列模式之间的相关度之前，还可以对用户特征进行预处理以及特征选择。其中，对于存在较多缺失特征值的用户特征，服务器按照预设规则进行过滤。例如，设置缺失特征值过滤阈值，如缺失特征值过滤阈值＝样本数量*0.4，若某用户特征缺失特征值的数量超过该阈值，则过滤掉该用户特征，同时删除相应的单值特征。服务器根据用户特征的分布，对异常数据进行过滤，例如，用户特征值太大或者小于万分之一的用户特征值，作为异常数值过滤掉。对于存在缺失特征值且未超过过滤阈值的，服务器可以进行缺失值处理。其中，连续型用户特征可以用均值填充，离散型特征用常数填充，填充后作为单独的类别。通过对过滤后的用户特征以及填充后的用户特征进行特征组合与衍生，对于连续型用户特征进行分箱离散化处理，对离散型用户特征进行热独(one-hot)编码，利用卡方检验对编码后的用户特征进行选择。由此能够在大量的用户特征中选择出有效的用户特征，进而提高了用户特征与用户行为序列模式相关度计算的准确性和效率。

在一个实施例中，根据用户群体对应的用户行为序列模式、用户数量、用户特征确定各用户特征与各用户行为序列模式之间的相关度包括：根据用户群体中各个用户行为序列模式的用户数量以及用户总数量计算各用户行为序列模式出现概率；根据用户群体中各个用户特征的用户数量以及用户总数量计算各用户特征出现概率；根据各用户行为序列模式出现概率以及各用户特征出现概率，计算各用户特征与各用户行为序列模式之间的相关度。

服务器可以计算各用户行为序列模式与用户特征之间的关系概率，统计后验证概率从而得到相关度。其中，服务器获取用户群体对应的群体用户总数量、用户行为序列模式、采用该用户行为序列模式的用户数量。服务器利用各个用户行为序列模式的用户数量以及用户总数量计算各用户行为序列模式出现概率。用户行为序列模式的出现概率可以采用如下公式(2)进行计算。

服务器获取用户群体对应的群体用户总数量、用户特征、包含该用户特征的用户数量。服务器利用各个用户特征的用户数量以及用户总数量计算各用户特征出现概率。用户特征的出现概率可以采用如下公式(3)进行计算。

在用户行为序列模式B_i出现条件下，用户特征为A_j的条件概率可以采用如下公式(4)进行计算。

其中，P(A_jB_i)表示用户行为序列模式B_i与用户特征A_j同时出现的概率，即同一用户标识对应的用户特征中包括用户特征A_j，同时该用户标识对应的用户行为序列中包括用户行为序列模式B_i。P(A_j|B_i)越大，表示B_i出现越频繁，相应的用户特征中包含A_j的可能性就越大，即说明用户行为序列模式B_i与用户特征A_j的相关度越高。由此可以通过计算各序列模型与用户特征对应的条件概率，能够准确得到各用户行为序列模式与各用户特征之间的相关度。

在一个实施例中，根据相关度提取与用户特征对应的强相关序列模式包括根据相关度筛选出与用户特征具有映射关系的用户行为序列模式；根据映射关系提取与用户特征对应的强相关序列模式。

服务器可以基于用户群体对应的用户行为序列模式、用户数量、用户特征确定各用户特征与各用户行为序列模式之间的相关度。由于相关度能够反映同一用户群体内某一用户行为序列模式出现的频繁程度以及包含相应用户特征的可能性，因此，可以根据相关度建立用户特征与用户行为序列模式之间的映射关系。当用户特征以及用户行为序列模式较多时，某一个用户特征可能会包含在较多的用户行为序列模式中。为了有效提高映射关系的准确性，服务器可以预先设置相关度阈值，根据相关度阈值对同一用户群体内各用户特征与各用户行为序列模式之间的相关度进行筛选。筛选出的用户特征与用户行为序列模式之间的相关度超过相关度阈值，可以分别标记为具有相关性的用户特征和用户行为序列模式。服务器对同一用户群体内具有相关性的用户特征和用户行为序列模式建立映射关系。与用户特征具有映射关系的用户行为序列模式可以是1个，也可以是2个或2个以上。用户特征与用户行为序列模式之间的映射关系可以如下表2所示。

表2

由于不同的用户群体之间存在一定差异，相同的用户特征在不同的用户群体中具有映射关系的用户行为序列模式可能会不同。如下表3与表4，相同的属性在用户群体A与用户群体B中，所映射的用户行为序列模式有的相同，有的不同。

表3

表4

为了得到与用户特征强相关的序列模式，在其中一个实施例中，服务器可以利用各映射关系对应的用户特征与用户行为序列模式的用户群体数量与用户群体总数量，计算各用户特征与对应用户行为序列模式之间的置信度；当置信度达到置信度阈值时，将相应的用户特征与用户行为序列模式标记为强相关。

服务器可以根据用户特征、具有映射关系的用户行为序列模式、用户群体数量计算相应的置信度，可以采用如下公式(5)进行计算。

服务器获取预设的置信度阈值，当计算得到的用户行为序列模式与群体特征的置信度达到置信度阈值时，表示在所有用户群体中的用户特征A与该用户行为序列模式B属于强相关。假设，假设该用户行为序列模式与群体特征的置信度阈值设定为0.5，即在所有用户群体中，用户特征A与用户行为序列模式B的映射关系至少出现在一半以上的用户群体中，才认为在整个用户群体中用户特征A与用户行为序列模式B是强相关。那么符合该行为特征置信度阈值的用户特征与用户行为序列模式组合如表5所示。

用户特征	强相关序列模式
		性别B	模式2
年龄层C	模式5
		购物偏好D	模式9

表5

由于强相关序列对应的用户特征可以适用所有用户群体，因此当某一用户的用户特征中存在缺失的特征值时，可以利用强相关序列快速准确的进行相应特征值的填充。

在一个实施例中，如图6所示，提供了一种基于人工智能的数据处理方法，具体步骤包括：

步骤602，获取预设数量的样本，样本中包括用户特征以及用户行为序列。

步骤604，获取最小支持度参数，对用户行为序列逐轮进行迭代挖掘，得到符合最小支持度参数的多个用户行为序列模式；其中，上一轮挖掘出的用户行为序列模式作为下一轮挖掘的挖掘对象进行迭代挖掘，直至挖掘结束，得到多种用户行为序列模式。

步骤606，根据用户标识对应的用户特征进行群体划分，得到至少两个或两个以上的用户群体。

步骤608，根据用户群体对应的用户行为序列模式、用户数量、用户特征确定各用户特征与各用户行为序列模式之间的相关度。

步骤610，根据相关度筛选出与用户特征具有映射关系的用户行为序列模式，根据映射关系提取与用户特征对应的强相关序列模式。

步骤612，统计强相关序列模式中各用户特征对应的特征值分布。

步骤614，当其中一个样本存在缺失特征值的用户特征时，根据特征值分布对缺失特征值进行填充，得到填充特征值后的样本。

本实施例中，由于是通过预设数量的样本进行用户行为序列模式挖掘后，建立了用户特征与强相关序列模式之间的关系，由此能够结合样本间的联系和差异，使得填充至更接近缺失特征值本身的属性值。从而能够为模型学习提供准确有效的用户特征。通过序列挖掘的用户行为序列模式与特征计算相关度，基于最大相关度获取与属性强关联序列模式，该过程完全无监督的。有效克服了实际应用中种子用户较难获取的问题。

在一个实施例中，如图7所示，提供了一种基于人工智能的数据处理方法，包括：

步骤702，获取预设数量的样本，样本中包括用户标识、用户特征以及用户行为序列。

步骤704，基于用户行为序列进行序列模式挖掘，得到多种用户行为序列模式。

步骤706，识别用户特征与用户行为序列模式之间的相关度，根据相关度提取与用户特征对应的强相关序列模式。

步骤708，统计强相关序列模式中各用户特征对应的特征值分布。

步骤710，根据用户标识实时获取对应的用户行为序列，对用户标识的用户特征进行实时校验。

步骤712，当存在未通过校验的用户特征时，根据强相关序列模式中的特征值分布对未通过校验的用户特征进行特征值更新，得到更新后的样本。

在机器学习的应用场景中，样本中的用户特征值通常是相对固定的，即用户特征值没有根据实际情况进行动态调整和实时更新。而许属性多特征值往往是一直在变化的，例如，年龄、兴趣、购物偏好等。如果是基于固定的用户特征值进行机器学习，则无法学习到最真实的样本属性，机器学习得到的模型在预测真实值时会造成一定偏差。

本实施例中，服务器根据用户标识实时采集用户在网站中的行为，生成行为队列。例如，当用户标识对应的账户登录特定网站时，服务器实时采集用户在特定网站的行为，生成相应的行为队列。服务器可以采用上述实施例中提供的方式进行用户行为序列模式挖掘。服务器获取与用户特征对应的强相关序列模式，在挖掘出的用户行为序列模式中获取强相关序列模式相同的用户行为序列模式，将该用户行为序列模式对应的用户特征标记为待校验特征。根据强相关序列模式的特征值分布，对待校验特征进行校验，若校验结果表示特征值发生变化，则校验未通过，服务器根据特征值分布对未通过校验的用户特征进行特征值更新。例如，用户特征中包括婚姻状态，某用户一年前的婚姻状态为未婚，挖掘出的用户行为序列模式中包含了结婚强相关序列模式，如“购买婚纱-接收祝福等一系列行为”，结婚强相关序列模式对应的婚姻状态的特征值为已婚，则将婚姻状态这一用户特征的特征值从未婚更新为已婚。

本实施例中，由于是对用户行为实时进行采集，进行用户行为序列模式挖掘后即对相应用户特征进行更新，由此能够确保样本中的用户特征能够及时进行动态更新，能够确保用户特征的实时性和准确性，同时也能够确保机器学习时能够学习到最真实的用户特征，有效提高了机器学习的准确性。

服务器可以根据用户标识在对应的用户特征中提取用户画像特征，对用户画像特征进行向量化编码，利用向量化编码计算用户相似度，根据相似度阈值与用户相似度进行用户群体划分。服务器还可以根据用户标识在对应的用户特征中提取用户画像特征，利用向量化编码进行聚类，根据聚类结果进行用户群体划分。

服务器根据用户群体中各个用户行为序列模式的用户数量以及用户总数量计算各用户行为序列模式出现概率，根据用户群体中各个用户特征的用户数量以及用户总数量计算各用户特征出现概率，根据各用户行为序列模式出现概率以及各用户特征出现概率，计算各用户特征与各用户行为序列模式之间的相关度。

本实施例中，通过利用挖掘出的用户行为序列模式与特征计算相关度，基于最大相关度获取与属性强关联序列模式，该过程完全无监督的。有效克服了有监督模型训练时种子用户较难获取的问题。

在一个实施例中，根据相关度提取与用户特征对应的强相关序列模式包括：根据相关度筛选出与用户特征具有映射关系的用户行为序列模式；根据映射关系提取与用户特征对应的强相关序列模式。

服务器利用各映射关系对应的用户特征与用户行为序列模式的用户群体数量与用户群体总数量，计算各用户特征与对应用户行为序列模式之间的置信度。当置信度达到置信度阈值时，将相应的用户特征与用户行为序列模式标记为强相关。

应该理解的是，虽然图3、6、7的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图3、6、7中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种基于人工智能的数据处理装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：获取模块802、挖掘模块804、关联模块806、填充模块808，其中：

获取模块802，用于获取预设数量的样本，样本中包括用户特征以及用户行为序列。

挖掘模块804，用于基于用户行为序列进行序列模式挖掘，得到多种用户行为序列模式。

关联模块806，用于识别用户特征与用户行为序列模式之间的相关度；根据相关度提取与用户特征对应的强相关序列模式；统计强相关序列模式中各用户特征对应的特征值分布。

填充模块808，用于当其中一个样本存在缺失特征值的用户特征时，根据特征值分布对缺失特征值进行填充，得到填充特征值后的样本。

在一个实施例中，挖掘模块804还用于获取最小支持度参数，对用户行为序列逐轮进行迭代挖掘，得到符合最小支持度参数的多个用户行为序列模式；其中，上一轮挖掘出的用户行为序列模式作为下一轮挖掘的挖掘对象进行迭代挖掘，直至挖掘结束。

在一个实施例中，关联模块806还用于根据用户标识对应的用户特征进行群体划分，得到至少两个或两个以上的用户群体；根据用户群体对应的用户行为序列模式、用户数量、用户特征确定各用户特征与各用户行为序列模式之间的相关度。

在一个实施例中，关联模块806还用于根据用户标识在对应的用户特征中提取用户画像特征；对用户画像特征进行向量化编码，利用向量化编码计算用户相似度；根据相似度阈值与用户相似度进行用户群体划分。

在一个实施例中，关联模块806还用于根据用户标识在对应的用户特征中提取用户画像特征；利用向量化编码进行聚类，根据聚类结果进行用户群体划分。

在一个实施例中，关联模块806还用于根据用户群体中各个用户行为序列模式的用户数量以及用户总数量计算各用户行为序列模式出现概率；根据用户群体中各个用户特征的用户数量以及用户总数量计算各用户特征出现概率；根据各用户行为序列模式出现概率以及各用户特征出现概率，计算各用户特征与各用户行为序列模式之间的相关度。

在一个实施例中，关联模块806还用于根据相关度筛选出与用户特征具有映射关系的用户行为序列模式；根据映射关系提取与用户特征对应的强相关序列模式。

在一个实施例中，关联模块806还用于利用各映射关系对应的用户特征与用户行为序列模式的用户群体数量与用户群体总数量，计算各用户特征与对应用户行为序列模式之间的置信度；当置信度达到置信度阈值时，将相应的用户特征与用户行为序列模式标记为强相关。

在一个实施例中，如图9所示，提供了一种基于人工智能的数据处理装置，包括：获取模块902、挖掘模块904、关联模块906、校验更新模块908，其中：

获取模块902，用于获取预设数量的样本，样本中包括用户特征以及用户行为序列。

挖掘模块904，用于基于用户行为序列进行序列模式挖掘，得到多种用户行为序列模式。

关联模块906，用于识别用户特征与用户行为序列模式之间的相关度；根据相关度提取与用户特征对应的强相关序列模式；统计强相关序列模式中各用户特征对应的特征值分布。

校验更新模块908，用于根据用户标识实时获取对应的用户行为序列，对用户标识的用户特征进行实时校验；当存在未通过校验的用户特征时，根据强相关序列模式中的特征值分布对未通过校验的用户特征进行特征值更新，得到更新后的样本。

其中，获取模块902、挖掘模块904、关联模块906可以实现与上述实施例中获取模块802、挖掘模块804、关联模块806相同的功能。

关于基于人工智能的数据处理装置的具体限定可以参见上文中对于基于人工智能的数据处理方法的限定，关于基于人工智能的数据处理装置的具体限定可以参见上文中对于基于人工智能的数据处理方法的限定在此不再赘述。上述基于人工智能的数据处理装置、基于人工智能的数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储样本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于人工智能的数据处理方法，或者基于人工智能的数据处理方法。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于人工智能的数据处理方法，所述方法包括：

根据所述用户标识对应的用户特征进行群体划分，得到至少两个或两个以上的用户群体；

根据所述用户群体对应的用户行为序列模式、用户数量、用户特征确定各用户特征与用户行为序列模式之间的相关度；

根据所述相关度提取与所述用户特征对应的强相关序列模式；

统计所述强相关序列模式中各用户特征对应的特征值分布；

2.根据权利要求1所述的方法，其特征在于，所述基于所述用户行为序列进行序列模式挖掘包括：

获取用户行为序列与最小支持度参数，对所述用户行为序列逐轮进行迭代挖掘，得到符合最小支持度参数的多个用户行为序列模式；其中，上一轮挖掘出的用户行为序列模式作为下一轮挖掘的挖掘对象进行迭代挖掘，直至挖掘结束。

3.根据权利要求1所述的方法，其特征在于，所述根据所述用户标识对应的用户特征进行群体划分包括：

根据所述用户标识在对应的所述用户特征中提取用户画像特征；

对所述用户画像特征进行向量化编码，利用所述向量化编码计算用户相似度；

根据相似度阈值与所述用户相似度进行用户群体划分。

4.根据权利要求1所述的方法，其特征在于，所述根据所述用户标识对应的用户特征进行群体划分包括：

利用向量化编码进行聚类，根据聚类结果进行用户群体划分。

5.根据权利要求1所述的方法，其特征在于，所述根据所述用户群体对应的用户行为序列模式、用户数量、用户特征确定各用户特征与用户行为序列模式之间的相关度包括：

根据所述用户群体行为序列模式的用户数量以及用户总数量计算相应各用户行为序列模式出现概率；

根据所述用户群体中各个用户特征的用户数量以及用户总数量计算各用户特征出现概率；

根据各用户行为序列模式出现概率以及各用户特征出现概率，计算所述用户群体中的用户特征与各用户行为序列模式之间的相关度。

6.根据权利要求1所述的方法，其特征在于，所述根据所述相关度提取与所述用户特征对应的强相关序列模式包括：

根据所述相关度筛选出与所述用户特征具有映射关系的用户行为序列模式；

根据所述映射关系提取与所述用户特征对应的强相关序列模式。

7.根据权利要求6所述的方法，其特征在于，所述根据所述映射关系提取与所述用户特征对应的强相关序列模式包括：

利用各映射关系对应的用户特征与用户行为序列模式的用户群体数量与用户群体总数量，计算各用户特征与对应用户行为序列模式之间的置信度；

当所述置信度达到置信度阈值时，将相应的用户特征与用户行为序列模式标记为强相关。

8.一种基于人工智能的数据处理方法，所述方法包括：

统计所述强相关序列模式中各用户特征对应的特征值分布；

9.根据权利要求8所述的方法，其特征在于，所述根据所述相关度提取与所述用户特征对应的强相关序列模式包括：

10.一种基于人工智能的数据处理装置，其特征在于，所述装置包括：

关联模块，用于根据所述用户标识对应的用户特征进行群体划分，得到至少两个或两个以上的用户群体；根据所述用户群体对应的用户行为序列模式、用户数量、用户特征确定各用户特征与用户行为序列模式之间的相关度；根据所述相关度提取与所述用户特征对应的强相关序列模式；统计所述强相关序列模式中各用户特征对应的特征值分布；

11.一种基于人工智能的数据处理装置，其特征在于，所述装置包括：

12.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述方法的步骤。

13.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。