CN117952656A

CN117952656A - 一种数据挖掘方法以及相关装置

Info

Publication number: CN117952656A
Application number: CN202410341287.8A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Zhuhai Xinye Electronic Technology Co Ltd
Current assignee: Zhuhai Xinye Electronic Technology Co Ltd
Priority date: 2024-03-25
Filing date: 2024-03-25
Publication date: 2024-04-30
Anticipated expiration: 2044-03-25
Also published as: CN117952656B

Abstract

本发明实施例提供一种数据挖掘方法以及相关装置，属于数据处理技术领域。该方法包括：获得历史订单数据，并计算历史订单数据中各个数据之间的第一约束关系；根据第一约束关系确定历史订单数据对应的第一意图矩阵，并对第一意图矩阵进行矩阵补充，获得第二意图矩阵；对历史订单数据进行向量表示，获得历史订单数据对应的目标向量；进而根据第二意图矩阵和目标向量进行数据聚类，获得历史订单数据对应的目标聚类结果；根据目标聚类结果获得历史订单数据对应的用户行为特征。从而解决了相关技术中由于历史订单数据具有海量且复杂的特点，无法对历史订单数据进行高效、深层次的挖掘导致降低了后续数据推荐或者用户分析的精准性的问题。

Description

一种数据挖掘方法以及相关装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据挖掘方法以及相关装置。

背景技术

云打印技术将打印服务与云计算相结合，用户可以通过互联网将需要打印的文档传输至云端，再由云打印机实现打印。云打印技术的出现极大地提高了打印服务的便捷性和效率，同时在打印过程中也带来了大量的历史订单数据。针对这些历史订单数据，可以采用数据挖掘技术进行分析，以获取用户行为特征。但是相关技术中由于历史订单数据具有海量且复杂的特点，无法对历史订单数据进行高效、深层次的挖掘，导致降低了后续数据推荐或者用户分析的精准性的问题。

发明内容

本发明实施例的主要目的在于提供一种数据挖掘方法以及相关装置，旨在解决相关技术中由于历史订单数据具有海量且复杂的特点，无法对历史订单数据进行高效、深层次的挖掘，从而导致降低了后续数据推荐或者用户分析的精准性的技术问题。

第一方面，本发明实施例提供一种数据挖掘方法，包括：

获得历史订单数据，并计算所述历史订单数据中各个数据之间的第一约束关系；

根据所述第一约束关系确定所述历史订单数据对应的第一意图矩阵，并对所述第一意图矩阵进行矩阵补充，获得第二意图矩阵；

对所述历史订单数据进行向量表示，获得所述历史订单数据对应的目标向量；

根据所述第二意图矩阵和所述目标向量进行数据聚类，获得所述历史订单数据对应的目标聚类结果；

根据所述目标聚类结果获得所述历史订单数据对应的用户行为特征。

第二方面，本发明实施例提供一种数据挖掘装置，包括：

数据获取模块，用于获得历史订单数据，并计算所述历史订单数据中各个数据之间的第一约束关系；

矩阵获取模块，用于根据所述第一约束关系确定所述历史订单数据对应的第一意图矩阵，并对所述第一意图矩阵进行矩阵补充，获得第二意图矩阵；

向量表示模块，用于对所述历史订单数据进行向量表示，获得所述历史订单数据对应的目标向量；

数据聚类模块，用于根据所述第二意图矩阵和所述目标向量进行数据聚类，获得所述历史订单数据对应的目标聚类结果；

用户分析模块，用于根据所述目标聚类结果获得所述历史订单数据对应的用户行为特征。

第三方面，本发明实施例还提供一种终端设备，所述终端设备包括处理器、存储器、存储在所述存储器上并可被所述处理器执行的计算机程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线，其中所述计算机程序被所述处理器执行时，实现如本发明说明书提供的任一项数据挖掘方法的步骤。

第四方面，本发明实施例还提供一种存储介质，用于计算机可读存储，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如本发明说明书提供的任一项数据挖掘方法的步骤。

本发明实施例提供一种数据挖掘方法以及相关装置，该方法包括获得历史订单数据，并计算历史订单数据中各个数据之间的第一约束关系；从而根据第一约束关系确定历史订单数据对应的第一意图矩阵，并对第一意图矩阵进行矩阵补充，获得第二意图矩阵；对历史订单数据进行向量表示，获得历史订单数据对应的目标向量；再根据第二意图矩阵和目标向量进行数据聚类，从而获得历史订单数据对应的目标聚类结果；最后，根据目标聚类结果分析用户行为特征，如购买偏好行为、消费行为习惯等信息，从而得到历史订单数据对应的用户行为特征。进而解决了相关技术中由于历史订单数据具有海量且复杂的特点，无法对历史订单数据进行高效、深层次的挖掘，从而导致降低了后续数据推荐或者用户分析的精准性的问题。此外，该方法更能有助于从历史订单数据中挖掘有用信息，从而为用户行为分析可提供更深入的数据分析和洞察，从而带来更多潜在的用户特征。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种数据挖掘方法的流程示意图；

图2为本发明实施例提供的一种数据挖掘装置的模块结构示意图；

图3为本发明实施例提供的一种终端设备的结构示意框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

本申请实施例中，在云打印系统应用的商超、餐饮（外卖）、零售、物流等领域场景中，从云打印系统（包括云打印机和云打印机服务器）进行打印过程中获取大量的历史订单数据，在获得大量的经过符合数据安全规范处理的历史订单数据之后可以对历史订单数据（例如在不同领域场景中用户历史的订单记录）进行高效、深层次的挖掘得到用户行为特征，从而为后续目标信息推荐提供了精准的数据分析基础。其中，云打印机可以是热敏打印机、票据打印机、条码打印机等等，该云打印机可以应用的领域场景包括但是不限于商超、餐饮（外卖）、零售、物流等领域场景。示例性地，在商超领域场景下，可以利用云打印机打印销售订单、促销活动海报、价格标签等；在餐饮（外卖）领域场景下，可以利用云打印机接收和打印顾客的外卖订单；在零售领域场景下，可以利用云打印机打印销售收据、商品标签、退换货单等；在物流领域场景下，可以利用云打印机打印运单、配货清单、标签等。

本发明实施例提供一种数据挖掘方法以及相关装置。其中，该数据挖掘方法可应用于终端设备中，该终端设备可以平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备。该终端设备可以为服务器，也可以为服务器集群。

下面结合附图，对本发明的一些实施例作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，图1为本发明实施例提供的一种数据挖掘方法的流程示意图。

如图1所示，该数据挖掘方法包括步骤S101至步骤S105。

步骤S101、获得历史订单数据，并计算所述历史订单数据中各个数据之间的第一约束关系。

其中，历史订单数据是指在不同领域场景中云打印系统进行打印过程中获取的用户历史的订单记录，例如用户ID、购买商品、购买时间、购买金额等相关信息。

示例性地，在云打印系统应用的商超、餐饮（外卖）、零售、物流等领域场景中，从云打印系统（包括云打印机和云打印机服务器）获取大量的历史订单数据，进而对历史订单数据进行进行清洗和预处理，包括去除重复数据、处理缺失值、统一数据格式等，以确保数据质量。从而使用统计分析方法或机器学习算法来计算历史订单数据中各个数据之间的约束关系。例如，利用皮尔逊相关系数计算历史订单数据中各个数据之间的相关性系数，从而获得历史订单数据中任意两个数据之间的约束关系。

示例性地，历史订单数据中任意两个数据之间的第一约束关系包括两个数据属于同一类别的相关约束、两个数据不属于同一类别的不相关约束，以及两个数据无法判断是否属于同一类别的未知约束。

可选地，第一约束关系可包括相关约束、不相关约束和未知约束，也可包括其他约束，本申请不做具体限制，用户可根据实际需求自行选择。

步骤S102、根据所述第一约束关系确定所述历史订单数据对应的第一意图矩阵，并对所述第一意图矩阵进行矩阵补充，获得第二意图矩阵。

示例性地，基于之前计算得到的历史订单数据中各个数据之间的第一约束关系，进而将第一约束关系转换为对应地数值，进而根据该数值构建为第一意图矩阵。其中，在第一意图矩阵中每个元素代表两个数据之间的关联程度或约束关系的强度。

示例性地，使用插值方法或者机器学习算法对第一意图矩阵进行矩阵补充，从而通过矩阵补充实现填充缺失的数据或增加额外的信息地目的，以使整个矩阵更加完整和准确。进而经过矩阵补充后得到第二意图矩阵，第二意图矩阵将更好地反映历史订单数据之间的关联性和约束关系。第二意图矩阵可以为后续的分析和决策提供更多有用的信息。

在一些实施方式中，所述根据所述第一约束关系确定所述历史订单数据对应的第一意图矩阵，包括：对所述第一约束关系进行类别分类，获得所述第一约束关系对应的约束类型；根据所述约束类型确定所述第一约束关系对应的第一数值；获得用户的初始意图，并根据所述初始意图确定所述用户对应的第二约束关系；将所述第二约束关系根据预设规则进行数值转换，获得所述第二约束关系对应的第二数值；根据所述第一数值和所述第二数值进行矩阵填充，获得所述历史订单数据对应的所述第一意图矩阵。

示例性地，使用分类算法（如决策树、支持向量机等）对第一约束关系进行分类，从而获得对应的约束类型。这有助于更清晰地理解不同约束关系之间的类别差异和对应特征。进而根据分类结果，为每个约束类型确定对应的第一数值。这可以帮助标识并区分不同约束类型在数值上的特征，为后续处理提供基础。

示例性地，用户通过终端输入地方式设置自己地意图，从而将该意图确定为用户的初始意图。这有助于进一步理解用户需求和行为，为定制化服务或推荐提供依据。进而根据初始意图进行两两意图之间地约束关系，从而确定用户对应的第二约束关系。这可以帮助定位用户需求，并进一步理解用户的行为特征。从而根据预设规则对第二约束关系进行数值转换，计算对应的第二数值。这有助于将约束关系转化为可处理的数值形式，为后续处理做准备。

示例性地，根据第一数值和第二数值计算填充矩阵，获得历史订单数据对应的第一意图矩阵。从而帮助进一步理解历史订单数据的特征和关系，为后续数据分析和应用提供基础。

具体地，获得第一意图矩阵可以更有效地处理历史订单数据，从而可对历史订单数据提供更深入的数据分析和洞察，为后续提升数据处理效率和准确性提供了支撑。

在一些实施方式中，所述对所述第一意图矩阵进行矩阵补充，获得第二意图矩阵，包括：对所述第一意图矩阵进行矩阵拆解，获得第一目标矩阵和第二目标矩阵；将所述第一目标矩阵和所述第二目标矩阵进行矩阵相乘，获得所述第一意图矩阵对应的第一相邻矩阵；根据所述第一相邻矩阵对所述第一意图矩阵进行矩阵值补充，获得所述第二意图矩阵。

示例性地，将第一意图矩阵进行拆解，得到第一目标矩阵和第二目标矩阵。这一步将有助于对矩阵进行更深入的分析和处理，使得后续计算更具可操作性和准确性。从而将第一目标矩阵和第二目标矩阵进行矩阵相乘，得到第一相邻矩阵。矩阵相乘的结果将反映出各元素之间的相邻关系，帮助更好地理解数据的结构和特征。

示例性地，第一目标矩阵和第二目标矩阵作为中间矩阵，表达了历史订单数据中任意两个数据之间地关系，因此，第一目标矩阵和第二目标矩阵能够挖掘出第一意图矩阵中没有记录地隐含关系。因此，在通过第一目标矩阵和第二目标矩阵进行相乘后得到地第一相邻矩阵中地数据在第一意图矩阵中没有显示地关系，即为需要补充地用户意图信息。从而根据第一相邻矩阵对第一意图矩阵进行矩阵值补充，得到第二意图矩阵。通过补充矩阵值，可以进一步完善意图矩阵的信息，提高数据的完整性和准确性。

示例性地，对第一意图矩阵进行矩阵拆解后得到地第一目标矩阵和第二目标矩阵通过目标优化的方式进行获得，从而第一目标矩阵和第二目标矩阵之间相乘得到地第一相邻矩阵与第一意图矩阵相近但不相等。进而可将第一意图矩阵中矩阵值为0的相同位置的数据更新成相同位置下第一相邻矩阵对应的矩阵值，从而实现对历史订单数据中各个数据之间的隐含关系的挖掘，进而完善意图矩阵的信息，提高数据的完整性和准确性

具体地，对第一意图数据进行矩阵补充获得第二意图矩阵可以实现对意图矩阵的处理和优化，为后续的数据分析和应用提供更丰富的数据基础。

在一些实施方式中，所述对所述第一意图矩阵进行矩阵拆解，获得第一目标矩阵和第二目标矩阵，包括：对所述第一意图矩阵进行初始矩阵拆解，获得第一中间矩阵和第二中间矩阵；根据所述第一中间矩阵、所述第二中间矩阵以及所述第一意图矩阵确定矩阵拆解对应的矩阵拆解误差；当所述矩阵拆解误差小于预设误差时，则根据所述第一中间矩阵确定所述第一目标矩阵和根据所述第二中间矩阵确定所述第二目标矩阵；当所述矩阵拆解误差大于或者等于所述预设误差时，则重新对所述第一意图矩阵进行矩阵拆解，直至获得所述第一目标矩阵和所述第二目标矩阵。

示例性地，对第一意图矩阵进行初始拆解，得到第一中间矩阵和第二中间矩阵。其中，第一中间矩阵的矩阵大小为第一意图矩阵的行数和预设列数，第二中间矩阵的矩阵大小为预设列数和第一意图矩阵的列数。第一中间矩阵和第二中间矩阵可通过随机生成的方式获得。

示例性地，将第一中间矩阵和第二中间矩阵进行相乘获得合并后矩阵，进而计算合并后矩阵与第一意图矩阵中的差值，进而将差值结果确定为矩阵拆解误差。

示例性地，判断计算得到的矩阵拆解误差是否小于预设误差。如果误差小于预设误差，则根据中间矩阵确定第一目标矩阵和第二目标矩阵；如果误差大于或等于预设误差，则重新进行矩阵拆解，直至误差符合预期为止。如果矩阵拆解误差大于预设误差，则重新对第一意图矩阵进行拆解，直至达到预设误差范围内的拆解结果。这可以保证拆解的准确性和稳定性。通过反复计算和拆解，可以提高矩阵拆解的准确性，减小误差，提升数据质量。此外，及时判断误差情况并重新拆解，有助于优化数据处理流程，确保结果准确性。

具体地，通过减少误差获得第一目标矩阵和第二目标矩阵，从而可获得精准的第一相邻矩阵，从而可更加精准的获得用户的隐藏意图和隐藏关系，进而为后续进行用户分析提供良好的支撑。

在一些实施方式中，所述根据所述第一中间矩阵、所述第二中间矩阵以及所述第一意图矩阵确定矩阵拆解对应的矩阵拆解误差，包括：根据所述第一中间矩阵和所述第二中间矩阵确定正则误差；将所述第一中间矩阵和所述第二中间矩阵进行矩阵相乘，获得第二相邻矩阵；计算所述第一意图矩阵和所述第二相邻矩阵之间的相似值，获得相似误差；根据所述相似误差和所述正则误差确定矩阵拆解对应的所述矩阵拆解误差；其中，根据下列公式计算所述相似误差：

；

表示第i行第j列中所述第一意图矩阵对应的所述相似误差，/>表示第i行第j列中所述第一意图矩阵对应的矩阵值，k表示所述第一意图矩阵对应的行数和列数之间的最小值，/>表示第i行第l列中所述第一中间矩阵对应的矩阵值，/>表示第j行第l列中所述第二中间矩阵对应的矩阵值。

示例性地，根据第一中间矩阵和第二中间矩阵，确定正则误差。正则误差的设定可以帮助控制模型的复杂度，并在模型训练中进行正则化，以防止过拟合或欠拟合。

示例性地，将第一中间矩阵和第二中间矩阵进行矩阵相乘，得到第二相邻矩阵。矩阵相乘可以揭示不同矩阵之间的关系，为进一步分析提供基础。进而计算第一意图矩阵和第二相邻矩阵之间的相似值，获得相似误差。通过相似误差的计算，可以评估拆解后的矩阵之间的接近程度，从而优化模型的准确性。

示例性地，根据下列公式计算相似误差：

；

表示第i行第j列中第一意图矩阵对应的相似误差，/>表示第i行第j列中第一意图矩阵对应的矩阵值，k表示第一意图矩阵对应的行数和列数之间的最小值，/>表示第i行第l列中第一中间矩阵对应的矩阵值，/>表示第j行第l列中第二中间矩阵对应的矩阵值。

示例性地，在获得正则误差和相似误差之后，将正则误差和相似误差进行求和，从而获得矩阵拆解误差。进而根据矩阵拆解误差量化矩阵拆解的误差程度，并为调整和改进拆解过程提供指导。

示例性地，通过将相似误差和正则误差进行求和获得矩阵拆解误差，可以更好地评估矩阵拆解的质量，从而为后续提高用户分析结果的准确性和鲁棒性提供支撑。

具体地，通过将相似误差和正则误差进行求和获得矩阵拆解误差可以更好地管理和控制矩阵拆解过程中的误差，从而提高矩阵拆解的准确性和稳定性，为数据分析和应用提供更可靠的支持。

步骤S103、对所述历史订单数据进行向量表示，获得所述历史订单数据对应的目标向量。

示例性地，从历史订单数据中提取特征，以便将订单数据表示为向量。例如，在餐饮外卖领域场景中，特征为用户历史订购的菜品、历史订购频率；在商超领域场景中，特征为用户历史购买的商品种类、历史购买频率；在零售领域场景中，特征为用户在或网店的浏览历史、历史购买的商品种类、历史购买频率；在物流行业领域场景中，特征为用户的收件类型、历史收件频率。将这些特征转换成数值形式，并组合成向量表示。进而将提取的特征组合成向量表示历史订单数据。可以使用不同的方法，如 one-hot 编码、嵌入向量等方式，将每个订单数据映射到对应的向量空间中，进而对历史订单数据进行分析和处理，确定每个订单数据对应的目标向量。目标向量可以是关于订单状态、用户行为（例如菜品订购偏好行为、商品购买偏好行为或者收件偏好行为）等方面的信息，根据具体业务场景而定。

此外，还可根据机器学习模型或深度学习模型对历史订单数据进行向量表示，从而获得目标向量。

步骤S104、根据所述第二意图矩阵和所述目标向量进行数据聚类，获得所述历史订单数据对应的目标聚类结果。

示例性地，对目标向量进行数据聚类，从而获得初始聚类结果，进而考虑到用户意图对聚类结果的影响，利用第二意图矩阵调整初始聚类结果，获得历史订单数据对应的目标聚类结果。从而根据目标聚类结果将历史订单数据分为不同的目标聚类。每个聚类代表一组具有相似特征或行为的打印订单数据。其中，在考虑到用户意图后利用第二意图矩阵对聚类结果进行调整，从而获得更加贴合不同的应用场景的聚类结果。

在一些实施方式中，所述根据所述第二意图矩阵和所述目标向量进行数据聚类，获得所述历史订单数据对应的目标聚类结果，包括：对所述目标向量进行初始数据聚类，获得初始聚类结果；计算所述目标向量和所述初始聚类结果的初始聚类中心之间的相似性，获得所述目标向量对应的第一概率分布；根据所述第一概率分布对所述目标向量进行数据强化，获得所述目标向量对应的第二概率分布；计算所述第一概率分布和所述第二概率分布之间的差异，获得所述目标向量对应的第一聚类损失；根据所述初始聚类结果确定所述目标向量对应的初始标签矩阵；根据所述初始标签矩阵和所述第二意图矩阵确定所述初始聚类结果对应的第二聚类损失；根据所述第一聚类损失和所述第二聚类损失确定所述初始聚类结果对应的目标聚类损失；根据所述目标聚类损失对所述历史订单数据进行聚类调整，获得所述历史订单数据对应的所述目标聚类结果。

示例性地，首先对目标向量进行初始数据聚类，得到初始聚类结果。这个过程可以使用聚类算法，将目标向量划分为不同的簇。进而计算初始聚类中心和目标向量之间的相似性，得到目标向量对应的第一概率分布。相似性可以使用欧氏距离或其他相似度度量方法计算。

示例性地，根据第一概率分布对目标向量进行数据强化，得到目标向量对应的第二概率分布。数据强化可以是调整向量的权重或其他方式，以提升数据的质量和准确性。进而计算第一概率分布和第二概率分布之间的差异，得到目标向量对应的第一聚类损失。第一聚类损失表示了第一概率分布和第二概率分布之间的差异程度。

示例性地，根据初始聚类结果，确定目标向量对应的初始标签矩阵。标签矩阵表示各个目标向量所属的聚类簇。进而根据初始标签矩阵和第二意图矩阵，确定初始聚类结果对应的第二聚类损失。第二聚类损失表示了初始聚类结果与第二意图矩阵之间的差异。

示例性地，将第一聚类损失和第二聚类损失进行求和，从而将求和值确定初始聚类结果对应的目标聚类损失，进而根据目标聚类损失衡量初始聚类结果与目标向量之间的整体差异度。

示例性地，根据目标聚类损失执行优化聚类中心、重新分配簇等操作，以最小化聚类损失，从而对历史订单数据进行聚类调整，得到目标聚类结果。

具体地，根据第二意图矩阵指导历史订单数据地聚类过程，将用户意图作为聚类依据之一，最终得到符合用户意图的目标聚类结果，从而为后续获得用户行为特征提供了良好的技术支撑。

在一些实施方式中，所述根据所述初始标签矩阵和所述第二意图矩阵确定所述初始聚类结果对应的第二聚类损失，包括：从所述第二意图矩阵中获得对应的目标行向量，并计算所述目标行向量与所述初始标签矩阵之间的矩阵相似值；根据所述矩阵相似值确定所述初始聚类结果对应的所述第二聚类损失；其中，根据下列公式获得所述第二聚类损失：

；

表示所述第二聚类损失，/>表示第i行所述目标行向量对应的所述矩阵相似值，n表示所述历史订单数据对应的数据总量，/>表示第i个所述初始标签矩阵对应的矩阵值，/>表示所述第二意图矩阵对应的第i个行向量。

示例性地，依次从第二意图矩阵中获得目标行向量，进而对于每个目标行向量和初始标签矩阵计算它们之间的相似度，例如使用余弦相似度、欧氏距离等方式来计算相似值。进而通过矩阵相似值，确定初始聚类结果对应的第二聚类损失。计算方式可以根据相似值确定损失值，表示初始聚类结果与目标行向量之间的差异程度。

示例性地，根据下列公式获得第二聚类损失：

；

表示第二聚类损失，/>表示第i行目标行向量对应的矩阵相似值，n表示历史订单数据对应的数据总量，/>表示第i个初始标签矩阵对应的矩阵值，/>表示第二意图矩阵对应的第i个行向量。

具体地，根据上述步骤评估初始聚类结果与第二意图矩阵的拟合程度，以及确定聚类过程中的改进方向，从而可确保后续修正聚类结果过程中可以准确地评估聚类结果的质量并进行合理的调整。

步骤S105、根据所述目标聚类结果获得所述历史订单数据对应的用户行为特征。

示例性地，根据上述步骤得到目标聚类结果，即将历史订单数据进行聚类处理并得出最终的聚类结果。用户行为特征包括菜品订购偏好行为和菜品订购消费行为习惯、网店浏览偏好行为和网店消费行为习惯、商品购买偏好行为和商品购买消费行为习惯、快递收件偏好行为和快递消费行为习惯，这些用户行为特征可以反映用户的偏好行为、消费行为习惯等信息。

示例性地，将目标聚类结果及对应的用户与历史订单数据进行关联，找出每个用户所属的聚类簇或类别。从而根据用户所属的聚类簇或类别，提取相应的用户行为特征。可以通过统计用户在每个类别下的订单情况、偏好行为、消费行为习惯、购买频率等信息来描述用户的行为特征。进而对提取的用户行为特征进行分析和挖掘，可以发现不同类别用户的特点和行为差异，为后续数据推荐或者用户分析提供了精准的用户行为特征。

请参阅图2，图2为本申请实施例提供的一种数据挖掘装置200，该数据挖掘装置200包括数据获取模块201、矩阵获取模块202、向量表示模块203、数据聚类模块204、用户分析模块205，其中，数据获取模块201，用于获得历史订单数据，并计算所述历史订单数据中各个数据之间的第一约束关系；矩阵获取模块202，用于根据所述第一约束关系确定所述历史订单数据对应的第一意图矩阵，并对所述第一意图矩阵进行矩阵补充，获得第二意图矩阵；向量表示模块203，用于对所述历史订单数据进行向量表示，获得所述历史订单数据对应的目标向量；数据聚类模块204，用于根据所述第二意图矩阵和所述目标向量进行数据聚类，获得所述历史订单数据对应的目标聚类结果；用户分析模块205，用于根据所述目标聚类结果获得所述历史订单数据对应的用户行为特征。

在一些实施方式中，矩阵获取模块202在所述根据所述第一约束关系确定所述历史订单数据对应的第一意图矩阵过程中，执行：

对所述第一约束关系进行类别分类，获得所述第一约束关系对应的约束类型；

根据所述约束类型确定所述第一约束关系对应的第一数值；

获得用户的初始意图，并根据所述初始意图确定所述用户对应的第二约束关系；

将所述第二约束关系根据预设规则进行数值转换，获得所述第二约束关系对应的第二数值；

根据所述第一数值和所述第二数值进行矩阵填充，获得所述历史订单数据对应的所述第一意图矩阵。

在一些实施方式中，矩阵获取模块202在所述对所述第一意图矩阵进行矩阵补充，获得第二意图矩阵过程中，执行：

对所述第一意图矩阵进行矩阵拆解，获得第一目标矩阵和第二目标矩阵；

将所述第一目标矩阵和所述第二目标矩阵进行矩阵相乘，获得所述第一意图矩阵对应的第一相邻矩阵；

根据所述第一相邻矩阵对所述第一意图矩阵进行矩阵值补充，获得所述第二意图矩阵。

在一些实施方式中，矩阵获取模块202在所述对所述第一意图矩阵进行矩阵拆解，获得第一目标矩阵和第二目标矩阵过程中，执行：

对所述第一意图矩阵进行初始矩阵拆解，获得第一中间矩阵和第二中间矩阵；

根据所述第一中间矩阵、所述第二中间矩阵以及所述第一意图矩阵确定矩阵拆解对应的矩阵拆解误差；

当所述矩阵拆解误差小于预设误差时，则根据所述第一中间矩阵确定所述第一目标矩阵和根据所述第二中间矩阵确定所述第二目标矩阵；

当所述矩阵拆解误差大于或者等于所述预设误差时，则重新对所述第一意图矩阵进行矩阵拆解，直至获得所述第一目标矩阵和所述第二目标矩阵。

在一些实施方式中，矩阵获取模块202在所述根据所述第一中间矩阵、所述第二中间矩阵以及所述第一意图矩阵确定矩阵拆解对应的矩阵拆解误差过程中，执行：

根据所述第一中间矩阵和所述第二中间矩阵确定正则误差；

将所述第一中间矩阵和所述第二中间矩阵进行矩阵相乘，获得第二相邻矩阵；

计算所述第一意图矩阵和所述第二相邻矩阵之间的相似值，获得相似误差；

根据所述相似误差和所述正则误差确定矩阵拆解对应的所述矩阵拆解误差；

其中，根据下列公式计算所述相似误差：

；

在一些实施方式中，数据聚类模块204在所述根据所述第二意图矩阵和所述目标向量进行数据聚类，获得所述历史订单数据对应的目标聚类结果过程中，执行：

对所述目标向量进行初始数据聚类，获得初始聚类结果；

计算所述目标向量和所述初始聚类结果的初始聚类中心之间的相似性，获得所述目标向量对应的第一概率分布；

根据所述第一概率分布对所述目标向量进行数据强化，获得所述目标向量对应的第二概率分布；

计算所述第一概率分布和所述第二概率分布之间的差异，获得所述目标向量对应的第一聚类损失；

根据所述初始聚类结果确定所述目标向量对应的初始标签矩阵；

根据所述初始标签矩阵和所述第二意图矩阵确定所述初始聚类结果对应的第二聚类损失；

根据所述第一聚类损失和所述第二聚类损失确定所述初始聚类结果对应的目标聚类损失；

根据所述目标聚类损失对所述历史订单数据进行聚类调整，获得所述历史订单数据对应的所述目标聚类结果。

在一些实施方式中，数据聚类模块204在所述根据所述初始标签矩阵和所述第二意图矩阵确定所述初始聚类结果对应的第二聚类损失过程中，执行：

从所述第二意图矩阵中获得对应的目标行向量，并计算所述目标行向量与所述初始标签矩阵之间的矩阵相似值；

根据所述矩阵相似值确定所述初始聚类结果对应的所述第二聚类损失；

其中，根据下列公式获得所述第二聚类损失：

；

在一些实施方式中，数据挖掘装置200可应用于终端设备。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的数据挖掘装置200的具体工作过程，可以参考前述数据挖掘方法实施例中的对应过程，在此不再赘述。

请参阅图3，图3为本发明实施例提供的一种终端设备的结构示意性框图。

如图3所示，终端设备300包括处理器301和存储器302，处理器301和存储器302通过总线303连接，该总线比如为I2C（Inter-integrated Circuit）总线。

具体地，处理器301用于提供计算和控制能力，支撑整个终端设备的运行。处理器301可以是中央处理单元 (Central Processing Unit，CPU)，该处理器301还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

具体地，存储器302可以是Flash芯片、只读存储器 (ROM，Read-Only Memory)磁盘、光盘、U盘或移动硬盘等。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本发明实施例方案相关的部分结构的框图，并不构成对本发明实施例方案所应用于其上的终端设备的限定，具体的服务器可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器用于运行存储在存储器中的计算机程序，并在执行所述计算机程序时实现本发明实施例提供的任意一种所述的数据挖掘方法。

在一实施例中，所述处理器用于运行存储在存储器中的计算机程序，并在执行所述计算机程序时实现如下步骤：

在一些实施方式中，处理器301在所述根据所述第一约束关系确定所述历史订单数据对应的第一意图矩阵过程中，执行：

根据所述约束类型确定所述第一约束关系对应的第一数值；

在一些实施方式中，处理器301在所述对所述第一意图矩阵进行矩阵补充，获得第二意图矩阵过程中，执行：

在一些实施方式中，处理器301在所述对所述第一意图矩阵进行矩阵拆解，获得第一目标矩阵和第二目标矩阵过程中，执行：

在一些实施方式中，处理器301在所述根据所述第一中间矩阵、所述第二中间矩阵以及所述第一意图矩阵确定矩阵拆解对应的矩阵拆解误差过程中，执行：

根据所述第一中间矩阵和所述第二中间矩阵确定正则误差；

其中，根据下列公式计算所述相似误差：

；

在一些实施方式中，处理器301在所述根据所述第二意图矩阵和所述目标向量进行数据聚类，获得所述历史订单数据对应的目标聚类结果过程中，执行：

对所述目标向量进行初始数据聚类，获得初始聚类结果；

在一些实施方式中，处理器301在所述根据所述初始标签矩阵和所述第二意图矩阵确定所述初始聚类结果对应的第二聚类损失过程中，执行：

其中，根据下列公式获得所述第二聚类损失：

；

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的终端设备的具体工作过程，可以参考前述数据挖掘方法实施例中的对应过程，在此不再赘述。

本发明实施例还提供一种存储介质，用于计算机可读存储，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如本发明实施例说明书提供的任一项数据挖掘方法的步骤。

其中，所述存储介质可以是前述实施例所述的终端设备的内部存储单元，例如所述终端设备的硬盘或内存。所述存储介质也可以是所述终端设备的外部存储设备，例如所述终端设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)等。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施例中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质（或非暂时性介质）和通信介质（或暂时性介质）。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息（诸如计算机可读指令、数据结构、程序模块或其他数据）的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘（DVD）或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

应当理解，在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅为本发明的具体实施例，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种数据挖掘方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一约束关系确定所述历史订单数据对应的第一意图矩阵，包括：

根据所述约束类型确定所述第一约束关系对应的第一数值；

3.根据权利要求1所述的方法，其特征在于，所述对所述第一意图矩阵进行矩阵补充，获得第二意图矩阵，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述第一意图矩阵进行矩阵拆解，获得第一目标矩阵和第二目标矩阵，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一中间矩阵、所述第二中间矩阵以及所述第一意图矩阵确定矩阵拆解对应的矩阵拆解误差，包括：

根据所述第一中间矩阵和所述第二中间矩阵确定正则误差；

其中，根据下列公式计算所述相似误差：

；

6.根据权利要求1所述的方法，其特征在于，所述根据所述第二意图矩阵和所述目标向量进行数据聚类，获得所述历史订单数据对应的目标聚类结果，包括：

对所述目标向量进行初始数据聚类，获得初始聚类结果；

7.根据权利要求6中所述的方法，其特征在于，所述根据所述初始标签矩阵和所述第二意图矩阵确定所述初始聚类结果对应的第二聚类损失，包括：

其中，根据下列公式获得所述第二聚类损失：

；

8.一种数据挖掘装置，其特征在于，包括：

9.一种终端设备，其特征在于，所述终端设备包括处理器、存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至7中任一项所述的数据挖掘方法。

10.一种计算机存储介质，用于计算机存储，其特征在于，所述计算机存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1至7中任一项所述的数据挖掘方法的步骤。