CN113656558B

CN113656558B - 基于机器学习对关联规则进行评估的方法及装置

Info

Publication number: CN113656558B
Application number: CN202110980623.XA
Authority: CN
Inventors: 蒋雪涵
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2023-07-21
Anticipated expiration: 2041-08-25
Also published as: WO2023024411A1; CN113656558A

Abstract

本发明涉及人工智能技术领域，揭露一种基于机器学习对关联规则进行评估的方法，包括：使用项目共现条件从项目集合中挖掘关联规则，关联规则包括前件和后件，项目共现条件为前件与后件中项目同时出现；利用预先训练的文本信息编码器和前件预测机对收集的项目文本信息进行特征提取，得到项目文本信息的编码向量表示，文本信息编码器用于对关联规则中后件是否出现进行预测，前件预测机用于对关联规则中前件是否出现进行预测；响应于关联规则的评估指令，根据项目文本信息的编码向量表示对每条关联规则进行评估，得到反映关联规则中前件和后件之间因果关系的评估结果。本发明能够针对关联规则进行因果关系评估，提高关联规则的可解释性。

Description

基于机器学习对关联规则进行评估的方法及装置

技术领域

本发明涉及人工智能技术领域，尤其是涉及到基于机器学习对关联规则进行评估的方法、装置、计算机设备及计算机存储介质。

背景技术

关联分析是一种常用的挖掘算法，用来挖掘数据之间的内在关联，可应用在生活中很多应用场景，例如，在购物场景中，通过关联规则发现群体购买习惯的内在共性，指导超市产品摆放，在医疗场景中，通过关联规则挖掘病患消费医疗项目的可能，指导医生病例诊断。

通常情况下，关联规则可以由领域专家提出，还可以通过数据挖掘得到满足有些度量值，如置信度、支持度以及提升度等要求的候选集，再经过专家确认合理性。考虑到关联规则中项目是由不同因素决定的，这些因素的共同作用对项目之间关系的评估具有偏差，例如，关联规则为“口腔麻醉→根管”这里“口腔麻醉”可能是由于患者做了“拔牙术”或者“根管治疗”导致的，而“根管”仅仅因为患者做了“根管治疗”导致，使得“口腔麻醉”推理出“根管”是有一定偏差的，使得上述关联规则的挖掘过程存在以下两点不足之处，其一是挖掘出的关联规则存在大量假阳性的情况，且规则过于复杂，会导致关联规则的可解释性较弱；其二是挖掘出的关联规则依赖专家经验，不同专家的意见可能存在出入，导致关联规则存在主观性。

发明内容

有鉴于此，本发明提供了一种基于机器学习对关联规则进行评估的方法、装置、计算机设备及计算机存储介质，主要目的在于解决现有技术中挖掘得到的关联规则存在主观性以及可解释性较弱的问题。

依据本发明一个方面，提供了一种基于机器学习对关联规则进行评估的方法，该方法包括：

使用项目共现条件从项目集合中挖掘关联规则，所述关联规则包括前件和后件，所述项目共现条件为前件和后件中项目同时出现；

利用预先训练的文本信息编码器和前件预测机对收集的项目文本信息进行特征提取，得到项目文本信息的编码向量表示，所述文本信息编码器用于对所述关联规则中后件是否出现进行预测，所述前件预测机用于对所述关联规则中前件是否出现进行预测；

响应于关联规则的评估指令，根据所述项目文本信息的编码向量表示对每条关联规则进行评估，得到反映关联规则中前件和后件之间因果关系的评估结果。

在本发明另一实施例中，所述项目共现条件为关联规则中前件与后件同时出现，所述使用项目共现条件从项目集合中挖掘关联规则，具体包括：

对项目集合所包含频繁项目子集进行全排列；

针对所述频繁项目子集生成候选关联规则，并利用预设参数指标对所述候选关联规则进行过滤，得到符合预设条件的候选规则，所述参数指标至少包括支持度和置信度，所述支持度为前件和后件的共现频率，所述置信度为支持度与前件概率的比值。

在本发明另一实施例中，在所述利用预先训练的文本信息编码器和前件预测机对收集的项目文本信息进行特征提取，得到项目文本信息的编码向量表示之前，所述方法还包括：

针对每条关联规则，使用预先确定所述前件和所述后件是否在项目文本信息中出现作为标签数据；

将携带有标签数据的项目文本信息输入至第一网络模型中进行训练，构建文本信息编码器，所述文本信息编码器的优化目标为最大化预测关联规则中后件是否在项目文本信息中出现；

将所述第一网络模型输出项目文本信息的编码向量表示以及关联规则中后件是否在项目文本信息中出现的预测值输入至第二网络模型进行训练，构建前件预测机，所述前件预测机的优化目标为最大化预测关联规则中前件是否在项目文本信息中出现。

在本发明另一实施例中，所述文本信息编码器与所述前件预测机在训练过程中进行对抗学习，以使得项目文本信息中去除与关联规则中前件相关的信息，并保留关联规则中前件与后件相关的信息。

在本发明另一实施例中，所述根据所述项目文本信息的编码向量表示对每条关联规则进行评估，得到反映关联规则中前件和后件之间因果关系的评估结果，具体包括：

针对每条关联规则，根据所述项目文本信息的编码向量表示计算反映关联规则中前件和后件之间因果关系的评估数值；

若所述评估数值大于预设阈值，则判定所述关联规则中前件和后件之间具有因果关系。

在本发明另一实施例中，所述项目文本信息包含有多个文本，所述针对每条关联规则，根据所述项目文本信息的编码向量表示计算反映关联规则中前件和后件之间因果关系的评估数值，具体包括：

针对每条关联规则，从所述项目文本信息中选取关联规则中前件出现的文本作为样本文本；

遍历项目文本信息的编码向量表示，查询与每个样本文本的编码向量表示符合相似度条件的文本，作为每个样本文本的相似目标文本；

针对每个样本文本的相似目标文本，计算反映关联规则中前件和后件之间因果关系的评估数值。

在本发明另一实施例中，所述针对每个样本文本的相似目标文本，计算反映关联规则中前件和后件之间因果关系的评估数值，具体包括：

针对每个样本文本的相似目标文本，计算所述目标相似文本中出现关联规则中后件的概率值，得到每个样本文本符合评估条件的概率值；

通过加权平均各个样本文本符合评估条件的概率值，得到反映关联规则中前件和后件之间因果关系的评估数值。

依据本发明另一个方面，提供了一种基于机器学习对关联规则进行评估的装置，所述装置包括：

挖掘单元，用于使用项目共现条件从项目集合中挖掘关联规则，所述关联规则包括前件和后件，所述项目共现条件为前件和后件中项目同时出现；

提取单元，用于利用预先训练的文本信息编码器和前件预测机对收集的项目文本信息进行特征提取，得到项目文本信息的编码向量表示，所述文本信息编码器用于对所述关联规则中后件是否出现进行预测，所述前件预测机用于对所述关联规则中前件是否出现进行预测；

评估单元，用于响应于关联规则的评估指令，根据所述项目文本信息的编码向量表示对每条关联规则进行评估，得到反映关联规则中前件和后件之间因果关系的评估结果。

在本发明另一实施例中，所述项目共现条件为关联规则中前件与后件同时出现，所述挖掘单元包括：

排列模块，用于对项目集合所包含频繁项目子集进行全排列；

选取模块，用于针对所述频繁项目子集生成候选关联规则，并利用预设参数指标对所述候选关联规则进行过滤，得到符合预设条件的候选规则，所述参数指标至少包括支持度和置信度，所述支持度为前件和后件的共现频率，所述置信度为支持度与前件概率的比值。

在本发明另一实施例中，所述装置还包括：

生成单元，用于在所述利用预先训练的文本信息编码器和前件预测机对收集的项目文本信息进行特征提取，得到项目文本信息的编码向量表示之前，针对每条关联规则，使用预先确定所述前件和所述后件是否在项目文本信息中出现作为标签数据；

第一构建单元，用于将携带有标签数据的项目文本信息输入至第一网络模型中进行训练，构建文本信息编码器，所述文本信息编码器的优化目标为最大化预测关联规则中后件是否在项目文本信息中出现；

第二构建单元，用于将所述第一网络模型输出项目文本信息的编码向量表示以及关联规则中后件是否在项目文本信息中出现的预测值输入至第二网络模型进行训练，构建前件预测机，所述前件预测机的优化目标为最大化预测关联规则中前件是否在项目文本信息中出现。

在本发明另一实施例中，所述评估单元包括：

计算模块，用于针对每条关联规则，根据所述项目文本信息的编码向量表示计算反映关联规则中前件和后件之间因果关系的评估数值；

判定模块，用于若所述评估数值大于预设阈值，则判定所述关联规则中前件和后件之间具有因果关系。

在本发明另一实施例中，所述项目文本信息包含有多个文本，所述计算模块包括：

选取子模块，用于针对每条关联规则，从所述项目文本信息中选取关联规则中前件出现的文本作为样本文本；

查询子模块，用于遍历项目文本信息的编码向量表示，查询与每个样本文本的编码向量表示符合相似度条件的文本，作为每个样本文本的相似目标文本；

计算子模块，用于针对每个样本文本的相似目标文本，计算反映关联规则中前件和后件之间因果关系的评估数值。

在本发明另一实施例中，所述计算子模块，具体用于针对每个样本文本的相似目标文本，计算所述目标相似文本中出现关联规则中后件的概率值，得到每个样本文本符合评估条件的概率值；

所述计算子模块，具体还用于通过加权平均各个样本文本符合评估条件的概率值，得到反映关联规则中前件和后件之间因果关系的评估数值。

依据本发明又一个方面，提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现基于机器学习对关联规则进行评估的方法的步骤。

依据本发明再一个方面，提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现基于机器学习对关联规则进行评估的方法的步骤。

借由上述技术方案，本发明提供一种基于机器学习对关联规则进行评估的方法及装置，使用项目共现条件从项目集合中挖掘关联规则，该关联规则包括前件和后件，项目共现条件为前件与后件中项目同时出现，并利用预先训练的文本信息编码器和前件预测机对收集的项目文本信息进行特征提取，得到项目文本信息的编码向量表示，该文本信息编码器用于对关联规则中后件是否出现进行预测，该前件预测机用于对关联规则中前件是否出现进行预测，响应于关联规则的评估指令，根据项目文本信息的编码向量表示对每条关联规则进行评估，得到反映关联规则中前件和后件之间因果关系的评估结果。与现有技术中通过数据挖掘得到的关联规则的方式相比，本申请通过引入因果矫正的方式对挖掘得到关联规则进行因果关系评估，去除仅跟关联规则前件或后件相关的特征，得到后件对于前件的因果解释，以增加关联规则的可解释性，从而减少关联规则存在的假阳性，避免主观因素对关联规则筛选的影响。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种基于机器学习对关联规则进行评估的方法的流程示意图；

图2示出了本发明实施例提供的另一种基于机器学习对关联规则进行评估的方法的流程示意图；

图3示出了本发明实施例提供的一种基于机器学习对关联规则进行评估的装置的结构示意图；

图4示出了本发明实施例提供的另一种基于机器学习对关联规则进行评估的装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本发明实施例提供了一种基于机器学习对关联规则进行评估的方法，通过使用项目文本信息的编码向量表示针对每条关联规则进行因果关系评估，实现对关联规则的因果筛选，增加关联规则的可解释性，如图1所示，该方法包括：

101、使用项目共现条件从项目集合中挖掘关联规则。

其中，关联规则具有条件A→条件B的形式，表示在满足条件A的情况下，可以得到条件B，这里条件A和条件B分别为关联规则包含的包括前件和后件，在关联规则中，箭头左边的项目为关联规则的前件，箭头右边的项目为关联规则的后件，这里前件和后件可以是一个项目，也可以是多个项目，项目集合可以涉及到不同的领域，例如，针对医疗领域的药品项目、检验项目等，针对网络购物领域的支付项目、评价项目等，具体可以通过预先设置的接口渠道获取大量的用户文本信息，并汇总大量的用户文本信息形成项目集合。项目共现条件为关联规则中前件与后件两个项目同时出现，例如，在就诊文本信息中，患者同时购买了项目A和项目B，项目共现条件的前提即前件中项目和后件中项目同时出现。

具体使用项目共现条件从项目集合中挖掘得到候选关联规则的过程中，首先是项目集合的生成，可使用PF growth算法生成，然后从项目集合的全排列中筛选出满足预设条件的关联规则，这里预设条件为支持度和置信度同时大于给定阈值，支持度定义为前件和后件共现的频率，置信度定义为前件和后件共现的频率与前件概率之比，前件概率是前件中所有项目的共现频率。

对于前件和后件共现的频率，项目集合中共有1000个检查项目，其中，血常规检查和尿常规检查都做的就诊文本信息有800次，那么血常规和尿常规项目的共现频率为0.8，对于前件概率，前件是一个项目集合，可以有一个项目或者多个项目，如果是一个项目，前件概率为项目的出现概率，如果是多个项目，前件概率为多个项目共现的频率。这里给定阈值可根据实际项目需求设置，如果实际项目需求为质检，则违反了规则判定为违规样本，需要设置高置信度、低支持度的预设条件。

在本发明实施例中，执行主体可以为基于机器学习对关联规则进行评估的装置，具体应用在服务器端，这里使用项目共现条件从项目集合中挖掘关联规则符合预设条件，可作为关联规则的初步筛选，可以分辨项目集合中存在的关联关系。

上述服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

102、利用预先训练的文本信息编码器和前件预测机对收集的项目文本信息进行特征提取，得到项目文本信息的编码向量表示。

其中，文本信息编码器用于对关联规则中后件是否出现进行预测，可以使用TextCNN、BERT等自然语言模型，输入参数为项目文本信息，输出参数为项目文本信息的编码向量表示，进一步对项目文本信息的编码向量表示进行分类，还可以输出关联规则中后件是否在项目文本信息中出现的预测值，前件预测机用于对关联规则中前件是否出现进行预测，可以使用深度神经网络模型，即多层感知机，第L层的输入为第(L-1)层的输出，其计算公式为，z^l＝ReLU(w^lz^l-1+b^l)，其中w^l和b^l是第L层的模型参数，RELU为激活函数，其计算公式为max(0,x)，输入参数为项目文本信息的编码向量表示以及关联规则中后件是否在项目文本信息中出现的预测值，输出参数为关联规则中前件是否在项目文本信息中出现的预测值。

这里项目文本信息可以为医疗文本数据，该医疗文本数据可以是医疗电子记录(Electronic Healthcare Reccord)、电子化的个人健康记录，包括病例、心电图、医学影像等一系列具有保存备查价值的电子化记录。

这里文本信息编码器和前件预测机可使用人工智能的机器算法结合关联规则中前件和后件是否在项目文本信息中出现作为标签数据对网络模型进行训练，以将项目文本信息进行向量化表示为编码向量表示，并在训练过程中文本信息编码器与前件预测机进行对抗学习，即两者的优化目标是相反的，通过对抗学习，可以使得项目文本信息的编码向量表示中去除仅与关联规则中前件相关的信息，保留前件和后件相关的信息。

103、响应于关联规则的评估指令，根据所述项目文本信息的编码向量表示对每条关联规则进行评估，得到反映关联规则中前件和后件之间因果关系的评估结果。

可以理解的是，针对每条关联规则，在文本信息编码器与前件预测机的对抗学习过程中，使用项目文本信息的编码向量表示预测关联规则的后件，再利用关联规则的后件与项目文本信息的编码向量表示预测关联规则的前件，可以去除项目文本信息中与后件不相关的信息，实现项目文本信息中的因果矫正，进一步通过矫正后的文本项目信息，从相似文本项目信息中评估出关联规则中前件对后件的因果贡献。

具体针对每条关联规则，项目文本信息中包含大量文本，可以选取前件发生的项目文本信息作为文本样本集，这里每条关联规则会筛选出多个文本样本，然后针对文本样本集中每个文本样本，遍历项目文本信息的编码向量表示，查询与文本样本的编码向量表示最相似的K个项目文本信息，这里可以通过计算编码向量之间的距离得到，进一步针对每个文本样本，计算K个项目文本信息中关联规则的后件出现的概率值，并求取所有文本样本所计算的后件出现的概率平均值，作为反映关联规则中前件和后件之间因果关系的评估数值，该评估数值即为关联规则中前件与后件之间因果关系的表征。

本发明实施例提供的一种基于机器学习对关联规则进行评估的方法，使用项目共现条件从项目集合中挖掘关联规则，该关联规则包括前件和后件，项目共现条件为前件与后件中项目同时出现，并利用预先训练的文本信息编码器和前件预测机对收集的项目文本信息进行特征提取，得到项目文本信息的编码向量表示，该文本信息编码器用于对关联规则中后件是否出现进行预测，该前件预测机用于对关联规则中前件是否出现进行预测，响应于关联规则的评估指令，根据项目文本信息的编码向量表示对每条关联规则进行评估，得到反映关联规则中前件和后件之间因果关系的评估结果。与现有技术中通过数据挖掘得到的关联规则的方式相比，本申请通过引入因果矫正的方式对挖掘得到关联规则进行因果关系评估，去除仅跟关联规则前件或后件相关的特征，得到后件对于前件的因果解释，以增加关联规则的可解释性，从而减少关联规则存在的假阳性，避免主观因素对关联规则筛选的影响。

本发明实施例提供了另一种基于机器学习对关联规则进行评估的方法，通过使用项目文本信息的编码向量表示针对每条关联规则进行因果关系评估，实现对关联规则的因果筛选，增加关联规则的可解释性，如图2所示，所述方法包括：

201、对项目集合所包含频繁项目子集进行全排列。

其中，项目集合相当于不同物品组成的集合，每个物品为项目集合中的项目，该项目可以为顾客消费项目，例如，牛奶、饼干，医疗支付项目，例如，血常规、尿检。由于项目集合中项目与项目之间的关联能够从一定程度上引导消费或者辅助医疗报销，例如，顾客在购买项目A和项目B的同时会购买项目C，患者在支付医疗项目C的同时会支付医疗项目D和医疗项目E。为了体现项目之间的关联关系，频繁项目子集为包含项目集合中至少一个项目，且所包含项目同时出现在一条记录的次数大于等于最小支持度，具体在全排列过程中，可以根据项目集合中项目数量确定包含不同项目数量的频繁项目子集，并根据项目数量列出所有的项目子集，进一步从项目子集中筛选支持度大于预设阈值的出频繁项子集。具体在筛选频繁项子集的过程可以遵循以下两个原则，如果一个项目子集为频繁项目子集，则该项目子集的子集为频繁项目子集，如果一个项目子集为非频繁项目子集，则该该项目子集的超集为非频繁项目子集，该过程可以节省频繁项目子集的生成时间。

例如，项目集合为{A,B,C,D}，首先列出包含一个项目的项目子集如下：{A}、{B}、{C}、{D}，然后列出包含两个项目的项目子集如下：{A,B}、{A,C}、{A,D}、{B,C}、{B,D}、{C,D}，再列出包含三个项目的项目子集如下：{A,B,C}、{A,B,D}、{A,C,D}、{B,C,D}，而支持度大于3/5的频繁项子集{A}、{B}、{A,B}、{B,C}、{A,C}、{A,B,C}。

202、针对所述频繁项目子集生成候选关联规则，并利用预设参数指标对所述候选关联规则进行过滤，得到符合预设条件的候选规则。

其中，参数指标至少包括支持度和置信度，支持度为前件和后件的共现频率，置信度为支持度与前件概率的比值。针对频繁项目子集生成的候选关联规则相当于频繁项目子集中项目的推导关系，例如，频繁项目子集为{A,B,C}，项目的推导关系可以包括：A,B＝>C、A,C＝>B、B,C＝>A、A＝>B,C、B＝>A,C、C＝>A,B。

进一步地，为了生成项目之间有效的关联规则，需要计算项目之间所形成后候选关联规则是否满足参数指标，对于支持度或者置信度不符合要求的候选关联规则，说明频繁项目子集中项目之间的关联性较弱，并不具有参考性，这里通过对参数指标阈值设置阈值的方式作为预设条件，以过滤掉关联关系较弱的候选关联规则，提高关联规则的可靠性。

具体每个频繁项目子集中项目可以形成多条候选关联规则，针对每个候选关联规则都可以分别计算置信度和支持度，如果置信度和支持度均符合预设条件，即两者均大于设置的置信度阈值以及支持度阈值，说明该候选关联规则具有较强的关联性，可以保留，否则，将该候选关联规则进行过滤。

203、针对每条关联规则，使用预先确定所述前件和所述后件是否在项目文本信息中出现作为标签数据。

在本申请中，每个项目文本信息中都会包含有至少一个项目，具体针对每条项目关联规则，前件在项目文本信息中出现相当于前件中项目均在项目文本信息中均发生，例如，前件为项目血常规和尿常规，而项目文本信息中如果包含血常规和尿常规，即视为前件在项目文本信息中出现，同理，后件是否在项目文本信息中出现即为后件中项目均在项目文本信息中出现。

204、将携带有标签数据的项目文本信息输入至第一网络模型中进行训练，构建文本信息编码器。

具体在训练过程中，文本信息编码器可获取到项目文本信息的编码向量表示，并使用编码向量表示对关联规则中后件是否在项目文本信息中出现进行预测，文本信息编码器的优化目标为最大化预测关联规则中后件是否在项目文本信息中出现。也就是说，针对每条关联规则，会利用关联规则中后件在项目文本信息中出现的标签数据进行训练，并在训练过程中结合多标签损失函数，这里每个标签对应一个交叉熵损失函数，多个标签为多个交叉熵损失函数相加，具体损失函数公示表示为：

其中，y为关联规则中后件是否在项目文本信息中出现，是编码器输出关联规则中后件是否在项目文本信息中出现的预测值，x为关联规则中前件是否在项目文本信息中出现，/>是前件预测机输出关联规则中前件是否在项目文本信息中出现的预测值。

205、将所述第一网络模型输出项目文本信息的编码向量表示以及关联规则中后件是否在项目文本信息中出现的预测值输入至第二网络模型进行训练，构建前件预测机。

具体在训练过程中，前件预测机可使用编码向量表示以及关联规则中后件在用户文本信息中出现的预测值对关联规则中前件是否在项目文本信息中出现进行预测。前件预测机的优化目标为最大化预测关联规则中前件是否在项目文本信息中出现。也就是说，针对每条关联规则，会利用关联规则中前件在项目文本信息中出现的标签数据进行训练，并在训练过程中结合多标签损失函数，该损失函数同样为多标签问题的损失函数，公式表示为：

206、利用预先训练的文本信息编码器和前件预测机对收集的项目文本信息进行特征提取，得到项目文本信息的编码向量表示。

应说明的是，这里文本信息编码器与前件预测机在训练过程中进行对抗学习，以使得项目文本信息中去除与关联规则中前件相关的信息，并保留关联规则中前件与后件相关的信息。

207、响应于关联规则的评估指令，针对每条关联规则，根据所述项目文本信息的编码向量表示计算反映关联规则中前件和后件之间因果关系的评估数值。

其中，项目文本信息包含有多个文本，具体可以针对每条关联规则，从项目文本信息中选取关联规则中前件出现的文本作为样本文本，然后遍历项目文本信息的编码向量表示，查询与每个样本文本的编码向量表示符合相似度条件的文本，作为每个样本文本的相似目标文本，针对每个样本文本的相似目标文本，计算反映关联规则中前件和后件之间因果关系的评估数值。

具体在计算反映关联规则中前件和后件之间因果关系的评估数值过程中，可以针对每个样本文本的相似目标文本，计算目标相似文本中出现关联规则中后件的概率值，得到每个样本文本符合评估条件的概率值，并通过加权平均各个样本文本符合评估条件的概率值，得到反映关联规则中前件和后件之间因果关系的评估数值。

例如，项目文本信息包含100个文本，针对每条关联规则，选取前件发生的项目文本信息中包含10个样本文本，即样本文本1-10，针对样本文本1，遍历100个文本的编码向量表示，寻找5个与样本文本的编码向量表示相似的目标文本，进一步计算在5个目标文本中关联规则的后件出现的概率值为a1，如果概率值为0.8，则说明5个目标文本中4个出现了关联规则的后件，同理，针对样本文本2-10都可以计算出符合条件的概率值a2、a3、a4、a5，进一步加权求取概率平均值即(a1+a2+a3+a4+a5)/5，得到反映关联规则中前件和后件之间因果关系的评估数值。

208、若所述评估数值大于预设阈值，则判定所述关联规则中前件和后件之间具有因果关系。

可以理解的是，这里的评估数值可表征关联规则中前件与后件之间相互的因果解释，能够更直观反映前件与后件之间是否具有因果关系，增加关联规则的可解释性。对于评估数值大于预设阈值，说明关联规则中前件与后件之间的因果解释性较强，说明前件与后件之间具有因果关系，否则，说明关联规则的解释性较弱，即关联规则虽然被挖掘出来，但是该关联规则中前件与后件的合理性较差。

在实际应用场景中，关联规则的评估可以用来对挖掘出来的关联规则进行过滤或者解释，以实现数据搭配和数据预测，例如，针对购物场景中的服装搭配，针对畜牧养殖场景的疫情判断，针对页面访问场景的业务推送等等。

本申请中针对每条关联规则，利用预先训练的文本信息编码器和前件预测机对预先收集的项目文本信息进行特征提取，并使用提取到项目文本信息的向量编码表示来对关联规则中前件和后件之间是否具有因果关系进行评估，能够去除关联规则中前件或后件的相关特征，得到后件对于前件的因果解释，从而减少潜在规则的假阳性，降低关联规则挖掘中的主观性，使用信息编码器和前件预测机，可以快速和稳定的迭代，提高关联规则的可解释性。

进一步地，作为图1所述方法的具体实现，本发明实施例提供了一种基于机器学习对关联规则进行评估的装置，如图3所示，所述装置包括：挖掘单元31、提取单元32、评估单元33。

挖掘单元31，可以用于使用项目共现条件从项目集合中挖掘关联规则，所述关联规则包括前件和后件，所述项目共现条件为前件和后件中项目同时出现；

提取单元32，可以用于利用预先训练的文本信息编码器和前件预测机对收集的项目文本信息进行特征提取，得到项目文本信息的编码向量表示，所述文本信息编码器用于对所述关联规则中后件是否出现进行预测，所述前件预测机用于对所述关联规则中前件是否出现进行预测；

评估单元33，可以用于响应于关联规则的评估指令，根据所述项目文本信息的编码向量表示对每条关联规则进行评估，得到反映关联规则中前件和后件之间因果关系的评估结果。

本发明实施例提供的一种基于机器学习对关联规则进行评估的装置，使用项目共现条件从项目集合中挖掘关联规则，该关联规则包括前件和后件，项目共现条件为前件与后件中项目同时出现，并利用预先训练的文本信息编码器和前件预测机对收集的项目文本信息进行特征提取，得到项目文本信息的编码向量表示，该文本信息编码器用于对关联规则中后件是否出现进行预测，该前件预测机用于对关联规则中前件是否出现进行预测，响应于关联规则的评估指令，根据项目文本信息的编码向量表示对每条关联规则进行评估，得到反映关联规则中前件和后件之间因果关系的评估结果。与现有技术中通过数据挖掘得到的关联规则的方式相比，本申请通过引入因果矫正的方式对挖掘得到关联规则进行因果关系评估，去除仅跟关联规则前件或后件相关的特征，得到后件对于前件的因果解释，以增加关联规则的可解释性，从而减少关联规则存在的假阳性，避免主观因素对关联规则筛选的影响。

作为图3中所示基于机器学习对关联规则进行评估的装置的进一步说明，图4是根据本发明实施例另一种基于机器学习对关联规则进行评估的装置的结构示意图，如图4所示，所述项目共现条件为关联规则中前件与后件同时出现，所述挖掘单元31包括：

排列模块311，可以用于对项目集合所包含频繁项目子集进行全排列；

选取模块312，可以用于针对所述频繁项目子集生成候选关联规则，并利用预设参数指标对所述候选关联规则进行过滤，得到符合预设条件的候选规则，所述参数指标至少包括支持度和置信度，所述支持度为前件和后件的共现频率，所述置信度为支持度与前件概率的比值。

在具体应用场景中，如图4所示，所述装置还包括：

生成单元34，可以用于在所述利用预先训练的文本信息编码器和前件预测机对收集的项目文本信息进行特征提取，得到项目文本信息的编码向量表示之前，针对每条关联规则，使用预先确定所述前件和所述后件是否在项目文本信息中出现作为标签数据；

第一构建单元35，可以用于将携带有标签数据的项目文本信息输入至第一网络模型中进行训练，构建文本信息编码器，所述文本信息编码器的优化目标为最大化预测关联规则中后件是否在项目文本信息中出现；

第二构建单元36，可以用于将所述第一网络模型输出项目文本信息的编码向量表示以及关联规则中后件是否在项目文本信息中出现的预测值输入至第二网络模型进行训练，构建前件预测机，所述前件预测机的优化目标为最大化预测关联规则中前件是否在项目文本信息中出现。

在具体应用场景中，所述文本信息编码器与所述前件预测机在训练过程中进行对抗学习，以使得项目文本信息中去除与关联规则中前件相关的信息，并保留关联规则中前件与后件相关的信息。

在具体应用场景中，如图4所示，所述评估单元33包括：

计算模块331，可以用于针对每条关联规则，根据所述项目文本信息的编码向量表示计算反映关联规则中前件和后件之间因果关系的评估数值；

判定模块332，可以用于若所述评估数值大于预设阈值，则判定所述关联规则中前件和后件之间具有因果关系。

在具体应用场景中，如图4所示，所述项目文本信息包含有多个文本，所述计算模块331包括：

选取子模块3311，可以用于针对每条关联规则，从所述项目文本信息中选取关联规则中前件出现的文本作为样本文本；

查询子模块3312，可以用于遍历项目文本信息的编码向量表示，查询与每个样本文本的编码向量表示符合相似度条件的文本，作为每个样本文本的相似目标文本；

计算子模块3313，可以用于针对每个样本文本的相似目标文本，计算反映关联规则中前件和后件之间因果关系的评估数值。

在具体应用场景中，如图4所示，所述计算子模块3313，具体可以用于针对每个样本文本的相似目标文本，计算所述目标相似文本中出现关联规则中后件的概率值，得到每个样本文本符合评估条件的概率值；

所述计算子模块3313，具体还可以用于通过加权平均各个样本文本符合评估条件的概率值，得到反映关联规则中前件和后件之间因果关系的评估数值。

需要说明的是，本实施例提供的一种基于机器学习对关联规则进行评估的装置所涉及各功能单元的其他相应描述，可以参考图1、图2中的对应描述，在此不再赘述。

基于上述如图1、图2所示方法，相应的，本实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1、图2所示的基于机器学习对关联规则进行评估的方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

基于上述如图1、图2所示的方法，以及图3、图4所示的虚拟装置实施例，为了实现上述目的，本申请实施例还提供了一种计算机设备，具体可以为个人计算机、服务器、网络设备等，该实体设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1、图2所示的基于机器学习对关联规则进行评估的方法

可选地，该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的基于机器学习对关联规则进行评估的装置的实体设备结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与该实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。通过应用本申请的技术方案，与目前现有技术相比，本申请中通过引入因果矫正的方式对挖掘得到关联规则进行因果关系评估，去除仅跟关联规则前件或后件相关的特征，得到后件对于前件的因果解释，以增加关联规则的可解释性，从而减少关联规则存在的假阳性，避免主观因素对关联规则筛选的影响。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种基于机器学习对关联规则进行评估的方法，其特征在于，所述方法包括：

针对每条关联规则，使用预先确定所述前件和所述后件是否在项目文本信息中出现作为标签数据；将携带有标签数据的项目文本信息输入至第一网络模型中进行训练，构建文本信息编码器，所述文本信息编码器的优化目标为最大化预测关联规则中后件是否在项目文本信息中出现；将所述第一网络模型输出项目文本信息的编码向量表示以及关联规则中后件是否在项目文本信息中出现的预测值输入至第二网络模型进行训练，构建前件预测机，所述前件预测机的优化目标为最大化预测关联规则中前件是否在项目文本信息中出现；

2.根据权利要求1所述的方法，其特征在于，所述项目共现条件为关联规则中前件与后件同时出现，所述使用项目共现条件从项目集合中挖掘关联规则，具体包括：

对项目集合所包含频繁项目子集进行全排列；

3.根据权利要求1所述的方法，其特征在于，所述文本信息编码器与所述前件预测机在训练过程中进行对抗学习，以使得项目文本信息中去除与关联规则中前件相关的信息，并保留关联规则中前件与后件相关的信息。

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述根据所述项目文本信息的编码向量表示对每条关联规则进行评估，得到反映关联规则中前件和后件之间因果关系的评估结果，具体包括：

5.根据权利要求4所述的方法，其特征在于，所述项目文本信息包含有多个文本，所述针对每条关联规则，根据所述项目文本信息的编码向量表示计算反映关联规则中前件和后件之间因果关系的评估数值，具体包括：

6.根据权利要求5所述的方法，其特征在于，所述针对每个样本文本的相似目标文本，计算反映关联规则中前件和后件之间因果关系的评估数值，具体包括：

7.一种基于机器学习对关联规则进行评估的装置，其特征在于，所述装置包括：

生成单元，用于针对每条关联规则，使用预先确定所述前件和所述后件是否在项目文本信息中出现作为标签数据；

第二构建单元，用于将所述第一网络模型输出项目文本信息的编码向量表示以及关联规则中后件是否在项目文本信息中出现的预测值输入至第二网络模型进行训练，构建前件预测机，所述前件预测机的优化目标为最大化预测关联规则中前件是否在项目文本信息中出现；

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

9.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。