CN107341252B

CN107341252B - 一种挖掘规则关联模型未知关联关系的方法及装置

Info

Publication number: CN107341252B
Application number: CN201710557386.XA
Authority: CN
Inventors: 席丽娜; 晋耀红; 李德彦
Original assignee: China Science And Technology (beijing) Co Ltd; Beijing Shenzhou Taiyue Software Co Ltd
Current assignee: Dingfu Intelligent Technology Co., Ltd
Priority date: 2017-07-10
Filing date: 2017-07-10
Publication date: 2018-08-17
Anticipated expiration: 2037-07-10
Also published as: CN107341252A

Abstract

本申请公开了一种挖掘规则关联模型未知关联关系的方法及装置，根据样本数据建立上下文词空间向量模型，参考关联分析算法生成二元关系表达式，再将得到的二元关系表达式中的词汇与获取到的规则关联模型中概念匹配，如果匹配成功，并且二元关系表达式中的词汇在规则关联模型中也并未互相建立关联关系，生成规则关联模型的二元关联关系表达式。利用规则关联模型和生成的二元关联关系表达式能准确的、有效的定位有使用价值的关联结果，进而帮助企业、商家和用户调整市场政策并做出正确的决策。

Description

一种挖掘规则关联模型未知关联关系的方法及装置

技术领域

本申请涉及数据挖掘技术领域，尤其涉及一种挖掘规则关联模型未知关联关系的方法及装置。

背景技术

在大数据时代，数据挖掘是最关键的工作。大数据的数据挖掘是从海量和随机的大型数据库中发现隐含在其中有用的信息和知识的过程，也是一种决策支持过程。通过对大数据高度自动化地分析，做出归纳性的推理，从中挖掘出潜在的模式，可以帮助企业、商家和用户调整市场政策并做出正确的决策。

通过关联分析进行数据挖掘是常用的方法之一，关联分析可以发现隐藏在数据项之间的关联或相互关系，即可以根据一个数据项的出现推导出其他数据项的出现。现有的关联分析的方法，大多基于现有机器学习算法，如Apriori算法和FPGrowth算法等。以Apriori算法为例，首先找出所有一元频繁项集，将所有一元频繁项集的支持度与预先设置的最小支持度对比，如果有一元频繁项集的支持度小于最小支持度，则该一元频繁项集作为无效项集被剪枝，然后，再根据上一步中剩余的一元频繁项集建立二元频繁项集，将所有二元频繁项集的支持度与最小支持度对比，如果有二元频繁项集的支持度小于最小支持度，则该二元频繁项集作为无效项集被剪枝，依此类推，直到得到理想频繁项集，最后根据理想频繁项集中各个非空子集的置信度，找到关联性最强的数据关联关系，理想频繁项集是指项集中的元素数量符合要求。

然而，上述这种方法虽然能够分析出数据之间的关联关系，但是分析的过程中，会产生大量的频繁项集，这些频繁项集并不一定都是对分析结果有贡献的数据，例如上文中提到的无效项集。在分析时，这些无效项集也会对分析结果造成干扰，使得关联分析方法不能保证绝对有效的定位有使用价值的关联结果。

发明内容

本申请提供了一种挖掘规则关联模型未知关联关系的方法及装置，以解决目前的关联分析算法不能保证绝对有效的定位有使用价值的关联结果的问题。

一方面，本申请提供了一种挖掘规则关联模型未知关联关系的方法，包括：

获取样本数据和规则关联模型，所述规则关联模型包括n个元组，n为大于1的正整数，每个所述元组包括至少一个概念；

根据所述样本数据，建立上下文词空间向量模型，所述上下文词空间向量模型包括k个词汇，k为大于1的正整数；

根据所述上下文词空间向量模型，生成二元关系表达式，所述二元关系表达式包括2个词汇；

将所述二元关系表达式与所述规则关联模型匹配，根据匹配结果，生成所述规则关联模型的关联关系表达式。

可选的，所述根据样本数据，建立上下文词空间向量模型之前，还包括：

预处理所述样本数据，所述预处理包括：分词和过滤停用词。

可选的，所述根据所述上下文词空间向量模型，生成二元关系表达式的步骤包括：

根据所述上下文词空间向量模型，生成数个关系表达式，所述关系表达式由m个词汇组成，m为大于或者等于1的正整数；

提取所述关系表达式中由2个词汇组成的二元关系表达式。

可选的，所述将二元关系表达式与所述规则关联模型匹配，根据匹配结果，生成所述规则关联模型的关联关系表达式的步骤包括：

将所述二元关系表达式中的词汇与所述规则关联模型中的概念匹配；

如果匹配成功，则判断所述二元关系表达式中的2个词汇是否已经在所述关联规则模型中建立关联关系；

如果所述二元关系表达式中的2个词汇未在所述关联规则模型中建立关联关系，则生成由二元关系表达式中的2个词组成的关联关系表达式。

可选的，所述将二元关系表达式中的词汇与所述规则关联模型中的概念匹配的步骤包括：

判断所述二元关系表达式中的词汇是否同时存在于所述规则关联模型的不同元组中；

如果所述二元关系表达式中的词汇同时存在于所述规则关联模型的不同元组中，则判断所述词汇所处的元组是否是相邻的元组；

如果所述词汇所处的元组是相邻的元组，则匹配成功。

另一方面，本申请还提供了一种挖掘规则关联模型未知关联关系的装置，包括：

获取模块，用于获取样本数据和规则关联模型，所述规则关联模型包括n个元组，n为大于1的正整数，每个所述元组包括至少一个概念；

模型建立模块，用于根据所述样本数据，建立上下文词空间向量模型，所述上下文词空间向量模型包括k个词汇，k为大于1的正整数；

二元关系表达式生成模块，用于根据所述上下文词空间向量模型，生成二元关系表达式，所述二元关系表达式包括2个词汇；

匹配模块，用于将所述二元关系表达式与所述规则关联模型匹配，根据匹配结果，生成所述规则关联模型的关联关系表达式。

可选的，所述装置还包括：

预处理模块，用于预处理所述样本数据，所述预处理包括：分词和过滤停用词。

可选的，所述二元关系表达式生成模块还包括：

关系表达式生成模块，用于根据所述上下文词空间向量模型，生成数个关系表达式，所述关系表达式由m个词汇组成，m为大于或者等于1的正整数；

提取模块，用于提取所述关系表达式中由2个词汇组成的二元关系表达式。

可选的，所述匹配模块还包括：

词汇与概念匹配模块，用于将所述二元关系表达式中的词汇与所述规则关联模型中的概念匹配；

关联关系判断模块，用于如果匹配成功，则判断所述二元关系表达式中的2个词汇是否已经在所述关联规则模型中建立关联关系；

如果所述二元关联表达式中的2个词汇未在所述关联规则模型中建立关联关系，则生成由二元关系表达式中的2个词组成的关联关系表达式。

可选的，所述词汇与概念匹配模块还包括：

词汇状态判断模块，用于判断所述二元关系表达式中的词汇是否同时存在于所述规则关联模型的不同元组中；

相邻元组判断模块，用于如果所述二元关系表达式中的词汇同时存在于所述规则关联模型的不同元组中，则判断所述词汇所处的元组是否是相邻的元组；

如果所述词汇所处的元组是相邻的元组，则匹配成功。

由以上技术方案可知，本申请提供了一种挖掘规则关联模型未知关联关系的方法及装置，根据样本数据建立上下文词空间向量模型，参考关联分析算法生成二元关系表达式，再将得到的二元关系表达式中的词汇与获取到的规则关联模型中概念匹配，如果匹配成功，并且二元关系表达式中的词汇在规则关联模型中也并未互相建立关联关系，生成规则关联模型的二元关联关系表达式。利用规则关联模型和生成的二元关联关系表达式能准确的、有效的定位有使用价值的关联结果，进而帮助企业、商家和用户调整市场政策并做出正确的决策。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施案例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种挖掘规则关联模型未知关联关系的方法的一个实施例的流程图；

图2为本申请实施例提供的一种挖掘规则关联模型未知关联关系的方法的另一个实施例的流程图；

图3为规则关联模型的示意图；

图4为补充后的规则关联模型的示意图；

图5为本申请实施例提供的一种挖掘规则关联模型未知关联关系的装置的结构图；

图6为二元关联表达式生成模块的结构图；

图7为匹配模块的结构图；

图8为词汇与概念匹配模块的结构图。

具体实施方式

下面结合说明书附图，对本申请实施例提供的一种挖掘规则关联模型未知关联关系的方法及装置的具体实施方式进行说明。

参见图1，为本申请实施例提供的一种挖掘规则关联模型未知关联关系的方法的一个实施例的流程图。本申请实施例提供了一种挖掘规则关联模型未知关联关系的方法，包括如下步骤：

步骤101，获取样本数据和规则关联模型，所述规则关联模型包括n个元组，n为大于1的正整数，每个所述元组包括至少一个概念。

样本数据是从具体企业、商家和用户的业务数据中随机抽取的，业务数据根据具体企业、商家和用户所处的实际业务场景不同而有着不同的业务概念，例如，银行的业务概念包括信用卡、利息、额度和口碑等词汇，所以银行的业务数据很大程度上是与信用卡、利息、额度和口碑等有关的数据。业务数据应与建立规则关联模型的数据来源于相同的业务场景，例如，获取的规则关联模型如图3所示，规则关联模型中有3个元组，其中包括信用卡、黄金、额度、利息、利率、很低、较低、很高、较高等概念，本申请实施例中获取的样本数据包含但不仅仅包含信用卡、黄金、额度、利息、利率、很低、较低、很高、较高等词汇。

步骤102，根据所述样本数据，建立上下文词空间向量模型，所述上下文词空间向量模型包括k个词汇，k为大于1的正整数。

本实施例仅仅以样本数据信用卡、黄金、额度、利息、利率、很低、较低、很高和较高为例，建立上下文词空间向量模型。例如，根据上述的样本数据，参考现有的机器学习算法：Apriori算法，可以建立的部分上下文词空间向量模型如表1所示：

表1

步骤103，根据所述上下文词空间向量模型，生成二元关系表达式，所述二元关系表达式包括2个词汇。

由于样本数据包含有一定数量的词汇，所以以此建立的上下文词空间向量模型有多个，对每一个上下文词空间向量模型进行关联算法分析，可分析出具有关联关系的两个词汇，并生成这两个词汇的二元关系表达式。

本申请实施例在进行关联关系分析的同时，也计算出每一个生成的二元关系表达式的支持度，支持度根据具有关联关系的词汇在样本数据出现的概率，和出现该词汇的样本数据占总样本数的百分比计算。

支持度可以直观地反映出二元关系表达式关联关系的强度，为企业、商家和用户提供调整和决策的依据。

步骤104，将所述二元关系表达式与所述规则关联模型匹配，根据匹配结果，生成所述规则关联模型的二元关联关系表达式。

如果经过步骤103之后，生成的二元关系表达式为“黄金-利息”，参见图3，可见在规则关联模型中，黄金和利息之间并未建立关联关系，所以将“黄金”和“利息”建立图3中规则关联模型的关联关系表达式。

由以上技术方案可知，本申请提供了一种挖掘规则关联模型未知关联关系的方法，根据样本数据建立上下文词空间向量模型，参考关联分析算法生成二元关系表达式，再将得到的二元关系表达式中的词汇与获取到的规则关联模型中概念匹配，如果匹配成功，并且二元关系表达式中的词汇在规则关联模型中也并未互相建立关联关系，生成规则关联模型的二元关联关系表达式。利用规则关联模型和生成的二元关联关系表达式能准确的、有效的定位有使用价值的关联结果，进而帮助企业、商家和用户调整市场政策并做出正确的决策。

参见图2，为本申请实施例提供的一种挖掘规则关联模型未知关联关系的方法的另一个实施例的流程图。本申请的另一种实施例提供了一种挖掘规则关联模型未知关联关系的方法，包括：

步骤201，获取样本数据和规则关联模型，所述规则关联模型包括n个元组，n为大于1的正整数，每个所述元组包括至少一个概念。

步骤202，预处理所述样本数据，所述预处理包括：分词和过滤停用词。

上述样本数据中不仅仅包含单独的词汇，还可能包含文章、句子等，当样本数据中含有文章、句子等数据时，需要对文章和句子进行分词处理和停用词过滤。分词处理和停用词过滤，即将文章或者句子中的关键词汇提取出来，作为简单的词汇数据使用，停用词即为明显不能作为关键词的词，例如，样本数据中包含“这家银行有某某类型的信用卡，但是这种信用卡的额度很低。”，在这句话中，“的”、“这”和“但是”明显不能作为关键词，将这些词作为停用词过滤掉，再对剩余的词汇进行分词处理，则可以提取出“信用卡”、“额度”和“很低”三个关键词。预处理可以快速排除非关键词的干扰。

步骤203，根据所述样本数据，建立上下文词空间向量模型，所述上下文词空间向量模型包括k个词汇，k为大于1的正整数。

本实施例仅仅以样本数据信用卡、黄金、额度、利息、利率、很低、较低、很高和较高为例，建立上下文词空间向量模型，可以建立的部分上下文词空间向量模型如上述表1所示。

进一步地，在建立上下文词空间向量模型后，还要对每一个具有关联关系的向量模型计算支持度，将支持度与预设的数值进行比较，保留符合要求的支持度对应的上下文词空间向量模型做后续处理，例如，保留下来的上下文词空间向量模型如表2所示：

表2

{信用卡，黄金，额度}	{信用卡，黄金，利息}	{黄金，额度，很低}
			{信用卡，黄金，很低}	{黄金，利息，很高}	{利息，利率，很高}

步骤204，根据所述上下文词空间向量模型，生成数个关系表达式，所述关系表达式由m个词汇组成，m为大于或者等于1的正整数。

进一步地，参考Apriori算法，对上下文词空间向量模型处理，首先找出上下文词空间向量模型中所有一元频繁项集，即一元关系表达式，并计算一元关系表达式的支持度，然后，再根据一元关系表达式建立二元关系表达式，并计算二元关系表达式的支持度，依此类推，得到m元关系表达式及对应的支持度。

例如，对上述表2中上下文词空间向量模型{信用卡，黄金，利息}进行处理，可以得到的关系表达式如表3所示：

表3

对上述表2中上下文词空间向量模型{黄金，利息，很高}进行处理，可以得到的关系表达式如表4所示：

表4

步骤205，提取所述关系表达式中由2个词汇组成的二元关系表达式。

在步骤204中，经过对上下文词空间向量模型的处理后，每个上下文词空间向量模型都可以得到一元关系表达式、二元关系表达和三元关系表达式，其中一元关系表达式如“信用卡”，二元关系表达式如“信用卡-黄金”，三元关系表达式如“信用卡-黄金-利息”，本申请实施例中只对二元关系表达式进行，所以只提取由2个词汇组成的二元关系表达式。

例如，对上述表3和表4中的关系表达式进行提取，得到的二元关系表达式如表5所示：

表5

信用卡-黄金	信用卡-利息	黄金-利息
			黄金-利息	黄金-很高	利息-很高

步骤206，将所述二元关系表达式中的词汇与所述规则关联模型中的概念匹配。

如图3所示，规则关联模型中的概念有：信用卡、黄金、额度、利息、利率、很低、较低、很高和较高。而组成二元关系表达式中的词汇却不仅仅限于这些词汇，上述二元关系表达式仅是举例说明，由于最初获取的样本数据的范围大于建立规则关联模型的概念范围，所以步骤205筛选出的二元关系表达式中的词汇也会有可能不在规则关联模型中出现，对于这种情况，本申请实施例步骤206需要将二元关系表达式中的词汇与规则关联模型中的概念匹配，判断二元关系表达式中的词汇在规则关联模型中是否有对应的概念存在。

步骤207，如果匹配成功，则判断所述二元关系表达式中的2个词汇是否已经在所述关联规则模型中建立关联关系。

步骤208，如果所述二元关系表达式中的2个词汇未在所述关联规则模型中建立关联关系，则生成由二元关系表达式中的2个词组成的二元关联关系表达式。

例如，判断上述的二元关系表达式“信用卡-利息”：如图3所示，信用卡与利息已经在规则关联模型中建立关联关系，则“信用卡-利息”是已经存在关联关系的关系表达式，这两个词汇之间不需要再次建立关联关系。

判断上述二元关系表达式“利息-很高”：如图3所示，利息和很高并未在规则关联模型中建立关联关系，则生成二元关联关系表达式“利息-很高”。

判断上述二元关系表达式“黄金-利息”：如图3所示，黄金和利息并未在规则关联模型中建立关联关系，则生成二元关联关系表达式“黄金-利息”。

所以，规则关联模型的二元关联关系表达式为“黄金-利息”和“利息-很高”，补充后的规则关联模型如图4所示，并且计算得出相应的二元关联关系表达式的支持度。

可选的，上述步骤206包括如下步骤：

步骤301，判断所述二元关系表达式中的词汇是否同时存在于所述规则关联模型的不同元组中；

步骤302，如果所述二元关系表达式中的词汇同时存在于所述规则关联模型的不同元组中，则判断所述词汇所处的元组是否是相邻的元组；

步骤303，如果所述词汇所处的元组是相邻的元组，则匹配成功。

如图3所示，规则关联模型中的概念有：信用卡、黄金、额度、利息、利率、很低、较低、很高和较高。而组成二元关联表达式中的词汇却不仅仅限于这些词汇，上述二元关联表达式仅是举例说明，由于最初获取的样本数据的范围大于建立规则关联模型的概念范围，所以步骤205筛选出的二元关联表达式中的词汇也会有可能不在规则关联模型中出现，对于这种情况，本申请实施例步骤206需要将二元关联表达式中的词汇与规则关联模型中的概念匹配，判断二元关联表达式中的词汇在规则关联模型中是否有对应的概念存在。

更进一步地，还要判断二元关系表达式中的词汇是否同时存在于规则关联模型的不同元组中，比如，上述表5中的二元关系表达式“信用卡-黄金”，查找规则关联模型可以发现，此式中的两个词汇在规则关联模型中处于同一个元组中，如图3所示，所以，对于这种情况的二元关系表达式，判定为匹配失败。

再比如，上述表5中的二元关系表达式“黄金-很高”，查找规则关联模型可以发现，此式中的两个词汇在规则关联模型中不处于同一个元组中，则进行下一步判断，判断“黄金”所在的元组与“很高”所在的元组是否为相邻的元组，如图3所示，这两个元组并不是相邻的元组，则匹配失败。

对于上述表5中的二元关系表达式“黄金-利息”和“利息-很高”，可判断为匹配成功。

需要注意的是，本申请实施例为了说明清楚，只列举了与规则关联模型中的概念相同的词汇，并对这些词汇采用一定的算法进行关联关系的挖掘；再有，对于挖掘出的关系表达式，本申请实施例中也只是列举了其中一部分进行说明，实际上的样本数据与挖掘出的关系表达式并不限于上述列出的部分，在此不再赘述。

参见图5，为本申请实施例提供的一种挖掘规则关联模型未知关联关系的装置，包括：

获取模块501，用于获取样本数据和规则关联模型，所述规则关联模型包括n个元组，n为大于1的正整数，每个所述元组包括至少一个概念；

模型建立模块503，用于根据所述样本数据，建立上下文词空间向量模型，所述上下文词空间向量模型包括k个词汇，k为大于1的正整数；

二元关联表达式生成模块504，用于根据所述上下文词空间向量模型，生成二元关系表达式，所述二元关系表达式包括2个词汇

匹配模块505，用于将所述二元关系表达式与所述规则关联模型匹配，根据匹配结果，生成所述规则关联模型的二元关联关系表达式。

可选的，所述装置还包括：

预处理模块502，用于预处理所述样本数据，所述预处理包括：分词和过滤停用词。

可选的，参见图6，所述二元关系表达式生成模块504还包括：

关联表达式生成模块601，用于根据所述上下文词空间向量模型，生成数个关系表达式，所述关系表达式由m个词汇组成，m为大于或者等于1的正整数；

提取模块602，用于提取所述关系表达式中由2个词汇组成的二元关系表达式。

可选的，参见图7，所述匹配模块505还包括：

词汇与概念匹配模块701，用于将所述二元关系表达式中的词汇与所述规则关联模型中的概念匹配；

关联关系判断模块702，用于如果匹配成功，则判断所述二元关系表达式中的2个词汇是否已经在所述关联规则模型中建立关联关系；

如果所述二元关联表达式中的2个词汇未在所述关联规则模型中建立关联关系，则生成由二元关系表达式中的2个词组成的二元关联关系表达式。

可选的，所述词汇与概念匹配模块701还包括：

词汇状态判断模块801，用于判断所述二元关系表达式中的词汇是否同时存在于所述规则关联模型的不同元组中；

相邻元组判断模块802，用于如果所述二元关系表达式中的词汇同时存在于所述规则关联模型的不同元组中，则判断所述词汇所处的元组是否是相邻的元组；

如果所述词汇所处的元组是相邻的元组，则匹配成功。

本领域技术人员在考虑说明书及实践这里公开的申请后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围由权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims

1.一种挖掘规则关联模型未知关联关系的方法，其特征在于，所述方法包括：

获取样本数据和规则关联模型，所述规则关联模型包括n个元组，n为大于1的正整数，每个所述元组包括至少一个概念；所述样本数据为从具体企业、商家和用户的业务数据中随机抽取的，包括对应实际业务场景下业务概念对应的词汇；

根据所述样本数据，建立上下文词空间向量模型，所述上下文词空间向量模型包括所述样本数据中的k个词汇，k为大于1的正整数；

根据所述上下文词空间向量模型，生成二元关系表达式，所述二元关系表达式包括存在关联关系的2个词汇；

将所述二元关系表达式与所述规则关联模型匹配，根据匹配结果，生成所述规则关联模型的二元关联关系表达式；

所述将二元关系表达式与所述规则关联模型匹配，根据匹配结果，生成所述规则关联模型的二元关联关系表达式的步骤包括：

如果所述二元关系表达式中的2个词汇未在所述关联规则模型中建立关联关系，则生成由二元关系表达式中的2个词组成的二元关联关系表达式；

所述将二元关系表达式中的词汇与所述规则关联模型中的概念匹配的步骤包括：

如果所述词汇所处的元组是相邻的元组，则匹配成功。

2.根据权利要求1所述的方法，其特征在于，所述根据样本数据，建立上下文词空间向量模型之前，还包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述上下文词空间向量模型，生成二元关系表达式的步骤包括：

提取所述关系表达式中由2个词汇组成的二元关系表达式。

4.一种挖掘规则关联模型未知关联关系的装置，其特征在于，所述装置包括：

获取模块，用于获取样本数据和规则关联模型，所述规则关联模型包括n个元组，n为大于1的正整数，每个所述元组包括至少一个概念；所述样本数据为从具体企业、商家和用户的业务数据中随机抽取的，包括对应实际业务场景下业务概念对应的词汇；

模型建立模块，用于根据所述样本数据，建立上下文词空间向量模型，所述上下文词空间向量模型包括所述样本数据中的k个词汇，k为大于1的正整数；

二元关系表达式生成模块，用于根据所述上下文词空间向量模型，生成二元关系表达式，所述二元关系表达式包括存在关联关系的2个词汇；

匹配模块，用于将所述二元关系表达式与所述规则关联模型匹配，根据匹配结果，生成所述规则关联模型的二元关联关系表达式；

所述匹配模块还包括：

如果所述二元关联表达式中的2个词汇未在所述关联规则模型中建立关联关系，则生成由二元关系表达式中的2个词组成的二元关联关系表达式；

所述词汇与概念匹配模块还包括：

如果所述词汇所处的元组是相邻的元组，则匹配成功。

5.根据权利要求4所述的装置，其特征在于，所述装置还包括：

6.根据权利要求4所述的装置，其特征在于，所述二元关系表达式生成模块还包括：