CN112989026B

CN112989026B - 一种基于关联规则的文本推荐方法

Info

Publication number: CN112989026B
Application number: CN202110400230.7A
Authority: CN
Inventors: 高英; 李泰稷; 陈吉祥
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2023-08-01
Anticipated expiration: 2041-04-14
Also published as: CN112989026A

Abstract

一种基于关联规则的文本推荐方法，具体步骤为：步骤一：从数据集中选择词项集构建FP树，并利用FP树挖掘关联规则构建关联规则库；步骤二：当获取用户输入时，输入文本经过分词处理生成词项集，词项集与已有的关联规则进行匹配；步骤三：匹配后有相同后继的关联规则进行加权求和得到所有规则后继及其权重，存在于同一目标文本的规则后继求和得到所有目标文本及其权重；步骤四：输出预测结果。本发明具有准确率高、计算速度快、适应性强、可扩展性等特点。

Description

一种基于关联规则的文本推荐方法

技术领域

本发明涉及数据挖掘技术领域，具体涉及一种基于关联规则的文本推荐方法。

背景技术

目前，面向用户的推荐算法有以下分类，即基于内容的方法，基于协同的方法，基于效用的方法，基于知识的方法，基于关联规则的方法。在基于内容的方法中，项目或对象是通过相关特征的属性来定义的，系统基于用户评价对象的特征、学习用户的兴趣，考察用户资料与待预测项目的匹配程度。但是复杂属性不好处理，并且要有足够数据构造分类器。

基于协同过滤的方法一般采用最近邻技术，利用用户的历史喜好信息计算用户之间的距离，然后利用目标用户的最近邻居用户对商品评价的加权评价值来预测目标用户对特定商品的喜好程度，但是无法解决稀疏问题和可扩展性问题。基于效用的方法是建立在对用户使用项目的效用情况上计算的，其核心问题是怎样为每一个用户去创建一个效用函数，用户资料模型很大程度上是由系统所采用的效用函数决定的，因此用户必须输入效用函数，而且推荐是静态的，灵活性差。

基于知识的方法因它们所用的功能知识不同而有明显区别，在某种程度上可以看成是一种推理技术，它不是建立在用户需要和偏好基础上推荐的。因此推理所需的知识较难获得，而且推荐是静态的。

虽然基于关联规则的方法在商品销售中已经得到了成功的应用，但是算法的第一步关联规则的发现最为关键且最耗时，是算法的瓶颈。其次，文字的同义性问题也是关联规则的一个难点。

发明内容

本发明针对现有技术的不足，提出一种具有准确率高、计算速度快、适应性强、可扩展性等特点的基于关联规则的文本推荐方法，具体技术方案如下：

步骤一：从数据集中选择词项集构建FP树，并利用FP树挖掘关联规则构建关联规则库；

步骤二：当获取用户输入时，输入文本经过分词处理生成词项集，词项集与已有的关联规则进行匹配；

步骤三：匹配后有相同后继的关联规则进行加权求和得到所有规则后继及其权重，存在于同一目标文本的规则后继求和得到所有目标文本及其权重；

步骤四：输出预测结果。

作为优化：所述步骤一中FP树即频繁模式树，由频繁项头表和项前缀树构成，项头表用于存储数据库中所有前件项及其支持度，该项在所有事务中出现的次数，表中的项按照支持度大小降序排序，项头表还包含每个项在前缀树中结点链表的表头指针，用于快速访问前缀树中所有包含相同项的结点，数据库的事务由推理规则的前件和后件，即词项集及其所对应的目标文本组成，增加了叶结点，表示该路径所有条件模式基所对应的推理后件；

在构建FP树时，首先扫描原始数据库并建立项头表；然后再次扫描数据库，将每个事务中前件的项按照支持度降序排序并添加到前缀树中，每个事务都将作为前缀树中的一条路径，其中中间结点为该事务前件的项，叶结点为后件；每个结点的支持度表示该路径上同一位置相同结点重复出现的次数，数据库二次扫描完毕时FP树构建完成。

作为优化：所述步骤一中FP树挖掘关联规则具体为，首先要从项头表的底部项依次向上挖掘，对于项头表对应于FP树的每一项都要找到它的条件模式基，条件模式基是以需要挖掘的结点作为叶子结点所对应的FP子树。

作为优化：所述步骤二中分词处理具体为，将文本字符串的每个具有独立意义的单词作为语句的一个特征，每个词同时作为关联规则的一个项，因此每个文本字符串经过分词处理都可以生成一个项集，采用的分词算法基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图；采用动态规划查找最大概率路径，找出基于词频的最大切分组合；对于未登录词，采用基于汉字成词能力的隐马尔可夫模型，使用维特比算法。

作为优化：所述步骤二具体为，通过关联规则挖掘所生成的关联规则可存放于关联规则库中，用户输入的文本经过分词处理后生成的词项集输入到关联规则库进行逐一匹配，即，若关联规则的先导项集包含于用户输入生成的词项集中则匹配成功，并计算该关联规则后继的权重，关联规则的权重计算公式如下：

w＝s*n (1)

其中，w表示该关联规则的后继的权重，s表示该关联规则的支持度，n表示该关联规则先导的长度，即词项集的元素个数；

由于关联规则数量较为庞大，存储关联规则所需的空间较大，且逐一匹配的时间效率较低，因此先将用户输入分词得到的词项集与步骤一中的项头表取交集，仅保留项头表与输入词项集的公共项，然后再建立相应的FP树；

通过这种方法建立的FP子树包含了用户输入所满足的所有关联规则，因此可以直接计算叶结点的权重来得到该用户输入可推理出的目标文本及其对应的权重，以路径{a:8,c:8,e:6,g:4}→B:4为例，该路径可产生的先导长度为1的关联规则有4条：a→B:4，c→B:4，e→B:4，g→B:4，即有种情况；根据公式(1)可得这4条关联规则的后继权重均为w＝4*1，其中叶结点支持度为4，规则先导长度为1，

先导长度为2、3、4的关联规则分别有种情况；由此可得叶结点B的权重为/>由此可得结点权重的计算公式为：

其中，s表示该结点的支持度，同关联规则的支持度，n表示该结点所在路径的前缀结点个数(不包括根结点)，即根结点到该结点的路径长度减1，n同时代表了以该结点为关联规则后继时其先导的最大长度。

已知公式：

则公式(2)可记为：

W＝s*n*2^n-1

通过这种方法建立的FP子树包含了用户输入所满足的所有关联规则，因此可以直接计算叶结点的权重来得到该用户输入可推理出的目标文本及其对应的权重。根据公式(1)可得这4条关联规则的后继权重均为w＝4*1，其中叶结点支持度为4，规则先导长度为1。同理，先导长度为2、3、4的关联规则分别有种情况；由此可得叶结点B的权重为

由此可得结点权重的计算公式为：

其中，s表示该结点的支持度(同关联规则的支持度)，n表示该结点所在路径的前缀结点个数(不包括根结点)，即根结点到该结点的路径长度减1，n同时代表了以该结点为关联规则后继时其先导的最大长度。

已知公式：

则公式(2)可记为：

W＝s*n*2^n-1 (4)

通过这种方法即可得到用户输入所对应的FP子树，并计算得到其所有叶结点所表示的目标文本及其对应的权重。

作为优化：所述步骤三具体为，

词项集中每一项的权重计算公式为：

w_i＝∑W_j (5)

以上公式当且仅当词项集中第i项包含于第j个目标文本中时成立。

最终推导出目标文本权重的计算公式如下：

其中，WT表示最终推荐出目标文本的权重，m表示该目标文本分词生成词项集的项的个数，w_i表示包含于该目标文本词项集的项的权重，

通过上述过程，算法最终以权重从大到小的顺序输出置信度最高的前k个目标文本，k的值可由实际需求确定，用户可以人为选择最合适的目标文本作为推荐结果，然后用户输入与其对应的目标文本将会添加到数据库中，以扩充已标记的数据记录。

本发明的有益效果为：本发明设计了一种基于关联规则挖掘的文本推荐方案，通过对输入与输出文本进行关联规则的挖掘与分析，从而推荐出与用户输入关联性最强的目标文本，可应用于文档分析与分类等功能。首先对历史数据的输入以及对应的输出文本进行分词处理，将原始输入文本转化为词项集，以作为数据挖掘的有效多维特征，算法通过分析分析挖掘出的关联规则与用户输入的匹配程度，实现从用户输入推荐出置信度最高的目标文本。

本发明中从用户输入通过分词生成词项集的方案，有效地将一维输入文本分解为多维词语特征，对语义相近的词汇也具有一定的可预测性，避免了传统计算语句相似度方法中无法有效检测近义词的缺点。此外本发明设计基于FP树的数据结构对关联规则进行存储，最大程度地保留了原始输入文本特征的完整性，并且能够显著提高关联规则挖掘过程的时间性能并降低空间开销。

附图说明

图1为本发明的流程示意图。

图2为本发明中FP树结构示意图。

图3为本发明中含f结点的FP子树的结构示意图。

图4为本发明中求交集后的FP树的结构示意图。

图5为本发明中正则化的结构示意图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

术语解释：

关联规则(Association Rules)：关联规则是形如X→Y的蕴涵式，其中，X和Y分别称为关联规则的先导(antecedent或left-hand-side,LHS)和后继(consequent或right-hand-side,RHS)。其中，关联规则XY，存在支持度和信任度。

数据挖掘(Data mining)：数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。

分词(Word Segmentation)：在本文中默认指中文分词(Chinese WordSegmentation)技术。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。

前缀树：又称字典树，Trie树，是一种树形结构，是一种哈希树的变种。典型应用是用于统计，排序和保存大量的字符串(但不仅限于字符串)，所以经常被搜索引擎系统用于文本词频统计。优点是利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较，查询效率比哈希树高。

正则化(Regularization)：为了防止过拟合，给需要训练的目标函数加上一些规则(限制)。

HMM模型：隐马尔可夫模型(Hidden Markov Model，HMM)是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析，例如模式识别。

Viterbi算法：维特比算法是一种动态规划算法用于寻找最有可能产生观测事件序列的-维特比路径-隐含状态序列，特别是在马尔可夫信息源上下文和隐马尔可夫模型中。

如图1所示，步骤如下：算法启动时，从数据集中选择词项集构建FP树，利用FP树挖掘关联规则构建关联规则库；当获取用户输入时，输入文本经过分词处理生成词项集，词项集与已有的关联规则进行匹配，匹配后有相同后继的关联规则进行加权求和得到所有规则后继及其权重，存在于同一目标文本的规则后继求和得到所有目标文本及其权重，预测结果可用于扩充原始数据集并进一步扩充关联规则库。

下面将对这几项步骤进行详细说明：

1、分词

用户输入文本以及需要推荐的目标文本都是以字符串表示的，因此较难发现文本之间的关联关系，本方法将文本字符串的每个具有独立意义的单词作为语句的一个特征，每个词同时作为关联规则的一个项，因此每个文本字符串经过分词处理都可以生成一个项集。本发明采用的分词算法基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图(Directed acyclic graph,DAG)；采用了动态规划查找最大概率路径,找出基于词频的最大切分组合；对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法。

2、FP树

FP树，即频繁模式树(Frequent Pattern Tree)，是一种输入数据的压缩表示，它通过逐个读入事务，并把事务映射到FP树中的一条路径来构造，由于不同的事务可能会有若干个相同的项，因此它们的路径可能部分重叠，路径相互重叠越多则使用FP树结构获得的压缩效果越好。FP树是一种特殊的前缀树，由频繁项头表和项前缀树构成，其结构示例如图2所示：

项头表用于存储数据库中所有前件项及其支持度，该项在所有事务中出现的次数，表中的项按照支持度大小降序排序，此外项头表还包含每个项在前缀树中结点链表的表头指针，用于快速访问前缀树中所有包含相同项的结点。在本发明中，数据库的事务由推理规则的前件和后件，即词项集及其所对应的目标文本组成，因此在传统的FP树结构上增加了叶结点，表示该路径所有条件模式基所对应的推理后件。

在构建FP树时，首先扫描原始数据库并建立项头表；然后再次扫描数据库，将每个事务中前件的项按照支持度降序排序并添加到前缀树中，每个事务都将作为前缀树中的一条路径，其中中间结点为该事务前件的项，叶结点为后件；每个结点的支持度表示该路径上同一位置相同结点重复出现的次数。数据库二次扫描完毕时FP树构建完成。

3、关联规则挖掘

为了发现FP树中的所有频繁模式，首先要从项头表的底部项依次向上挖掘，对于项头表对应于FP树的每一项都要找到它的条件模式基，条件模式基是以需要挖掘的结点作为叶子结点所对应的FP子树。以图2中的项头表为例，首先要挖掘出包含f项的所有频繁模式，由于f在FP树中只有一个结点，因此候选只有图2前缀树最左端的路径，对应{a:8,c:8,e:6,b:2,f:2}→A:2，如图3所示。

然后将所有的前缀结点支持度设置为叶结点的支持度，即FP子树变成{a:2,c:2,e:2,b:2,f:2}，由此很容易得到f的频繁1项集为{f:2}；频繁2项集为{a:2,f:2},{c:2,f:2},{e:2,f:2},{b:2,f:2}；递归合并2项集，得到频繁3项集为{a:2,c:2,f:2},{a:2,e:2,f:2},…由此一直递归，最大的频繁项集为频繁5项集{a:2,c:2,e:2,b:2,f:2}。以上所有频繁项集的推理后件都为该路径的叶结点A。为了简化挖掘过程，也可以从推理规则的后件开始进行挖掘，以A为例，筛选出叶结点为A的所有路径组成的FP子树，再重复上述挖掘过程。

为了进一步提高算法的泛化能力，推理规则后件即目标文本也经过分词处理生成词项集，因此上述过程挖掘出的关联规则后继都为其对应目标文本生成的词项集。假设目标文本A的分词结果为项集{A₁,A₂,A₃,A₄}，以f结点为例，由频繁1项集组成的关联规则为f→A:2即f→{A₁,A₂,A₃,A₄}:2(支持度为2)，可分解为4条关联规则：f→A₁:2,f→A₂:2,f→A₃:2,f→A₄:2。

4、关联规则匹配以及权重计算

通过关联规则挖掘所生成的关联规则可存放于关联规则库中，用户输入的文本经过分词处理后生成的词项集输入到关联规则库进行逐一匹配，即，若关联规则的先导项集包含于用户输入生成的词项集中则匹配成功，并计算该关联规则后继的权重，关联规则的权重计算公式如下：

w＝s*n (1)

其中，w表示该关联规则的后继的权重，s表示该关联规则的支持度，n表示该关联规则先导的长度(即词项集的元素个数)。例如关联规则{a,c,f}→{A₁,A₂,A₃,A₄}:2，其后继{A₁,A₂,A₃,A₄}的权重w＝2*3＝6，且后继中的每一项权重均为6，即{A₁,A₂,A₃,A₄}:6＝{A₁:6,A₂:6,A₃:6,A₄:6}。

由于关联规则数量较为庞大，存储关联规则所需的空间较大，且逐一匹配的时间效率较低，因此本发明采用的方法是先将用户输入分词得到的词项集与步骤(2)中的项头表取交集，仅保留项头表与输入词项集的公共项，然后再建立相应的FP树。假设有项头表与图2所示一致，用户输入经过分词得到的词项集为{a,c,e,g,h}，则其与项头表的交集为{a,c,e,g}，然后再次扫描数据库进行FP树的构建，此时FP树只包含该交集中的项，如图4所示。

通过这种方法建立的FP子树包含了用户输入所满足的所有关联规则，因此可以直接计算叶结点的权重来得到该用户输入可推理出的目标文本及其对应的权重。以路径{a:8,c:8,e:6,g:4}→B:4为例，该路径可产生的先导长度为1的关联规则有4条：a→B:4，c→B:4，e→B:4，g→B:4，即有种情况；根据公式(1)可得这4条关联规则的后继权重均为w＝4*1，其中叶结点支持度为4，规则先导长度为1。同理，先导长度为2、3、4的关联规则分别有/>种情况；由此可得叶结点B的权重为/>

由此可得结点权重的计算公式为：

已知公式：

则公式(2)可记为：

W＝s*n*2^n-1 (4)

5、目标文本的权重计算以及输出推荐结果

上述步骤可初步得到用户输入文本通过FP树可推导出的目标文本及权重，但不一定包含所有需要推荐的目标文本，因此需要进行正则化，其流程如下：

如图5所示，假设有目标文本A,B,…,X，其分词结果为：A＝{A₁,A₂,…,A_n},B＝{B₁,B₂,…,B_n},…假设有A:6＝{A₁:6,A₂:6,A₃:6},B:3＝{B₁:3,B₂:3,B₃:3}，则由目标文本集{A:6,B:3}可以得到词项集{A₁:6,A₂:6,A₃:6,B₁:3,B₂:3,B₃:3}。由于在实际处理过程中，不同目标文本的分词结果总会存在大量相同的项，不妨假设A₃＝B₁，且记AB₁＝A₃＝B₁，则w(AB₁)＝w(A₃)+w(B₁)＝6+3＝9，词项集改写为{A₁:6,A₂:6,AB₁:9,B₂:3,B₃:3}。

由此可得词项集中每一项的权重计算公式为：

w_i＝∑W_j (5)

最终推导出目标文本权重的计算公式如下：

其中，WT表示最终推荐出目标文本的权重，m表示该目标文本分词生成词项集的项的个数，w_i表示包含于该目标文本词项集的项的权重。

通过上述过程，算法最终以权重从大到小的顺序输出置信度最高的前k个目标文本(k的值可由实际需求确定)，用户可以人为选择最合适的目标文本作为推荐结果，然后用户输入与其对应的目标文本将会添加到数据库中，以扩充已标记的数据记录。

为了能够更好地理解算法内容，本文提供了算法1，用以描述算法的训练过程。

输入：用户输入文本s，目标文本库T，历史数据库D

输出：目标文本列表T’

过程：

1:扫描D，建立项头表H

2:s分词得到词项集S

3:H与S取交集得到项头表h

4:扫描D，利用h建立FP树f

5:利用公式(4)计算f所有叶结点的权重W＝[W₁,W₂,…,W_l]

6:扫描T＝[T₁,T₂,…,T_n]，建立词项集C＝{c₁,c₂,…,c_m}

7:利用公式(5)计算C中所有项的权重w＝[w₁,w₂,…,w_m]

8:利用公式(6)计算T中所有目标文本的权重WT＝[WT₁,WT₂,…,WT_n]

9:将T按照WT的值降序排序，得到T’

10：return T′

最后，用户从目标文本列表T'的前k项中选择最合适的一项作为推荐结果，并添加到数据库D中。

Claims

1.一种基于关联规则的文本推荐方法，其特征在于，具体步骤为：

具体为，通过关联规则挖掘所生成的关联规则可存放于关联规则库中，用户输入的文本经过分词处理后生成的词项集输入到关联规则库进行逐一匹配，即，若关联规则的先导项集包含于用户输入生成的词项集中则匹配成功，并计算该关联规则后继的权重，关联规则的权重计算公式如下：

w＝s*n (1)

通过这种方法建立的FP子树包含了用户输入所满足的所有关联规则，因此可以直接计算叶结点的权重来得到该用户输入可推理出的目标文本及其对应的权重，根据公式(1)计算所有关联规则的后继权重，并根据所有关联规则的后继权重，由此可得结点权重的计算公式为：

其中，s表示该结点的支持度，同关联规则的支持度，n表示该结点所在路径的前缀结点个数，不包括根结点，即根结点到该结点的路径长度减1，n同时代表了以该结点为关联规则后继时其先导的最大长度；

已知公式：

则公式(2)可记为：

W＝s*n*2^n-1

通过这种方法建立的FP子树包含了用户输入所满足的所有关联规则，因此可以直接计算叶结点的权重来得到该用户输入可推理出的目标文本及其对应的权重；

步骤四：输出预测结果。

2.根据权利要求1所述基于关联规则的文本推荐方法，其特征在于：所述步骤一中FP树即频繁模式树，由频繁项头表和项前缀树构成，项头表用于存储数据库中所有前件项及其支持度，该项在所有事务中出现的次数，表中的项按照支持度大小降序排序，项头表还包含每个项在前缀树中结点链表的表头指针，用于快速访问前缀树中所有包含相同项的结点，数据库的事务由推理规则的前件和后件，即词项集及其所对应的目标文本组成，增加了叶结点，表示该路径所有条件模式基所对应的推理后件；

在构建FP树时，首先扫描原始数据库并建立项头表；然后再次扫描数据库，将每个事务中前件的项按照支持度降序排序并添加到前缀树中，每个事务都将作为前缀树中的一条路径，其中中间结点为所述数据库的事务前件的项，叶结点为后件；每个结点的支持度表示该路径上同一位置相同结点重复出现的次数，数据库二次扫描完毕时FP树构建完成。

3.根据权利要求2所述基于关联规则的文本推荐方法，其特征在于：所述步骤一中FP树挖掘关联规则具体为，首先要从项头表的底部项依次向上挖掘，对于项头表对应于FP树的每一项都要找到它的条件模式基，条件模式基是以需要挖掘的结点作为叶子结点所对应的FP子树。

4.根据权利要求1所述基于关联规则的文本推荐方法，其特征在于：所述步骤二中分词处理具体为，将文本字符串的每个具有独立意义的单词作为语句的一个特征，每个词同时作为关联规则的一个项，因此每个文本字符串经过分词处理都可以生成一个项集，采用的分词算法基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图；采用动态规划查找最大概率路径，找出基于词频的最大切分组合；对于未登录词，采用基于汉字成词能力的隐马尔可夫模型，使用维特比算法。

5.根据权利要求1所述基于关联规则的文本推荐方法，其特征在于：所述步骤三具体为，

词项集中每一项的权重计算公式为：

w_i＝∑W_j (5)

以上公式当且仅当词项集中第i项包含于第j个目标文本中时成立；

w_i代表词项集第i项的权重，W_j代表第j个目标文本的权重，

最终推导出目标文本权重的计算公式如下：

算法最终以权重从大到小的顺序输出置信度最高的前k个目标文本，k的值可由实际需求确定，用户可以人为选择最合适的目标文本作为推荐结果，然后用户输入与其对应的目标文本将会添加到数据库中，以扩充已标记的数据记录。