CN112508628B

CN112508628B - 一种基于意图树的需求模式挖掘方法

Info

Publication number: CN112508628B
Application number: CN202011526942.5A
Authority: CN
Inventors: 李楠; 涂志莹; 徐汉川; 王忠杰; 徐晓飞
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2024-03-01
Anticipated expiration: 2040-12-22
Also published as: CN112508628A

Abstract

本发明是一种基于意图树的需求模式挖掘方法。本发明涉及计算机服务计算技术领域，本发明构造意向树的需求库；基于构造的意向树的需求库，进行频繁结构挖掘；根据构造的意向树的需求库，进行约束模糊聚类；根据频繁结构挖掘结果和模糊聚类结果，形成聚合需求模式；根据聚合需求模式，进行模式迭代，直至需求模式的差异逐渐稳定。本发明使用意图树为用户需求建模，通过意图分解以及将功能需求和非功能需求拆分开的形式，便于对用户需求的获取与分析。

Description

一种基于意图树的需求模式挖掘方法

技术领域

本发明涉及计算机服务计算技术领域，是一种基于意图树的需求模式挖掘方法。

背景技术

近年来，认知智能被认为是人工智能的终极目标之一，认知服务已成为研究热点。目前市面上有各种各样的智能服务机器人，以语音或手机虚拟助手的形式出售。它们在娱乐、问答、系统辅助等方面都取得了一定的智慧，可以通过特定领域的特定规则简单地了解用户的意图，如为用户播放所需的音乐，查询快递等。但是一旦用户的命令变得模糊或复杂，那么任务就超出了他们的能力范围。

在如今的互联网与大数据下，顾客群体和领域服务较为分散，且单一服务系统难以支撑顾客的复杂需求。除了将这些分布的服务进行有效集成之外，还需要对大规模个性化顾客需求进行综合分析理解用户所要表达的需求内容。

由于顾客和服务提供者双方互不知晓，服务供需双方都存在着“信息不对称”问题。首先，用户并不了解现有的服务，并且他们对自己的需求只有一个模糊的概念，没有办法准确地描述自己的需求，因此难以匹配到合适的服务。即使其具备相关知识，也可能描述时有所遗漏；其次，服务提供者虽有提供服务的能力，但是并不知道可以为哪些用户提供，并且不能获取用户的具体要求，导致无法提供满足用户需求的优质的服务。在复杂的服务网络下由于这种供求方双盲现象普遍存在，导致了用户需求意图不明确，进而导致了认知服务对于用户需求感知模糊。因此如何提升系统对用户需求意图的理解能力是目前有待解决的问题。

发明内容

本发明为通过从用户的历史需求挖掘需求模式以发现一些共性。这样当一个用户提出的需求较为简略模糊时，就能够利用需求模式中的先验知识帮助用户补全需求，本发明提供了一种基于意图树的需求模式挖掘方法，本发明提供了以下技术方案：

一种基于意图树的需求模式挖掘方法，包括以下步骤：

步骤1：构造意向树的需求库；

步骤2：基于构造的意向树的需求库，进行频繁结构挖掘；

步骤3：根据构造的意向树的需求库，进行约束模糊聚类；

步骤4：根据频繁结构挖掘结果和模糊聚类结果，形成聚合需求模式；

步骤5：根据聚合需求模式，进行模式迭代，直至需求模式的差异逐渐稳定。

优选地，所述步骤1具体为：

构造意图树，通过表示意图树：

ITree＝<G,E>

G＝{goal₁,…goal_i,…goal_n}

E＝{(goal_i,goal_j)|goal_i is the parent node od goal_j}

goal_i＝<intention,{Cons},{OptTarget}>

其中，ITree表示意图树，意图树使用树结构表示不同意图之间的包含关系，G是意图树的节点集，E是意图树的边集，意图树的节点由goal表示，goal包含意图和约束集两部分，意图是用户对特定功能需求的描述，用自然语言表示；

约束表达用户的非功能需求和对满足需求服务的限制，以键-值对的形式表示，通过下式表示约束：

Cons＝<Cons_key,Cons_type,Cons_value>

其中，Cons_key代表被约束的对象，Cons_value代表约束的具体内容，Cons_type代表约束的类型，连续，枚举；

意向树的需求库分成意图树和约束两个部分，收集用户需求数据，每个需求都转化为意图树，将意图树存入需求库中统一管理，形成需求库。

优选地，所述步骤2具体为：基于构造的意向树的需求库，忽略约束，仅考虑意图，通过频繁子图挖掘的方法完成需求模式结构的构造，从需求库中抽取意图树接口，加入待挖掘集合；使用频繁子图挖掘算法从待挖掘集合中挖掘频繁结构；过滤挖掘结果，丢弃规模过小的子图形成频繁结构集合。

优选地，所述步骤3具体为：

针对某意图统计其约束的分布情况，根据约束的分布情况将约束划分成若干区间，保存划分结果作为模糊聚类依据。

优选地，所述步骤4具体为：

步骤4.1：将基于步骤2得到的频繁结构挖掘结果与步骤3步得到的模糊聚类依据聚合需求模式，定义需求模式，通过下式表示需求模式：

RP＝<info,{IntentionTree}>

其中，RP代表需求模式，由对应的意图树片段集合和描述自身信息的info组成；

步骤4.2：对于每一个频繁结构，从需求库中截取所有与该频繁结构相同的片段构成一个集合；

步骤4.3：从所述集合中抽出若干个相似需求片段集合，通过聚合相似意图树片段的约束部分形成需求模式。

优选地，所述步骤5具体为：

步骤5.1：在使用需求模式的过程中，根据用户反馈等方式分析挖掘到的需求模式与实际的模式之间的差异；

步骤5.2：将这种差异引入到模式挖掘的过程中，通过调整不同意图和约束的权重方式，重新挖掘需求模式；

步骤5.3：重复上述过程，直至需求模式的差异逐渐稳定。

本发明具有以下有益效果：

本发明使用意图树为用户需求建模，通过意图分解以及将功能需求和非功能需求拆分开的形式，便于对用户需求的获取与分析。本发明先将需求模式挖掘转化成频繁子图挖掘，在频繁结构的基础上聚合成需求模式，避免了大量无效的意图树比较计算，提高了需求模式挖掘的效率。本发明通过模糊聚类的方法，在聚合约束之前先分析其数学分布，并划分区间，合理的挖掘出各个约束的模式区间，避免了由于数据原因造成形成无用模式。本发明以数据驱动的方式，让使用模式的质量反馈影响模式挖掘过程。在迭代的过程中逐步完善需求模式。

附图说明

图1为意图树结构示意图；

图2为意图树的实例图；

图3为挖掘参数对需求模式的影响示意图；

图4为聚合需求模式流程图；

图5为基于意图树的需求模式挖掘方法的整体流程图；

图6为使用数据驱动方法前后的覆盖度对比图；

图7为使用数据驱动方法前后的偏差对比图。

具体实施方式

以下结合具体实施例，对本发明进行了详细说明。

具体实施例一：

根据图1-图7所示，本发明提供一种基于意图树的需求模式挖掘方法，包括以下步骤：

步骤1：构造意向树的需求库；

所述步骤1具体为：

构造意图树，通过表示意图树：

ITree＝<G,E>

G＝{goal₁,…goal_i,…goal_n}

E＝P(goal_i,goal_j)|goal_i is the parent node of gial_j}

goal_i＝<intention,{Cons},{OptTarget}>

Cons＝<Cons_key,Cons_type,Cons_value>

步骤2：基于构造的意向树的需求库，进行频繁结构挖掘；

所述步骤2具体为：基于构造的意向树的需求库，忽略约束，仅考虑意图，通过频繁子图挖掘的方法完成需求模式结构的构造，从需求库中抽取意图树接口，加入待挖掘集合；使用频繁子图挖掘算法从待挖掘集合中挖掘频繁结构；过滤挖掘结果，丢弃规模过小的子图形成频繁结构集合。

步骤3：根据构造的意向树的需求库，进行约束模糊聚类；

所述步骤3具体为：

所述步骤4具体为：

RP＝<info,{IntentionTree}>

所述步骤5具体为：

步骤5.3：重复上述过程，直至需求模式的差异逐渐稳定。

意图树模型，需求模式与基于意图树的需求模式挖掘方法均为需求工程服务。

需求模型是需求工程中的重要组成部分，需求可以有多种不同的形式表达，在日常生活中需求通常是使用自然语言描述的，如各种对话机器人。这种方法贴近于日常生活，容易获取需求，但也会给需求的分析带来挑战。为了理解用户需求，需求工程经常转向把需求转化为概念模型，利用它们的抽象和分析能力使用户需求转化为一种可使计算机理解的需求。如今有很多的方法对需求进行建模，但是为对于普通用户来说，完整填充这些专业模型是很困难的。因此我们提出了一种便于以可理解的方式明确用户的需求，同时也便于开发人员以专业的、定义良好的需求模型，即意图树。

如何从用户需求中挖掘需求模式从而发现规律也是一个重要的任务。事实上，使用Apriori等传统关联规则挖掘算法可以完成该任务，但是由于意图树本身的结构相对比较复杂，而且不是只有完全相同的意图才会形成模式，所以这类算法会进行大量无用的搜索造成性能下降。相似的需求同样能聚合成模式，这里的相似指的是结构和意图都相同，但约束存在不同的意图树。这很好理解，如用户A提出吃饭的需求，要求花费在200-300元之间，用户B同样提出了吃饭的需求，但是要求花费在200-320之间。用户A与B的需求并不是相同的，但却十分的相似。如果大量类似的需求被提出，这些需求的约束都不尽相同，但都相差不大，在某个区间范围内，那么从这些相似需求中就能够发现需求模式。事实上正是意图树上约束的这种相似性导致了需求模式挖掘问题的复杂。

本方法通过先通过频繁子树挖掘，对结果集进行剪枝，提升了算法效率，此外还通过了数据驱动的方法，能够持续不断的根据新的需求调成模式挖掘的参数，提升形成模式的准确率

具体实施例二：

本发明提供了一种基于意图树的需求模式挖掘方法，该方法使用意图树为用户需求建模，使用频繁子图挖掘大量剪枝不必要的比较运算，通过模糊聚类的方式标准化用户需求，并以数据驱动的方式持续性修正需求模式，如图5所示，具体包括如下步骤：

步骤S1，构造需求库：

本步骤主要基于预先定义的规则与对用户需求的建模获取用户需求。

(1)意图树构建

需求模型是需求工程中的重要组成部分，需求可以有多种不同的形式表达，在日常生活中需求通常是使用自然语言描述的，如各种对话机器人。这种方法贴近于日常生活，容易获取需求，但也会给需求的分析带来挑战。为了理解用户需求，需求工程经常转向把需求转化为概念模型，利用它们的抽象和分析能力使用户需求转化为一种可使计算机理解的需求。如今有很多的方法对需求进行建模，但是通常情况下，他们更愿意直接使用自然语言表达需求，因为对于普通用户来说，完整填充这些专业模型是很困难的。目标导向技术是需求工程中另一种常用的方法，因为它便于以一种可理解的方式明确用户的需求，同时也便于开发人员以专业的、定义良好的模式来表达。当目标首次提出时，目标通常是粗粒度的，需要进一步细化以明确执行的任务。

用户的需求是具有可分解性的，即，用户的一个需求能够被分解成若干子需求，基于需求的这这种特性。提出了一种基于意图树(I-Tree)的需求模型。意图树的定义如下：

I-Tree＝<G,E>

其中I-Tree表示一颗意图树，G是意图树的节点集，E是意图树的边集。意图树的节点由goal表示，它包含意图intention和约束集{Cons}两部分，意图是用户对特定功能需求的描述，用自然语言表示。

G＝{goal₁,…goal_i,…goal_n}

E＝{(goal_i,goal_j)|goal_iis the node ofgoal_j}

goal_i＝<intention,{Cons}>

约束表达用户的非功能需求和对满足需求服务的限制，以键-值对的形式表示。约束的定义如下：

Cons＝<Cons_key,Cons_type,Cons_value>

Cons_key代表被约束的对象，Cons_value代表约束的具体内容，Cons_type代表约束的类型，如连续，枚举等。区分不同种类的约束是十分重要的，因为不同的约束处理方式是不同的。此外将意图树中包含的意图节点数量定义为意图树的规模。图1为意图树结构示意图。

大粒度的需求可以被分解成较细粒度的需求，基于此，当用户提出需求后，经过不断的分解就可以形成意图树。图2给出了用户居家老人日常生活需求的I-Tree模型实例。用户为居家自理老人的日常生活提供帮助。根节点包括了子意图：保姆服务、家庭医生、慢病管理和居民健康一卡通。在家庭医生意图中，指定了花费在0-3000元之间，距离在0-20km之间，并进一步将该意图分解了成了细粒度的意图：医生交流、健康管理和随访服务。同样地，图2中显示了用户对保姆服务、慢病管理等意图的分解以及约束。

(2)构造需求库

将从用户处收集的意图树集合定位需求库。

步骤S2、频繁结构挖掘：

在这个过程中只考虑意图树节点中的意图与意图树本身的结构，不考虑约束的影响，此时，意图树就变成了普通的树结构。从中挖掘频繁结构可以使用频繁子图或者频繁子树挖掘算法。在该阶段使用了频繁子图挖掘算法gSpan，该算法可以从意图树集合{I-Tree}中发现所有支持度大于support的子结构{tree}。

步骤S3、约束模糊聚类：

在该阶段对所有的数值型约束进行分析。具体步骤如下：

(1)将所有数值型约束按照意图-约束key的形式进行分类

(2)对于每一类约束，先将其中的枚举型约束进行计数操作，如果某种类型的约束的数量超过阈值则不作处理。否则将其转化为等价的区间型约束，如：“花费：300元”转化为“花费：300-300元”。

(3)对于每一类约束，统计其数值分布，借助模糊聚类的思想根据其分布将其划分成若干个区间，这些区间将称为后续聚合需求模式过程中处理约束的依据。

步骤S4、挖掘需求模式：

在该步骤中，将根据步骤S2中挖掘到的频繁结构和步骤S3中对不同类约束划分的区间挖掘需求模式。如图4所示，具体步骤如下：

1.定义相似意图树

在该阶段引入两个参数min_similarity和polymerize，其中min_similarity表示在聚合需求模式阶段意图相似阈值，相似度大于该参数的两个意图被认为是相似的，polymerize表示所能够聚合的最小意图树片段数量，这两个参数共同决定了得到需求模式的粒度。通过调整这两个参数就可以在意图树片段集中抽出不同的相似需求片段集合，从而形成不同粒度的需求模式。二者对需求模式的影响如图3所示。当min_similarity和polymerize均较大时，得到的需求模式会更加的通用。

2.截取意图树片段

对于步骤S2中挖掘到的每一个频繁结构，从需求库中所有包含该频繁结构的意图树中截取相应片段，构成待挖掘意图树片段集合。

3.聚合需求模式

在该阶段，对于每个在步骤2中得到的待挖掘意图树片段集合，都将执行以下操作：

(1)对于待挖掘意图树片段集合中的意图树片段，从根节点开始，使用该节点包含的所有约束类型作为分类的比较类型，按照约束值的不同将包含该节点的意图树分类。其中，区间型约束按照步骤S3中分析的区间划分进行分类，其余类型约束直接按照包含类型分类。如果某意图树的该节点不包含该类型约束，则认为其属于所有其他分类。

(2)统计不同分类中约束包含的数量，直接忽略所有少于support的分类，将剩余分类作为待挖掘意图树片段集合。

(3)对于所有待挖掘意图树集合。按照广度优先搜索的顺序迭代的使用(1)步骤中的方法进行分类，之后使用(2)步骤中的方法筛选可能集合。

(4)从所有意图树片段中的所有节点都访问过的待挖掘意图树集合中聚合需求模式，具体做法为：从改集合中任选一个意图树片段，通用化集合中包含的每一个约束，直至该意图树片段比该集合中所有其他意图树片段都更加通用为止，该意图树片段已经成为了一个需求模式。

步骤S5、模式迭代：

通过步骤S4已经能够从大量的需求中挖掘需求模式，但是在后续实验中的发现模式的质量并不高，会引入大量偏差。这主要有以下两个原因：

1.在实际场景中，相较于约束的具体数值，用户更关心约束所在的区间。如用户有订酒店的需求，用户会更关心酒店是经济型还是豪华型而不是关心酒店价格是189元/晚还是199元/晚，对于这两家酒店来说，酒店的位置，服务等指标才是用户选择的关键。但是上述需求模式挖掘方法，只要数量够多就一定能够形成模式，这会形成冗余模式，给需求模式的选择带来困难。为了解决这个问题，引入了模糊聚类的思想。对于区间以及数值型约束，在需求模式挖掘开始之前先对约束的分布进行分析，根据约束的分布情况进行聚合需求模式的操作。

2.该方法并未区分不同意图。用户对不同的意图或约束有不同的关注度，如用户对酒店是否提供免费WiFi的关注程度要明显高于酒店是否提供免费停车位。但是在需求模式挖掘过程中却并未考虑这种影响。因此在聚合模式的过程中可能会因为数据的原因形成一些“虚假的模式”。在使用这部分需求模式的过程中会引入无关的意图，这会降低使用需求模式获得的收益。这种约束或意图对用户的重要程度是无法通过基于频率的需求模式挖掘方法获得的。

因此基于上述方法，提出了一种数据驱动的需求模式挖掘方法。在使用需求模式的过程中，能够根据用户的反馈等方式感知到引入的偏差。通过分析这些偏差就能够得到用户对于这些意图或者约束的关注度的信息。找出用户关注度低的部分，削减其权重或者直接剔除重新聚合模式。通过这种方式让使用需求模式的效果质量直接影响需求模式挖掘的过程，在迭代的过程中逐步完善需求模式。具体流程如图5所示。

本实施例数据来源CrossWOZ，https://github.com/thu-coai/CrossWOZ，CrossWOZ是一个大规模的中文跨域任导向的对话数据集，该数据集也包含了从对话中抽取出来的结构化信息，利用这些信息，根据对话构造意图树。实验共使用CrossWOZ数据集构造了约5000个意图树，选择其中的1000组作为训练集，其余作为测试集。使用训练集中包含的意图树挖掘需求模式，使用测试集验证需求模式的有效性。验证方法如下：随机删除测试集中意图树的部分节点，使用需求模式尝试将这些被删除的意图树节点还原回来。在该实验中使用两个参数衡量补全效果，包括覆盖度与偏差，通过覆盖度衡量删除节点的被补全情况，偏差衡量在补全删除节点的过程中引入的不相干意图树节点的情况，图6为使用数据驱动方法前后的覆盖度对比图，图7为使用数据驱动方法前后的偏差对比图。从图7中可以明显看出，通过迭代的方法能够在不影响覆盖度的同时，降低偏差的引入。

以上所述仅是一种基于意图树的需求模式挖掘方法的优选实施方式，一种基于意图树的需求模式挖掘方法的保护范围并不仅局限于上述实施例，凡属于该思路下的技术方案均属于本发明的保护范围。应当指出，对于本领域的技术人员来说，在不脱离本发明原理前提下的若干改进和变化，这些改进和变化也应视为本发明的保护范围。

Claims

1.一种基于意图树的需求模式挖掘方法，其特征是：包括以下步骤：

步骤1：构造意向树的需求库；

所述步骤1具体为：

构造意图树，通过表示意图树：

ITree＝<G,E>

G＝{goal₁,…goal_i,…goal_n}

E＝{(goal_i,goal_j)|goal_i is the parent node of goal_j}

goal_i＝<intention,{Cons},{OptTarget}>

Cons＝<Cons_key,Cons_type,Cons_value>

意向树的需求库分成意图树和约束两个部分，收集用户需求数据，每个需求都转化为意图树，将意图树存入需求库中统一管理，形成需求库；

步骤2：基于构造的意向树的需求库，进行频繁结构挖掘；

步骤3：根据构造的意向树的需求库，进行约束模糊聚类；

所述步骤4具体为：

RP＝<info,{IntentionTree}>

步骤4.3：从所述集合中抽出若干个相似需求片段集合，通过聚合相似意图树片段的约束部分形成需求模式；

2.根据权利要求1所述的一种基于意图树的需求模式挖掘方法，其特征是：所述步骤2具体为：基于构造的意向树的需求库，忽略约束，仅考虑意图，通过频繁子图挖掘的方法完成需求模式结构的构造，从需求库中抽取意图树接口，加入待挖掘集合；使用频繁子图挖掘算法从待挖掘集合中挖掘频繁结构；过滤挖掘结果，丢弃规模过小的子图形成频繁结构集合。

3.根据权利要求1所述的一种基于意图树的需求模式挖掘方法，其特征是：所述步骤3具体为：

4.根据权利要求1所述的一种基于意图树的需求模式挖掘方法，其特征是：所述步骤5具体为：

步骤5.3：重复上述过程，直至需求模式的差异逐渐稳定。