CN106354844B

CN106354844B - 基于文本挖掘的服务组合包推荐系统及方法

Info

Publication number: CN106354844B
Application number: CN201610794365.5A
Authority: CN
Inventors: 曹健; 顾颀
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2016-08-31
Filing date: 2016-08-31
Publication date: 2020-08-04
Anticipated expiration: 2036-08-31
Also published as: CN106354844A

Abstract

本发明提供了一种基于文本挖掘的服务组合包推荐系统及方法，包括步骤1：收集历史服务组合数据构造数据集，并将数据集中历史服务组合和历史服务组合的功能描述构造成服务数据库；步骤2：根据修辞关系将服务数据库中的历史服务组合的功能性描述分割成若干个语句块；步骤3：为每个服务组合构造句际关系树，得到不同语句块之间的关系；步骤4：获取不同服务之间的关系；步骤5：统计服务之间的关系生成关系矩阵；步骤6：将用户需求分解成语句块，为每个语句块推荐前K个服务，K为正整数；步骤7：结合关系矩阵对每个语句块中的服务进行语义匹配，得到推荐给用户的服务包。本发明能够帮助用户更好地建模，为用户推荐服务组合包，从而提升服务推荐的整体效果。

Description

基于文本挖掘的服务组合包推荐系统及方法

技术领域

本发明涉及互联网服务检索技术领域，具体地，涉及一种基于文本挖掘的服务组合包推荐系统及方法。

背景技术

随着服务计算领域的发展，服务的实现和承载形式经过长时间的发展变得越来越丰富，呈现了多样化的态势。为不同需求的用户提供定制化的服务正逐渐受到关注。传统的服务提供商无法为每一个特定需求提供定制化服务，因此，服务组合成为提供个性化服务的解决方案。例如，用户如果需要在所处位置寻找合适的餐厅就餐，需要通过地图服务列出本地的餐厅，再在评价服务上获取餐厅的信息，若将两种服务组合，则可以为用户需求提供个性化的解决方案。广大用户可以借助服务组合开发平台，如Yahoo！Pipes，IBM DAMIA和WSO2，采用可视化的方式组合服务，从而提高了开发速度，减少了开发成本。

然而随着互联网上服务数量的增长，要为服务组合找到合适的服务并非易事。因此推荐技术成为在服务组合创建过程中的有效手段。根据用户的需求，挖掘服务组合的历史数据，准确高效地为用户提供合适服务的建议，减少用户为获取合适组合包所花费的时间。

服务组合(Mashup)通过对现有的Web服务糅合以构造新服务，从而成为个性化服务的一个重要解决方案。然而，随着互联网上服务数量的快速增长，开发者如何从种类繁多的Web服务中选择合适的服务组成服务组合成为一个迫切需要研究的问题。目前，用户通过Web服务搜索引擎中来搜索服务，但基于关键词的匹配往往无法为用户找到真正适合的服务。已有的面向服务组合的推荐一方面存在着冷启动问题，即无法推荐新的服务，另一方面推荐没有考虑服务的相互合作，即无法推荐功能互补的服务。实际上，服务组合的开发者希望推荐的是满足需求且功能上互补的服务包(Service Package)。由于服务组合往往遵循特定模式，我们结合传统的服务组合推荐中的不足，通过采集和挖掘服务组合的历史数据，从已有服务组合挖掘服务之间的关系，设计出有效的服务组合包推荐算法。

由于服务组合的特殊性，目前主流的推荐方法有基于QoS信息的服务推荐，基于协同过滤的服务推荐，基于社会关系的服务推荐以及基于内容检索的服务推荐。而服务组合推荐和这些推荐的不同之处在于推荐的内容是以一个组合的形式存在，推荐的服务相互之间应该是互补的关系。因此服务组合推荐通过对历史数据的分析，旨在利用服务之间的社会关系信息，帮助生成推荐服务组合，从而解决冷启动和互补问题。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于文本挖掘的服务组合包推荐系统及方法。

根据本发明提供的基于文本挖掘的服务组合包推荐方法，包括如下步骤：

步骤1：收集历史服务组合数据构造数据集，并将数据集中所有的历史服务组合和历史服务组合的功能描述构造成一个服务数据库；

步骤2：根据修辞关系将服务数据库中的历史服务组合的功能性描述分割成若干个语句块；

步骤3：为每个服务组合构造句际关系树，得到不同语句块之间的关系；

步骤4：将语句块和服务通过潜在语义模型进行一一对应，得到不同服务之间的关系；

步骤5：统计服务之间的关系生成关系矩阵；

步骤6：将用户需求分解成语句块，为每个语句块推荐前K个服务，K为正整数；

步骤7：结合关系矩阵对每个语句块中的服务进行语义匹配，得到推荐给用户的服务包。

优选地，所述步骤2中的修辞关系包括：比喻、白描、对比、层递、变用、衬托、顶真、倒装、反语、仿词、互体、排比、夸张、双关、歇后、象征、谦敬语。

优选地，所述步骤2中历史服务组合的功能性描述指的是自然语言，自然语言中的语句块之间存在相互联系，即各个语句块是以某一关系组合在一起以描述整体的功能。

优选地，所述步骤3中的句际关系树是指：句际关系树通过对文本进行结构分析形成，树的叶子节点表示连续的基本话语单元，相邻话语单元通过修辞关系链接在一起形成由内部节点表示的高一级话语单元。

优选地，所述步骤4中的潜在语义模型是指LSI模型，所述LSI模型是一种奇异值分解方法，该方法能够获得语句块和服务功能描述之间的关系。

优选地，所述步骤5中的服务之间的关系包括：共现关系和语义关系，其中语义关系包括：sameblock、comparison-comparison、joint-joint、topic-comment-topic-comment、temporal-temporal、span-condition、condition-span、attribution-span、span-attribution、enablement-span、span-enablement、manner-means-span、span-manner-means、span-contrast、contrast-span、joint-joint、background-span、span-background、span-cause、cause-span、span-elaboration、elaboration-span、same-unit-same-unit、span-temporal、temporal-span、explanation-span、span-explanation、topic-comment-span、span-topic-comment、contrast-contras、comparison-span、span-comparison、together。

根据本发明提供的基于文本挖掘的服务组合包推荐系统，包括以下模块：

历史服务组合数据收集模块，用于收集历史服务组合数据构造数据集，并将数据集中所有的历史服务组合和历史服务组合的功能描述构造成一个服务数据库；

语句块分割模块，用于根据修辞关系将服务数据库中的历史服务组合的功能性描述分割成若干个语句块；

修辞树构造模块，用于为每个服务组合构造句际关系树，得到不同语句块之间的关系；

语句块与服务匹配模块，用于将语句块和服务通过潜在语义模型进行一一对应，得到不同服务之间的关系；

服务关系矩阵生成模块，用于统计服务之间的关系生成关系矩阵；

服务推荐模块，用于将用户需求分解成语句块，为每个语句块推荐前K个服务，K为正整数；

服务包推荐模块，用于结合关系矩阵对每个语句块中的服务进行语义匹配，得到推荐给用户的服务包。

与现有技术相比，本发明具有如下的有益效果：

本发明通过挖掘历史服务之间的潜在关系，使推荐的服务不再是相似的关系，而是互补的关系，潜在的语义关系利用历史数据挖掘出来，不需要额外的数据，从而通过这种方式可以帮助用户更好地建模，为用户推荐互补的服务组合包，从而提升服务推荐的整体效果。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明提供的基于文本挖掘的服务组合包推荐系统的架构示意图；

图2为本发明提供的基于文本挖掘的服务组合包推荐方法的流程示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

当用户给出所需构造的服务组合的文本描述，使用修辞关系分析将描述划分成若干独立的语句块，并和每一个候选服务计算相似度，本发明使用TF-IDF提取关键词，由于基于关键词的匹配往往会丢失掉一些信息，例如猫和动物从字面上看就是较低的相似度，但实际上他们是一种从属关系。因此为给定的描述寻找匹配的服务时，基于关键词的匹配会带来很多错误匹配。使用WordNet来计算单词之间的相似度，从而避免错误匹配。每个语句块对应的前K个服务认为是与该服务组合有最大的相关性，因此组成一个推荐集合。然而为了推荐一个服务包，除了考虑服务组合和服务之间的联系，还需要考虑服务之间的关系。

服务组合包推荐系统根据服务组合的特点，对历史服务组合的功能描述进行分析以发现服务之间潜在的语义关系，并将这一语义关系应用到服务组合推荐中。通过使用修辞分析将文本描述分解成语句块，由语句块之间的语义关系分析出服务之间的语义关系，从而生成服务关系矩阵。

为了更好的刻画关键词的相关性，将数据集中所有的历史服务组合和使用的服务的描述构造了一个服务仓库。服务组合的描述一般是自然语言的形式，其所包含的语句块并不是彼此独立的。语句块是以特定的关系组织在一起，从而可以描述整体的功能。在自然语言处理中，修辞关系分析可以很好的发现服务之间的相关性。修辞关系分析首先将服务组合的描述划分成若干个语句块，实际上也就是找到语句块的边界。之后将得到的语句块构造成修辞树，从而找到语句块之间的关系。将语句块和服务通过潜在语义模型(LSI)对应起来，从而学习出服务之间的关系。LSI是一种奇异值分解方法以获得语句块和服务描述之间关系的索引和获取方法。如表1所示，服务之间包含有非常丰富的关系，总体来说分为共现关系和语义关系，语义关系又进一步包括sameblock，comparison-comparison，joint-joint等等。

根据以上描述，把服务推荐问题转换成了依赖服务之间关系的服务包推荐问题。当为服务组合推荐了若干服务之后，结合在历史数据上生成的服务关系矩阵，将互补的服务组合推荐给用户，那么，如何分析历史数据并生成服务关系矩阵是问题的关键。具体推荐流程如图2所示。

表1

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于文本挖掘的服务组合包推荐方法，其特征在于，包括如下步骤：

步骤5：统计服务之间的关系生成关系矩阵；

步骤7：结合关系矩阵对每个语句块中的服务进行语义匹配，得到推荐给用户的服务包；

所述步骤3中的句际关系树是指：句际关系树通过对文本进行结构分析形成，树的叶子节点表示连续的基本话语单元，相邻话语单元通过修辞关系链接在一起形成由内部节点表示的高一级话语单元。

2.根据权利要求1所述的基于文本挖掘的服务组合包推荐方法，其特征在于，所述步骤2中的修辞关系包括：比喻、白描、对比、层递、变用、衬托、顶真、倒装、反语、仿词、互体、排比、夸张、双关、歇后、象征、谦敬语。

3.根据权利要求1所述的基于文本挖掘的服务组合包推荐方法，其特征在于，所述步骤2中历史服务组合的功能性描述指的是自然语言，自然语言中的语句块之间存在相互联系，即各个语句块是以某一关系组合在一起以描述整体的功能。

4.根据权利要求1所述的基于文本挖掘的服务组合包推荐方法，其特征在于，所述步骤4中的潜在语义模型是指LSI模型，所述LSI模型是一种奇异值分解方法，该方法能够获得语句块和服务功能描述之间的关系。

5.根据权利要求1所述的基于文本挖掘的服务组合包推荐方法，其特征在于，所述步骤5中的服务之间的关系包括：共现关系和语义关系，其中语义关系包括：sa m e bl o c k、comparison-comparison、joint-joint、topic-comment-topic-comment、temporaltemporal、span-condition、condition-span、attribution-span、span-attribution、enablement-span、span-enablement、manner-means-span、span-manner-means、spancontrast、contrast-span、joint-joint、background-span、span-background、spancause、cause-span、span-elaboration、elaboration-span、same-unit-same-unit、spantemporal、temporal-span、explanation-span、span-explanation、topic-comment-span、span-topic-comment、contrast-contras、comparison-span、span-comparison、together。

6.一种基于文本挖掘的服务组合包推荐系统，其特征在于，包括以下模块：

修辞树构造模块，用于为每个服务组合构造句际关系树，得到不同语句块之间的关系；句际关系树是指：句际关系树通过对文本进行结构分析形成，树的叶子节点表示连续的基本话语单元，相邻话语单元通过修辞关系链接在一起形成由内部节点表示的高一级话语单元；