CN111538898B

CN111538898B - 基于组合特征提取的Web服务包推荐方法及系统

Info

Publication number: CN111538898B
Application number: CN202010213044.8A
Authority: CN
Inventors: 曹健; 刘妍岑
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2023-05-02
Anticipated expiration: 2040-03-24
Also published as: CN111538898A

Abstract

本发明提供了一种基于组合特征提取的Web服务包推荐方法及系统，包括：步骤1：进行语义特征提取；步骤2：根据提取的语义特征，训练深度神经网络并提取组合特征，对Web服务对能否同时被用于待开发的Mashup采用的概率进行预测；步骤3：根据被用于待开发的Mashup采用的概率进行Web服务包推荐。本发明能够提取Web服务组合在一起形成的综合功能，从而能够为开发人员推荐一组互补的Web服务，完整涵盖Mashup的需求。

Description

基于组合特征提取的Web服务包推荐方法及系统

技术领域

本发明涉及网络化Web服务检索技术领域，具体地，涉及一种基于组合特征提取的Web服务包推荐方法及系统。

背景技术

Web服务是现代信息系统的重要组成部分，Web服务的数量在Web上呈指数级增长。许多企业通过提供Web服务来促进他们的业务，而开发人员依赖Web服务来构建他们的应用程序。为了帮助开发人员或非IT专业人员使用Web服务，开发了各种工具。其中，Mashup正成为一种常用的方法，通过这种方法可以将多种Web服务组合在一起，提供更全面的功能。

在设计Mashup时，我们必须搜索和选择适当的Web服务。由于Web上可用Web服务的数量非常庞大，因此找到我们需要的Web服务是一项具有挑战性的任务。因此，为Mashup开发推荐Web服务正成为一个重要的研究主题，并提出了各种方法。基本的方法是把要开发的Mashup的描述和Web服务的描述进行匹配，那些具有较高的匹配度的Web服务作为潜在的待选择的Web服务。但是这些方法中忽略了一个现象，即Web服务组合在一起时的功能不是它们的功能的简单叠加，而是会产生一些新的、综合性的功能。本发明能够提取Web服务组合在一起形成的综合功能，从而能够为开发人员推荐一组互补的Web服务，完整涵盖Mashup的需求。

专利文献CN110633417A(申请号：201910867011.2)公开了基于服务质量的web服务推荐的方法及系统，其中，该方法包括获取当前任务相关联的所有web服务，每个web服务均与一个服务质量对应；提取服务质量特征，以向量形式表示当前任务相关联的所有web服务，得到一个服务输入向量；根据每个服务质量特征学习一个预设长度的向量表达，得到当前任务相关联的各个web服务的服务质量相对应的潜在向量；将服务输入向量压缩，再与相应潜在向量分别在静态因子分解模型和动态记忆网络模型进行静态特征交互和动态特征交互，得到静态特征交互向量和动态特征交互向量；将静态特征交互向量和动态特征交互向量线性组合后，经softmax层得出当前任务相关联的各个web服务的推荐概率，按照推荐概率从大到小推荐给用户。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于组合特征提取的Web服务包推荐方法及系统。

根据本发明提供的基于组合特征提取的Web服务包推荐方法及系统，包括：

步骤1：进行语义特征提取；

步骤2：根据提取的语义特征，训练深度神经网络并提取组合特征，对Web服务对能否同时被用于待开发的Mashup采用的概率进行预测；

步骤3：根据被用于待开发的Mashup采用的概率进行Web服务包推荐。

优选地，所述步骤1包括：对Mashup和Web服务的描述文本进行统一维度；

对Mashup和Web服务的描述文本进行预处理，包括：标记、词干提取、词元化和删除停用词；

使用狄利克雷分布主题模型来提取描述文本的主题特征；

对主题进行一致性评价，找到符合预设的主题数量，并将所有描述文本统一处理成符合预设的主题向量。

优选地，所述步骤2包括：输入为Mashup以及一对Web服务的主题向量，输出为这一对Web服务被同时采用的概率分数；

将一个Web服务同它自己组成Web服务对作为样本；

使用历史Mashup和历史Mashup包含的Web服务产生的Web服务对作为正样例，在的负样例中随机挑选符合预设的比例完善模型训练。

优选地，所述步骤2包括：根据Mashup的描述文本和Web服务的描述文本，训练一个深度神经网络，提取一对Web服务的组合特征，并预测这一对Web服务是否能够被待开发的Mashup所采用的概率；

对Mashup和Web服务对应的描述文本训练主题模型进行语义特征提取，并处理为成主题向量；

在深度网络模型中，将与Mashup协作过的Web服务两两组合成Web服务对，进行训练、提取组合特征和概率预测，得到根据Mashup描述文本预测一对Web服务能被采用的概率。

优选地，所述步骤3包括：将待开发的Mashup的描述文本作为需求输入；

在历史Mashup中选出与待开发的Mashup的需求相似的Mashup，将挑选出的Mashup的Web服务筛选出来作为候选Web服务；

将Mashup的描述文本处理成主题向量，计算待开发的Mashup的描述文本与其他Mashup的描述文本的主题向量的余弦相似性，将相似的k个历史Mashup用到的Web服务取出，其中次数最多的n个Web服务构成Web服务候选集，并将Web服务按照次数从高到低排列；

将Web服务作为节点，将深度神经网络预测的Web服务对能否被同时采用的概率作为边的权重，构造Web服务图；

每一个Web服务与自身构成的Web服务对通过深度神经网络预测被采用的概率，设定预定义的阈值γ和η，其中，0＜γ＜1，0＜η＜1，依次从Web服务候选集中取出每一个Web服务，使用广度优先搜索算法，找出包含Web服务且子图的边的权重都大于γ的全连接子图，同时检测每个Web服务节点自身Web服务对的采用概率大于η，符合条件的子图对应的节点为待推荐的Web服务包。

根据本发明提供的基于组合特征提取的Web服务包推荐系统，包括：

模块M1：进行语义特征提取；

模块M2：根据提取的语义特征，训练深度神经网络并提取组合特征，对Web服务对能否同时被用于待开发的Mashup采用的概率进行预测；

模块M3：根据被用于待开发的Mashup采用的概率进行Web服务包推荐。

优选地，所述模块M1包括：对Mashup和Web服务的描述文本进行统一维度；

使用狄利克雷分布主题模型来提取描述文本的主题特征；

优选地，所述模块M2包括：输入为Mashup以及一对Web服务的主题向量，输出为这一对Web服务被同时采用的概率分数；

将一个Web服务同它自己组成Web服务对作为样本；

优选地，所述模块M2包括：根据Mashup的描述文本和Web服务的描述文本，训练一个深度神经网络，提取一对Web服务的组合特征，并预测这一对Web服务是否能够被待开发的Mashup所采用的概率；

优选地，所述模块M3包括：将待开发的Mashup的描述文本作为需求输入；

与现有技术相比，本发明具有如下的有益效果：

1、本发明能够提取Web服务组合在一起形成的综合功能，从而能够为开发人员推荐一组互补的Web服务，完整涵盖Mashup的需求；

2、通过采集现有Mashup的描述、所包含的Web服务、Web服务的描述，训练一个深度学习模型，能够提取一对Web服务的组合特征，由此预测该对Web服务能否被某一待开发的Mashup采用的概率，通过这种方法可以将多种Web服务组合在一起，提供更全面的功能；

3、根据待开发的Mashup的描述与历史Mashup描述的相似性，获取待选Web服务集合，以每对Web服务被采用的概率为边，构造网络图，以此网络为基础，我们根据待开发的Mashup的描述为用户推荐一组两两之间具有互补性的Web服务构成的Web服务包。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的深度神经网络模型的结构示意图；

图2为本发明的整体框架示意图；

图3为本发明的Web服务包推荐过程举例示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

如图2，本发明通过以下技术方案实现：

一种基于Web服务组合特征学习的Web服务包推荐方法，根据Mashup文本描述的组合语义，根据用户需求推荐一组互补的Web服务。基于组合特征学习的Web服务包推荐框架包含两个子系统：(1)基于组合特征的提取对一对Web服务是否能够被待开发的Mashup采用的概率进行预测的深度神经网络，(2)Web服务包推荐系统。

基于组合特征的提取对一对Web服务是否能够被待开发的Mashup采用的概率进行预测的深度神经网络：根据现有Mashup及其包含的Web服务以及它们的描述文本，训练基于组合特征提取的预测Web服务对采用概率的深度神经网络。首先对Mashup及Web服务对应的描述文本训练主题模型进行语义特征提取，将它们表示成主题向量。然后将Mashup以及其对应的协作过的Web服务两两组合成Web服务对以训练组合特征提取网络以及概率预测模型。最后得到能够根据需求预测Web服务对被采用概率的深度神经网络。

Web服务包推荐系统：为开发人员推荐一组满足其功能需求的Web服务包。开发人员将待开发的Mashup的描述作为需求输入。系统首先将Mashup文本描述表示成主题向量，然后计算待开发的Mashup的描述与其他Mashup的文本描述的主题向量的余弦相似性，将相似的k个历史Mashup用到的Web服务取出，其中在历史Mashup中出现次数最多的n个Web服务构成Web服务候选集。对这n个Web服务中的两两Web服务利用前述的深度神经网络模型预测其被此待开发的Mashup所使用的概率。以Web服务为节点，以采用概率为边的权重，构成Web服务网络。从Web服务候选集依次取出每个Web服务，从该网络图中找出包含该Web服务的满足条件的全连接子图，子图对应的节点构成了要推荐的Web服务包。

具体步骤为：

S1、基于主题模型的语义特征提取；

由于Mashup以及Web服务的描述文本在长度上各不相同，因此我们需要将这些描述性文本统一到一个维度中去。首先对它们分别进行标记、词干提取、词元化以及删除停用词等文本预处理的标准步骤。然后使用潜在的狄利克雷分配主题模型来提取文本的主题特征。

利用LDA获得描述文本所对应的主题分布，模型在单词w上指定了以下分布：

我们使用主题一致性评分来找到最合适的主题数量，并将所有文本统一处理成该数量主题的主题向量。主题一致性评分使用以下公式进行计算。

最后对于Mashup，我们得到其主题向量表示：

对于Web服务a，我们同样也得到其主题向量表示：

S2、训练深度神经网络，提取组合特征，对一对Web服务能否同时被用于待开发的Mashup进行预测；

该神经网络主要目的是预测一对Web服务的交互和互补是否能够产生目标Mashup的所需功能，并将此结果体现为采用概率的评分。该模型的输入为Mashup以及一对Web服务的主题向量，输出为这一对Web服务被该Mashup同时采用的概率分数。考虑到有接近一半的Mashup只使用一个Web服务，所以我们也将一个Web服务同它自己组成Web服务对作为输入。在该步骤中，我们使用数据库中的Mashup以及它所对应的Web服务产生的Web服务对作为正样例，同时也在海量的负样例中随机挑选合适比例来作为模型训练的输入。

首先将Web服务对中的两个Web服务a1以及a2进行主题向量的交互得到原始组合特征：

加入权重层W来找出有用的组合特征：

紧接着将得到的矩阵进行最大池化以及变形得到组合特征向量T_IF。我们将这个组合特征向量与Web服务对的主题向量以及Mashup的主题向量拼接在一起形成Tx一起输入隐层：

最后输出采用概率的评分：

其结构见图1。

S3、Web服务包推荐算法；

我们先在历史Mashup中选出与待开发的Mashup的需求相似的Mashup，将它们的Web服务筛选出来作为候选Web服务：系统首先将Mashup文本描述表示成主题向量，然后计算待开发的Mashup的描述与其他Mashup的文本描述的主题向量的余弦相似性。两个Mashup的主题向量为T1和T2，它们的余弦相似性为：

将相似的k个历史Mashup用到的Web服务都取出，其中在历史Mashup中出现次数最多的n个Web服务构成Web服务候选集，按照次数从多到少排列，形成种子Web服务。

将所有Web服务看作节点，Web服务之间是否能够有效组合看作边，将深度神经网络预测的Web服务对被采用概率作为边的权重。同时每一个Web服务与自身构成的Web服务对也通过深度神经网络预测其被采用的概率。设定预定义的阈值γ(0＜γ＜1)和η(0＜η＜1)。

依次从Web服务候选集中取出种子Web服务：

对每一个种子Web服务：

使用广度优先的搜索算法，找出包含该Web服务的同时这些子图的边的权重都大于γ的全连接子图，同时检测每个Web服务节点自身Web服务对的采用概率需要大于η，满足这些条件的子图对应的节点就是待推荐的Web服务包，如图3。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于组合特征提取的Web服务包推荐方法，其特征在于，包括：

步骤1：进行语义特征提取；

所述步骤2包括：根据Mashup的描述文本和Web服务的描述文本，训练一个深度神经网络，提取一对Web服务的组合特征，并预测这一对Web服务是否能够被待开发的Mashup所采用的概率；

对Mashup和Web服务对应的描述文本训练主题模型进行语义特征提取，并处理成主题向量；

在深度网络模型中，将与Mashup协作过的Web服务两两组合成Web服务对，进行训练、提取组合特征和概率预测，得到根据Mashup描述文本预测一对Web服务能被采用的概率；

加入权重层W来找出有用的组合特征：

将得到的矩阵进行最大池化以及变形得到组合特征向量T_IF，将这个组合特征向量与Web服务对的主题向量以及Mashup的主题向量拼接在一起形成Tx一起输入隐层：

最后输出采用概率的评分：

步骤3：根据被用于待开发的Mashup采用的概率进行Web服务包推荐；

所述步骤3包括：将待开发的Mashup的描述文本作为需求输入；

每一个Web服务与自身构成的Web服务对通过深度神经网络预测被采用的概率，设定预定义的阈值γ和η，其中，0<γ<1，0<η<1，依次从Web服务候选集中取出每一个Web服务，使用广度优先搜索算法，找出包含Web服务且子图的边的权重都大于γ的全连接子图，同时检测每个Web服务节点自身Web服务对的采用概率大于η，符合条件的子图对应的节点为待推荐的Web服务包。

2.根据权利要求1所述的基于组合特征提取的Web服务包推荐方法，其特征在于，所述步骤1包括：对Mashup和Web服务的描述文本进行统一维度；

使用狄利克雷分布主题模型来提取描述文本的主题特征；

3.根据权利要求1所述的基于组合特征提取的Web服务包推荐方法，其特征在于，所述步骤2包括：输入为Mashup以及一对Web服务的主题向量，输出为这一对Web服务被同时采用的概率分数；

使用历史Mashup和历史Mashup包含的Web服务产生的Web服务对作为正样例，在负样例中随机挑选符合预设的比例完善模型训练。

4.一种基于组合特征提取的Web服务包推荐系统，其特征在于，包括：

模块M1：进行语义特征提取；

所述模块M2包括：根据Mashup的描述文本和Web服务的描述文本，训练一个深度神经网络，提取一对Web服务的组合特征，并预测这一对Web服务是否能够被待开发的Mashup所采用的概率；