CN111538898B - 基于组合特征提取的Web服务包推荐方法及系统 - Google Patents

基于组合特征提取的Web服务包推荐方法及系统 Download PDF

Info

Publication number
CN111538898B
CN111538898B CN202010213044.8A CN202010213044A CN111538898B CN 111538898 B CN111538898 B CN 111538898B CN 202010213044 A CN202010213044 A CN 202010213044A CN 111538898 B CN111538898 B CN 111538898B
Authority
CN
China
Prior art keywords
web service
mashup
web
pair
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010213044.8A
Other languages
English (en)
Other versions
CN111538898A (zh
Inventor
曹健
刘妍岑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202010213044.8A priority Critical patent/CN111538898B/zh
Publication of CN111538898A publication Critical patent/CN111538898A/zh
Application granted granted Critical
Publication of CN111538898B publication Critical patent/CN111538898B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/51Discovery or management thereof, e.g. service location protocol [SLP] or web services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于组合特征提取的Web服务包推荐方法及系统,包括:步骤1:进行语义特征提取;步骤2:根据提取的语义特征,训练深度神经网络并提取组合特征,对Web服务对能否同时被用于待开发的Mashup采用的概率进行预测;步骤3:根据被用于待开发的Mashup采用的概率进行Web服务包推荐。本发明能够提取Web服务组合在一起形成的综合功能,从而能够为开发人员推荐一组互补的Web服务,完整涵盖Mashup的需求。

Description

基于组合特征提取的Web服务包推荐方法及系统
技术领域
本发明涉及网络化Web服务检索技术领域,具体地,涉及一种基于组合特征提取的Web服务包推荐方法及系统。
背景技术
Web服务是现代信息系统的重要组成部分,Web服务的数量在Web上呈指数级增长。许多企业通过提供Web服务来促进他们的业务,而开发人员依赖Web服务来构建他们的应用程序。为了帮助开发人员或非IT专业人员使用Web服务,开发了各种工具。其中,Mashup正成为一种常用的方法,通过这种方法可以将多种Web服务组合在一起,提供更全面的功能。
在设计Mashup时,我们必须搜索和选择适当的Web服务。由于Web上可用Web服务的数量非常庞大,因此找到我们需要的Web服务是一项具有挑战性的任务。因此,为Mashup开发推荐Web服务正成为一个重要的研究主题,并提出了各种方法。基本的方法是把要开发的Mashup的描述和Web服务的描述进行匹配,那些具有较高的匹配度的Web服务作为潜在的待选择的Web服务。但是这些方法中忽略了一个现象,即Web服务组合在一起时的功能不是它们的功能的简单叠加,而是会产生一些新的、综合性的功能。本发明能够提取Web服务组合在一起形成的综合功能,从而能够为开发人员推荐一组互补的Web服务,完整涵盖Mashup的需求。
专利文献CN110633417A(申请号:201910867011.2)公开了基于服务质量的web服务推荐的方法及系统,其中,该方法包括获取当前任务相关联的所有web服务,每个web服务均与一个服务质量对应;提取服务质量特征,以向量形式表示当前任务相关联的所有web服务,得到一个服务输入向量;根据每个服务质量特征学习一个预设长度的向量表达,得到当前任务相关联的各个web服务的服务质量相对应的潜在向量;将服务输入向量压缩,再与相应潜在向量分别在静态因子分解模型和动态记忆网络模型进行静态特征交互和动态特征交互,得到静态特征交互向量和动态特征交互向量;将静态特征交互向量和动态特征交互向量线性组合后,经softmax层得出当前任务相关联的各个web服务的推荐概率,按照推荐概率从大到小推荐给用户。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于组合特征提取的Web服务包推荐方法及系统。
根据本发明提供的基于组合特征提取的Web服务包推荐方法及系统,包括:
步骤1:进行语义特征提取;
步骤2:根据提取的语义特征,训练深度神经网络并提取组合特征,对Web服务对能否同时被用于待开发的Mashup采用的概率进行预测;
步骤3:根据被用于待开发的Mashup采用的概率进行Web服务包推荐。
优选地,所述步骤1包括:对Mashup和Web服务的描述文本进行统一维度;
对Mashup和Web服务的描述文本进行预处理,包括:标记、词干提取、词元化和删除停用词;
使用狄利克雷分布主题模型来提取描述文本的主题特征;
对主题进行一致性评价,找到符合预设的主题数量,并将所有描述文本统一处理成符合预设的主题向量。
优选地,所述步骤2包括:输入为Mashup以及一对Web服务的主题向量,输出为这一对Web服务被同时采用的概率分数;
将一个Web服务同它自己组成Web服务对作为样本;
使用历史Mashup和历史Mashup包含的Web服务产生的Web服务对作为正样例,在的负样例中随机挑选符合预设的比例完善模型训练。
优选地,所述步骤2包括:根据Mashup的描述文本和Web服务的描述文本,训练一个深度神经网络,提取一对Web服务的组合特征,并预测这一对Web服务是否能够被待开发的Mashup所采用的概率;
对Mashup和Web服务对应的描述文本训练主题模型进行语义特征提取,并处理为成主题向量;
在深度网络模型中,将与Mashup协作过的Web服务两两组合成Web服务对,进行训练、提取组合特征和概率预测,得到根据Mashup描述文本预测一对Web服务能被采用的概率。
优选地,所述步骤3包括:将待开发的Mashup的描述文本作为需求输入;
在历史Mashup中选出与待开发的Mashup的需求相似的Mashup,将挑选出的Mashup的Web服务筛选出来作为候选Web服务;
将Mashup的描述文本处理成主题向量,计算待开发的Mashup的描述文本与其他Mashup的描述文本的主题向量的余弦相似性,将相似的k个历史Mashup用到的Web服务取出,其中次数最多的n个Web服务构成Web服务候选集,并将Web服务按照次数从高到低排列;
将Web服务作为节点,将深度神经网络预测的Web服务对能否被同时采用的概率作为边的权重,构造Web服务图;
每一个Web服务与自身构成的Web服务对通过深度神经网络预测被采用的概率,设定预定义的阈值γ和η,其中,0<γ<1,0<η<1,依次从Web服务候选集中取出每一个Web服务,使用广度优先搜索算法,找出包含Web服务且子图的边的权重都大于γ的全连接子图,同时检测每个Web服务节点自身Web服务对的采用概率大于η,符合条件的子图对应的节点为待推荐的Web服务包。
根据本发明提供的基于组合特征提取的Web服务包推荐系统,包括:
模块M1:进行语义特征提取;
模块M2:根据提取的语义特征,训练深度神经网络并提取组合特征,对Web服务对能否同时被用于待开发的Mashup采用的概率进行预测;
模块M3:根据被用于待开发的Mashup采用的概率进行Web服务包推荐。
优选地,所述模块M1包括:对Mashup和Web服务的描述文本进行统一维度;
对Mashup和Web服务的描述文本进行预处理,包括:标记、词干提取、词元化和删除停用词;
使用狄利克雷分布主题模型来提取描述文本的主题特征;
对主题进行一致性评价,找到符合预设的主题数量,并将所有描述文本统一处理成符合预设的主题向量。
优选地,所述模块M2包括:输入为Mashup以及一对Web服务的主题向量,输出为这一对Web服务被同时采用的概率分数;
将一个Web服务同它自己组成Web服务对作为样本;
使用历史Mashup和历史Mashup包含的Web服务产生的Web服务对作为正样例,在的负样例中随机挑选符合预设的比例完善模型训练。
优选地,所述模块M2包括:根据Mashup的描述文本和Web服务的描述文本,训练一个深度神经网络,提取一对Web服务的组合特征,并预测这一对Web服务是否能够被待开发的Mashup所采用的概率;
对Mashup和Web服务对应的描述文本训练主题模型进行语义特征提取,并处理为成主题向量;
在深度网络模型中,将与Mashup协作过的Web服务两两组合成Web服务对,进行训练、提取组合特征和概率预测,得到根据Mashup描述文本预测一对Web服务能被采用的概率。
优选地,所述模块M3包括:将待开发的Mashup的描述文本作为需求输入;
在历史Mashup中选出与待开发的Mashup的需求相似的Mashup,将挑选出的Mashup的Web服务筛选出来作为候选Web服务;
将Mashup的描述文本处理成主题向量,计算待开发的Mashup的描述文本与其他Mashup的描述文本的主题向量的余弦相似性,将相似的k个历史Mashup用到的Web服务取出,其中次数最多的n个Web服务构成Web服务候选集,并将Web服务按照次数从高到低排列;
将Web服务作为节点,将深度神经网络预测的Web服务对能否被同时采用的概率作为边的权重,构造Web服务图;
每一个Web服务与自身构成的Web服务对通过深度神经网络预测被采用的概率,设定预定义的阈值γ和η,其中,0<γ<1,0<η<1,依次从Web服务候选集中取出每一个Web服务,使用广度优先搜索算法,找出包含Web服务且子图的边的权重都大于γ的全连接子图,同时检测每个Web服务节点自身Web服务对的采用概率大于η,符合条件的子图对应的节点为待推荐的Web服务包。
与现有技术相比,本发明具有如下的有益效果:
1、本发明能够提取Web服务组合在一起形成的综合功能,从而能够为开发人员推荐一组互补的Web服务,完整涵盖Mashup的需求;
2、通过采集现有Mashup的描述、所包含的Web服务、Web服务的描述,训练一个深度学习模型,能够提取一对Web服务的组合特征,由此预测该对Web服务能否被某一待开发的Mashup采用的概率,通过这种方法可以将多种Web服务组合在一起,提供更全面的功能;
3、根据待开发的Mashup的描述与历史Mashup描述的相似性,获取待选Web服务集合,以每对Web服务被采用的概率为边,构造网络图,以此网络为基础,我们根据待开发的Mashup的描述为用户推荐一组两两之间具有互补性的Web服务构成的Web服务包。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的深度神经网络模型的结构示意图;
图2为本发明的整体框架示意图;
图3为本发明的Web服务包推荐过程举例示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
如图2,本发明通过以下技术方案实现:
一种基于Web服务组合特征学习的Web服务包推荐方法,根据Mashup文本描述的组合语义,根据用户需求推荐一组互补的Web服务。基于组合特征学习的Web服务包推荐框架包含两个子系统:(1)基于组合特征的提取对一对Web服务是否能够被待开发的Mashup采用的概率进行预测的深度神经网络,(2)Web服务包推荐系统。
基于组合特征的提取对一对Web服务是否能够被待开发的Mashup采用的概率进行预测的深度神经网络:根据现有Mashup及其包含的Web服务以及它们的描述文本,训练基于组合特征提取的预测Web服务对采用概率的深度神经网络。首先对Mashup及Web服务对应的描述文本训练主题模型进行语义特征提取,将它们表示成主题向量。然后将Mashup以及其对应的协作过的Web服务两两组合成Web服务对以训练组合特征提取网络以及概率预测模型。最后得到能够根据需求预测Web服务对被采用概率的深度神经网络。
Web服务包推荐系统:为开发人员推荐一组满足其功能需求的Web服务包。开发人员将待开发的Mashup的描述作为需求输入。系统首先将Mashup文本描述表示成主题向量,然后计算待开发的Mashup的描述与其他Mashup的文本描述的主题向量的余弦相似性,将相似的k个历史Mashup用到的Web服务取出,其中在历史Mashup中出现次数最多的n个Web服务构成Web服务候选集。对这n个Web服务中的两两Web服务利用前述的深度神经网络模型预测其被此待开发的Mashup所使用的概率。以Web服务为节点,以采用概率为边的权重,构成Web服务网络。从Web服务候选集依次取出每个Web服务,从该网络图中找出包含该Web服务的满足条件的全连接子图,子图对应的节点构成了要推荐的Web服务包。
具体步骤为:
S1、基于主题模型的语义特征提取;
由于Mashup以及Web服务的描述文本在长度上各不相同,因此我们需要将这些描述性文本统一到一个维度中去。首先对它们分别进行标记、词干提取、词元化以及删除停用词等文本预处理的标准步骤。然后使用潜在的狄利克雷分配主题模型来提取文本的主题特征。
利用LDA获得描述文本所对应的主题分布,模型在单词w上指定了以下分布:
Figure BDA0002423462310000061
我们使用主题一致性评分来找到最合适的主题数量,并将所有文本统一处理成该数量主题的主题向量。主题一致性评分使用以下公式进行计算。
Figure BDA0002423462310000062
最后对于Mashup,我们得到其主题向量表示:
Figure BDA0002423462310000063
对于Web服务a,我们同样也得到其主题向量表示:
Figure BDA0002423462310000064
S2、训练深度神经网络,提取组合特征,对一对Web服务能否同时被用于待开发的Mashup进行预测;
该神经网络主要目的是预测一对Web服务的交互和互补是否能够产生目标Mashup的所需功能,并将此结果体现为采用概率的评分。该模型的输入为Mashup以及一对Web服务的主题向量,输出为这一对Web服务被该Mashup同时采用的概率分数。考虑到有接近一半的Mashup只使用一个Web服务,所以我们也将一个Web服务同它自己组成Web服务对作为输入。在该步骤中,我们使用数据库中的Mashup以及它所对应的Web服务产生的Web服务对作为正样例,同时也在海量的负样例中随机挑选合适比例来作为模型训练的输入。
首先将Web服务对中的两个Web服务a1以及a2进行主题向量的交互得到原始组合特征:
Figure BDA0002423462310000071
加入权重层W来找出有用的组合特征:
Figure BDA0002423462310000072
紧接着将得到的矩阵进行最大池化以及变形得到组合特征向量TIF。我们将这个组合特征向量与Web服务对的主题向量以及Mashup的主题向量拼接在一起形成Tx一起输入隐层:
Figure BDA0002423462310000073
Figure BDA0002423462310000074
Figure BDA0002423462310000075
最后输出采用概率的评分:
Figure BDA0002423462310000076
其结构见图1。
S3、Web服务包推荐算法;
我们先在历史Mashup中选出与待开发的Mashup的需求相似的Mashup,将它们的Web服务筛选出来作为候选Web服务:系统首先将Mashup文本描述表示成主题向量,然后计算待开发的Mashup的描述与其他Mashup的文本描述的主题向量的余弦相似性。两个Mashup的主题向量为T1和T2,它们的余弦相似性为:
Figure BDA0002423462310000077
将相似的k个历史Mashup用到的Web服务都取出,其中在历史Mashup中出现次数最多的n个Web服务构成Web服务候选集,按照次数从多到少排列,形成种子Web服务。
将所有Web服务看作节点,Web服务之间是否能够有效组合看作边,将深度神经网络预测的Web服务对被采用概率作为边的权重。同时每一个Web服务与自身构成的Web服务对也通过深度神经网络预测其被采用的概率。设定预定义的阈值γ(0<γ<1)和η(0<η<1)。
依次从Web服务候选集中取出种子Web服务:
对每一个种子Web服务:
使用广度优先的搜索算法,找出包含该Web服务的同时这些子图的边的权重都大于γ的全连接子图,同时检测每个Web服务节点自身Web服务对的采用概率需要大于η,满足这些条件的子图对应的节点就是待推荐的Web服务包,如图3。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (6)

1.一种基于组合特征提取的Web服务包推荐方法,其特征在于,包括:
步骤1:进行语义特征提取;
步骤2:根据提取的语义特征,训练深度神经网络并提取组合特征,对Web服务对能否同时被用于待开发的Mashup采用的概率进行预测;
所述步骤2包括:根据Mashup的描述文本和Web服务的描述文本,训练一个深度神经网络,提取一对Web服务的组合特征,并预测这一对Web服务是否能够被待开发的Mashup所采用的概率;
对Mashup和Web服务对应的描述文本训练主题模型进行语义特征提取,并处理成主题向量;
在深度网络模型中,将与Mashup协作过的Web服务两两组合成Web服务对,进行训练、提取组合特征和概率预测,得到根据Mashup描述文本预测一对Web服务能被采用的概率;
首先将Web服务对中的两个Web服务a1以及a2进行主题向量的交互得到原始组合特征:
Figure FDA0004129135290000011
加入权重层W来找出有用的组合特征:
Figure FDA0004129135290000012
将得到的矩阵进行最大池化以及变形得到组合特征向量TIF,将这个组合特征向量与Web服务对的主题向量以及Mashup的主题向量拼接在一起形成Tx一起输入隐层:
Figure FDA0004129135290000013
Figure FDA0004129135290000014
Figure FDA0004129135290000015
最后输出采用概率的评分:
Figure FDA0004129135290000016
步骤3:根据被用于待开发的Mashup采用的概率进行Web服务包推荐;
所述步骤3包括:将待开发的Mashup的描述文本作为需求输入;
在历史Mashup中选出与待开发的Mashup的需求相似的Mashup,将挑选出的Mashup的Web服务筛选出来作为候选Web服务;
将Mashup的描述文本处理成主题向量,计算待开发的Mashup的描述文本与其他Mashup的描述文本的主题向量的余弦相似性,将相似的k个历史Mashup用到的Web服务取出,其中次数最多的n个Web服务构成Web服务候选集,并将Web服务按照次数从高到低排列;
将Web服务作为节点,将深度神经网络预测的Web服务对能否被同时采用的概率作为边的权重,构造Web服务图;
每一个Web服务与自身构成的Web服务对通过深度神经网络预测被采用的概率,设定预定义的阈值γ和η,其中,0<γ<1,0<η<1,依次从Web服务候选集中取出每一个Web服务,使用广度优先搜索算法,找出包含Web服务且子图的边的权重都大于γ的全连接子图,同时检测每个Web服务节点自身Web服务对的采用概率大于η,符合条件的子图对应的节点为待推荐的Web服务包。
2.根据权利要求1所述的基于组合特征提取的Web服务包推荐方法,其特征在于,所述步骤1包括:对Mashup和Web服务的描述文本进行统一维度;
对Mashup和Web服务的描述文本进行预处理,包括:标记、词干提取、词元化和删除停用词;
使用狄利克雷分布主题模型来提取描述文本的主题特征;
对主题进行一致性评价,找到符合预设的主题数量,并将所有描述文本统一处理成符合预设的主题向量。
3.根据权利要求1所述的基于组合特征提取的Web服务包推荐方法,其特征在于,所述步骤2包括:输入为Mashup以及一对Web服务的主题向量,输出为这一对Web服务被同时采用的概率分数;
使用历史Mashup和历史Mashup包含的Web服务产生的Web服务对作为正样例,在负样例中随机挑选符合预设的比例完善模型训练。
4.一种基于组合特征提取的Web服务包推荐系统,其特征在于,包括:
模块M1:进行语义特征提取;
模块M2:根据提取的语义特征,训练深度神经网络并提取组合特征,对Web服务对能否同时被用于待开发的Mashup采用的概率进行预测;
所述模块M2包括:根据Mashup的描述文本和Web服务的描述文本,训练一个深度神经网络,提取一对Web服务的组合特征,并预测这一对Web服务是否能够被待开发的Mashup所采用的概率;
对Mashup和Web服务对应的描述文本训练主题模型进行语义特征提取,并处理成主题向量;
在深度网络模型中,将与Mashup协作过的Web服务两两组合成Web服务对,进行训练、提取组合特征和概率预测,得到根据Mashup描述文本预测一对Web服务能被采用的概率;
首先将Web服务对中的两个Web服务a1以及a2进行主题向量的交互得到原始组合特征:
Figure FDA0004129135290000031
加入权重层W来找出有用的组合特征:
Figure FDA0004129135290000032
将得到的矩阵进行最大池化以及变形得到组合特征向量TIF,将这个组合特征向量与Web服务对的主题向量以及Mashup的主题向量拼接在一起形成Tx一起输入隐层:
Figure FDA0004129135290000033
Figure FDA0004129135290000034
Figure FDA0004129135290000035
最后输出采用概率的评分:
Figure FDA0004129135290000036
模块M3:根据被用于待开发的Mashup采用的概率进行Web服务包推荐;
所述模块M3包括:将待开发的Mashup的描述文本作为需求输入;
在历史Mashup中选出与待开发的Mashup的需求相似的Mashup,将挑选出的Mashup的Web服务筛选出来作为候选Web服务;
将Mashup的描述文本处理成主题向量,计算待开发的Mashup的描述文本与其他Mashup的描述文本的主题向量的余弦相似性,将相似的k个历史Mashup用到的Web服务取出,其中次数最多的n个Web服务构成Web服务候选集,并将Web服务按照次数从高到低排列;
将Web服务作为节点,将深度神经网络预测的Web服务对能否被同时采用的概率作为边的权重,构造Web服务图;
每一个Web服务与自身构成的Web服务对通过深度神经网络预测被采用的概率,设定预定义的阈值γ和η,其中,0<γ<1,0<η<1,依次从Web服务候选集中取出每一个Web服务,使用广度优先搜索算法,找出包含Web服务且子图的边的权重都大于γ的全连接子图,同时检测每个Web服务节点自身Web服务对的采用概率大于η,符合条件的子图对应的节点为待推荐的Web服务包。
5.根据权利要求4所述的基于组合特征提取的Web服务包推荐系统,其特征在于,所述模块M1包括:对Mashup和Web服务的描述文本进行统一维度;
对Mashup和Web服务的描述文本进行预处理,包括:标记、词干提取、词元化和删除停用词;
使用狄利克雷分布主题模型来提取描述文本的主题特征;
对主题进行一致性评价,找到符合预设的主题数量,并将所有描述文本统一处理成符合预设的主题向量。
6.根据权利要求4所述的基于组合特征提取的Web服务包推荐系统,其特征在于,所述模块M2包括:输入为Mashup以及一对Web服务的主题向量,输出为这一对Web服务被同时采用的概率分数;
使用历史Mashup和历史Mashup包含的Web服务产生的Web服务对作为正样例,在负样例中随机挑选符合预设的比例完善模型训练。
CN202010213044.8A 2020-03-24 2020-03-24 基于组合特征提取的Web服务包推荐方法及系统 Active CN111538898B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010213044.8A CN111538898B (zh) 2020-03-24 2020-03-24 基于组合特征提取的Web服务包推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010213044.8A CN111538898B (zh) 2020-03-24 2020-03-24 基于组合特征提取的Web服务包推荐方法及系统

Publications (2)

Publication Number Publication Date
CN111538898A CN111538898A (zh) 2020-08-14
CN111538898B true CN111538898B (zh) 2023-05-02

Family

ID=71972889

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010213044.8A Active CN111538898B (zh) 2020-03-24 2020-03-24 基于组合特征提取的Web服务包推荐方法及系统

Country Status (1)

Country Link
CN (1) CN111538898B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112084416A (zh) * 2020-09-21 2020-12-15 哈尔滨理工大学 基于CNN和LSTM的Web服务推荐方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250391A (zh) * 2016-07-15 2016-12-21 浙江大学 一种基于服务聚合与功能信息的api推荐方法
CN108959195A (zh) * 2018-06-29 2018-12-07 天津大学 一种面向服务网络的社团发现方法
CN109344332A (zh) * 2018-10-31 2019-02-15 郑州云海信息技术有限公司 一种Web API组合推荐方法、装置及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180232442A1 (en) * 2017-02-16 2018-08-16 International Business Machines Corporation Web api recommendations

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250391A (zh) * 2016-07-15 2016-12-21 浙江大学 一种基于服务聚合与功能信息的api推荐方法
CN108959195A (zh) * 2018-06-29 2018-12-07 天津大学 一种面向服务网络的社团发现方法
CN109344332A (zh) * 2018-10-31 2019-02-15 郑州云海信息技术有限公司 一种Web API组合推荐方法、装置及电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Chen L, Wu J, Zheng Z, et al.Modeling and exploiting tag relevance for Web service mining.《Knowledge and information systems》.2014,全文. *
石敏.基于主题模型的Mashup标签推荐算法研究.《中国优秀硕士学位论文全文数据库 信息科技辑》 .2018,全文. *
陈丽洁.基于图的可信web服务组合方法研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2015,全文. *

Also Published As

Publication number Publication date
CN111538898A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
US10127214B2 (en) Methods for generating natural language processing systems
CN108717408B (zh) 一种敏感词实时监控方法、电子设备、存储介质及系统
CN110069709B (zh) 意图识别方法、装置、计算机可读介质及电子设备
Apaza et al. Online Courses Recommendation based on LDA.
CN111539197B (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
EP2973038A1 (en) Classifying resources using a deep network
CN109325231A (zh) 一种多任务模型生成词向量的方法
CN107844533A (zh) 一种智能问答系统及分析方法
CN107544959B (zh) 一种评价对象的提取方法和装置
CN109063147A (zh) 基于文本相似度的在线课程论坛内容推荐方法及系统
CN112819023A (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN108038106B (zh) 一种基于上下文语义的细粒度领域术语自学习方法
CN113312480A (zh) 基于图卷积网络的科技论文层级多标签分类方法及设备
CN114661872A (zh) 一种面向初学者的api自适应推荐方法与系统
CN114077661A (zh) 信息处理装置、信息处理方法和计算机可读介质
Menezes et al. Building a massive corpus for named entity recognition using free open data sources
WO2015084757A1 (en) Systems and methods for processing data stored in a database
CN110569355B (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
Quan et al. An improved accurate classification method for online education resources based on support vector machine (SVM): Algorithm and experiment
Najafabadi et al. Tag recommendation model using feature learning via word embedding
CN111538898B (zh) 基于组合特征提取的Web服务包推荐方法及系统
Xiao et al. Research and implementation of hybrid recommendation algorithm based on collaborative filtering and word2vec
CN116975271A (zh) 文本相关性的确定方法、装置、计算机设备和存储介质
CN113239143B (zh) 融合电网故障案例库的输变电设备故障处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant