CN111914918A - 基于融合标签和文档的网络主题模型的Web服务聚类方法 - Google Patents
基于融合标签和文档的网络主题模型的Web服务聚类方法 Download PDFInfo
- Publication number
- CN111914918A CN111914918A CN202010723704.7A CN202010723704A CN111914918A CN 111914918 A CN111914918 A CN 111914918A CN 202010723704 A CN202010723704 A CN 202010723704A CN 111914918 A CN111914918 A CN 111914918A
- Authority
- CN
- China
- Prior art keywords
- web service
- network
- document
- information
- topic model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000004927 fusion Effects 0.000 claims abstract description 11
- 230000008569 process Effects 0.000 claims abstract description 8
- 238000004140 cleaning Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 7
- 230000017105 transposition Effects 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000005406 washing Methods 0.000 claims 1
- 238000010276 construction Methods 0.000 abstract description 2
- 238000012795 verification Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 238000003064 k means clustering Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于融合标签和文档的网络主题模型的Web服务聚类方法,首次提出利用图的思想解决Web服务聚类问题,本方法先构建Web服务网络,然后对网络进行图聚类,不仅利用了Web服务文档的文本属性,同时结合了Web服务之间的结构信息,对Web服务之间的关系进行全面的刻画;Web服务网络构建是核心,本方法考虑Web服务标签信息这一重要特征,不仅有效克服Web服务描述文档较短、信息稀疏这一弱点,还使得标签信息在Web服务之间的关系刻画过程中发挥重要作用;对Web服务描述文本和标签分别构建网络,然后将这两种模态的网络进行加权融合,形成Web服务网络;经过在真实数据集上进行了大量的实验验证,本方效果优于其它聚类方法,并且准确率和召回率达到了0.7以上。
Description
技术领域
本发明涉及Web服务技术领域,更具体地说,涉及一种基于融合标签和文档的网络主题模型的Web服务聚类方法。
背景技术
Web服务是一种依赖互联网的应用系统,它为互联网用户提供各种数据计算和资源共享服务。随着Web 2.0、移动互联网、物联网与云计算等技术的迅猛发展,大量基于SOA(Service Oriented Architecture,面向服务架构)的互联网应用被创建,而Web服务逐渐成为实现SOA架构的主流技术,互联网上的Web服务呈现出快速增长的趋势。据统计,目前最大、最活跃的Web服务发布和共享平台Programmable Web上每天都会产生数十个新的被称为API(Application Programming Interface)的Web服务。其中,从2011年6月至2018年3月,网站中的服务数量从3261个增加到19000多个,增幅高达500%。在此背景下,有效地管理Web服务资源和合适Web服务发现已经成为当今人们面临的一个重要挑战,其中,如何辅助用户有效地发现合适的Web服务是面向服务计算领域需要解决的核心问题之一。
目前,Web服务聚类作为一种解决服务发现问题的方法被广泛关注,很多研究表明,Web服务聚类将极大地提高Web服务搜索引擎检索相关服务的能力。传统Web服务聚类研究的一个重要限制是,研究人员只关注于利用Web服务的WSDL(Web Services DescriptionLanguage,Web服务描述语言)文档信息(例如:服务名称、内容、类型、消息、端口),而传统服务聚类方法数据源的单一性限制了聚类的准确性。针对传统Web服务聚类方法的不足,一些学者基于Web服务信息考虑了一些辅助信息,如利用多重融合信息、描述文本、标签、标签共享信息等来提高服务聚类的性能。标签(Tag)作为资源管理和检索的有效方式成为近些年的热点研究对象,有学者提出基于LDA模型(Latent Dirichlet Allocation)利用标签信息和WSDL文档信息来提高服务聚类性能。尽管该方法的服务聚类效果比传统聚类方法有所提高,但只考虑到标签的语义信息,没有考虑到标签和文档的网络结构信息,不能全面地提高服务聚类的有效性。针对这些方法的不足,本文首先考虑标签信息提高描述文档的有效性,通过主题模型挖掘潜在主题及语义,将服务内容从高维词向量空间映射到低维主题向量空间,实现服务文档的降维。其次,基于主题分布向量构建Web服务网络聚类,可以避免直接构建网络时,因服务规模太大而影响服务聚类效果的问题。
发明内容
针对现有技术中存在的不足,本发明提供一种基于融合标签和文档的网络主题模型的Web服务聚类方法。
本发明解决其技术问题所采用的技术方案是:构造一种基于融合标签和文档的网络主题模型的Web服务聚类方法,包括:
步骤1,从Web服务数据中提取Web服务的描述文本信息和标签信息;
步骤2,对Web服务描述文本信息进行数据清洗;
步骤3,用LDA主题模型训练,得到描述文本信息和标签信息的主题概率分布;
步骤4,通过文本信息和标签信息的主题概率分布分别构建对应的表征Web服务相似网络;
步骤5,重复步骤(3)和步骤(4),得出两种多层Web服务相似网络,将两种Web服务相似网络根据其权重融合为一个Web服务网络;
步骤6,用谱聚类方法对Web服务网络进行聚类。
其中,对Web服务描述文本信息进行数据清洗的步骤中,将描述文本信息集D={d1,d2,…,dM}和标签信息集T={t1,t2,…,tM}进行数据清洗,数据清洗的方式至少包括:去掉StopWord、去除Punctuation,词形还原。
在使用LDA主题模型训练的步骤中,LDA主题模型的输入分别是每个Web服务的文档信息和标签信息,得到文档-主题概率分布θd和标签-主题概率分布θt如公式(1)和公式(2)所示:
θd=[θd,k]M×K (1)
θt=[θt,k]M×K (2)
具体计算如公式(3)和公式(4)所示:
其中,,步骤S4中,构建表征Web服务相似网络时,计算两个表征Web服务相似网络的邻接矩阵,如公式(5)和公式(6)所示:
其中,在将Web服务相似网络按照权重叠加融合,生成Web服务网络的步骤中,生成的Web服务网络如公式(7)所示:
其中,L为相似网络层数,γ为两种网络融合权重系数。
区别于现有技术,本发明的一种基于融合标签和文档的网络主题模型的Web服务聚类方法首次提出利用图的思想解决Web服务聚类问题,本方法先构建Web服务网络,然后对网络进行图聚类,不仅利用了Web服务文档的文本属性,同时结合了Web服务之间的结构信息,对Web服务之间的关系进行全面的刻画;Web服务网络构建是核心,本方法考虑Web服务标签信息这一重要特征,不仅有效克服Web服务描述文档较短、信息稀疏这一弱点,还使得标签信息在Web服务之间的关系刻画过程中发挥重要作用;对Web服务描述文本和标签分别构建网络,然后将这两种模态的网络进行加权融合,形成Web服务网络;经过在真实数据集上进行了大量的实验验证,本方效果优于其它聚类方法,并且准确率和召回率达到了0.7以上。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明提供的一种基于融合标签和文档的网络主题模型的Web服务聚类方法的流程示意图。
图2是本发明提供的一种基于融合标签和文档的网络主题模型的Web服务聚类方法中的网络主题模型图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
参阅图1和图2,本发明提供了一种基于融合标签和文档的网络主题模型的Web服务聚类方法,基于融合文档和标签信息,利用LDA得到文档-主题矩阵,然后对矩阵进行运算得到邻接矩阵,构建Web服务网络并用谱聚类聚类。在实际应用过程当中,包括步骤:
步骤1,从Web服务数据中提取Web服务的描述文本信息和标签信息;
步骤2,对Web服务描述文本信息进行数据清洗;
步骤3,用LDA主题模型训练,得到描述文本信息和标签信息的主题概率分布;
步骤4,通过文本信息和标签信息的主题概率分布分别构建对应的表征Web服务相似网络;
步骤5,重复步骤(3)和步骤(4),得出两种多层Web服务相似网络,将两种Web服务相似网络根据其权重融合为一个Web服务网络;
步骤6,用谱聚类方法对Web服务网络进行聚类。
其中,对Web服务描述文本信息进行数据清洗的步骤中,将描述文本信息集D={d1,d2,…,dM}和标签信息集T={t1,t2,…,tM}进行数据清洗,数据清洗的方式至少包括:去掉StopWord、去除Punctuation,词形还原。
在使用LDA主题模型训练的步骤中,LDA主题模型的输入分别是每个Web服务的文档信息和标签信息,得到文档-主题概率分布θd和标签-主题概率分布θt如公式(1)和公式(2)所示:
θd=[θd,k]M×K (1)
θt=[θt,k]M×K (2)
具体计算如公式(3)和公式(4)所示:
其中,,步骤S4中,构建表征Web服务相似网络时,计算两个表征Web服务相似网络的邻接矩阵,如公式(5)和公式(6)所示:
其中,在将Web服务相似网络按照权重叠加融合,生成Web服务网络的步骤中,生成的Web服务网络如公式(7)所示:
其中,L为相似网络层数,γ为两种网络融合权重系数。
本发明所涉及用于Web服务聚类的算法,应用在真实数据集Programmable Web上进行实验,并将传统的K-Means聚类算法作为对比。实验中使用Recall、Precision、Purity和F1四种指标对结果进行评估,其中Recall、Precision、Purity和F1越大则表明聚类效果越好.
在服务计算“服务化”思想驱动下,越来越多的企业和组织纷纷将自己的业务、数据或资源封装成服务,并通过API的形式发布到互联网上,API服务的数量呈现倍增趋势,截止至2019年11月,从Programmable Web平台上爬取到包含20373个API服务实验数据集。本文选取包含API服务最多的前20个类别作为实验数据集,共包含8552个API服务。
在实验过程中,将标签、描述文档、描述文本+标签作为三种输入信息,分别使用LDA主题模型+K-Means聚类方法与本方法进行训练。模型的超参数通常很难确定,针对不同的问题可能设置不同,本方法中超参值与其它方法一样,α=1/K,β=1/K。由于实验只选取包含Web服务最多的前20类别用于评估所提出的算法,实验设置主题模型的主题个数为20(K=20),使得每一个主题近似地对应一个服务领域类别(如每个服务属于主题概率最大的类别)。对比结果如表1所示:
表1本专利方法在web服务Top-20类聚类结果
分析相关参数γ及循环次数L对聚类结果的影响,如表2和表3所示。
表2不同L下各指标最高值变化情况
表3在L=30时不同γ下指标最高值变化情况
同样是LDA模型+K-Means聚类方法,将描述文本与标签融合后的效果明显好于单独使用描述文本或标签数据,说明标签信息可以作为Web服务的重要特征,在Web服务聚类过程起到重要辅助作用。本专利方法提出多层网络模型并用谱聚类实现聚类,从实验结果来看进一步提高了聚类效果。原因在于将Web服务描述文本和Web服务标签分别构建网络,分别刻画Web服务之间的关系,然后将这两个网络进行融合,不仅考虑了描述文本和标签这两个重要特征的文本相似性,还充分考虑了它们的全局结构信息。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (5)
1.一种基于融合标签和文档的网络主题模型的Web服务聚类方法,其特征在于,包括:
步骤1,从Web服务数据中提取Web服务的描述文本信息和标签信息;
步骤2,对Web服务描述文本信息进行数据清洗;
步骤3,用LDA主题模型训练,得到描述文本信息和标签信息的主题概率分布;
步骤4,通过文本信息和标签信息的主题概率分布分别构建对应的表征Web服务相似网络;
步骤5,重复步骤(3)和步骤(4),得出两种多层Web服务相似网络,将两种Web服务相似网络根据其权重融合为一个Web服务网络;
步骤6,用谱聚类方法对Web服务网络进行聚类。
2.根据权利要求1所述的基于融合标签和文档的网络主题模型的Web服务聚类方法,其特征在于,对Web服务描述文本信息进行数据清洗的步骤中,将描述文本信息集D={d1,d2,...,dM}和标签信息集T={t1,t2,...,tM}进行数据清洗,数据清洗的方式至少包括:去掉StopWord、去除Punctuation,词形还原。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010723704.7A CN111914918A (zh) | 2020-07-24 | 2020-07-24 | 基于融合标签和文档的网络主题模型的Web服务聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010723704.7A CN111914918A (zh) | 2020-07-24 | 2020-07-24 | 基于融合标签和文档的网络主题模型的Web服务聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111914918A true CN111914918A (zh) | 2020-11-10 |
Family
ID=73280435
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010723704.7A Pending CN111914918A (zh) | 2020-07-24 | 2020-07-24 | 基于融合标签和文档的网络主题模型的Web服务聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111914918A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113553429A (zh) * | 2021-07-07 | 2021-10-26 | 北京计算机技术及应用研究所 | 一种规范化标签体系构建及文本自动标注方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102855312A (zh) * | 2012-08-24 | 2013-01-02 | 武汉大学 | 一种面向领域主题的Web服务聚类方法 |
WO2017114019A1 (zh) * | 2015-12-29 | 2017-07-06 | 广州神马移动信息科技有限公司 | 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统 |
US20180053188A1 (en) * | 2016-08-17 | 2018-02-22 | Fair Isaac Corporation | Customer transaction behavioral archetype analytics for cnp merchant transaction fraud detection |
CN110297988A (zh) * | 2019-07-06 | 2019-10-01 | 四川大学 | 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法 |
-
2020
- 2020-07-24 CN CN202010723704.7A patent/CN111914918A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102855312A (zh) * | 2012-08-24 | 2013-01-02 | 武汉大学 | 一种面向领域主题的Web服务聚类方法 |
WO2017114019A1 (zh) * | 2015-12-29 | 2017-07-06 | 广州神马移动信息科技有限公司 | 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统 |
US20180053188A1 (en) * | 2016-08-17 | 2018-02-22 | Fair Isaac Corporation | Customer transaction behavioral archetype analytics for cnp merchant transaction fraud detection |
CN110297988A (zh) * | 2019-07-06 | 2019-10-01 | 四川大学 | 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法 |
Non-Patent Citations (5)
Title |
---|
曹步清等: "融合SOM功能聚类与DeepFM质量预测的API服务推荐方法", 《计算机学报》 * |
李慧宗等: "《基于LDA的社会化标签综合聚类方法》", 《情报学报》 * |
肖巧翔等: "《基于Word2Vec和LDA主题模型的Web服务聚类方法》", 《中南大学学报(自然科学版)》 * |
陈婷等: "基于BTM主题模型的Web服务聚类方法研究", 《计算机工程与科学》 * |
黄媛等: "基于标签推荐的Mashup服务聚类", 《计算机科学》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113553429A (zh) * | 2021-07-07 | 2021-10-26 | 北京计算机技术及应用研究所 | 一种规范化标签体系构建及文本自动标注方法 |
CN113553429B (zh) * | 2021-07-07 | 2023-09-29 | 北京计算机技术及应用研究所 | 一种规范化标签体系构建及文本自动标注方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021083239A1 (zh) | 一种进行图数据查询的方法、装置、设备及存储介质 | |
Cao et al. | Domain-aware Mashup service clustering based on LDA topic model from multiple data sources | |
WO2020147594A1 (zh) | 获取实体间关系表达的方法、系统和设备、广告召回系统 | |
Li et al. | A survey on personalized news recommendation technology | |
Yang et al. | Mining Chinese social media UGC: a big-data framework for analyzing Douban movie reviews | |
Amato et al. | Multimedia summarization using social media content | |
CN101420313A (zh) | 一种针对客户端用户群进行聚类的方法和系统 | |
US20090327230A1 (en) | Structured and unstructured data models | |
Lubis et al. | A framework of utilizing big data of social media to find out the habits of users using keyword | |
Wang et al. | Jointly modeling intra-and inter-session dependencies with graph neural networks for session-based recommendations | |
Zhuang et al. | Data summarization with social contexts | |
CN115329215A (zh) | 异构网络中基于自适应动态知识图谱的推荐方法及系统 | |
Hu et al. | EGC: A novel event-oriented graph clustering framework for social media text | |
Wu et al. | Tourism forecasting research: a bibliometric visualization review (1999–2022) | |
Liu et al. | A label propagation community discovery algorithm combining seed node influence and neighborhood similarity | |
Ennaji et al. | Social intelligence framework: Extracting and analyzing opinions for social CRM | |
CN111914918A (zh) | 基于融合标签和文档的网络主题模型的Web服务聚类方法 | |
CN106021297A (zh) | 基于上下文感知和复杂语义关联的数据空间建模方法 | |
Fu et al. | The Design of Personalized Education Resource Recommendation System under Big Data | |
Su | Accurate Marketing Algorithm of Network Video Based on User Big Data Analysis | |
Xu et al. | Research on topic discovery technology for Web news | |
CN111813918B (zh) | 一种科技资源推荐处理方法及装置 | |
Wang et al. | User interaction-aware knowledge graphs for recommender systems | |
Hashemi et al. | GroupRank: Ranking Online Social Groups Based on User Membership Records | |
JP2020113267A (ja) | リーディングリストを生成するシステム及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201110 |