CN111832289A - 一种基于聚类和高斯lda的服务发现方法 - Google Patents

一种基于聚类和高斯lda的服务发现方法 Download PDF

Info

Publication number
CN111832289A
CN111832289A CN202010668037.7A CN202010668037A CN111832289A CN 111832289 A CN111832289 A CN 111832289A CN 202010668037 A CN202010668037 A CN 202010668037A CN 111832289 A CN111832289 A CN 111832289A
Authority
CN
China
Prior art keywords
service
clustering
query
word
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010668037.7A
Other languages
English (en)
Other versions
CN111832289B (zh
Inventor
徐玲
聂彤羽
鄢萌
王子梁
张文燕
付春雷
张小洪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202010668037.7A priority Critical patent/CN111832289B/zh
Publication of CN111832289A publication Critical patent/CN111832289A/zh
Application granted granted Critical
Publication of CN111832289B publication Critical patent/CN111832289B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于聚类和高斯LDA的服务发现方法,包括如下步骤:对服务数据集进行数据解析,使用Doc2Vec和Word2Vec训练段落嵌入和词嵌入;使用修改的K‑Means算法将Doc2Vec向量集合聚类;基于词嵌入向量集扩展查询得到扩展的查询语句Qe和扩展的查询向量Vqe;基于扩展的查询语句计算其与聚类所得的每一个聚类簇的Doc2Vec矩阵的平均余弦相似度,将相似度最高的簇作为目标簇;基于所选目标簇和训练所得的词嵌入向量,构建高斯LDA模型,得到“文档‑主题分布”和“主题的高斯分布”;使用两个分布计算目标簇中的各个服务与扩展后的用户查询匹配的概率并降序排列。本方法服务匹配准确性高。

Description

一种基于聚类和高斯LDA的服务发现方法
技术领域
本发明涉及服务计算技术领域,尤其涉及一种基于聚类和高斯LDA的服务发现方法。
背景技术
服务发现是服务科学的重要组成之一。随着面向服务的体系结构的日益普及,企业服务 系统的开发有了极大地改变。此外,得益于面向服务计算以及云计算技术和移动互联网技术 的迅猛发展,服务的开发、部署、访问、管理和维护成本大幅下降。这两个因素综合导致Web 服务、API(应用程序编程接口)、云服务以及混搭等形式的服务的流行度的逐渐提高,海量 服务应运而生。面对呈爆炸式增长的Web服务,如何根据用户需求高效、准确地匹配Web 服务,是工业界和学术界共同关注的问题。
由于Web2.0技术的繁荣和发展,许多开发人员更喜欢以松散耦合的方式组合现有的 RESTful Web服务。REST服务通常附带有以自然语言编写的非正式描述文档。由于服务描述 广泛使用自然语言描述,基于自然语言描述的服务发现已经成为服务研究领域中迫切需要解 决的问题。服务发现中,用户需求的质量是影响查询结果的一大因素,一个能够很好地反映 用户需求的查询有助于获得更加相关的服务。传统的基于搜索引擎的服务发现方法存在用户 需求描述和服务描述的语义稀疏问题,降低了服务发现的有效性。且Web服务数量的大量增 多,阻碍了人们有效地使用和管理服务存储库。
发明内容
针对现有技术存在的上述问题,本发明要解决的技术问题是:服务发现所面临的Web服 务数量多,管理和检索难度大以及用户查询存在语义稀疏性的问题。
为解决上述技术问题,本发明采用如下技术方案:
一种基于聚类和高斯LDA的服务发现方法,包括如下步骤:
S100:获取服务数据集和查询数据集:所述服务数据集中的每条服务数据由服务名称、 服务描述组成;所述查询数据集中的每条查询数据由查询名称、候选服务名称和候选服务与 查询的二进制相关性组成;
S200:对所获得的服务数据集和查询数据集中的所有数据进行数据预处理,包括文本分 词,去除停用词,词干提取;
S300:对经过S200数据预处理后的服务数据集和查询数据集使用Word2Vec和Doc2Vec 分别训练词嵌入向量集E={e1,e2,…,ed}和段落嵌入向量集P={p1,p2,…,pd};
S400:基于得到的段落嵌入向量集P,通过修改的K-Means聚类算法进行无监督聚类, 聚类个数K与服务数据集的标准分类数目相同;
S500:基于查询语句Q={w1,w2,…,wm}和训练所得的词嵌入向量集E扩展查询得到扩 展的查询语句Qe和扩展的查询向量Vqe
S600:基于扩展的查询语句Qe计算其与聚类所得的聚类簇的Doc2Vec矩阵:C={C1,C2,…,Ch}的平均相似度,将相似度最高的簇,作为目标簇;
S700:基于所选目标簇和训练所得的词嵌入向量,构建高斯LDA模型,通过吉布斯采样, 经过有限次迭代收敛后即可得到“文档—主题分布”和“主题的高斯分布”;
S800:基于高斯LDA生成的两个分布与扩展的用户查询语句,将服务排序过程建模为查 询表示与服务描述的主题表示之间的概率匹配,生成候选服务匹配列表。
作为优选,所述S400具体步骤如下:
S410:从服务数据段落嵌入向量集P={p1,p2,…,pd}中选择K个初始聚类中心,并使其尽 可能彼此远离;
S411:从P中随机选择一个样本作为第一个初始聚类中心μ1
S412:计算P中剩余每个样本点x与当前已有聚类中心的最短距离D(x);
S413:计算样本点被选作下一个聚类中心的概率
Figure BDA0002581206750000021
S414:用轮盘法选出下一个聚类中心μi
S415:重复S412-S414,直到选出K个初始聚类中心Mu={μ12,…,μk};
S420:为服务数据段落嵌入向量集P={p1,p2,…,pd}中的每一个样本点划分一个聚类簇;
S421:每个样本点x与K个聚类中心的余弦相似度
Figure BDA0002581206750000022
S422:找到与样本点x余弦相似度最大的聚类中心,将样本点划分到该聚类中心所属簇中;
S423:计算各个簇中样本点的均值
Figure BDA0002581206750000023
如果新的均值向量μ′i不等于原始聚类 中心μi,则将聚类中心替换为新的均值向量μ′i
S424:重复S421-S423,直到μi=μ′i
作为优选,所述S500的具体步骤包括:
S510:遍历Q中的每个单词wi,从词嵌入集中得到该单词的词嵌入向量vw和与其最相似 的前10个词嵌入向量E.top_10_similar(w);
S520:依次计算E.top_10_similar(w)词嵌入向量与单词wi的余弦相似度,如果大于相似 度阈值τ,则将该单词添加到Qe,将其对应的词向量添加到扩展的查询向量Vqe
作为优选,S600包含如下具体步骤:
S610:将Qe映射为Doc2Vec向量PVqe
S620:计算计算PVqe与聚类簇Ci中的各个服务描述文档的段落嵌入向量的余弦相似度, 并将其取平均值sim_average,得到平均相似度最高的簇:cluster_select=max(sim_average)作 为该查询语句的目标簇。
作为优选,S700包含如下具体步骤:
S710:将目标簇中的每一个服务描述文档根据词嵌入向量的索引,映射为一个由词嵌入 向量索引所组成的整数矩阵,作为高斯LDA的输入;
S720:高斯LDA模型中,每一个服务描述文档中的每一个单词都是一个词嵌入向量e∈RM,每个主题k描述为一个以μk为均值,以∑k为协方差的多元高斯分布;每一个词嵌入向量e与潜在主题z相关,每一个主题z与每一个服务描述文档s相关,用高斯LDA模型对 服务描述文档建模可认为由两层构成:服务—主题层和主题—词嵌入层,从而生成两种分布:服务—主题分布和主题的高斯分布分布。
作为优选,S800包含如下具体步骤:
根据公式(1)计算用户查询与目标簇候选Web服务之间的相关性,相关性越大,该候 选服务与用户查询越匹配,排名越靠前,由此生成目标簇候选服务匹配列表;
Figure BDA0002581206750000031
其中,Qe表示扩展的查询语句,P(e|z)和P(z|si)分别表示概率的后验分布。
相对于现有技术,本发明至少具有如下优点:
本发明提出了一种基于聚类和高斯LDA的服务发现方法,服务聚类提高了服务管理性能, 基于聚类类别匹配服务缩小了搜索空间,提高了检索效率。基于词嵌入的高斯LDA有效地捕 捉了服务描述中的语义信息。查询扩展充分利用语料库上下文的关系,缓解了用户查询的语 义稀疏,提高了服务匹配的准确性。本发明的服务发现性能优于传统的服务发现算法,可以 应用于实际的服务发现系统的开发中,为服务科学,服务发现领域的研究做出贡献。
附图说明
图1为本发明的整体框架;
图2为参数Doc2Vec的维度vector_size对聚类效果的影响(基于聚类精度,聚类召回率, 聚类F值);
图3为参数查询扩展的相似性阈值τ对服务发现性能的影响(基于F值)
图4(a)为OWLS-TC4数据集下的聚类效果,图4(b)为ProgammableWeb数据集下 的聚类效果。
图5(a)和图5(b)均为聚类效果对比(基于聚类精度,聚类召回率和聚类F值);
图6为基于OWLS-TC4数据集的实验效果对比(基于精度);
图7为基于OWLS-TC4数据集的实验效果对比(基于召回率);
图8为基于OWLS-TC4数据集的实验效果对比(基于F值)。
图9为用高斯LDA服务建模的层次图。
图10为高斯LDA的图模型
具体实施方式
下面对本发明作进一步详细说明。
本文提出了一种基于聚类和高斯LDA的Web服务发现方法。模型整体分为三个部分: 服务聚类,服务建模和服务查询。
服务聚类,包括服务聚类和聚类选择。服务聚类,使用Doc2Vec将数据集中的每一个 Web服务描述文档表示为一个固定维数的向量,然后使用修改的K-Means算法将Doc2Vec向 量集合聚类。聚类选择,使用服务查询模块的查询扩展来扩展用户查询之后,计算用户查询 与每一个聚类簇的余弦相似度以进行聚类选择。
服务建模,使用Word2Vec将数据集中的所有单词表示为一个固定维数的向量,并将单 词映射生成目标类的语料库。然后,将二者作为高斯LDA的输入,以训练获得“文档—主 题”分布和“主题”的高斯分布。
服务查询,包括查询扩展和查询排序。查询扩展,使用服务建模模块中训练好的单词向 量来扩展用户查询,以缓解用户查询的语义稀疏性。服务排序,使用高斯LDA训练得到的 两个分布计算目标类中的各个服务与扩展后的用户查询匹配的概率,并以降序排列。模型整 体结构图,如图1。
本发明使用了通用的Web服务数据集OWLS-TC4和从ProgammableWeb.com上获取的真 实数据集进行模型构建、评估和对比。首先使用修改的K-Means聚类方法对已经映射成为段 落向量的服务数据集聚类;其次,使用词嵌入向量的上下文信息来扩展用户查询和丰富服务 描述,然后将丰富的服务描述加载到高斯LDA中,获取服务描述表示;最后,按照服务描述 表示和扩展的服务查询之间的概率相关性对服务进行排序,以获得最符合用户需求的服务。
本发明中修改的K-Means算法是指将经典的K-Means++聚类算法中用欧氏距离衡量样本 点之间的距离,修改为用余弦相似度衡量。
本发明使用Doc2Vec向量化每一个服务描述文档,然后,使用修改的K-Means算法对向 量聚类,由于Doc2Vec可以捕获服务描述文档的潜在语义信息,因此,可以认为,每一个簇 中的文档具有相同或类似的主题。用t-SNE(t-Distributed Stochastic NeighbourEmbedding)降 维技术,可以将聚类结果映射到2维空间中,以达到可视化效果。
我们采用Doc2Vec+修改的K-Means算法将数据集聚类后,虽然每个簇中的服务数量各 不相同,但是簇中每个文档存在一些潜在的关系,而用户需求往往是针对某一类型的服务。 因此,我们可以将服务的搜索范围缩小到某一个类上,而不是搜索整个数据集,这样就可以 提高服务发现的效率。
从获得的簇中找到最相似的类的方法是整个过程的关键步骤。本发明将每个簇中的服务 描述文本视为具有同样的主题,这样就可以计算用户需求与每个簇中所有服务描述文档的平 均语义相似度,平均语义相似度高的簇与用户需求更匹配。由于用户查询通常简短且语义稀 疏,我们使用词嵌入空间中最邻近的词来扩展查询,即查询扩展,
本发明的高斯LDA建模是对聚类选择所得的目标簇进行建模,通过吉布斯采样进行有限 次迭代后得到“服务—主题”分布和“主题”的高斯分布。
基于高斯LDA的服务建模框架是一个分层生成模型,如图9。在这个模型中,每一个服 务描述文档中的每一个单词都是一个词嵌入向量e,每一个词嵌入向量e与潜在主题z相关。每 一个主题z与每一个服务描述文档相关,因此用高斯LDA对服务描述文档建模可认为由两层 构成:服务—主题层和主题—词嵌入层,从而可以生成两种分布:服务—主题分布和主题— 词嵌入分布。具体来说,服务描述文档中的每一个单词可以使用Word2Vec训练得到固定维 数(如:100维)的词嵌入向量,而一个服务描述文档就可以根据词嵌入向量的索引,映射 为一个由词嵌入向量索引所组成的整数矩阵。将整个目标簇中的所有服务描述文档都映射为 整数矩阵,作为高斯LDA的输入,最终就能够得到目标簇中所有服务描述文档的服务—主 题分布和主题—词嵌入分布。
本发明的服务排序是对目标簇中的所有候选服务排序,将服务排序过程建模为查询表示 与服务描述的主题表示之间的概率匹配,计算用户查询与目标簇候选Web服务之间的相关性, 相关性越大,该候选服务与用户查询越匹配,排名越靠前。
参见图1,一种基于聚类和高斯LDA的服务发现方法,包括如下步骤:
S100:获取服务数据集和查询数据集:所述服务数据集中的每条服务数据由服务名称、 服务描述组成;所述查询数据集中的每条查询数据由查询名称、候选服务名称和候选服务与 查询的二进制相关性组成;针对OWLS-TC4服务检索测试集,使用基于java的Dom4J工具 解析各类别服务文档,提取<serviceName>和<textDescription>的内容;使用Dom4J工具解析 OWLS-TC4,提取查询<name>,候选服务<name>和查询与候选服务的二进制相关性<relevant> 的内容。针对ProgammableWeb数据集,直接从中提取服务名称和服务描述文档内容。
S200:对所获得的服务数据集和查询数据集中的所有数据进行数据预处理,包括文本分 词,去除停用词,词干提取;对Web服务描述文档和用户查询进行预处理操作,文本分词就 是将一段英文文本表示为一个个单词,去除停用词就是利用人工建立了停用词表去除一些无 意义的单词,词干提取就是将某一个单词的不同形式还原为词根的形式。经过以上处理,就 可得到词根形式的单词集合。
S300:对经过S200数据预处理后的服务数据集和查询数据集使用Word2Vec和Doc2Vec 分别训练词嵌入向量集E={e1,e2,…,ed}和段落嵌入向量集P={p1,p2,…,pd};Word2Vec和 Doc2Vec属于现有技术,使用Word2Vec和Doc2Vec分别训练词嵌入向量集E={e1,e2,…,ed} 和段落嵌入向量集P={p1,p2,…,pd}是一种现有的方法,此处简述如下。
Word2Vec是由Google开源出的一个基于神经网络的用于训练词嵌入向量的工具包。它 有两种模型:Skip-Gram和CBOW。CBOW模型(连续词袋模型)的思想是:已知词w的上下文Context(w)的词向量,需要预测w这个词的词向量。而Skip-Gram模型则于CBOW模 型相反,它的思想是已知词w的词向量,需要预测w的上下文Context(w)的词向量。
Word2Vec能够自动学习单词之间的关系,使语义相似的词向量更加接近,而语义相反的 词向量更加疏远。例如:“汽车”的词向量与“自行车”的词向量距离更加接近,而“汽车”的词 向量与“共产”的词向量距离更加疏远。Word2Vec解决了用词袋模型训练的数据所具有的稀疏 性和高维性。同时,使语义相似的词语更加接近,而语义相反的词语更加疏远,这就有利于 在服务发现时扩展语义稀疏的用户描述,提高服务发现的性能。此外,由于Word2Vec激活 的隐藏层数目少,有效地降低了计算的复杂度,使训练大规模Web服务数据集成为可能。
Doc2Vec是一个基于神经网络的用于训练段落向量的工具包。Doc2Vec类似于Word2Vec 也有两种模型:PV-DM(Paragraph Vector with Distributed Memory,段落向量分布存储)和 PV-DBOW(Paragraph Vector with Distributed Bag of Words,段落向量词袋分布)。PV-DM的 思想是:在词嵌入的CBOW模型的基础上添加了一个段向量矩阵D,滑动窗口中的每个词向 量分别表示为矩阵W,将矩阵D和一系列W取平均或者串联,就能预测段落滑动窗口外的 下一个单词。PV-DBOW的思想是:在输入中忽略上下文单词,而迫使模型预测从输出段落 中随机抽样的单词。具体来说,就是在每次随机梯度下降迭代中,对文本窗口进行采样,从 中随机抽取一个单词并通过分类任务给出段落向量。
Doc2Vec能够用一个稠密的,固定长度的向量来表示不同长度的文本(句子、文档),并 且能更够捕捉到不同文本在语义上的相似性,得到与某个句子最相似的句子。解决了用词袋 模型表示文档的词序问题以及数据的稀疏性和高维性。训练文本数据时,如果将PV-DBOW 与PV-DM结合则能得到更好的效果。
S400:基于得到的段落嵌入向量集P,通过修改的K-Means聚类算法进行无监督聚类, 聚类个数K与服务数据集的标准分类数目相同。
所述S400具体步骤如下:
由于本文所进行聚类的样本点是用服务描述文档训练得到文本向量,因此本文提出的修 改的K-Means算法将采用使用余弦相似度来计算样本点与聚类中心点之间的距离,这种方法 更能够把语义相似度高的样本点聚类到一起,从而提高服务聚类的效果。同时,结合 K-Means++算法来优化初始聚类中心点的选取。
S410:从服务数据段落嵌入向量集P={p1,p2,…,pd}中选择K个初始聚类中心,并使其 尽可能彼此远离;
S411:从P中随机选择一个样本作为第一个初始聚类中心μ1
S412:计算P中剩余每个样本点x与当前已有聚类中心的最短距离D(x);
S413:计算样本点被选作下一个聚类中心的概率
Figure BDA0002581206750000071
S414:用轮盘法选出下一个聚类中心μi
S415:重复S412-S414,直到选出K个初始聚类中心Mu={μ12,…,μk};
S420:为服务数据段落嵌入向量集P={p1,p2,…,pd}中的每一个样本点划分一个聚类簇;
S421:每个样本点x与K个聚类中心的余弦相似度
Figure BDA0002581206750000072
S422:找到与样本点x余弦相似度最大的聚类中心,将样本点划分到该聚类中心所属簇中;
S423:计算各个簇中样本点的均值
Figure BDA0002581206750000081
如果新的均值向量μ′i不等于原始聚类 中心μi,则将聚类中心替换为新的均值向量μ′i
S424:重复S421-S423,直到μi=μ′i
S500:基于查询语句Q={w1,w2,…,wm}和训练所得的词嵌入向量集E扩展查询得到扩 展的查询语句Qe和扩展的查询向量Vqe
所述S500的具体步骤包括:
S510:遍历Q中的每个单词wi,从词嵌入集中得到该单词的词嵌入向量vw和于其最相似 的前10个词嵌入向量E.top_10_similar(w);
S520:依次计算E.top_10_similar(w)词嵌入向量与单词wi的余弦相似度,如果大于相似 度阈值τ,则将该单词添加到Qe,将其对应的词向量添加到扩展的查询向量Vqe
本发明使用了词嵌入邻近空间中的词来扩展查询,以解决用户查询的简短和语义稀疏的 问题。附加了邻近空间中的词后,查询将能够体现更多的上下文信息,提高服务搜索的准确 性。
S600:基于扩展的查询语句Qe计算其与聚类所得的聚类簇的Doc2Vec矩阵:C={C1,C2,…,Ch}的平均相似度,将相似度最高的簇,作为目标簇。
S600包含如下具体步骤:
S610:将Qe映射为Doc2Vec向量PVqe
S620:计算计算PVqe与聚类簇Ci中的各个服务描述文档的段落嵌入向量的余弦相似度, 并将其取平均值sim_average,得到平均相似度最高的簇:cluster_select=max(sim_average)作 为该查询语句的目标簇。
S700:基于所选目标簇和训练所得的词嵌入向量,构建高斯LDA模型,通过吉布斯采样, 经过有限次迭代收敛后即可得到“文档—主题分布”和“主题”的高斯分布。
S700包含如下具体步骤:
高斯LDA模型假设文档不是由词形序列所组成的,而是由词嵌入序列组成的。模型将词 形w或者vd,i(索引文档d,位置i处的词)记作v(w)∈RM。由于此模型所观察的不再是离散 数据而是M维的连续向量,所以将每个主题k描述维一个以μk为均值,以∑k为协方差的多元 高斯分布。与LDA一样,每个文档都被认为是主题的混合,它的比例通过对称的狄利克雷先 验获得。高斯LDA的图模型如图10所示。
为了降低算法的复杂度,高斯LDA模型使用了协方差矩阵的柯列斯基分解(Cholesky decomposition)方法这种更快的推理技术,高斯LDA模型通过观察词向量组成的文档推断主 题参数的后验分布,比例和分配给每个单词的主题,并推导出一个可分解的吉布斯采样器(公 式2),它可以将主题分配重新分解为单个单词向量。
Figure BDA0002581206750000091
其中,z-(d,i)表示为词嵌入集中的每个词当前指定的主题,不包括位于服务描述文档集d的 位置ith的服务描述;Vd是文档d的向量空间;tv′(x|μ′,∑′)是以v′为自由度,μ′,∑′为参数的t 分布。三元组
Figure BDA0002581206750000099
表示先验分布的参数。需要注意的是公式2的第一部分,即表示 文档d中主题k的概率的部分与LDA相同。这是因为从文档主题分布中为每个单词(词向量) 生成主题分布的模型与LDA是相同的。公式2的第二部分,表示主题k分配给单词向量vd,i的 概率,是由多元t分布给出的,t分布的参数为(μk,Kk,∑k,vk)。后验预测分布的参数为:公 式(3)~(7)。
Kk=k+Nk (3);
Figure BDA0002581206750000092
vk=v+Nk (5);
Figure BDA0002581206750000093
Figure BDA0002581206750000094
其中,
Figure BDA0002581206750000095
和Ck通过公式(8)和(9)得到:
Figure BDA0002581206750000096
Figure BDA0002581206750000097
其中,
Figure BDA0002581206750000098
是采样平均值,Ck是向量的样本协方差与分配的主题k的比例形式。Nk表示所 有文档中单词分配给主题k的计数。μk和∑k表示主题分布的后验均值和协方差,Kk和vk表示 前验均值和协方差的强度。
S710:将目标簇中的每一个服务描述文档根据词嵌入向量的索引,映射为一个由词嵌入 向量索引所组成的整数矩阵,作为高斯LDA的输入;
S720:高斯LDA模型中,每一个服务描述文档中的每一个单词都是一个词嵌入向量e∈RM,每个主题k描述为一个以μk为均值,以∑k为协方差的多元高斯分布;每一个词嵌入向量e与潜在主题z相关,每一个主题z与每一个服务描述文档s相关,用高斯LDA模型对 服务描述文档建模可认为由两层构成:服务—主题层和主题—词嵌入层,从而生成两种分布:服务—主题分布和主题的高斯分布。S800:基于高斯LDA生成的两个分布与扩展的用户查询语句,将服务排序过程建模为查询表示与服务描述的主题表示之间的概率匹配,生成候选服 务匹配列表。
S800包含如下具体步骤:
如果要根据给定的用户查询,对目标簇中的所有候选服务排序,则需要推导出一种排序 算法来衡量用户查询与目标簇候选Web服务之间的相关性,相关性越大,该候选服务与用户 查询越匹配,排名越靠前。本发明将服务排序过程建模为查询表示与服务描述的主题表示之 间的概率匹配。
服务排序过程依赖于对目标簇中的候选服务建模所生成的两个概率分布。具体来说,服 务排序所生成的概率被定义为P(Q|si),其中Q表示查询所包含的单词集,si表示目标簇中的 第i个候选服务,使用高斯LDA建模后得到的分布,P(Q|si)可以由公式1计算得到。
Figure BDA0002581206750000101
其中,Qe由查询扩展得到,P(e|z)和P(z|si)表示概率的后验分布。吉布斯采样得到各文 档的主题概率分布和各主题的高斯分布参数:均值μ和协方差Σ。由多元高斯分布的密度公式 3.2对词嵌入集中的所有词向量进行计算,可得各词嵌入所对应的概率密度值。
Figure BDA0002581206750000102
要得到主题对应的主题词,需要将公式10计算结果排序,但是,因为p(X)的计算所得数 值小,计算复杂性较高。所以,可以计算每个词向量与均值的距离来判断词向量的概率值排 名,从而获得主题词。由矩阵θ可以计算得到P(z|si),计算词嵌入与主题均值的距离可以衡 量P(e|z)。
参数优化:
在模型的训练和构建过程中,需要设置一些超参数来控制和优化模型的训练效果。下面 以OWLS-TC4测试数据集的参数调优为例,讨论的参数有:Doc2Vec的维度:vector_size, 迭代次数epochs。查询扩展的阈值τ。
①Doc2Vec的维度:vector_size,迭代次数epochs。
对于不同的语料库,往往需要设置不同的Doc2Vec维度和迭代次数才可以使训练的效果 达到最佳。根据多次实验确定迭代40次训练效果较好。本文设置维度:vector size∈[200,400], 步长为50,用精度,召回率和F值来衡量聚类效果,从图2可以看出,当维度:vector_size=300 时聚类效果最优。
②查询扩展的阈值τ。
相似度阈值τ控制着查询扩展的效果。若相似度阈值过高,可扩展的单词数目会变少; 若相似度阈值过低,可能会引入一些不相关的单词。因此,为了获得一个更合适的相似度阈 值,根据F1值通过V折交叉验证(V-fold Cross Validation)来调整参数,此方法首先将数据集 平均分为V份,然后每次从V份中提取一份作为验证集,剩余V-1份作为训练集,经过V次 迭代后,平均V次迭代的结果作为参数调优的结果。将实验的阈值变化范围设置为:τ∈[0.80,0.99],步长为0.01。图3展示了不同相似性阈值τ对Web服务发现性能的影响。根据图3所示,随着阈值的变化F值的波动较大,原因应是聚类选择导致了目标簇选择的不同,服务排序导致了候选服务的排序不同。当阈值τ为0.90时,F值达到最大,因此本文将查询扩展的相似性阈值τ设置为0.90。
试验对比:
本发明选择的ProgammableWeb的真实数据集来自网站ProgammableWeb,OWLS-TC4检索测试集来自网站:http://projects.semwebcentral.org/projects/owls-tc/。其中,ProgammableWeb的真实数据集包括一共有384个类,12919个API服务,每个类别的平均 包含33.73个服务。OWLS-TC4检索测试集包括9个类别,1082个服务,还提供了42个与 相关领域有关的查询,每个查询对应的候选服务具有二进制相关性(0表示不相关,1表示相 关)。
为了实验的有效性,本发明仅选取了ProgammableWeb的真实数据集中服务数目大于50 的类别,包括:工具,金融,广告,旅行等52个类,共10045个服务;OWLS-TC4测试数 据集选取了所有的服务文档和相关性为1的候选服务数目大于等于50的查询语句。
1.服务发现性能的评价指标为精度Precision@K、召回率Recall@K、和F1-Measure@K。
精度表示服务排序列表的前N个服务(Top N)中与查询语句相关的服务数目和N的比 值,精度基于(11)公式计算:
Figure BDA0002581206750000121
召回率是服务排序列表的前N个服务(Top N)中与查询语句相关的服务数目和查询相 关性集的长度比值,召回率基于(5.2)公式计算:
Figure BDA0002581206750000122
F值是精度和召回率的调和平均值,F值基于(5.3)公式计算:
值基于公式
Figure BDA0002581206750000123
其中,Q表示用户查询集,P(q)表示查询q的服务排序列表的前N个服务,T(q)表示查 询q的真实的服务相关性,Precision和Recall分别是准确率Precision@K和召回率Recall@K 的缩写。
2.聚类性能的评价指标也为精度,召回率和F值,但是定义与服务发现性能评价指标略 有不同。设Web服务的M个标准分类为:RSC={RC1,RC2,…,RCM},将Web服务聚类结果表示为ESC={EC1,EC2,…,ECV}。精度和召回率指标定义如下:
Figure BDA0002581206750000124
Figure BDA0002581206750000125
Figure BDA0002581206750000126
其中,|ECi|表示簇ECi中的Web服务数目,|RCi|表示RCi中的Web服务数目,而|ECi∩RCi| 表示成功放入簇RCi的Web服务数目。
试验结构的对比和分析:
为了使得本发明的性能达到最优,需要设置参数有:Doc2Vec的维度vector_size和迭代次 数epochs,Word2Vec的维度size和迭代次数iter,高斯LDA的主题数Topic和迭代次数iter, 查询扩展的相似性阈值τ。通过对所有的参数组合进行实验,找到了最优的参数值选择。对于 OWLS-TC4数据集而言,最优的参数值是:vector_size=300,epochs=40,size=50, iter=25,Topic=3,iter=10,τ=0.90。对于ProgammableWeb数据集而言,最优的参数 值是vector_size=400,epochs=20,size=100,iter=10,Topic=3,iter=20,τ=0.75。
1.由于服务聚类是本发明的关键步骤,因此对比了几种不同的聚类方法,它们分别如下:
TFIDF-K:这个方法使用TF-IDF表示Web服务描述文档向量,然后使用K-Means算法对TF-IDF矩阵聚类。
Doc2Vec-K:这个方法使用Doc2Vec表示Web服务描述文档向量,然后使用K-Means算 法对Doc2Vec矩阵聚类。
本发明提出基于Doc2Vec和修改的K-Means的聚类方法的称作Doc2Vec-RK。
①服务聚类由Dov2Vec段落向量训练,修改的K-Means算法聚类和聚类选择构成。本 发明使用Doc2Vec中的DBOW模型来训练段落向量。OWLS-TC4测试数据集的训练参数为:min_count=1,window=10,vector_size=300,epochs=40。最终训练得到的矩阵大小为:1082*300。 ProgammableWeb数据集的训练参数为:min_count=5,window=5,vector_size=400,epochs=20。 最终训练得到的矩阵大小为:10045*400。
图4(a)展示了用t-SNE可视化修改的K-Means算法对数据集的段落向量聚类的效果。 OWLS-TC4数据集被聚类为9类。根据图4(a)的结果,OWLS-TC4测试数据集被分为9 类。同一类中元素聚类相对紧密,类间距相对较远,符合聚类期望。
图4(b)为t-SNE可视化服务聚类模型对数据集的段落向量聚类的效果,数据集被聚类 为52类。由图4(b)可以看出虽然大部分相同颜色的点彼此聚集,但是簇与簇之间没有明 显边界,相互叠加在一起。
表1展示了OWLS-TC4中查询语句:“City Countary Hotel Service”与9个簇的平均相似 度。
表1
平均相似度
簇0 0.7668
簇1 0.6707
簇2 0.4726
簇3 0.7573
簇4 0.4928
簇5 0.4412
簇6 0.5156
簇7 0.3574
簇8 0.4208
②参见图5(a)可知Doc2Vec-RK的精度最高,F值最高;TFIDF-K的聚类方法召回 率最高,但是精度最低,F值最低。这也能证明相比于经典的K-Means算法本发明提出的修 改的K-Means算法更能够发现服务描述文档之间的语义相关性提高聚类精度,同时保持较高的召回率达到较好的F值。图5(b)可以看出,本发明的服务聚类模型略好于Doc2Vec+K-Means 聚类方法,证明了修改的K-Means方法的有效性,而略差于TF-IDF+K-Means聚类模型,但 是从训练的时间上来看,由于数据的大量增加TF-IDF的训练时间很长,这是由于TFIDF模 型的数据稀疏性和维度灾难所导致的。
综合图5(a)和5图(b),本发明提出的服务聚类方法的精度最高,F值最高;可以看出虽然TFIDF-K的召回率略高于Doc2Vec-K,但是其精度和F值则明显低于Doc2Vec-K,这 是因为用TFIDF表示服务描述文档,无法表示文本词序,导致相同单词构成的不同文本有相同的TFIDF表示;TFIDF无法体现出上下文单词之间的关系,更无法捕捉到不同文本在语义上的相似性。而这些缺点都可以由Doc2Vec段落嵌入所弥补。Doc2Vec-K虽然召回率高于本发明,但精度和F值低于本发明,由此可以看出本发明将衡量样本点之间的距离的方法修改为余弦相似度确实更能够发现服务描述文档之间的语义相关性提高聚类精度,同时保持较高 的召回率得到较好的F值,证明了修改的K-Means算法聚类的有效性。
2.为了进一步验证本发明的有效性,将其与传统的服务发现算法进行了对比,它们分别 如下:
TFIDF-K:每一个服务描述文档被使用TF-IDF表示,接着使用K-Means聚类,使用LDA 做聚类选择,最后通过计算用户查询与服务文档的余弦相似度来进行服务排序。
LDA:使用LDA来直接对服务描述文档建模,然后通过计算各查询语句与LDA构建的服务描述文档矩阵的相似度来进行服务排序。将LDA的主题数K设置为15。
Doc2Vec-K:首先使用Doc2Vec表示服务描述文档,然后使用K-Means算法聚类,最后 计算用户查询与每一个服务描述文档的相似度。
本发明提出的基于聚类和高斯LDA的服务发现方法称作DK-GLDA-QE。
图6,图7,图8分别展示了所得到的精度,召回率和F值。由图可以看出,随着服务排序列表的服务数目N的增长,召回率和F值都在逐渐上涨,而精度在逐渐下跌。这是因为随着服务列表中服务的增多与测试集匹配的服务也在增多,从而召回率上涨。本发明使用的模 型在精度,召回率和F值上都优于其他3个方法。
这表明基于聚类和高斯LDA的服务发现方法是有效的。对比四种方法可以发现,TFIDF-K 的方法效果最差,主要原因是使用LDA进行聚类选择时,需要计算用户查询语句的LDA表 示和各聚类簇的LDA表示的平均相似度,由于用户查询语句的语义稀疏性,LDA很难捕捉 到用户查询语句的语义,也就很难准确地得到与用户查询语句最匹配的目标簇,这将会导致 之后的服务排序效果变差。LDA是一种普遍使用的主题模型,被很多研究者参考和使用,从 实验结果来看,它的服务发现性能略差于Doc2Vec-K,可能是由于Doc2Vec对服务描述文档 建模可以利用服务描述文档的上下文信息,获得更多的语义信息。且由于Doc2Vec-K对服务 进行聚类,可以将更多具有相似语义的服务描述文档聚集到一起,这样也提高的服务匹配的 效率。
服务排序结果:
表2展示了OWLS-TC4数据集中查询“Car Bicycle price”的Top10服务排序结果。从语 义上可以看出与查询语句的匹配度很高。
表3展示了ProgammableWeb数据集查询语句:“book travel tours andactivities for upcoming trips”(为即将到来的旅行寻找旅行线路和活动)的前10个最终查询到的服务。
表2
Top N 服务索引 服务名称
1 79 Car Price service
2 60 Car1PersonBicyclePrice service
3 70 4wheeledcar year price report service
4 72 4WheeledCar price service
5 80 Car Price service
6 169 T-car price service
7 59 Car1PersonBicyclePrice service
8 68 4WheeledCar2PersonBicyclePrice service
9 126 Auto RecommendedPrice Color service
10 232 FastCar Recommended price service
表3
Figure BDA0002581206750000151
Figure BDA0002581206750000161
由表2可知,查询与簇0的平均相似度最高,达到了0.7668,与其余大部分簇的相似度 较小,尤其与簇7最不相似只有0.3574的平均相似度。因此将选择簇0作为之后服务建模, 服务查询的目标簇。
由表3可以看出,列表排名前10的服务有7个原属于“旅行”类别,都是关于旅行计划定 制的服务,与用户查询的相关性很高。而另外三个服务虽然原属于其他类别,但也可从旅行 线路,娱乐和天气等方面提供旅行计划定制的帮助。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施 例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进 行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利 要求范围当中。

Claims (6)

1.一种基于聚类和高斯LDA的服务发现方法,其特征在于,包括如下步骤:
S100:获取服务数据集和查询数据集:所述服务数据集中的每条服务数据由服务名称、服务描述组成;所述查询数据集中的每条查询数据由查询名称、候选服务名称和候选服务与查询的二进制相关性组成;
S200:对所获得的服务数据集和查询数据集中的所有数据进行数据预处理,包括文本分词,去除停用词,词干提取;
S300:对经过S200数据预处理后的服务数据集和查询数据集使用Word2Vec和Doc2Vec分别训练词嵌入向量集E={e1,e2,…,ed}和段落嵌入向量集P={p1,p2,…,pd};
S400:基于得到的段落嵌入向量集P,通过修改的K-Means聚类算法进行无监督聚类,聚类个数K与服务数据集的标准分类数目相同;
S500:基于查询语句Q={w1,w2,…,wm}和训练所得的词嵌入向量集E扩展查询得到扩展的查询语句Qe和扩展的查询向量Vqe
S600:基于扩展的查询语句Qe计算其与聚类所得的聚类簇的Doc2Vec矩阵:C={C1,C2,…,Ch}的平均相似度,将相似度最高的簇,作为目标簇;
S700:基于所选目标簇和训练所得的词嵌入向量,构建高斯LDA模型,通过吉布斯采样,经过有限次迭代收敛后即可得到“文档—主题分布”和“主题的高斯分布”;
S800:基于高斯LDA生成的两个分布与扩展的用户查询语句,将服务排序过程建模为查询表示与服务描述的主题表示之间的概率匹配,生成候选服务匹配列表。
2.如权利要求1所述的基于聚类和高斯LDA的服务发现方法,其特征在于,所述S400具体步骤如下:
S410:从服务数据段落嵌入向量集P={p1,p2,…,pd}中选择K个初始聚类中心,并使其尽可能彼此远离;
S411:从P中随机选择一个样本作为第一个初始聚类中心μ1
S412:计算P中剩余每个样本点x与当前已有聚类中心的最短距离D(x);
S413:计算样本点被选作下一个聚类中心的概率
Figure FDA0002581206740000011
S414:用轮盘法选出下一个聚类中心μi
S415:重复S412-S414,直到选出K个初始聚类中心Mu={μ12,…,μk};
S420:为服务数据段落嵌入向量集P={p1,p2,…,pd}中的每一个样本点划分一个聚类簇;
S421:每个样本点x与K个聚类中心的余弦相似度
Figure FDA0002581206740000012
S422:找到与样本点x余弦相似度最大的聚类中心,将样本点划分到该聚类中心所属簇中;
S423:计算各个簇中样本点的均值
Figure FDA0002581206740000021
如果新的均值向量μ′i不等于原始聚类中心μi,则将聚类中心替换为新的均值向量μ′i
S424:重复S421-S423,直到μi=μ′i
3.如权利要求1所述的基于聚类和高斯LDA的服务发现方法,其特征在于,所述S500的具体步骤包括:
S510:遍历Q中的每个单词wi,从词嵌入集中得到该单词的词嵌入向量vw和与其最相似的前10个词嵌入向量E.top_10_similar(w);
S520:依次计算E.top_10_similar(w)词嵌入向量与单词wi的余弦相似度,如果大于相似度阈值τ,则将该单词添加到Qe,将其对应的词向量添加到扩展的查询向量Vqe
4.如权利要求1所述的基于聚类和高斯LDA的服务发现方法,其特征在于,S600包含如下具体步骤:
S610:将Qe映射为Doc2Vec向量PVqe
S620:计算计算PVqe与聚类簇Ci中的各个服务描述文档的段落嵌入向量的余弦相似度,并将其取平均值sim_average,得到平均相似度最高的簇:cluster_select=max(sim_average)作为该查询语句的目标簇。
5.如权利要求1所述的基于聚类和高斯LDA的服务发现方法,其特征在于,S700包含如下具体步骤:
S710:将目标簇中的每一个服务描述文档根据词嵌入向量的索引,映射为一个由词嵌入向量索引所组成的整数矩阵,作为高斯LDA的输入;
S720:高斯LDA模型中,每一个服务描述文档中的每一个单词都是一个词嵌入向量e∈RM,每个主题k描述为一个以μk为均值,以∑k为协方差的多元高斯分布;每一个词嵌入向量e与潜在主题z相关,每一个主题z与每一个服务描述文档s相关,用高斯LDA模型对服务描述文档建模可认为由两层构成:服务—主题层和主题—词嵌入层,从而生成两种分布:服务—主题分布和主题的高斯分布分布。
6.如权利要求1所述的基于聚类和高斯LDA的服务发现方法,其特征在于,S800包含如下具体步骤:
根据公式(1)计算用户查询与目标簇候选Web服务之间的相关性,相关性越大,该候选服务与用户查询越匹配,排名越靠前,由此生成目标簇候选服务匹配列表;
Figure FDA0002581206740000031
其中,Qe表示扩展的查询语句,P(e|z)和P(z|si)分别表示概率的后验分布。
CN202010668037.7A 2020-07-13 2020-07-13 一种基于聚类和高斯lda的服务发现方法 Active CN111832289B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010668037.7A CN111832289B (zh) 2020-07-13 2020-07-13 一种基于聚类和高斯lda的服务发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010668037.7A CN111832289B (zh) 2020-07-13 2020-07-13 一种基于聚类和高斯lda的服务发现方法

Publications (2)

Publication Number Publication Date
CN111832289A true CN111832289A (zh) 2020-10-27
CN111832289B CN111832289B (zh) 2023-08-11

Family

ID=72901008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010668037.7A Active CN111832289B (zh) 2020-07-13 2020-07-13 一种基于聚类和高斯lda的服务发现方法

Country Status (1)

Country Link
CN (1) CN111832289B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395400A (zh) * 2020-11-17 2021-02-23 贝壳技术有限公司 对话状态获取方法、系统、可读存储介质及电子设备
CN112749281A (zh) * 2021-01-19 2021-05-04 青岛科技大学 一种融合服务协作关系的Restful类型Web服务聚类方法
CN112836490A (zh) * 2021-01-25 2021-05-25 浙江工业大学 云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法
CN113139599A (zh) * 2021-04-22 2021-07-20 北方工业大学 一种融合词向量扩充和主题模型的服务分布式聚类方法
CN113190269A (zh) * 2021-04-16 2021-07-30 南京航空航天大学 一种基于编程上下文信息的代码重构方法
CN113360497A (zh) * 2021-05-26 2021-09-07 华中科技大学 一种面向多负载的云数据库二级索引自动推荐方法和系统
CN113837283A (zh) * 2021-09-26 2021-12-24 华北电力大学 一种基于均值聚类与线性判别的热带气旋等级划分方法
CN113935321A (zh) * 2021-10-19 2022-01-14 昆明理工大学 一种适用于LDA主题模型的自适应迭代Gibbs采样方法
CN114139063A (zh) * 2022-01-30 2022-03-04 北京淇瑀信息科技有限公司 基于嵌入向量的用户标签提取方法、装置及电子设备
CN114510923A (zh) * 2022-01-12 2022-05-17 平安科技(深圳)有限公司 基于人工智能的文本主题生成方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8630975B1 (en) * 2010-12-06 2014-01-14 The Research Foundation For The State University Of New York Knowledge discovery from citation networks
CN106021388A (zh) * 2016-05-11 2016-10-12 华南理工大学 基于lda主题聚类的微信公众号的分类方法
CN106599086A (zh) * 2016-11-25 2017-04-26 山东科技大学 一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法
US20180293505A1 (en) * 2017-04-06 2018-10-11 Universite Paris Descartes Method for clustering nodes of a textual network taking into account textual content, computer-readable storage device and system implementing said method
CN110263153A (zh) * 2019-05-15 2019-09-20 北京邮电大学 面向多源信息的混合文本话题发现方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8630975B1 (en) * 2010-12-06 2014-01-14 The Research Foundation For The State University Of New York Knowledge discovery from citation networks
CN106021388A (zh) * 2016-05-11 2016-10-12 华南理工大学 基于lda主题聚类的微信公众号的分类方法
CN106599086A (zh) * 2016-11-25 2017-04-26 山东科技大学 一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法
US20180293505A1 (en) * 2017-04-06 2018-10-11 Universite Paris Descartes Method for clustering nodes of a textual network taking into account textual content, computer-readable storage device and system implementing said method
CN110263153A (zh) * 2019-05-15 2019-09-20 北京邮电大学 面向多源信息的混合文本话题发现方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曹赖平: "基于LDA聚类的语义Web服务发现", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 10, pages 138 - 530 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395400B (zh) * 2020-11-17 2022-12-13 贝壳技术有限公司 对话状态获取方法、系统、可读存储介质及电子设备
CN112395400A (zh) * 2020-11-17 2021-02-23 贝壳技术有限公司 对话状态获取方法、系统、可读存储介质及电子设备
CN112749281A (zh) * 2021-01-19 2021-05-04 青岛科技大学 一种融合服务协作关系的Restful类型Web服务聚类方法
CN112836490A (zh) * 2021-01-25 2021-05-25 浙江工业大学 云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法
CN112836490B (zh) * 2021-01-25 2024-05-10 浙江工业大学 云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法
CN113190269A (zh) * 2021-04-16 2021-07-30 南京航空航天大学 一种基于编程上下文信息的代码重构方法
CN113139599B (zh) * 2021-04-22 2023-08-08 北方工业大学 一种融合词向量扩充和主题模型的服务分布式聚类方法
CN113139599A (zh) * 2021-04-22 2021-07-20 北方工业大学 一种融合词向量扩充和主题模型的服务分布式聚类方法
CN113360497B (zh) * 2021-05-26 2022-04-05 华中科技大学 一种面向多负载的云数据库二级索引自动推荐方法和系统
CN113360497A (zh) * 2021-05-26 2021-09-07 华中科技大学 一种面向多负载的云数据库二级索引自动推荐方法和系统
CN113837283A (zh) * 2021-09-26 2021-12-24 华北电力大学 一种基于均值聚类与线性判别的热带气旋等级划分方法
CN113837283B (zh) * 2021-09-26 2024-01-30 华北电力大学 一种基于均值聚类与线性判别的热带气旋等级划分方法
CN113935321A (zh) * 2021-10-19 2022-01-14 昆明理工大学 一种适用于LDA主题模型的自适应迭代Gibbs采样方法
CN113935321B (zh) * 2021-10-19 2024-03-26 昆明理工大学 一种适用于LDA主题模型的自适应迭代Gibbs采样方法
CN114510923A (zh) * 2022-01-12 2022-05-17 平安科技(深圳)有限公司 基于人工智能的文本主题生成方法、装置、设备及介质
CN114510923B (zh) * 2022-01-12 2023-08-15 平安科技(深圳)有限公司 基于人工智能的文本主题生成方法、装置、设备及介质
CN114139063A (zh) * 2022-01-30 2022-03-04 北京淇瑀信息科技有限公司 基于嵌入向量的用户标签提取方法、装置及电子设备

Also Published As

Publication number Publication date
CN111832289B (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
CN111832289B (zh) 一种基于聚类和高斯lda的服务发现方法
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
Alami et al. Unsupervised neural networks for automatic Arabic text summarization using document clustering and topic modeling
CN110321925B (zh) 一种基于语义聚合指纹的文本多粒度相似度比对方法
RU2583716C2 (ru) Метод построения и обнаружения тематической структуры корпуса
CN112256939B (zh) 一种针对化工领域的文本实体关系抽取方法
CN112214335B (zh) 基于知识图谱和相似度网络的Web服务发现方法
WO2021258491A1 (en) Methods and systems for generating a reference data structure for anonymization of text data
Hidayat et al. Automatic text summarization using latent Drichlet allocation (LDA) for document clustering
CN116501875B (zh) 一种基于自然语言和知识图谱的文档处理方法和系统
US20230074771A1 (en) Hierarchical clustering on graphs for taxonomy extraction and applications thereof
KR20160149050A (ko) 텍스트 마이닝을 활용한 순수 기업 선정 장치 및 방법
CN103778206A (zh) 一种网络服务资源的提供方法
CN114265935A (zh) 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统
CN112836029A (zh) 一种基于图的文档检索方法、系统及其相关组件
CN114997288A (zh) 一种设计资源关联方法
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
Garbhapu et al. A comparative analysis of Latent Semantic analysis and Latent Dirichlet allocation topic modeling methods using Bible data
Trupthi et al. Possibilistic fuzzy C-means topic modelling for twitter sentiment analysis
Bender et al. Unsupervised estimation of subjective content descriptions
CN112307364B (zh) 一种面向人物表征的新闻文本发生地抽取方法
JP7110554B2 (ja) オントロジー生成装置、オントロジー生成プログラム及びオントロジー生成方法
CN117057346A (zh) 一种基于加权TextRank和K-means的领域关键词抽取方法
CN116401368A (zh) 一种基于主题事件分析的意图识别方法和系统
CN112613318B (zh) 实体名称归一化系统及其方法、计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant