CN112836490A - 云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法 - Google Patents

云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法 Download PDF

Info

Publication number
CN112836490A
CN112836490A CN202110097169.3A CN202110097169A CN112836490A CN 112836490 A CN112836490 A CN 112836490A CN 202110097169 A CN202110097169 A CN 202110097169A CN 112836490 A CN112836490 A CN 112836490A
Authority
CN
China
Prior art keywords
word
matrix
words
information
occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110097169.3A
Other languages
English (en)
Other versions
CN112836490B (zh
Inventor
陆佳炜
赵伟
郑嘉弘
徐俊
张元鸣
肖刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110097169.3A priority Critical patent/CN112836490B/zh
Publication of CN112836490A publication Critical patent/CN112836490A/zh
Application granted granted Critical
Publication of CN112836490B publication Critical patent/CN112836490B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2133Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on naturality criteria, e.g. with non-negative factorisation or negative correlation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

一种云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法,包括以下步骤:第一步:统计每个Mashup服务中单词词频信息,即单词出现的次数,构建文档‑词频关系矩阵D;第二步:统计单词共现信息,从而计算出SPPMI矩阵信息;第三步:基于第一步,第二步得到Mashup服务文档单词的词频信息矩阵D,单词的上下文SPPMI矩阵M,通过分解M得到词嵌入信息矩阵,进一步将上述两种信息进行结合,计算服务的主题信息。本发明在模型上能和非负矩阵分解有机的统一,并且通过引入词嵌入信息能缓解Mashup服务特征信息稀疏的问题,从而有效地对Mashup服务进行建模。

Description

云计算模式中融合词嵌入和非负矩阵分解技术的服务建模 方法
技术领域
本发明涉及到一种云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法
背景技术
随着云计算的发展和服务计算“服务化”的思想驱动,越来越多的公司将数据、资源或者相关业务通过Web服务的形式发布到互联网上,以提高信息的利用率和自身竞争力。然而传统基于SOAP协议的Web服务,存在技术体系复杂、扩展性差等问题,难以适应现实生活中复杂多变的应用场景。为克服传统服务带来的问题,近年来,互联网上涌现出一种轻量级的信息服务组合模式——Mashup技术,可以混搭多种不同Web API,开发出多种全新的Web服务,以缓解传统服务难以适应复杂多变应用环境的问题。
随着Mashup服务快速增长,如何在众多Mashup服务中找到高质量的服务,已经成为一个大家关注的热点问题。目前现有的方法,主要采用潜在狄利克雷分配(LatentDirichlet Allocation,LDA)得到Mashup服务主题特征后,进一步进行随后的工作,然而Mashup服务文档通常为短文本,LDA和其他传统的挖掘算法对短文本处理能力欠缺,因此无法有效地对Mashup服务进行建模。
发明内容
为了克服现有Mashup服务描述文本简短,特征稀疏带来的建模困难的问题,本发明提出一种融合词嵌入和非负矩阵分解技术的服务建模方法,基于分解SPPMI矩阵求解词嵌入信息,相对于神经网络模型,该方法在模型上能和非负矩阵分解(Non-negativeMatrix Factorization,NMF)有机的统一,并且通过引入词嵌入信息能缓解Mashup服务特征信息稀疏的问题,从而有效地对Mashup服务进行建模。
本发明解决其技术问题所采用的技术方案是:
一种云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法,包括以下步骤:
第一步:统计每个Mashup服务中单词词频信息,即单词出现的次数,构建文档-词频关系矩阵D;
第二步:统计单词共现信息,从而计算出SPPMI矩阵信息,步骤如下:
2.1统计词共现信息,将整个服务描述文档作为滑动窗口的长度,计算每个单词和其他单词在上下文中共同出现的次数;
2.2点互信息(Pointwise Mutual Information,PMI)计算,当两个单词在文本中共现概率越大时,单词间的相关性就越强,PMI计算公式如下所示:
Figure BDA0002914406590000021
x和y表示两个单词,P(x,y)表示单词x和y共现的概率,P(x)表示单词x在上下文中出现概率。根据单词wj和其上下文单词wc在语料库中的实际共现次数,可以计算出两者之间的PMI值:
Figure BDA0002914406590000022
#(wj,wc)表示单词wj和上下文单词wc在语料库中的实际共现次数,E为上下文单词对共现的总次数,#(wj)为单词wj和其他单词共现的次数。
Figure BDA0002914406590000023
Figure BDA0002914406590000024
Voc表示语料库,即不重复单词的集合;
2.3计算偏移正点互信息值(Shifted Positive Pointwise MutualInformation,SPPMI)矩阵,SPPMI矩阵通过PMI值计算,SPPMI矩阵的计算方式为:
SPPMI(wj,wc)=max(PMI(wj,wc)-logκ,0)
其中κ为负采样系数,通过上述公式得到单词的上下文SPPMI矩阵M;
第三步:基于第一步,第二步得到Mashup服务文档单词的词频信息矩阵D,单词的上下文SPPMI矩阵M,通过分解M得到词嵌入信息矩阵,进一步将上述两种信息进行结合,计算服务的主题信息,步骤如下:
3.1通过由第一步给定全局文档-单词关系矩阵D,通过NMF将其分解为文档-主题矩阵θ和主题-单词矩阵Z乘积。分解矩阵D的目标函数表示为;
Figure BDA0002914406590000031
subject to:θ≥0and Z≥0,θ∈RNxK,Z∈RVxK
其中
Figure BDA0002914406590000032
代表L2范数,N表示Mashup文档数量,K表示文档的主题数量,V表示语料库单词的数量,R表示实数集,上标T表示矩阵转置。NMF是在矩阵中所有元素均为非负数约束条件之下,将一个非负矩阵表示为另外两个非负矩阵乘积方式的矩阵分解方法;
3.2通过第一步,第二步计算得到单词的上下文SPPMI矩阵M,分解矩阵M引入词嵌入信息,分解M的目标函数如下所示:
Figure BDA0002914406590000033
S是一个额外的对称因子,用于M的近似求解,W为单词的词嵌入矩阵;
3.3利用Mashup服务文档和单词间的关系,可以发现主题信息,通过文档内单词上下文的共现信息,可以学习到词嵌入信息;但是这两个部分并不相互孤立,语义相关的单词通常属于相似的主题,在嵌入空间中也很接近;单词嵌入与它们的主题相关,关系的目标函数如下所示:
Figure BDA0002914406590000034
3.4结合步骤3.1,3.2和3.3,得到主题模型的目标函数:
Figure BDA0002914406590000035
subject to:θ≥0and Z≥0
求解该目标函数,使用矩阵迹运算将上述公式展开:
J(θ,Z,W,S,A)=λdTr((D-θZT)(D-θZT)T)+λwTr((M-WSWT)(M-WSWT)T)+λtTr((Z-WAT)(Z-WAT)T)
其中J(θ,Z,W,S,A)为J4在θ,Z,W,S,A参数下的展开形式,进一步运算得到以下公式:
J(θ,Z,W,S,A)=λdTr(DDT-2DZθT+θZTT)+λwTr(MMT-2MWSWT+WSWTWSWT)+λtTr(ZZT-2ZAWT+WATAWT)
Tr表示矩阵求迹,λd,λw和λt为不同部分的权重系数,用于调整各部分计算的误差对结果的影响,根据正则化约束得到以下目标函数:
Figure BDA0002914406590000041
其中α,β,γ,
Figure BDA0002914406590000042
ω为正则化参数,避免过拟合;为使目标函数最小化,对上述目标函数求偏导得到以下公式:
Figure BDA0002914406590000043
Figure BDA0002914406590000044
Figure BDA0002914406590000045
Figure BDA0002914406590000046
Figure BDA0002914406590000047
令α⊙θ=0,β⊙Z=0,γ⊙W=0,
Figure BDA0002914406590000048
ω⊙A=0,⊙表示阿达马乘积,即矩阵对应位置的乘积,利用阿达马乘积,令上述公式偏导为0,进一步得到以下等式方程:
-(DZ)⊙θ+(θZTZ)⊙θ+α⊙θ=0
-(λdDTθ+λtWAT)⊙Z+(λdTZ+λtZ)⊙Z+β⊙Z=0
-2(λwMWS+λtZA)⊙W+(λtWATAW+2λwWSWTWS)⊙W+γ⊙W=0
Figure BDA0002914406590000049
-(ZTW)⊙A+(AWTW)⊙A+ω⊙A=0
进一步更新参数:
Figure BDA00029144065900000410
Figure BDA00029144065900000411
Figure BDA00029144065900000412
Figure BDA00029144065900000413
Figure BDA00029144065900000414
通过上述参数更新方式,求解出Mashup服务文档-主题矩阵θ和主题-单词矩阵Z,词嵌入矩阵W,主题嵌入矩阵A。
进一步,所述2.1的过程如下:
2.1.1对于当前Mashup服务,计算该Mashup服务描述文档长度Len,设定滑动窗口长度为Len;
2.1.2统计Mashup服务描述文档中单词和其他单词的共现情况,若当前单词的上下文单词,即该单词前后的单词,在滑动窗口Len的距离内,则该单词和其在滑动窗口内的上下文单词共现次数加1;
2.1.3重复2.1.2直至处理完Mashup中的所有单词;
2.1.4重复2.1.1-2.1.3直至处理完所有Mashup服务。
本发明的技术构思为:Mashup服务描述文档简短,特征信息少,传统的方法无法有效对其建模,进而影响聚类,推荐等功能的精度,使得用户无法得到其期待的结果。为缓解由于Mashup服务中的稀疏性问题,无法良好对其建模的问题。本发明基于NMF,并且通过计算SPPMI矩阵,进而分解得到词嵌入信息,提出了一种融合前嵌入信息的NMF主题模型,求解主题Mashup服务的主题特征。
本发明的有益效果主要表现在要:(1)使用NMF求解Mashup主题特征,能更好地处理简短的文本。(2)在使用NMF求解模型的同时,引入词嵌入信息,不仅有效能有效提高模型的精度,同时缓解Mashup服务描述简短带来的稀疏性问题。(3)使用分解SPPMI矩阵的方式求解词嵌入,能和NMF在模型上有机的统一。
具体实施方式
下面对本发明作进一步描述。
一种云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法,包括以下步骤:
第一步:统计每个Mashup服务中单词词频信息,即单词出现的次数,构建文档-词频关系矩阵D;
第二步:统计单词共现信息,从而计算出SPPMI矩阵信息,步骤如下:
2.1统计词共现信息,由于Mashup服务描述文档较短,为了能更准确地获取上下文共现信息,本发明将整个服务描述文档作为滑动窗口的长度,计算每个单词和和其他单词在上下文中共同出现的次数,过程如下:
2.1.1对于当前Mashup服务,计算该Mashup服务描述文档长度Len,设定滑动窗口长度为Len;
2.1.2统计Mashup服务描述文档中单词和其他单词的共现情况,若当前单词的上下文单词,即该单词前后的单词,在滑动窗口Len的距离内,则该单词和其在滑动窗口内的上下文单词共现次数加1;
2.1.3重复2.1.2直至处理完Mashup中的所有单词;
2.1.4重复2.1.1-2.1.3直至处理完所有Mashup服务。
2.2点互信息(Pointwise Mutual Information,PMI)计算,PMI被广泛用于计算单词间相似度的关系,当两个单词在文本中共现概率越大时,单词间的相关性就越强,PMI计算公式如下所示。
Figure BDA0002914406590000061
x和y表示两个单词,P(x,y)表示单词x和y共现的概率,P(x)表示单词x在上下文中出现概率,根据单词wj和其上下文单词wc在语料库中的实际共现次数,可以计算出两者之间的PMI值:
Figure BDA0002914406590000062
#(wj,wc)表示单词wj和上下文单词wc在语料库中的实际共现次数,E为上下文单词对共现的总次数,#(wj)为单词wj和其他单词共现的次数,
Figure BDA0002914406590000063
Figure BDA0002914406590000064
Voc表示语料库,即不重复单词的集合;
2.3计算偏移正点互信息值(Shifted Positive Pointwise MutualInformation,SPPMI)矩阵,SPPMI矩阵可以通过PMI值计算,SPPMI矩阵的计算方式为:
SPPMI(wj,wc)=max(PMI(wj,wc)-logκ,0)
其中κ为负采样系数。通过上述公式得到单词的上下文SPPMI矩阵M;
第三步:基于第一步,第二步得到Mashup服务文档单词的词频信息矩阵D,单词的上下文SPPMI矩阵M,通过分解M得到词嵌入信息矩阵,进一步将上述两种信息进行结合,计算服务的主题信息,步骤如下:
3.1通过由第一步给定全局文档-单词关系矩阵D,通过NMF将其分解为文档-主题矩阵θ和主题-单词矩阵Z乘积。分解矩阵D的函数表示为:
Figure BDA0002914406590000071
subject to:θ≥0and Z≥0,θ∈RNxK,Z∈RVxK
其中
Figure BDA0002914406590000072
代表L2范数,N表示Mashup文档数量,K表示文档的主题数量,V表示语料库单词的数量,R表示实数集,上标T表示矩阵转置。NMF是在矩阵中所有元素均为非负数约束条件之下,将一个非负矩阵表示为另外两个非负矩阵乘积方式的矩阵分解方法;
3.2通过第一步,第二步计算得到单词的上下文SPPMI矩阵M,分解矩阵M引入词嵌入信息,分解M的公式如下所示:
Figure BDA0002914406590000073
S是一个额外的对称因子,用于M的近似求解,W为单词的词嵌入矩阵;
3.3利用Mashup服务文档和单词间的关系,可以发现主题信息,通过文档内单词上下文的共现信息,可以学习到词嵌入信息,但是这两个部分并不相互孤立,语义相关的单词通常属于相似的主题,在嵌入空间中也很接近,可知单词嵌入与它们的主题相关,关系公式如下所示:
Figure BDA0002914406590000074
3.4在步骤3.3中将主题-单词矩阵Z分解为主题嵌入矩阵A和词嵌入矩阵W的乘积,将词嵌入与主题信息相联系起来,进一步提高了主题建模的准确性;
结合步骤3.1,3.2和3.3,得到主题模型的目标函数:
Figure BDA0002914406590000075
subject to:θ≥0and Z≥0
为了方便求解该目标函数,使用矩阵迹运算将上述公式展开:
J(θ,Z,W,S,A)=λdTr((D-θZT)(D-θZT)T)+λwTr((M-WSWT)(M-WSWT)T)+λtTr((Z-WAT)(Z-WAT)T)
其中J(θ,Z,W,S,A)为J4在θ,Z,W,S,A参数下的展开形式,进一步运算得到以下公式:
J(θ,Z,W,S,A)=λdTr(DDT-2DZθT+θZTT)+λwTr(MMT-2MWSWT+WSWTWSWT)+λtTr(ZZT-2ZAWT+WATAWT)
Tr表示矩阵求迹,λd,λw和λt为不同部分的权重系数,用于调整各部分计算的误差对结果的影响,根据正则化约束得到以下目标函数:
Figure BDA0002914406590000081
其中α,β,γ,
Figure BDA0002914406590000082
ω为正则化参数,避免过拟合;为使目标函数最小化,对上述目标函数求偏导得到以下公式:
Figure BDA0002914406590000083
Figure BDA0002914406590000084
Figure BDA0002914406590000085
Figure BDA0002914406590000086
Figure BDA0002914406590000087
令α⊙θ=0,β⊙Z=0,γ⊙W=0,
Figure BDA0002914406590000088
ω⊙A=0,⊙表示阿达马乘积,即矩阵对应位置的乘积,利用阿达马乘积,令上述公式偏导为0,进一步得到以下等式方程:
-(DZ)⊙θ+(θZTZ)⊙θ+α⊙θ=0
-(λdDTθ+λtWAT)⊙Z+(λdTZ+λtZ)⊙Z+β⊙Z=0
-2(λwMWS+λtZA)⊙W+(λtWATAW+2λwWSWTWS)⊙W+γ⊙W=0
Figure BDA0002914406590000089
-(ZTW)⊙A+(AWTW)⊙A+ω⊙A=0
进一步更新参数:
Figure BDA00029144065900000810
Figure BDA00029144065900000811
Figure BDA00029144065900000812
Figure BDA0002914406590000091
Figure BDA0002914406590000092
通过上述参数更新方式,求解出Mashup服务文档-主题矩阵θ和主题-单词矩阵Z,词嵌入矩阵W,主题嵌入矩阵A。
本说明书的实施例所述的内容仅仅是对发明构思的实现形式的列举,仅作说明用途。本发明的保护范围不应当被视为仅限于本实施例所陈述的具体形式,本发明的保护范围也及于本领域的普通技术人员根据本发明构思所能想到的等同技术手段。

Claims (2)

1.一种云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法,其特征在于,所述方法包括以下步骤:
第一步:统计每个Mashup服务中单词词频信息,即单词出现的次数,构建文档-词频关系矩阵D;
第二步:统计单词共现信息,从而计算出SPPMI矩阵信息,步骤如下:
2.1统计词共现信息,将整个服务描述文档作为滑动窗口的长度,计算每个单词和其他单词在上下文中共同出现的次数;
2.2点互信息PMI计算,当两个单词在文本中共现概率越大时,单词间的相关性就越强,PMI计算公式如下所示:
Figure FDA0002914406580000011
x和y表示两个单词,P(x,y)表示单词x和y共现的概率,P(x)表示单词x在上下文中出现概率,根据单词wj和其上下文单词wc在语料库中的实际共现次数,可以计算出两者之间的PMI值:
Figure FDA0002914406580000012
#(wj,wc)表示单词wj和上下文单词wc在语料库中的实际共现次数,E为上下文单词对共现的总次数,#(wj)为单词wj和其他单词共现的次数,
Figure FDA0002914406580000013
Figure FDA0002914406580000014
Voc表示语料库,即不重复单词的集合;
2.3计算偏移正点互信息值矩阵SPPMI,SPPMI矩阵通过PMI值计算,SPPMI矩阵的计算方式为:
SPPMI(wj,wc)=max(PMI(wj,wc)-logκ,0)
其中κ为负采样系数,通过上述公式得到单词的上下文SPPMI矩阵M;
第三步:基于第一步,第二步得到Mashup服务文档单词的词频信息矩阵D,单词的上下文SPPMI矩阵M,通过分解M得到词嵌入信息矩阵,进一步将上述两种信息进行结合,计算服务的主题信息,步骤如下:
3.1通过由第一步给定全局文档-单词关系矩阵D,通过NMF将其分解为文档-主题矩阵θ和主题-单词矩阵Z乘积,分解矩阵D的目标函数表示为;
Figure FDA0002914406580000021
subject to:θ≥0 and Z≥0,θ∈RNxK,Z∈RVxK
其中
Figure FDA0002914406580000022
代表L2范数,N表示Mashup文档数量,K表示文档的主题数量,V表示语料库单词的数量,R表示实数集,上标T表示矩阵转置,NMF是在矩阵中所有元素均为非负数约束条件之下,将一个非负矩阵表示为另外两个非负矩阵乘积方式的矩阵分解方法;
3.2通过第一步,第二步计算得到单词的上下文SPPMI矩阵M,分解矩阵M引入词嵌入信息,分解M的目标函数如下所示:
Figure FDA0002914406580000023
S是一个额外的对称因子,用于M的近似求解,W为单词的词嵌入矩阵;
3.3利用Mashup服务文档和单词间的关系,可以发现主题信息,通过文档内单词上下文的共现信息,可以学习到词嵌入信息;但是这两个部分并不相互孤立,语义相关的单词属于相似的主题,在嵌入空间中也很接近;单词嵌入与它们的主题相关,关系的目标函数如下所示:
Figure FDA0002914406580000024
3.4结合步骤3.1,3.2和3.3,得到主题模型的目标函数:
Figure FDA0002914406580000025
subject to:θ≥0 and Z≥0
求解该目标函数,使用矩阵迹运算将上述公式展开:
J(θ,Z,W,S,A)=λdTr((D-θZT)(D-θZT)T)+λwTr((M-WSWT)(M-WSWT)T)+λtTr((Z-WAT)(Z-WAT)T)
其中J(θ,Z,W,S,A)为J4在θ,Z,W,S,A参数下的展开形式,进一步运算得到以下公式:
J(θ,Z,W,S,A)=λdTr(DDT-2DZθT+θZTT)+λwTr(MMT-2MWSWT+WSWTWSWT)+λtTr(ZZT-2ZAWT+WATAWT)
Tr表示矩阵求迹,λd,λw和λt为不同部分的权重系数,用于调整各部分计算的误差对结果的影响,根据正则化约束得到以下目标函数:
Figure FDA0002914406580000031
其中α,β,γ,
Figure FDA0002914406580000032
ω为正则化参数,避免过拟合;为使目标函数最小化,对上述目标函数求偏导得到以下公式:
Figure FDA0002914406580000033
Figure FDA0002914406580000034
Figure FDA0002914406580000035
Figure FDA0002914406580000036
Figure FDA0002914406580000037
令α⊙θ=0,β⊙Z=0,γ⊙W=0,
Figure FDA0002914406580000038
ω⊙A=0,⊙表示阿达马乘积,即矩阵对应位置的乘积,利用阿达马乘积,令上述公式偏导为0,进一步得到以下等式方程:
-(DZ)⊙θ+(θZTZ)⊙θ+α⊙θ=0
-(λdDTθ+λtWAT)⊙Z+(λdTZ+λtZ)⊙Z+β⊙Z=0
-2(λwMWS+λtZA)⊙W+(λtWATAW+2λwWSWTWS)⊙W+γ⊙W=0
Figure FDA00029144065800000314
-(ZTW)⊙A+(AWTW)⊙A+ω⊙)A=0
进一步更新参数:
Figure FDA0002914406580000039
Figure FDA00029144065800000310
Figure FDA00029144065800000311
Figure FDA00029144065800000312
Figure FDA00029144065800000313
通过上述参数更新方式,求解出Mashup服务文档-主题矩阵θ和主题-单词矩阵Z,词嵌入矩阵W,主题嵌入矩阵A。
2.如权利要求1所述的云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法,其特征在于,所述2.1的过程如下:
2.1.1对于当前Mashup服务,计算该Mashup服务描述文档长度Len,设定滑动窗口长度为Len;
2.1.2统计Mashup服务描述文档中单词和其他单词的共现情况,若当前单词的上下文单词,即该单词前后的单词,在滑动窗口Len的距离内,则该单词和其在滑动窗口内的上下文单词共现次数加1;
2.1.3重复2.1.2直至处理完Mashup中的所有单词;
2.1.4重复2.1.1-2.1.3直至处理完所有Mashup服务。
CN202110097169.3A 2021-01-25 2021-01-25 云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法 Active CN112836490B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110097169.3A CN112836490B (zh) 2021-01-25 2021-01-25 云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110097169.3A CN112836490B (zh) 2021-01-25 2021-01-25 云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法

Publications (2)

Publication Number Publication Date
CN112836490A true CN112836490A (zh) 2021-05-25
CN112836490B CN112836490B (zh) 2024-05-10

Family

ID=75931365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110097169.3A Active CN112836490B (zh) 2021-01-25 2021-01-25 云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法

Country Status (1)

Country Link
CN (1) CN112836490B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100862583B1 (ko) * 2007-08-20 2008-10-09 인하대학교 산학협력단 의사연관피드백과 비음수 행렬 분해를 이용한 문서요약장치 및 방법
CN106599086A (zh) * 2016-11-25 2017-04-26 山东科技大学 一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法
CN111723206A (zh) * 2020-06-19 2020-09-29 北京明略软件系统有限公司 文本分类方法、装置、计算机设备和存储介质
CN111832289A (zh) * 2020-07-13 2020-10-27 重庆大学 一种基于聚类和高斯lda的服务发现方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100862583B1 (ko) * 2007-08-20 2008-10-09 인하대학교 산학협력단 의사연관피드백과 비음수 행렬 분해를 이용한 문서요약장치 및 방법
CN106599086A (zh) * 2016-11-25 2017-04-26 山东科技大学 一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法
CN111723206A (zh) * 2020-06-19 2020-09-29 北京明略软件系统有限公司 文本分类方法、装置、计算机设备和存储介质
CN111832289A (zh) * 2020-07-13 2020-10-27 重庆大学 一种基于聚类和高斯lda的服务发现方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
GUANGXU XUN 等: "Collaboratively Improving Topic Discovery and Word Embeddings by Coordinating Global and Local Contexts", PROCEEDINGS OF THE 23RD ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING *
MELISSA AILEM 等: "Non-negative Matrix Factorization Meets Word Embedding", PROCEEDINGS OF THE 40TH INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL *
朱书苗: "基于Mashup 服务 语义表达聚类的API 推 荐方法研究", 中国硕士学位论文全文数据库, no. 07 *
田刚等: "面向领域标签辅 助的服务聚类方法", 电子学报, vol. 43, no. 7 *

Also Published As

Publication number Publication date
CN112836490B (zh) 2024-05-10

Similar Documents

Publication Publication Date Title
Li et al. Key word extraction for short text via word2vec, doc2vec, and textrank
US9208441B2 (en) Information processing apparatus, information processing method, and program
CN113343078B (zh) 基于主题模型聚类的Web API推荐方法
Wu et al. Personalized microblog sentiment classification via multi-task learning
CN104731962A (zh) 一种社交网络中基于相似社团的好友推荐方法及系统
Bassiou et al. Online PLSA: Batch updating techniques including out-of-vocabulary words
CN102270212A (zh) 一种基于隐半马尔可夫模型的用户兴趣特征提取方法
US11886515B2 (en) Hierarchical clustering on graphs for taxonomy extraction and applications thereof
CN114742071B (zh) 基于图神经网络的汉越跨语言观点对象识别分析方法
Murshed et al. Enhancing big social media data quality for use in short-text topic modeling
Bollegala et al. ClassiNet--Predicting missing features for short-text classification
CN107515854B (zh) 基于带权时序文本网络的时序社区以及话题的检测方法
Novotný et al. Text classification with word embedding regularization and soft similarity measure
Shtekh et al. Applying topic segmentation to document-level information retrieval
Bing et al. Learning a unified embedding space of web search from large-scale query log
Wu et al. Topic mover's distance based document classification
CN112836491B (zh) 面向NLP基于GSDPMM和主题模型的Mashup服务谱聚类方法
CN112836490A (zh) 云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法
Yang et al. Learning multi-prototype word embedding from single-prototype word embedding with integrated knowledge
CN112836488B (zh) 基于TWE-NMF模型的Web服务描述文档语义挖掘方法
Yenkikar et al. Emp-sa: Ensemble model based market prediction using sentiment analysis
CN112836489B (zh) 一种基于互联网服务单词语义权重的文本主题挖掘方法
Sheng et al. Web service classification based on reinforcement learning and structured representation learning
Saint-Jean et al. Online k-MLE for mixture modeling with exponential families
US20240168999A1 (en) Hierarchical clustering on graphs for taxonomy extraction and applications thereof

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant