CN112836490A - 云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法 - Google Patents
云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法 Download PDFInfo
- Publication number
- CN112836490A CN112836490A CN202110097169.3A CN202110097169A CN112836490A CN 112836490 A CN112836490 A CN 112836490A CN 202110097169 A CN202110097169 A CN 202110097169A CN 112836490 A CN112836490 A CN 112836490A
- Authority
- CN
- China
- Prior art keywords
- word
- matrix
- words
- information
- occurrence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000011159 matrix material Substances 0.000 title claims abstract description 102
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000005516 engineering process Methods 0.000 title claims abstract description 9
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 18
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000344 soap Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2133—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on naturality criteria, e.g. with non-negative factorisation or negative correlation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
一种云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法,包括以下步骤:第一步:统计每个Mashup服务中单词词频信息,即单词出现的次数,构建文档‑词频关系矩阵D;第二步:统计单词共现信息,从而计算出SPPMI矩阵信息;第三步:基于第一步,第二步得到Mashup服务文档单词的词频信息矩阵D,单词的上下文SPPMI矩阵M,通过分解M得到词嵌入信息矩阵,进一步将上述两种信息进行结合,计算服务的主题信息。本发明在模型上能和非负矩阵分解有机的统一,并且通过引入词嵌入信息能缓解Mashup服务特征信息稀疏的问题,从而有效地对Mashup服务进行建模。
Description
技术领域
本发明涉及到一种云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法
背景技术
随着云计算的发展和服务计算“服务化”的思想驱动,越来越多的公司将数据、资源或者相关业务通过Web服务的形式发布到互联网上,以提高信息的利用率和自身竞争力。然而传统基于SOAP协议的Web服务,存在技术体系复杂、扩展性差等问题,难以适应现实生活中复杂多变的应用场景。为克服传统服务带来的问题,近年来,互联网上涌现出一种轻量级的信息服务组合模式——Mashup技术,可以混搭多种不同Web API,开发出多种全新的Web服务,以缓解传统服务难以适应复杂多变应用环境的问题。
随着Mashup服务快速增长,如何在众多Mashup服务中找到高质量的服务,已经成为一个大家关注的热点问题。目前现有的方法,主要采用潜在狄利克雷分配(LatentDirichlet Allocation,LDA)得到Mashup服务主题特征后,进一步进行随后的工作,然而Mashup服务文档通常为短文本,LDA和其他传统的挖掘算法对短文本处理能力欠缺,因此无法有效地对Mashup服务进行建模。
发明内容
为了克服现有Mashup服务描述文本简短,特征稀疏带来的建模困难的问题,本发明提出一种融合词嵌入和非负矩阵分解技术的服务建模方法,基于分解SPPMI矩阵求解词嵌入信息,相对于神经网络模型,该方法在模型上能和非负矩阵分解(Non-negativeMatrix Factorization,NMF)有机的统一,并且通过引入词嵌入信息能缓解Mashup服务特征信息稀疏的问题,从而有效地对Mashup服务进行建模。
本发明解决其技术问题所采用的技术方案是:
一种云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法,包括以下步骤:
第一步:统计每个Mashup服务中单词词频信息,即单词出现的次数,构建文档-词频关系矩阵D;
第二步:统计单词共现信息,从而计算出SPPMI矩阵信息,步骤如下:
2.1统计词共现信息,将整个服务描述文档作为滑动窗口的长度,计算每个单词和其他单词在上下文中共同出现的次数;
2.2点互信息(Pointwise Mutual Information,PMI)计算,当两个单词在文本中共现概率越大时,单词间的相关性就越强,PMI计算公式如下所示:
x和y表示两个单词,P(x,y)表示单词x和y共现的概率,P(x)表示单词x在上下文中出现概率。根据单词wj和其上下文单词wc在语料库中的实际共现次数,可以计算出两者之间的PMI值:
2.3计算偏移正点互信息值(Shifted Positive Pointwise MutualInformation,SPPMI)矩阵,SPPMI矩阵通过PMI值计算,SPPMI矩阵的计算方式为:
SPPMI(wj,wc)=max(PMI(wj,wc)-logκ,0)
其中κ为负采样系数,通过上述公式得到单词的上下文SPPMI矩阵M;
第三步:基于第一步,第二步得到Mashup服务文档单词的词频信息矩阵D,单词的上下文SPPMI矩阵M,通过分解M得到词嵌入信息矩阵,进一步将上述两种信息进行结合,计算服务的主题信息,步骤如下:
3.1通过由第一步给定全局文档-单词关系矩阵D,通过NMF将其分解为文档-主题矩阵θ和主题-单词矩阵Z乘积。分解矩阵D的目标函数表示为;
subject to:θ≥0and Z≥0,θ∈RNxK,Z∈RVxK
其中代表L2范数,N表示Mashup文档数量,K表示文档的主题数量,V表示语料库单词的数量,R表示实数集,上标T表示矩阵转置。NMF是在矩阵中所有元素均为非负数约束条件之下,将一个非负矩阵表示为另外两个非负矩阵乘积方式的矩阵分解方法;
3.2通过第一步,第二步计算得到单词的上下文SPPMI矩阵M,分解矩阵M引入词嵌入信息,分解M的目标函数如下所示:
S是一个额外的对称因子,用于M的近似求解,W为单词的词嵌入矩阵;
3.3利用Mashup服务文档和单词间的关系,可以发现主题信息,通过文档内单词上下文的共现信息,可以学习到词嵌入信息;但是这两个部分并不相互孤立,语义相关的单词通常属于相似的主题,在嵌入空间中也很接近;单词嵌入与它们的主题相关,关系的目标函数如下所示:
3.4结合步骤3.1,3.2和3.3,得到主题模型的目标函数:
subject to:θ≥0and Z≥0
求解该目标函数,使用矩阵迹运算将上述公式展开:
J(θ,Z,W,S,A)=λdTr((D-θZT)(D-θZT)T)+λwTr((M-WSWT)(M-WSWT)T)+λtTr((Z-WAT)(Z-WAT)T)
其中J(θ,Z,W,S,A)为J4在θ,Z,W,S,A参数下的展开形式,进一步运算得到以下公式:
J(θ,Z,W,S,A)=λdTr(DDT-2DZθT+θZTZθT)+λwTr(MMT-2MWSWT+WSWTWSWT)+λtTr(ZZT-2ZAWT+WATAWT)
Tr表示矩阵求迹,λd,λw和λt为不同部分的权重系数,用于调整各部分计算的误差对结果的影响,根据正则化约束得到以下目标函数:
-(DZ)⊙θ+(θZTZ)⊙θ+α⊙θ=0
-(λdDTθ+λtWAT)⊙Z+(λdZθTZ+λtZ)⊙Z+β⊙Z=0
-2(λwMWS+λtZA)⊙W+(λtWATAW+2λwWSWTWS)⊙W+γ⊙W=0
-(ZTW)⊙A+(AWTW)⊙A+ω⊙A=0
进一步更新参数:
通过上述参数更新方式,求解出Mashup服务文档-主题矩阵θ和主题-单词矩阵Z,词嵌入矩阵W,主题嵌入矩阵A。
进一步,所述2.1的过程如下:
2.1.1对于当前Mashup服务,计算该Mashup服务描述文档长度Len,设定滑动窗口长度为Len;
2.1.2统计Mashup服务描述文档中单词和其他单词的共现情况,若当前单词的上下文单词,即该单词前后的单词,在滑动窗口Len的距离内,则该单词和其在滑动窗口内的上下文单词共现次数加1;
2.1.3重复2.1.2直至处理完Mashup中的所有单词;
2.1.4重复2.1.1-2.1.3直至处理完所有Mashup服务。
本发明的技术构思为:Mashup服务描述文档简短,特征信息少,传统的方法无法有效对其建模,进而影响聚类,推荐等功能的精度,使得用户无法得到其期待的结果。为缓解由于Mashup服务中的稀疏性问题,无法良好对其建模的问题。本发明基于NMF,并且通过计算SPPMI矩阵,进而分解得到词嵌入信息,提出了一种融合前嵌入信息的NMF主题模型,求解主题Mashup服务的主题特征。
本发明的有益效果主要表现在要:(1)使用NMF求解Mashup主题特征,能更好地处理简短的文本。(2)在使用NMF求解模型的同时,引入词嵌入信息,不仅有效能有效提高模型的精度,同时缓解Mashup服务描述简短带来的稀疏性问题。(3)使用分解SPPMI矩阵的方式求解词嵌入,能和NMF在模型上有机的统一。
具体实施方式
下面对本发明作进一步描述。
一种云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法,包括以下步骤:
第一步:统计每个Mashup服务中单词词频信息,即单词出现的次数,构建文档-词频关系矩阵D;
第二步:统计单词共现信息,从而计算出SPPMI矩阵信息,步骤如下:
2.1统计词共现信息,由于Mashup服务描述文档较短,为了能更准确地获取上下文共现信息,本发明将整个服务描述文档作为滑动窗口的长度,计算每个单词和和其他单词在上下文中共同出现的次数,过程如下:
2.1.1对于当前Mashup服务,计算该Mashup服务描述文档长度Len,设定滑动窗口长度为Len;
2.1.2统计Mashup服务描述文档中单词和其他单词的共现情况,若当前单词的上下文单词,即该单词前后的单词,在滑动窗口Len的距离内,则该单词和其在滑动窗口内的上下文单词共现次数加1;
2.1.3重复2.1.2直至处理完Mashup中的所有单词;
2.1.4重复2.1.1-2.1.3直至处理完所有Mashup服务。
2.2点互信息(Pointwise Mutual Information,PMI)计算,PMI被广泛用于计算单词间相似度的关系,当两个单词在文本中共现概率越大时,单词间的相关性就越强,PMI计算公式如下所示。
x和y表示两个单词,P(x,y)表示单词x和y共现的概率,P(x)表示单词x在上下文中出现概率,根据单词wj和其上下文单词wc在语料库中的实际共现次数,可以计算出两者之间的PMI值:
2.3计算偏移正点互信息值(Shifted Positive Pointwise MutualInformation,SPPMI)矩阵,SPPMI矩阵可以通过PMI值计算,SPPMI矩阵的计算方式为:
SPPMI(wj,wc)=max(PMI(wj,wc)-logκ,0)
其中κ为负采样系数。通过上述公式得到单词的上下文SPPMI矩阵M;
第三步:基于第一步,第二步得到Mashup服务文档单词的词频信息矩阵D,单词的上下文SPPMI矩阵M,通过分解M得到词嵌入信息矩阵,进一步将上述两种信息进行结合,计算服务的主题信息,步骤如下:
3.1通过由第一步给定全局文档-单词关系矩阵D,通过NMF将其分解为文档-主题矩阵θ和主题-单词矩阵Z乘积。分解矩阵D的函数表示为:
subject to:θ≥0and Z≥0,θ∈RNxK,Z∈RVxK
其中代表L2范数,N表示Mashup文档数量,K表示文档的主题数量,V表示语料库单词的数量,R表示实数集,上标T表示矩阵转置。NMF是在矩阵中所有元素均为非负数约束条件之下,将一个非负矩阵表示为另外两个非负矩阵乘积方式的矩阵分解方法;
3.2通过第一步,第二步计算得到单词的上下文SPPMI矩阵M,分解矩阵M引入词嵌入信息,分解M的公式如下所示:
S是一个额外的对称因子,用于M的近似求解,W为单词的词嵌入矩阵;
3.3利用Mashup服务文档和单词间的关系,可以发现主题信息,通过文档内单词上下文的共现信息,可以学习到词嵌入信息,但是这两个部分并不相互孤立,语义相关的单词通常属于相似的主题,在嵌入空间中也很接近,可知单词嵌入与它们的主题相关,关系公式如下所示:
3.4在步骤3.3中将主题-单词矩阵Z分解为主题嵌入矩阵A和词嵌入矩阵W的乘积,将词嵌入与主题信息相联系起来,进一步提高了主题建模的准确性;
结合步骤3.1,3.2和3.3,得到主题模型的目标函数:
subject to:θ≥0and Z≥0
为了方便求解该目标函数,使用矩阵迹运算将上述公式展开:
J(θ,Z,W,S,A)=λdTr((D-θZT)(D-θZT)T)+λwTr((M-WSWT)(M-WSWT)T)+λtTr((Z-WAT)(Z-WAT)T)
其中J(θ,Z,W,S,A)为J4在θ,Z,W,S,A参数下的展开形式,进一步运算得到以下公式:
J(θ,Z,W,S,A)=λdTr(DDT-2DZθT+θZTZθT)+λwTr(MMT-2MWSWT+WSWTWSWT)+λtTr(ZZT-2ZAWT+WATAWT)
Tr表示矩阵求迹,λd,λw和λt为不同部分的权重系数,用于调整各部分计算的误差对结果的影响,根据正则化约束得到以下目标函数:
-(DZ)⊙θ+(θZTZ)⊙θ+α⊙θ=0
-(λdDTθ+λtWAT)⊙Z+(λdZθTZ+λtZ)⊙Z+β⊙Z=0
-2(λwMWS+λtZA)⊙W+(λtWATAW+2λwWSWTWS)⊙W+γ⊙W=0
-(ZTW)⊙A+(AWTW)⊙A+ω⊙A=0
进一步更新参数:
通过上述参数更新方式,求解出Mashup服务文档-主题矩阵θ和主题-单词矩阵Z,词嵌入矩阵W,主题嵌入矩阵A。
本说明书的实施例所述的内容仅仅是对发明构思的实现形式的列举,仅作说明用途。本发明的保护范围不应当被视为仅限于本实施例所陈述的具体形式,本发明的保护范围也及于本领域的普通技术人员根据本发明构思所能想到的等同技术手段。
Claims (2)
1.一种云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法,其特征在于,所述方法包括以下步骤:
第一步:统计每个Mashup服务中单词词频信息,即单词出现的次数,构建文档-词频关系矩阵D;
第二步:统计单词共现信息,从而计算出SPPMI矩阵信息,步骤如下:
2.1统计词共现信息,将整个服务描述文档作为滑动窗口的长度,计算每个单词和其他单词在上下文中共同出现的次数;
2.2点互信息PMI计算,当两个单词在文本中共现概率越大时,单词间的相关性就越强,PMI计算公式如下所示:
x和y表示两个单词,P(x,y)表示单词x和y共现的概率,P(x)表示单词x在上下文中出现概率,根据单词wj和其上下文单词wc在语料库中的实际共现次数,可以计算出两者之间的PMI值:
2.3计算偏移正点互信息值矩阵SPPMI,SPPMI矩阵通过PMI值计算,SPPMI矩阵的计算方式为:
SPPMI(wj,wc)=max(PMI(wj,wc)-logκ,0)
其中κ为负采样系数,通过上述公式得到单词的上下文SPPMI矩阵M;
第三步:基于第一步,第二步得到Mashup服务文档单词的词频信息矩阵D,单词的上下文SPPMI矩阵M,通过分解M得到词嵌入信息矩阵,进一步将上述两种信息进行结合,计算服务的主题信息,步骤如下:
3.1通过由第一步给定全局文档-单词关系矩阵D,通过NMF将其分解为文档-主题矩阵θ和主题-单词矩阵Z乘积,分解矩阵D的目标函数表示为;
subject to:θ≥0 and Z≥0,θ∈RNxK,Z∈RVxK
其中代表L2范数,N表示Mashup文档数量,K表示文档的主题数量,V表示语料库单词的数量,R表示实数集,上标T表示矩阵转置,NMF是在矩阵中所有元素均为非负数约束条件之下,将一个非负矩阵表示为另外两个非负矩阵乘积方式的矩阵分解方法;
3.2通过第一步,第二步计算得到单词的上下文SPPMI矩阵M,分解矩阵M引入词嵌入信息,分解M的目标函数如下所示:
S是一个额外的对称因子,用于M的近似求解,W为单词的词嵌入矩阵;
3.3利用Mashup服务文档和单词间的关系,可以发现主题信息,通过文档内单词上下文的共现信息,可以学习到词嵌入信息;但是这两个部分并不相互孤立,语义相关的单词属于相似的主题,在嵌入空间中也很接近;单词嵌入与它们的主题相关,关系的目标函数如下所示:
3.4结合步骤3.1,3.2和3.3,得到主题模型的目标函数:
subject to:θ≥0 and Z≥0
求解该目标函数,使用矩阵迹运算将上述公式展开:
J(θ,Z,W,S,A)=λdTr((D-θZT)(D-θZT)T)+λwTr((M-WSWT)(M-WSWT)T)+λtTr((Z-WAT)(Z-WAT)T)
其中J(θ,Z,W,S,A)为J4在θ,Z,W,S,A参数下的展开形式,进一步运算得到以下公式:
J(θ,Z,W,S,A)=λdTr(DDT-2DZθT+θZTZθT)+λwTr(MMT-2MWSWT+WSWTWSWT)+λtTr(ZZT-2ZAWT+WATAWT)
Tr表示矩阵求迹,λd,λw和λt为不同部分的权重系数,用于调整各部分计算的误差对结果的影响,根据正则化约束得到以下目标函数:
-(DZ)⊙θ+(θZTZ)⊙θ+α⊙θ=0
-(λdDTθ+λtWAT)⊙Z+(λdZθTZ+λtZ)⊙Z+β⊙Z=0
-2(λwMWS+λtZA)⊙W+(λtWATAW+2λwWSWTWS)⊙W+γ⊙W=0
-(ZTW)⊙A+(AWTW)⊙A+ω⊙)A=0
进一步更新参数:
通过上述参数更新方式,求解出Mashup服务文档-主题矩阵θ和主题-单词矩阵Z,词嵌入矩阵W,主题嵌入矩阵A。
2.如权利要求1所述的云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法,其特征在于,所述2.1的过程如下:
2.1.1对于当前Mashup服务,计算该Mashup服务描述文档长度Len,设定滑动窗口长度为Len;
2.1.2统计Mashup服务描述文档中单词和其他单词的共现情况,若当前单词的上下文单词,即该单词前后的单词,在滑动窗口Len的距离内,则该单词和其在滑动窗口内的上下文单词共现次数加1;
2.1.3重复2.1.2直至处理完Mashup中的所有单词;
2.1.4重复2.1.1-2.1.3直至处理完所有Mashup服务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110097169.3A CN112836490B (zh) | 2021-01-25 | 2021-01-25 | 云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110097169.3A CN112836490B (zh) | 2021-01-25 | 2021-01-25 | 云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112836490A true CN112836490A (zh) | 2021-05-25 |
CN112836490B CN112836490B (zh) | 2024-05-10 |
Family
ID=75931365
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110097169.3A Active CN112836490B (zh) | 2021-01-25 | 2021-01-25 | 云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112836490B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100862583B1 (ko) * | 2007-08-20 | 2008-10-09 | 인하대학교 산학협력단 | 의사연관피드백과 비음수 행렬 분해를 이용한 문서요약장치 및 방법 |
CN106599086A (zh) * | 2016-11-25 | 2017-04-26 | 山东科技大学 | 一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法 |
CN111723206A (zh) * | 2020-06-19 | 2020-09-29 | 北京明略软件系统有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
CN111832289A (zh) * | 2020-07-13 | 2020-10-27 | 重庆大学 | 一种基于聚类和高斯lda的服务发现方法 |
-
2021
- 2021-01-25 CN CN202110097169.3A patent/CN112836490B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100862583B1 (ko) * | 2007-08-20 | 2008-10-09 | 인하대학교 산학협력단 | 의사연관피드백과 비음수 행렬 분해를 이용한 문서요약장치 및 방법 |
CN106599086A (zh) * | 2016-11-25 | 2017-04-26 | 山东科技大学 | 一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法 |
CN111723206A (zh) * | 2020-06-19 | 2020-09-29 | 北京明略软件系统有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
CN111832289A (zh) * | 2020-07-13 | 2020-10-27 | 重庆大学 | 一种基于聚类和高斯lda的服务发现方法 |
Non-Patent Citations (4)
Title |
---|
GUANGXU XUN 等: "Collaboratively Improving Topic Discovery and Word Embeddings by Coordinating Global and Local Contexts", PROCEEDINGS OF THE 23RD ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING * |
MELISSA AILEM 等: "Non-negative Matrix Factorization Meets Word Embedding", PROCEEDINGS OF THE 40TH INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL * |
朱书苗: "基于Mashup 服务 语义表达聚类的API 推 荐方法研究", 中国硕士学位论文全文数据库, no. 07 * |
田刚等: "面向领域标签辅 助的服务聚类方法", 电子学报, vol. 43, no. 7 * |
Also Published As
Publication number | Publication date |
---|---|
CN112836490B (zh) | 2024-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Key word extraction for short text via word2vec, doc2vec, and textrank | |
US9208441B2 (en) | Information processing apparatus, information processing method, and program | |
CN113343078B (zh) | 基于主题模型聚类的Web API推荐方法 | |
Wu et al. | Personalized microblog sentiment classification via multi-task learning | |
CN104731962A (zh) | 一种社交网络中基于相似社团的好友推荐方法及系统 | |
Bassiou et al. | Online PLSA: Batch updating techniques including out-of-vocabulary words | |
CN102270212A (zh) | 一种基于隐半马尔可夫模型的用户兴趣特征提取方法 | |
US11886515B2 (en) | Hierarchical clustering on graphs for taxonomy extraction and applications thereof | |
CN114742071B (zh) | 基于图神经网络的汉越跨语言观点对象识别分析方法 | |
Murshed et al. | Enhancing big social media data quality for use in short-text topic modeling | |
Bollegala et al. | ClassiNet--Predicting missing features for short-text classification | |
CN107515854B (zh) | 基于带权时序文本网络的时序社区以及话题的检测方法 | |
Novotný et al. | Text classification with word embedding regularization and soft similarity measure | |
Shtekh et al. | Applying topic segmentation to document-level information retrieval | |
Bing et al. | Learning a unified embedding space of web search from large-scale query log | |
Wu et al. | Topic mover's distance based document classification | |
CN112836491B (zh) | 面向NLP基于GSDPMM和主题模型的Mashup服务谱聚类方法 | |
CN112836490A (zh) | 云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法 | |
Yang et al. | Learning multi-prototype word embedding from single-prototype word embedding with integrated knowledge | |
CN112836488B (zh) | 基于TWE-NMF模型的Web服务描述文档语义挖掘方法 | |
Yenkikar et al. | Emp-sa: Ensemble model based market prediction using sentiment analysis | |
CN112836489B (zh) | 一种基于互联网服务单词语义权重的文本主题挖掘方法 | |
Sheng et al. | Web service classification based on reinforcement learning and structured representation learning | |
Saint-Jean et al. | Online k-MLE for mixture modeling with exponential families | |
US20240168999A1 (en) | Hierarchical clustering on graphs for taxonomy extraction and applications thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |