CN112836488B - 基于TWE-NMF模型的Web服务描述文档语义挖掘方法 - Google Patents
基于TWE-NMF模型的Web服务描述文档语义挖掘方法 Download PDFInfo
- Publication number
- CN112836488B CN112836488B CN202110096324.XA CN202110096324A CN112836488B CN 112836488 B CN112836488 B CN 112836488B CN 202110096324 A CN202110096324 A CN 202110096324A CN 112836488 B CN112836488 B CN 112836488B
- Authority
- CN
- China
- Prior art keywords
- word
- matrix
- information
- words
- mashup
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000005065 mining Methods 0.000 title claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims abstract description 108
- 238000004364 calculation method Methods 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 19
- 238000000354 decomposition reaction Methods 0.000 claims description 13
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000000344 soap Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
一种基于TWE‑NMF模型的Web服务描述文档语义挖掘方法,包括以下步骤:第一步:根据上下文信息和服务标签信息计算单词的语义权重信息从而得到文档‑单词语义权重信息矩阵D;第二步:统计单词共现信息,从而计算出SPPMI矩阵信息;第三步:基于第一步,第二步得到Mashup服务文档单词的词频信息矩阵D,单词的上下文SPPMI矩阵M,通过分解M可以得到词嵌入信息矩阵,进一步将上述两种信息进行结合,计算服务的主题信息。本发明在模型上能和NMF模型有机的统一,并且通过分解SPPMI矩阵引入的词嵌入信息能缓解Mashup服务特征信息稀疏的问题,从而有效地对Mashup服务进行建模。
Description
技术领域
本发明涉及到一种基于TWE-NMF模型的Web服务描述文档语义挖掘方法
背景技术
随着云计算的发展和服务计算“服务化”的思想驱动,越来越多的公司将数据、资源或者相关业务通过Web服务的形式发布到互联网上,以提高信息的利用率和自身竞争力。然而传统基于SOAP协议的Web服务,存在技术体系复杂、扩展性差等问题,难以适应现实生活中复杂多变的应用场景。为克服传统服务带来的问题,近年来,互联网上涌现出一种轻量级的信息服务组合模式——Mashup技术,可以混搭多种不同Web API,开发出多种全新的Web服务,以缓解传统服务难以适应复杂多变应用环境的问题。
随着Mashup服务快速增长,如何在众多Mashup服务中找到高质量的服务,已经成为一个大家关注的热点问题。目前现有的方法,主要采用潜在狄利克雷分配(LatentDirichlet Allocation,LDA)或者非负矩阵分解(Non-negative Matrix Factorization,NMF)等方法得到Mashup服务主题特征后,进一步进行随后的工作。
然而Mashup服务文档通常为短文本,LDA对短文本处理能力欠缺,NMF模型虽然对稀疏数据有较强的处理能力,但是现有研究利用NMF模型研究中,多数采用文档-词频信息或者词频-逆向文档频率(term frequency–inverse document frequency,TF-IDF)信息作为文档-单词矩阵信息求解主题特征,由于Mashup服务描述文档通常较短,关键单词在描述中很难再次出现,即多数关键性单词的出现的次数为1,对文档的区分作用非常小,因此传统的词频信息和TF-IDF信息容易导致NMF模型无法很好地对Mashup服务描述文档进行建模。
发明内容
为了克服Mashup服务描述文本简短,特征稀疏带来的建模困难的问题,本发明提出一种基于TWE-NMF(Non-negative Matrix Factorization Combining Tags and WordEmbedding)模型的Web服务描述文档语义挖掘方法,该方法在TF-IDF的基础上,结合服务标签信息和上下文单词信息,重新计算单词的权重,体高关键性单词的权重值,同时采用分解SPPMI矩阵求解词嵌入信息,相对于神经网络模型,在模型上能和NMF模型有机的统一,并且通过分解SPPMI矩阵引入的词嵌入信息能缓解Mashup服务特征信息稀疏的问题,从而有效地对Mashup服务进行建模。
本发明解决其技术问题所采用的技术方案是:
一种基于TWE-NMF模型的Web服务描述文档语义挖掘方法,包括以下步骤:
第一步:根据上下文信息和服务标签信息计算单词的语义权重信息从而得到文档-单词语义权重信息矩阵D,步骤如下:
1.1使用Python中的自然语言工具包(Natural language toolkit,NLTK),,对Mashup服务描述文档进行中的单词进行词性标注,NLTK是著名的自然语言处理库,可以用于处理与自然语言相关的东西;
1.2:统计单词词频信息,计算TF-IDF信息;
1.3:提取Mashup服务标签信息,并基于名词集Nset和TF-IDF值,重新计算Mashup服务描述文档中的每一个单词的语义权重;
第二步:统计单词共现信息,从而计算出SPPMI矩阵信息,步骤如下:
2.1统计词共现信息,由于Mashup服务描述文档较短,为了能更准确地获取上下文共现信息,将整个服务描述文档作为滑动窗口的长度,计算每个单词和其他单词在上下文中共同出现的次数;
2.2点互信息(Pointwise Mutual Information,PMI)计算,PMI被广泛用于计算单词间相似度的关系,当两个单词在文本中共现概率越大时,单词间的相关性就越强,PMI计算公式如下所示:
x和y表示两个单词,P(x,y)表示单词x和y共现的概率,P(x)表示单词x在上下文中出现概率,根据单词wj和其上下文单词wc在语料库中的实际共现次数,可以计算出两者之间的PMI值:
#(wj,wc)表示单词wj和上下文单词wc在语料库中的实际共现次数,E为上下文单词对共现的总次数,#(wj)为单词wj和其他单词共现的次数。 Voc表示语料库,即不重复单词的集合;
2.3计算偏移正点互信息值(Shifted Positive Pointwise MutualInformation,SPPMI)矩阵,SPPMI矩阵通过PMI值计算,SPPMI矩阵的计算方式为:
SPPMI(wj,wc)=max(PMI(wj,wc)-logκ,0)
其中κ为负采样系数。通过上述公式得到单词的上下文SPPMI矩阵M;
第三步:基于第一步,第二步得到Mashup服务文档单词的文档-单词语义权重信息矩阵D,单词的上下文SPPMI矩阵M,通过分解M可以得到词嵌入信息矩阵,进一步将上述两种信息进行结合,计算服务的主题信息,步骤如下:
3.1通过由第一步给定全局文档-单词语义权重信息矩阵D,通过NMF将其分解为文档-主题矩阵θ和主题-单词矩阵Z乘积。分解矩阵D的函数表示为:
subject to:θ≥0and Z≥0,θ∈RNxK,Z∈RVxK
其中代表L2范数,N表示Mashup文档数量,K表示文档的主题数量,V表示语料库单词的数量,R表示实数集,上标T表示矩阵转置;NMF是在矩阵中所有元素均为非负数约束条件之下,将一个非负矩阵表示为另外两个非负矩阵乘积方式的矩阵分解方法;
3.2通过第二步计算得到单词的上下文SPPMI矩阵M,分解矩阵M引入词嵌入信息,分解M的公式如下所示:
S是一个额外的对称因子,用于M的近似求解,W为单词的词嵌入矩阵;
3.3利用Mashup服务文档和单词间的关系,可以发现主题信息,通过文档内单词上下文的共现信息,可以学习到词嵌入信息,但是这两个部分并不相互孤立,语义相关的单词属于相似的主题,在嵌入空间中也很接近,可知单词嵌入与它们的主题相关,关系公式如下所示:
3.4在步骤3.3中将主题-单词矩阵Z分解为主题嵌入矩阵A和词嵌入矩阵W的乘积,将词嵌入与主题信息相联系起来,进一步提高了主题建模的准确性;
结合步骤3.1,3.2和3.3,得到主题模型的目标函数:
subject to:θ≥0 and Z≥0
求解该目标函数,使用矩阵迹运算将上述公式展开:
J(θ,Z,W,S,A)=λdTr((D-θZT)(D-θZT)T)+λwTr((M-WSWT)(M-WSWT)T)+λtTr((Z-WAT)(Z-WAT)T)
其中J(θ,Z,W,S,A)为J4在θ,Z,W,S,A参数下的展开形式,进一步运算得到以下公式:
J(θ,Z,W,S,A)=λdTr(DDT-2DZθT+θZTZθT)+λwTr(MMT-2MWSWT+WSWTWSWT)+λtTr(ZZT-2ZAWT+WATAWT)
Tr表示矩阵求迹,λd,λw和λt为不同部分的权重系数,用于调整各部分计算的误差对结果的影响。根据正则化约束得到以下目标函数:
其中α,β,γ,ω为正则化参数,避免过拟合;为使目标函数最小化,对上述目标函数求偏导得到以下公式:
令α⊙θ=0,β⊙Z=0,γ⊙W=0,⊙表示阿达马乘积,即矩阵对应位置的乘积,利用阿达马乘积,令上述公式偏导为0,进一步得到以下等式方程:
-2(DZ)⊙θ+2(θZTZ)⊙θ+α⊙θ=0
-2(λdDTθ+λtWAT)⊙Z+2(λdZθTθ+λtZ)⊙Z+β⊙Z=0
进一步更新参数:
通过上述参数更新方式,求解出Mashup服务文档-主题矩阵θ和主题-单词矩阵Z,词嵌入矩阵W,主题嵌入矩阵A。
进一步,所述1.1的过程如下:
1.1.1遍历当前Mashup服务描述文档中的每一个单词,利用NLTK对单词进行词性还原;
1.1.2利用NLTK提取单词词根,并判断单词是否是名词性单词,若是名词性单词加入名词集合Nset;
1.1.3重复步骤1.1.1-1.1.2直至处理完所有Mashup服务。
再进一步,所述1.2的过程如下:
1.2.1遍历Mashup服务描述文档中的每个单词,统计当前文档中每个单词的出现的次数,计算每个单词TF值,计算公式如下:
其中TFi,j表示第i个Mashup服务描述文档中第j个单词的词频信息,NUM(j)表示第j个单词出现的次数,LEN(i)表示第i个Mashup文本的长度;
1.2.2统计每个单词出现过的Mashup服务文档数量,计算IDF值,计算公式如下:
IDF(x)表示单词x的IDF值,N表示Mashup文档的数量,doc(x)表示包含单词x的Mashup文档数量;
1.2.3遍历所有Mashup文档中的单词,计算单词的TF-IDF值计算公式如下:
TF-IDF(x)=TF(x)*IDF(x)
TF-IDF(x)表示单词x的TF-IDF值,TF(x)表示单词x的TF值。
更进一步,所述1.3的过程如下:
1.3.1遍历当前Mashup服务文档中每一个单词wx计算其上下文语义权重信息WeightContext(wx),计算公式如下:
其中sim(wx,wy)表示单词wx和wy的相似度,通过WordNet工具计算,wy为wx的上下文单词,d表示当前Mashup服务描述文档,Nd表示当前Mashup服务描述文档的长度;WordNet是一种英语词典,通过网状结构来组织词汇,将含义相近的词汇划分到一个组中,通过返回词汇在网络之间的最短路径得到相似度;
1.3.2计算单词的服务标签语义权重信息WeightTag(wx),计算公式如下:
其中Tagd表示当前Mashup服务文档的服务标签集合,t表示服务标签中的单词;
1.3.3基于TF-IDF值,并结合1.3.1和1.3.2中的计算结果,重新计算单词的语义权重。
优选的,所述1.3.3的操作步骤如下:
1.3.3.1遍历当前Mashup服务描述文档中的每一个单词wx,判断该是否在名词集NSet中,若wx在名词集中,通过以下公式重新计算单词语义权重,若wx不在名词集NSet中跳转到步骤3.3.2中;
1.3.3.2赋值单词的语义权重为其TF-IDF值,计算公式如下:
SemWeight(wx)=TF-IDF(wx)
1.3.3.3重复1.3.3.1-1.3.3.2直至处理完所有Mashup服务,得到文档-单词语义权重矩阵D。
所述2.1的过程如下:
2.1.1对于当前Mashup服务,计算该Mashup服务描述文档长度Len,设定滑动窗口长度为Len;
2.1.2统计Mashup服务描述文档中单词和其他单词的共现情况,若当前单词的其上下文单词,即该单词前后的单词,在滑动窗口Len的距离内,则该单词和其在滑动窗口内的上下文单词共现次数加1;
2.1.3重复2.1.2直至处理完Mashup中的所有单词;
2.1.4重复2.1.1-2.1.3直至处理完所有Mashup服务。
无法有效对其建模,进而影响聚类,推荐等功能的精度,使得用户无法得到其期待的结果。为缓解由于Mashup服务中的稀疏性问题,无法良好对其建模的问题。本发明首先提出一种单词语义权重的方法构建文档-单词语义权重矩阵D,随后基于NMF,并且通过计算SPPMI矩阵,进而分解得到词嵌入信息,提出了一种基于TWE-NMF模型的Web服务描述文档语义挖掘方法,求解主题Mashup服务的主题特征。
本发明的有益效果主要表现在要:(1)使用NMF求解Mashup主题特征,能更好地处理简短的文本。(2)在使用NMF求解模型的同时,引入词嵌入信息,不仅有效能有效提高模型的精度,同时缓解Mashup服务描述简短带来的稀疏性问题。(3)使用分解SPPMI矩阵的方式求解词嵌入,能和NMF在模型上有机的统一。(4)相对于形容词、副词等其他形式的单词,对主题的影响更加突出,更容易成为关键性单词,因此可以相对调整名词性单词的语义权重,从而调整关键性单词权重,以更好挖掘主题信息。(5)服务标签信息和上下文信息作为先验信息能有效缓解数据的稀疏性问题,并对主题发现有良好的促进作用。
具体实施方式
下面对本发明作进一步描述。
一种基于TWE-NMF模型的Web服务描述文档语义挖掘方法,包括以下步骤:
第一步:根据上下文信息和服务标签信息计算单词的语义权重信息从而得到文档-单词语义权重信息矩阵D,步骤如下:
1.1使用Python中的自然语言工具包(Natural language toolkit,NLTK),,对Mashup服务描述文档进行中的单词进行词性标注,NLTK是著名的自然语言处理库,可以用于处理与自然语言相关的东西,过程如下:
1.1.1遍历当前Mashup服务描述文档中的每一个单词,利用NLTK对单词进行词性还原;
1.1.2利用NLTK提取单词词根,并判断单词是否是名词性单词,若是名词性单词加入名词集合Nset;
1.1.3重复步骤1.1.1-1.1.2直至处理完所有Mashup服务;
1.2:统计单词词频信息,计算TF-IDF信息,过程如下:
1.2.1遍历Mashup服务描述文档中的每个单词,统计当前文档中每个单词的出现的次数,计算每个单词TF值,计算公式如下:
其中TFi,j表示第i个Mashup服务描述文档中第j个单词的词频信息,NUM(j)表示第j个单词出现的次数,LEN(i)表示第i个Mashup文本的长度;
1.2.2统计每个单词出现过的Mashup服务文档数量,计算IDF值,计算公式如下:
IDF(x)表示单词x的IDF值,N表示Mashup文档的数量,doc(x)表示包含单词x的Mashup文档数量;
1.2.3遍历所有Mashup文档中的单词,计算单词的TF-IDF值计算公式如下:
TF-IDF(x)=TF(x)*IDF(x)
TF-IDF(x)表示单词x的TF-IDF值,TF(x)表示单词x的TF值;
1.3:提取Mashup服务标签信息,并基于名词集Nset和TF-IDF值,重新计算Mashup服务描述文档中的每一个单词的语义权重,过程如下:
1.3.1遍历当前Mashup服务文档中每一个单词wx计算其上下文语义权重信息WeightContext(wx),计算公式如下:
其中sim(wx,wy)表示单词wx和wy的相似度,通过WordNet工具计算,wy为wx的上下文单词,d表示当前Mashup服务描述文档,Nd表示当前Mashup服务描述文档的长度;WordNet是一种英语词典,通过网状结构来组织词汇,将含义相近的词汇划分到一个组中,通过返回词汇在网络之间的最短路径得到相似度;
1.3.2计算单词的服务标签语义权重信息WeightTag(wx),具体计算公式如下:
其中Tagd表示当前Mashup服务文档的服务标签集合,t表示服务标签中的单词;
1.3.3基于TF-IDF值,并结合1.3.1和1.3.2中的计算结果,重新计算单词的语义权重,操作如下:
1.3.3.1遍历当前Mashup服务描述文档中的每一个单词wx,判断该是否在名词集NSet中,若wx在名词集中,通过以下公式重新计算单词语义权重,若wx不在名词集NSet中跳转到步骤3.3.2中
1.3.3.2赋值单词的语义权重为其TF-IDF值,计算公式如下:
SemWeight(wx)=TF-IDF(wx)
1.3.3.3重复1.3.3.1-1.3.3.2直至处理完所有Mashup服务,得到文档-单词语义权重矩阵D;
第二步:统计单词共现信息,从而计算出SPPMI矩阵信息,步骤如下:
2.1统计词共现信息,由于Mashup服务描述文档较短,为了能更准确地获取上下文共现信息,将整个服务描述文档作为滑动窗口的长度,计算每个单词和和其他单词在上下文中共同出现的次数,过程如下:
2.1.1对于当前Mashup服务,计算该Mashup服务描述文档长度Len,设定滑动窗口长度为Len;
2.1.2统计Mashup服务描述文档中单词和其他单词的共现情况,若当前单词的其上下文单词,即该单词前后的单词,在滑动窗口Len的距离内,则该单词和其在滑动窗口内的上下文单词共现次数加1;
2.1.3重复2.1.2直至处理完Mashup中的所有单词;
2.1.4重复2.1.1-2.1.3直至处理完所有Mashup服务;
2.2点互信息(Pointwise Mutual Information,PMI)计算,PMI被广泛用于计算单词间相似度的关系,当两个单词在文本中共现概率越大时,单词间的相关性就越强,PMI计算公式如下所示:
x和y表示两个单词,P(x,y)表示单词x和y共现的概率,P(x)表示单词x在上下文中出现概率。根据单词wj和其上下文单词wc在语料库中的实际共现次数,可以计算出两者之间的PMI值:
#(wj,wc)表示单词wj和上下文单词wc在语料库中的实际共现次数,E为上下文单词对共现的总次数,#(wj)为单词wj和其他单词共现的次数。 Voc表示语料库,即不重复单词的集合;
2.3计算偏移正点互信息值(Shifted Positive Pointwise MutualInformation,SPPMI)矩阵,SPPMI矩阵通过PMI值计算,SPPMI矩阵的计算方式为:
SPPMI(wj,wc)=max(PMI(wj,wc)-logκ,0)
其中κ为负采样系数。通过上述公式得到单词的上下文SPPMI矩阵M;
第三步:基于第一步,第二步得到Mashup服务文档单词的文档-单词语义权重信息矩阵D,单词的上下文SPPMI矩阵M,通过分解M可以得到词嵌入信息矩阵,进一步将上述两种信息进行结合,计算服务的主题信息,步骤如下:
3.1通过由第一步给定全局文档-单词语义权重信息矩阵D,通过NMF将其分解为文档-主题矩阵θ和主题-单词矩阵Z乘积。分解矩阵D的函数表示为:
subject to:θ≥0and Z≥0,θ∈RNxK,Z∈RVxK
其中代表L2范数,N表示Mashup文档数量,K表示文档的主题数量,V表示语料库单词的数量,R表示实数集,上标T表示矩阵转置;NMF是在矩阵中所有元素均为非负数约束条件之下,将一个非负矩阵表示为另外两个非负矩阵乘积方式的矩阵分解方法;
3.2通过第二步计算得到单词的上下文SPPMI矩阵M,分解矩阵M引入词嵌入信息,分解M的公式如下所示:
S是一个额外的对称因子,用于M的近似求解,W为单词的词嵌入矩阵;
3.3利用Mashup服务文档和单词间的关系,可以发现主题信息,通过文档内单词上下文的共现信息,可以学习到词嵌入信息,但是这两个部分并不相互孤立,语义相关的单词属于相似的主题,在嵌入空间中也很接近,可知单词嵌入与它们的主题相关,关系公式如下所示:
3.4在步骤3.3中将主题-单词矩阵Z分解为主题嵌入矩阵A和词嵌入矩阵W的乘积,将词嵌入与主题信息相联系起来,进一步提高了主题建模的准确性;
结合步骤3.1,3.2和3.3,得到主题模型的目标函数:
subject to:θ≥0 and Z≥0
求解该目标函数,使用矩阵迹运算将上述公式展开:
J(θ,Z,W,S,A)=λdTr((D-θZT)(D-θZT)T)+λwTr((M-WSWT)(M-WSWT)T)+λtTr((Z-WAT)(Z-WAT)T)
其中J(θ,Z,W,S,A)为J4在θ,Z,W,S,A参数下的展开形式,进一步运算得到以下公式:
J(θ,Z,W,S,A)=λdTr(DDT-2DZθT+θZTZθT)+λwTr(MMT-2MWSWT+WSWTWSWT)+λtTr(ZZT-2ZAWT+WATAWT)
Tr表示矩阵求迹,λd,λw和λt为不同部分的权重系数,用于调整各部分计算的误差对结果的影响。根据正则化约束得到以下目标函数:
其中α,β,γ,ω为正则化参数,避免过拟合;为使目标函数最小化,对上述目标函数求偏导得到以下公式:
令α⊙θ=0,β⊙Z=0,γ⊙W=0,⊙表示阿达马乘积,即矩阵对应位置的乘积,利用阿达马乘积,令上述公式偏导为0,进一步得到以下等式方程:
-2(DZ)⊙θ+2(θZTZ)⊙θ+α⊙θ=0
-2(λdDTθ+λtWAT)⊙Z+2(λdZθTθ+λtZ)⊙Z+β⊙Z=0
进一步更新参数:
通过上述参数更新方式,求解出Mashup服务文档-主题矩阵θ和主题-单词矩阵Z,词嵌入矩阵W,主题嵌入矩阵A。
本说明书的实施例所述的内容仅仅是对发明构思的实现形式的列举,仅作说明用途。本发明的保护范围不应当被视为仅限于本实施例所陈述的具体形式,本发明的保护范围也及于本领域的普通技术人员根据本发明构思所能想到的等同技术手段。
Claims (6)
1.一种基于TWE-NMF模型的Web服务描述文档语义挖掘方法,其特征在于,所述方法包括以下步骤:
第一步:根据上下文信息和服务标签信息计算单词的语义权重信息从而得到文档-单词语义权重信息矩阵D,步骤如下:
1.1使用Python中的自然语言工具包NLTK,对Mashup服务描述文档进行中的单词进行词性标注;
1.2:统计单词词频信息,计算TF-IDF信息;
1.3:提取Mashup服务标签信息,并基于名词集Nset和TF-IDF值,重新计算Mashup服务描述文档中的每一个单词的语义权重;
第二步:统计单词共现信息,从而计算出SPPMI矩阵信息,步骤如下:
2.1统计词共现信息,由于Mashup服务描述文档较短,为了能更准确地获取上下文共现信息,将整个服务描述文档作为滑动窗口的长度,计算每个单词和其他单词在上下文中共同出现的次数;
2.2点互信息PMI计算,PMI被广泛用于计算单词间相似度的关系,当两个单词在文本中共现概率越大时,单词间的相关性就越强,PMI计算公式如下所示:
x和y表示两个单词,P(x,y)表示单词x和y共现的概率,P(x)表示单词x在上下文中出现概率,根据单词wj和其上下文单词wc在语料库中的实际共现次数,可以计算出两者之间的PMI值:
#(wj,wc)表示单词wj和上下文单词wc在语料库中的实际共现次数,E为上下文单词对共现的总次数,#(wj)为单词wj和其他单词共现的次数, Voc表示语料库,即不重复单词的集合;
2.3计算偏移正点互信息值SPPMI矩阵,SPPMI矩阵通过PMI值计算,SPPMI矩阵的计算方式为:
SPPMI(wj,wc)=max(PMI(wj,wc)-logκ,0)
其中κ为负采样系数,通过上述公式得到单词的上下文SPPMI矩阵M;
第三步:基于第一步,第二步得到Mashup服务文档单词的文档-单词语义权重信息矩阵D,单词的上下文SPPMI矩阵M,通过分解M可以得到词嵌入信息矩阵,进一步将上述两种信息进行结合,计算服务的主题信息,步骤如下:
3.1通过由第一步给定全局文档-单词语义权重信息矩阵D,通过NMF将其分解为文档-主题矩阵θ和主题-单词矩阵Z乘积,分解矩阵D的函数表示为:
subject to:θ≥0and Z≥0,θ∈RNxK,Z∈RVxK
其中代表L2范数,N表示Mashup文档数量,K表示文档的主题数量,V表示语料库单词的数量,R表示实数集,上标T表示矩阵转置;NMF是在矩阵中所有元素均为非负数约束条件之下,将一个非负矩阵表示为另外两个非负矩阵乘积方式的矩阵分解方法;
3.2通过第二步计算得到单词的上下文SPPMI矩阵M,分解矩阵M引入词嵌入信息,分解M的公式如下所示:
S是一个额外的对称因子,用于M的近似求解,W为单词的词嵌入矩阵;
3.3利用Mashup服务文档和单词间的关系,可以发现主题信息,通过文档内单词上下文的共现信息,可以学习到词嵌入信息,但是这两个部分并不相互孤立,语义相关的单词属于相似的主题,在嵌入空间中也很接近,单词嵌入与它们的主题相关,关系公式如下所示:
3.4结合步骤3.1,3.2和3.3,得到主题模型的目标函数:
subject to:θ≥0and Z≥0
求解该目标函数,使用矩阵迹运算将上述公式展开:
J(θ,Z,W,S,A)=λdTr((D-θZT)(D-θZT)T)+λwTr((M-WSWT)(M-WSWT)T)+λtTr((Z-WAT)(Z-WAT)T)
其中J(θ,Z,W,S,A)为J4在θ,Z,W,S,A参数下的展开形式,进一步运算得到以下公式:
J(θ,Z,W,S,A)=λdTr(DDT-2DZθT+θZTZθT)+λwTr(MMT-2MWSWT+WSWTWSWT)+λtTr(ZZT-2ZAWT+WATAWT)
Tr表示矩阵求迹,λd,λw和λt为不同部分的权重系数,用于调整各部分计算的误差对结果的影响,根据正则化约束得到以下目标函数:
其中α,β,γ,ω为正则化参数,避免过拟合;为使目标函数最小化,对上述目标函数求偏导得到以下公式:
令α⊙θ=0,β⊙Z=0,γ⊙W=0,ω⊙A=0,⊙表示阿达马乘积,即矩阵对应位置的乘积,利用阿达马乘积,令上述公式偏导为0,进一步得到以下等式方程:
-2(DZ)⊙θ+2(θZTZ)⊙θ+α⊙θ=0
-2(λdDTθ+λtWAT)⊙Z+2(λdZθTθ+λtZ)⊙Z+β⊙Z=0
-2(λwMWS+λtZA)⊙W+(λtWATAW+2λwWSWTWS)⊙W+γ⊙W=0
-(ZTW)⊙A+(AWTW)⊙A+ω⊙A=0
进一步更新参数:
通过上述参数更新方式,求解出Mashup服务文档-主题矩阵θ和主题-单词矩阵Z,词嵌入矩阵W,主题嵌入矩阵A。
2.如权利要求1所述的基于TWE-NMF模型的Web服务描述文档语义挖掘方法,其特征在于,所述1.1的过程如下:
1.1.1遍历当前Mashup服务描述文档中的每一个单词,利用NLTK对单词进行词性还原;
1.1.2利用NLTK提取单词词根,并判断单词是否是名词性单词,若是名词性单词加入名词集合Nset;
1.1.3重复步骤1.1.1-1.1.2直至处理完所有Mashup服务。
3.如权利要求1或2所述的基于TWE-NMF模型的Web服务描述文档语义挖掘方法,其特征在于,所述1.2的过程如下:
1.2.1遍历Mashup服务描述文档中的每个单词,统计当前文档中每个单词的出现的次数,计算每个单词TF值,计算公式如下:
其中TFi,j表示第i个Mashup服务描述文档中第j个单词的词频信息,NUM(j)表示第j个单词出现的次数,LEN(i)表示第i个Mashup文本的长度;
1.2.2统计每个单词出现过的Mashup服务文档数量,计算IDF值,计算公式如下:
IDF(x)表示单词x的IDF值,N表示Mashup文档的数量,doc(x)表示包含单词x的Mashup文档数量;
1.2.3遍历所有Mashup文档中的单词,计算单词的TF-IDF值计算公式如下:
TF-IDF(x)=TF(x)*IDF(x)
TF-IDF(x)表示单词x的TF-IDF值,TF(x)表示单词x的TF值。
4.如权利要求1或2所述的基于TWE-NMF模型的Web服务描述文档语义挖掘方法,其特征在于,所述1.3的过程如下:
1.3.1遍历当前Mashup服务文档中每一个单词wx计算其上下文语义权重信息WeightContexy(wx),计算公式如下:
其中sim(wx,wy)表示单词wx和wy的相似度,通过WordNet工具计算,wy为wx的上下文单词,d表示当前Mashup服务描述文档,Nd表示当前Mashup服务描述文档的长度;WordNet是一种英语词典,通过网状结构来组织词汇,将含义相近的词汇划分到一个组中,通过返回词汇在网络之间的最短路径得到相似度;
1.3.2计算单词的服务标签语义权重信息WeightTag(wx),计算公式如下:
其中Tagd表示当前Mashup服务文档的服务标签集合,t表示服务标签中的单词;
1.3.3基于TF-IDF值,并结合1.3.1和1.3.2中的计算结果,重新计算单词的语义权重。
5.如权利要求4所述的基于TWE-NMF模型的Web服务描述文档语义挖掘方法,其特征在于,所述1.3.3的操作步骤如下:
1.3.3.1遍历当前Mashup服务描述文档中的每一个单词wx,判断该是否在名词集NSet中,若wx在名词集中,通过以下公式重新计算单词语义权重,若wx不在名词集NSet中跳转到步骤3.3.2中;
1.3.3.2赋值单词的语义权重为其TF-IDF值,计算公式如下:
SemWeight(wx)=TF-IDF(wx)
1.3.3.3重复1.3.3.1-1.3.3.2直至处理完所有Mashup服务,得到文档-单词语义权重矩阵D。
6.如权利要求1或2所述的基于TWE-NMF模型的Web服务描述文档语义挖掘方法,其特征在于,所述2.1的过程如下:
2.1.1对于当前Mashup服务,计算该Mashup服务描述文档长度Len,设定滑动窗口长度为Len;
2.1.2统计Mashup服务描述文档中单词和其他单词的共现情况,若当前单词的上下文单词,即该单词前后的单词,在滑动窗口Len的距离内,则该单词和其在滑动窗口内的上下文单词共现次数加1;
2.1.3重复2.1.2直至处理完Mashup中的所有单词;
2.1.4重复2.1.1-2.1.3直至处理完所有Mashup服务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110096324.XA CN112836488B (zh) | 2021-01-25 | 2021-01-25 | 基于TWE-NMF模型的Web服务描述文档语义挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110096324.XA CN112836488B (zh) | 2021-01-25 | 2021-01-25 | 基于TWE-NMF模型的Web服务描述文档语义挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112836488A CN112836488A (zh) | 2021-05-25 |
CN112836488B true CN112836488B (zh) | 2024-02-20 |
Family
ID=75931355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110096324.XA Active CN112836488B (zh) | 2021-01-25 | 2021-01-25 | 基于TWE-NMF模型的Web服务描述文档语义挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112836488B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101582080A (zh) * | 2009-06-22 | 2009-11-18 | 浙江大学 | 一种基于图像和文本相关性挖掘的Web图像聚类方法 |
CN111475609A (zh) * | 2020-02-28 | 2020-07-31 | 浙江工业大学 | 一种围绕主题建模的改进型K-means服务聚类方法 |
CN111475608A (zh) * | 2020-02-28 | 2020-07-31 | 浙江工业大学 | 一种基于功能语义关联计算的Mashup服务特征表示方法 |
CN111539784A (zh) * | 2020-04-10 | 2020-08-14 | 上海交通大学 | 基于组合语义学习的服务包推荐方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11568266B2 (en) * | 2019-03-15 | 2023-01-31 | Baidu Usa Llc | Systems and methods for mutual learning for topic discovery and word embedding |
-
2021
- 2021-01-25 CN CN202110096324.XA patent/CN112836488B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101582080A (zh) * | 2009-06-22 | 2009-11-18 | 浙江大学 | 一种基于图像和文本相关性挖掘的Web图像聚类方法 |
CN111475609A (zh) * | 2020-02-28 | 2020-07-31 | 浙江工业大学 | 一种围绕主题建模的改进型K-means服务聚类方法 |
CN111475608A (zh) * | 2020-02-28 | 2020-07-31 | 浙江工业大学 | 一种基于功能语义关联计算的Mashup服务特征表示方法 |
CN111539784A (zh) * | 2020-04-10 | 2020-08-14 | 上海交通大学 | 基于组合语义学习的服务包推荐方法及系统 |
Non-Patent Citations (6)
Title |
---|
Collaboratively Improving Topic Discovery and Word Embeddings by Coordinating Global and Local Contexts;Guangxu Xun等;Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining;全文 * |
Non-negative Matrix Factorization Meets Word Embedding;Melissa Ailem等;Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval;全文 * |
Structure-aware Mashup service Clustering for cloud-based Internet of Things using genetic algorithm based clustering algorithm;Weifeng Pan等;Future Generation Computer Systems(第87期);全文 * |
基于Mashup服务语义表达聚类的API推荐方法研究;朱书苗;中国硕士学位论文全文数据库(第07期);全文 * |
基于词向量的跨语言文本相似度检测关键技术研究;郭飞;中国博士学位论文全文数据库(第01期);全文 * |
面向领域标签辅助的服务聚类方法;田刚等;电子学报;第43卷(第07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112836488A (zh) | 2021-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104834735B (zh) | 一种基于词向量的文档摘要自动提取方法 | |
CN103473280B (zh) | 一种网络可比语料的挖掘方法 | |
CN108681557B (zh) | 基于自扩充表示和相似双向约束的短文本主题发现方法及系统 | |
Wahid et al. | Topic2Labels: A framework to annotate and classify the social media data through LDA topics and deep learning models for crisis response | |
Nagamanjula et al. | A novel framework based on bi-objective optimization and LAN2FIS for Twitter sentiment analysis | |
CN109271514B (zh) | 短文本分类模型的生成方法、分类方法、装置及存储介质 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN102270212A (zh) | 一种基于隐半马尔可夫模型的用户兴趣特征提取方法 | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
US20240111956A1 (en) | Nested named entity recognition method based on part-of-speech awareness, device and storage medium therefor | |
US11886515B2 (en) | Hierarchical clustering on graphs for taxonomy extraction and applications thereof | |
CN112836491B (zh) | 面向NLP基于GSDPMM和主题模型的Mashup服务谱聚类方法 | |
Hashemzadeh et al. | Improving keyword extraction in multilingual texts. | |
Pichiyan et al. | Web scraping using natural language processing: exploiting unstructured text for data extraction and analysis | |
Kavyashree et al. | Survey on automatic text summarization using NLP and deep learning | |
CN112836489B (zh) | 一种基于互联网服务单词语义权重的文本主题挖掘方法 | |
CN112836488B (zh) | 基于TWE-NMF模型的Web服务描述文档语义挖掘方法 | |
Shahade et al. | Deep learning approach-based hybrid fine-tuned Smith algorithm with Adam optimiser for multilingual opinion mining | |
Ismail et al. | Using custom fuzzy thesaurus to incorporate semantic and reduce data sparsity for twitter sentiment analysis | |
Wadawadagi et al. | A multi-layer approach to opinion polarity classification using augmented semantic tree kernels | |
CN113536772A (zh) | 一种文本处理方法、装置、设备及存储介质 | |
CN112836490B (zh) | 云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法 | |
Ye et al. | Research on web page classification method based on query log | |
Kalaiarasu et al. | Sentiment analysis using improved novel convolutional neural network (SNCNN) | |
Shilaskar et al. | LSTM Sequence to Sequence Model for Dynamic Title Generation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |