CN102591988A

CN102591988A - 基于语义图的短文本分类方法

Info

Publication number: CN102591988A
Application number: CN2012100120771A
Authority: CN
Inventors: 宋胜利; 陈平
Original assignee: Individual
Current assignee: Xidian University
Priority date: 2012-01-16
Filing date: 2012-01-16
Publication date: 2012-07-18
Anticipated expiration: 2032-01-16
Also published as: CN102591988B

Abstract

本发明公开了一种基于语义图的短文本分类方法，其特征在于：其步骤如下：步骤A，对每条文本信息构建文本语义图模型，合并各条文本语义图模型；步骤B，对文本语义图模型采用相似度计算法比较不同文本之间的相似程度；步骤C，根据文本相似程度，使用文本语义图分类器进行分类。本发明中这种图结构表示文本可以极大程度上突出文档的语义内涵，所以利用这种方法构建出的TSG模型可以很大程度上精确的描述出文本中的隐含语义信息和主题特征，利用这一特征可以使得利用TSG的分类方法对比其他的分类方法更加可靠高效，极大程度上减小了人工的开销，避免了很大程度上的对文本信息的人工的整理，而使用计算机来自动进行组织。

Description

基于语义图的短文本分类方法

技术领域

本发明涉及一种语言处理、表示和文本分类领域，具体涉及一种基于语义图的短文本分类方法。

背景技术

互联网技术的快速变革使得人类社会进入了信息极大丰富和快速更新的时代，特别是近年来各种社交网络的出现，每天有海量文本信息不断产生和传播，这些文本信息通常都是由简短的话语构成。人们每日都要处理海量的信息资源，但利用人工是非常低效的。因此，我们迫切需要解决的问题是：如何更好的利用网络上的海量信息中潜在的语义信息来对文本信息进行高效的整理和分类，从而更为有效的对海量文本进行管理和维护。近年来出现了大量的针对文本信息的分类方法，但大多数的方法都无法准确高效以文本语义信息来进行分类。语义图式的短文本分类技术就是为了解决这一问题而提出的。它以图结构作为表示文本信息，利用图的相似性来计算文本之间的相似性，最终利用计算出的相似度运用于分类方法中把海量的文本资源根据涵义分到不同的类别。

文本分类技术是在预先给定的类别标记集合下，根据文本内容判定它的类别，其广泛应用于自然语言处理与理解、内容信息过滤和舆情管理等多个领域。利用计算机处理文本信息，首先必须把文本表示成计算机可以理解的形式。文本表示(Text Representation)是将自然语言文本描述为便于计算机处理的形式，它是文本分类处理及其它文本挖掘任务的基础和关键步骤。文本如何表示对分类方法的选择和分类的效果以及速度有极大的影响，好的文本表示方法可以极大的减少计算机处理的开销，同时好的文本表示方法可以充分的表示出一个文本单元的内在涵义而不丢失信息。文本表示需要满足两个基本条件：首先文本表示过程中应保证文本语义信息的一致性，其次要求文本表示模型应便于进行后续计算过程。

通常文本表示方法按照结构特征可以分为五类：(1)集合理论：文本表示为特征词的集合；(2)代数理论：文本表示为向量、元组或矩阵；(3)概率统计：利用马尔可夫模型等将文本处理看作概率推理，能够考虑有限的组合关系；(4)图论：利用有向图描述文本概念之间的语义关系；(5)混合模型。使用最广泛的文本表示方法有两种：基于词频统计的向量空间模型(Vector Space Model，简称VSM)和基于语义分析的隐含语义索引(LatentSemantic Indexing，简称LSI)。SVM利用词袋(Bag Of Words，简称BOW)作为文本表示单元，将文档中包含的特征词看作多维的特征空间，每篇文档分别对应于该特征空间向量的一个实例。LSI利用词语与概念之间的映射关系，通过奇异值分析将文本中的索引词映射到低维空间中进行分析。

目前对英文文本表示已经有了一定的研究，但对中文的文本表示研究方面还有所欠缺。这是因为，从自然语言理解的角度分析，英语是形合(Merplotactic)语言，造句要求词的形态变化符合规则，注重句法平面；而汉语是意合(Semotactic)语言，造句要求词的意义搭配符合情理，注重语义平面。VSM作为英文文本的一种有效表示方法在中文文本表示方法有一定的缺陷和不足：(1)缺少词根特征，文本通常表示为一个高维度稀疏向量；(2)不同词语包含的信息熵及其对于文档主题的贡献度没有作区分；(3)中文词语丰富的含义使得语义相同或者相近的文档中相同的词语并不多，文本表示中丢失了概念之间天然的语义联系。LSI利用本体库或者概念词典实现词语的语义映射，其应用于中文信息处理中也会受到限制：(1)中文缺乏实用的语义词典；(2)这类模型通常过于复杂，其通用性受到限制，不便于进行后续计算。

近年来，基于图结构模型的文本表示方法成为研究热点，Schenker^[2]等(Classification of Web Documents Using a Graph Model)等首次将图结构引入到文本表示中，将Web文本中的英文特征项作为节点，以节点间的邻接共现关系为边进行构图，并用三种位置名称定义边的类别，这种方法在中文语境下无法直接使用，而且该模型构图时只考虑了边的位置信息，没有考虑特征项出现的频率及边的权重对文本表示效果的影响原因在于中文缺乏实用的语义词典，以及这类模型通常过于复杂，其通用性受到限制，不便于进行后续计算。

基于图的文本语义表示方法主要是从2000年后开始的，这种方法首先用在了信息检索领域，将两个文本分别利用概念图表示，利用概念图的二分特性加入了新的比较元素计算文档之间的相关性，并在信息检索中使用了关键词和概念图两层表示方法。Bhoopesh和Pushpa k针对词包表示方法在表示词语语义内涵的不足，利用句子中词语之间的语义关系产生新的特征向量，利用特征向量构建UNL图表示文本并结合SOM进行了聚类分析的神经网络方法，在特征向量统计中加入词频信息获得了更好的聚类效果；Adam Schenker在2003提出了用于网页聚类和分类的图结构文本表示模型，这种模型能够保留文档中不同部件之间的结构信息，分别在现有的分类和聚类算法上进行了扩展，其与传统的向量表示模型相比，提升了分类和聚类的准确性，但是这个模型仅考虑了特征词之间是否共现而并未考虑共现的频率。Svetlana提出了基于VerbNet和WordNet构建文本概念图，通过识别句子中不同的语义角色结合半自动化编译的领域特定知识构建概念图表示结构。虽然这些模型能够体现出文本的语义信息，但是由于其结构过于复杂没有一种有效的方法来计算图表示结构之间的相似度。

近年来，文本语义表示方法作为一个研究热点开展了大量的研究工作，并被广泛应用于各种不同的文本挖掘任务中。Wei Song[7]和Soon CheolPark根据词语对句子含义贡献度的不同，提出了一种包含统计分析器、概念本体图表示和概念提取器文档表示方法。Hang-Shing Lee[8]等针对领域本体构建方法研究了基于剧情构建文本本体模型，剧情包含文本中的概念属性和相关操作。Anna Stavrianou和Periklis Andritsos[9]总结了文本语义表示模型并给出了比较分析，对后续的研究工作有很大的促进作用。Wei Jin和Rohini K.Srihari[10]提出了一种基于图的文本表示结构，节点表示一个特征概念，链接关系表示了概念之间的联系，链接的权重基于概念之间在同一个段落或句子中的共现率，利用骰子系数或极大似然估计的方法计算。MW Chang[11]等利用类别标签作为原子概念，从维基百科词典中获取文本片段的显式语义分析[12](Explicit Semantic Analysis，ESA)表示，构建带权向量来表示文本以便于进行后续计算。Yanjun Li[13]等认为基于词语在文本中出现的顺序对于文本主题的重要意义，通过计算在文本中出现的词的统计频率，然后按照词在文本词集中所占的比例，筛选出高频词和高频词义表示文本内容。Khaled Shaban[14]利用语义图模型作为文本的表示模式，分析句子的谓语结构并将结构中各个元素赋值，所有经过解析的句子合并后形成一个树结构表示文本的内容。Walaa K.Gad和Mohamed S.Kamel[15]利用WordNet作为本体模型计算词项之间的语义关系，在表示文档时，加入了新的语义权重，在词频权重中引入了词项之间语义相似度的值，在语义上相关的词项被赋予更高的语义权重以强化文档所表示的语义中心。国内关于文本语义表示方法的研究相对较少，刘建毅等利用词语网络描述文本语义信息，将词语之间的语义关系分为共现网络、句法网络和语义网络分别进行处理。吴江宁等提出了一种考虑词间语义和语序信息的基于图结构的中文文本表示方法，将文本特征项表示为图结构中的节点，特征项间的关系表示成节点间的有向边，提高了文本分类系统的性能。但这些方法都或多或少有所缺陷。

发明内容

本发明的目的在于针对现有技术的不足，结合词语的语境和语义背景信息，提出了一种基于语义图的短文本分类方法。

实现本发明目的的技术方案是提供一种基于语义图的短文本分类方法，其特征在于：其步骤如下：

步骤A，对每条文本信息构建文本语义图模型，合并各条文本语义图模型；

步骤B，对文本语义图模型采用相似度计算法比较不同文本之间的相似程度；

步骤C，根据文本相似程度，使用文本语义图分类器进行分类。

进一步，所述步骤A包括如下步骤：

步骤A-1，构造出每条语句的核心词语并列表统计；

步骤A-2，基于语句核心词语列表，分别构造各条语句对应的文本语义图模型，然后合并各条语句的文本语义图模型，输出整个文章的文本语义图模型。

进一步，所述步骤A-2包括如下步骤：

步骤A-2-1，构造当前语句的文本语义图模型；

步骤A-2-2，合并节点，计算新增节点与原节点之间的语义关系，如果节点之间词语相同或者语义相似度满足阈值条件，则将两个节点词语合并，节点权值相加，否则保留该节点；

步骤A-2-3，合并有向边，如果新增有向边的相邻节点均被合并且合并后的节点之间存在有向边，则合并该两条有向边，有向边权值相加；

步骤A-2-4，比较合并节点的权值与相邻节点的权值，如果相邻节点的权值大于该节点的权值，则更新邻接边的权值为该节点的权值以强化节点之间的语义联系；

步骤A-2-5，直到合并所有语句的文本语义图模型，则对应整个文章的文本语义图模型，完成文章的文本语义图模型的构造。

进一步，所述步骤B包括如下步骤：所述相似度计算法包括文本相似度算法、类别隶属度算法。

或，所述文本相似度算法的计算公式为：

TextSim (G_{1}, G_{2}) = η \frac{Wtnode (V_{1}, V_{2})}{Wtnode (V_{1}, V_{2}) + | &Not; RNSet (V_{1}, V_{2}) |} + (1 - η) \frac{Wtedge (E_{1}, E_{2})}{Wtedge (E_{1}, E_{2}) + | &Not; RESet (E_{1}, E_{2}) |}

其中G₁＝(V₁，E₁，α₁，β₁)，G₂＝(V₂，E₂，α₂，β₂)；

G₁与G₂为两个不同文本，V₁、V₂为一组节点的集合；E₁、E₂为一组有向边的集合；α₁、α₂为节点有权值函数；β₁、β₂为有向边权值函数；η∈(0，1]为权重调节因子；

G₁和G₂之间语义关联节点的权值之和Wtnode(V₁，V₂)＝Wtnode(V₁→V₂)+Wtnode(V₂→V₁)，V₁相对于V₂的关联节点集中各个节点的权值之和表示为

Wtnode (V_{1} &RightArrow; V_{2}) = Σ_{v_{i} &Element; RNSet (V_{1} &RightArrow; V_{2})} α_{1} (v_{i});

两个文本语义图之间语义关联边的权值之和Wtedge(E₁，E₂)＝Wtedge(E₁→E₂)+Wtedge(E₂→E₁)，E₁相对于E₂的关联边集中各条边的权重之和表示为

Wtedge (E_{1} &RightArrow; E_{2}) = Σ_{(v_{i}, v_{j}) &Element; RESet (E_{1} &RightArrow; E_{2})} β_{1} (v_{i}, v_{j});

G₁和G₂之间没有关联的节点集可表示为

&Not; RESet (E_{1}, E_{2}) = (E_{1} - RESet (E_{1} &RightArrow; E_{2})) \cup (E_{2} - RESet (E_{2} &RightArrow; E_{1})),

有向边集E₁中邻接点属于V₁相对于V₂的关联节点集中所有有向边所构成的集合称为E₁相对于E₂的关联边集，它是有向边集E₁的子集，记为RESet(E₁→E₂)＝{(v_i，v_j)|(v_i，v_j)∈E₁；v_i，v_j∈RNSet(V₁→V₂)}；

G₁和G₂之间没有语义关联的节点集可表示为

&Not; RNSet (V_{1}, V_{2}) = (V_{1} - RNSet (V_{1} &RightArrow; V_{2})) \cup (V_{2} - RNSet (V_{2} &RightArrow; V_{1})),

节点集V₁中与节点集V₂中任意节点v_j之间词包相似度大于等于μ的的所有节点V_i所构成的集合称为V₁相对于V₂的关联节点集，它是节点集V₁的子集，记为RNSet(V₁→V₂)＝{v_i|μSim(Λ_μ(v_i)，Λ_μ(v_j))≥μ；v_i∈V₁；v_j∈V₂}。

6、根据权利要求4所述的基于语义图的短文本分类方法，其特征在于：所述类别隶属度算法的计算公式为：

MemDegree (G_{1}, G) = η \frac{Wtnode (V_{1} &RightArrow; V)}{Σ_{v_{i} &Element; V_{1}} α_{1} (v_{i})} + (1 - η) \frac{Wtedge (E_{1} &RightArrow; E)}{Σ_{(v_{i}, v_{j}) &Element; E_{1}} β_{1} (v_{i}, v_{j})}

V₁相对于V的关联节点集中各个节点的权值之和表示为Wtnode(V₁→V)＝∑_{V1∈R(v1→v)}α₁(V_i)Wtnode(V₁→V)；

相对于E₂的关联边集中各条边的权重之和表示为Wtedge(E₁→E)＝∑_{(Vi，Vj)∈Rest(E1→E)}β₁(V_i，V_j)。

本发明具有积极的效果：(1)本发明中这种图结构表示文本可以极大程度上突出文档的语义内涵，所以利用这种方法构建出的TSG模型可以很大程度上精确的描述出文本中的隐含语义信息和主题特征，利用这一特征可以使得利用TSG的分类方法对比其他的分类方法更加可靠高效，极大程度上减小了人工的开销，避免了很大程度上的对文本信息的人工的整理，而使用计算机来自动进行组织。

(2)本发明中的TSG模型所表示的文档相似度计算中不仅考虑词条集合的覆盖程度，而且考虑两篇文档之间语义上的关联度，这两点通过上面步骤中的TSG模型构建可以看出，词义相同的或相近的词合并，由于这种方法就可以即充分考虑到词条集合的覆盖程度以及文档之间语义的关联程度。

(3)本发明中采用文本相似度计算法，一方面考虑到了节点的权重，另一方面考虑到了边的权重。同时在该计算方法不仅考虑到了相似节点或边的加成，也同时考虑到了无关节点或边的削弱。无关节点或边的消弱利用了关联节点集和关联边集的非概念。这种方法体现了一个显然的事实，即无关的越多，相似性越低；而相似的内容越多，相似性越高。这样可以进一步提高文本相似性计算的准确性。

(4)本发明采用类别隶属度计算法，体现了该文本中和给定样本训练模型之间的包含和相近程度，在数学上和实际的应用中都可以被证明是可靠的，符合事实的，从而可以准确的运用于文本的分类中而不出现偏差。

附图说明

图1为本发明的方法框图；

图2为图1所示的短文本分类方法中的步骤A的实现步骤；

图3为图2所示的短文本分类方法中的步骤A-2的实现步骤；

图4为实施例中文本1构造的文本语图结构；

图5为实施例中文本2构造的文本语图结构。

具体实施方式

(实施例1)

见图1-图4，一种基于语义图的短文本分类方法，其步骤如下：

本实施例中，步骤A包括如下步骤：

步骤A-1，构造出每条语句的核心词语并列表统计；

步骤A-2包括如下步骤：

步骤A-2-1，构造当前语句的文本语义图模型；

在步骤B包括如下步骤：所述相似度计算法包括文本相似度算法、类别隶属度算法。

其中文本相似度算法的计算公式为：

TextSim (G_{1}, G_{2}) = η \frac{Wtnode (V_{1}, V_{2})}{Wtnode (V_{1}, V_{2}) + | &Not; RNSet (V_{1}, V_{2}) |} + (1 - η) \frac{Wtedge (E_{1}, E_{2})}{Wtedge (E_{1}, E_{2}) + | &Not; RESet (E_{1}, E_{2}) |}

Wtnode (V_{1} &RightArrow; V_{2}) = Σ_{v_{i} &Element; RNSet (V_{1} &RightArrow; V_{2})} α_{1} (v_{i});

Wtedge (E_{1} &RightArrow; E_{2}) = Σ_{(v_{i}, v_{j}) &Element; RESet (E_{1} &RightArrow; E_{2})} β_{1} (v_{i}, v_{j});

G₁和G₂之间没有关联的节点集可表示为

&Not; RESet (E_{1}, E_{2}) = (E_{1} - RESet (E_{1} &RightArrow; E_{2})) \cup (E_{2} - RESet (E_{2} &RightArrow; E_{1})),

G₁和G₂之间没有语义关联的节点集可表示为

&Not; RNSet (V_{1}, V_{2}) = (V_{1} - RNSet (V_{1} &RightArrow; V_{2})) \cup (V_{2} - RNSet (V_{2} &RightArrow; V_{1})),

其中类别隶属度算法的计算公式为：

MemDegree (G_{1}, G) = η \frac{Wtnode (V_{1} &RightArrow; V)}{Σ_{v_{i} &Element; V_{1}} α_{1} (v_{i})} + (1 - η) \frac{Wtedge (E_{1} &RightArrow; E)}{Σ_{(v_{i}, v_{j}) &Element; E_{1}} β_{1} (v_{i}, v_{j})}

V₁相对于V的关联节点集中各个节点的权值之和表示为Wtnode(V₁→V)＝∑_{V1∈R(v1→v)}α₁(V₁)Wtnode(V₁→V)；

这里详细介绍利用该方法的一个实例。

主要包括基于维基百科的语义相似度计算、TSG模型的构造、TSG模型间相似度的计算、以及分类。

一、基于维基百科的词语相似度计算

这里仅给出计算的方法以及一个简单的实例。

文档T＝{w_i}表示输入文档，<v_i>表示与{w_i}相对应的TF·IDF向量；用<k_j>表示词语w_i的倒排索引向量，其中k_j为词语w_i相对于词条c_j(c_j∈{c₁，c₂，...，c_N})的倒排权值，N为维基百科中所有词条的数目；文档T对应为长度为N的语义解释向量V，其第i维度词条c_j对应的词条权重为文档T_i和T_j之间的语义相似度可以用其对应向量V_i和V_j夹角的余弦值表示，词语w_i和w_j之间的语义相似度可以用其对应向量K_i和K_j夹角的余弦值表示，即

Word {Sim}_{w_{i}, w_{j}} = K_{i} \cdot K_{j} / | | K_{i} | | | | K_{j} | | .

假设，存在维基百科文章A、B、C、D。这些文章中存在词{a，b，c，d}，其中A中包含词{a：1，b：2，c：3，d：0}，B中包含词{a：0，b：3，c：2，d：4}，C中包含词{a：1，b：0，c：1，d：3}，D中包含词{a：1，b：1，c：1，d：1}。

所以对每篇文章可以建立向量A[1，2，3，0]，B[0，3，2，4]，C[1，0，1，3]，D[1，1，1，1]。这样各个词条之间的相似度可以利用文章向量之间的相似度来进行计算。可得出：

WordSim(A，B)＝A·B/|A||B|＝0.596 WordSim(A，C)＝0.322WordSim(A，D)＝0.82

WordSim(B，C)＝0.784 WordSim(B，D)＝0.836 WordSim(C，D)＝0.754

这样就得出了各个词条之间的相似程度。

二、TSG构造实例

这里μ＝0.7，这是通过多次试验得到的经验值。

通过两个新闻文本片段实例来说明具体如何构建文本对应的文本语义图模型。

文本1：

(1)经过中文分词和词性过滤，以逗号或者句号作为语句结束标志，获得了每条语句的核心词语列表。

s₁＝(日本，财务，省，数据，显示)s₂＝(日本，月，调整，贸易，盈余，减少，圆)s₃＝(经济学家，预期，减少)

(2)根据算法1中所描述的TSG构建过程，输入S＝{s₁，s₂，s₃}，μ＝0.7，根据词语语义相似度阈值合并后产生的μ词包如表2所示。

表2文本语义图节点信息

所构建TSG中包含的有向边及权值信息：

β(v₁，v₂)＝β(v₁，v₆)＝β(v₂，v₃)＝β(v₂，v₈)＝β(v₇，v₂)＝β(v₈，v₉)＝β(v₉，v₆)＝β(v₁₁，v₉)＝2

β(v₃，v₄)＝β(v₄，v₅)＝β(v₆，v₇)＝β(v₁₀，v₁₁)＝1

最后输出文本1对应的TSG表示，TSG如图4所示，都用G1表示。

文本2：

这里的计算方法和上面相同，所以文本2对应的TSG表示结构如图5所示，都用G2表示。

三、TSG相似度计算

该计算需要利用上面所得到的结果和之前书写的一些定义内容才能完成文本之间的相似度的计算。

G₁和G₂文本相似度计算过程如下，设置参数μ＝0.7，η＝0.5，Wtnode(V₁，V₂)＝10+11＝21，Wtedge(E₁，E₂)＝12+21＝33，

| &Not; RNSet (V_{1}, V_{2}) | = 5 + 2 = 7,

| &Not; RESet (E_{1}, E_{2}) | = 6 + 2 = 8 .

最后，计算文本相似度TextSim(G₁，G₂)＝0.5×(21/(21+7))+(1-0.5)×(33/(33+8))＝0.7775，即说明两篇文本之间的相似度为0.7775，符合人工理解和判断的结果。

四、分类过程

首先，从互联网中抽取信息。先进行训练样本的学习，然后利用分类训练模型对未分类文本进行分类处理。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而这些属于本发明的实质精神所引伸出的显而易见的变化或变动仍属于本发明的保护范围。

Claims

1.一种基于语义图的短文本分类方法，其特征在于：其步骤如下：

2.根据权利要求1所述的基于语义图的短文本分类方法，其特征在于：所述步骤A包括如下步骤：

步骤A-1，构造出每条语句的核心词语并列表统计；

3.根据权利要求2所述的基于语义图的短文本分类方法，其特征在于：所述步骤A-2包括如下步骤：

步骤A-2-1，构造当前语句的文本语义图模型；

4.根据权利要求3所述的基于语义图的短文本分类方法，其特征在于：所述步骤B包括如下步骤：所述相似度计算法包括文本相似度算法、类别隶属度算法。

5.根据权利要求4所述的基于语义图的短文本分类方法，其特征在于：所述文本相似度算法的计算公式为：

TextSim (G_{1}, G_{2}) = η \frac{Wtnode (V_{1}, V_{2})}{Wtnode (V_{1}, V_{2}) + | &Not; RNSet (V_{1}, V_{2})} + (1 - η) \frac{Wtedge (E_{1}, E_{2})}{Wtedge (E_{1}, E_{2}) + | &Not; RESet (E_{1}, E_{2}) |}

Wtnode (V_{1} &RightArrow; V_{2}) = Σ_{v_{i} &Element; RNSet (V_{1} &RightArrow; V_{2})} α_{1} (v_{i});

Wtedge (E_{1} &RightArrow; E_{2}) = Σ_{(v_{i}, v_{j}) &Element; RESet (E_{1} &RightArrow; E_{2})} β_{1} (v_{i}, v_{j});

G₁和G₂之间没有关联的节点集可表示为

&Not; RESet (E_{1}, E_{2}) = (E_{1} - RESet (E_{1} &RightArrow; E_{2})) \cup (E_{2} - RESet (E_{2} &RightArrow; E_{1})),

G₁和G₂之间没有语义关联的节点集可表示为

&Not; RNSet (V_{1}, V_{2}) = (V_{1} - RNSet (V_{1} &RightArrow; V_{2})) \cup (V_{2} - RNSet (V_{2} &RightArrow; V_{1})),

6.根据权利要求4所述的基于语义图的短文本分类方法，其特征在于：所述类别隶属度算法的计算公式为：

MemDegree (G_{1}, G) = η \frac{Wtnode (V_{1} &RightArrow; V)}{Σ_{v_{i} &Element; V_{1}} α_{1} (v_{i})} + (1 - η) \frac{Wtedge (E_{1} &RightArrow; E)}{Σ_{(v_{i}, v_{j}) &Element; E_{1}} β_{1} (v_{i}, v_{j})}

相对于E₂的关联边集中各条边的权重之和表示为Wtedge(E₁→E)＝∑_{(Vi，Vj)∈Rest(E1→E)}β₁(V₁，V_j)。