CN107122340A

CN107122340A - 一种基于同义词分析的科技项目申报书的相似度检测方法

Info

Publication number: CN107122340A
Application number: CN201710202607.1A
Authority: CN
Inventors: 严伟; 吕跃华; 沈凯; 杨威; 杨朔
Original assignee: Zhejiang Research Institute Of Science And Technology Information
Current assignee: Zhejiang Research Institute Of Science And Technology Information
Priority date: 2017-03-30
Filing date: 2017-03-30
Publication date: 2017-09-01
Anticipated expiration: 2037-03-30
Also published as: CN107122340B

Abstract

本发明公开了一种基于同义词分析的科技项目申报书的相似度检测方法，本发明结合了同义词分析和向量模型来计算科技项目申报书之间的相似性通过同义词分析技术对词典进行同义词分析，建立起同义词词典；针对科技项目申报书格式的特殊性，对科技项目申报书进行文本分块处理。再通过分词算法对文本块进行分析处理。在申报科技项目申报书项目的环节，通过自然语言处理、建立同义词林、分词等技术对科技项目申报书的全文、段落、句子进行了分词处理，对分析结果进行处理建立起特征权值向量，通过同义词分析和TF‑IDF模型对文本进行分析，建立特征权值向量空间，解决了向量空间模型无法处理语义的缺陷，提高了中文文本相似性度检测的准确性。

Description

一种基于同义词分析的科技项目申报书的相似度检测方法

技术领域

本发明属于自然语言处理领域，主要是用于科技项目申报书的相似度检测。

背景技术

近年来，随着中央对于科研项目投入了大量的经费和财力支持，国内的科技事业也在蓬勃发展，与此同时产生了科技项目申报书的抄袭和重复申报等问题，严重阻碍了科技事业的健康发展。本发明针对科技项目申报书的抄袭和重复申报现象发明了一种中文文本相似度的检测方法，能够帮助项目申报中心有效甄别出存在严重抄袭现象的科技项目申报书。

文本相似性的检测在上世纪70年代首次被提出，相关学者首先提出了基于属性计数的计算方法来计算程序复制的相似度。随着自然语言领域和人工智能领域的领域不断发展，有学者根据文本中字符串的匹配方式设计了一种自然语言的查重算法；又有学者根据字符串后缀树查找字符串最大子串的思想提出了新的查重算法。相关学者提出了一种新的分析模型：向量空间模型。这种模型被提出以后就成功地应用到了相关的文本相似性分析系统当中。广义的空间向量模型并没有考虑到语义上的关系，这是该模型的一大缺陷。此后相关学者又提出字符间的编辑距离的文本相似度计算方法来对文本进行相似度的检测。该算法在处理英文上的文本相似性具有较好的效果，但是在处理中文文本相似性上却无法得到尽如人意的效果。

发明内容

本发明针对目前的研究现状，针对科技项目申报书的抄袭和重复情况，提出了一种基于同义词分析的科技项目申报书相似度检测方法。本发明结合了同义词分析和向量模型来计算科技项目申报书之间的相似性通过同义词分析技术对词典进行同义词分析，建立起同义词词典；针对科技项目申报书格式的特殊性，对科技项目申报书进行文本分块处理。再通过分词算法对文本块进行分析处理。在申报科技项目申报书项目的环节，通过自然语言处理、建立同义词林、分词等技术对科技项目申报书的全文、段落、句子进行了分词处理，对分析结果进行处理建立起特征权值向量，通过同义词分析和TF-IDF模型对文本进行分析，建立特征权值向量空间，解决了向量空间模型无法处理语义的缺陷，提高了中文文本相似性度检测的准确性。

本发明方法的具体步骤是：

步骤一：输入中文基础词典和中文停用词典；其中中文基础词典涵盖了常用中文词条以及专业性词条；停用词典包含了对识别文本内容意义不大，但是出现频率很高的停用词条，如“我们”、“的”、“了”等。

步骤二：构建一个BP神经网络模型，将中文基础词典作为神经网络模型的输入层进行训练分析，挖掘出其中的同义词，将属于某个词的所有同义词放置在同一行，从而组成同义词词林T；以中文基础词典为基础建立起字典树。该字典树是一种树形结构，其根节点为空、每个节点对应一个字，通过从根节点出发向下依次遍历各个节点直至叶子节点或者标注有结束符号的中间节点均可组成为中文基础词典中的某个词；对中文基础词典进行同义词分析；

其中同义词分析方法，具体步骤如下：

步骤1：遍历中文基础词典，任取其中一个词条w_k。

步骤2：从字典树根结点出发向下遍历搜索得到要查找的词条w_k的第一个字对应的节点；然后继续在以该节点为根的子树中搜索词条w_k的下一个字对应的节点；重复以上步骤，直至找到词条w_k在字典树中的完整遍历路径，为该路径的最后一个节点分配一个唯一的同义词编号。

步骤3：在同义词林T中找到该词条w_k的所有同义词，按步骤2所示方法在字典树中找到所有这些同义词的完整遍历路径，将这些完整遍历路径的最后一个节点标注为与词条w_k的同义词编号相同的同义词编号。

步骤:4：重复步骤1、步骤2、步骤3，直至中文基础词典的所有词条都在字典树中找到完整遍历路径、最后一个节点都被分配了同义词编号。

步骤三：提取出某篇科技项目申报书D_i中的文本内容并且剔除无意义的格式和符号；然后根据模板将科技项目申报书按照项目意义、项目内容、技术方案、创新点、现有基础、预期目标等文本块类型划分为不同的文本块，根据各个文本块的重要性为每个文本块赋予不同权值；对某篇科技项目申报书D_i进行文本块划分处理后得到的文本块集，表示如下：

按此方法对所有科技项目申报书进行预处理。

步骤四：根据字典树对每篇科技项目申报书D_i的文本块进行分词处理，去除包含在停用词典中的停用词条，最后得到的每个词条都用其同义词编号表示。

步骤五：通过公式：

计算每篇科技项目申报书D_i中每个词条w_k的IDF值；其中：|D|表示所有科技项目申报书数量,|{t:w_k∈D_t}|表示包含词条w_k的科技项目申报书的数量；如果IDF值小于某个预先设定的阈值，则视w_k为新的停用词条，将其加入停用词词典组成新的停用词词典，并在由步骤四获得的分词结果去除新的停用词条。

步骤六：为每篇科技项目申报书D_i的每一个文本块构建特征权值向量公式中的m表示特征向量中元素的数量。特征权值向量的每个元素为词条w_k的词频与其IDF值的乘积，即：

其中，Frequency(w_k)为w_k在P_Di,j中出现的次数；

步骤七：任取两篇科技项目申报书D_i1,D_i2,按下式计算属于同一个文本块类型j的两个文本块之间的相似度，即：

其中和为文本块对应的词条w_k的特征权值向量；该公式中的m表示特征权值向量的元素数量；然后对两篇科技项目申报书之间的所有属于同一文本块类型的两个文本块之间的相似度进行加权处理，得到两篇科技项目申报书之间的整体相似度，公式如下：

其中Weight(P_j)表示文本块P_j的权值；该公式中的n表示文本块的总数量。

步骤八：对于任一科技项目申报书D_i，选择与其整体相似度最大的科技项目申报书，作为科技项目申报书D_i的查重结果输出。

本发明所提供的基于同义词分析的科技项目申报书的相似度检测方法由一系列功能模块组成，它们包括：中文基础词典的同义词分析模块，科技项目申报书预处理和分词模块，停用词统计推荐模块，建立特征权值向量模块，相似度计算模块。

中文基础词典的同义词分析模块：中文基础词典涵盖了常用词条以及专业性词条。在分词过程中，要结合中文基础词典和分词算法将中文文本分解成一组合理有效的词条。通常的中文分词算法都是没有考虑到语义和同义词。所以本方法采用BP神经网络模型对中文基础词典进行分析，找出该词典中的所有同义词。

科技项目申报书预处理和分词模块：对科技项目申报书进行文本提取。提取出文本以后，将文本进行文本分块处理。剔除无意义格式和符号，然后根据模板将科技项目申报书按照项目意义、项目内容、技术方案、创新点、现有基础、预期目标等文本块类型划分为不同的文本块。利用分词算法对处理过的文本块进行分词处理并将分词结果进行停用词过滤处理。

停用词统计推荐模块：当科技项目申报书分词结果足够大时，可以对这些分词结果进行停用词推荐处理，首先计算每一个词条的IDF值，如果IDF值小于某个预先设定的阈值，则将其视为新的停用词，并将其加入停用词词典组成新的停用词词典。然后基于新停用词对分词结果再次进行停用词过滤。

建立特征权值向量模块：利用TF-IDF模型统计出每篇科技项目申报书的各个文本块的词条词频和IDF值，并将词条词频和IDF值的乘积作为特征项建立起特征权值向量。

相似度计算模块：提取出任意两篇科技项目申报书对应的文本块特征权值向量，计算该两个特征权值向量空间之间的余弦值从而得出两篇科技项目申报书的整体相似度。对于任一科技项目申报书，选择与其整体相似度最大的科技项目申报书，作为它的查重结果输出。

本发明有益效果如下：

本发明提供的基于同义词分析的科技项目申报书的相似度检测方法能检测出某些通过改变语序和同义词替换等进行抄袭的情况。同时，本发明针对科技项目申报书结构的特殊性，对科技项目申报书进行分块处理，在计算整体相似度时为每个文本块分配不同的权重，从而使计算得到的整体相似度更有参考性。最后，本发明可根据分词结果产生新的停用词，根据新的停用词对分词结果再次过滤，这样可进一步消除对文本主题和语义无意义的词产生的干扰，从而提高相似度检测的准确度。

附图说明

图1相似度检测流程。

图2字典树

具体实施方式

下面结合附图和实例对本发明作进一步说明。

为叙述方便，定义相关符号如下：

L:基础词条语料库。

T:同义词词林。

S_i:第i(i＝1,2,...,n)个中文字符串。

D_i:科技项目申报书库中第i(i＝1,2,...,n)篇科技项目申报书。

|D|:文本库中的科技项目申报书总数。

科技项目申报书D_i中第j(j＝1,2,...,n)个文本块。

V_i:第i(i＝1,2,...,n)个词向量。

w_k:第k个词条。

|<t:w_k∈D_t>|:包含词条w_k的科技项目申报书个数。

Frequency(w_k):词条w_k的词频。

Weight(P_j):文本块P_j的权值。

科技项目申报书D_i中的文本块j的文本特征向量。

科技项目申报书D_i的文本块集。

中文字符串S_i的分词结果集合。

步骤(1)：输入中文基础词典和中文停用词典；其中中文基础词典涵盖了常用中文词条以及专业性词条；停用词典包课对识别文本内容意义不大、但是出现频率很高的词。

步骤(2)：将中文基础词典视作基础词条语料库L，将L作为BP神经网络模型的输入，对语料库L进行同义词分析和分类。该模型主要有三层：输入层、隐藏层、输出层。输入层首先会把中文基础词典中的每一条词条转化成一个向量V_i，输入层的节点个数就是中文基础词典中的词条个数。隐藏层通过分析输入层的向量V_i，从而找出L中的所有同义词，将同义词进行分类并且输出同义词词林T。以中文基础词典为基础建立起字典树(如图2所示)，字典树的根节点为空，除根节点外每一个节点都只包含一个字符；从根节点到某一节点，路径上经过的字符连接起来，为该节点对应的字符串；通过同义词词林T对中文基础词典进行同义词标注。

具体标注的方法如下所示：

1.遍历中文基础词典。取出其中一个词条E_i

2.从字典树根结点出发向下遍历搜索得到要查找的词条w_k的第一个字对应的节点；然后继续在以该节点为根的子树中搜索词条w_k的下一个字对应的节点；重复以上步骤，直至找到词条w_k在字典树中的完整遍历路径，为该路径的最后一个节点分配一个唯一的同义词编号；

3.在同义词林T中找到该词条w_k的所有同义词，按步骤(2)所示方法在字典树中找到所有这些同义词的完整遍历路径，将这些完整遍历路径的最后一个节点标注为与词条w_k的同义词编号相同的同义词编号；

4.重复步骤(1)、步骤(2)、步骤(3)，直至中文基础词典的所有词条都在字典树中找到完整遍历路径、并其最后一个节点都被分配了同义词编号；

步骤(3)：在服务器端建立起单独的文本数据库，利用文本提取算法和文本处理算法对科技项目申报书进行文本提取和分段处理。在实际应用中，申报者所提供的科技项目申报书都是以doc或者docx格式上传的。因此要对库中的每篇科技项目申报书进行处理。为了消除无关格式和符号对相似度计算时带来干扰，要对文本中的无关字符和符号进行剔除。由于科技项目申报书通常都有固定的模板和格式，一般都包含项目意义、项目内容、技术方案、创新点、现有基础、预期目标等文本块类型，本发明按照固定的格式对科技项目申报书进行文本分块处理；根据各个文本块类型的重要性为每个文本块赋予不同权值。对D_i进行后处理得到文本块集，其中第i个科技项目申报书D_i的文本块集表示如下：

计算两篇科技项目申报书的相似度时，首先计算两篇科技项目申报书对应文本块之间的相似度，最后根据各个文本块的权值进行加权处理，得到两篇科技项目申报书的总体相似度。公式如下:

其中Weight(P_j)表示文本块P_j的权值；该公式中的n表示文本块的总数量；

步骤(4)：对步骤(3)得到的文本块进行分词处理。本发明使用正向迭代最细粒度切分算法，结合同义词词典对中文字符串S_i进行切分得到分词结果集合先以停用词词典为语料库建立起停用词字典树(如图2所示)。将分词结果集合中的每一条词条与停用词字典树进行匹配，若匹配到则将其视作停用词并且将其进行过滤。将处理完毕的文本存入到文本数据库中，每一条文本信息包括科技项目申报书id，段落id，文本内容以及经过停用词过滤处理的分词结果。

步骤(5)：当样本足够大时，可以利用IDF统计模型对大量的科技项目申报书的分词结果进行分析。分析出某个词在整个文本库中表达文本意义的重要性。通过公式：

计算每个词条w_k的IDF值。如果IDF值过低，说明此w_k在大部分科技项目申报书中都出现，对于整个文本库的语义或者主题表达的重要性很低，所以可以将IDF值低的词条w_k作为停用词进行推荐。当某个词被判定为停用词以后。当对停用词词典进行推荐更新以后，可以对步骤(4)得到的分词结果再一次进行停用词过滤。

步骤(6)：步骤(4)中得到的分词结果经过同义词分析处理，同义词在该分词结果集合中具有相同的编号。用TF-IDF算法对该分词结果进行词条词频统计，并将每个词条的词频和IDF的乘积当成特征项建立起特征权值向量空间。根据步骤(3)，已知：

表示科技项目申报书的某个文本块，特征项指出现在文本中且能够代表该文本内容的基本语言单位，主要是由词或者短语构成，文本可以表示为文本特征向量利用TF-IDF公式计算出文本块中词条w_k的词频Frequency(w_k)和每个词条w_k的IDF值。并建立文本特征项。即：

其中Frequency(w_k)为w_k在P_Di,j中出现的次数；

步骤(7)：根据步骤(6)中为每篇科技项目申报书的文本块建立的文本特征向量来计算相似度。可以采用计算向量间的余弦值来得到两个文本块之间的相似度。即:

其中和为文本块对应的词条w_k的特征权值向量；该公式中m表示特征权值向量的元素数量。

步骤(8)按照上述公式计算出两篇科技项目申报书D_i1,D_i2之间对应文本块之间的相似度，对两篇科技项目申报书之间的所有属于同一文本块类型的两个文本块之间的相似度进行加权处理，得到两篇科技项目申报书之间的整体相似度，公式如下：

步骤(9)对于任一科技项目申报书D_i，选择与其整体相似度最大的科技项目申报书，作为科技项目申报书D_i的查重结果输出。

整个相似度检测流程如图1所示。

Claims

1.一种基于同义词分析的科技项目申报书的相似度检测方法，其特征在于包括如下步骤：

步骤一：输入中文基础词典和中文停用词典；

步骤二：构建一个BP神经网络模型，将中文基础词典作为神经网络模型的输入层进行训练分析，挖掘出其中的同义词，将属于某个词的所有同义词放置在同一行，从而组成同义词词林T；以中文基础词典为基础建立起字典树；该字典树是一种树形结构，其根节点为空、每个节点对应一个字，通过从根节点出发向下依次遍历各个节点直至叶子节点或者标注有结束符号的中间节点均可组成为中文基础词典中的某个词；对中文基础词典进行同义词分析；

其中同义词分析方法，具体步骤如下：

步骤1：遍历中文基础词典，任取其中一个词条w_k；

步骤2：从字典树根结点出发向下遍历搜索得到要查找的词条w_k的第一个字对应的节点；然后继续在以该节点为根的子树中搜索词条w_k的下一个字对应的节点；重复以上步骤，直至找到词条w_k在字典树中的完整遍历路径，为该路径的最后一个节点分配一个唯一的同义词编号；

步骤3：在同义词林T中找到该词条w_k的所有同义词，按步骤2所示方法在字典树中找到所有这些同义词的完整遍历路径，将这些完整遍历路径的最后一个节点标注为与词条w_k的同义词编号相同的同义词编号；

步骤:4：重复步骤1、步骤2、步骤3，直至中文基础词典的所有词条都在字典树中找到完整遍历路径、最后一个节点都被分配了同义词编号；

步骤三：提取出某篇科技项目申报书D_i中的文本内容并且剔除无意义的格式和符号；然后根据模板将科技项目申报书按照文本块类型划分为不同的文本块，根据各个文本块的重要性为每个文本块赋予不同权值；对科技项目申报书D_i进行文本块划分处理后得到的文本块集，表示如下：

按此方法对所有科技项目申报书进行预处理；

步骤四：根据字典树对每篇科技项目申报书D_i的文本块进行分词处理，去除包含在停用词典中的停用词条，最后得到的每个词条都用其同义词编号表示；

步骤五：通过公式：

<mrow> <msub> <mi>IDF</mi> <mrow> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>w</mi> <mi>k</mi> </msub> </mrow> </msub> <mo>=</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mfrac> <mrow> <mo>|</mo> <mi>D</mi> <mo>|</mo> </mrow> <mrow> <mn>1</mn> <mo>+</mo> <mo>|</mo> <mo>{</mo> <mi>t</mi> <mo>:</mo> <msub> <mi>w</mi> <mi>k</mi> </msub> <mo>&Element;</mo> <msub> <mi>D</mi> <mi>t</mi> </msub> <mo>}</mo> <mo>|</mo> </mrow> </mfrac> </mrow>

计算每篇科技项目申报书D_i中每个词条w_k的IDF值；其中：|D|表示所有科技项目申报书数量,|{t:w_k∈D_t}|表示包含词条w_k的科技项目申报书的数量；如果IDF值小于某个预先设定的阈值，则视w_k为新的停用词条，将其加入停用词词典组成新的停用词词典，并在由步骤四获得的分词结果去除新的停用词条；

步骤六：为每篇科技项目申报书D_i的每一个文本块构建特征权值向量公式中的m表示特征向量中元素的数量；特征权值向量的每个元素为词条w_k的词频与其IDF值的乘积，即：

<mrow> <msubsup> <mi>u</mi> <mrow> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>j</mi> </mrow> <mi>k</mi> </msubsup> <mo>=</mo> <mi>F</mi> <mi>r</mi> <mi>e</mi> <mi>q</mi> <mi>u</mi> <mi>e</mi> <mi>n</mi> <mi>c</mi> <mi>y</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mfrac> <mrow> <mo>|</mo> <mi>D</mi> <mo>|</mo> </mrow> <mrow> <mn>1</mn> <mo>+</mo> <mo>|</mo> <mo>{</mo> <mi>t</mi> <mo>:</mo> <msub> <mi>w</mi> <mi>k</mi> </msub> <mo>&Element;</mo> <msub> <mi>D</mi> <mi>t</mi> </msub> <mo>}</mo> <mo>|</mo> </mrow> </mfrac> </mrow>

其中，Frequency(w_k)为w_k在P_Di,j中出现的次数；

<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>P</mi> <mrow> <msub> <mi>D</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> </msub> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>P</mi> <mrow> <msub> <mi>D</mi> <mrow> <mi>i</mi> <mn>2</mn> </mrow> </msub> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msubsup> <mi>u</mi> <mrow> <msub> <mi>D</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> </msub> <mo>,</mo> <mi>j</mi> </mrow> <mi>k</mi> </msubsup> <mo>&times;</mo> <msubsup> <mi>u</mi> <mrow> <msub> <mi>D</mi> <mrow> <mi>i</mi> <mn>2</mn> </mrow> </msub> <mo>,</mo> <mi>j</mi> </mrow> <mi>k</mi> </msubsup> </mrow> <msqrt> <mrow> <mo>(</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msup> <mrow> <mo>(</mo> <msubsup> <mi>u</mi> <mrow> <msub> <mi>D</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> </msub> <mo>,</mo> <mi>j</mi> </mrow> <mi>k</mi> </msubsup> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>)</mo> <mo>&times;</mo> <mo>(</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msup> <mrow> <mo>(</mo> <msubsup> <mi>u</mi> <mrow> <msub> <mi>D</mi> <mrow> <mi>i</mi> <mn>2</mn> </mrow> </msub> <mo>,</mo> <mi>j</mi> </mrow> <mi>k</mi> </msubsup> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>)</mo> </mrow> </msqrt> </mfrac> </mrow>

<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>D</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>D</mi> <mrow> <mi>i</mi> <mn>2</mn> </mrow> </msub> </mrow> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mrow> <mo>(</mo> <mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>P</mi> <mrow> <msub> <mi>D</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> </msub> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>P</mi> <mrow> <msub> <mi>D</mi> <mrow> <mi>i</mi> <mn>2</mn> </mrow> </msub> <mo>,</mo> <mi>j</mi> </mrow> </msub> </mrow> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>W</mi> <mi>e</mi> <mi>i</mi> <mi>g</mi> <mi>h</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>P</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> <mo>/</mo> <mrow> <mo>(</mo> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mi>W</mi> <mi>e</mi> <mi>i</mi> <mi>g</mi> <mi>h</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>P</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> </mrow>