CN103631858B

CN103631858B - 一种科技项目相似度计算方法

Info

Publication number: CN103631858B
Application number: CN201310508199.4A
Authority: CN
Inventors: 徐小良; 林建海; 杨文显; 陈秋
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2013-10-24
Filing date: 2013-10-24
Publication date: 2017-07-21
Anticipated expiration: 2033-10-24
Also published as: CN103631858A

Abstract

本发明公开了一种科技项目相似度计算方法。本发明具体包括如下步骤：步骤1：提出一种规则模型并根据它识别出项目中的未登录词；步骤2：根据词的统计信息及语义信息获得关键词，与步骤1得到的未登录词组成特征词；步骤3：对两个项目名称中的特征词进行语义与字面相似度计算，如果求和并归一化后的值低于γ，则项目不相似，结束检测；步骤4：对相关词权重进行加权计算；步骤5：对主要内容中的特征词进行语义与字面相似度计算，得到两个项目主要内容的相似度；步骤6：对步骤3和步骤5的相似值加权求和得到两个项目的相似度。本发明考虑了项目申请书的语义信息，结构信息以及统计信息，该方法提高了科技项目相似度计算的准确率及效率。

Description

一种科技项目相似度计算方法

技术领域

本发明属于文本查重技术领域，尤其涉及一种科技项目相似度计算方法，用于科技项目查重的应用。

背景技术

随着我国科技计划项目申报数量和经费的逐年递增，项目重复申报现象日益突出。虽然目前我国科技项目查重系统也取得了一些研究成果，但是这些查重系统研究存在缺乏语义理解、未考虑项目专业术语等问题。因此对科技项目进行有效的相似性检测研究是非常必要的，在一定程度上有效的防止了科技项目的重复立项问题。

文本相似度计算方法主要有两类。一类是根据某种世界知识来计算，主要是基于按照概念间结构层次关系组织的语义词典的方法,根据在这类语言学资源中概念之间的上下位关系和同位关系来计算词语的相似度。它的优点是不需要大规模语料库的支持，也不需要长时间的训练，具有准确率高；缺点是单纯地使用语义词典，孤立考虑两个词语的相似度，并没有考虑到句子内部的结构和词语之间的相互作用关系。另一类利用大规模的语料库进行统计,这种基于统计的方法主要将上下文信息的概率分布作为词汇语义相似度的参照依据，是一种经验主义方法,它把词语相似度的研究建立在可观察的语言事实上,而不仅仅依赖于语言学家的直觉。它是建立在两个词语语义相似当且仅当它们处于相似的上下文环境中这一假设的基础上。它的缺点是基于统计的计算方法需要有大规模的语料库支持，大规模的语料库的构建本身就是一件比较困难，需要消耗大量的人力和时间的工作，并且还存在着数据稀疏的问题。其次，像TF-IDF方法等只考虑了词在上下文中的统计特性，丢弃了句子的结构信息和语义信息，因此具有一定的局限性。

发明内容

本发明的目的是针对现有技术的不足，提出一种科技项目相似度计算方法，能够极大地提高了科技项目申请书相似度计算的准确率及效率。

本发明解决问题所采取的技术方案包括如下步骤：

步骤1.针对待查重的项目申请书的规范简洁的特点，本发明提出一种规则模型进行识别未登录词；

所述的未登录词的识别是基于碎片的，将分词后产生的碎片与碎片两端的多字词定义为未登录词候选片段，表示为W_sC₁C₂…C_nW_e，其中W_s是与碎片左端相邻的多字词，C₁C₂…C_n为产生的碎片，W_e是与碎片右端相邻的多字词；规则模型如下：

规则一：确定字词的第一词性；所述的第一词性指词性标注的第一个字词；

规则二：设置未登录词排除字集；碎片中会存在词性为介词、助词、代词、副词的单字，这些词的构词能力很弱，不与其它字串构成未登录词的概率大于90%；

规则三：设置切分规则；未登录词候选片段对于未登录词片段W_sC₁C₂…C_nW_e中的C_i根据规则二，确定为排除字，那么未登录词片段切分W_sC₁…C_i-1与C_i-1…C_nW_e两个未登录词片段，其中，1<i<n，n为自然数；

规则四：设置前缀字集；对于未登录词片段W_sC₁C₂…C_nW_e中的C_n进行前缀字判断；

规则五：设置后缀字集；对于未登录词片段W_sC₁C₂…C_nW_e中的C_n进行前缀字判断，根据规则三，收集了后缀字集；

规则六：设置词性配搭规则，具体如下：

(1).若未登录词候选片段如W_sC₁W_e，C₁的第一词性为形容词，若W_e为名词，则优先与W_e结合；若未登录词候选片段如W_sC₁，W_s为名词，W_s C₁不成词，否则成词；若未登录词候选片段如C₁W_e，W_e为动词，C₁W_e不成词，否则，成词；

(2).若未登录词候选片段如W_sC₁W_e，C₁的第一词性为动词，若W_e为动词或名词，那么C₁优先与W_s结合;若未登录词候选片段为C₁W_e，W_e为形容词，则C₁W_e不成词，否则成词；若未登录词候选片段如W_sC₁，W_s为名词，W_sC₁不成词，否则成词；

(3).若未登录词候选片段如W_sC₁W_e，C₁的第一词性为名词，若W_s，W_e都为名词，则C₁优先与W_s结合，若只有W_s或W_e为名词，则优先与W_s或W_e结合；若未登录词候选片段如W_sC₁或C₁W_e，则结合成W_sC₁或C₁W_e；

(4).若未登录词候选片段如W_sC₁W_e，C₁的第一词性为其它词性，C₁优先与W_s结合；

对未登录词候选片段W_sC₁C₂…C_nW_e进行未登录词识别的规则模型，其描述如下：

1）若n=1，根据规则二，若C₁是排除字或者数词，则识别结束；否则转3）；

2）若n>=2，根据规则二，若C₁是排除字，则未登录词候选片段变成C₂…C_nW_e,转6）；根据规则五，若C₁是后缀字，则取出未登录词W_sC₁，未登录词候选片段变成C₂…C_nW_e，转6）；根据规则七，若C₁是数词，则转7）；否则转8）；

3）根据规则四，若C₁是前缀字，则取出未登录词C₁W_e，识别结束；否则转4）；

4）根据规则五，若C₁是后缀字，则取出未登录词W_sC₁，识别结束；否则转5）；

5）根据规则六词性配搭，识别出未登录词；

6）取下一个C_i，若i=n，根据规则二，若C_i是排除字或数词，识别结束；根据规则四，若C_i是前缀字，则取出未登录词C_nW_e，识别结束；否则，识别结束；若i<n,根据规则二，若C_i是排除字，则未登录词候选片段变成C_i+1…C_nW_e，转6）；根据规则六，若C_i是数词，转7）；否则转8）；

7）取下一个C_i，若i=n,根据规则六，若C_i是数词或量词前缀字,取出C_n-1C_n，作为数词，识别结束；根据规则四，若C_i是前缀字，则取出未登录词C_nW_e，识别结束；否则识别结束；若i<n，根据规则七，若C_i是数词，量词前缀字，量词，转7）；否则，转8）

8）取下一个C_i，若i=n，根据规则二，C_i是排除字或数词，则取出C_n前面的单字作为未登录词，识别结束；根据规则四，若C_i是前缀字，则取出C_n前面的单字为未登录词，C_nW_e也作为未登录词，识别结束；否则，识别出W_e前面的单字作为未登录词，识别结束；若i<n,根据规则二，若C_i是排除字，取出C_i前面的单字，根据规则三，若为一个，不作为未登录词，否则作为未登录词，未登录词候选片段变成C_i+1…C_nW_e,转6）；否则转8）；

步骤2.根据词在申请书中的词性、出现的位置、词长、词频等统计信息及语义信息获得关键词，与步骤1得到的未登录词组成项目的特征词；所述的关键词获得过程如下：

首先获得词语的统计信息值stats(w_i),然后再构建词语网络并计算得到词语的节点综合特征值CF_i，最后计算得到所有词语的权重值weight_i并按大小排序，得到前γ（为阀值,0<γ<1)的词语为项目的关键词。词语的权重值计算公式如下：

weight_i＝α×stats(w_i)+β×CF_i，其中α+β=1,α=0.4，β=0.6。

所述的词语是项目申请书分词中识别未登录词之后剩下的词语。

所述的词语的统计信息值计算过程如下：

首先计算词语在申请书文本中的词频权重fre_i：

其中f_i为词语在申请书出现的次数。

其次计算词语在申请书文本中的词长权重len_i：

其中L为词语的长度。

然后计算词语在申请书文本中的词性权重pos_i：

最后计算词语在申请书文本中的位置权重loc_i：

对于项目申请书中的每个词，其统计信息值为：

stats_i＝α×fre_i+β×len_i+λ×pos_i+η×loc_i

其中α+β+λ+η=1，α=0.2，β=0.1，λ=0.2，η=0.5。

所述的词语语义信息就是词语网络中的节点综合特征值，其计算过程如下：

首先计算词的语义关系和词的共现关系。词的语义关系是利用知网计算词语间相似度的方法得到，所有的词的语义关系表示为语义相似度矩阵：

其中，sim(c_i,c_j)为词C_i与词C_j的语义相似度，sim(c_i,c_i)为1，sim(c_i,c_j)＝sim(c_j,c_i)。

词的共现关系是利用滑动窗口对申请书的词语进行词语共现度计算得到，所有的词的共现关系表示为词语共现度矩阵:

然后构建带权词语网络：

CW为输入的词语集合，W_m为权值矩阵，则其对应的带权词语网络定义为：G={V,E,W}；其中,图G为无向加权图；V={V_i|i=1,2,…,m}为图G中的顶点集；E={(v_i,v_j)|v_i,v_j∈V}表示G中的边集；W={W_ij|(v_i,v_j)∈E}表示边的权值的集合。

其中权值矩阵W_m为：

其中，α为0.3，β为0.7。

最后计算带权词语网络中的每个节点综合特征值CF_i：

其中α为调节参数，α取0.2。C_i为节点的聚集系数，WD_i为节点的加权度。

节点的聚集系数计算如下：

在带权词语网络中，节点V_i的度为D_i＝|{(v_i,v_j):(v_i,v_j)∈E,v_i,v_j∈V}|，节点V_i的聚集度为K_i＝|{(v_j,v_k):(v_i,v_j)∈E,(v_i,v_k)∈E,v_i,v_j,v_k∈V}|，节点的聚集系数为

顶点V_i的加权度WD_i为

步骤3.对两个申请书名称中的特征词进行语义与字面相似度计算。如果求和归一化后的值低于γ(为0.8)，则项目不相似，结束检测；否则转步骤4；所述的语义相似度是基于知网的相似度计算获得的，它应用于特征词中的关键词部分，计算得到两个申请书名称中的关键词部分相似度:

其中p，r分别为两个申请书A，B名称中的关键词个数，w(tkw1_i)为关键词的权重，sim_imi为关键词tkw1_i和tkw2中与之最相似的词的相似度值，w（tkw_2mi)为tkw2中与之最相似的词。

所述的字面相似度通过字词匹配来计算，它应用于特征词中的未登录词部分。计算公式如下：

其中v为未登录词的权重，m、n分别为两个申请书名称中的未登录词个数，

最后计算申请书名称的相似度，它的值为申请书项目名称的关键词部分相似度值与未登录词部分相似度值的求和，归一化得到。公式如下：

其中a,b分别为两个申请书A，B项目名称中的关键词与未登录词的个数和。

步骤4.对申请书主要内容中的相关词权重进行加权计算；

所述的相关词为：

项目申请书主要研究内容中的词语，若与题目中的词语的语义相似度超过设定的阀值a（这个值小于判定为相似的阀值，设置为0.35），那么这些词语就称为相关词。其中词语的语义相似度是利用知网来计算。

所述的相关词权重加权过程如下：

1).得到申请书名称中的关键词集合tkw和申请书主要内容中的关键词集合ckw。

2).依次遍历ckw中的词，计算它与tkw中的词的语义相似度。若它的值大于a，ckw中的词权重相应作出改变，权重改进公式如下：

步骤5.对主要内容中的特征词进行语义与字面相似度计算，得到两个项目主要内容的相似度值；

所述的语义相似度是基于知网的相似度计算获得的，它应用于特征词中的关键词部分，计算得到两个申请书主要内容中的关键词部分相似度:

其中p，r分别为两个申请书A，B主要内容中的关键词个数，w(ckw1_i)为关键词的权重，sim_imi为关键词ckw1_i和ckw2中与之最相似的词的相似度值，w（ckw_2mi)为ckw2中与之最相似的词。

所述的字面相似度通过字词匹配来计算，它应用于主要内容中的特征词的未登录词部分。计算公式如下：

其中v为未登录词的权重，m、n分别为两个申请书主要内容中的未登录词个数，

最后计算申请书主要内容的相似度，它的值为申请书项目主要内容中的关键词部分相似度值与未登录词部分相似度值的求和，归一化得到。公式如下：

其中a,b分别为两个申请书A，B项目主要内容中的关键词与未登录词的个数和。

步骤6.对步骤3和步骤5的相似值加权求和得到两个项目的相似度值；所述的项目的相似度计算如下：Sim(A,B)＝α*Sim1(A,B)+β*Sim2(A,B)

其中a，β分别为权重参数，且a+β=1，a=0.35，β=0.65。

如果Sim(A,B)大于阀值χ（值为0.6），则两个项目相似；否则不相似。

本发明有益效果如下：该方法由于充分考虑了文本的语义信息，结构信息以及统计信息，有效地提高了科技项目相似度计算的准确率。

附图说明

图1是本发明中科技项目相似度计算的流程图。

具体实施方式

下面结合附图对本发明作进一步说明。

如图1所示，一种科技项目相似度计算方法，包括如下步骤：

规则六：设置词性配搭规则，具体如下：

5）根据规则六词性配搭，识别出未登录词；

首先获得词语的统计信息值stats(w_i),然后再构建词语网络并计算得到词语的节点综合特征值CF_i，最后计算得到所有词语的权重值weight_i并按大小排序得到前γ（为阀值,0<γ<1)的词语为项目的关键词。词语的权重值计算公式如下：

weight_i＝α×stats(w_i)+β×CF_i，其中α+β=1,α=0.4，β=0.6。

所述的词语的统计信息值计算过程如下：

首先计算词语在申请书文本中的词频权重fre_i：

其中f_i为词语在申请书出现的次数。

其次计算词语在申请书文本中的词长权重len_i：

其中L为词语的长度。

然后计算词语在申请书文本中的词性权重pos_i：

最后计算词语在申请书文本中的位置权重loc_i：

对于项目申请书中的每个词，其统计信息值为：

stats_i＝α×fre_i+β×len_i+λ×pos_i+η×loc_i

其中α+β+λ+η=1，α=0.2，β=0.1，λ=0.2，η=0.5。

词的共现关系是利用滑动窗口（滑动窗口长度为3）对申请书的词语进行词语共现度计算得到，所有的词的共现关系表示为词语共现度矩阵:

然后构建带权词语网络：

其中权值矩阵W_m为：

其中，α为0.3，β为0.7。

最后计算带权词语网络中的每个节点综合特征值CF_i：

节点的聚集系数计算如下：

顶点V_i的加权度WD_i为

步骤4.对申请书主要内容中的相关词权重进行加权计算；

所述的相关词为：

所述的相关词权重加权过程如下：

其中a，β分别为权重参数，且a+β=1，a=0.35，β=0.65。

Claims

1.一种科技项目相似度计算方法，其特征在于包括如下步骤：

步骤1.针对待查重的项目申请书的规范简洁的特点，提出一种规则模型进行识别未登录词；

规则二：设置未登录词排除字集；碎片中会存在词性为介词、助词、代词、副词的单字，这些词的构词能力很弱，不与其它字串构成未登录词的概率大于90％；

规则三：设置切分规则；未登录词候选片段对于未登录词片段W_sC₁C₂…C_nW_e中的C_i根据规则二，确定为排除字，那么未登录词片段被切分为W_sC₁…C_i-1与C_i+1…C_nW_e两个未登录词片段，其中，1<i<n，n为自然数；

规则五：设置后缀字集；对于未登录词片段W_sC₁C₂…C_nW_e中的C_n进行后缀字判断；规则六：设置词性配搭规则，具体如下：

(1).若未登录词候选片段如W_sC₁W_e，C₁的第一词性为形容词，若W_e为名词，则优先与W_e结合；若未登录词候选片段如W_sC₁，W_s为名词，W_sC₁不成词，否则成词；若未登录词候选片段如C₁W_e，W_e为动词，C₁W_e不成词，否则，成词；

(2).若未登录词候选片段如W_sC₁W_e，C₁的第一词性为动词，若W_e为动词或名词，那么C₁优先与W_s结合；若未登录词候选片段为C₁W_e，W_e为形容词，则C₁W_e不成词，否则成词；若未登录词候选片段如W_sC₁，W_s为名词，W_sC₁不成词，否则成词；

1)若n＝1，根据规则二，若C₁是排除字或者数词，则识别结束；否则转3)；

2)若n>＝2，根据规则二，若C₁是排除字，则未登录词候选片段变成C₂…C_nW_e,转6)；根据规则五，若C₁是后缀字，则取出未登录词W_sC₁，未登录词候选片段变成C₂…C_nW_e，转6)；根据规则六，若C₁是数词，则转7)；否则转8)；

3)根据规则四，若C₁是前缀字，则取出未登录词C₁W_e，识别结束；否则转4)；

4)根据规则五，若C₁是后缀字，则取出未登录词W_sC₁，识别结束；否则转5)；

5)根据规则六词性配搭，识别出未登录词；

6)取下一个C_i，若i＝n，根据规则二，若C_i是排除字或数词，识别结束；根据规则四，若C_i是前缀字，则取出未登录词C_nW_e，识别结束；否则，识别结束；若i<n,根据规则二，若C_i是排除字，则未登录词候选片段变成C_i+1…C_nW_e，转6)；根据规则六，若C_i是数词，转7)；否则转8)；

7)取下一个C_i，若i＝n,根据规则六，若C_i是数词或量词前缀字,取出C_n-1C_n，作为数词，识别结束；根据规则四，若C_i是前缀字，则取出未登录词C_nW_e，识别结束；否则识别结束；若i<n，根据规则六，若C_i是数词，量词前缀字，量词，转7)；否则，转8)

8)取下一个C_i，若i＝n，根据规则二，C_i是排除字或数词，则取出C_n前面的单字作为未登录词，识别结束；根据规则四，若C_i是前缀字，则取出C_n前面的单字为未登录词，C_nW_e也作为未登录词，识别结束；否则，识别出W_e前面的单字作为未登录词，识别结束；若i<n,根据规则二，若C_i是排除字，取出C_i前面的单字，根据规则三，若为一个，不作为未登录词，否则作为未登录词，未登录词候选片段变成C_i+1…C_nW_e,转6)；否则转8)；

步骤2.根据词在申请书中的词性、出现的位置、词长、词频及语义信息获得关键词，与步骤1得到的未登录词组成项目的特征词；

所述的关键词获得过程如下：

首先获得词语的统计信息值stats_i，然后再构建词语网络并计算得到词语的节点综合特征值CF_i，最后计算得到所有词语的权重值weight_i并按大小排序得到权重值大于γ的词语为项目的关键词，其中γ为阈值,0<γ<1；词语的权重值计算公式如下：

weight_i＝α×stats_i+β×CF_i，其中α+β＝1,α＝0.4，β＝0.6；i表示词语的序列号；

所述的词语是项目申请书分词中识别未登录词之后剩下的词语；

所述的词语的统计信息值计算过程如下：

首先计算词语在申请书文本中的词频权重fre_i：

其中f_i为词语在申请书出现的次数；

其次计算词语在申请书文本中的词长权重len_i：

其中L为词语的长度；

然后计算词语在申请书文本中的词性权重pos_i：

最后计算词语在申请书文本中的位置权重loc_i：

对于项目申请书中的每个词，其统计信息值为：

stats_i＝α×fre_i+β×len_i+λ×pos_i+η×loc_i

其中α+β+λ+η＝1，α＝0.2，β＝0.1，λ＝0.2，η＝0.5；

所述的语义信息就是词语网络中的节点综合特征值，其计算过程如下：

首先计算词的语义关系和词的共现关系；词的语义关系是利用知网计算词语间相似度的方法得到，所有的词的语义关系表示为语义相似度矩阵：

其中，sim(c_i,c_j)为词C_i与词C_j的语义相似度，sim(c_i,c_i)为1，sim(c_i,c_j)＝sim(c_j,c_i)；

词的共现关系是利用滑动窗口对申请书的词语进行词语共现度计算得到，其中滑动窗口长度为3，所有的词的共现关系表示为词语共现度矩阵:

其中Coo(C_i,C_j)为词C_i与词C_j的词语共现度；

然后构建带权词语网络：

CW为输入的词语集合，W_m为权值矩阵，则其对应的带权词语网络定义为：G＝{V,E,W}；其中,G为无向加权图；V＝{V_i|i＝1,2,…,m}为G中的顶点集；E＝{(v_i,v_j)|v_i,v_j∈V}表示G中的边集；W＝{W_ij|(v_i,v_j)∈E}表示边的权值的集合；

其中权值矩阵W_m为：

其中，α为0.3，β为0.7，W(C_i,C_j)为词C_i与词C_j之间边的权值；

最后计算带权词语网络中的每个节点综合特征值CF_i：

{CF}_{i} = {αCJ}_{i} / Σ_{j = 1}^{m} {CJ}_{j} + (1 - α) {WD}_{i}

其中α为调节参数，α取0.2；CJ_i、CJ_j为节点的聚集系数，WD_i为节点的加权度；

节点的聚集系数计算如下：

{CJ}_{i} = \frac{2 K_{i}}{D_{i} (D_{i} - 1)};

顶点V_i的加权度WD_i为

其中w_ij为顶点V_i所有的边；

步骤3.对两个申请书名称中的特征词进行语义与字面相似度计算；如果求和归一化后的值低于γ，则项目不相似，结束检测；否则转步骤4；

所述的语义相似度是基于知网的相似度计算获得的，它应用于特征词中的关键词部分，计算得到两个申请书名称中的关键词部分相似度:

S i m (t k w 1, t k w 2) = Σ_{i = 1}^{p} w (t k w 1_{i}) * w (t k w 2_{m i}) * {Sim}_{i m i} + Σ_{j = 1}^{r} w (t k w 2_{j}) * w (t k w 1_{m j}) * {Sim}_{j m j} / 2

其中p，r分别为两个申请书A，B名称中的关键词个数，w(tkw1_i)为关键词的权重，sim_imi为关键词tkw1_i和tkw2中与之最相似的词的相似度，w(tkw2_mi)为tkw2中与之最相似的词的权重；

所述的字面相似度通过字词匹配来计算，它应用于特征词中的未登录词部分；计算公式如下：

S i m (t u w 1, t u w 2) = v * v Σ_{i = 1}^{m} (1 - Π_{j = 1}^{n} (1 - I (t u w 1_{i}, t u w 2_{j})))

其中v为未登录词的权重，m、n分别为两个申请书名称中的未登录词个数，tuw1_i,tuw2_j分别为申请书A、B项目名称中的未登录词，

I (t u w 1_{i}, t u w 2_{j}) = \{\begin{matrix} 1, t u w 1 i = t u w 2 j \\ 0, t u w 1 i &NotEqual; t u w 2 j \end{matrix};

最后计算申请书名称的相似度，它的值为申请书项目名称的关键词部分相似度值与未登录词部分相似度值的求和，归一化得到；公式如下：

S i m 1 (A, B) = \frac{S i m (t k w 1, t k w 2) + S i m (t u w 1, t u w 2)}{\sqrt{Σ_{i = 1}^{a} w {1_{i}}^{2}} \times \sqrt{Σ_{i = 1}^{b} w {2_{i}}^{2}}}

其中a,b分别为两个申请书A，B项目名称中的关键词与未登录词的个数和，w1_i、w2_i分别为申请书A，B项目名称中词语的权重；

步骤4.对申请书主要内容中的相关词权重进行加权计算；

所述的相关词为：项目申请书主要研究内容中的词语，若与题目中的词语的语义相似度超过设定的阈值a，那么这些词语就称为相关词；其中词语的语义相似度是利用知网来计算；

所述的相关词权重加权过程如下：

1).得到申请书名称中的关键词集合tkw和申请书主要内容中的关键词集合ckw；

2).依次遍历ckw中的词，计算它与tkw中的词的语义相似度；若它的值大于a，ckw中的词权重相应作出改变，权重改进公式如下：

w e i g h t ({ckw}_{i}) = w e i g h t ({ckw}_{i}) + Σ_{j = 1}^{q} f (j) * w e i g h t ({tkw}_{j})

其中q为名称中的关键词集合词的个数，

S i m (c k w 1, c k w 2) = Σ_{i = 1}^{p} w (c k w 1_{i}) * w (c k w 2_{m i}) * {Sim}_{i m i} + Σ_{j = 1}^{r} w (c k w 2_{j}) * w (c k w 1_{m j}) * {Sim}_{j m j} / 2

其中p，r分别为两个申请书A，B主要内容中的关键词个数，w(ckw1_i)为关键词的权重，sim_imi为关键词ckw1_i和ckw2中与之最相似的词的相似度，w(ckw_2mi)为ckw2中与之最相似的词的权重；

所述的字面相似度通过字词匹配来计算，它应用于主要内容中的特征词的未登录词部分；计算公式如下：

S i m (c u w 1, c u w 2) = v * v Σ_{i = 1}^{m} (1 - Π_{j = 1}^{n} (1 - I (c u w 1_{i}, c u w 2_{j})))

其中v为未登录词的权重，m、n分别为两个申请书主要内容中的未登录词个数，cuw1_i,cuw2_j分别为两个申请书主要内容中的未登录词，

I (c u w 1_{i}, c u w 2_{j}) = \{\begin{matrix} 1, c u w 1 i = c u w 2 j \\ 0, c u w 1 i &NotEqual; c u w 2 j \end{matrix};

最后计算申请书主要内容的相似度，它的值为申请书项目主要内容中的关键词部分相似度值与未登录词部分相似度值的求和，归一化得到；公式如下：

S i m 2 (A, B) = \frac{S i m (c k w 1, c k w 2) + S i m (c u w 1, c u w 2)}{\sqrt{Σ_{i = 1}^{a} w {1_{i}}^{2}} \times \sqrt{Σ_{i = 1}^{b} w {2_{i}}^{2}}}

其中a,b分别为两个申请书A，B项目主要内容中的关键词与未登录词的个数和，w1_i、w2_i分别为申请书A，B主要内容中词语的权重；

其中a，β分别为权重参数，且a+β＝1，a＝0.35，β＝0.65；

如果Sim(A,B)大于阈值χ，则两个项目相似；否则不相似。