CN103605665B

CN103605665B - 一种基于关键词的评审专家智能检索与推荐方法

Info

Publication number: CN103605665B
Application number: CN201310511342.5A
Authority: CN
Inventors: 徐小良; 吴仁克; 郑杨; 潘翔
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2013-10-24
Filing date: 2013-10-24
Publication date: 2017-01-11
Anticipated expiration: 2033-10-24
Also published as: CN103605665A

Abstract

本发明公开了一种基于关键词的评审专家智能检索与推荐方法。本发明具体包括如下步骤：步骤1：将专家信息主要文本切分成子串序列并进行中科院ICTCLAS分词，对分词结果进行停用词过滤得到词语集合；步骤2：分字段提取每个专家信息的特征词；步骤3：基于特征词所在字段和权值构建专家知识表示模型，并建立专家信息索引库；步骤4：当用户输入关键词时会根据检索词库进行自动提示，同时利用检索词统计器实时更新检索词词库；步骤5：基于语义等信息计算关键词和专家信息间的检索相关度；步骤6：根据匹配度从高到低列出相关的专家。本发明通过输入关键词实现专家信息的智能全文检索以及推荐，更准确地检索出与待审科技项目相匹配的专家。

Description

一种基于关键词的评审专家智能检索与推荐方法

技术领域

本发明属于信息检索技术领域，尤其涉及一种基于关键词的评审专家智能检索与推荐方法，用于检索科技项目评审专家。

背景技术

随着科技项目申报管理系统在我国的迅速普及，科技项目的评审工作从以往的集中会议模式发展到当前的网络模式。评审专家根据领域知识和资助机构的资助标准，对项目申请书进行评议，资助机构依据评审专家的评议情况决定是否资助。科技项目管理系统的规模越来越大，形成大量的专家库信息。由于科技项目评审必须做到客观性、公正性和权威性，因此，如何快速准确地、智能地检索并遴选出与待审项目领域相匹配的评审专家，变得十分重要和关键。

现有的科技项目评审专家信息检索大多以字符精确匹配或模糊匹配的方式，从单字段或多字段进行筛选，检索过程只注重关键词的机械匹配，检索相关度计算忽略语义相关性的分析，不是针对专家信息的全文检索。在计算检索相关性时，缺乏考虑专家信息各字段具有不同的重要性；同时，由于没有建立专门的索引库，在专家信息量庞大的情况下，不能快速检索出结果，而且不能按照相关度进行排序。另外现有技术在输入关键词时大多缺乏智能联想提示功能。这些都会导致检索结果查全率和查准率不高，限制了在科技项目评审专家检索领域的自动分析和智能化处理的能力，直接约束了科技项目评审工作的社会服务能力。现今通用的全文检索技术在很多领域得到的应用，可有效缓解上述问题，但鲜有在专家信息领域的运用。

发明内容

本发明针对现有技术的不足，提出一种基于关键词的评审专家智能检索与推荐方法。

本发明解决问题所采用的技术方案包括如下步骤：

步骤1.评审专家信息的采集是专家智能检索的第一步，从科技项目申报管理系统后台数据库中收集评审专家知识信息。

步骤2.把评审专家信息中的通用词和惯用词作为专业停用词库；把标点符号、非汉字作为切分标记库。

步骤3.对评审专家信息进行分词：首先根据评审专家信息中切分标记抽取专家信息，获奖情况、发明情况、发表论文情况、课题承担过的项目及完成情况、研究方向等信息，切分成子串序列，一个子串序列即一个字段信息；利用中科院ICTCLAS对子串序列进行分词。

步骤4.根据通用停用词库和专业停用词库进行停用词过滤，提取每个专家的特征词集合。通用停用词库采用哈工大停用词表，专业停用词库的构建是一个自学习不断完善的过程，设计了一个专业停用词库统计器，在不断进行的专家信息分词过程中统计词语的词频，词语在文本出现的概率大于一定阀值，将它纳入到专业停用词库，这些词语不是反映信息主题的特征词。

步骤5.构建专家知识表示模型：本发明利用专家信息的“半结构化”特征，对空间向量模型和物元知识集模型的扩展，建立知识表示模型TM＝(id,F,WF,T,V)，其中，id表示在专家库中的标识字段；F表示评审专家中字段类别集合；WF为字段的权重集合，定义wf为字段权重集合的元素；T为特征词语集合；V表示字段所对应的特征词语及其权重集合，V_i＝{v_i1,f(v_i1),v_i2,f(v_i2),...,v_in,f(v_in)}，v_ij表示第i个字段中的第j个特征词语，f(v_ij)表示v_ij特征词语在所对应的字段内的出现频率权重，计算公式如下：

f (v_{i j}) = \frac{v_{i j}}{Σ_{i = 1}^{N} v_{i j}}

根据知识表示模型的定义，评审专家信息的知识表示为：

步骤6.索引库构建专家知识表示模型构建完成后，将专家信息索引入库：从基础项目库中读取评审专家的内容项信息；根据步骤4提取出的专家信息特征词；依据步骤5的知识表示模型并利用Apache Lucene对信息建立索引；将建立好的索引按所属类别加至对应的索引库中，直到所有的评审专家索引入库。

步骤7.当用户输入关键词语素时，从关键词库中智能联想地自动提示关键词供用户选择，用户也可不选择自动提示关键词，而是继续输入自己的关键词语素，同时利用关键词统计器实时更新关键词词库。

所叙述的自动提示关键词的关键词词库的构建过程如下：

设计了一个关键词统计器，统计已检索过的关键词词频，以键值对<key,value>的方式索引入库。其中键key是历史关键词，值value是关键词的历史检索次数。若用户首次输入关键词term,则以<term,one>保存；否则，更新<term,num>为<term,num+1>。其中，one为检索次数初始值1，num为当前的关键词被检索次数。同时用户在检索输入框中输入关键词时，关键词统计器获取当前已输入的关键词语素S，从关键词词库中筛选关键词开头语素为S的相关关键词，设置历史检索次数阀值以历史检索次数降序的方式，自动地添加到检索输入框的下拉条目做关键词推荐。

步骤8.计算关键词和专家信息间的检索相关度：检索相关度的求解转化为关键词与专家信息特征词语的语义相似度和语素相似度的加权和的计算，综合相关度的计算公式如下：

SimComplex(K,D)＝φ×SimFSEMW(K,D)+(1-φ)×SimFChracterW(K,D)

其中，D表示专家信息。

归一化上述综合相关度计算公式，检索相关度的计算公式如下：

Sim(K,D)_i＝SimComplex(K,D)_i/SimComplex(K,D)_max

其中，SimComplex(K,D)_i表示关键词K与第i个专家信息的检索相关度，SimComplex(K,D)_max表示关键词K与所有专家信息的最大检索相关度。

所述的关键词与专家信息特征词语的语义相似度的计算过程如下：

在评审专家知识表示模型中，字段内的特征词词频统计向量包括特征词、经过位置重要性优化的词频权重等属性，其表示为V_i＝{v_i1,f(v_i1),v_i2,f(v_i2),...,v_in,f(v_in)}，特征词频率权重越大，表示这个特征词越能够反映该字段的主题，本发明定义关键词与专家信息的某个字段信息的语义相关度计算公式为：

S i m F S E M (K, F) = Σ_{i = 1}^{n} [S E M (K, t) \cdot (1 + \frac{f (t) - f {(t)}_{m i n}}{f {(t)}_{m a x} - f {(t)}_{m i n}})]

上述公式中，n为字段内特征词个数，f(t)表示检索特征词t在字段F中频率权重，f(t)_max表示最大频率权重，f(t)_min表示最小频率权重，SimSEM(K,t)为检索关键词和专家信息特征词的大于阀值τ(0＜τ＜1)的语义相似度值，n为对应的词语个数，关键词与专家信息特征词具有较大的语义相关性才将特征词纳入上述公式计算。在计算这个特征词与关键词的相关度时，特征词出现次数越多，则应突出这些词的贡献，因子1+(f(t)-f(t)_min)/(f(t)_max-f(t)_min)适当地加强关键词与专家信息特征词的语义相似度值权重。特别地，如果关键词K与特征词t相同，则SimSEM(K,t)＝1，即关键词语特征词相同，即两个词语是精确匹配的。

根据评审专家的知识表示模型的表示结构TM＝(id,F,WF,T,V)，每个专家信息由若干个专家字段构成，每个字段的重要性不同，字段权重也不同，将关键词语专家各个字段信息的语义相关度加权求和，得到关键词与评审专家整体信息的语义相关度，则关键词与评审专家整体信息的语义相关度的计算公式为：

S i m F S E M W (K, D) = Σ_{i = 1}^{t} {wf}_{i} \times S i m F S E M (K, F)

其中，wf分别为字段权重参数，t为字段总数。

所述的词语间的语义相似度计算过程如下：

在知网语义词典中，如果对于两个词语W₁和W₂，W₁有n个概念：S11，S12，...，S1_n，W₂有m个概念:S21,S22,...,S2m。词语W₁和W₂的相似度SimSEM(W1,W2)等于各个概念的相似度之最大值：

S i m S E M (W 1, W 2) = \underset{i = 1, ... n . j = 1 ... m}{m a x} S i m (S_{1 i}, S_{2 i})

基于知网的词语相似度原理计算词汇相似度，实词和虚词具有不同的描述语言。其中，只需要计算其对应的句法义原或关系义原之间的相似度即可。实词概念包括第一基本义原、其他基本义原、关系义原描述、关系符号描述，相似度分别记为Sim1(p₁,p₂)、Sim2(p₁,p₂)、Sim3(p₁,p₂)、Sim4(p₁,p₂)。两个特征结构的相似度计算最终还原到基本义原或具体词的相似度计算。

{Sim}_{4} (S_{1}, S_{2}) = Σ_{i = 1}^{4} β_{i} {Sim}_{i} (S_{1}, S_{2})

β_i(1≤i≤4)是可调节的参数，且有：β₁+β₂+β₃+β₄＝1,β₁≥β₂≥β₃≥β₄。

从上可以看出，传统的信息检索方式以采用关键词精确匹配的方式进行信息的检索，往往过于追求关键词与专家信息的词语精确性，本发明从语义角度更深层次地挖掘出关键词与专家信息所隐含的关系。

所述的关键词与专家信息特征词语的语素相似度的计算过程如下：

汉语中绝大多数词语的同义词、含有相同语素这一特点，语素相似度占重要的部分，比较两个词语中相同语素的个数，若相同语素的个数越多，则相似度就越大。本发明引入语素相似度，将汉语的构词特征和计算机检索技术结合起来，它是辅助识别同义词的有效方法，在计算个别词语语义相似度不好的情况下，改善语义相似度的计算。语素相似度的计算公式为:

S I M C h a r a c t e r (A, B) = 2 \times \frac{S a m e C (A, B)}{l e n (A) + l e n (B)}

其中，len(A)和len(B)是词语A和词语B的长度，SameC(A,B)表示词语A和词语B中相同语素的个数。例如:A＝“常常”,B＝“经常”则SIMCharacter(A,B)＝0.5。

与求解关键词与专家信息的某个字段信息的语义相似度原理相同，关键词与专家信息的某个字段信息的语素相关度计算公式为：

S i m F C h r a c t e r (K, F) = Σ_{i = 1}^{n} [S I M C h r a c t e r (K, t) \cdot (1 + \frac{f (t) - f {(t)}_{m i n}}{f {(t)}_{m a x} - f {(t)}_{m i n}})]

其中，f(t)表示检索特征词t在字段F中频率权重，n为字段内特征词个数。

与求解关键词与专家信息信息的语义相似度原理相同，关键词与专家信息的语素相关度计算公式为：

S i m F C h r a c t e r W (K, D) = Σ_{i = 1}^{t} {wf}_{i} \times S i m F C h r a c t e r (K, F)

其中，wf分别为字段权重参数，t为字段总数。

步骤9.A.对检索到的专家信息进行排序，同时将专家被检索次数记录更新，以便推荐基于用户访问行为的热门专家资源；B.选择不同字段或全字段方式查看专家信息：(1)当用户选择单一字段查看时，这一字段信息与关键词具有较强语义性相关的专家被筛选出，语义相关性较弱的不加入检索结果专家列表；检索结果按检索相关度从高到低排序输出。(2)当用户选择全字段查看时，检索结果直接按检索相关度从高到低排序输出。

步骤10.将每个专家信息中的所有匹配成功的词语分别高亮标注，便于用户的对专家信息的详细查看。

另外，传统的专家检索技术往往是从专家信息库中直接“拉取”专家信息，上述基于语义检索专家仍然不能满足用户的需求，优选地，本发明在语义检索专家信息的基础上，研究让检索系统根据用户自身特点进行个性化“推送”专家信息资源的技术，将基于用户访问行为的热门专家资源直接在显示在检索系统中。发明特别设置了用户检索专家信息访问行为的跟踪记录模块，在步骤9中进行统计，使得能够为用户自动地“推送”某一时段内被最多检索、历史被最多检索、被用户以前最多检索的专家信息，检索用户直接点击查看相关专家就可以找到满意的专家信息。

本发明有益效果如下：本发明技术方案提出基于关键词的专家智能检索与排序推荐方法，将丰富的专家库信息的半结构化数据作为基础资源，提取特征词并构建专家知识表示模型，利用基于语义等信息检索专家信息，弥补检索机械匹配的不足，实现了专家信息的全文检索以及推荐。与传统的基于关键词的检索方法相比，本发明更加便捷地、智能地检索出专家信息，也提高了评审专家信息的检索精准度。

附图说明

图1是本发明中基于关键词的科技项目评审专家智能检索与排序推荐方法的流程图。

具体实施方式

下面结合附图对本发明作进一步说明，应该强调的是下述说明仅仅是示例性的，而不是为了限制本发明的范围及其应用。以下对本发明的具体实施方式作进一步详述，基于发明中的实施例，本领域普通技术人员在没有创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

如图1所示，本发明的思路：(1)基于科技项目申报管理系统中丰富的评审专家信息，利用中科院分词系统ICTCLAS分词，根据通用停用词库和专业停用词库进行停用词过滤，分字段提取每个专家信息的特征词集合；(2)基于特征词所在字段和权值构建专家知识表示模型，利用Apache Lucene构建专家信息索引库；(3)基于词语语义等特征，计算关键词与专家信息的检索相关度，设定相关度阀值筛选符合条件的专家，防止“检索漂移”；(4)发明还构建了用于智能联想提示关键词的关键词词库，并提供了检索结果分字段查看功能和自动推荐热门专家资源信息功能，更加细致地、人性化地满足用户的检索需求。

本发明解决问题所采用的技术方案包括如下步骤：

f (v_{i j}) = \frac{v_{i j}}{Σ_{i = 1}^{N} v_{i j}}

根据知识表示模型的定义，评审专家信息的知识表示为：

所叙述的自动提示关键词的关键词词库的构建过程如下：

SimComplex(K,D)＝φ×SimFSEMW(K,D)+(1-φ)×SimFChracterW(K,D)

其中，D表示专家信息。

Sim(K,D)_i＝SimComplex(K,D)_i/SimComplex(K,D)_max

S i m F S E M (K, F) = Σ_{i = 1}^{n} [S E M (K, t) \cdot (1 + \frac{f (t) - f {(t)}_{m i n}}{f {(t)}_{m a x} - f {(t)}_{m i n}})]

S i m F S E M W (K, D) = Σ_{i = 1}^{t} {wf}_{i} \times S i m F S E M (K, F)

其中，wf分别为字段权重参数，t为字段总数。

所述的词语间的语义相似度计算过程如下：

S i m S E M (W 1, W 2) = \underset{i = 1, ... n . j = 1 ... m}{m a x} S i m (S_{1 i}, S_{2 i})

基于知网的词语相似度计算词汇相似度，实词和虚词具有不同的描述语言。其中，只需要计算其对应的句法义原或关系义原之间的相似度即可。实词概念包括第一基本义原、其他基本义原、关系义原描述、关系符号描述，相似度分别记为Sim1(p₁,p₂)、Sim2(p₁,p₂)、Sim3(p₁,p₂)、Sim4(p₁,p₂)。两个特征结构的相似度计算最终还原到基本义原或具体词的相似度计算。

{Sim}_{4} (S_{1}, S_{2}) = Σ_{i = 1}^{4} β_{i} {Sim}_{i} (S_{1}, S_{2})

S I M C h a r a c t e r (A, B) = 2 \times \frac{S a m e C (A, B)}{l e n (A) + l e n (B)}

S i m F C h r a c t e r (K, F) = Σ_{i = 1}^{n} [S I M C h r a c t e r (K, t) \cdot (1 + \frac{f (t) - f {(t)}_{m i n}}{f {(t)}_{m a x} - f {(t)}_{m i n}})]

S i m F C h r a c t e r W (K, D) = Σ_{i = 1}^{t} {wf}_{i} \times S i m F C h r a c t e r (K, F)

其中，wf分别为字段权重参数，t为字段总数。

本发明有益效果如下：本发明技术方案提出基于关键词的专家智能检索与排序推荐方法，将丰富的专家库信息将半结构化数据作为基础资源，提取特征词并构建专家知识表示模型，利用基于语义等信息检索专家信息，弥补检索机械匹配的不足，实现了专家信息的全文检索以及推荐。与传统的基于关键词的检索方法相比，本发明更加便捷地、智能地检索出专家信息，也提高了评审专家信息的检索精准度。

以上所述仅是本发明的优选实施方式，应当指出，对于科技项目评审专家领域的智能检索与排序推荐，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应该视为本发明的法律保护范围。

Claims

1.一种基于关键词的评审专家智能检索与推荐方法，其特征在于该方法的具体步骤是：

步骤1.从科技项目申报管理系统后台数据库中收集评审专家信息；

步骤2.把评审专家信息中的通用词和惯用词作为专业停用词库；把标点符号、非汉字作为切分标记库；

步骤3.对评审专家信息进行分词：首先根据评审专家信息中切分标记抽取专家信息，获奖情况、发明情况、发表论文情况、课题承担过的项目及完成情况、研究方向；切分成子串序列，一个子串序列即一个字段信息；利用中科院ICTCLAS对子串序列进行分词；

步骤4.根据通用停用词库和专业停用词库进行停用词过滤，提取每个专家的特征词集合，所述的通用停用词库采用哈工大停用词表；

步骤5.构建专家知识表示模型：利用专家信息的“半结构化”特征，对空间向量模型和物元知识集模型的扩展，建立知识表示模型TM＝(id,F,WF,T,V)，其中，id表示在专家库中的标识字段；F表示评审专家中字段类别集合；WF为字段的权重集合，定义wf为字段权重集合的元素；T为特征词语集合；V表示字段所对应的特征词语及其权重集合，V_i＝{v_i1,f(v_i1),v_i2,f(v_i2),...,v_in,f(v_in)}，v_ij表示第i个字段中第j个特征词语，f(v_ij)表示v_ij特征词语在所对应的字段内的出现频率权重，计算公式如下：

f (v_{i j}) = \frac{v_{i j}}{Σ_{i = 1}^{N} v_{i j}};

根据知识表示模型的定义，评审专家信息的知识表示为：

步骤6.索引库构建专家知识表示模型构建完成后，将专家信息索引入库：从基础项目库中读取评审专家的内容项信息；根据步骤4提取出的专家信息特征词；依据步骤5的知识表示模型并利用Apache Lucene对信息建立索引；将建立好的索引按所属类别加至对应的索引库中，直到所有的评审专家索引入库；

步骤7.当用户输入关键词语素时，从关键词库中智能联想地自动提示关键词供用户选择，用户也可不选择自动提示关键词，而是继续输入自己的关键词语素，同时利用关键词统计器实时更新关键词词库；

SimComplex(K,D)＝φ×SimFSEMW(K,D)+(1-φ)×SimFChracterW(K,D)；

其中，D表示专家信息；

Sim(K,D)_i＝SimComplex(K,D)_i/SimComplex(K,D)_max；

其中，SimComplex(K,D)_i表示关键词K与第i个专家信息的检索相关度，SimComplex(K,D)_max表示关键词K与所有专家信息的最大检索相关度；

所述的关键词与专家信息特征词语的语义相似度的计算过程是：在评审专家知识表示模型中，字段内的特征词词频统计向量包括特征词、经过位置重要性优化的词频权重，其表示为V_i＝{v_i1,f(v_i1),v_i2,f(v_i2),...,v_in,f(v_in)}，特征词频率权重越大，表示这个特征词越能够反映该字段的主题，定义关键词与专家信息的某个字段信息的语义相关度计算公式为：

S i m F S E M (K, F) = Σ_{i = 1}^{n} [S E M (K, t) \cdot (1 + \frac{f (t) - f {(t)}_{m i n}}{f {(t)}_{m a x} - f {(t)}_{\min}})];

上述公式中，n为字段内特征词个数，f(t)表示检索特征词t在字段F中频率权重，f(t)_max表示最大频率权重，f(t)_min表示最小频率权重，SimSEM(K,t)为检索关键词和专家信息特征词的大于阀值τ的语义相似度值，0＜τ＜1，n为对应的词语个数，关键词与专家信息特征词具有较大的语义相关性才将特征词纳入上述公式计算；在计算这个特征词与关键词的相关度时，特征词出现次数越多，则应突出这些词的贡献，因子1+(f(t)-f(t)_min)/(f(t)_max-f(t)_min)适当地加强关键词与专家信息特征词的语义相似度值权重；特别地，如果关键词K与特征词t相同，则SimSEM(K,t)＝1，即关键词语特征词相同，即两个词语是精确匹配的；

S i m F S E M W (K, D) = Σ_{i = 1}^{t} {wf}_{i} \times S i m F S E M (K, F);

其中，wf分别为字段权重参数，t为字段总数；

所述的关键词与专家信息特征词语的语素相似度的计算过程是：汉语中绝大多数词语的同义词、含有相同语素这一特点，语素相似度占重要的部分，比较两个词语中相同语素的个数，若相同语素的个数越多，则相似度就越大；引入语素相似度，将汉语的构词特征和计算机检索技术结合起来，它是辅助识别同义词的有效方法，在计算个别词语语义相似度不好的情况下，改善语义相似度的计算；语素相似度的计算公式为：

S I M C h a r a c t e r (A, B) = 2 \times \frac{S a m e C (A, B)}{l e n (A) + l e n (B)};

其中，len(A)和len(B)是词语A和词语B的长度，SameC(A,B)表示词语A和词语B中相同语素的个数；

S i m F C h r a c t e r (K, F) = Σ_{i = 1}^{n} [S I M C h r a c t e r (K, t) \cdot (1 + \frac{f (t) - f {(t)}_{\min}}{f {(t)}_{m a x} - f {(t)}_{\min}})];

其中，f(t)表示检索特征词t在字段F中频率权重，n为字段内特征词个数；

S i m F C h r a c t e r W (K, D) = Σ_{i = 1}^{t} {wf}_{i} \times S i m F C h r a c t e r (K, F)

其中，wf分别为字段权重参数，t为字段总数；

步骤9.A.对检索到的专家信息进行排序，同时将专家被检索次数记录更新，以便推荐基于用户访问行为的热门专家资源；B.选择不同字段或全字段方式查看专家信息：(1)当用户选择单一字段查看时，这一字段信息与关键词具有较强语义性相关的专家被筛选出，语义相关性较弱的不加入检索结果专家列表；检索结果按检索相关度从高到低排序输出；(2)当用户选择全字段查看时，检索结果直接按检索相关度从高到低排序输出；

2.根据权利要求1所述的方法，其特征在于：步骤7中所述的自动提示关键词，其关键词词库的构建过程如下：

设计一个关键词统计器，统计已检索过的关键词词频，以键值对<key,value>的方式索引入库；其中键key是历史关键词，值value是关键词的历史检索次数；若用户首次输入关键词term,则以<term,one>保存；否则，更新<term,num>为<term,num+1>；其中，one为检索次数初始值1，num为当前的关键词被检索次数；同时用户在检索输入框中输入关键词时，关键词统计器获取当前已输入的关键词语素S，从关键词词库中筛选关键词开头语素为S的相关关键词，设置历史检索次数阀值以历史检索次数降序的方式，自动地添加到检索输入框的下拉条目做关键词推荐。

3.根据权利要求1所述的方法，其特征在于：所述的语义相似度计算过程如下：

在知网语义词典中，如果对于两个词语W₁和W₂，W₁有n个概念：S11，S12，...，S1n，W₂有m个概念:S21,S22,...,S2m；词语W₁和W₂的相似度SimSEM(W1,W2)等于各个概念的相似度之最大值：

S i m S E M (W 1, W 2) = \underset{i = 1, ... n . j = 1 ... m}{m a x} S i m (S_{1 i}, S_{2 i});

基于知网的词语相似度原理计算词汇相似度，实词和虚词具有不同的描述语言；其中，只需要计算其对应的句法义原或关系义原之间的相似度即可；实词概念包括第一基本义原、其他基本义原、关系义原描述、关系符号描述，相似度分别记为Sim1(p₁,p₂)、Sim2(p₁,p₂)、Sim3(p₁,p₂)、Sim4(p₁,p₂)；两个特征结构的相似度计算最终还原到基本义原或具体词的相似度计算；

{Sim}_{4} (S_{1}, S_{2}) = Σ_{i = 1}^{4} β_{i} {Sim}_{i} (S_{1}, S_{2});