CN103235774B

CN103235774B - 一种科技项目申请书特征词提取方法

Info

Publication number: CN103235774B
Application number: CN201310151425.8A
Authority: CN
Inventors: 徐小良; 林建海; 茅志刚
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2013-04-27
Filing date: 2013-04-27
Publication date: 2016-04-06
Anticipated expiration: 2033-04-27
Also published as: CN103235774A

Abstract

本发明公开了一种科技项目申请书特征词提取方法。本发明具体包括如下步骤：步骤1：将申请书主要文本切分成子串序列并进行中科院ICTCLAS分词；步骤2：构建基于碎片的规则模型，并通过构建的规则模型识别未登录词；步骤3：对经步骤2提取未登录词后的分词结果进行停用词过滤得到词语集合；步骤4：计算词语集合中词语间语义相似度并建立词语语义相似度网络，计算图中词语的关联度，根据关联度大小提取特征词；步骤5：将步骤4得到的特征词与步骤2识别出的未登录词组成科技项目申请书的特征词。本发明能更准确地提取到项目申请书的关键词，也改善了科技项目相似度检查的效果。

Description

一种科技项目申请书特征词提取方法

技术领域

本发明属于分词与特征词提取技术领域，尤其涉及一种科技项目申请书特征词提取方法，用于针对科技项目申请书特征词提取的应用。

背景技术

随着我国各类科技计划项目申报数量和经费的逐年递增，由于目前科技项目管理信息系统建设的不健全，导致项目重复申报立项情况十分普遍。为有效杜绝这种现象，提高科技经费使用效率，针对科技项目申请书信息进行文本相似度计算研究是非常必要的。特征词是相似度计算、文本检索等应用的基础，因而特征词提取方法的研究是有效实现科技项目相似性检查的关键所在。

目前特征词提取方法主要分为三类：(1)基于统计特征的方法，如词语频度统计；(2)基于词语网络的方法，如根据规则将文档映射为词语共现网络并计算词语的关键度来提取特征词；(3)基于语义的方法。前两种方法虽然具有简单高效的优点，但由于算法局限于字面匹配、缺乏语义理解而排除了低频率的特征词。针对这个问题，引入语义特征进行关键词提取是目前的主要研究方法，如引入《同义词词林》计算词语的语义距离，一定程度上提高了关键词提取的准确度。

发明内容

本发明的目的是针对现有技术的不足，提出一种科技项目申请书特征词提取方法，能够有效地提取出表示项目申请书的特征词。

本发明解决问题所采取的技术方案包括如下步骤：

步骤1.把申请书中的通用词和惯用词，作为专业停用词库；把标点符号、非汉字作为切分标记库。

所述的通用词和惯用词包括“本项目”、“本系统”、“技术”、“创新”、“开发”，“研究”。

步骤2.对项目申请书进行分词：首先根据切分标记库，将申请书内容文本切分成子串序列；然后对子串序列分别进行中科院ICTCLAS分词。

步骤3.构建基于碎片的规则模型，并通过构建的规则模型识别未登录词。所述的未登录词识别是基于碎片的，将分词后产生的碎片与碎片两端的多字词定义为未登录词候选片段，设W_sC₁C₂…C_nW_e其中W_s是与碎片左端相邻的多字词，C₁C₂…C_n为产生的碎片，W_e是与碎片右端相邻的多字词。规则模型如下：

规则一：确定字词的词性。针对多词性的字词，以其词性标注的第一个为其词性。

规则二：设置未登录词排除字集。词性为介词、助词、代词、副词的单字，比如“的、呢、最、太、这、我”，还有其它词性当中有存在构词能力较弱的，比如“呈，有，如，时”，所述的构词能力比较弱是指与其它字串构成未登录词的概率小于10%；将这些词归类为未登录词排除字集。

规则三：设置切分规则。未登录词候选片段对于未登录词片段W_sC₁C₂…C_nW_e中的C_i根据规则二，确定为排除字，那么未登录词片段切分为W_sC₁…C_i-1与C_i+1…C_nW_e两个未登录词片段，其中，1<i<n，n为自然数。

规则四：设置前缀字集。对未登录词片段W_sC₁C₂…C_nW_e中的C_n进行前缀字判断。根据科技项目申请书分词碎片的分析统计，将碎片中存在构词能力比较强，且在词AB中处于A位置的字称为前缀字。所述的构词能力比较强是指与其它字词构成未登录词的概率超过90%的前缀字，将所述的前缀字归类为前缀字集。

规则五：设置后缀字集。对于未登录词片段W_sC₁C₂…C_nW_e中的C₁进行后缀字判断。同样根据规则四，将所述的后缀字归类为前缀字集。

规则六：设置词性配搭规则，具体如下：

(1).若未登录词候选片段如W_sC₁W_e，C₁的第一词性为形容词，若W_e为名词，则优先与W_e结合；否则，若W_s为名词，不成词，否则优先与W_s结合。若未登录词候选片段如W_sC₁，W_s为名词，W_sC₁不成词，否则成词；若未登录词候选片段如C₁W_e，W_e为动词，C₁W_e不成词，否则，成词。

(2).若未登录词候选片段如W_sC₁W_e，C₁的第一词性为动词，若W_e为动词或名词，那么C₁优先与W_s结合;否则，若W_s为动词，那么优先与W_s结合，否则不成词。若未登录词候选片段为C₁W_e，W_e为形容词，则C₁W_e不成词，否则成词；若未登录词候选片段如W_sC₁，W_s为名词，W_sC₁不成词，否则成词。

(3).若未登录词候选片段如W_sC₁W_e，C₁的第一词性为名词，若W_s，W_e都为名词，则C₁优先与W_s结合，若只有W_s或W_e为名词，则优先与W_s或W_e结合，否则，优先与W_s结合。若未登录词候选片段如W_sC₁或C₁W_e，则结合成W_sC₁或C₁W_e。

(4).若未登录词候选片段如W_sC₁W_e，C₁的第一词性为其它词性，C₁优先与W_s结合。

对未登录词候选片段W_sC₁C₂…C_nW_e进行未登录词识别的规则模型，其描述如下：

1）若n=1，根据规则二，若C₁是排除字或者数词，则识别结束；否则转3）；

2）若n>=2，根据规则二，若C₁是排除字，则未登录词候选片段变成C₂…C_nW_e,转6）；根据规则五，若C₁是后缀字，则取出未登录词W_sC₁，未登录词候选片段变成C₂…C_nW_e，转6）；根据规则七，若C₁是数词，则转7；否则转8）；

3）根据规则四，若C₁是前缀字，则取出未登录词C₁W_e，识别结束；否则转4）；

4）根据规则五，若C₁是后缀字，则取出未登录词W_sC₁，识别结束；否则转5）；

5）根据规则六词性配搭，识别出未登录词；

6）取下一个C_i，若i=n，根据规则二，若C_i是排除字或数词，识别结束；根据规则四，若C_i是前缀字，则取出未登录词C_nW_e，识别结束；否则，识别结束。若i<n,根据规则二，若C_i是排除字，则未登录词候选片段变成C_i+1…C_nW_e，转6）；根据规则六，若C_i是数词，转7）；否则转8）；

7）取下一个C_i，若i=n,根据规则六，若C_i是数词或量词前缀字,取出C_n-1C_n，作为数词，识别结束；根据规则四，若C_i是前缀字，则取出未登录词C_nW_e，识别结束；否则识别结束。若i<n，根据规则七，若C_i是数词，量词前缀字，量词，转7）；否则，转8）

8）取下一个C_i，若i=n，根据规则二，C_i是排除字或数词，则取出C_n前面的单字作为未登录词，识别结束；根据规则四，若C_i是前缀字，则取出C_n前面的单字为未登录词，C_nW_e也作为未登录词，识别结束；否则，识别出W_e前面的单字作为未登录词，识别结束。若i<n,根据规则二，若C_i是排除字，取出C_i前面的单字，根据规则三，若为一个，不作为未登录词，否则作为未登录词，未登录词候选片段变成C_i+1…C_nW_e,转6）；否则转8）。

步骤4.根据通用停用词库和专业停用词库进行停用词过滤，通用停用词库是采用哈工大停用词表。把过滤停用词和未登录词后的分词结果作为词语集合。

步骤5.对步骤4得到的词语集合进行词语间语义相似度计算，从而建立词语语义相似度网络；然后结合词语的词频，计算网络中词语的关联度来提取出其他特征词；

所述的语义相似度计算过程如下：

对于两个词语，借助于知网语义词典，首先对两个词的义原相互进行相似度计算，并取其最大值，再根据下面的公式定义求得两个词语的语义相似度。

其中,w₁为词语，有n个概念,w₂为词语，有m个概念，且，n和m为自然数；

所述的词语语义相似度网络如下：

设为处理后得到的词语集合，则其对应的语义相似度邻接矩阵定义为：

词语集合经过词语语义相似度计算得到p*(1+p)/2个词语间语义相似度的值，并对这些值进行递减排序；设定一个阈值，取出前的值，设这部分语义相似度值所对应的词组合成另一词序列集合为，根据它们之间的语义相似度值生成对应的输入语义相似度邻接矩阵，p与q为自然数。

作为输入的词语集合，作为输入的语义相似度邻接矩阵，则其对应的词语语义相似度网络图定义为：G={V,E}；其中图G为无向加权图，V表示图G中的顶点集，表示V中第i个顶点（词）；E表示G中的边集；图G边的权值矩阵为，为第i个顶点和第j个顶点之间边的权值。

所述的词语语义关联度计算为：

设图G为构建的社会网络图，其中G为加权无向图，图中两个顶点之间边的权值为它们之间的语义相似度；到的最短路径经过的顶点依次为，路径对应的边的权值依次为，则G中顶点和对它们之间的关联度定义为：

其中为词序列集合中第j个词在申请书中的词频；为顶点到之间最短路径长度。

所以对于图G中的顶点，它在整个图中的关联度如下：

通过计算将得到q个关联度的值并从大到小排序，设定一个阈值，取出前个的值，则这些值所对应的顶点将作为文本特征词进行提取。

步骤6.将步骤5得到的特征词与步骤3识别出的未登录词组成科技项目的特征词。

本发明有益效果如下：

与传统的关键词提取方法相比，基于未登录词与语义的新方法能更准确地提取到项目关键词，也改善了科技项目相似度检查的效果。

附图说明

图1是本发明中科技项目申请书特征词提取的流程图。

具体实施方式

下面结合附图对本发明作进一步说明。

如图1所示，一种科技项目申请书特征词提取方法，包括如下步骤：

步骤1.把申请书中的通用词和惯用词，作为专业停用词库；把标点符号，非汉字作为切分标记库。所述的通用词和惯用词包括“本项目”、“本系统”、“技术”、“创新”、“开发”，“研究”等。

步骤2.对项目申请书进行分词：首先根据切分标记库，将申请书内容文本切分成子串序列；然后对子串序列分别利用逆向最大匹配方法进行分词。

步骤3.构建基于碎片的规则模型，并通过构建的规则模型识别未登录词；通过对未登录词进行识别并提取相应的未登录词作为未登录词集合，将识别出的未登录词作为项目特征词的一部分。

所述的未登录词的识别是基于碎片的，将分词后产生的碎片与碎片两端的多字词定义为未登录词候选片段，设W_sC₁C₂…C_nW_e其中W_s是与碎片左端相邻的多字词，C₁C₂…C_n为产生的碎片，W_e是与碎片右端相邻的多字词。规则模型如下：

规则一：确定字词的词性。针对多词性的字词，以其词性标注的第一个为其的词性。

规则二：设置未登录词排除字集。词性为介词、助词、代词、副词的单字，比如“的、呢、最、太、这、我”，还有其它词性当中有存在构词能力较弱的，比如“呈，有，如，时”，所述的构词能力比较弱是指与其它字串构成未登录词的概率小于10%；将这些词为未登录词排除字集。

规则四：设置前缀字集。对未登录词片段W_sC₁C₂…C_nW_e中的C_n进行前缀字判断。根据科技项目申请书分词碎片的分析统计，将碎片中存在构词能力比较强，且在词AB中处于A位置的字称为前缀字。所述的构词能力比较强是指与其它字词构成未登录词的概率超过90%的前缀字为前缀字集。

规则五：设置后缀字集。对于未登录词片段W_sC₁C₂…C_nW_e中的C₁进行后缀字判断。同样根据规则四，收集了后缀字集。

规则六：设置词性配搭规则，具体如下：

5）根据规则六词性配搭，识别出未登录词；

步骤4.根据通用停用词库和专业停用词库进行停用词过滤，通用停用词库是采用哈工大停用词表。把停用词和未登录词的分词结果作为词语集合。

步骤5.再对词语集合进行词语间语义相似度计算，从而建立词语语义相似度网络；然后结合词语的词频，计算网络中词语的关联度来提取出其他特征词；

所述的语义相似度计算过程如下：

所述的词语语义相似度网络如下：

词语集合经过词语语义相似度计算得到p*(1+p)/2个词语间相似度的值，并对这些值进行递减排序；设定一个阈值，取出前的值，假设这些相似度值所对应的词组合成另一词序列集合为，并根据它们之间的相似度值生成对应的输入语义相似度邻接矩阵。p与q为自然数。

作为输入的词语集合，作为输入的语义相似度邻接矩阵，则其对应的词语语义相似度网络图定义为：G={V,E}；

其中图G为无向加权图，V表示图G中的顶点集，表示V中第i个顶点（词）；E表示G中的边集；图G边的权值矩阵为，为第i个顶点和第j个顶点之间边的权值。

所述的词语语义关联度计算为：

所以对于图G中的顶点，它在整个图中的关联度如下：

Claims

1.一种科技项目申请书特征词提取方法，其特征在于包括如下步骤：

步骤1.把申请书中的通用词和惯用词，作为专业停用词库；把标点符号、非汉字作为切分标记库；

所述的通用词和惯用词包括“本项目”、“本系统”、“技术”、“创新”、“开发”，“研究”；

步骤2.对项目申请书进行分词：首先根据切分标记库，将申请书内容文本切分成子串序列；然后对子串序列分别进行中科院ICTCLAS分词；

步骤3.构建基于碎片的规则模型，并通过构建的规则模型识别未登录词；

未登录词识别是基于碎片的，将分词后产生的碎片与碎片两端的多字词定义为未登录词候选片段，设W_sC₁C₂…C_nW_e其中W_s是与碎片左端相邻的多字词，C₁C₂…C_n为产生的碎片，W_e是与碎片右端相邻的多字词；规则模型如下：

规则一：确定字词的词性，针对多词性的字词，以其词性标注的第一个为其第一词性；

规则二：设置未登录词排除字集，将词性为介词、助词、代词、副词的单字，或其它词性当中与其它字串构成未登录词的概率小于10％的单字设置为未登录词排除字集；

规则三：设置切分规则，对于未登录词候选片段W_sC₁C₂…C_nW_e中的C_i根据规则二，确定为排除字，那么未登录词候选片段切分为W_sC₁…C_i-1与C_i+1…C_nW_e两个未登录词片段，其中，1<i<n，n为自然数；

规则四：设置前缀字集，对未登录词候选片段W_sC₁C₂…C_nW_e中的C_n进行前缀字判断，将碎片中其它字词构成未登录词的概率超过90％的单字，且在词AB中处于A位置的字称为前缀字，并集合成前缀字集；

规则五：设置后缀字集，对于未登录词候选片段W_sC₁C₂…C_nW_e中的C₁进行后缀字判断，同样根据规则四，集合成后缀字集；

规则六：设置词性配搭规则，具体如下：

(1).若未登录词候选片段如W_sC₁W_e，C₁的第一词性为形容词，若W_e为名词，则优先与W_e结合；否则，若W_s为名词，不成词，否则优先与W_s结合；若未登录词候选片段如W_sC₁，W_s为名词，W_sC₁不成词，否则成词；若未登录词候选片段如C₁W_e，W_e为动词，C₁W_e不成词，否则，成词；

(2).若未登录词候选片段如W_sC₁W_e，C₁的第一词性为动词，若W_e为动词或名词，那么C₁优先与W_s结合；否则，若W_s为动词，那么优先与W_s结合，否则不成词；若未登录词候选片段为C₁W_e，W_e为形容词，则C₁W_e不成词，否则成词；若未登录词候选片段如W_sC₁，W_s为名词，W_sC₁不成词，否则成词；

(3).若未登录词候选片段如W_sC₁W_e，C₁的第一词性为名词，若W_s，W_e都为名词，则C₁优先与W_s结合，若只有W_s或W_e为名词，则优先与W_s或W_e结合，否则，优先与W_s结合；若未登录词候选片段如W_sC₁或C₁W_e，则结合成W_sC₁或C₁W_e；

(4).若未登录词候选片段如W_sC₁W_e，C₁的第一词性为其它词性，C₁优先与W_s结合；

1)若n＝1，根据规则二，若C₁是排除字或者数词，则识别结束；否则转3)；

2)若n>＝2，根据规则二，若C₁是排除字，则未登录词候选片段变成C₂…C_nW_e,转6)；根据规则五，若C₁是后缀字，则取出未登录词W_sC₁，未登录词候选片段变成C₂…C_nW_e，转6)；根据规则七，若C₁是数词，则转7)；否则转8)；

3)根据规则四，若C₁是前缀字，则取出未登录词C₁W_e，识别结束；否则转4)；

4)根据规则五，若C₁是后缀字，则取出未登录词W_sC₁，识别结束；否则转5)；

5)根据规则六词性配搭，识别出未登录词；

6)取下一个C_i，若i＝n，根据规则二，若C_i是排除字或数词，识别结束；根据规则四，若C_i是前缀字，则取出未登录词C_nW_e，识别结束；否则，识别结束；若i<n,根据规则二，若C_i是排除字，则未登录词候选片段变成C_i+1…C_nW_e，转6)；根据规则六，若C_i是数词，转7)；否则转8)；

7)取下一个C_i，若i＝n,根据规则六，若C_i是数词或量词前缀字,取出C_n-1C_n，作为数词，识别结束；根据规则四，若C_i是前缀字，则取出未登录词C_nW_e，识别结束；否则识别结束；若i<n，根据规则七，若C_i是数词，量词前缀字，量词，转7)；否则，转8)；

8)取下一个C_i，若i＝n，根据规则二，C_i是排除字或数词，则取出C_n前面的单字作为未登录词，识别结束；根据规则四，若C_i是前缀字，则取出C_n前面的单字为未登录词，C_nW_e也作为未登录词，识别结束；否则，识别出W_e前面的单字作为未登录词，识别结束；若i<n,根据规则二，若C_i是排除字，取出C_i前面的单字，根据规则三，若为一个，不作为未登录词，否则作为未登录词，未登录词候选片段变成C_i+1…C_nW_e，转6)；否则转8)；

步骤4.根据通用停用词库和专业停用词库进行停用词过滤，把过滤停用词和未登录词后的分词结果作为词语集合，所述的通用停用词库是采用哈工大停用词表；

步骤5.对步骤4得到的词语集合进行词语间语义相似度计算，从而建立词语语义相似度网络；然后结合词语的词频，计算网络中词语语义关联度来提取出其他特征词；

所述的语义相似度计算过程如下：

对于两个词语，借助于知网语义词典，首先对两个词的义原相互进行相似度计算，并取其最大值，再根据下面的公式求得两个词语的语义相似度；

S i m (w_{1}, w_{2}) = \max_{i = 1, ..., n, j = 1, ..., m} S i m (c_{1 i}, c_{2 j})

其中,w₁为词语，有n个概念c₁₁,c₁₂,...,c_1n,w₂为词语，有m个概念c₂₁,c₂₂,...,c_2m，且，n和m为自然数；

所述的词语语义相似度网络如下：

设W＝{v₁,v₂,...,v_p}为处理后得到的词语集合，则其对应的语义相似度邻接矩阵M_p定义为：

词语集合W＝{v₁,v₂,...,v_p}经过词语语义相似度计算得到p*(1+p)/2个词语间语义相似度的值，并对这些值进行递减排序；设定一个阈值β，0<β<1，取出前β*p*(1+p)/2的值，设这部分语义相似度值所对应的词组合成另一词语集合为SW'＝{s₁,s₂,...,s_q}，q≤p，根据它们之间的语义相似度值生成SW'对应的输入语义相似度邻接矩阵M_q，p与q为自然数；

SW'作为输入的词语集合，M_q作为输入的语义相似度邻接矩阵，则其对应的词语语义相似度网络图定义为：G＝{V,E}；其中图G为无向加权图，V表示图G中的顶点集，v_i表示V中第i个顶点；E表示G中的边集；图G边的权值矩阵为M_q，Sim(v_i,v_j)为第i个顶点和第j个顶点之间边的权值；

所述的词语语义关联度计算为：

设图G为构建的社会网络图，其中G为加权无向图，图中两个顶点之间边的权值为它们之间的语义相似度；v_i到v_j的最短路径经过的顶点依次为v_i,v_i+1,...,v_j，路径对应的边的权值依次为s_i,s_i+1,...,s_j-1，则G中顶点v_i和v_j之间的关联度定义为：

\begin{matrix} {rd}_{i j} = f_{j} Σ_{p = i}^{j - 1} s_{p} & , i &NotEqual; j \end{matrix}

其中f_j为词序列集合SW'中第j个词在申请书中的词频；为顶点v_i到v_j之间最短路径长度；

所以对于图G中的顶点v_i，它在整个图中的关联度如下：

{rd}_{i} = Σ_{j = 1, j &NotEqual; i}^{q} {rd}_{i j}

通过计算将得到q个关联度的值并从大到小排序，设定一个阈值γ，0<γ<1，取出前γ*q个的值，则这些值所对应的顶点将作为文本特征词进行提取；