CN103235774B - 一种科技项目申请书特征词提取方法 - Google Patents

一种科技项目申请书特征词提取方法 Download PDF

Info

Publication number
CN103235774B
CN103235774B CN201310151425.8A CN201310151425A CN103235774B CN 103235774 B CN103235774 B CN 103235774B CN 201310151425 A CN201310151425 A CN 201310151425A CN 103235774 B CN103235774 B CN 103235774B
Authority
CN
China
Prior art keywords
word
rule
unregistered
words
unregistered word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310151425.8A
Other languages
English (en)
Other versions
CN103235774A (zh
Inventor
徐小良
林建海
茅志刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201310151425.8A priority Critical patent/CN103235774B/zh
Publication of CN103235774A publication Critical patent/CN103235774A/zh
Application granted granted Critical
Publication of CN103235774B publication Critical patent/CN103235774B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种科技项目申请书特征词提取方法。本发明具体包括如下步骤:步骤1:将申请书主要文本切分成子串序列并进行中科院ICTCLAS分词;步骤2:构建基于碎片的规则模型,并通过构建的规则模型识别未登录词;步骤3:对经步骤2提取未登录词后的分词结果进行停用词过滤得到词语集合;步骤4:计算词语集合中词语间语义相似度并建立词语语义相似度网络,计算图中词语的关联度,根据关联度大小提取特征词;步骤5:将步骤4得到的特征词与步骤2识别出的未登录词组成科技项目申请书的特征词。本发明能更准确地提取到项目申请书的关键词,也改善了科技项目相似度检查的效果。

Description

一种科技项目申请书特征词提取方法
技术领域
本发明属于分词与特征词提取技术领域,尤其涉及一种科技项目申请书特征词提取方法,用于针对科技项目申请书特征词提取的应用。
背景技术
随着我国各类科技计划项目申报数量和经费的逐年递增,由于目前科技项目管理信息系统建设的不健全,导致项目重复申报立项情况十分普遍。为有效杜绝这种现象,提高科技经费使用效率,针对科技项目申请书信息进行文本相似度计算研究是非常必要的。特征词是相似度计算、文本检索等应用的基础,因而特征词提取方法的研究是有效实现科技项目相似性检查的关键所在。
目前特征词提取方法主要分为三类:(1)基于统计特征的方法,如词语频度统计;(2)基于词语网络的方法,如根据规则将文档映射为词语共现网络并计算词语的关键度来提取特征词;(3)基于语义的方法。前两种方法虽然具有简单高效的优点,但由于算法局限于字面匹配、缺乏语义理解而排除了低频率的特征词。针对这个问题,引入语义特征进行关键词提取是目前的主要研究方法,如引入《同义词词林》计算词语的语义距离,一定程度上提高了关键词提取的准确度。
发明内容
本发明的目的是针对现有技术的不足,提出一种科技项目申请书特征词提取方法,能够有效地提取出表示项目申请书的特征词。
本发明解决问题所采取的技术方案包括如下步骤:
步骤1.把申请书中的通用词和惯用词,作为专业停用词库;把标点符号、非汉字作为切分标记库。
所述的通用词和惯用词包括“本项目”、“本系统”、“技术”、“创新”、“开发”,“研究”。
步骤2.对项目申请书进行分词:首先根据切分标记库,将申请书内容文本切分成子串序列;然后对子串序列分别进行中科院ICTCLAS分词。
步骤3.构建基于碎片的规则模型,并通过构建的规则模型识别未登录词。所述的未登录词识别是基于碎片的,将分词后产生的碎片与碎片两端的多字词定义为未登录词候选片段,设WsC1C2…CnWe其中Ws是与碎片左端相邻的多字词,C1C2…Cn为产生的碎片,We是与碎片右端相邻的多字词。规则模型如下:
规则一:确定字词的词性。针对多词性的字词,以其词性标注的第一个为其词性。
规则二:设置未登录词排除字集。词性为介词、助词、代词、副词的单字,比如“的、呢、最、太、这、我”,还有其它词性当中有存在构词能力较弱的,比如“呈,有,如,时”,所述的构词能力比较弱是指与其它字串构成未登录词的概率小于10%;将这些词归类为未登录词排除字集。
规则三:设置切分规则。未登录词候选片段对于未登录词片段WsC1C2…CnWe中的Ci根据规则二,确定为排除字,那么未登录词片段切分为WsC1…Ci-1与Ci+1…CnWe两个未登录词片段,其中,1<i<n,n为自然数。
规则四:设置前缀字集。对未登录词片段WsC1C2…CnWe中的Cn进行前缀字判断。根据科技项目申请书分词碎片的分析统计,将碎片中存在构词能力比较强,且在词AB中处于A位置的字称为前缀字。所述的构词能力比较强是指与其它字词构成未登录词的概率超过90%的前缀字,将所述的前缀字归类为前缀字集。
规则五:设置后缀字集。对于未登录词片段WsC1C2…CnWe中的C1进行后缀字判断。同样根据规则四,将所述的后缀字归类为前缀字集。
规则六:设置词性配搭规则,具体如下:
(1).若未登录词候选片段如WsC1We,C1的第一词性为形容词,若We为名词,则优先与We结合;否则,若Ws为名词,不成词,否则优先与Ws结合。若未登录词候选片段如WsC1,Ws为名词,WsC1不成词,否则成词;若未登录词候选片段如C1We,We为动词,C1We不成词,否则,成词。
(2).若未登录词候选片段如WsC1We,C1的第一词性为动词,若We为动词或名词,那么C1优先与Ws结合;否则,若Ws为动词,那么优先与Ws结合,否则不成词。若未登录词候选片段为C1We,We为形容词,则C1We不成词,否则成词;若未登录词候选片段如WsC1,Ws为名词,WsC1不成词,否则成词。
(3).若未登录词候选片段如WsC1We,C1的第一词性为名词,若Ws,We都为名词,则C1优先与Ws结合,若只有Ws或We为名词,则优先与Ws或We结合,否则,优先与Ws结合。若未登录词候选片段如WsC1或C1We,则结合成WsC1或C1We
(4).若未登录词候选片段如WsC1We,C1的第一词性为其它词性,C1优先与Ws结合。
对未登录词候选片段WsC1C2…CnWe进行未登录词识别的规则模型,其描述如下:
1)若n=1,根据规则二,若C1是排除字或者数词,则识别结束;否则转3);
2)若n>=2,根据规则二,若C1是排除字,则未登录词候选片段变成C2…CnWe,转6);根据规则五,若C1是后缀字,则取出未登录词WsC1,未登录词候选片段变成C2…CnWe,转6);根据规则七,若C1是数词,则转7;否则转8);
3)根据规则四,若C1是前缀字,则取出未登录词C1We,识别结束;否则转4);
4)根据规则五,若C1是后缀字,则取出未登录词WsC1,识别结束;否则转5);
5)根据规则六词性配搭,识别出未登录词;
6)取下一个Ci,若i=n,根据规则二,若Ci是排除字或数词,识别结束;根据规则四,若Ci是前缀字,则取出未登录词CnWe,识别结束;否则,识别结束。若i<n,根据规则二,若Ci是排除字,则未登录词候选片段变成Ci+1…CnWe,转6);根据规则六,若Ci是数词,转7);否则转8);
7)取下一个Ci,若i=n,根据规则六,若Ci是数词或量词前缀字,取出Cn-1Cn,作为数词,识别结束;根据规则四,若Ci是前缀字,则取出未登录词CnWe,识别结束;否则识别结束。若i<n,根据规则七,若Ci是数词,量词前缀字,量词,转7);否则,转8)
8)取下一个Ci,若i=n,根据规则二,Ci是排除字或数词,则取出Cn前面的单字作为未登录词,识别结束;根据规则四,若Ci是前缀字,则取出Cn前面的单字为未登录词,CnWe也作为未登录词,识别结束;否则,识别出We前面的单字作为未登录词,识别结束。若i<n,根据规则二,若Ci是排除字,取出Ci前面的单字,根据规则三,若为一个,不作为未登录词,否则作为未登录词,未登录词候选片段变成Ci+1…CnWe,转6);否则转8)。
步骤4.根据通用停用词库和专业停用词库进行停用词过滤,通用停用词库是采用哈工大停用词表。把过滤停用词和未登录词后的分词结果作为词语集合。
步骤5.对步骤4得到的词语集合进行词语间语义相似度计算,从而建立词语语义相似度网络;然后结合词语的词频,计算网络中词语的关联度来提取出其他特征词;
所述的语义相似度计算过程如下:
对于两个词语,借助于知网语义词典,首先对两个词的义原相互进行相似度计算,并取其最大值,再根据下面的公式定义求得两个词语的语义相似度。
其中,w1为词语,有n个概念,w2为词语,有m个概念,且,n和m为自然数;
所述的词语语义相似度网络如下:
为处理后得到的词语集合,则其对应的语义相似度邻接矩阵定义为:
词语集合经过词语语义相似度计算得到p*(1+p)/2个词语间语义相似度的值,并对这些值进行递减排序;设定一个阈值,取出前的值,设这部分语义相似度值所对应的词组合成另一词序列集合为,根据它们之间的语义相似度值生成对应的输入语义相似度邻接矩阵,p与q为自然数。
作为输入的词语集合,作为输入的语义相似度邻接矩阵,则其对应的词语语义相似度网络图定义为:G={V,E};其中图G为无向加权图,V表示图G中的顶点集,表示V中第i个顶点(词);E表示G中的边集;图G边的权值矩阵为为第i个顶点和第j个顶点之间边的权值。
所述的词语语义关联度计算为:
设图G为构建的社会网络图,其中G为加权无向图,图中两个顶点之间边的权值为它们之间的语义相似度;的最短路径经过的顶点依次为,路径对应的边的权值依次为,则G中顶点 对它们之间的关联度定义为:
其中为词序列集合中第j个词在申请书中的词频;为顶点之间最短路径长度。
所以对于图G中的顶点,它在整个图中的关联度如下:
通过计算将得到q个关联度的值并从大到小排序,设定一个阈值,取出前个的值,则这些值所对应的顶点将作为文本特征词进行提取。
步骤6.将步骤5得到的特征词与步骤3识别出的未登录词组成科技项目的特征词。
本发明有益效果如下:
与传统的关键词提取方法相比,基于未登录词与语义的新方法能更准确地提取到项目关键词,也改善了科技项目相似度检查的效果。
附图说明
图1是本发明中科技项目申请书特征词提取的流程图。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,一种科技项目申请书特征词提取方法,包括如下步骤:
步骤1.把申请书中的通用词和惯用词,作为专业停用词库;把标点符号,非汉字作为切分标记库。所述的通用词和惯用词包括“本项目”、“本系统”、“技术”、“创新”、“开发”,“研究”等。
步骤2.对项目申请书进行分词:首先根据切分标记库,将申请书内容文本切分成子串序列;然后对子串序列分别利用逆向最大匹配方法进行分词。
步骤3.构建基于碎片的规则模型,并通过构建的规则模型识别未登录词;通过对未登录词进行识别并提取相应的未登录词作为未登录词集合,将识别出的未登录词作为项目特征词的一部分。
所述的未登录词的识别是基于碎片的,将分词后产生的碎片与碎片两端的多字词定义为未登录词候选片段,设WsC1C2…CnWe其中Ws是与碎片左端相邻的多字词,C1C2…Cn为产生的碎片,We是与碎片右端相邻的多字词。规则模型如下:
规则一:确定字词的词性。针对多词性的字词,以其词性标注的第一个为其的词性。
规则二:设置未登录词排除字集。词性为介词、助词、代词、副词的单字,比如“的、呢、最、太、这、我”,还有其它词性当中有存在构词能力较弱的,比如“呈,有,如,时”,所述的构词能力比较弱是指与其它字串构成未登录词的概率小于10%;将这些词为未登录词排除字集。
规则三:设置切分规则。未登录词候选片段对于未登录词片段WsC1C2…CnWe中的Ci根据规则二,确定为排除字,那么未登录词片段切分为WsC1…Ci-1与Ci+1…CnWe两个未登录词片段,其中,1<i<n,n为自然数。
规则四:设置前缀字集。对未登录词片段WsC1C2…CnWe中的Cn进行前缀字判断。根据科技项目申请书分词碎片的分析统计,将碎片中存在构词能力比较强,且在词AB中处于A位置的字称为前缀字。所述的构词能力比较强是指与其它字词构成未登录词的概率超过90%的前缀字为前缀字集。
规则五:设置后缀字集。对于未登录词片段WsC1C2…CnWe中的C1进行后缀字判断。同样根据规则四,收集了后缀字集。
规则六:设置词性配搭规则,具体如下:
(1).若未登录词候选片段如WsC1We,C1的第一词性为形容词,若We为名词,则优先与We结合;否则,若Ws为名词,不成词,否则优先与Ws结合。若未登录词候选片段如WsC1,Ws为名词,WsC1不成词,否则成词;若未登录词候选片段如C1We,We为动词,C1We不成词,否则,成词。
(2).若未登录词候选片段如WsC1We,C1的第一词性为动词,若We为动词或名词,那么C1优先与Ws结合;否则,若Ws为动词,那么优先与Ws结合,否则不成词。若未登录词候选片段为C1We,We为形容词,则C1We不成词,否则成词;若未登录词候选片段如WsC1,Ws为名词,WsC1不成词,否则成词。
(3).若未登录词候选片段如WsC1We,C1的第一词性为名词,若Ws,We都为名词,则C1优先与Ws结合,若只有Ws或We为名词,则优先与Ws或We结合,否则,优先与Ws结合。若未登录词候选片段如WsC1或C1We,则结合成WsC1或C1We
(4).若未登录词候选片段如WsC1We,C1的第一词性为其它词性,C1优先与Ws结合。
对未登录词候选片段WsC1C2…CnWe进行未登录词识别的规则模型,其描述如下:
1)若n=1,根据规则二,若C1是排除字或者数词,则识别结束;否则转3);
2)若n>=2,根据规则二,若C1是排除字,则未登录词候选片段变成C2…CnWe,转6);根据规则五,若C1是后缀字,则取出未登录词WsC1,未登录词候选片段变成C2…CnWe,转6);根据规则七,若C1是数词,则转7;否则转8);
3)根据规则四,若C1是前缀字,则取出未登录词C1We,识别结束;否则转4);
4)根据规则五,若C1是后缀字,则取出未登录词WsC1,识别结束;否则转5);
5)根据规则六词性配搭,识别出未登录词;
6)取下一个Ci,若i=n,根据规则二,若Ci是排除字或数词,识别结束;根据规则四,若Ci是前缀字,则取出未登录词CnWe,识别结束;否则,识别结束。若i<n,根据规则二,若Ci是排除字,则未登录词候选片段变成Ci+1…CnWe,转6);根据规则六,若Ci是数词,转7);否则转8);
7)取下一个Ci,若i=n,根据规则六,若Ci是数词或量词前缀字,取出Cn-1Cn,作为数词,识别结束;根据规则四,若Ci是前缀字,则取出未登录词CnWe,识别结束;否则识别结束。若i<n,根据规则七,若Ci是数词,量词前缀字,量词,转7);否则,转8)
8)取下一个Ci,若i=n,根据规则二,Ci是排除字或数词,则取出Cn前面的单字作为未登录词,识别结束;根据规则四,若Ci是前缀字,则取出Cn前面的单字为未登录词,CnWe也作为未登录词,识别结束;否则,识别出We前面的单字作为未登录词,识别结束。若i<n,根据规则二,若Ci是排除字,取出Ci前面的单字,根据规则三,若为一个,不作为未登录词,否则作为未登录词,未登录词候选片段变成Ci+1…CnWe,转6);否则转8)。
步骤4.根据通用停用词库和专业停用词库进行停用词过滤,通用停用词库是采用哈工大停用词表。把停用词和未登录词的分词结果作为词语集合。
步骤5.再对词语集合进行词语间语义相似度计算,从而建立词语语义相似度网络;然后结合词语的词频,计算网络中词语的关联度来提取出其他特征词;
所述的语义相似度计算过程如下:
对于两个词语,借助于知网语义词典,首先对两个词的义原相互进行相似度计算,并取其最大值,再根据下面的公式定义求得两个词语的语义相似度。
其中,w1为词语,有n个概念,w2为词语,有m个概念,且,n和m为自然数;
所述的词语语义相似度网络如下:
为处理后得到的词语集合,则其对应的语义相似度邻接矩阵定义为:
词语集合经过词语语义相似度计算得到p*(1+p)/2个词语间相似度的值,并对这些值进行递减排序;设定一个阈值,取出前的值,假设这些相似度值所对应的词组合成另一词序列集合为,并根据它们之间的相似度值生成对应的输入语义相似度邻接矩阵。p与q为自然数。
作为输入的词语集合,作为输入的语义相似度邻接矩阵,则其对应的词语语义相似度网络图定义为:G={V,E};
其中图G为无向加权图,V表示图G中的顶点集,表示V中第i个顶点(词);E表示G中的边集;图G边的权值矩阵为为第i个顶点和第j个顶点之间边的权值。
所述的词语语义关联度计算为:
设图G为构建的社会网络图,其中G为加权无向图,图中两个顶点之间边的权值为它们之间的语义相似度;的最短路径经过的顶点依次为,路径对应的边的权值依次为,则G中顶点 对它们之间的关联度定义为:
其中为词序列集合中第j个词在申请书中的词频;为顶点之间最短路径长度。
所以对于图G中的顶点,它在整个图中的关联度如下:
通过计算将得到q个关联度的值并从大到小排序,设定一个阈值,取出前个的值,则这些值所对应的顶点将作为文本特征词进行提取。
步骤6.将步骤5得到的特征词与步骤3识别出的未登录词组成科技项目的特征词。

Claims (1)

1.一种科技项目申请书特征词提取方法,其特征在于包括如下步骤:
步骤1.把申请书中的通用词和惯用词,作为专业停用词库;把标点符号、非汉字作为切分标记库;
所述的通用词和惯用词包括“本项目”、“本系统”、“技术”、“创新”、“开发”,“研究”;
步骤2.对项目申请书进行分词:首先根据切分标记库,将申请书内容文本切分成子串序列;然后对子串序列分别进行中科院ICTCLAS分词;
步骤3.构建基于碎片的规则模型,并通过构建的规则模型识别未登录词;
未登录词识别是基于碎片的,将分词后产生的碎片与碎片两端的多字词定义为未登录词候选片段,设WsC1C2…CnWe其中Ws是与碎片左端相邻的多字词,C1C2…Cn为产生的碎片,We是与碎片右端相邻的多字词;规则模型如下:
规则一:确定字词的词性,针对多词性的字词,以其词性标注的第一个为其第一词性;
规则二:设置未登录词排除字集,将词性为介词、助词、代词、副词的单字,或其它词性当中与其它字串构成未登录词的概率小于10%的单字设置为未登录词排除字集;
规则三:设置切分规则,对于未登录词候选片段WsC1C2…CnWe中的Ci根据规则二,确定为排除字,那么未登录词候选片段切分为WsC1…Ci-1与Ci+1…CnWe两个未登录词片段,其中,1<i<n,n为自然数;
规则四:设置前缀字集,对未登录词候选片段WsC1C2…CnWe中的Cn进行前缀字判断,将碎片中其它字词构成未登录词的概率超过90%的单字,且在词AB中处于A位置的字称为前缀字,并集合成前缀字集;
规则五:设置后缀字集,对于未登录词候选片段WsC1C2…CnWe中的C1进行后缀字判断,同样根据规则四,集合成后缀字集;
规则六:设置词性配搭规则,具体如下:
(1).若未登录词候选片段如WsC1We,C1的第一词性为形容词,若We为名词,则优先与We结合;否则,若Ws为名词,不成词,否则优先与Ws结合;若未登录词候选片段如WsC1,Ws为名词,WsC1不成词,否则成词;若未登录词候选片段如C1We,We为动词,C1We不成词,否则,成词;
(2).若未登录词候选片段如WsC1We,C1的第一词性为动词,若We为动词或名词,那么C1优先与Ws结合;否则,若Ws为动词,那么优先与Ws结合,否则不成词;若未登录词候选片段为C1We,We为形容词,则C1We不成词,否则成词;若未登录词候选片段如WsC1,Ws为名词,WsC1不成词,否则成词;
(3).若未登录词候选片段如WsC1We,C1的第一词性为名词,若Ws,We都为名词,则C1优先与Ws结合,若只有Ws或We为名词,则优先与Ws或We结合,否则,优先与Ws结合;若未登录词候选片段如WsC1或C1We,则结合成WsC1或C1We
(4).若未登录词候选片段如WsC1We,C1的第一词性为其它词性,C1优先与Ws结合;
对未登录词候选片段WsC1C2…CnWe进行未登录词识别的规则模型,其描述如下:
1)若n=1,根据规则二,若C1是排除字或者数词,则识别结束;否则转3);
2)若n>=2,根据规则二,若C1是排除字,则未登录词候选片段变成C2…CnWe,转6);根据规则五,若C1是后缀字,则取出未登录词WsC1,未登录词候选片段变成C2…CnWe,转6);根据规则七,若C1是数词,则转7);否则转8);
3)根据规则四,若C1是前缀字,则取出未登录词C1We,识别结束;否则转4);
4)根据规则五,若C1是后缀字,则取出未登录词WsC1,识别结束;否则转5);
5)根据规则六词性配搭,识别出未登录词;
6)取下一个Ci,若i=n,根据规则二,若Ci是排除字或数词,识别结束;根据规则四,若Ci是前缀字,则取出未登录词CnWe,识别结束;否则,识别结束;若i<n,根据规则二,若Ci是排除字,则未登录词候选片段变成Ci+1…CnWe,转6);根据规则六,若Ci是数词,转7);否则转8);
7)取下一个Ci,若i=n,根据规则六,若Ci是数词或量词前缀字,取出Cn-1Cn,作为数词,识别结束;根据规则四,若Ci是前缀字,则取出未登录词CnWe,识别结束;否则识别结束;若i<n,根据规则七,若Ci是数词,量词前缀字,量词,转7);否则,转8);
8)取下一个Ci,若i=n,根据规则二,Ci是排除字或数词,则取出Cn前面的单字作为未登录词,识别结束;根据规则四,若Ci是前缀字,则取出Cn前面的单字为未登录词,CnWe也作为未登录词,识别结束;否则,识别出We前面的单字作为未登录词,识别结束;若i<n,根据规则二,若Ci是排除字,取出Ci前面的单字,根据规则三,若为一个,不作为未登录词,否则作为未登录词,未登录词候选片段变成Ci+1…CnWe,转6);否则转8);
步骤4.根据通用停用词库和专业停用词库进行停用词过滤,把过滤停用词和未登录词后的分词结果作为词语集合,所述的通用停用词库是采用哈工大停用词表;
步骤5.对步骤4得到的词语集合进行词语间语义相似度计算,从而建立词语语义相似度网络;然后结合词语的词频,计算网络中词语语义关联度来提取出其他特征词;
所述的语义相似度计算过程如下:
对于两个词语,借助于知网语义词典,首先对两个词的义原相互进行相似度计算,并取其最大值,再根据下面的公式求得两个词语的语义相似度;
S i m ( w 1 , w 2 ) = max i = 1 , ... , n , j = 1 , ... , m S i m ( c 1 i , c 2 j )
其中,w1为词语,有n个概念c11,c12,...,c1n,w2为词语,有m个概念c21,c22,...,c2m,且,n和m为自然数;
所述的词语语义相似度网络如下:
设W={v1,v2,...,vp}为处理后得到的词语集合,则其对应的语义相似度邻接矩阵Mp定义为:
词语集合W={v1,v2,...,vp}经过词语语义相似度计算得到p*(1+p)/2个词语间语义相似度的值,并对这些值进行递减排序;设定一个阈值β,0<β<1,取出前β*p*(1+p)/2的值,设这部分语义相似度值所对应的词组合成另一词语集合为SW'={s1,s2,...,sq},q≤p,根据它们之间的语义相似度值生成SW'对应的输入语义相似度邻接矩阵Mq,p与q为自然数;
SW'作为输入的词语集合,Mq作为输入的语义相似度邻接矩阵,则其对应的词语语义相似度网络图定义为:G={V,E};其中图G为无向加权图,V表示图G中的顶点集,vi表示V中第i个顶点;E表示G中的边集;图G边的权值矩阵为Mq,Sim(vi,vj)为第i个顶点和第j个顶点之间边的权值;
所述的词语语义关联度计算为:
设图G为构建的社会网络图,其中G为加权无向图,图中两个顶点之间边的权值为它们之间的语义相似度;vi到vj的最短路径经过的顶点依次为vi,vi+1,...,vj,路径对应的边的权值依次为si,si+1,...,sj-1,则G中顶点vi和vj之间的关联度定义为:
rd i j = f j &Sigma; p = i j - 1 s p , i &NotEqual; j
其中fj为词序列集合SW'中第j个词在申请书中的词频;为顶点vi到vj之间最短路径长度;
所以对于图G中的顶点vi,它在整个图中的关联度如下:
rd i = &Sigma; j = 1 , j &NotEqual; i q rd i j
通过计算将得到q个关联度的值并从大到小排序,设定一个阈值γ,0<γ<1,取出前γ*q个的值,则这些值所对应的顶点将作为文本特征词进行提取;
步骤6.将步骤5得到的特征词与步骤3识别出的未登录词组成科技项目的特征词。
CN201310151425.8A 2013-04-27 2013-04-27 一种科技项目申请书特征词提取方法 Expired - Fee Related CN103235774B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310151425.8A CN103235774B (zh) 2013-04-27 2013-04-27 一种科技项目申请书特征词提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310151425.8A CN103235774B (zh) 2013-04-27 2013-04-27 一种科技项目申请书特征词提取方法

Publications (2)

Publication Number Publication Date
CN103235774A CN103235774A (zh) 2013-08-07
CN103235774B true CN103235774B (zh) 2016-04-06

Family

ID=48883818

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310151425.8A Expired - Fee Related CN103235774B (zh) 2013-04-27 2013-04-27 一种科技项目申请书特征词提取方法

Country Status (1)

Country Link
CN (1) CN103235774B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631858B (zh) * 2013-10-24 2017-07-21 杭州电子科技大学 一种科技项目相似度计算方法
CN103605665B (zh) * 2013-10-24 2017-01-11 杭州电子科技大学 一种基于关键词的评审专家智能检索与推荐方法
CN104133841A (zh) * 2014-06-24 2014-11-05 国家电网公司 一种具有系统检测及图像识别功能的数据处理方法及系统
CN104133839A (zh) * 2014-06-24 2014-11-05 国家电网公司 一种具有智能检测功能的数据处理方法及系统
CN104133840A (zh) * 2014-06-24 2014-11-05 国家电网公司 一种具有系统检测及生物识别功能的数据处理方法及系统
CN104133842A (zh) * 2014-06-24 2014-11-05 国家电网公司 一种具有智能专家检测功能的数据处理方法及系统
CN104156386A (zh) * 2014-06-24 2014-11-19 国家电网公司 一种具有图像识别功能的数据处理方法及系统
CN104133838A (zh) * 2014-06-24 2014-11-05 国家电网公司 一种具有系统检测功能的数据处理方法及系统
CN104375989A (zh) * 2014-12-01 2015-02-25 国家电网公司 自然语言文本关键词关联网络构建系统
CN104573027B (zh) * 2015-01-13 2018-07-24 清华大学 一种从文档集中挖掘特征词的系统和方法
CN105550200A (zh) * 2015-12-02 2016-05-04 北京信息科技大学 一种面向专利摘要的中文分词方法
CN106919542B (zh) 2015-12-24 2020-04-21 北京国双科技有限公司 规则匹配方法及装置
CN108268440A (zh) * 2017-01-04 2018-07-10 普天信息技术有限公司 一种未登录词识别方法
CN107862343B (zh) * 2017-11-28 2021-07-13 南京理工大学 基于规则和神经网络的商品评论属性级情感分类方法
CN110516225A (zh) * 2018-05-21 2019-11-29 深圳市六度人和科技有限公司 关键短语提取方法以及关键短语提取系统
TWI772709B (zh) * 2019-11-14 2022-08-01 雲拓科技有限公司 對於無字間空格語言文字申請專利範圍之元件名詞及元件名詞所屬位置自動得出設備
CN112036120A (zh) * 2020-08-31 2020-12-04 上海硕恩网络科技股份有限公司 一种技能短语抽取方法
CN115659969B (zh) * 2022-12-13 2023-04-28 成方金融科技有限公司 文档标注方法、装置、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101196904A (zh) * 2007-11-09 2008-06-11 清华大学 一种基于词频和多元文法的新闻关键词抽取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8160866B2 (en) * 2008-04-18 2012-04-17 Tze Fen Li Speech recognition method for both english and chinese

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101196904A (zh) * 2007-11-09 2008-06-11 清华大学 一种基于词频和多元文法的新闻关键词抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于关键词网络的科技项目多角度演化分析;赵辉 等;《情报学报》;20110630;第30卷(第6期);658-667 *
科技项目相似性检测系统研究;李华刚;《万方学位论文数据库》;20121130;正文1-41页 *

Also Published As

Publication number Publication date
CN103235774A (zh) 2013-08-07

Similar Documents

Publication Publication Date Title
CN103235774B (zh) 一种科技项目申请书特征词提取方法
CN105426539B (zh) 一种基于词典的lucene中文分词方法
CN103631858B (zh) 一种科技项目相似度计算方法
CN101655866B (zh) 科技术语的自动化抽取方法
CN106598944B (zh) 一种民航安保舆情情感分析方法
CN109800310B (zh) 一种基于结构化表达的电力运维文本分析方法
CN109033307A (zh) 基于crp聚类的词语多原型向量表示及词义消歧方法
CN105095204B (zh) 同义词的获取方法及装置
CN103207905B (zh) 一种基于目标文本的计算文本相似度的方法
CN103942340A (zh) 一种基于文本挖掘的微博用户兴趣识别方法
Candito et al. Improving generative statistical parsing with semi-supervised word clustering
CN107153658A (zh) 一种基于关键字加权算法的舆情热词发现方法
CN103631859A (zh) 一种面向科技项目的评审专家智能推荐方法
CN106610951A (zh) 改进的基于语义分析的文本相似度求解算法
CN106909537B (zh) 一种基于主题模型和向量空间的一词多义分析方法
CN108874896B (zh) 一种基于神经网络和幽默特征的幽默识别方法
CN104239512A (zh) 一种文本推荐方法
CN103092828A (zh) 基于语义分析和语义关系网络的文本相似度度量方法
Jahangir et al. N-gram and gazetteer list based named entity recognition for urdu: A scarce resourced language
CN106528524A (zh) 一种基于MMseg算法与逐点互信息算法的分词方法
CN106570112A (zh) 基于改进的蚁群算法实现文本聚类
CN103324626A (zh) 一种建立多粒度词典的方法、分词的方法及其装置
CN106649222A (zh) 基于语义分析与多重Simhash的文本近似重复检测方法
CN104699797A (zh) 一种网页数据结构化解析方法和装置
CN102103416A (zh) 一种汉字输入方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20130807

Assignee: Hangzhou eddy current technology Co.,Ltd.

Assignor: HANGZHOU DIANZI University

Contract record no.: X2020330000008

Denomination of invention: Extraction method of feature words of science and technology project application form

Granted publication date: 20160406

License type: Common License

Record date: 20200117

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160406