CN103631858B - 一种科技项目相似度计算方法 - Google Patents
一种科技项目相似度计算方法 Download PDFInfo
- Publication number
- CN103631858B CN103631858B CN201310508199.4A CN201310508199A CN103631858B CN 103631858 B CN103631858 B CN 103631858B CN 201310508199 A CN201310508199 A CN 201310508199A CN 103631858 B CN103631858 B CN 103631858B
- Authority
- CN
- China
- Prior art keywords
- word
- unregistered
- rule
- application
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000011524 similarity measure Methods 0.000 claims abstract description 20
- 238000001514 detection method Methods 0.000 claims abstract description 4
- 239000012634 fragment Substances 0.000 claims description 33
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 7
- 238000011160 research Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 claims 1
- 238000003786 synthesis reaction Methods 0.000 claims 1
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种科技项目相似度计算方法。本发明具体包括如下步骤:步骤1:提出一种规则模型并根据它识别出项目中的未登录词;步骤2:根据词的统计信息及语义信息获得关键词,与步骤1得到的未登录词组成特征词;步骤3:对两个项目名称中的特征词进行语义与字面相似度计算,如果求和并归一化后的值低于γ,则项目不相似,结束检测;步骤4:对相关词权重进行加权计算;步骤5:对主要内容中的特征词进行语义与字面相似度计算,得到两个项目主要内容的相似度;步骤6:对步骤3和步骤5的相似值加权求和得到两个项目的相似度。本发明考虑了项目申请书的语义信息,结构信息以及统计信息,该方法提高了科技项目相似度计算的准确率及效率。
Description
技术领域
本发明属于文本查重技术领域,尤其涉及一种科技项目相似度计算方法,用于科技项目查重的应用。
背景技术
随着我国科技计划项目申报数量和经费的逐年递增,项目重复申报现象日益突出。虽然目前我国科技项目查重系统也取得了一些研究成果,但是这些查重系统研究存在缺乏语义理解、未考虑项目专业术语等问题。因此对科技项目进行有效的相似性检测研究是非常必要的,在一定程度上有效的防止了科技项目的重复立项问题。
文本相似度计算方法主要有两类。一类是根据某种世界知识来计算,主要是基于按照概念间结构层次关系组织的语义词典的方法,根据在这类语言学资源中概念之间的上下位关系和同位关系来计算词语的相似度。它的优点是不需要大规模语料库的支持,也不需要长时间的训练,具有准确率高;缺点是单纯地使用语义词典,孤立考虑两个词语的相似度,并没有考虑到句子内部的结构和词语之间的相互作用关系。另一类利用大规模的语料库进行统计,这种基于统计的方法主要将上下文信息的概率分布作为词汇语义相似度的参照依据,是一种经验主义方法,它把词语相似度的研究建立在可观察的语言事实上,而不仅仅依赖于语言学家的直觉。它是建立在两个词语语义相似当且仅当它们处于相似的上下文环境中这一假设的基础上。它的缺点是基于统计的计算方法需要有大规模的语料库支持,大规模的语料库的构建本身就是一件比较困难,需要消耗大量的人力和时间的工作,并且还存在着数据稀疏的问题。其次,像TF-IDF方法等只考虑了词在上下文中的统计特性,丢弃了句子的结构信息和语义信息,因此具有一定的局限性。
发明内容
本发明的目的是针对现有技术的不足,提出一种科技项目相似度计算方法,能够极大地提高了科技项目申请书相似度计算的准确率及效率。
本发明解决问题所采取的技术方案包括如下步骤:
步骤1.针对待查重的项目申请书的规范简洁的特点,本发明提出一种规则模型进行识别未登录词;
所述的未登录词的识别是基于碎片的,将分词后产生的碎片与碎片两端的多字词定义为未登录词候选片段,表示为WsC1C2…CnWe,其中Ws是与碎片左端相邻的多字词,C1C2…Cn为产生的碎片,We是与碎片右端相邻的多字词;规则模型如下:
规则一:确定字词的第一词性;所述的第一词性指词性标注的第一个字词;
规则二:设置未登录词排除字集;碎片中会存在词性为介词、助词、代词、副词的单字,这些词的构词能力很弱,不与其它字串构成未登录词的概率大于90%;
规则三:设置切分规则;未登录词候选片段对于未登录词片段WsC1C2…CnWe中的Ci根据规则二,确定为排除字,那么未登录词片段切分WsC1…Ci-1与Ci-1…CnWe两个未登录词片段,其中,1<i<n,n为自然数;
规则四:设置前缀字集;对于未登录词片段WsC1C2…CnWe中的Cn进行前缀字判断;
规则五:设置后缀字集;对于未登录词片段WsC1C2…CnWe中的Cn进行前缀字判断,根据规则三,收集了后缀字集;
规则六:设置词性配搭规则,具体如下:
(1).若未登录词候选片段如WsC1We,C1的第一词性为形容词,若We为名词,则优先与We结合;若未登录词候选片段如WsC1,Ws为名词,Ws C1不成词,否则成词;若未登录词候选片段如C1We,We为动词,C1We不成词,否则,成词;
(2).若未登录词候选片段如WsC1We,C1的第一词性为动词,若We为动词或名词,那么C1优先与Ws结合;若未登录词候选片段为C1We,We为形容词,则C1We不成词,否则成词;若未登录词候选片段如WsC1,Ws为名词,WsC1不成词,否则成词;
(3).若未登录词候选片段如WsC1We,C1的第一词性为名词,若Ws,We都为名词,则C1优先与Ws结合,若只有Ws或We为名词,则优先与Ws或We结合;若未登录词候选片段如WsC1或C1We,则结合成WsC1或C1We;
(4).若未登录词候选片段如WsC1We,C1的第一词性为其它词性,C1优先与Ws结合;
对未登录词候选片段WsC1C2…CnWe进行未登录词识别的规则模型,其描述如下:
1)若n=1,根据规则二,若C1是排除字或者数词,则识别结束;否则转3);
2)若n>=2,根据规则二,若C1是排除字,则未登录词候选片段变成C2…CnWe,转6);根据规则五,若C1是后缀字,则取出未登录词WsC1,未登录词候选片段变成C2…CnWe,转6);根据规则七,若C1是数词,则转7);否则转8);
3)根据规则四,若C1是前缀字,则取出未登录词C1We,识别结束;否则转4);
4)根据规则五,若C1是后缀字,则取出未登录词WsC1,识别结束;否则转5);
5)根据规则六词性配搭,识别出未登录词;
6)取下一个Ci,若i=n,根据规则二,若Ci是排除字或数词,识别结束;根据规则四,若Ci是前缀字,则取出未登录词CnWe,识别结束;否则,识别结束;若i<n,根据规则二,若Ci是排除字,则未登录词候选片段变成Ci+1…CnWe,转6);根据规则六,若Ci是数词,转7);否则转8);
7)取下一个Ci,若i=n,根据规则六,若Ci是数词或量词前缀字,取出Cn-1Cn,作为数词,识别结束;根据规则四,若Ci是前缀字,则取出未登录词CnWe,识别结束;否则识别结束;若i<n,根据规则七,若Ci是数词,量词前缀字,量词,转7);否则,转8)
8)取下一个Ci,若i=n,根据规则二,Ci是排除字或数词,则取出Cn前面的单字作为未登录词,识别结束;根据规则四,若Ci是前缀字,则取出Cn前面的单字为未登录词,CnWe也作为未登录词,识别结束;否则,识别出We前面的单字作为未登录词,识别结束;若i<n,根据规则二,若Ci是排除字,取出Ci前面的单字,根据规则三,若为一个,不作为未登录词,否则作为未登录词,未登录词候选片段变成Ci+1…CnWe,转6);否则转8);
步骤2.根据词在申请书中的词性、出现的位置、词长、词频等统计信息及语义信息获得关键词,与步骤1得到的未登录词组成项目的特征词;所述的关键词获得过程如下:
首先获得词语的统计信息值stats(wi),然后再构建词语网络并计算得到词语的节点综合特征值CFi,最后计算得到所有词语的权重值weighti并按大小排序,得到前γ(为阀值,0<γ<1)的词语为项目的关键词。词语的权重值计算公式如下:
weighti=α×stats(wi)+β×CFi,其中α+β=1,α=0.4,β=0.6。
所述的词语是项目申请书分词中识别未登录词之后剩下的词语。
所述的词语的统计信息值计算过程如下:
首先计算词语在申请书文本中的词频权重frei:
其中fi为词语在申请书出现的次数。
其次计算词语在申请书文本中的词长权重leni:
其中L为词语的长度。
然后计算词语在申请书文本中的词性权重posi:
最后计算词语在申请书文本中的位置权重loci:
对于项目申请书中的每个词,其统计信息值为:
statsi=α×frei+β×leni+λ×posi+η×loci
其中α+β+λ+η=1,α=0.2,β=0.1,λ=0.2,η=0.5。
所述的词语语义信息就是词语网络中的节点综合特征值,其计算过程如下:
首先计算词的语义关系和词的共现关系。词的语义关系是利用知网计算词语间相似度的方法得到,所有的词的语义关系表示为语义相似度矩阵:
其中,sim(ci,cj)为词Ci与词Cj的语义相似度,sim(ci,ci)为1,sim(ci,cj)=sim(cj,ci)。
词的共现关系是利用滑动窗口对申请书的词语进行词语共现度计算得到,所有的词的共现关系表示为词语共现度矩阵:
然后构建带权词语网络:
CW为输入的词语集合,Wm为权值矩阵,则其对应的带权词语网络定义为:G={V,E,W};其中,图G为无向加权图;V={Vi|i=1,2,…,m}为图G中的顶点集;E={(vi,vj)|vi,vj∈V}表示G中的边集;W={Wij|(vi,vj)∈E}表示边的权值的集合。
其中权值矩阵Wm为:
其中,α为0.3,β为0.7。
最后计算带权词语网络中的每个节点综合特征值CFi:
其中α为调节参数,α取0.2。Ci为节点的聚集系数,WDi为节点的加权度。
节点的聚集系数计算如下:
在带权词语网络中,节点Vi的度为Di=|{(vi,vj):(vi,vj)∈E,vi,vj∈V}|,节点Vi的聚集度为Ki=|{(vj,vk):(vi,vj)∈E,(vi,vk)∈E,vi,vj,vk∈V}|,节点的聚集系数为
顶点Vi的加权度WDi为
步骤3.对两个申请书名称中的特征词进行语义与字面相似度计算。如果求和归一化后的值低于γ(为0.8),则项目不相似,结束检测;否则转步骤4;所述的语义相似度是基于知网的相似度计算获得的,它应用于特征词中的关键词部分,计算得到两个申请书名称中的关键词部分相似度:
其中p,r分别为两个申请书A,B名称中的关键词个数,w(tkw1i)为关键词的权重,simimi为关键词tkw1i和tkw2中与之最相似的词的相似度值,w(tkw2mi)为tkw2中与之最相似的词。
所述的字面相似度通过字词匹配来计算,它应用于特征词中的未登录词部分。计算公式如下:
其中v为未登录词的权重,m、n分别为两个申请书名称中的未登录词个数,
最后计算申请书名称的相似度,它的值为申请书项目名称的关键词部分相似度值与未登录词部分相似度值的求和,归一化得到。公式如下:
其中a,b分别为两个申请书A,B项目名称中的关键词与未登录词的个数和。
步骤4.对申请书主要内容中的相关词权重进行加权计算;
所述的相关词为:
项目申请书主要研究内容中的词语,若与题目中的词语的语义相似度超过设定的阀值a(这个值小于判定为相似的阀值,设置为0.35),那么这些词语就称为相关词。其中词语的语义相似度是利用知网来计算。
所述的相关词权重加权过程如下:
1).得到申请书名称中的关键词集合tkw和申请书主要内容中的关键词集合ckw。
2).依次遍历ckw中的词,计算它与tkw中的词的语义相似度。若它的值大于a,ckw中的词权重相应作出改变,权重改进公式如下:
步骤5.对主要内容中的特征词进行语义与字面相似度计算,得到两个项目主要内容的相似度值;
所述的语义相似度是基于知网的相似度计算获得的,它应用于特征词中的关键词部分,计算得到两个申请书主要内容中的关键词部分相似度:
其中p,r分别为两个申请书A,B主要内容中的关键词个数,w(ckw1i)为关键词的权重,simimi为关键词ckw1i和ckw2中与之最相似的词的相似度值,w(ckw2mi)为ckw2中与之最相似的词。
所述的字面相似度通过字词匹配来计算,它应用于主要内容中的特征词的未登录词部分。计算公式如下:
其中v为未登录词的权重,m、n分别为两个申请书主要内容中的未登录词个数,
最后计算申请书主要内容的相似度,它的值为申请书项目主要内容中的关键词部分相似度值与未登录词部分相似度值的求和,归一化得到。公式如下:
其中a,b分别为两个申请书A,B项目主要内容中的关键词与未登录词的个数和。
步骤6.对步骤3和步骤5的相似值加权求和得到两个项目的相似度值;所述的项目的相似度计算如下:Sim(A,B)=α*Sim1(A,B)+β*Sim2(A,B)
其中a,β分别为权重参数,且a+β=1,a=0.35,β=0.65。
如果Sim(A,B)大于阀值χ(值为0.6),则两个项目相似;否则不相似。
本发明有益效果如下:该方法由于充分考虑了文本的语义信息,结构信息以及统计信息,有效地提高了科技项目相似度计算的准确率。
附图说明
图1是本发明中科技项目相似度计算的流程图。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,一种科技项目相似度计算方法,包括如下步骤:
步骤1.针对待查重的项目申请书的规范简洁的特点,本发明提出一种规则模型进行识别未登录词;
所述的未登录词的识别是基于碎片的,将分词后产生的碎片与碎片两端的多字词定义为未登录词候选片段,表示为WsC1C2…CnWe,其中Ws是与碎片左端相邻的多字词,C1C2…Cn为产生的碎片,We是与碎片右端相邻的多字词;规则模型如下:
规则一:确定字词的第一词性;所述的第一词性指词性标注的第一个字词;
规则二:设置未登录词排除字集;碎片中会存在词性为介词、助词、代词、副词的单字,这些词的构词能力很弱,不与其它字串构成未登录词的概率大于90%;
规则三:设置切分规则;未登录词候选片段对于未登录词片段WsC1C2…CnWe中的Ci根据规则二,确定为排除字,那么未登录词片段切分WsC1…Ci-1与Ci-1…CnWe两个未登录词片段,其中,1<i<n,n为自然数;
规则四:设置前缀字集;对于未登录词片段WsC1C2…CnWe中的Cn进行前缀字判断;
规则五:设置后缀字集;对于未登录词片段WsC1C2…CnWe中的Cn进行前缀字判断,根据规则三,收集了后缀字集;
规则六:设置词性配搭规则,具体如下:
(1).若未登录词候选片段如WsC1We,C1的第一词性为形容词,若We为名词,则优先与We结合;若未登录词候选片段如WsC1,Ws为名词,Ws C1不成词,否则成词;若未登录词候选片段如C1We,We为动词,C1We不成词,否则,成词;
(2).若未登录词候选片段如WsC1We,C1的第一词性为动词,若We为动词或名词,那么C1优先与Ws结合;若未登录词候选片段为C1We,We为形容词,则C1We不成词,否则成词;若未登录词候选片段如WsC1,Ws为名词,WsC1不成词,否则成词;
(3).若未登录词候选片段如WsC1We,C1的第一词性为名词,若Ws,We都为名词,则C1优先与Ws结合,若只有Ws或We为名词,则优先与Ws或We结合;若未登录词候选片段如WsC1或C1We,则结合成WsC1或C1We;
(4).若未登录词候选片段如WsC1We,C1的第一词性为其它词性,C1优先与Ws结合;
对未登录词候选片段WsC1C2…CnWe进行未登录词识别的规则模型,其描述如下:
1)若n=1,根据规则二,若C1是排除字或者数词,则识别结束;否则转3);
2)若n>=2,根据规则二,若C1是排除字,则未登录词候选片段变成C2…CnWe,转6);根据规则五,若C1是后缀字,则取出未登录词WsC1,未登录词候选片段变成C2…CnWe,转6);根据规则七,若C1是数词,则转7);否则转8);
3)根据规则四,若C1是前缀字,则取出未登录词C1We,识别结束;否则转4);
4)根据规则五,若C1是后缀字,则取出未登录词WsC1,识别结束;否则转5);
5)根据规则六词性配搭,识别出未登录词;
6)取下一个Ci,若i=n,根据规则二,若Ci是排除字或数词,识别结束;根据规则四,若Ci是前缀字,则取出未登录词CnWe,识别结束;否则,识别结束;若i<n,根据规则二,若Ci是排除字,则未登录词候选片段变成Ci+1…CnWe,转6);根据规则六,若Ci是数词,转7);否则转8);
7)取下一个Ci,若i=n,根据规则六,若Ci是数词或量词前缀字,取出Cn-1Cn,作为数词,识别结束;根据规则四,若Ci是前缀字,则取出未登录词CnWe,识别结束;否则识别结束;若i<n,根据规则七,若Ci是数词,量词前缀字,量词,转7);否则,转8)
8)取下一个Ci,若i=n,根据规则二,Ci是排除字或数词,则取出Cn前面的单字作为未登录词,识别结束;根据规则四,若Ci是前缀字,则取出Cn前面的单字为未登录词,CnWe也作为未登录词,识别结束;否则,识别出We前面的单字作为未登录词,识别结束;若i<n,根据规则二,若Ci是排除字,取出Ci前面的单字,根据规则三,若为一个,不作为未登录词,否则作为未登录词,未登录词候选片段变成Ci+1…CnWe,转6);否则转8);
步骤2.根据词在申请书中的词性、出现的位置、词长、词频等统计信息及语义信息获得关键词,与步骤1得到的未登录词组成项目的特征词;所述的关键词获得过程如下:
首先获得词语的统计信息值stats(wi),然后再构建词语网络并计算得到词语的节点综合特征值CFi,最后计算得到所有词语的权重值weighti并按大小排序得到前γ(为阀值,0<γ<1)的词语为项目的关键词。词语的权重值计算公式如下:
weighti=α×stats(wi)+β×CFi,其中α+β=1,α=0.4,β=0.6。
所述的词语是项目申请书分词中识别未登录词之后剩下的词语。
所述的词语的统计信息值计算过程如下:
首先计算词语在申请书文本中的词频权重frei:
其中fi为词语在申请书出现的次数。
其次计算词语在申请书文本中的词长权重leni:
其中L为词语的长度。
然后计算词语在申请书文本中的词性权重posi:
最后计算词语在申请书文本中的位置权重loci:
对于项目申请书中的每个词,其统计信息值为:
statsi=α×frei+β×leni+λ×posi+η×loci
其中α+β+λ+η=1,α=0.2,β=0.1,λ=0.2,η=0.5。
所述的词语语义信息就是词语网络中的节点综合特征值,其计算过程如下:
首先计算词的语义关系和词的共现关系。词的语义关系是利用知网计算词语间相似度的方法得到,所有的词的语义关系表示为语义相似度矩阵:
其中,sim(ci,cj)为词Ci与词Cj的语义相似度,sim(ci,ci)为1,sim(ci,cj)=sim(cj,ci)。
词的共现关系是利用滑动窗口(滑动窗口长度为3)对申请书的词语进行词语共现度计算得到,所有的词的共现关系表示为词语共现度矩阵:
然后构建带权词语网络:
CW为输入的词语集合,Wm为权值矩阵,则其对应的带权词语网络定义为:G={V,E,W};其中,图G为无向加权图;V={Vi|i=1,2,…,m}为图G中的顶点集;E={(vi,vj)|vi,vj∈V}表示G中的边集;W={Wij|(vi,vj)∈E}表示边的权值的集合。
其中权值矩阵Wm为:
其中,α为0.3,β为0.7。
最后计算带权词语网络中的每个节点综合特征值CFi:
其中α为调节参数,α取0.2。Ci为节点的聚集系数,WDi为节点的加权度。
节点的聚集系数计算如下:
在带权词语网络中,节点Vi的度为Di=|{(vi,vj):(vi,vj)∈E,vi,vj∈V}|,节点Vi的聚集度为Ki=|{(vj,vk):(vi,vj)∈E,(vi,vk)∈E,vi,vj,vk∈V}|,节点的聚集系数为
顶点Vi的加权度WDi为
步骤3.对两个申请书名称中的特征词进行语义与字面相似度计算。如果求和归一化后的值低于γ(为0.8),则项目不相似,结束检测;否则转步骤4;所述的语义相似度是基于知网的相似度计算获得的,它应用于特征词中的关键词部分,计算得到两个申请书名称中的关键词部分相似度:
其中p,r分别为两个申请书A,B名称中的关键词个数,w(tkw1i)为关键词的权重,simimi为关键词tkw1i和tkw2中与之最相似的词的相似度值,w(tkw2mi)为tkw2中与之最相似的词。
所述的字面相似度通过字词匹配来计算,它应用于特征词中的未登录词部分。计算公式如下:
其中v为未登录词的权重,m、n分别为两个申请书名称中的未登录词个数,
最后计算申请书名称的相似度,它的值为申请书项目名称的关键词部分相似度值与未登录词部分相似度值的求和,归一化得到。公式如下:
其中a,b分别为两个申请书A,B项目名称中的关键词与未登录词的个数和。
步骤4.对申请书主要内容中的相关词权重进行加权计算;
所述的相关词为:
项目申请书主要研究内容中的词语,若与题目中的词语的语义相似度超过设定的阀值a(这个值小于判定为相似的阀值,设置为0.35),那么这些词语就称为相关词。其中词语的语义相似度是利用知网来计算。
所述的相关词权重加权过程如下:
1).得到申请书名称中的关键词集合tkw和申请书主要内容中的关键词集合ckw。
2).依次遍历ckw中的词,计算它与tkw中的词的语义相似度。若它的值大于a,ckw中的词权重相应作出改变,权重改进公式如下:
步骤5.对主要内容中的特征词进行语义与字面相似度计算,得到两个项目主要内容的相似度值;
所述的语义相似度是基于知网的相似度计算获得的,它应用于特征词中的关键词部分,计算得到两个申请书主要内容中的关键词部分相似度:
其中p,r分别为两个申请书A,B主要内容中的关键词个数,w(ckw1i)为关键词的权重,simimi为关键词ckw1i和ckw2中与之最相似的词的相似度值,w(ckw2mi)为ckw2中与之最相似的词。
所述的字面相似度通过字词匹配来计算,它应用于主要内容中的特征词的未登录词部分。计算公式如下:
其中v为未登录词的权重,m、n分别为两个申请书主要内容中的未登录词个数,
最后计算申请书主要内容的相似度,它的值为申请书项目主要内容中的关键词部分相似度值与未登录词部分相似度值的求和,归一化得到。公式如下:
其中a,b分别为两个申请书A,B项目主要内容中的关键词与未登录词的个数和。
步骤6.对步骤3和步骤5的相似值加权求和得到两个项目的相似度值;所述的项目的相似度计算如下:Sim(A,B)=α*Sim1(A,B)+β*Sim2(A,B)
其中a,β分别为权重参数,且a+β=1,a=0.35,β=0.65。
如果Sim(A,B)大于阀值χ(值为0.6),则两个项目相似;否则不相似。
Claims (1)
1.一种科技项目相似度计算方法,其特征在于包括如下步骤:
步骤1.针对待查重的项目申请书的规范简洁的特点,提出一种规则模型进行识别未登录词;
所述的未登录词的识别是基于碎片的,将分词后产生的碎片与碎片两端的多字词定义为未登录词候选片段,表示为WsC1C2…CnWe,其中Ws是与碎片左端相邻的多字词,C1C2…Cn为产生的碎片,We是与碎片右端相邻的多字词;规则模型如下:
规则一:确定字词的第一词性;所述的第一词性指词性标注的第一个字词;
规则二:设置未登录词排除字集;碎片中会存在词性为介词、助词、代词、副词的单字,这些词的构词能力很弱,不与其它字串构成未登录词的概率大于90%;
规则三:设置切分规则;未登录词候选片段对于未登录词片段WsC1C2…CnWe中的Ci根据规则二,确定为排除字,那么未登录词片段被切分为WsC1…Ci-1与Ci+1…CnWe两个未登录词片段,其中,1<i<n,n为自然数;
规则四:设置前缀字集;对于未登录词片段WsC1C2…CnWe中的Cn进行前缀字判断;
规则五:设置后缀字集;对于未登录词片段WsC1C2…CnWe中的Cn进行后缀字判断;规则六:设置词性配搭规则,具体如下:
(1).若未登录词候选片段如WsC1We,C1的第一词性为形容词,若We为名词,则优先与We结合;若未登录词候选片段如WsC1,Ws为名词,WsC1不成词,否则成词;若未登录词候选片段如C1We,We为动词,C1We不成词,否则,成词;
(2).若未登录词候选片段如WsC1We,C1的第一词性为动词,若We为动词或名词,那么C1优先与Ws结合;若未登录词候选片段为C1We,We为形容词,则C1We不成词,否则成词;若未登录词候选片段如WsC1,Ws为名词,WsC1不成词,否则成词;
(3).若未登录词候选片段如WsC1We,C1的第一词性为名词,若Ws,We都为名词,则C1优先与Ws结合,若只有Ws或We为名词,则优先与Ws或We结合;若未登录词候选片段如WsC1或C1We,则结合成WsC1或C1We;
(4).若未登录词候选片段如WsC1We,C1的第一词性为其它词性,C1优先与Ws结合;
对未登录词候选片段WsC1C2…CnWe进行未登录词识别的规则模型,其描述如下:
1)若n=1,根据规则二,若C1是排除字或者数词,则识别结束;否则转3);
2)若n>=2,根据规则二,若C1是排除字,则未登录词候选片段变成C2…CnWe,转6);根据规则五,若C1是后缀字,则取出未登录词WsC1,未登录词候选片段变成C2…CnWe,转6);根据规则六,若C1是数词,则转7);否则转8);
3)根据规则四,若C1是前缀字,则取出未登录词C1We,识别结束;否则转4);
4)根据规则五,若C1是后缀字,则取出未登录词WsC1,识别结束;否则转5);
5)根据规则六词性配搭,识别出未登录词;
6)取下一个Ci,若i=n,根据规则二,若Ci是排除字或数词,识别结束;根据规则四,若Ci是前缀字,则取出未登录词CnWe,识别结束;否则,识别结束;若i<n,根据规则二,若Ci是排除字,则未登录词候选片段变成Ci+1…CnWe,转6);根据规则六,若Ci是数词,转7);否则转8);
7)取下一个Ci,若i=n,根据规则六,若Ci是数词或量词前缀字,取出Cn-1Cn,作为数词,识别结束;根据规则四,若Ci是前缀字,则取出未登录词CnWe,识别结束;否则识别结束;若i<n,根据规则六,若Ci是数词,量词前缀字,量词,转7);否则,转8)
8)取下一个Ci,若i=n,根据规则二,Ci是排除字或数词,则取出Cn前面的单字作为未登录词,识别结束;根据规则四,若Ci是前缀字,则取出Cn前面的单字为未登录词,CnWe也作为未登录词,识别结束;否则,识别出We前面的单字作为未登录词,识别结束;若i<n,根据规则二,若Ci是排除字,取出Ci前面的单字,根据规则三,若为一个,不作为未登录词,否则作为未登录词,未登录词候选片段变成Ci+1…CnWe,转6);否则转8);
步骤2.根据词在申请书中的词性、出现的位置、词长、词频及语义信息获得关键词,与步骤1得到的未登录词组成项目的特征词;
所述的关键词获得过程如下:
首先获得词语的统计信息值statsi,然后再构建词语网络并计算得到词语的节点综合特征值CFi,最后计算得到所有词语的权重值weighti并按大小排序得到权重值大于γ的词语为项目的关键词,其中γ为阈值,0<γ<1;词语的权重值计算公式如下:
weighti=α×statsi+β×CFi,其中α+β=1,α=0.4,β=0.6;i表示词语的序列号;
所述的词语是项目申请书分词中识别未登录词之后剩下的词语;
所述的词语的统计信息值计算过程如下:
首先计算词语在申请书文本中的词频权重frei:
其中fi为词语在申请书出现的次数;
其次计算词语在申请书文本中的词长权重leni:
其中L为词语的长度;
然后计算词语在申请书文本中的词性权重posi:
最后计算词语在申请书文本中的位置权重loci:
对于项目申请书中的每个词,其统计信息值为:
statsi=α×frei+β×leni+λ×posi+η×loci
其中α+β+λ+η=1,α=0.2,β=0.1,λ=0.2,η=0.5;
所述的语义信息就是词语网络中的节点综合特征值,其计算过程如下:
首先计算词的语义关系和词的共现关系;词的语义关系是利用知网计算词语间相似度的方法得到,所有的词的语义关系表示为语义相似度矩阵:
其中,sim(ci,cj)为词Ci与词Cj的语义相似度,sim(ci,ci)为1,sim(ci,cj)=sim(cj,ci);
词的共现关系是利用滑动窗口对申请书的词语进行词语共现度计算得到,其中滑动窗口长度为3,所有的词的共现关系表示为词语共现度矩阵:
其中Coo(Ci,Cj)为词Ci与词Cj的词语共现度;
然后构建带权词语网络:
CW为输入的词语集合,Wm为权值矩阵,则其对应的带权词语网络定义为:G={V,E,W};其中,G为无向加权图;V={Vi|i=1,2,…,m}为G中的顶点集;E={(vi,vj)|vi,vj∈V}表示G中的边集;W={Wij|(vi,vj)∈E}表示边的权值的集合;
其中权值矩阵Wm为:
其中,α为0.3,β为0.7,W(Ci,Cj)为词Ci与词Cj之间边的权值;
最后计算带权词语网络中的每个节点综合特征值CFi:
其中α为调节参数,α取0.2;CJi、CJj为节点的聚集系数,WDi为节点的加权度;
节点的聚集系数计算如下:
在带权词语网络中,节点Vi的度为Di=|{(vi,vj):(vi,vj)∈E,vi,vj∈V}|,节点Vi的聚集度为Ki=|{(vj,vk):(vi,vj)∈E,(vi,vk)∈E,vi,vj,vk∈V}|,节点的聚集系数为
顶点Vi的加权度WDi为
其中wij为顶点Vi所有的边;
步骤3.对两个申请书名称中的特征词进行语义与字面相似度计算;如果求和归一化后的值低于γ,则项目不相似,结束检测;否则转步骤4;
所述的语义相似度是基于知网的相似度计算获得的,它应用于特征词中的关键词部分,计算得到两个申请书名称中的关键词部分相似度:
其中p,r分别为两个申请书A,B名称中的关键词个数,w(tkw1i)为关键词的权重,simimi为关键词tkw1i和tkw2中与之最相似的词的相似度,w(tkw2mi)为tkw2中与之最相似的词的权重;
所述的字面相似度通过字词匹配来计算,它应用于特征词中的未登录词部分;计算公式如下:
其中v为未登录词的权重,m、n分别为两个申请书名称中的未登录词个数,tuw1i,tuw2j分别为申请书A、B项目名称中的未登录词,
最后计算申请书名称的相似度,它的值为申请书项目名称的关键词部分相似度值与未登录词部分相似度值的求和,归一化得到;公式如下:
其中a,b分别为两个申请书A,B项目名称中的关键词与未登录词的个数和,w1i、w2i分别为申请书A,B项目名称中词语的权重;
步骤4.对申请书主要内容中的相关词权重进行加权计算;
所述的相关词为:项目申请书主要研究内容中的词语,若与题目中的词语的语义相似度超过设定的阈值a,那么这些词语就称为相关词;其中词语的语义相似度是利用知网来计算;
所述的相关词权重加权过程如下:
1).得到申请书名称中的关键词集合tkw和申请书主要内容中的关键词集合ckw;
2).依次遍历ckw中的词,计算它与tkw中的词的语义相似度;若它的值大于a,ckw中的词权重相应作出改变,权重改进公式如下:
其中q为名称中的关键词集合词的个数,
步骤5.对主要内容中的特征词进行语义与字面相似度计算,得到两个项目主要内容的相似度值;
所述的语义相似度是基于知网的相似度计算获得的,它应用于特征词中的关键词部分,计算得到两个申请书主要内容中的关键词部分相似度:
其中p,r分别为两个申请书A,B主要内容中的关键词个数,w(ckw1i)为关键词的权重,simimi为关键词ckw1i和ckw2中与之最相似的词的相似度,w(ckw2mi)为ckw2中与之最相似的词的权重;
所述的字面相似度通过字词匹配来计算,它应用于主要内容中的特征词的未登录词部分;计算公式如下:
其中v为未登录词的权重,m、n分别为两个申请书主要内容中的未登录词个数,cuw1i,cuw2j分别为两个申请书主要内容中的未登录词,
最后计算申请书主要内容的相似度,它的值为申请书项目主要内容中的关键词部分相似度值与未登录词部分相似度值的求和,归一化得到;公式如下:
其中a,b分别为两个申请书A,B项目主要内容中的关键词与未登录词的个数和,w1i、w2i分别为申请书A,B主要内容中词语的权重;
步骤6.对步骤3和步骤5的相似值加权求和得到两个项目的相似度值;所述的项目的相似度计算如下:Sim(A,B)=α*Sim1(A,B)+β*Sim2(A,B)
其中a,β分别为权重参数,且a+β=1,a=0.35,β=0.65;
如果Sim(A,B)大于阈值χ,则两个项目相似;否则不相似。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310508199.4A CN103631858B (zh) | 2013-10-24 | 2013-10-24 | 一种科技项目相似度计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310508199.4A CN103631858B (zh) | 2013-10-24 | 2013-10-24 | 一种科技项目相似度计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103631858A CN103631858A (zh) | 2014-03-12 |
CN103631858B true CN103631858B (zh) | 2017-07-21 |
Family
ID=50212900
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310508199.4A Expired - Fee Related CN103631858B (zh) | 2013-10-24 | 2013-10-24 | 一种科技项目相似度计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103631858B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104133840A (zh) * | 2014-06-24 | 2014-11-05 | 国家电网公司 | 一种具有系统检测及生物识别功能的数据处理方法及系统 |
CN104133841A (zh) * | 2014-06-24 | 2014-11-05 | 国家电网公司 | 一种具有系统检测及图像识别功能的数据处理方法及系统 |
CN105718506B (zh) * | 2016-01-04 | 2019-03-05 | 胡新炜 | 一种科技项目查重对比的方法 |
CN106649276B (zh) * | 2016-12-29 | 2019-02-26 | 北京京东尚科信息技术有限公司 | 标题中核心产品词的识别方法以及装置 |
CN107122340B (zh) * | 2017-03-30 | 2018-11-06 | 浙江省科技信息研究院 | 一种基于同义词分析的科技项目申报书的相似度检测方法 |
CN107908796A (zh) * | 2017-12-15 | 2018-04-13 | 广州市齐明软件科技有限公司 | 电子政务查重方法、装置以及计算机可读存储介质 |
CN108563636A (zh) * | 2018-04-04 | 2018-09-21 | 广州杰赛科技股份有限公司 | 提取文本关键词的方法、装置、设备及存储介质 |
CN109344397B (zh) * | 2018-09-03 | 2023-08-08 | 东软集团股份有限公司 | 文本特征词语的提取方法及装置、存储介质及程序产品 |
CN109543003A (zh) * | 2018-11-21 | 2019-03-29 | 珠海格力电器股份有限公司 | 一种系统对象相似度确定方法及装置 |
CN110377886A (zh) * | 2019-06-19 | 2019-10-25 | 平安国际智慧城市科技股份有限公司 | 项目查重方法、装置、设备及存储介质 |
CN110390084B (zh) * | 2019-06-19 | 2021-01-26 | 平安国际智慧城市科技股份有限公司 | 文本查重方法、装置、设备及存储介质 |
CN113569014B (zh) * | 2021-08-11 | 2024-03-19 | 国家电网有限公司 | 基于多粒度文本语义信息的运维项目管理方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101196904A (zh) * | 2007-11-09 | 2008-06-11 | 清华大学 | 一种基于词频和多元文法的新闻关键词抽取方法 |
US8160866B2 (en) * | 2008-04-18 | 2012-04-17 | Tze Fen Li | Speech recognition method for both english and chinese |
CN103235774A (zh) * | 2013-04-27 | 2013-08-07 | 杭州电子科技大学 | 一种科技项目申请书特征词提取方法 |
-
2013
- 2013-10-24 CN CN201310508199.4A patent/CN103631858B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101196904A (zh) * | 2007-11-09 | 2008-06-11 | 清华大学 | 一种基于词频和多元文法的新闻关键词抽取方法 |
US8160866B2 (en) * | 2008-04-18 | 2012-04-17 | Tze Fen Li | Speech recognition method for both english and chinese |
CN103235774A (zh) * | 2013-04-27 | 2013-08-07 | 杭州电子科技大学 | 一种科技项目申请书特征词提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103631858A (zh) | 2014-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103631858B (zh) | 一种科技项目相似度计算方法 | |
CN103235774B (zh) | 一种科技项目申请书特征词提取方法 | |
Cotterell et al. | Labeled morphological segmentation with semi-markov models | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN108108433A (zh) | 一种基于规则和数据网络融合的情感分析方法 | |
EP3086239A1 (en) | Scenario generation device and computer program therefor | |
CN107609132A (zh) | 一种基于语义本体库中文文本情感分析方法 | |
Suleiman et al. | The use of hidden Markov model in natural ARABIC language processing: a survey | |
EP3086237A1 (en) | Phrase pair gathering device and computer program therefor | |
CN104933027A (zh) | 一种利用依存分析的开放式中文实体关系抽取方法 | |
CN104268197A (zh) | 一种行业评论数据细粒度情感分析方法 | |
CN104268200A (zh) | 一种基于深度学习的非监督命名实体语义消歧方法 | |
WO2015032301A1 (zh) | 一种基于新核函数Luke核的专利文献相似度检测方法 | |
CN106528524A (zh) | 一种基于MMseg算法与逐点互信息算法的分词方法 | |
CN107092605A (zh) | 一种实体链接方法及装置 | |
CN106649222A (zh) | 基于语义分析与多重Simhash的文本近似重复检测方法 | |
CN106610954A (zh) | 基于统计学的文本特征词汇提取方法 | |
CN107844608A (zh) | 一种基于词向量的句子相似度比较方法 | |
CN104933032A (zh) | 一种基于复杂网络的博客关键词提取方法 | |
Sumanathilaka et al. | Swa-bhasha: Romanized sinhala to sinhala reverse transliteration using a hybrid approach | |
Mazari et al. | Deep learning-based sentiment analysis of algerian dialect during Hirak 2019 | |
Singh et al. | Statistical tagger for Bhojpuri (employing support vector machine) | |
Baroi et al. | NITS-Hinglish-SentiMix at SemEval-2020 Task 9: sentiment analysis for code-mixed social media text using an ensemble model | |
CN107329951A (zh) | 构建命名实体标注资源库方法、装置、存储介质和计算机设备 | |
Bettiche et al. | Opinion mining in social networks for Algerian dialect |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20140312 Assignee: Hangzhou eddy current technology Co.,Ltd. Assignor: HANGZHOU DIANZI University Contract record no.: X2020330000008 Denomination of invention: Science and technology project similarity calculation method Granted publication date: 20170721 License type: Common License Record date: 20200117 |
|
EE01 | Entry into force of recordation of patent licensing contract | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170721 |
|
CF01 | Termination of patent right due to non-payment of annual fee |