CN109543001A - 一种表征科研论文研究内容的科技词条抽取方法 - Google Patents

一种表征科研论文研究内容的科技词条抽取方法 Download PDF

Info

Publication number
CN109543001A
CN109543001A CN201811215918.2A CN201811215918A CN109543001A CN 109543001 A CN109543001 A CN 109543001A CN 201811215918 A CN201811215918 A CN 201811215918A CN 109543001 A CN109543001 A CN 109543001A
Authority
CN
China
Prior art keywords
scientific
entry
technological
technological entry
articles
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811215918.2A
Other languages
English (en)
Inventor
汤德佑
霍晨鹏
张平健
刘朝刚
奚建清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201811215918.2A priority Critical patent/CN109543001A/zh
Publication of CN109543001A publication Critical patent/CN109543001A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种表征科研论文研究内容的科技词条抽取方法,首先构建科研论文关联词库和科研论文语料库,然后进行科技词条抽取、词频统计、加权TF‑IDF值计算、科技词条评分拓展,得到每个科技词条的评分,再计算科技词条树图中词条之间的组合系数(后继节点评分占前驱节点评分的比值)、前驱节点置信度(后继节点是由某一前驱节点延伸下来的可能性)、贡献系数(科技词条对论文研究内容的反映程度),最后对贡献系数降序排序,设置主成分比值阈值,提取科技词条主成分集,进而进行贡献系数调整,得到最能反映科研论文研究内容的科技词条及其贡献系数。该方法客观反映了科研论文的研究范畴,将有效推动科研论文检索、科研论文大数据分析等活动的开展。

Description

一种表征科研论文研究内容的科技词条抽取方法
技术领域
本发明涉及信息技术领域,具体涉及一种表征科研论文研究内容的科技词条抽取方法。
背景技术
科研论文主要功能是记录、总结科研成果,是科技人员交流学术思想和科研成果的工具。目前很多科研论文论文库均提供基于元数据的检索及全文关键词检索,基于内容分析结果的检索尚未见成熟技术和产品。虽然关键词/主题词/受控词一定程度上可以体现研究内容,但没有进一步展示与论文研究主要内容和结论等的相关度;同时,一篇论文的关键词有很多个,造成使用关键词搜索往往可以得到很多搜索结果,但大部分脱离检索预期的结果。检索人员只能在关键词搜索结果中通过阅读文献后做进一步筛选,使科技人员在科研论文检索过程中费时费力,很难检索到自己想要的科研论文。
此外,目前科研论文评价时采用学科或技术作为成果统计边界,无法在具体领域、行业水平层次对科研论文进行科学的评价,不利于更小粒度的研究主题上对研究成果进行纵向比较,也不利于不同研究主题上研究人员的横向比较。
发明内容
本发明的目的是针对现有技术的不足,提供了一种表征科研论文研究内容的科技词条抽取方法,所述方法提出了科技词条这个规范化词语对科技活动的研究范畴进行分类和管理,提供了一种比学科、技术领域等分类更为精确,更能真实反映科技工作中理论和技术研究范畴的分类方法和管理模式,由科技人员主导完成词条的管理;在范畴划分中,若科技词条te1研究范畴是由科技词条te2的研究范畴细化而来,称te2强包含te1,记为te2→te1;若科技词条te1的研究范畴与科技词条te2的研究范畴存在交集,或te1的研究范畴在某种程度上也属于te2的研究范畴,称te2弱包含te1,记为包含关系是传递的;若以科技词条为顶点,词条间的强包含和弱包含关系表示为有向边,则所有科技词条构成有向无环树图,给定科技词条te,所有te传递包含或传递包含te的词条都是te的关联词,反映研究范畴的相关性,如某项研究对应到科技词条树图中是出度为零的顶点,说明该研究范畴是一个划分比较精确的分支;科技词条之间存在关联,同时,科技词条关联了科研论文、科技人员,给定科技词条te,研究内容包含te的科研论文都是te的关联科研论文,研究范畴包含te的科技人员都是te的关联科技人员。所述方法基于提出的科技词条模型,给出科研论文的科技词条主成分集及其贡献系数,客观反映了科研论文的研究内容,将有效推动科研论文检索、科研论文评价、科研论文大数据分析等活动的开展。
本发明的目的可以通过如下技术方案实现:
一种表征科研论文研究内容的科技词条抽取方法,所述方法包括以下步骤:
步骤S1、针对科研论文关键词所在领域构建科研论文关联词库,按照科技词条间的关联关系,计算与科研论文存在关联关系的词条集合,作为科研论文关联词库;
步骤S2、根据构建的科研论文关联词库构建科研论文语料库;
步骤S3、对科研论文中的关联科技词条进行评分计算;
步骤S4、根据计算的科技词条的评分,计算科技词条在科研论文中的贡献度;
步骤S5、对科研论文中的科技词条列表进行规约,减少从科研论文中抽取出的科研论文关联词库中的科技词条数,提取出能够表达该篇科研论文研究内容的主要科技词条并计算其贡献系数,生成以该贡献系数为顶点权值的科研论文研究内容科技词条树图。
进一步地,所述步骤S1的具体过程如下:
由于科研论文的关键词一般不是规范的科技词条,需要将关键词替换为规范的科技词条,设替换后的科技词条集合为T;
正向遍历科技词条集合T:T'=T,若科技词条库中存在te→a或a的同义词集为STE,则T'=T'∪{a}∪STE;
反向遍历科技词条集合T:T”=T,若科技词条库中存在a→te或a的同义词集为STE,则T”=T”∪{a}∪STE;
令Tlink=T'∪T”,将Tlink作为科研论文关联词库。
进一步地,所述步骤S2的具体过程如下:
将科研论文的论文文档文本化:运用文档转换工具将论文转换为后续步骤可处理的txt文本;
对论文结构进行解析,提取出论文的元数据:题目、作者、摘要、关键词、正文、参考文献,并保存到数据库中;
得到科研论文关联词库中包含te的科研论文集合Dte,从而构建科研论文语料库D=∪Dte,te∈Tlink
进一步地,所述步骤S3中首先根据科技词条的加权TF-IDF值计算出科技词条的自有评分,并经过科技词条评分拓展,计算出科技词条在科研论文中的评分,评分结果为数值,对任意科技词条te,其评分包括自有评分、强包含顶点的评分和弱包含顶点的评分,科技词条te的评分Ste计算公式如下:
其中,TE表示科技词条库中的科技词条集,TF表示科技词条的词频指数,IDF表示科技词条的逆文本频率指数,TF-IDFte表示科技词条te的加权TF-IDF值,te→tej代表科技词条te强包含科技词条tej代表科技词条te弱包含科技词条tej
进一步地,所述步骤S3的具体过程为:
S3.1、对科研论文进行科技词条抽取及词频统计,利用分词工具提取出科研论文中题目、摘要、关键词、正文这四部分出现的科技词条,并统计科技词条在这四部分中出现的次数,具体步骤为:将科研论文关联词库Tlink作为分词工具分词时依据的用户自定义词库,并注明词性“TechnologyEntry”;将全文中出现的关键词统一替换为科技词条;利用分词工具对科研论文的各个部分进行分词、去停用词;挑选出分词后词性为“TechnologyEntry”的词即为科研论文中抽取出的科技词条,运用同义词库将同义不同形的科技词条归纳为同一种形式;统计出同义词检测后的科技词条在科研论文中各部分出现的次数,完成词频统计;
S3.2、计算科技词条的加权TF-IDF值,具体步骤为:假设在科研论文题目、摘要、关键词、正文部分抽取出的科技词条所占的权重分别为ktitle,kabstract,kkeywords,ktext,并且满足ktitle+kabstract+kkeywords+ktext=1,计算科技词条te的值,假设从科研论文题目中抽取出的科技词条集为PEtitle,nte代表科技词条te在该篇论文题目中出现的次数,那么科技词条te在该篇论文题目中的词频指数值为:
其中,表示科技词条tej在该篇论文题目中出现的次数,同理得到科技词条te在该篇论文中的值,所述分别表示科技词条te在该篇论文摘要、关键词、正文中的词频指数;
计算科技词条te的值,根据步骤S2构建的科研论文语料库D,语料库中论文数目为|D|,语料库中题目包含科技词条te的论文数为|Dte|,那么科技词条te的值为:
其中,表示科技词条te在该篇论文题目中的逆文本频率指数,同理得到科技词条te在该篇论文中的值,所述 分别表示科技词条te在该篇论文摘要、关键词、正文中的逆文本频率指数;
计算科技词条te的值,计算公式为:
同理得到科技词条te在该篇论文中的值;
计算科技词条te的加权TF-IDF值,计算公式为:
对科技词条进行评分拓展,计算出科技词条te的自有评分为:
Ste=TF-IDFte
对任意科技词条te,其评分包括自有评分、强包含顶点的评分和弱包含顶点的评分,科技词条te的评分Ste计算公式如下:
出度为零的顶点,评分只包含自有评分。
进一步地,所述步骤S4的具体过程为:
首先计算科技词条树图中每条有向边的组合系数:对每一个科技词条te,设a是其后继顶点,te→a或αte-a表示词条te和a之间的组合系数:
αte-a=Sa/Ste
其中,Sa表示科技词条a的评分,Ste表示科技词条te的评分;
然后计算科技词条的前驱节点置信度:对每一个科技词条te,设b是其前驱节点,b→te或βte-b表示科研论文中科技词条te的前驱节点是b的置信度:
其中,TE表示科技词条库中的科技词条集,Sb表示科技词条b的评分,表示科技词条tej的评分;
最后计算科技词条te的贡献系数χte,公式为:
其中,TE表示科技词条库中的科技词条集,αa-te表示科技词条te和科技词条a之间的组合系数,βte-a表示科技词条te的前驱节点是科技词条a的置信度。
进一步地,所述步骤S5的具体过程为:
按贡献系数χte对科技词条降序排序,χ1≥χ2≥…≥χn,指定主成分比重阈值th,当满足时,取前min{k}个科技词条构成科研论文的科技词条主成分集;
对贡献系数进行调整,令χ'i=χi,i=1,2,…,k,调整公式为:
最后生成以调整后的贡献系数为顶点权值的科研论文研究内容科技词条树图。
本发明与现有技术相比,具有如下优点和有益效果:
本发明提供的一种表征科研论文研究内容的科技词条抽取方法,以科技词条树图反映了科技词条在论文中的贡献度,其计算过程考虑了词条间的上下级关系、同义关系,将论文研究内容数值化,从而客观地反映了论文的主要研究范畴,解决了科研论文检索和评价过程中统计边界过于粗糙的缺点,这将有效推动科研论文检索、科研论文评价、科研论文大数据分析等活动的开展。
附图说明
图1为本发明实施例表征科研论文研究内容的科技词条抽取方法流程图。
图2为本发明实施例中某科研论文关联词库的构建示意图。
图3为本发明实施例中某科研论文的科技词条树图。
图4为本发明实施例中某科研论文的带贡献系数标注的科技词条树图。
图5为本发明实施例中某科研论文的经科技词条主成分集计算后的科技词条树图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例:
本实施例提供了一种表征科研论文研究内容的科技词条抽取方法,首先构建科研论文关联词库和科研论文语料库,然后进行科技词条抽取、词频统计、加权TF-IDF值计算、科技词条评分拓展,得到每个科技词条的评分,再计算科技词条树图中词条之间的组合系数(后继节点评分占前驱节点评分的比值)、前驱节点置信度(后继节点是由某一前驱节点延伸下来的可能性)、贡献系数(科技词条对论文研究内容的反映程度),最后对贡献系数降序排序,设置主成分比值阈值,提取科技词条主成分集,进而进行贡献系数调整,得到最能反映科研论文研究内容的科技词条及其贡献系数。
所述方法的流程图如图1所示,包括以下步骤:
步骤1:科研论文关联词库的构建;
针对科研论文关键词所在领域构建科研论文关联词库,按照科技词条间的关联关系,计算与科研论文存在关联关系的词条集合,作为科研论文关联词库;具体过程如下:
由于科研论文的关键词一般不是规范的科技词条,需要将关键词替换为规范的科技词条,设替换后的科技词条集合为T;
正向遍历科技词条集合T:T'=T,若科技词条库中存在te→a或a的同义词集为STE,则T'=T'∪{a}∪STE;
反向遍历科技词条集合T:T”=T,若科技词条库中存在a→te或a的同义词集为STE,则T”=T”∪{a}∪STE;
令Tlink=T'∪T”,将Tlink作为科研论文关联词库。
具体以某一篇科研论文为例,为便于标识,每项科技词条均设置一个可唯一标识的编码ID,图2、3、4、5中每个顶点表示一条科技词条及其同义词,对每个词条仅列出其词条编码,词条间的强包含关系用I型有向边表示,弱包含关系用II型有向边表示;图2展示了的某科研论文关联词库的构建,该篇论文只有一个关键词“机器学习”,“机器学习”在科技词条库中,ID4代表了“机器学习”这个科技词条,经过正向遍历和逆向遍历,可遍历到的科技词条有ID1、ID2、ID5、ID6、ID7,图中用斜线填充的科技词条代表ID4可遍历到的,那么该篇论文的科研论文关联词库为{ID1,ID2,ID4,ID5,ID6,ID7};
步骤2:科研论文语料库的构建;具体过程如下:
将科研论文的论文文档文本化:运用文档转换工具将论文转换为后续步骤可处理的txt文本;
对论文结构进行解析,提取出论文的元数据:题目、作者、摘要、关键词、正文、参考文献,并保存到数据库中;
得到科研论文关联词库中包含te的科研论文集合Dte,从而构建科研论文语料库D=∪Dte,te∈Tlink
步骤3:关联科技词条评分计算;具体过程为:
步骤3.1、对科研论文进行科技词条抽取及词频统计,利用分词工具提取出科研论文中题目、摘要、关键词、正文这四部分出现的科技词条,并统计科技词条在这四部分中出现的次数,具体步骤为:将科研论文关联词库Tlink作为分词工具分词时依据的用户自定义词库,并注明词性“TechnologyEntry”;将全文中出现的关键词统一替换为科技词条;利用分词工具对科研论文的各个部分进行分词、去停用词;挑选出分词后词性为“TechnologyEntry”的词即为科研论文中抽取出的科技词条,运用同义词库将同义不同形的科技词条归纳为同一种形式;统计出同义词检测后的科技词条在科研论文中各部分出现的次数,完成词频统计;
步骤3.2、计算科技词条的加权TF-IDF值,具体步骤为:假设在科研论文题目、摘要、关键词、正文部分抽取出的科技词条所占的权重分别为ktitle,kabstract,kkeywords,ktext,并且满足ktitle+kabstract+kkeywords+ktext=1,计算科技词条te的值,假设从科研论文题目中抽取出的科技词条集为PEtitle,nte代表科技词条te在该篇论文题目中出现的次数,那么科技词条te在该篇论文题目中的词频指数值为:
其中,表示科技词条tej在该篇论文题目中出现的次数,同理得到科技词条te在该篇论文中的值,所述分别表示科技词条te在该篇论文摘要、关键词、正文中的词频指数;
计算科技词条te的值,根据步骤S2构建的科研论文语料库D,语料库中论文数目为|D|,语料库中题目包含科技词条te的论文数为|Dte|,那么科技词条te的值为:
其中,表示科技词条te在该篇论文题目中的逆文本频率指数,同理得到科技词条te在该篇论文中的值,所述 分别表示科技词条te在该篇论文摘要、关键词、正文中的逆文本频率指数;
计算科技词条te的值,计算公式为:
同理得到科技词条te在该篇论文中的值;
计算科技词条te的加权TF-IDF值,计算公式为:
步骤3.3、对科技词条进行评分拓展,计算出科技词条te的自有评分为:
Ste=TF-IDFte
对任意科技词条te,其评分包括自有评分、强包含顶点的评分和弱包含顶点的评分,科技词条te的评分Ste计算公式如下:
出度为零的顶点,评分只包含自有评分。
图3展示了某科研论文的科技词条树图,图中节点“ID/score/ownscore”,其中ID代表科技词条的可唯一标识的编码,score代表科技词条的评分,ownscore代表科技词条的自有评分。图中ID4的评分计算公式为:
SID4=TF-IDFID4+SID6+SID7=0.3+0.5+0.4=1.2
步骤4:科技词条贡献系数计算;具体过程为:
步骤4.1、计算科技词条树图中每条有向边的组合系数:对每一个科技词条te,设a是其后继顶点,te→a或αte-a表示词条te和a之间的组合系数:
αte-a=Sa/Ste
其中,Sa表示科技词条a的评分,Ste表示科技词条te的评分;
步骤4.2、计算科技词条的前驱节点置信度:对每一个科技词条te,设b是其前驱节点,b→te或βte-b表示科研论文中科技词条te的前驱节点是b的置信度:
其中,TE表示科技词条库中的科技词条集,Sb表示科技词条b的评分,表示科技词条tej的评分;
步骤4.3、计算科技词条te的贡献系数χte,公式为:
其中,TE表示科技词条库中的科技词条集,αa-te表示科技词条te和科技词条a之间的组合系数,βte-a表示科技词条te的前驱节点是科技词条a的置信度。
步骤5:科技词条主成分集计算;
对科研论文中的科技词条列表进行规约,减少从科研论文中抽取出的科研论文关联词库中的科技词条数,提取出能够表达该篇科研论文研究内容的主要科技词条并计算其贡献系数,生成以该贡献系数为顶点权值的科研论文研究内容科技词条树图。具体过程为:
步骤5.1、按贡献系数χte对科技词条降序排序,χ1≥χ2≥…≥χn,指定主成分比重阈值th,当满足时,取前min{k}个科技词条构成科研论文的科技词条主成分集;
步骤5.2、对贡献系数进行调整,令χ'i=χi,i=1,2,…,k,调整公式为:
最后生成以调整后的贡献系数为顶点权值的科研论文研究内容科技词条树图。
在图3中,ID2和ID4之间的组合系数为αID2-ID4=SID4/SID2=1.2/1.9=0.632,ID4的前驱节点是ID1的置信度βID4-ID1=SID1/(SID1+SID2)=1.4/(1.9+1.4)=0.424,ID4的前驱节点是ID2的置信度βID4-ID2=SID2/(SID1+SID2)=1.9/(1.9+1.4)=0.576。图4中,词条ID4贡献系数χID4计算公式为:
对图4中科技词条的贡献系数降序排序,所得结果为ID6/0.209,ID7/0.133,ID3/0.129,ID8/0.100,ID4/0.055,ID2/0.047,ID5/0.031,ID1/0.029,取th=0.8,所以取前5个词条构成该篇论文的科技词条主成分集,{ID6,ID7,ID3,ID8,ID4},对科技词条的贡献系数进行调整,词条ID3的贡献系数调整公式为:
词条ID6、ID7、ID3、ID8、ID4是该篇论文的代表性科技词条,贡献系数分别为33.4%、21.2%、20.6%、16.0%、8.9%,最后得到经科技词条主成分集计算后的以调整后的贡献系数为顶点权值的科技词条树图如图5所示。
由上述可见,本发明的一种表征科研论文研究内容的科技词条抽取方法,考虑了科技词条间的上下级关系、同义关系,将论文研究内容数值化,给出了最能代表论文研究内容的科技词条及其贡献系数,从而客观地反映了论文的主要研究范畴,解决了科研论文检索和评价过程中统计边界过于粗糙的缺点,这将有效推动科研论文检索、科研论文评价、科研论文大数据分析等活动的开展。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明专利构思加以等同替换或改变,都属于本发明专利的保护范围。

Claims (7)

1.一种表征科研论文研究内容的科技词条抽取方法,其特征在于,所述方法包括以下步骤:
步骤S1、针对科研论文关键词所在领域构建科研论文关联词库,按照科技词条间的关联关系,计算与科研论文存在关联关系的词条集合,作为科研论文关联词库;
步骤S2、根据构建的科研论文关联词库构建科研论文语料库;
步骤S3、对科研论文中的关联科技词条进行评分计算;
步骤S4、根据计算的科技词条的评分,计算科技词条在科研论文中的贡献度;
步骤S5、对科研论文中的科技词条列表进行规约,减少从科研论文中抽取出的科研论文关联词库中的科技词条数,提取出能够表达该篇科研论文研究内容的主要科技词条并计算其贡献系数,生成以该贡献系数为顶点权值的科研论文研究内容科技词条树图。
2.根据权利要求1所述的一种表征科研论文研究内容的科技词条抽取方法,其特征在于,所述步骤S1的具体过程如下:
由于科研论文的关键词一般不是规范的科技词条,需要将关键词替换为规范的科技词条,设替换后的科技词条集合为T;
正向遍历科技词条集合T:T'=T,若科技词条库中存在te→a或a的同义词集为STE,则T'=T'∪{a}∪STE;
反向遍历科技词条集合T:T”=T,若科技词条库中存在a→te或a的同义词集为STE,则T”=T”∪{a}∪STE;
令Tlink=T'∪T”,将Tlink作为科研论文关联词库。
3.根据权利要求2所述的一种表征科研论文研究内容的科技词条抽取方法,其特征在于,所述步骤S2的具体过程如下:
将科研论文的论文文档文本化:运用文档转换工具将论文转换为后续步骤可处理的txt文本;
对论文结构进行解析,提取出论文的元数据:题目、作者、摘要、关键词、正文、参考文献,并保存到数据库中;
得到科研论文关联词库中包含te的科研论文集合Dte,从而构建科研论文语料库D=∪Dte,te∈Tlink
4.根据权利要求2或3所述的一种表征科研论文研究内容的科技词条抽取方法,其特征在于,所述步骤S3中首先根据科技词条的加权TF-IDF值计算出科技词条的自有评分,并经过科技词条评分拓展,计算出科技词条在科研论文中的评分,评分结果为数值,对任意科技词条te,其评分包括自有评分、强包含顶点的评分和弱包含顶点的评分,科技词条te的评分Ste计算公式如下:
其中,TE表示科技词条库中的科技词条集,TF表示科技词条的词频指数,IDF表示科技词条的逆文本频率指数,TF-IDFte表示科技词条te的加权TF-IDF值,te→tej代表科技词条te强包含科技词条tej代表科技词条te弱包含科技词条tej
5.根据权利要求2或3所述的一种表征科研论文研究内容的科技词条抽取方法,其特征在于,所述步骤S3的具体过程为:
S3.1、对科研论文进行科技词条抽取及词频统计,利用分词工具提取出科研论文中题目、摘要、关键词、正文这四部分出现的科技词条,并统计科技词条在这四部分中出现的次数,具体步骤为:将科研论文关联词库Tlink作为分词工具分词时依据的用户自定义词库,并注明词性“TechnologyEntry”;将全文中出现的关键词统一替换为科技词条;利用分词工具对科研论文的各个部分进行分词、去停用词;挑选出分词后词性为“TechnologyEntry”的词即为科研论文中抽取出的科技词条,运用同义词库将同义不同形的科技词条归纳为同一种形式;统计出同义词检测后的科技词条在科研论文中各部分出现的次数,完成词频统计;
S3.2、计算科技词条的加权TF-IDF值,具体步骤为:假设在科研论文题目、摘要、关键词、正文部分抽取出的科技词条所占的权重分别为ktitle,kabstract,kkeywords,ktext,并且满足ktitle+kabstract+kkeywords+ktext=1,计算科技词条te的值,假设从科研论文题目中抽取出的科技词条集为PEtitle,nte代表科技词条te在该篇论文题目中出现的次数,那么科技词条te在该篇论文题目中的词频指数值为:
其中,表示科技词条tej在该篇论文题目中出现的次数,同理得到科技词条te在该篇论文中的值,所述分别表示科技词条te在该篇论文摘要、关键词、正文中的词频指数;
计算科技词条te的值,根据步骤S2构建的科研论文语料库D,语料库中论文数目为|D|,语料库中题目包含科技词条te的论文数为|Dte|,那么科技词条te的值为:
其中,表示科技词条te在该篇论文题目中的逆文本频率指数,同理得到科技词条te在该篇论文中的值,所述 分别表示科技词条te在该篇论文摘要、关键词、正文中的逆文本频率指数;
计算科技词条te的值,计算公式为:
同理得到科技词条te在该篇论文中的值;
计算科技词条te的加权TF-IDF值,计算公式为:
对科技词条进行评分拓展,计算出科技词条te的自有评分为:
Ste=TF-IDFte
对任意科技词条te,其评分包括自有评分、强包含顶点的评分和弱包含顶点的评分,科技词条te的评分Ste计算公式如下:
出度为零的顶点,评分只包含自有评分。
6.根据权利要求4所述的一种表征科研论文研究内容的科技词条抽取方法,其特征在于,所述步骤S4的具体过程为:
首先计算科技词条树图中每条有向边的组合系数:对每一个科技词条te,设a是其后继顶点,te→a或αte-a表示词条te和a之间的组合系数:
αte-a=Sa/Ste
其中,Sa表示科技词条a的评分,Ste表示科技词条te的评分;
然后计算科技词条的前驱节点置信度:对每一个科技词条te,设b是其前驱节点,b→te或βte-b表示科研论文中科技词条te的前驱节点是b的置信度:
其中,TE表示科技词条库中的科技词条集,Sb表示科技词条b的评分,表示科技词条tej的评分;
最后计算科技词条te的贡献系数χte,公式为:
其中,TE表示科技词条库中的科技词条集,αa-te表示科技词条te和科技词条a之间的组合系数,βte-a表示科技词条te的前驱节点是科技词条a的置信度。
7.根据权利要求6所述的一种表征科研论文研究内容的科技词条抽取方法,其特征在于,所述步骤S5的具体过程为:
按贡献系数χte对科技词条降序排序,χ1≥χ2≥…≥χn,指定主成分比重阈值th,当满足时,取前min{k}个科技词条构成科研论文的科技词条主成分集;
对贡献系数进行调整,令χ'i=χi,i=1,2,…,k,调整公式为:
最后生成以调整后的贡献系数为顶点权值的科研论文研究内容科技词条树图。
CN201811215918.2A 2018-10-18 2018-10-18 一种表征科研论文研究内容的科技词条抽取方法 Pending CN109543001A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811215918.2A CN109543001A (zh) 2018-10-18 2018-10-18 一种表征科研论文研究内容的科技词条抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811215918.2A CN109543001A (zh) 2018-10-18 2018-10-18 一种表征科研论文研究内容的科技词条抽取方法

Publications (1)

Publication Number Publication Date
CN109543001A true CN109543001A (zh) 2019-03-29

Family

ID=65844495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811215918.2A Pending CN109543001A (zh) 2018-10-18 2018-10-18 一种表征科研论文研究内容的科技词条抽取方法

Country Status (1)

Country Link
CN (1) CN109543001A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705314A (zh) * 2019-10-08 2020-01-17 国家计算机网络与信息安全管理中心 论文技术水平评价方法及装置
CN111598526A (zh) * 2020-04-21 2020-08-28 奇计(江苏)科技服务有限公司 一种针对描述科技创新内容的智能比对评审方法
CN112765979A (zh) * 2021-01-15 2021-05-07 西华大学 论文关键词提取系统及其方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101655866A (zh) * 2009-08-14 2010-02-24 北京中献电子技术开发中心 科技术语的自动化抽取方法
CN103886034A (zh) * 2014-03-05 2014-06-25 北京百度网讯科技有限公司 一种建立索引及匹配用户的查询输入信息的方法和设备
US20170242921A1 (en) * 2016-02-22 2017-08-24 Arie Rota System and method for aggregating and sharing accumulated information
CN108255796A (zh) * 2018-01-10 2018-07-06 华南理工大学 一种表征科技专家成果能力的科技词条抽取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101655866A (zh) * 2009-08-14 2010-02-24 北京中献电子技术开发中心 科技术语的自动化抽取方法
CN103886034A (zh) * 2014-03-05 2014-06-25 北京百度网讯科技有限公司 一种建立索引及匹配用户的查询输入信息的方法和设备
US20170242921A1 (en) * 2016-02-22 2017-08-24 Arie Rota System and method for aggregating and sharing accumulated information
CN108255796A (zh) * 2018-01-10 2018-07-06 华南理工大学 一种表征科技专家成果能力的科技词条抽取方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705314A (zh) * 2019-10-08 2020-01-17 国家计算机网络与信息安全管理中心 论文技术水平评价方法及装置
CN111598526A (zh) * 2020-04-21 2020-08-28 奇计(江苏)科技服务有限公司 一种针对描述科技创新内容的智能比对评审方法
CN112765979A (zh) * 2021-01-15 2021-05-07 西华大学 论文关键词提取系统及其方法
CN112765979B (zh) * 2021-01-15 2023-05-09 西华大学 论文关键词提取系统及其方法

Similar Documents

Publication Publication Date Title
CN110059311B (zh) 一种面向司法文本数据的关键词提取方法及系统
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN104765769B (zh) 一种基于词矢量的短文本查询扩展及检索方法
CN106598944B (zh) 一种民航安保舆情情感分析方法
CN104778209B (zh) 一种针对千万级规模新闻评论的观点挖掘方法
CN108052593A (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN101655866B (zh) 科技术语的自动化抽取方法
CN105824959A (zh) 舆情监控方法及系统
CN107577759A (zh) 用户评论自动推荐方法
CN107220295A (zh) 一种人民矛盾调解案例搜索和调解策略推荐方法
CN105843795A (zh) 基于主题模型的文档关键词抽取方法及其系统
CN109271477A (zh) 一种借助互联网构建分类语料库的方法及系统
CN108121829A (zh) 面向软件缺陷的领域知识图谱自动化构建方法
CN108038240A (zh) 基于内容、用户多因素分析的社交网络谣言检测方法
CN110781679B (zh) 一种基于关联语义链网络的新闻事件关键词挖掘方法
CN107153658A (zh) 一种基于关键字加权算法的舆情热词发现方法
CN107403017A (zh) 一种智能分析实时新闻对金融市场影响的方法
CN102937960A (zh) 突发事件热点话题的识别与评估装置和方法
CN102929873A (zh) 一种基于情境搜索提取搜索价值词的方法及装置
CN110222172B (zh) 一种基于改进层次聚类的多源网络舆情主题挖掘方法
CN102054029A (zh) 一种基于社会网络和人名上下文的人物信息消歧处理方法
CN107562843B (zh) 一种基于标题高频切分的新闻热点短语提取方法
CN103970730A (zh) 一种从单个中文文本中提取多主题词的方法
CN109543001A (zh) 一种表征科研论文研究内容的科技词条抽取方法
CN110188191A (zh) 一种用于网络社区文本的实体关系图谱构建方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190329

RJ01 Rejection of invention patent application after publication