CN114328826A - 一种提取技术成果、技术需求的关键词和文摘的方法 - Google Patents

一种提取技术成果、技术需求的关键词和文摘的方法 Download PDF

Info

Publication number
CN114328826A
CN114328826A CN202111565133.XA CN202111565133A CN114328826A CN 114328826 A CN114328826 A CN 114328826A CN 202111565133 A CN202111565133 A CN 202111565133A CN 114328826 A CN114328826 A CN 114328826A
Authority
CN
China
Prior art keywords
key
keyword
list
technical
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111565133.XA
Other languages
English (en)
Other versions
CN114328826B (zh
Inventor
郑鑫
杨尚伟
逄凯
徐楠楠
陈丽娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Mengdou Network Technology Co ltd
Original Assignee
Qingdao Mengdou Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Mengdou Network Technology Co ltd filed Critical Qingdao Mengdou Network Technology Co ltd
Priority to CN202111565133.XA priority Critical patent/CN114328826B/zh
Publication of CN114328826A publication Critical patent/CN114328826A/zh
Application granted granted Critical
Publication of CN114328826B publication Critical patent/CN114328826B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种提取技术成果、技术需求的关键词和文摘的方法,所述方法包括如下步骤:步骤一:文本预处理,包括对文本中的英文字符,进行统一处理,均采用小写进行表示;步骤二:基于TextRank的方法提取关键词;步骤三:提取文摘。本发明采用TextRank的方法提取技术成果、技术需求的关键词,来描述其主要内容或主要诉求。同时提取技术成果、技术需求的文摘,便于阅读、查询、搜索等功能。能够通过“关键词”的方式,简洁、清晰的描述技术成果、技术需求。加快用户查询、搜索技术成果或技术需求时的时间和效率。对技术成果或技术需求提取关键词存储后,在后续的查询和匹配方面,能够加快查询和匹配的速度,解决部分词库不全导致的关键词不完整的情况。

Description

一种提取技术成果、技术需求的关键词和文摘的方法
技术领域
本发明涉及电子商务技术领域,具体涉及一种提取技术成果、技术需求的关键词和文摘的方法。
背景技术
在当今信息发达的时代背景下,越来越多的信息集聚,为了加强信息的管理和利用,出现了利用关键词来整体描述信息的形式,为这种信息资源的主体和内容,以更简洁、更有效的方式描述出来。以“关键词”的方式管理信息资源,能够提高对信息资源的管理能力,有利于信息资源的发现、传播、查询和利用。
通过关键词描述技术成果、技术需求,能够体现技术成果的主要研究方向或主要解决的主要内容,体现技术需求的主要需求方向或主要需要解决的主要问题。从技术成果、技术需求本身的描述内容进行关键词描述,能够在技术成果、技术需求的数量较多时,快速抓取技术成果、技术需求描述的主要内容。本发明通过“关键词”的方式标注技术成果、技术需求的内容,对技术成果、技术需求通过“关键词”的形式进行使用。
发明内容
本发明的目的是:针对背景技术描述的问题,本发明提供一种提取技术成果、技术需求的关键词和文摘的方法,本发明采用TextRank的方法提取技术成果、技术需求的关键词,来描述其主要内容或主要诉求。同时提取技术成果、技术需求的文摘,便于阅读、查询、搜索等功能。
为了解决上述问题,本发明所采用的技术方案是:
一种提取技术成果、技术需求的关键词和文摘的方法,其特征在于,所述方法包括如下步骤:
步骤一:文本预处理,包括对文本中的英文字符,进行统一处理,均采用小写进行表示;
步骤二:基于TextRank的方法提取关键词,具体包括:
(1)把给定的文本T按照完整句子进行分割,即
T=[S1,S2,…,Sm]
(2)对于每个句子Si∈T,进行分词和词性标注处理,并过滤停用词,只保留指定词性的单词,即Si=[ti,1,ti,2,…,ti,j,…],其中ti,j∈Sj是保留后的候选关键词;
(3)构建候选关键词图G=(V,E),由点集合V和边集合E组成,E是V×V的子集,其中V为节点集,由(2)生成的候选关键词组成,然后采用共现关系构造任两点之间的边,两个节点之间存在边,仅当它们对应的词汇在长度为k的窗口中共现,k表示窗口大小,即最多共现k个单词,设置k=2;
(4)根据公式(1),迭代传播各节点的权重,直至达到停止条件;
Figure BDA0003420277680000021
其中,WS(Vi)表示句子Si的权重得分;wji表示两个句子Si、Sj之间边的权重,用两个句子的相似度表示;WS(Vj)表示上次迭代出的句子Sj的权重;d为阻尼系数,代表从图中某一节点指向其他任意节点的概率,取d=0.85;In(Vi)为指向Vi节点的集合,Out(Vj)为Vj节点指出的集合;各个节点的权重得分,初始化为1;
Figure BDA0003420277680000022
其中,Si,Sj表示两个句子;wk表示句子中的词;|wk|wk∈Si∩wk∈Sj|表示同时出现两个句子中的同义词的数量;log(|Si|)+log(|Sj|)表示对句子中词的个数求对数后的求和;wji表示计算两个节点之间,即两个句子之间的相似度;
(5)对节点权重进行倒叙排序,即按照权重得分由大到小排序,按照点集V中的词进行排序并且不改变点集中的词的顺序,从而得到最重要的top_t个单词,作为候选关键词,top-t根据使用过程或具体情境进行设置,先设置top_t=15;
(6)由(5)得到最重要的top_t个单词,在原始文本中进行标记,并进行以下处理:
①若形成相邻词组且文中出现次数满足条件
Figure BDA0003420277680000031
则组合成多词关键词,暂定δ=0.8;
其中,(wi,wj)表示词wi,wj构成的词组,|wi|wi∈T|表示文本T中词wi出现的次数,|wj|wj∈T|表示文本T中词wj出现的次数,max(|wi|wi∈T|,|wj|wj∈T|)表示文本T中出现词wi,wj的较大值;
②若形成相邻词组且文中出现次数满足条件
Figure BDA0003420277680000032
Figure BDA0003420277680000033
则组合成多词关键词和出现次数较多的词;
(7)由(6)进行多词关键词的处理后,得到关键词列表,记作Keynow=[keyn1,keyn2,…,keyni,…];
其中,keyni表示当前技术成果列表Keynow的第i个关键词;
(8)去关键词,得到当前技术成果的最终关键词列表;
将得到的关键词列表,添加到已有关键词总列表中,刷新其出现在技术成果的描述中的篇数;已在关键词总列表中的关键词,即将该关键词对应的次数+1;若关键词总列表中无关键词,则在关键词总列表中增加该关键词,并记录其篇数为1;其中的关键词总列表,是目前所有技术成果中提取的关键词列表,及各关键词出现在技术成果描述中的篇数每出现在一篇技术成果中,篇数+1;
步骤三:提取文摘
(1)根据二(4)计算的节点权重,进行倒叙排序,即按照权重得分由大到小排序,抽取文摘句,抽取重要度最高的top_n个句子作为候选文摘句;
(2)形成文摘,根据句子数或字数要求,从候选文摘句中抽取句子组成文摘。
进一步的,所述步骤二第(4)步中所述的停止条件为:
停止条件:达到以下两个条件的任意一个,则跳出该循环迭代,进入下一步骤;
①停止条件采用指定的迭代次数达到100次;
②关键词图中节点的值跟上次结果值的误差是否小于一个指定的极限值,该极限值取值为:0.0001。
进一步的,所述步骤二第(8)步的“去关键词,得到当前技术成果的最终关键词列表”,具体包括:
1)由技术成果库建立关键词总列表
技术成果库,即提取初始关键词总列表的技术成果集合,技术成果库会根据平台积累的技术成果重新提取初始关键词总列表,根据实际情况,重置技术成果库,重新提取初始关键词总列表;
①初始化关键词总列表:Keytotal=[];
②循环提取技术成果库中的技术成果的关键词,具体见步骤二(1)-(6);技术成果中的关键词提取完成后循环结束,得到关键词序列集合:
Key=[[k11,k12,…,k1i,…],[k21,k22,…,k2i,…],…[kj1,kj2,…,kji,…],…]
其中,kji表示技术成果库中的第j个技术的第i个关键词;
③确定技术成果库的关键词总列表;将关键词序列集合Key中的关键词去重,并记录其出现的次数,该次数与该关键词出现在技术成果中的篇数相对应;
记录初始关键词总列表为:
Keytotal=[key1,key2,…,keyi,…]
Keytimes=[t1,t2,…,ti,…]
其中,keyi表示关键词总列表中的第i个关键词,ti表示其对应的关键词总列表中的关键词keyi出现在技术成果中的总篇数,每出现在一篇技术成果中其对应篇数+1,与技术成果中出现该关键词的词频无关;
2)根据当前技术的关键词列表更新关键词总列表
若当前技术的关键词keyni,满足条件keyni∈Keytotal,则Keytotal中关键词keyni对应的关键词的对应次数+1;即假设keyni即为keyi,则更新ti:ti=ti+1;
若当前技术的关键词keyni,不满足条件keyni∈Keytotal,即Keytotal中增加该关键词,并记录其次数为1;即在关键词总列表的末尾增加该关键词;
Keytotal=[key1,key2,…,keyi,…,keyni]
Keytimes=[t1,t2,…,ti,…,1]
3)计算当前技术的关键词列表中关键词在关键词总列表中的比例
Figure BDA0003420277680000051
其中
Figure BDA0003420277680000052
表示关键词keyni在关键词总列表中对应的次数,N表示技术成果的总篇数;若r≥ε,则在当前的关键词列表Keynow中删除该关键词;若r<ε,则在当前的关键词列表Keynow中保留该关键词,暂时设置ε=0.8,后续根据实际的应用情况进行适当调整;
最终更新后的关键词列表Keynow为当前技术成果的关键词列表,即该技术成果的关键词序列。
进一步的,所述步骤三第(2)步中,暂时采取句子数为3的方式,进行文摘提取,后期根据平台使用、用户反馈情况,进行调整和完善。
本发明实施例提供的上述技术方案的有益效果至少包括:本发明的提取技术成果、技术需求的关键词和文摘的方法的有益效果包括:
1、能够通过“关键词”的方式,简洁、清晰的描述技术成果、技术需求。
2、加快用户查询、搜索技术成果或技术需求时的时间和效率。
3、对技术成果或技术需求提取关键词存储后,在后续的查询和匹配方面,能够加快查询和匹配的速度。
4、能够解决部分词库不全导致的关键词不完整的情况,如由于词库补签,导致关键词“石墨烯”提取成“石墨”、“烯”不完整的情况。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书中所特别指出的特征来实现和获得。
具体实施例
下面将更详细地描述本公开的示例性实施例。应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供一种提取技术成果、技术需求的关键词和文摘的方法,所述方法主要包括:步骤一、文本预处理:步骤二、基于TextRank的方法提取关键词;步骤三:提取文摘。具体方法如下所述。
步骤一:文本预处理,包括对文本中的英文字符,进行统一处理,均采用小写进行表示。
步骤二:基于TextRank的方法提取关键词:具体包括:
(1)把给定的文本T按照完整句子进行分割,即
T=[S1,S2,…,Sm]
(2)对于每个句子Si∈T,进行分词和词性标注处理,并过滤停用词,只保留指定词性的单词,如名词、动词、形容词,即Si=[ti,1,ti,2,…,ti,j,…],其中ti,j∈Sj是保留后的候选关键词。
(3)构建候选关键词图G=(V,E),由点集合V和边集合E组成,E是V×V的子集。其中V为节点集,由(2)生成的候选关键词组成,然后采用共现关系(co-occurrence)构造任两点之间的边,两个节点之间存在边,仅当它们对应的词汇在长度为k的窗口中共现,k表示窗口大小,即最多共现k个单词,设置k=2。
(4)根据公式(1),迭代传播各节点的权重,直至达到停止条件。
Figure BDA0003420277680000071
其中,WS(Vi)表示句子Si的权重得分;wji表示两个句子Si、Sj之间边的权重,用两个句子的相似度表示;WS(Vj)表示上次迭代出的句子Sj的权重。d为阻尼系数,代表从图中某一节点指向其他任意节点的概率,一般取0.85,本发明中确定取d=0.85。In(Vi)为指向Vi节点的集合,Out(Vj)为Vj节点指出的集合。各个节点的权重得分,初始化为1。
Figure BDA0003420277680000072
其中,Si,Sj表示两个句子;wk表示句子中的词;|wk|wk∈Si∩wk∈Sj|表示同时出现两个句子中的同义词的数量;log(|Si|)+log(|Sj|)表示对句子中词的个数求对数后的求和,这样可以防止较长的句子在相似度计算上的优势;wji表示计算两个节点之间,即两个句子之间的相似度。
停止条件:达到以下两个条件的任意一个,则跳出该循环迭代,进入下一步骤。
①停止条件采用指定的迭代次数达到100次;
②关键词图中节点的值跟上次结果值的误差是否小于一个指定的极限值,该极限值取值为:0.0001。
(5)对节点权重进行倒叙排序(权重得分由大到小),按照点集V中的词进行排序(不改变点集中的词的顺序),从而得到最重要的top_t个单词,作为候选关键词(top-t根据使用过程或具体情境进行设置,先设置top_t=15)。
(6)由(5)得到最重要的top_t个单词,在原始文本中进行标记,并进行以下处理:
①若形成相邻词组且文中出现次数满足条件
Figure BDA0003420277680000081
则组合成多词关键词,暂定δ=0.8。
其中,(wi,wj)表示词wi,wj构成的词组,|wi|wi∈T|表示文本T中词wi出现的次数,|wj|wj∈T|表示文本T中词wj出现的次数,max(|wi|wi∈T|,|wj|wj∈T|)表示文本T中出现词wi,wj的较大值。例如,文本中由句子“石墨烯是一种用于保温的材料”,如果“石墨”和“烯”均属于候选关键词且满足条件
Figure BDA0003420277680000082
则组合成“石墨烯”作为关键词加入关键词序列。
②若形成相邻词组且文中出现次数满足条件
Figure BDA0003420277680000083
Figure BDA0003420277680000084
则组合成多词关键词和出现次数较多的词。例如,文本中如果top_t个关键词中包含“三维”、“模型”两个词,且“三维模型”为相邻词组,其中“三维”出现的次数为10,三维模型出现的次数为5,模型出现次数为0,则
Figure BDA0003420277680000085
Figure BDA0003420277680000086
则保留“三维模型”、“三维”两个关键词。
(7)由(6)进行多词关键词的处理后,得到关键词列表,记作Keynow=[keyn1,keyn2,…,keyni,…]。
其中,keyni表示当前技术成果列表Keynow的第i个关键词。
(8)去关键词,得到当前技术成果的最终关键词列表。
将得到的关键词列表,添加到已有关键词总列表中,刷新其出现在技术成果的描述中的篇数。已在关键词总列表中的关键词,即将该关键词对应的次数+1;若关键词总列表中无关键词,则在关键词总列表中增加该关键词,并记录其篇数为1。(关键词总列表,是目前所有技术成果中提取的关键词列表,及各关键词出现在技术成果描述中的篇数每出现在一篇技术成果中,篇数+1)。
1)由技术成果库建立关键词总列表
技术成果库,即提取初始关键词总列表的技术成果集合。技术成果库会根据平台积累的技术成果重新提取初始关键词总列表。根据实际情况,重置技术成果库,重新提取初始关键词总列表。
①初始化关键词总列表:Keytotal=[]
②循环提取技术成果库中的技术成果的关键词,具体见步骤二(1)-(6)。技术成果中的关键词提取完成后循环结束。得到关键词序列集合:
Key=[[k11,k12,…,k1i,…],[k21,k22,…,k2i,…],…[kj1,kj2,…,kji,…],…]
其中,kji表示技术成果库中的第j个技术的第i个关键词。
③确定技术成果库的关键词总列表。将关键词序列集合Key中的关键词去重,并记录其出现的次数,该次数与该关键词出现在技术成果中的篇数相对应。
记录初始关键词总列表为:
Keytotal=[key1,key2,…,keyi,…]
Keytimes=[t1,t2,…,ti,…]
其中,keyi表示关键词总列表中的第i个关键词,ti表示其对应的关键词总列表中的关键词keyi出现在技术成果中的总篇数,每出现在一篇技术成果中其对应篇数+1,与技术成果中出现该关键词的词频无关。
2)根据当前技术的关键词列表更新关键词总列表
若当前技术的关键词keyni,满足条件keyni∈Keytotal,则Keytotal中关键词keyni对应的关键词的对应次数+1。即假设keyni即为keyi,则更新ti:ti=ti+1;
若当前技术的关键词keyni,不满足条件keyni∈Keytotal,即Keytotal中增加该关键词,并记录其次数为1。即在关键词总列表的末尾增加该关键词。
Keytotal=[key1,key2,…,keyi,…,keyni]
Keytimes=[t1,t2,…,ti,…,1]
3)计算当前技术的关键词列表中关键词在关键词总列表中的比例
Figure BDA0003420277680000101
其中
Figure BDA0003420277680000102
表示关键词keyni在关键词总列表中对应的次数,N表示技术成果的总篇数。若r≥ε,则在当前的关键词列表Keynow中删除该关键词;若r<ε,则在当前的关键词列表Keynow中保留该关键词,暂时设置ε=0.8,后续根据实际的应用情况进行适当调整。
最终更新后的关键词列表Keynow为当前技术成果的关键词列表,即该技术成果的关键词序列。
步骤三:提取文摘
(1)根据二(4)计算的节点权重,进行倒叙排序,即按照权重得分由大到小排序,抽取文摘句,抽取重要度最高的top_n个句子作为候选文摘句。
(2)形成文摘,根据句子数或字数要求,从候选文摘句中抽取句子组成文摘(暂时采取句子数为3的方式,进行文摘提取,后期根据平台使用、用户反馈情况,进行进一步的调整和完善)。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
本领域技术人员还应当理解,结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性,上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件,取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用,以变通的方式实现所描述的功能,但是,这种实现决策不应解释为背离本公开的保护范围。
结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然,处理器和存储介质也可以作为分立组件存在于用户终端中。
对于软件实现,本申请中描述的技术可用执行本申请所述功能的模块(例如,过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内,也可以实现在处理器外,在后一种情况下,它经由各种手段以通信方式耦合到处理器,这些都是本领域中所公知的。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

Claims (4)

1.一种提取技术成果、技术需求的关键词和文摘的方法,其特征在于,所述方法包括如下步骤:
步骤一:文本预处理,包括对文本中的英文字符,进行统一处理,均采用小写进行表示;
步骤二:基于TextRank的方法提取关键词,具体包括:
(1)把给定的文本T按照完整句子进行分割,即
T=[S1,S2,…,Si,…,Sm]
(2)对于每个句子Si∈T,进行分词和词性标注处理,并过滤停用词,只保留指定词性的单词,即Si=[ti,1,ti,2,…,ti,j,…],其中ti,j∈Sj是保留后的候选关键词;
(3)构建候选关键词图G=(V,E),由点集合V和边集合E组成,E是V×V的子集,其中V为节点集,由(2)生成的候选关键词组成,然后采用共现关系构造任两点之间的边,两个节点之间存在边,仅当它们对应的词汇在长度为k的窗口中共现,k表示窗口大小,即最多共现k个单词,设置k=2;
(4)根据公式(1),迭代传播各节点的权重,直至达到停止条件;
Figure FDA0003420277670000011
其中,WS(Vi)表示句子Si的权重得分;wji表示两个句子Si、Sj之间边的权重,用两个句子的相似度表示;WS(Vj)表示上次迭代出的句子Sj的权重;d为阻尼系数,代表从图中某一节点指向其他任意节点的概率,取d=0.85;In(Vi)为指向Vi节点的集合,Out(Vj)为Vj节点指出的集合;各个节点的权重得分,初始化为1;
Figure FDA0003420277670000021
其中,Si,Sj表示两个句子;wk表示句子中的词;|wk|wk∈Si∩wk∈Sj|表示同时出现两个句子中的同义词的数量;log(|Si|)+log(|Sj|)表示对句子中词的个数求对数后的求和;wji表示计算两个节点之间,即两个句子之间的相似度;
(5)对节点权重进行倒叙排序,即按照权重得分由大到小排序,按照点集V中的词进行排序并且不改变点集中的词的顺序,从而得到最重要的top_t个单词,作为候选关键词,top-t根据使用过程或具体情境进行设置,先设置top_t=15;
(6)由(5)得到最重要的top_t个单词,在原始文本中进行标记,并进行以下处理:
①若形成相邻词组且文中出现次数满足条件
Figure FDA0003420277670000022
则组合成多词关键词,暂定δ=0.8;
其中,(wi,wj)表示词wi,wj构成的词组,|wi|wi∈T|表示文本T中词wi出现的次数,|wj|wj∈T|表示文本T中词wj出现的次数,max(|wi|wi∈T|,|wj|wj∈T|)表示文本T中出现词wi,wj的较大值;
②若形成相邻词组且文中出现次数满足条件
Figure FDA0003420277670000023
Figure FDA0003420277670000024
则组合成多词关键词和出现次数较多的词;
(7)由(6)进行多词关键词的处理后,得到关键词列表,记作Keynow=[keyn1,keyn2,…,keyni,…];
其中,keyni表示当前技术成果列表Keynow的第i个关键词;
(8)去关键词,得到当前技术成果的最终关键词列表;
将得到的关键词列表,添加到已有关键词总列表中,刷新其出现在技术成果的描述中的篇数;已在关键词总列表中的关键词,即将该关键词对应的次数+1;若关键词总列表中无关键词,则在关键词总列表中增加该关键词,并记录其篇数为1;其中的关键词总列表,是目前所有技术成果中提取的关键词列表,及各关键词出现在技术成果描述中的篇数每出现在一篇技术成果中,篇数+1;
步骤三:提取文摘
(1)根据二(4)计算的节点权重,进行倒叙排序,即按照权重得分由大到小排序,抽取文摘句,抽取重要度最高的top_n个句子作为候选文摘句;
(2)形成文摘,根据句子数或字数要求,从候选文摘句中抽取句子组成文摘。
2.如权利要求1所述的提取技术成果、技术需求的关键词和文摘的方法,其特征在于,所述步骤二第(4)步中所述的停止条件为:
停止条件:达到以下两个条件的任意一个,则跳出该循环迭代,进入下一步骤;
①停止条件采用指定的迭代次数达到100次;
②关键词图中节点的值跟上次结果值的误差是否小于一个指定的极限值,该极限值取值为:0.0001。
3.如权利要求1所述的提取技术成果、技术需求的关键词和文摘的方法,其特征在于,所述步骤二第(8)步的“去关键词,得到当前技术成果的最终关键词列表”,具体包括:
1)由技术成果库建立关键词总列表
技术成果库,即提取初始关键词总列表的技术成果集合,技术成果库会根据平台积累的技术成果重新提取初始关键词总列表,根据实际情况,重置技术成果库,重新提取初始关键词总列表;
①初始化关键词总列表:Keytotal=[];
②循环提取技术成果库中的技术成果的关键词,具体见步骤二(1)-(6);技术成果中的关键词提取完成后循环结束,得到关键词序列集合:
Key=[[k11,k12,…,k1i,…],[k21,k22,…,k2i,…],…[kj1,kj2,…,kji,…],…]
其中,kji表示技术成果库中的第j个技术的第i个关键词;
③确定技术成果库的关键词总列表;将关键词序列集合Key中的关键词去重,并记录其出现的次数,该次数与该关键词出现在技术成果中的篇数相对应;
记录初始关键词总列表为:
Keytotal=[key1,key2,…,keyi,…]
Keytimes=[t1,t2,…,ti,…]
其中,keyi表示关键词总列表中的第i个关键词,ti表示其对应的关键词总列表中的关键词keyi出现在技术成果中的总篇数,每出现在一篇技术成果中其对应篇数+1,与技术成果中出现该关键词的词频无关;
2)根据当前技术的关键词列表更新关键词总列表
若当前技术的关键词keyni,满足条件keyni∈Keytotal,则Keytotal中关键词keyni对应的关键词的对应次数+1;即假设keyni即为keyi,则更新ti:ti=ti+1;
若当前技术的关键词keyni,不满足条件keyni∈Keytotal,即Keytotal中增加该关键词,并记录其次数为1;即在关键词总列表的末尾增加该关键词;
Keytotal=[key1,key2,…,keyni]
Keytimes=[t1,t2,…,ti,…,1]
3)计算当前技术的关键词列表中关键词在关键词总列表中的比例
Figure FDA0003420277670000051
其中
Figure FDA0003420277670000052
表示关键词keyni在关键词总列表中对应的次数,N表示技术成果的总篇数;若r≥ε,则在当前的关键词列表Keynow中删除该关键词;若r<ε,则在当前的关键词列表Keynow中保留该关键词,暂时设置ε=0.8,后续根据实际的应用情况进行适当调整;
最终更新后的关键词列表Keynow为当前技术成果的关键词列表,即该技术成果的关键词序列。
4.如权利要求1或3所述的提取技术成果、技术需求的关键词和文摘的方法,其特征在于,所述步骤三第(2)步中,暂时采取句子数为3的方式,进行文摘提取,后期根据平台使用、用户反馈情况,进行调整和完善。
CN202111565133.XA 2021-12-20 2021-12-20 一种提取技术成果、技术需求的关键词和文摘的方法 Active CN114328826B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111565133.XA CN114328826B (zh) 2021-12-20 2021-12-20 一种提取技术成果、技术需求的关键词和文摘的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111565133.XA CN114328826B (zh) 2021-12-20 2021-12-20 一种提取技术成果、技术需求的关键词和文摘的方法

Publications (2)

Publication Number Publication Date
CN114328826A true CN114328826A (zh) 2022-04-12
CN114328826B CN114328826B (zh) 2024-06-11

Family

ID=81053155

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111565133.XA Active CN114328826B (zh) 2021-12-20 2021-12-20 一种提取技术成果、技术需求的关键词和文摘的方法

Country Status (1)

Country Link
CN (1) CN114328826B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115563250A (zh) * 2022-10-10 2023-01-03 江苏国光信息产业股份有限公司 一种医疗自助语音服务设备及方法

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398814A (zh) * 2007-09-26 2009-04-01 北京大学 一种同时抽取文档摘要和关键词的方法及系统
JP2009146397A (ja) * 2007-11-19 2009-07-02 Omron Corp 重要文抽出方法、重要文抽出装置、重要文抽出プログラムおよび記録媒体
US20110060747A1 (en) * 2009-07-02 2011-03-10 Battelle Memorial Institute Rapid Automatic Keyword Extraction for Information Retrieval and Analysis
CN105843795A (zh) * 2016-03-21 2016-08-10 华南理工大学 基于主题模型的文档关键词抽取方法及其系统
WO2017084267A1 (zh) * 2015-11-18 2017-05-26 乐视控股(北京)有限公司 一种关键词提取方法和装置
CN107832457A (zh) * 2017-11-24 2018-03-23 国网山东省电力公司电力科学研究院 基于TextRank算法的输变电设备缺陷词库建立方法及系统
CN108287825A (zh) * 2018-01-05 2018-07-17 中译语通科技股份有限公司 一种术语识别抽取方法及系统
CN109033066A (zh) * 2018-06-04 2018-12-18 浪潮软件股份有限公司 一种摘要形成方法及装置
CN109255118A (zh) * 2017-07-11 2019-01-22 普天信息技术有限公司 一种关键词提取方法及装置
CN109815400A (zh) * 2019-01-23 2019-05-28 四川易诚智讯科技有限公司 基于长文本的人物兴趣提取方法
CN110008313A (zh) * 2019-04-11 2019-07-12 重庆华龙网海数科技有限公司 一种抽取式无监督文本摘要方法
KR20200042767A (ko) * 2018-10-16 2020-04-24 주식회사 포스코아이씨티 키워드 추출 및 요약문 생성 시스템 및 방법
US20200250376A1 (en) * 2019-12-13 2020-08-06 Beijing Xiaomi Intelligent Technology Co., Ltd. Keyword extraction method, keyword extraction device and computer-readable storage medium
CN112307302A (zh) * 2020-09-29 2021-02-02 青岛檬豆网络科技有限公司 基于关键词提取的新技术查询推荐方法
CN112307178A (zh) * 2020-09-29 2021-02-02 青岛檬豆网络科技有限公司 基于技术需求和新技术相似度的查询推荐方法
CN112948543A (zh) * 2021-02-20 2021-06-11 河海大学 基于加权TextRank的多语言多文档摘要抽取方法
US20210304749A1 (en) * 2020-03-28 2021-09-30 Tata Consultancy Services Limited Method and system for extraction of key-terms and synonyms for the key-terms
KR20210146832A (ko) * 2020-05-27 2021-12-06 정치훈 토픽 키워드의 추출 장치 및 방법

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398814A (zh) * 2007-09-26 2009-04-01 北京大学 一种同时抽取文档摘要和关键词的方法及系统
JP2009146397A (ja) * 2007-11-19 2009-07-02 Omron Corp 重要文抽出方法、重要文抽出装置、重要文抽出プログラムおよび記録媒体
US20110060747A1 (en) * 2009-07-02 2011-03-10 Battelle Memorial Institute Rapid Automatic Keyword Extraction for Information Retrieval and Analysis
WO2017084267A1 (zh) * 2015-11-18 2017-05-26 乐视控股(北京)有限公司 一种关键词提取方法和装置
CN105843795A (zh) * 2016-03-21 2016-08-10 华南理工大学 基于主题模型的文档关键词抽取方法及其系统
CN109255118A (zh) * 2017-07-11 2019-01-22 普天信息技术有限公司 一种关键词提取方法及装置
CN107832457A (zh) * 2017-11-24 2018-03-23 国网山东省电力公司电力科学研究院 基于TextRank算法的输变电设备缺陷词库建立方法及系统
CN108287825A (zh) * 2018-01-05 2018-07-17 中译语通科技股份有限公司 一种术语识别抽取方法及系统
CN109033066A (zh) * 2018-06-04 2018-12-18 浪潮软件股份有限公司 一种摘要形成方法及装置
KR20200042767A (ko) * 2018-10-16 2020-04-24 주식회사 포스코아이씨티 키워드 추출 및 요약문 생성 시스템 및 방법
CN109815400A (zh) * 2019-01-23 2019-05-28 四川易诚智讯科技有限公司 基于长文本的人物兴趣提取方法
CN110008313A (zh) * 2019-04-11 2019-07-12 重庆华龙网海数科技有限公司 一种抽取式无监督文本摘要方法
US20200250376A1 (en) * 2019-12-13 2020-08-06 Beijing Xiaomi Intelligent Technology Co., Ltd. Keyword extraction method, keyword extraction device and computer-readable storage medium
US20210304749A1 (en) * 2020-03-28 2021-09-30 Tata Consultancy Services Limited Method and system for extraction of key-terms and synonyms for the key-terms
KR20210146832A (ko) * 2020-05-27 2021-12-06 정치훈 토픽 키워드의 추출 장치 및 방법
CN112307302A (zh) * 2020-09-29 2021-02-02 青岛檬豆网络科技有限公司 基于关键词提取的新技术查询推荐方法
CN112307178A (zh) * 2020-09-29 2021-02-02 青岛檬豆网络科技有限公司 基于技术需求和新技术相似度的查询推荐方法
CN112948543A (zh) * 2021-02-20 2021-06-11 河海大学 基于加权TextRank的多语言多文档摘要抽取方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
于劲松等: "TextRank抽取摘要技术在公文服务(OA系统)中的应用", 办公自动化, vol. 25, no. 17, 1 September 2020 (2020-09-01), pages 8 - 10 *
关浩华: "基于语音分析的智能质检关键词提取方法设计", 自动化与仪器仪表, no. 07, 25 July 2017 (2017-07-25), pages 106 - 108 *
李敏等: "基于关键词抽取的网络博客自动文摘算法的研究", 成都信息工程大学学报, vol. 35, no. 02, 15 April 2020 (2020-04-15), pages 158 - 162 *
马亮等: "以关键词抽取为核心的文摘句选择策略", 中文信息学报, vol. 22, no. 06, 15 November 2008 (2008-11-15), pages 50 - 54 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115563250A (zh) * 2022-10-10 2023-01-03 江苏国光信息产业股份有限公司 一种医疗自助语音服务设备及方法

Also Published As

Publication number Publication date
CN114328826B (zh) 2024-06-11

Similar Documents

Publication Publication Date Title
Ghoshal et al. Hidden Markov models for automatic annotation and content-based retrieval of images and video
CN113268995B (zh) 中文学术关键词抽取方法、装置和存储介质
US20130018650A1 (en) Selection of Language Model Training Data
CN109657053B (zh) 多文本摘要生成方法、装置、服务器及存储介质
CN111177365A (zh) 一种基于图模型的无监督自动文摘提取方法
CN107832306A (zh) 一种基于Doc2vec的相似实体挖掘方法
CN107895000B (zh) 一种基于卷积神经网络的跨领域语义信息检索方法
CN112711948A (zh) 一种中文句子的命名实体识别方法及装置
US8909514B2 (en) Unsupervised learning using global features, including for log-linear model word segmentation
JP2002215619A (ja) 翻訳文書からの翻訳文抽出方法
Li et al. A generalized hidden markov model with discriminative training for query spelling correction
CN112347758B (zh) 文本摘要的生成方法、装置、终端设备及存储介质
CN107092675B (zh) 一种基于统计和浅层语言分析的维吾尔文语义串抽取方法
CN110134950B (zh) 一种字词结合的文本自动校对方法
CN116050397B (zh) 一种长文本摘要生成方法、系统、设备及存储介质
CN114154487A (zh) 文本自动纠错方法、装置、电子设备及存储介质
CN109189907A (zh) 一种基于语义匹配的检索方法及装置
CN114328826A (zh) 一种提取技术成果、技术需求的关键词和文摘的方法
Hu et al. Retrieval-based language model adaptation for handwritten Chinese text recognition
CN116881536A (zh) 搜索引擎下拉提示词提取方法及系统
WO2012134396A1 (en) A method, an apparatus and a computer-readable medium for indexing a document for document retrieval
Li Query spelling correction
CN114969324A (zh) 基于主题词特征扩展的中文新闻标题分类方法
Üstün et al. Incorporating word embeddings in unsupervised morphological segmentation
CN112800211A (zh) 一种基于TextRank算法的法律文书中犯罪过程关键信息抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant