CN114328826A

CN114328826A - 一种提取技术成果、技术需求的关键词和文摘的方法

Info

Publication number: CN114328826A
Application number: CN202111565133.XA
Authority: CN
Inventors: 郑鑫; 杨尚伟; 逄凯; 徐楠楠; 陈丽娜
Original assignee: Qingdao Mengdou Network Technology Co ltd
Current assignee: Qingdao Mengdou Network Technology Co ltd
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2022-04-12
Anticipated expiration: 2041-12-20
Also published as: CN114328826B

Abstract

一种提取技术成果、技术需求的关键词和文摘的方法，所述方法包括如下步骤：步骤一：文本预处理，包括对文本中的英文字符，进行统一处理，均采用小写进行表示；步骤二：基于TextRank的方法提取关键词；步骤三：提取文摘。本发明采用TextRank的方法提取技术成果、技术需求的关键词，来描述其主要内容或主要诉求。同时提取技术成果、技术需求的文摘，便于阅读、查询、搜索等功能。能够通过“关键词”的方式，简洁、清晰的描述技术成果、技术需求。加快用户查询、搜索技术成果或技术需求时的时间和效率。对技术成果或技术需求提取关键词存储后，在后续的查询和匹配方面，能够加快查询和匹配的速度，解决部分词库不全导致的关键词不完整的情况。

Description

一种提取技术成果、技术需求的关键词和文摘的方法

技术领域

本发明涉及电子商务技术领域，具体涉及一种提取技术成果、技术需求的关键词和文摘的方法。

背景技术

在当今信息发达的时代背景下，越来越多的信息集聚，为了加强信息的管理和利用，出现了利用关键词来整体描述信息的形式，为这种信息资源的主体和内容，以更简洁、更有效的方式描述出来。以“关键词”的方式管理信息资源，能够提高对信息资源的管理能力，有利于信息资源的发现、传播、查询和利用。

通过关键词描述技术成果、技术需求，能够体现技术成果的主要研究方向或主要解决的主要内容，体现技术需求的主要需求方向或主要需要解决的主要问题。从技术成果、技术需求本身的描述内容进行关键词描述，能够在技术成果、技术需求的数量较多时，快速抓取技术成果、技术需求描述的主要内容。本发明通过“关键词”的方式标注技术成果、技术需求的内容，对技术成果、技术需求通过“关键词”的形式进行使用。

发明内容

本发明的目的是：针对背景技术描述的问题，本发明提供一种提取技术成果、技术需求的关键词和文摘的方法，本发明采用TextRank的方法提取技术成果、技术需求的关键词，来描述其主要内容或主要诉求。同时提取技术成果、技术需求的文摘，便于阅读、查询、搜索等功能。

为了解决上述问题，本发明所采用的技术方案是：

一种提取技术成果、技术需求的关键词和文摘的方法，其特征在于，所述方法包括如下步骤：

步骤一：文本预处理，包括对文本中的英文字符，进行统一处理，均采用小写进行表示；

步骤二：基于TextRank的方法提取关键词，具体包括：

(1)把给定的文本T按照完整句子进行分割，即

T＝[S₁,S₂,…,S_m]

(2)对于每个句子S_i∈T，进行分词和词性标注处理，并过滤停用词，只保留指定词性的单词，即S_i＝[t_i,1,t_i,2,…,t_i,j,…]，其中t_i,j∈S_j是保留后的候选关键词；

(3)构建候选关键词图G＝(V,E)，由点集合V和边集合E组成,E是V×V的子集，其中V为节点集，由(2)生成的候选关键词组成，然后采用共现关系构造任两点之间的边，两个节点之间存在边，仅当它们对应的词汇在长度为k的窗口中共现，k表示窗口大小，即最多共现k个单词，设置k＝2；

(4)根据公式(1)，迭代传播各节点的权重，直至达到停止条件；

其中，WS(V_i)表示句子S_i的权重得分；w_ji表示两个句子S_i、S_j之间边的权重，用两个句子的相似度表示；WS(V_j)表示上次迭代出的句子S_j的权重；d为阻尼系数，代表从图中某一节点指向其他任意节点的概率，取d＝0.85；In(V_i)为指向V_i节点的集合，Out(V_j)为V_j节点指出的集合；各个节点的权重得分，初始化为1；

其中，S_i，S_j表示两个句子；w_k表示句子中的词；|w_k|w_k∈S_i∩w_k∈S_j|表示同时出现两个句子中的同义词的数量；log(|S_i|)+log(|S_j|)表示对句子中词的个数求对数后的求和；w_ji表示计算两个节点之间，即两个句子之间的相似度；

(5)对节点权重进行倒叙排序，即按照权重得分由大到小排序，按照点集V中的词进行排序并且不改变点集中的词的顺序，从而得到最重要的top_t个单词，作为候选关键词，top-t根据使用过程或具体情境进行设置，先设置top_t＝15；

(6)由(5)得到最重要的top_t个单词，在原始文本中进行标记，并进行以下处理：

①若形成相邻词组且文中出现次数满足条件

则组合成多词关键词，暂定δ＝0.8；

其中，(w_i,w_j)表示词w_i,w_j构成的词组，|w_i|w_i∈T|表示文本T中词w_i出现的次数，|w_j|w_j∈T|表示文本T中词w_j出现的次数，max(|w_i|w_i∈T|,|w_j|w_j∈T|)表示文本T中出现词w_i,w_j的较大值；

②若形成相邻词组且文中出现次数满足条件

则组合成多词关键词和出现次数较多的词；

(7)由(6)进行多词关键词的处理后，得到关键词列表，记作Key_now＝[key_n1,key_n2,…,key_ni,…]；

其中，key_ni表示当前技术成果列表Key_now的第i个关键词；

(8)去关键词，得到当前技术成果的最终关键词列表；

将得到的关键词列表，添加到已有关键词总列表中，刷新其出现在技术成果的描述中的篇数；已在关键词总列表中的关键词，即将该关键词对应的次数+1；若关键词总列表中无关键词，则在关键词总列表中增加该关键词，并记录其篇数为1；其中的关键词总列表，是目前所有技术成果中提取的关键词列表，及各关键词出现在技术成果描述中的篇数每出现在一篇技术成果中，篇数+1；

步骤三：提取文摘

(1)根据二(4)计算的节点权重，进行倒叙排序，即按照权重得分由大到小排序，抽取文摘句，抽取重要度最高的top_n个句子作为候选文摘句；

(2)形成文摘，根据句子数或字数要求，从候选文摘句中抽取句子组成文摘。

进一步的，所述步骤二第(4)步中所述的停止条件为：

停止条件：达到以下两个条件的任意一个，则跳出该循环迭代，进入下一步骤；

①停止条件采用指定的迭代次数达到100次；

②关键词图中节点的值跟上次结果值的误差是否小于一个指定的极限值，该极限值取值为：0.0001。

进一步的，所述步骤二第(8)步的“去关键词，得到当前技术成果的最终关键词列表”，具体包括：

1)由技术成果库建立关键词总列表

技术成果库，即提取初始关键词总列表的技术成果集合，技术成果库会根据平台积累的技术成果重新提取初始关键词总列表，根据实际情况，重置技术成果库，重新提取初始关键词总列表；

①初始化关键词总列表：Key_total＝[]；

②循环提取技术成果库中的技术成果的关键词，具体见步骤二(1)-(6)；技术成果中的关键词提取完成后循环结束，得到关键词序列集合：

Key＝[[k₁₁,k₁₂,…,k_1i,…],[k₂₁,k₂₂,…,k_2i,…],…[k_j1,k_j2,…,k_ji,…],…]

其中，k_ji表示技术成果库中的第j个技术的第i个关键词；

③确定技术成果库的关键词总列表；将关键词序列集合Key中的关键词去重，并记录其出现的次数，该次数与该关键词出现在技术成果中的篇数相对应；

记录初始关键词总列表为：

Key_total＝[key₁,key₂,…,key_i,…]

Key_times＝[t₁,t₂,…,t_i,…]

其中，key_i表示关键词总列表中的第i个关键词,t_i表示其对应的关键词总列表中的关键词key_i出现在技术成果中的总篇数，每出现在一篇技术成果中其对应篇数+1，与技术成果中出现该关键词的词频无关；

2)根据当前技术的关键词列表更新关键词总列表

若当前技术的关键词key_ni，满足条件key_ni∈Key_total，则Key_total中关键词key_ni对应的关键词的对应次数+1；即假设key_ni即为key_i,则更新t_i：t_i＝t_i+1；

若当前技术的关键词key_ni，不满足条件key_ni∈Key_total，即Key_total中增加该关键词，并记录其次数为1；即在关键词总列表的末尾增加该关键词；

Key_total＝[key₁,key₂,…,key_i,…,key_ni]

Key_times＝[t₁,t₂,…,t_i,…,1]

3)计算当前技术的关键词列表中关键词在关键词总列表中的比例

其中

表示关键词key_ni在关键词总列表中对应的次数，N表示技术成果的总篇数；若r≥ε，则在当前的关键词列表Key_now中删除该关键词；若r<ε，则在当前的关键词列表Key_now中保留该关键词，暂时设置ε＝0.8，后续根据实际的应用情况进行适当调整；

最终更新后的关键词列表Key_now为当前技术成果的关键词列表，即该技术成果的关键词序列。

进一步的，所述步骤三第(2)步中，暂时采取句子数为3的方式，进行文摘提取，后期根据平台使用、用户反馈情况，进行调整和完善。

本发明实施例提供的上述技术方案的有益效果至少包括：本发明的提取技术成果、技术需求的关键词和文摘的方法的有益效果包括：

1、能够通过“关键词”的方式，简洁、清晰的描述技术成果、技术需求。

2、加快用户查询、搜索技术成果或技术需求时的时间和效率。

3、对技术成果或技术需求提取关键词存储后，在后续的查询和匹配方面，能够加快查询和匹配的速度。

4、能够解决部分词库不全导致的关键词不完整的情况，如由于词库补签，导致关键词“石墨烯”提取成“石墨”、“烯”不完整的情况。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书中所特别指出的特征来实现和获得。

具体实施例

下面将更详细地描述本公开的示例性实施例。应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供一种提取技术成果、技术需求的关键词和文摘的方法，所述方法主要包括：步骤一、文本预处理：步骤二、基于TextRank的方法提取关键词；步骤三：提取文摘。具体方法如下所述。

步骤一：文本预处理，包括对文本中的英文字符，进行统一处理，均采用小写进行表示。

步骤二：基于TextRank的方法提取关键词：具体包括：

(1)把给定的文本T按照完整句子进行分割，即

T＝[S₁,S₂,…,S_m]

(2)对于每个句子S_i∈T，进行分词和词性标注处理，并过滤停用词，只保留指定词性的单词，如名词、动词、形容词，即S_i＝[t_i,1,t_i,2,…,t_i,j,…]，其中t_i,j∈S_j是保留后的候选关键词。

(3)构建候选关键词图G＝(V,E)，由点集合V和边集合E组成,E是V×V的子集。其中V为节点集，由(2)生成的候选关键词组成，然后采用共现关系(co-occurrence)构造任两点之间的边，两个节点之间存在边，仅当它们对应的词汇在长度为k的窗口中共现，k表示窗口大小，即最多共现k个单词，设置k＝2。

(4)根据公式(1)，迭代传播各节点的权重，直至达到停止条件。

其中，WS(V_i)表示句子S_i的权重得分；w_ji表示两个句子S_i、S_j之间边的权重，用两个句子的相似度表示；WS(V_j)表示上次迭代出的句子S_j的权重。d为阻尼系数，代表从图中某一节点指向其他任意节点的概率，一般取0.85，本发明中确定取d＝0.85。In(V_i)为指向V_i节点的集合，Out(V_j)为V_j节点指出的集合。各个节点的权重得分，初始化为1。

其中，S_i，S_j表示两个句子；w_k表示句子中的词；|w_k|w_k∈S_i∩w_k∈S_j|表示同时出现两个句子中的同义词的数量；log(|S_i|)+log(|S_j|)表示对句子中词的个数求对数后的求和，这样可以防止较长的句子在相似度计算上的优势；w_ji表示计算两个节点之间，即两个句子之间的相似度。

停止条件：达到以下两个条件的任意一个，则跳出该循环迭代，进入下一步骤。

①停止条件采用指定的迭代次数达到100次；

(5)对节点权重进行倒叙排序(权重得分由大到小)，按照点集V中的词进行排序(不改变点集中的词的顺序)，从而得到最重要的top_t个单词，作为候选关键词(top-t根据使用过程或具体情境进行设置，先设置top_t＝15)。

①若形成相邻词组且文中出现次数满足条件

则组合成多词关键词，暂定δ＝0.8。

其中，(w_i,w_j)表示词w_i,w_j构成的词组，|w_i|w_i∈T|表示文本T中词w_i出现的次数，|w_j|w_j∈T|表示文本T中词w_j出现的次数，max(|w_i|w_i∈T|,|w_j|w_j∈T|)表示文本T中出现词w_i,w_j的较大值。例如，文本中由句子“石墨烯是一种用于保温的材料”，如果“石墨”和“烯”均属于候选关键词且满足条件

则组合成“石墨烯”作为关键词加入关键词序列。

②若形成相邻词组且文中出现次数满足条件

则组合成多词关键词和出现次数较多的词。例如，文本中如果top_t个关键词中包含“三维”、“模型”两个词，且“三维模型”为相邻词组，其中“三维”出现的次数为10，三维模型出现的次数为5，模型出现次数为0，则

则保留“三维模型”、“三维”两个关键词。

(7)由(6)进行多词关键词的处理后，得到关键词列表，记作Key_now＝[key_n1,key_n2,…,key_ni,…]。

其中，key_ni表示当前技术成果列表Key_now的第i个关键词。

(8)去关键词，得到当前技术成果的最终关键词列表。

将得到的关键词列表，添加到已有关键词总列表中，刷新其出现在技术成果的描述中的篇数。已在关键词总列表中的关键词，即将该关键词对应的次数+1；若关键词总列表中无关键词，则在关键词总列表中增加该关键词，并记录其篇数为1。(关键词总列表，是目前所有技术成果中提取的关键词列表，及各关键词出现在技术成果描述中的篇数每出现在一篇技术成果中，篇数+1)。

1)由技术成果库建立关键词总列表

技术成果库，即提取初始关键词总列表的技术成果集合。技术成果库会根据平台积累的技术成果重新提取初始关键词总列表。根据实际情况，重置技术成果库，重新提取初始关键词总列表。

①初始化关键词总列表：Key_total＝[]

②循环提取技术成果库中的技术成果的关键词，具体见步骤二(1)-(6)。技术成果中的关键词提取完成后循环结束。得到关键词序列集合：

其中，k_ji表示技术成果库中的第j个技术的第i个关键词。

③确定技术成果库的关键词总列表。将关键词序列集合Key中的关键词去重，并记录其出现的次数，该次数与该关键词出现在技术成果中的篇数相对应。

记录初始关键词总列表为：

Key_total＝[key₁,key₂,…,key_i,…]

Key_times＝[t₁,t₂,…,t_i,…]

其中，key_i表示关键词总列表中的第i个关键词,t_i表示其对应的关键词总列表中的关键词key_i出现在技术成果中的总篇数，每出现在一篇技术成果中其对应篇数+1，与技术成果中出现该关键词的词频无关。

2)根据当前技术的关键词列表更新关键词总列表

若当前技术的关键词key_ni，满足条件key_ni∈Key_total，则Key_total中关键词key_ni对应的关键词的对应次数+1。即假设key_ni即为key_i,则更新t_i：t_i＝t_i+1；

若当前技术的关键词key_ni，不满足条件key_ni∈Key_total，即Key_total中增加该关键词，并记录其次数为1。即在关键词总列表的末尾增加该关键词。

Key_total＝[key₁,key₂,…,key_i,…,key_ni]

Key_times＝[t₁,t₂,…,t_i,…,1]

其中

表示关键词key_ni在关键词总列表中对应的次数，N表示技术成果的总篇数。若r≥ε，则在当前的关键词列表Key_now中删除该关键词；若r<ε，则在当前的关键词列表Key_now中保留该关键词，暂时设置ε＝0.8，后续根据实际的应用情况进行适当调整。

步骤三：提取文摘

(1)根据二(4)计算的节点权重，进行倒叙排序，即按照权重得分由大到小排序，抽取文摘句，抽取重要度最高的top_n个句子作为候选文摘句。

(2)形成文摘，根据句子数或字数要求，从候选文摘句中抽取句子组成文摘(暂时采取句子数为3的方式，进行文摘提取，后期根据平台使用、用户反馈情况，进行进一步的调整和完善)。

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。

在上述的详细描述中，各种特征一起组合在单个的实施方案中，以简化本公开。不应该将这种公开方法解释为反映了这样的意图，即，所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反，如所附的权利要求书所反映的那样，本发明处于比所公开的单个实施方案的全部特征少的状态。因此，所附的权利要求书特此清楚地被并入详细描述中，其中每项权利要求独自作为本发明单独的优选实施方案。

本领域技术人员还应当理解，结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性，上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件，取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用，以变通的方式实现所描述的功能，但是，这种实现决策不应解释为背离本公开的保护范围。

结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然，处理器和存储介质也可以作为分立组件存在于用户终端中。

对于软件实现，本申请中描述的技术可用执行本申请所述功能的模块(例如，过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内，也可以实现在处理器外，在后一种情况下，它经由各种手段以通信方式耦合到处理器，这些都是本领域中所公知的。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括，”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

Claims

1.一种提取技术成果、技术需求的关键词和文摘的方法，其特征在于，所述方法包括如下步骤：

步骤二：基于TextRank的方法提取关键词，具体包括：

(1)把给定的文本T按照完整句子进行分割，即

T＝[S₁，S₂，…，S_i，…，S_m]

(2)对于每个句子S_i∈T，进行分词和词性标注处理，并过滤停用词，只保留指定词性的单词，即S_i＝[t_i，1，t_i，2，…，t_i，j，…]，其中t_i，j∈S_j是保留后的候选关键词；

(3)构建候选关键词图G＝(V，E)，由点集合V和边集合E组成，E是V×V的子集，其中V为节点集，由(2)生成的候选关键词组成，然后采用共现关系构造任两点之间的边，两个节点之间存在边，仅当它们对应的词汇在长度为k的窗口中共现，k表示窗口大小，即最多共现k个单词，设置k＝2；

①若形成相邻词组且文中出现次数满足条件

则组合成多词关键词，暂定δ＝0.8；

其中，(w_i，w_j)表示词w_i，w_j构成的词组，|w_i|w_i∈T|表示文本T中词w_i出现的次数，|w_j|w_j∈T|表示文本T中词w_j出现的次数，max(|w_i|w_i∈T|，|w_j|w_j∈T|)表示文本T中出现词w_i，w_j的较大值；

②若形成相邻词组且文中出现次数满足条件

则组合成多词关键词和出现次数较多的词；

(7)由(6)进行多词关键词的处理后，得到关键词列表，记作Key_now＝[key_n1，key_n2，…，key_ni，…]；

其中，key_ni表示当前技术成果列表Key_now的第i个关键词；

(8)去关键词，得到当前技术成果的最终关键词列表；

步骤三：提取文摘

2.如权利要求1所述的提取技术成果、技术需求的关键词和文摘的方法，其特征在于，所述步骤二第(4)步中所述的停止条件为：

①停止条件采用指定的迭代次数达到100次；

3.如权利要求1所述的提取技术成果、技术需求的关键词和文摘的方法，其特征在于，所述步骤二第(8)步的“去关键词，得到当前技术成果的最终关键词列表”，具体包括：

1)由技术成果库建立关键词总列表

①初始化关键词总列表：Key_total＝[]；

Key＝[[k₁₁，k₁₂，…，k_1i，…]，[k₂₁，k₂₂，…，k_2i，…]，…[k_j1，k_j2，…，k_ji，…]，…]

其中，k_ji表示技术成果库中的第j个技术的第i个关键词；

记录初始关键词总列表为：

Key_total＝[key₁，key₂，…，key_i，…]

Key_times＝[t₁，t₂，…，t_i，…]

其中，key_i表示关键词总列表中的第i个关键词，t_i表示其对应的关键词总列表中的关键词key_i出现在技术成果中的总篇数，每出现在一篇技术成果中其对应篇数+1，与技术成果中出现该关键词的词频无关；

2)根据当前技术的关键词列表更新关键词总列表

若当前技术的关键词key_ni，满足条件key_ni∈Key_total，则Key_total中关键词key_ni对应的关键词的对应次数+1；即假设key_ni即为key_i，则更新t_i：t_i＝t_i+1；

Key_total＝[key₁，key₂，…，key_ni]

Key_times＝[t₁，t₂，…，t_i，…，1]

其中

表示关键词key_ni在关键词总列表中对应的次数，N表示技术成果的总篇数；若r≥ε，则在当前的关键词列表Key_now中删除该关键词；若r＜ε，则在当前的关键词列表Key_now中保留该关键词，暂时设置ε＝0.8，后续根据实际的应用情况进行适当调整；

4.如权利要求1或3所述的提取技术成果、技术需求的关键词和文摘的方法，其特征在于，所述步骤三第(2)步中，暂时采取句子数为3的方式，进行文摘提取，后期根据平台使用、用户反馈情况，进行调整和完善。