CN116167369A

CN116167369A - 一种文本关键词提取方法及装置

Info

Publication number: CN116167369A
Application number: CN202310207350.4A
Authority: CN
Inventors: 杨喆; 李全忠
Original assignee: Puqiang Times Zhuhai Hengqin Information Technology Co ltd
Current assignee: Puqiang Times Zhuhai Hengqin Information Technology Co ltd
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-05-26

Abstract

本发明公开了一种文本关键词提取方法及装置，涉及数据处理技术领域，包括：对文本进行分词处理；根据每个词与业务关键词词库中每个词向量的余弦距离的平均值和每个词的词频‑逆文本频率值，计算每个词的重要程度；根据文本中任意两个词出现的次数和共现时两个词的间隔距离，计算两个词的统计学相关度和两个词之间的语义相关度；根据上述结果，计算词图中边的权重值；进行词图的迭代计算，直至词图中每个词的重要程度变化小于预设阈值时中止迭代，将重要程度排名靠前的N个词作为待处理的文本的关键词。本发明增加了与外部重要业务词的相似度作为补充重要程度，加入共现距离和词向量的余弦相似度作为补充，有效提高了文本关键词的识别效果。

Description

一种文本关键词提取方法及装置

技术领域

本发明涉及数据处理技术领域，特别涉及一种文本关键词提取方法及装置。

背景技术

为了有效的从文本中抽取关键词，实现对文本数据的准确分析，现有技术通常基于TextRank的词图关键词提取技术，通过将词和词之间的关系用图表示出来，其中词的权重即为词的重要程度，边的权重即为词之间的相关程度。通过TextRank算法计算收敛后，就可以获取权重较高的词作为关键词。例如，CN115577082A公开了一种文档关键词的提取方法，其排序算法采用的是TextRank算法，候选关键词的权重值采用的是词频-逆文本频率指数和信息熵相结合的方法。

上述现有技术一定程度上提高了文本关键词提取的准确度，然而由于关键词的权重计算未考虑到已有的业务知识(即外部重要业务词)，表达含义不够丰富，当文本较小时，词的权重会有偏差。此外，词图的边的权重通常采用基于共现次数的统计方法表示，既没有考虑共现窗口中不同距离的共现也对词的相关程度有影响，又没有考虑到词的语义相关度，因此词图边的表达不够准确。上述种种缺陷导致现有技术对文本关键词的提取效果依然存在巨大的提升空间。

发明内容

鉴于现有技术中的上述缺陷或不足，本发明提供了一种文本关键词提取方法及装置，以全部或部分的解决上述提到的技术问题。

本发明的一个方面，提供了一种文本关键词提取方法，包括：

对待处理的文本进行分词处理；

根据文本中的每个词与业务关键词词库中每个词向量的余弦距离的平均值和每个词的词频-逆文本频率值，计算文本中每个词的重要程度；

根据文本中任意两个词出现的次数和共现时两个词的间隔距离，计算两个词的统计学相关度和两个词之间的语义相关度；当两个词的共现次数超过预设值时，两个词的关系构成词图中的一条边，根据两个词的统计学相关度和两个词的语义相关度，计算词图中该边的权重值；

使用Textrank算法进行词图的迭代计算，直至词图中每个词的重要程度变化小于预设阈值时中止迭代，将重要程度排名靠前的N个词作为所述待处理的文本的关键词。

进一步的，根据下式计算文本中每个词的重要程度：

其中，cosine_distance()表示余弦距离，word2vec()表示词的词向量，tfidf()表示词频-逆文本频率值，α、β为比例参数，m为业务关键词词库中的关键词数量，v表示文本中的词，v'_i表示业务关键词词库中的第i个关键词。

进一步的，根据下式计算文本中两个词的统计学相关度:

其中，Dis_i表示第i次共现时两词的距离，n表示两词的总的共现次数，J(v₁,v₂)表示v₁和v₂两个词在共现窗口内的共现次数，tf(v₁)表示词v₁出现的次数，tf(v₂)表示词v₂出现的次数。

进一步的，根据下式计算文本中两个词之间的语义相关度：

W_sim(v₁,v₂)＝cosine_distance((word2vec(v₁),word2vec(v₂)))

其中，cosine_distance()表示余弦距离，word2vec(v₁)表示词v₁的词向量，word2vec(v₂)表示词v₂的词向量。

进一步的，根据下式计算词图中边的权重值:

W(v₁,v₂)＝γW_sim(v₁,v₂)+δW_cooccur(v₁,v₂)

其中，W_sim(v₁,v₂)表示文本中两个词之间的语义相关度，W_cooccur(v₁,v₂)表示文本中两个词的统计学相关度，γ、δ为比例参数。

进一步的，根据下式进行词图的迭代计算:

其中，S(v_i)表示文本中第i个词的重要程度，S(v_j)表示文本中第j个词的重要程度，d表示阻尼系数，W_ji表示词i和词j的相关度，W_jk表示词j和词k的相关度，out_i表示与词图中的词i相连的所有词，out_j表示与词图中的词j相连的所有词，v_k表示和词j相连的词k。

本发明的另一方面，还提供了一种文本关键词提取装置，包括：

第一模块，被配置为对待处理的文本进行分词处理；

第二模块，被配置为根据文本中的每个词与业务关键词词库中每个词向量的余弦距离的平均值和每个词的词频-逆文本频率值，计算文本中每个词的重要程度；

第三模块，被配置为根据文本中任意两个词出现的次数和共现时两个词的间隔距离，计算两个词的统计学相关度和两个词之间的语义相关度；当两个词的共现次数超过预设值时，两个词的关系构成词图中的一条边，根据两个词的统计学相关度和两个词的语义相关度，计算词图中该边的权重值；

第四模块，被配置为使用Textrank算法进行词图的迭代计算，直至词图中每个词的重要程度变化小于预设阈值时中止迭代，将重要程度排名靠前的N个词作为所述待处理的文本的关键词。

进一步的，第二模块根据下式计算文本中每个词的重要程度：

进一步的，第三模块根据下式计算文本中两个词的统计学相关度:

进一步的，所述第三模块根据下式计算文本中两个词之间的语义相关度：

W_sim(v₁,v₂)＝cosine_distance((word2vec(v₁),word2vec(v₂)))

其中，cosine_distance()表示余弦距离，word2vec(v₁)表示词v₁的词向量，word2vec(v₂)表示词v₂的词向量；

所述第三模块根据下式计算词图中边的权重值:

W(v₁,v₂)＝γW_sim(v₁,v₂)+δW_cooccur(v₁,v₂)

其中，W_sim(v₁,v₂)表示文本中两个词之间的语义相关度，W_cooccur(v₁,v₂)表示文本中两个词的统计学相关度，γ、δ为比例参数；

所述第四模块，根据下式进行词图的迭代计算:

本发明提供的一种文本关键词提取方法及装置，具有如下有益效果：

(1)针对词图的节点的重要程度往往采用随机初始化、统计特征的方式表示的缺陷，本发明增加了与外部重要业务词的相似度作为补充重要程度，有效利用了外部业务知识，提升了文本关键词挖掘的效果。

(2)针对现有基于TextRank的词图关键词提取技术中词图的边(即关键词之间的相关性)仅用共现次数等相关统计方式表示，不够精确的问题，本发明加入共现距离和词向量的余弦相似度作为补充，能够实现对词图边的更准确的表达，提升了文本关键词挖掘的效果。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请一个实施例提供的文本关键词提取方法的第一流程示意图；

图2是本申请一个实施例提供的文本关键词提取方法的第二流程示意图；

图3是本申请一个实施例提供的文本关键词提取装置的结构示意图；

图4是本申请一个实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述获取模块，但这些获取模块不应限于这些术语。这些术语仅用来将获取模块彼此区分开。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

需要注意的是，本发明实施例所描述的“上”、“下”、“左”、“右”等方位词是以附图所示的角度来进行描述的，不应理解为对本发明实施例的限定。此外在上下文中，还需要理解的是，当提到一个元件被形成在另一个元件“上”或“下”时，其不仅能够直接形成在另一个元件“上”或者“下”，也可以通过中间元件间接形成在另一元件“上”或者“下”。

本发明的一个实施例提供了一种文本关键词提取方法，该方法同样是采用了基于词图的无监督关键词提取技术，但是针对词图的节点的重要程度的计算，增加了与外部重要业务词的相似度作为补充重要程度，有效利用了外部业务知识，提升了文本关键词挖掘的效果；针对词图的边(即关键词之间的相关性)仅用共现次数等相关统计方式表示，不够精确的问题，加入共现距离和词向量的余弦相似度作为补充，能够实现对词图边的更准确的表达，进一步提升了文本关键词挖掘的效果。

参见图1、图2，本发明的文本关键词提取方法，包括如下步骤：

步骤S101，对待处理的文本进行分词处理。

具体的，获取待提取关键词的文本后，对文本进行中文分词，再经过其他预处理，例如：去停用词、去标点、保留特定词性的词等步骤后，做好构建词图的准备。本申请中的词图指的是一个以词作为顶点(或称为节点)、词之间的关系作为边的图，词图中顶点(或节点)的权重即词的重要性，边的权重即词的相关度。

步骤S102，根据文本中的每个词与业务关键词词库中每个词向量的余弦距离的平均值和每个词的词频-逆文本频率值，计算文本中每个词的重要程度。

具体的，文本中的词v的重要程度由下述公式计算得出：

其中，cosine_distance()表示余弦距离，用来表示两个表示为向量的文本的相似度；公式(1)的前半部分表示词v与业务关键词库中所有词的词向量余弦距离的平均值。

其中，word2vec()表示词的词向量，word2vec是一种将词转为向量的方法，其基本思想是：上下文相似的两个词，它们的词向量也应该相似，比如香蕉和梨在句子中可能经常出现在相同的上下文中，因此这两个词的表示向量应该就比较相似。

其中，tfidf()表示词频-逆文本频率值，即TF-IDF值，TF-IDF(term frequency–inverse documentfrequency)是一种用于信息检索与数据挖掘的常用加权技术。其中，TF是词频(Term Frequency)，IDF是逆文本频率指数(Inverse Document Frequency)。

其中，α、β为比例参数，其通常根据数据和业务需求调整，若业务词库很全，那α就可以设定的大一些，这样基本能把和业务相关的关键词都找出来，若业务词库不全(新项目)，那么β就设定的大一些，一般两个比例参数设定为0.5/0.5；

其中，m为人工总结的业务关键词词库中的关键词数量；

其中，v表示文本中的词，v'_i表示业务关键词词库中的第i个关键词。

该步骤通过上述计算公式，增加了与外部重要业务词的相似度作为补充重要程度，有效利用了外部业务知识，提升了文本关键词挖掘的效果。

步骤S103，根据文本中任意两个词出现的次数和共现时两个词的间隔距离，计算两个词的统计学相关度和两个词之间的语义相关度；当两个词的共现次数超过预设值时，两个词的关系构成词图中的一条边，根据两个词的统计学相关度和两个词的语义相关度，计算词图中该边的权重值。

该步骤通过统计文本中两个词出现的次数，当两词共现次数超过预设值(例如：5次)后，就形成词图中的一条边。其中，词图中节点的权重表示词的重要性，边的权重表示词的相关度。具体通过如下步骤实现：

步骤S1031，根据文本中任意两个词出现的次数和共现时两个词的间隔距离，计算两个词的统计学相关度：

其中，Dis_i表示第i次共现时两词的距离，n表示两词的总的共现次数，J(v₁,v₂)表示v₁和v₂两个词在共现窗口内的共现次数，共现窗口就是指两个词在在一定范围内(例如，距离不超过K个字)同时出现；tf(v₁)表示词v₁出现的次数，tf(v₂)表示词v₂出现的次数，

表示两词共现的平均距离。

步骤S1032，根据文本中任意两个词出现的次数和共现时两个词的间隔距离，计算文本中两个词之间的语义相关度：

W_sim(v₁,v₂)＝cosine_distance((word2vec(v₁),word2vec(v₂))) (3)

步骤S1033，根据两个词的统计学相关度和两个词的语义相关度，计算词图中边的权重值:

W(v₁,v₂)＝γW_sim(v₁,v₂)+δW_cooccur(v₁,v₂) (4)

其中，W_sim(v₁,v₂)表示文本中两个词之间的语义相关度，W_cooccur(v₁,v₂)表示文本中两个词的统计学相关度；

其中，γ、δ为比例参数，可采用网格搜索的方法调整参数。例如，γ的范围为[1,10]，δ的范围为[1,5]，按步长为0.5可以组成若干组参数。对每组参数进行关键词提取，根据提取效果确定最佳参数。

步骤S104，使用Textrank算法进行词图的迭代计算，直至词图中每个词的重要程度变化小于预设阈值时中止迭代，将重要程度排名靠前的N个词作为所述待处理的文本的关键词。

TextRank算法的基本思想是将文档看作一个词的网络,该网络中的链接表示词与词之间的语义关系，一个词与越多词链接，则该词越重要，一个词与越重要的词链接，则该词越重要。

具体的，该步骤根据下式进行词图的迭代计算:

其中，S(v_i)表示文本中第i个词的重要程度，S(v_j)表示文本中第j个词的重要程度，S(v_i)和S(v_j)由步骤S102中的公式(1)计算初始值。

其中，d表示阻尼系数。

其中，W_ji表示词i和词j的相关度，W_jk表示词j和词k的相关度，W_ji和W_jk通过步骤S1033中的公式(4)计算得出。

其中，out_i表示与词图中的词i相连的所有词(即与节点i连接的所有节点)，out_j表示与词图中的词j相连的所有词(即与节点j连接的所有节点)，v_k表示和词j相连的词k。

进一步的，迭代中止条件是经过某次迭代，词的重要程度S(v_i)的变化值小于一个阈值(例如0.0001)，则停止迭代。此时，认为词图已经收敛。:根据业务需求，取重要程度TopK(即前K个)的词作为文本的关键词。

本实施例对词图中词的重要程度补充了业务知识，即业务人员总结的重要关键词，有效利用了外部业务知识。对词图中边的权重补充了词的语义相似度，同时对基于共现的统计方法还补充了共现距离因素，即两词共现时的距离越远，相关性越低。经过上述改进得到的关键词提取算法，提取准确度得到了有效改善。

参见图3，本发明的另一实施例还提供了一种文本关键词提取装置200，包括第一模块201、第二模块202、第三模块203、第四模块204，该文本关键词提取装置200能够执行上述方法实施例中的文本关键词提取方法。

具体的，文本关键词提取装置200被配置为：

第一模块201，被配置为对待处理的文本进行分词处理；

第二模块202，被配置为根据文本中的每个词与业务关键词词库中每个词向量的余弦距离的平均值和每个词的词频-逆文本频率值，计算文本中每个词的重要程度；

第三模块203，被配置为根据文本中任意两个词出现的次数和共现时两个词的间隔距离，计算两个词的统计学相关度和两个词之间的语义相关度；当两个词的共现次数超过预设值时，两个词的关系构成词图中的一条边，根据两个词的统计学相关度和两个词的语义相关度，计算词图中该边的权重值；

第四模块204，被配置为使用Textrank算法进行词图的迭代计算，直至词图中每个词的重要程度变化小于预设阈值时中止迭代，将重要程度排名靠前的N个词作为所述待处理的文本的关键词。

进一步的，第二模块202根据下式计算文本中每个词的重要程度：

进一步的，第三模块203根据下式计算文本中两个词的统计学相关度:

进一步的，所述第三模块203根据下式计算文本中两个词之间的语义相关度：

W_sim(v₁,v₂)＝cosine_distance((word2vec(v₁),word2vec(v₂)))

进一步的，所述第三模块203根据下式计算词图中边的权重值:

W(v₁,v₂)＝γW_sim(v₁,v₂)+δW_cooccur(v₁,v₂)

进一步的，所述第四模块204，根据下式进行词图的迭代计算:

需要说明的是，本实施例提供的文本关键词提取装置200对应的可用于执行各方法实施例的步骤，其实现原理和技术效果与方法类似，此处不再赘述。

图4为本发明实施例提供的一种电子设备的结构示意图。

下面具体参考图4，其示出了适于用来实现本发明实施例中的电子设备400的结构示意图。本发明实施例中的电子设备400可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)、可穿戴电子设备等等的移动终端以及诸如数字TV、台式计算机、智能家居设备等等的固定终端。图4示出的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，电子设备400可以包括处理装置(例如中央处理器、图形处理器等)401，其可以根据存储在只读存储器(ROM)402中的程序或者从存储装置408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理以实现如本发明所述的实施例的方法。在RAM403中，还存储有电子设备400操作所需的各种程序和数据。处理装置401、ROM402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

通常，以下装置可以连接至I/O接口405：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置406；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置407；包括例如磁带、硬盘等的存储装置408；以及通信装置409。通信装置409可以允许电子设备400与其他设备进行无线或有线通信以交换数据。虽然图4示出了具有各种装置的电子设备400，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

以上描述仅为本发明的较佳实施例。本领域技术人员应当理解，本发明中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。