CN109918657B

CN109918657B - 一种从文本中提取目标关键词的方法

Info

Publication number: CN109918657B
Application number: CN201910152460.9A
Authority: CN
Inventors: 曾俊瑀; 张文斌; 贾显伏; 乔咏田; 李德方
Original assignee: Yunfu Technology Beijing Co ltd
Current assignee: Yunfu Technology Beijing Co ltd
Priority date: 2019-02-28
Filing date: 2019-02-28
Publication date: 2023-04-18
Anticipated expiration: 2039-02-28
Also published as: CN109918657A

Abstract

本发明公开的文本中提取目标关键词的方法，涉及数据挖掘技术领域，利用基于统计学的规则分句技术，将文本分割为多个分句，利用语言技术平台LTP对各个分句进行分词，得到多个词句，分别对各个词句的词性进行标注并获取各个词句之间的句法依存关系，选取标注为名词的词句，生成第一候选关键词集合，分别计算第二候选关键词集合中各个词句在文本中的覆盖率，并根据综合分计算公式，计算第二候选关键词集合中各个词句的综合分数，根据K‑means算法及各个词句在关键词字典中的值，分别计算各个词向量与选定的K个词向量的距离，根据距离的大小，分别选择与K个词向量距离最近的词向量，得到K个目标关键词，提高了目标关键词提取的准确率及效率。

Description

一种从文本中提取目标关键词的方法

技术领域

本发明涉及数据挖掘技术领域，具体涉及一种从文本中提取目标关键词的方法。

背景技术

随着现代信息技术的发展，网络上的各类数据正在以惊人的方式爆炸增长，对于这些“大数据”，一方面人们可以获得更加丰富的信息，另一方面人们则需要花费更多的时间和精力去从中获取对自己有价值的信息。为了解决这一问题，节省人们的时间并提高工作效率，对于文本数据的各种技术研究应用而生，如文本摘要及关键词自动提取技术等。

关键词自动提取是从文本或文本集合中自动抽取主题性或重要性的词或短语的一种技术，是许多文本挖掘任务中基础性和必要性的工作。随着计算机技术的发展，自动关键词抽取越来越多受到关注。

目前的关键词提取技术主要包括统计法、主题模型法、图模型法。其中，统计法实现简单，不需要训练数据，但是单纯文档的统计信息并不能很好的反映出文档的关键词，因此准确率不高；主题模型法中，对于比较短的语料则并不能取得太好的效果，同时其需要使用大量的数据来进行模型训练；图模型则比较复杂，在具体实践过程中效率不太高，效果也并不显著。

发明内容

为解决现有技术的不足，本发明实施例提供了一种从文本中提取目标关键词的方法，该方法包括：

Step1、利用基于统计学的规则分句技术，将文本分割为多个分句；

Step2、利用语言技术平台LTP对各个分句进行分词，得到多个词句，分别对各个词句的词性进行标注并获取各个词句之间的句法依存关系；

Step3、选取标注为名词的词句，生成第一候选关键词集合并根据所述句法依存关系设置所述候选关键词集合中各个词句的关联度，将所述各个词句当前关联度的值及与所述各个词句存在句法依存关系的词句当前关联度的值分别加一，其中，各个词句的关联度的初始值为零；

Step4、从所述第一候选关键词集合中选择关联度的值不为零的词句，生成第二候选关键词集合；

Step5、根据TF-IDF算法，分别计算所述第二候选关键词集合中各个词句的TF-IDF值；根据覆盖率计算公式F＝a÷n×l，分别计算所述第二候选关键词集合中各个词句在文本中的覆盖率，根据训练过的评估实体质量模型，分别计算所述第二候选关键词集合中各个词句的实体质量分数P；其中，a为各个词句所在分句的权值的和，n为文本中词句的总个数，l为所述第二候选关键词集合中各个词句首次出现的位置及末次出现的位置之间的距离，TF-IDF值等于词句的TF值与IDF值的乘积；

Step6、分别为所述TF-IDF值、所述覆盖率、所述评估实体质量模型及所述关联度设置相应的权值，并根据综合分计算公式，计算所述第二候选关键词集合中各个词句的综合分数，选择综合分数大于设定阈值的词句，生成第三候选关键词集合；

Step7、利用Word2Vec模型，将所述第三候选关键词集合中各个的词句转化为词向量，根据K-means算法及各个词句在关键词字典中的值，分别计算各个词向量与选定的K个词向量的距离，根据所述距离的大小，分别选择与所述K个词向量距离最近的词向量，得到K个目标关键词。

进一步地，所述关键词字典的创建过程包括：

创建内容为空的初始关键词字典；

判断通用关键词字典中是否存在与所述第二候选关键词集合相同的词句，包括：

若是，则将所述词句添加至所述初始关键词字典，将所述词句在所述通用关键词字典中的值加上所述词句关联度的值；

若否，则将所述词句添加至所述初始关键词字典，将所述词句关联度的值作为其在所述通用关键词字典中的值。

进一步地，

所述综合分计算公式包括：S＝T×V1+F×V2+P×V3+G×V4及S＝TV1+FV2+PV3+GV4，其中，T为词句的TF-IDF值，F为词句的覆盖率，G为词句的关联度，V1为T的权值，V2为F的权值，V3为P的权值，V4为G的权值。

本发明实施例提供的从文本中提取目标关键词的方法具有以下有益效果：

综合考虑了候选关键词的各种属性，采用Word2Vec技术对候选关键词进行K-means加权聚类，提高了目标关键词提取的准确率及效率。

附图说明

图1是本发明实施例提供的从文本中提取目标关键词的方法的流程示意图。

具体实施方式

以下结合附图和具体实施例对本发明作具体的介绍。

参照图1，本发明实施例提供的从文本中提取目标关键词的方法包括以下步骤：

S101、利用基于统计学的规则分句技术，将文本分割为多个分句。

S102、利用语言技术平台LTP对各个分句进行分词，得到多个词句，分别对各个词句的词性进行标注并获取各个词句之间的句法依存关系。

S103、选取标注为名词的词句，生成第一候选关键词集合并根据句法依存关系设置候选关键词集合中各个词句的关联度，将各个词句当前关联度的值及与各个词句存在句法依存关系的词句当前关联度的值分别加一，其中，各个词句的关联度的初始值为零。

S104、从第一候选关键词集合中选择关联度的值不为零的词句，生成第二候选关键词集合。

S105、根据TF-IDF算法，分别计算所述第二候选关键词集合中各个词句的TF-IDF值；根据覆盖率计算公式F＝a÷n×l，分别计算所述第二候选关键词集合中各个词句在文本中的覆盖率，根据训练过的评估实体质量模型，分别计算所述第二候选关键词集合中各个词句的实体质量分数P；其中，a为各个词句所在分句的权值的和，n为文本中词句的总个数，l为所述第二候选关键词集合中各个词句首次出现的位置及末次出现的位置之间的距离，TF-IDF值等于词句的TF值与IDF值的乘积。

作为一个具体的实施例，由于文本中不同位置的语句对关键词的贡献率不同，所以可以简单设置文章标题中的分句的权值为3，文章正文中前1/10的句子的权值为2，文章正文中后1/10的句子的权值为2，其他为1。

作为另一个具体的实施例，采用传统词袋模型表示各词句，使用从百度百科上抓取的各词条名称作为正例训练数据，使用网上抓取的大规模语料分词后的结果在去除所有的正例训练数据的条目后作为负例训练数据，采用支持向量机-机器学习方法训练评估实体质量的模型，生成训练过的评估实体质量模型，该评估实体质量模型采用sigmoid函数，得到数值为0～1的实体质量分数值。

进一步地，TF表示词句在文档d中出现的频率，IDF为逆向文件频率，IDF的值越大，词句的类别区分能力就越大。

S106、分别为TF-IDF值、覆盖率、评估实体质量模型及关联度设置相应的权值，并根据综合分计算公式，计算第二候选关键词集合中各个词句的综合分数，选择综合分数大于设定阈值的词句，生成第三候选关键词集合。

S107、利用Word2Vec模型，将第三候选关键词集合中各个的词句转化为词向量，根据K-means算法及各个词句在关键词字典中的值，分别计算各个词向量与选定的K个词向量的距离，根据距离的大小，分别选择与K个词向量距离最近的词向量，得到K个目标关键词。

可选地，关键词字典的创建过程包括：

创建内容为空的初始关键词字典；

判断通用关键词字典中是否存在与第二候选关键词集合相同的词句，包括：

若是，则将词句添加至初始关键词字典，将词句在通用关键词字典中的值加上词句关联度的值；

若否，则将词句添加至初始关键词字典，将词句关联度的值作为其在通用关键词字典中的值。

可选地，综合分计算公式包括：S＝T×V1+F×V2+P×V3+G×V4及S＝TV1+FV2+PV3+GV4，其中，T为词句的TF-IDF值，F为词句的覆盖率，G为词句的关联度，V1为T的权值，V2为F的权值，V3为P的权值，V4为G的权值。

本发明实施例提供的文本中提取目标关键词的方法，利用基于统计学的规则分句技术，将文本分割为多个分句，利用语言技术平台LTP对各个分句进行分词，得到多个词句，分别对各个词句的词性进行标注并获取各个词句之间的句法依存关系，选取标注为名词的词句，生成第一候选关键词集合并根据句法依存关系设置候选关键词集合中各个词句的关联度，将各个词句当前关联度的值及与各个词句存在句法依存关系的词句当前关联度的值分别加一，从第一候选关键词集合中选择关联度的值不为零的词句，生成第二候选关键词集合，分别统计第二候选关键词集合中各个词句的TF-IDF值；根据覆盖率计算公式F＝a÷n×l，分别计算第二候选关键词集合中各个词句在文本中的覆盖率，根据训练过的评估实体质量模型，分别计算第二候选关键词集合中各个词句的实体质量分数P，分别为TF-IDF值、覆盖率、评估实体质量模型及关联度设置相应的权值，并根据综合分计算公式，计算第二候选关键词集合中各个词句的综合分数，选择综合分数大于设定阈值的词句，生成第三候选关键词集合，利用Word2Vec模型，将第三候选关键词集合中各个的词句转化为词向量，根据K-means算法及各个词句在关键词字典中的值，分别计算各个词向量与选定的K个词向量的距离，根据距离的大小，分别选择与K个词向量距离最近的词向量，得到K个目标关键词，提高了目标关键词提取的准确率及效率。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

可以理解的是，上述方法及装置中的相关特征可以相互参考。另外，上述实施例中的“第一”、“第二”等是用于区分各实施例，而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

此外，存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种从文本中提取目标关键词的方法，其特征在于，包括：

2.根据权利要求1所述的一种从文本中提取目标关键词的方法，其特征在于，所述关键词字典的创建过程包括：

创建内容为空的初始关键词字典；

3.根据权利要求1所述的一种从文本中提取目标关键词的方法，其特征在于，所述综合分计算公式包括：S＝T×V1+F×V2+P×V3+G×V4及S＝T^V1+F^V2+P^V3+G^V4，其中，T为词句的TF-IDF值，F为词句的覆盖率，G为词句的关联度，V1为T的权值，V2为F的权值，V3为P的权值，V4为G的权值。