CN113704398A

CN113704398A - 一种关键词提取的方法及设备

Info

Publication number: CN113704398A
Application number: CN202110898005.0A
Authority: CN
Inventors: 张鹏
Original assignee: Shanghai Wanwu Xinsheng Environmental Technology Group Co
Current assignee: Shanghai Wanwu Xinsheng Environmental Technology Group Co
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2021-11-26

Abstract

本申请的目的是提供一种关键词提取的方法及设备，本申请对待处理的所有文本中的每个所述文本依序进行分词处理和去停用词处理，得到至少两个不同的词；基于所述所有文本中的每个所述文本，分别计算每个所述词的词频、逆文档词频及词文档频率影响因子；分别基于每个所述词的词频、逆文档词频及词文档频率影响因子，得到每个所述词的权重；基于每个所述词的权重，在所述所有文本中进行关键词提取，得到待处理的所述所有文本对应的至少一个关键词，实现了通过引入词文档频率影响因子来消除语料主题不平衡导致的对词的权重的计算的影响，使得当语料集中不同主题的文本分布不平衡时，提高对各文本的关键词进行精准提取的提取效果。

Description

一种关键词提取的方法及设备

技术领域

本申请涉及计算机领域，尤其涉及一种关键词提取的方法及设备。

背景技术

在自然语言处理领域，关键词提取是一种广泛应用于信息检索和机器学习以及自然语言处理等领域，是非结构化文本数据处理的一项核心基础技术，是许多下游任务提取特征的常用技术，比如文本分类聚类和文本摘要等，下游任务精度的高低一定程度上依赖于特征提取的好坏。然而，绝大多数文本是没有关键词的标记的，如果人工方式提取关键词费时费力且主观性大，因此，研究文本关键词提取技术有着重要的应用价值和理论价值。

词频-逆文档频率(Term Frequency-Inverse Document Frequency，TF-IDF)是一种重要的应用广泛的无监督文本关键词提取技术，衡量的是词语在语料中重要程度。词频(Term Frequency，TF)表示词语在文本中出现的频率，表达式如下：

其中，分子n_i，j表示词i在文本j中的出现次数，分母为文本j中所有词出现的次数总和。逆文档频率(Inverse Document Frequency，IDF)衡量词语在语料集中的普遍性，表达式如下：

N表示文本总数，DF_i表示包含词i的文本数。在处理文本时，文本中每个词不是同等重要的，需要确定每个词在文本中的权重，经常使用TF-IDF来计算各个词的权重，从而找到文本的关键词，确定文本主题。TF是指一个词在一篇文章中出现的频率。单纯使用TF将会出现一些问题，问题是一些通用的词出现频率较高，但对于主题并没有太大的作用，反倒是一些出现频率较少的词才能够表达文章的主题。所以权重的设计必须满足：一个词预测主题的能力越强，权重越大，反之，权重越小。所有统计的文章中，一些词只是在其中很少几篇文章中出现，那么这样的词对文章的主题的作用很大，这些词的权重应该设计的较大。IDF就是在完成这样的工作，如果一个关键词在d篇文章中出现，那么d越大，关键词的权重反倒是越小。最后我们将TF的值和IDF的值综合考虑，便能得到关键词的权重：TF×IDF。表达式如下：

w_i，j＝TF_i，j*IDF_i

然而，TF×IDF有一个明显的缺陷，当语料库中某种主题的文本较多时，来自于该主题的关键词会得到较低的IDF值，使得提取该主题的关键词召回率较低；当某个主题的文本特别少时，该主题的词得到较高的IDF值，从而会提取得到一些表征能力不强的词作为关键词。因此，对于包含多种文本主题的语料集，原有的TF×IDF不能很好的提取关键词。在自然语言处理中，语料集中不同主题的文本数量分布不平衡是很常见的，原有的TF×IDF关键词提取效果受到较大限制。

发明内容

本申请的一个目的是提供一种关键词提取的方法及设备，以实现当语料集中不同主题的文本分布不平衡时，提高对各文本的关键词进行精准提取的提取效果。

根据本申请的一个方面，提供了一种关键词提取的方法，其中，所述方法包括：

对待处理的所有文本中的每个所述文本依序进行分词处理和去停用词处理，得到至少两个不同的词；

基于所述所有文本中的每个所述文本，分别计算每个所述词的词频、逆文档词频及词文档频率影响因子；

分别基于每个所述词的词频、逆文档词频及词文档频率影响因子，得到每个所述词的权重；

基于每个所述词的权重，在所述所有文本中进行关键词提取，得到待处理的所述所有文本对应的至少一个关键词。

进一步地，上述一种关键词提取的方法，其中，所述基于所述所有文本中的每个所述文本，分别计算每个所述词的词文档频率影响因子，包括：

基于所述所有文本中的每个所述文本，分别计算所述至少两个不同的词的总数和每个所述词的文档分布数；

基于所述至少两个不同的词的总数和每个所述词的文档分布数，分别计算每个所述词的文档分布标准差；

基于所有所述词的文档分布标准差，对每个所述词的文档分布标准差进行归一化处理，得到每个所述词的归一化文档分布标准差；

分别基于每个所述词的归一化文档分布标准差，得到每个所述词的词文档频率影响因子。

进一步地，上述一种关键词提取的方法，其中，所述方法还包括：

基于所述至少两个不同的词中的所有所述词的权重，分别对每个所述词的权重进行归一化处理，得到每个所述词的归一化权重；

其中，所述基于每个所述词的权重，在所述所有文本中进行关键词提取，得到待处理的所述所有文本对应的至少一个关键词，包括：

基于每个所述词的归一化权重，在所述所有文本中进行关键词提取，得到待处理的所述所有文本对应的至少一个关键词。

获取已标注关键词的预设数量的目标文本及其中的已标注关键词，其中，所述已标注关键词的数量为已标注数量；

对所述预设数量的目标文本进行关键词提取，得到所述预设数量的目标文本对应的至少两个关键词及关键词总数；

基于所述关键词、所述关键词总数、所述已标注关键词和所述已标注数量，计算关键词提取的准确率和召回率。

根据本申请的另一方面，还提供了一种非易失性存储介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行时，使所述处理器实现如上述一种关键词提取的方法。

根据本申请的另一方面，还提供了一种关键词提取的设备，其中，所述设备包括：

一个或多个处理器；

非易失性存储介质，用于存储一个或多个计算机可读指令，

当所述一个或多个计算机可读指令被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述一种关键词提取的方法。

与现有技术相比，本申请对待处理的所有文本中的每个所述文本依序进行分词处理和去停用词处理，得到至少两个不同的词；基于所述所有文本中的每个所述文本，分别计算每个所述词的词频、逆文档词频及词文档频率影响因子；分别基于每个所述词的词频、逆文档词频及词文档频率影响因子，得到每个所述词的权重；基于每个所述词的权重，在所述所有文本中进行关键词提取，得到待处理的所述所有文本对应的至少一个关键词，实现了通过引入词文档频率影响因子来消除语料主题不平衡导致的对词的权重的计算的影响，并通过词的词频、逆文档词频及词文档频率影响因子这三者之间的结合来确定词的权重，使得当语料集中不同主题的文本分布不平衡时，提高对各文本的关键词进行精准提取的提取效果。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出根据本申请一个方面的一种关键词提取的方法的流程示意图；

图2示出根据本申请一个方面的一种关键词提取的方法的一优选实施例的效果对比示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

如图1所示，本申请一个方面的一种关键词提取的方法的流程示意图。其中，所述方法包括：步骤S11、步骤S12、步骤S13及步骤S14，具体包括如下步骤：

步骤S11，对待处理的所有文本中的每个所述文本依序进行分词处理和去停用词处理，得到至少两个不同的词。在此，对待处理的所有文本中的每个所述文本进行分词处理的实现方式包括但不限于结巴(jieba)分词器等，通过分词处理生成每个所述文本中的句子中所有可能的生成词，然后通过匹配停用词词典，对所述生成词进行去停用词处理，得到经过去停用词处理的生成词，其中，经过去停用词处理的生成词至少包括两个，即，得到的至少两个不同的词。

步骤S12，基于所述所有文本中的每个所述文本，分别计算每个所述词的词频、逆文档词频及词文档频率影响因子。在此，所述词的词频(Term Frequency，TF)表示每个所述词在其所属的文本中出现的频率；所述词的逆文档词频(Inverse Document Frequency，IDF)表示每个所述词在所有文本中出现的频率；所述词文档频率影响因子(Word DocumentFrequency，WDF)表示包含某一所述词的文本的数量在所述所有文本的总数量中所占的频率对所述某一所述词的权重的影响，当在所有文本中不同主题的文本数量分布不平衡时，包含某一所述词的文本的数量在所述所有文本的总数量中所占的频率越大，所述词文档频率影响因子越强，所述词的权重越大，包含某一所述词的文本的数量在所述所有文本的总数量中所占的频率越小，所述词文档频率影响因子越弱，所述词的权重越小，从而通过所述词文档频率影响因子WDF，降低由于在所有文本中不同主题的文本数量分布不平衡而造成的计算所述词的权重不准确的问题。

步骤S13，分别基于每个所述词的词频、逆文档词频及词文档频率影响因子，得到每个所述词的权重。

步骤S14，基于每个所述词的权重，在所述所有文本中进行关键词提取，得到待处理的所述所有文本对应的至少一个关键词。在此，每个所述词的权重越大，则表示其成为关键词的可能性越大，按照每个所述词的权重，从大到小选择若干个词作为关键词。

基于上述步骤S11至步骤S14，本申请对待处理的所有文本中的每个所述文本依序进行分词处理和去停用词处理，得到至少两个不同的词；基于所述所有文本中的每个所述文本，分别计算每个所述词的词频、逆文档词频及词文档频率影响因子；分别基于每个所述词的词频、逆文档词频及词文档频率影响因子，得到每个所述词的权重；基于每个所述词的权重，在所述所有文本中进行关键词提取，得到待处理的所述所有文本对应的至少一个关键词，实现了通过引入词文档频率影响因子来消除语料主题不平衡导致的对词的权重的计算的影响，并通过词的词频、逆文档词频及词文档频率影响因子这三者之间的结合来确定词的权重，使得当语料集中不同主题的文本分布不平衡时，提高对各文本的关键词进行精准提取的提取效果。

接着本申请的上述实施例，其中，所述基于所述所有文本中的每个所述文本，分别计算每个所述词的词文档频率影响因子，包括：

基于所述所有文本中的每个所述文本，分别计算所述至少两个不同的词的总数和每个所述词的文档分布数。在此，所述至少两个不同的词的总数表示在所述所有文本中共有多少个不同的词，所述每个所述词的文档分布数表示分别包含的每个所述词的文本的数量。

基于所述至少两个不同的词的总数和每个所述词的文档分布数，分别计算每个所述词的文档分布标准差。在此，根据所述每个所述词的文档分布数的总数与所述至少两个不同的词的总数，得到每个所述不同的词的平均文档分布数，基于所述平均文档分布数，分别计算每个所述词的文档分布标准差。

基于所有所述词的文档分布标准差，对每个所述词的文档分布标准差进行归一化处理，得到每个所述词的归一化文档分布标准差。在此，对每个所述词的文档分布标准差进行归一化处理，使的每个所述词的文档分布标准差能够归一化到0至1之间，从而减小所述词的文档分布标准差的特别大的值与特别小的值对每个所述词的文档分布标准差的影响。

分别基于每个所述词的归一化文档分布标准差，得到每个所述词的词文档频率影响因子。在此，当包含某一所述词的文本的数量在所述所有文本的总数量中所占的频率越大，使得所述平均文档分布数，与所述包含某一所述词的文本的数量相差越小，从而使得所述某一所述词的归一化文档分布标准差越小；包含某一所述词的文本的数量在所述所有文本的总数量中所占的频率越小，使得所述平均文档分布数，与所述包含某一所述词的文本的数量相差越大，从而使得所述某一所述词的归一化文档分布标准差越大；基于此，构建所述归一化文档分布标准差与所述词的词文档频率影响因子之间的关系，使得当所述词的归一化文档分布标准差越小时，包含所述词的文本的数量在所述所有文本的总数量中所占的频率越大，所述词文档频率影响因子越强，所述词的权重越大，使得当所述词的归一化文档分布标准差越大时，包含某一所述词的文本的数量在所述所有文本的总数量中所占的频率越小，所述词文档频率影响因子越弱，所述词的权重越小。

在本申请的一优选实施例中，所述至少两个不同的词的总数用N_|w|表示，每个所述词的文档分布数用DF_i表示，即DF_i表示包含词i的文本的数量，根据每个所述词的文档分布数DF_i之间的总数与所述至少两个不同的词的总数N_|w|计算每个所述不同的词的平均文档分布数

其中，所述词的平均文档分布数

的计算公式如下：

基于所述平均文档分布数

计算每个所述词的文档分布标准差DDF_i，其中，所述词的文档分布标准差DDF_i的计算公式如下：

对所述每个所述词的文档分布标准差DDF_i进行归一化处理得到每个所述词的归一化文档分布标准差DDF′_i，其中，每个所述词的归一化分布标准差DDF′_i的计算公式如下：

基于所述每个所述词的归一化文档分布标准差DDF′_i，通过指数函数构建的方式构建所述每个所述词的归一化文档分布标准差DDF′_i与每个所述词的词文档频率影响因子WDF之间的关系，得到：

从而得到每个所述词的权重w_i，j，其中，w_i，j表示词i在文本j中的权重，w_i，j＝TF_i，j*IDF_i*WDF。

接着本申请的上述实施例，其中，所述方法还包括：

基于所述至少两个不同的词中的所有所述词的权重，分别对每个所述词的权重进行归一化处理，得到每个所述词的归一化权重。在此，分别对每个所述词的权重进行归一化处理，以便将每个所述词的权重都归一化到0至1之间；同时，由于每个文本的长度不一样，长度长的文本包含越多的所述词的可能性越大，长度短的文本包含越多的所述词的可能性越小，因此通过归一化处理，可以减小文本长度对所述词的权重的影响。例如，一个文本中包含10个词，其中某个词在该文本中原来的权重是0.2，经过归一化计算后这个词在该文本中权重是0.02；而另外一个文本中有5个词，某个词原来在该文本权重是0.2，经过归一化计算后这个词在该文本中的权重是0.04，通过归一化处理，从而能更好的提取长度短的文本中的关键词，赋予短文本中的词更高的权重，也符合我们的认知。

基于每个所述词的归一化权重，在所述所有文本中进行关键词提取，得到待处理的所述所有文本对应的至少一个关键词。在此，基于每个所述词的归一化权重，分别计算每个所述词在其所属的文本中的权重，按照权重从大到小，选取至少一个所述词作为关键词。

本申请的一优选实施例中，对每个所述词的权重w_i，j进行归一化处理，得到每个所述词的归一化权重w_i，j′，其中，每个所述词的归一化权重w_i，j′的计算公式如下：

其中，K为文本j中不同词的个数，根据每个所述词的归一化权重w_i，j′，按照从大到小的顺序在每个文本中选取至少一个所述词作为该文本的关键词。

接着本申请的上述实施例，其中，所述方法还包括：

获取已标注关键词的预设数量的目标文本及其中的已标注关键词，其中，所述已标注关键词的数量为已标注数量。在此，所述已标注关键词为人工标注的关键词。

对所述预设数量的目标文本进行关键词提取，得到所述预设数量的目标文本对应的至少两个关键词及关键词总数。

基于所述关键词、所述关键词总数、所述已标注关键词和所述已标注数量，计算关键词提取的准确率和召回率。在此，通过准确率和召回率，将通过原有的TF-IDF方法进行关键词提取的效果与通过本申请的方法进行关键词提取的效果进行对比。

本申请的一优选实施例中，从预设的语料库选出已经标注关键词的5类文本，包括经济、体育、科技、政治、教育，其中经济、政治、教育文档各20篇，体育50篇，科技5篇，用这些数据测试本申请中权重计算方法的有效性，将通过本申请中的方法提取的关键词与人工标注的关键词进行比较，利用准确率和召回率，对比原有的TF-IDF方法与本申请方法提取关键词效果，分别计算根据TF-IDF方法进行关键词提取与根据本申请的方法进行关键词提取的准确率和召回率，其中，

如图2所示，通过计算，得到根据TF-IDF方法进行关键词提取与根据本申请的方法进行关键词提取的准确率和召回率，其中，通过本申请的方法进行关键词提取的准确率和召回率都要优于根据TF-IDF方法进行关键词提取的准确率和召回率，从而使得关键词的提取更为准确。

一个或多个处理器；

非易失性存储介质，用于存储一个或多个计算机可读指令，

在此，所述一种关键词提取的设备中的各实施例的详细内容，具体可参见上述一种关键词提取的方法的实施例的对应部分，在此，不再赘述。

综上所述，本申请对待处理的所有文本中的每个所述文本依序进行分词处理和去停用词处理，得到至少两个不同的词；基于所述所有文本中的每个所述文本，分别计算每个所述词的词频、逆文档词频及词文档频率影响因子；分别基于每个所述词的词频、逆文档词频及词文档频率影响因子，得到每个所述词的权重；基于每个所述词的权重，在所述所有文本中进行关键词提取，得到待处理的所述所有文本对应的至少一个关键词，实现了通过引入词文档频率影响因子来消除语料主题不平衡导致的对词的权重的计算的影响，并通过词的词频、逆文档词频及词文档频率影响因子这三者之间的结合来确定词的权重，使得当语料集中不同主题的文本分布不平衡时，提高对各文本的关键词进行精准提取的提取效果。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种关键词提取的方法，其中，所述方法包括：

2.根据权利要求1所述的方法，其中，所述基于所述所有文本中的每个所述文本，分别计算每个所述词的词文档频率影响因子，包括：

3.根据权利要求1或2所述的方法，其中，所述方法还包括：

4.根据权利要求1所述的方法，其中，所述方法还包括：

5.一种非易失性存储介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行时，使所述处理器实现如权利要求1至4中任一项所述的方法。

6.一种关键词提取的设备，其中，所述设备包括：

一个或多个处理器；

非易失性存储介质，用于存储一个或多个计算机可读指令，

当所述一个或多个计算机可读指令被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至4中任一项所述的方法。