CN115329751B

CN115329751B - 针对网络平台发文的关键词提取方法、装置、介质及设备

Info

Publication number: CN115329751B
Application number: CN202211264186.2A
Authority: CN
Inventors: 徐亚波; 李旭日; 杨禹; 王俊
Original assignee: Guangzhou Datastory Information Technology Co ltd
Current assignee: Guangzhou Datastory Information Technology Co ltd
Priority date: 2022-10-17
Filing date: 2022-10-17
Publication date: 2023-01-17
Anticipated expiration: 2042-10-17
Also published as: CN115329751A

Abstract

本发明公开了一种针对网络平台发文的关键词提取方法、装置、介质及设备，所述方法包括：获取网络平台发文的文本内容、具有时间累积性质的统计量和文本发酵时间；判断关键词对应的分析目标是否具有时间累积性质；若是，则根据文本发酵时间、标准化函数对统计量进行标准化处理，根据处理后的统计量获取分析目标对应的分析类别及其第一概率分布；若否，则根据预设分类确定分析目标对应的分析类别及其第一概率分布；根据语言模型预测文本内容在分析类别上的第二概率分布；根据第一概率分布、第二概率分布获得文本内容中的每一个词语的梯度；根据每一个词语的梯度获取关键词的提取结果。采用本发明的技术方案能够提高关键词提取的准确性。

Description

针对网络平台发文的关键词提取方法、装置、介质及设备

技术领域

本发明涉及互联网大数据处理技术领域，尤其涉及一种针对网络平台发文的关键词提取方法、装置、计算机可读存储介质及终端设备。

背景技术

针对网络平台博主的发文内容进行关键词提取，是一项文本分析方面的重要技术，该技术本身是通过对发文内容进行统计分析，计算词语的出现频率，或者计算词组之间的共现频率，来提取发文中的重要关键词。

但是，现有的关键词提取技术，在数据收集以及针对不同分析目标的关键词提取方面，还存在两个未解决的问题；其中，第一个问题是：在数据收集阶段，现有的数据获取途径无法保证不同的发文具有相同的文本发酵时间（文本发酵时间由文本收集时间减去文本发布时间获得），这就导致了在一些具有时间累积性质的统计量（即受时间影响的统计量，如发文的评论数等）的获取方面，存在数据的非对齐现象，进而容易导致在以一些具有时间累积性质的分析对象为分析目标（即受时间影响的分析目标，如发文的互动量等）时，关键词提取过程中会产生目标统计量收集不对称的问题，从而影响关键词提取的准确性；第二个问题是：当关键词对应的分析目标发生变化时，如以情感倾向为分析目标提取关键词，变成以发文互动量为分析目标提取关键词，现有技术无法适应这种切换，同样会影响关键词提取的准确性。

发明内容

本发明实施例的目的在于，提供一种针对网络平台发文的关键词提取方法、装置、计算机可读存储介质及终端设备，能够解决在分析目标具有时间累积性质的情况下的统计量收集不对称的问题，并且能够适用于不同的分析目标切换，从而提高关键词提取的准确性。

为了实现上述目的，本发明实施例提供了一种针对网络平台发文的关键词提取方法，包括：

获取网络平台发文的文本内容、具有时间累积性质的统计量和文本发酵时间；

判断关键词对应的分析目标是否具有时间累积性质；

若是，则基于所述文本发酵时间，根据预设的标准化函数对所述统计量进行标准化处理，根据处理后的统计量获取所述分析目标对应的分析类别及其第一概率分布；若否，则根据预设分类确定所述分析目标对应的分析类别及其第一概率分布；

根据训练后的语言模型预测所述文本内容在所述分析类别上的第二概率分布；

基于所述第一概率分布和所述第二概率分布，利用反向传播获得所述文本内容中的每一个词语的梯度；

根据所述每一个词语的梯度，获取在所述分析目标下的关键词的提取结果；

所述基于所述文本发酵时间，根据预设的标准化函数对所述统计量进行标准化处理，具体包括：

选择N个标准化函数及其参数取值范围；其中，N≥2，所述N个标准化函数为连续型概率密度函数，且满足概率密度随时间先增后减的趋势；

通过K折交叉验证确定所述N个标准化函数及其参数取值范围中的最佳标准化函数及其最佳参数取值，并将所述最佳标准化函数及其最佳参数取值作为所述预设的标准化函数；

基于所述文本发酵时间，根据所述最佳标准化函数及其最佳参数取值对所述统计量进行标准化处理，获得所述处理后的统计量。

进一步地，所述通过K折交叉验证确定所述N个标准化函数及其参数取值范围中的最佳标准化函数及其最佳参数取值，具体包括：

获取所述网络平台发文的文本数据集，并获取所述文本数据集对应的博主特征、具有时间累积性质的第一统计量特征、第一发酵时间、不具有时间累积性质的第二统计量特征；

针对第i个标准化函数及其参数取值范围内的第j个参数取值，将所述博主特征和所述第二统计量特征作为输入，通过K折交叉验证对应获得K个准化后的第一统计量，并通过对所述K个准化后的第一统计量进行逆标准化处理，对应获得K个逆准化后的第一统计量，计算所述K个逆准化后的第一统计量与所述第一统计量特征的均方根误差；其中，i=1，2，…，N，j≥1，K≥2；

根据计算获得的每一个标准化函数及其参数取值范围内的每一个参数取值所对应的均方根误差，找出均方根误差最小值，并将所述均方根误差最小值所对应的标准化函数及其参数取值范围内的参数取值作为所述最佳标准化函数及其最佳参数取值。

进一步地，所述方法还包括：

根据所述第一统计量特征的值在所述文本数据集中的分布情况，将所述第一统计量特征划分为至少两个分析类别；

则，所述根据处理后的统计量获取所述分析目标对应的分析类别及其第一概率分布，具体包括：

根据所述处理后的统计量和所述至少两个分析类别，确定所述分析目标对应的分析类别及其第一概率分布。

进一步地，所述训练后的语言模型由嵌入矩阵、编码器和预测矩阵组成；

则，所述根据训练后的语言模型预测所述文本内容在所述分析类别上的第二概率分布，具体包括：

对所述文本内容进行分词，获得若干个词语；

根据所述嵌入矩阵将每一个词语映射成向量，并按顺序输入所述编码器中进行编码处理，获得编码处理结果；

将所述编码处理结果输入所述预测矩阵，计算输出所述第二概率分布。

进一步地，所述基于所述第一概率分布和所述第二概率分布，利用反向传播获得所述文本内容中的每一个词语的梯度，具体包括：

计算获得所述第一概率分布和所述第二概率分布的交叉熵；

将所述交叉熵反向传播至所述嵌入矩阵中，获得所述若干个词语中的每一个词语的梯度。

进一步地，所述根据所述每一个词语的梯度，获取在所述分析目标下的关键词的提取结果，具体包括：

计算获得所述每一个词语的梯度的2-范数；

获取所述每一个词语的梯度的2-范数的排序结果；其中，在所述排序结果中，2-范数越大，排名越靠前；

将所述排序结果中排名前M位的2-范数对应的词语作为在所述分析目标下的关键词的提取结果；其中，M≥1。

为了实现上述目的，本发明实施例还提供了一种针对网络平台发文的关键词提取装置，用于实现上述任一项所述的针对网络平台发文的关键词提取方法，所述装置包括：

数据收集模块，用于获取网络平台发文的文本内容、具有时间累积性质的统计量和文本发酵时间；

分析目标判断模块，用于判断关键词对应的分析目标是否具有时间累积性质；

概率分布标记模块，用于若是，则基于所述文本发酵时间，根据预设的标准化函数对所述统计量进行标准化处理，根据处理后的统计量获取所述分析目标对应的分析类别及其第一概率分布；若否，则根据预设分类确定所述分析目标对应的分析类别及其第一概率分布；

概率分布预测模块，用于根据训练后的语言模型预测所述文本内容在所述分析类别上的第二概率分布；

词语梯度获取模块，用于基于所述第一概率分布和所述第二概率分布，利用反向传播获得所述文本内容中的每一个词语的梯度；

关键词提取模块，用于根据所述每一个词语的梯度，获取在所述分析目标下的关键词的提取结果；

所述概率分布标记模块具体包括：

候选标准化函数选择单元，用于选择N个标准化函数及其参数取值范围；其中，N≥2，所述N个标准化函数为连续型概率密度函数，且满足概率密度随时间先增后减的趋势；

最佳标准化函数选择单元，用于通过K折交叉验证确定所述N个标准化函数及其参数取值范围中的最佳标准化函数及其最佳参数取值，并将所述最佳标准化函数及其最佳参数取值作为所述预设的标准化函数；

标准化处理单元，用于基于所述文本发酵时间，根据所述最佳标准化函数及其最佳参数取值对所述统计量进行标准化处理，获得所述处理后的统计量。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一项所述的针对网络平台发文的关键词提取方法。

本发明实施例还提供了一种终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器在执行所述计算机程序时实现上述任一项所述的针对网络平台发文的关键词提取方法。

与现有技术相比，本发明实施例提供了一种针对网络平台发文的关键词提取方法、装置、计算机可读存储介质及终端设备，首先，获取网络平台发文的文本内容、具有时间累积性质的统计量和文本发酵时间，并判断关键词对应的分析目标是否具有时间累积性质，若是，则基于所述文本发酵时间，根据预设的标准化函数对所述统计量进行标准化处理，根据处理后的统计量获取所述分析目标对应的分析类别及其第一概率分布，若否，则根据预设分类确定所述分析目标对应的分析类别及其第一概率分布；接着，根据训练后的语言模型预测所述文本内容在所述分析类别上的第二概率分布，并基于所述第一概率分布和所述第二概率分布，利用反向传播获得所述文本内容中的每一个词语的梯度；最后，根据所述每一个词语的梯度，获取在所述分析目标下的关键词的提取结果；本发明实施例能够解决在分析目标具有时间累积性质的情况下的统计量收集不对称的问题，并且能够适用于不同的分析目标切换，从而提高关键词提取的准确性。

附图说明

图1是本发明提供的一种针对网络平台发文的关键词提取方法的一个优选实施例的流程图；

图2是本发明实施例提供的基于发酵时间采用Rayleigh函数进行标准化后的均方根误差图；

图3是本发明实施例提供的基于发酵时间采用两个双曲函数进行标准化后的均方根误差图；

图4是本发明实施例提供的以发文互动量作为分析目标的关键词的提取结果图；

图5是本发明提供的一种针对网络平台发文的关键词提取装置的一个优选实施例的结构框图；

图6是本发明提供的一种终端设备的一个优选实施例的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本技术领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种针对网络平台发文的关键词提取方法，参见图1所示，是本发明提供的一种针对网络平台发文的关键词提取方法的一个优选实施例的流程图，所述方法包括步骤S11至步骤S16：

步骤S11、获取网络平台发文的文本内容、具有时间累积性质的统计量和文本发酵时间；

步骤S12、判断关键词对应的分析目标是否具有时间累积性质；

步骤S13、若是，则基于所述文本发酵时间，根据预设的标准化函数对所述统计量进行标准化处理，根据处理后的统计量获取所述分析目标对应的分析类别及其第一概率分布；若否，则根据预设分类确定所述分析目标对应的分析类别及其第一概率分布；

步骤S14、根据训练后的语言模型预测所述文本内容在所述分析类别上的第二概率分布；

步骤S15、基于所述第一概率分布和所述第二概率分布，利用反向传播获得所述文本内容中的每一个词语的梯度；

步骤S16、根据所述每一个词语的梯度，获取在所述分析目标下的关键词的提取结果。

具体的，首先，收集获取网络平台博主发文的数据进行整理和初步处理，相应获得文本内容、具有时间累积性质的统计量（例如发文的点赞数、转发数、评论数等）和文本发酵时间，并判断待提取的关键词所对应的分析目标是否具有时间累积性质（例如，若关键词的分析目标为情感倾向，则不具有时间累积性质；若关键词的分析目标为发文影响力、发文互动量（发文的点赞数、转发数、评论数之和）等，则具有时间累积性质），当待提取的关键词所对应的分析目标为具有时间累积性质的分析目标（下文将具有时间累积性质的分析目标简称为“第一分析目标”）时，先基于获得的文本发酵时间，利用预先设置的标准化函数对上述具有时间累积性质的统计量进行标准化处理，相应获得标准化处理后的统计量，再根据标准化处理后的统计量获取第一分析目标所对应的分析类别及其第一概率分布；当待提取的关键词所对应的分析目标为不具有时间累积性质的分析目标（下文将不具有时间累积性质的分析目标简称为“第二分析目标”）时，直接根据预设分类确定第二分析目标所对应的分析类别及其第一概率分布；接着，基于获得的文本内容，根据预先训练后的语言模型预测该文本内容在相应的分析类别上的第二概率分布，并基于获得的第一概率分布和第二概率分布，利用反向传播获得该文本内容中的每一个词语的梯度；最后，根据获得的该文本内容中的每一个词语的梯度，获取在相应的分析目标下的关键词的提取结果。

需要说明的是，可以通过获取网络平台博主发文所对应的代表关键词分析目标的特征，来判断关键词所对应的分析目标是否具有时间累积性质，其中，代表关键词分析目标的特征取决于分析目标自身；例如，若关键词分析目标为情感倾向，则代表关键词分析目标的特征为表示情感得分的数值；若关键词分析目标为发文影响力，则代表关键词分析目标的特征为衡量影响力的数值指标。

可以理解的，如果关键词所对应的分析目标是第一分析目标（包括但不限于发文影响力，具体的分析评价形式根据网络平台的不同会略有不同，例如，针对微博平台，可以根据发文的点赞数、转发数、评论数等评价发文影响力），则相对应的具有时间累积性质的统计量在获取时会存在数据的非对齐现象，因此，还需要获取文本发酵时间，并根据文本发酵时间和标准化函数对具有时间累积性质的统计量进行标准化处理，此时，标准化处理后的统计量能够去除文本发酵时间不同对第一分析目标所带来的影响；相应的，如果关键词所对应的分析目标是第二分析目标，其不具有时间累积性质，则无需获取文本发酵时间，也无需进行标准化处理。

本发明实施例所提供的一种针对网络平台发文的关键词提取方法，当关键词所对应的分析目标为具有时间累积性质的分析目标时，通过文本发酵时间和标准化函数对具有时间累积性质的统计量进行标准化处理，能够解决在分析目标具有时间累积性质的情况下的统计量收集不对称的问题，从而提高了关键词提取的准确性；同时，针对具有时间累积性质的分析目标和不具有时间累积性质的分析目标，分别设计了不同的处理方案，即使关键词对应的分析目标发生变化，也能够适用于不同的分析目标切换实现关键词提取，而不会影响关键词提取的准确性。

在另一个优选实施例中，所述基于所述文本发酵时间，根据预设的标准化函数对所述统计量进行标准化处理，具体包括：

具体的，结合上述实施例，针对具有时间累积性质的统计量在文本发酵时间上的数据标准化处理，可以预先准备N（N≥2）个标准化函数作为候选函数，同时设置每一个标准化函数的参数取值范围，并利用K折交叉验证，从这N个标准化函数及其参数取值范围中，找出满足一定条件的最佳标准化函数以及该最佳标准化函数的最佳参数取值，则基于获得的文本发酵时间，利用该最佳标准化函数及其最佳参数取值，对上述具有时间累积性质的统计量进行标准化处理，相应获得标准化处理后的统计量。

需要说明的是，结合网络平台发文的特点，例如，微博平台发文的互动量的变化趋势通常是在较短时间（如几个小时）内达到网络传播的最大速度，然后逐渐衰减至一个较低的水平，在选择标准化函数时，需要满足以下条件：标准化函数为连续的概率分布密度函数，并且其概率密度随时间呈现先上升后下降的总体趋势，所有满足该条件的函数均可以作为候选函数，进一步的，候选函数中的趋势变化的时间拐点和具体的上升及衰减速度根据网络平台的不同有所不同，而这一变化趋势可以由参数取值反映处理，因此，在选择合适的候选函数之后，还需要为每一个候选函数设置相应的参数取值范围，再利用K折交叉验证从候选函数中选择最合适的函数作为最佳标准化函数，同时从最佳标准化函数对应的参数取值范围选择最合适的参数取值作为最佳参数取值。

示例性的，可以选择如下三个标准化函数作为候选函数：

（1）Rayleigh函数：

；

（2）双曲函数：

；

（3）扩展的双曲函数：根据双曲函数表达式相应增加了

在

时的定义，使其整体的积分等于1，从而满足标准化函数是一个概率密度函数的定义；

其中，在上述三个标准化函数中，α表示衰减速率，Rayleigh函数达到峰值的时间与α有关（对应的时间拐点为

），τ表示变量（表示时间），δ表示两个双曲函数达到峰值的时间点（即时间拐点）。

上述三个标准化函数均满足概率密度随时间先增后减的趋势，选择上述三个标准化函数的目的是为了迎合网络平台发文的特点（例如微博平台发文互动量传播先增后减的趋势），在上述三个标准化函数中，共同的参数为α，因此，在确定最佳参数取值时，可以将δ设置为固定值，针对α设置一定的参数取值范围，例如，将δ固定为10，Rayleigh函数中的α参数取值范围为0.001~0.5，两个双曲函数中的α参数取值范围为0.5~5，再从α参数取值范围中确定最佳α参数取值。

可以理解的，为了简化方案将δ设置为相对符合实际的固定值，事实上，也可以使用与α类似的方法，设置δ参数取值范围，并从δ参数取值范围中搜索最佳δ参数取值。

作为上述方案的改进，所述通过K折交叉验证确定所述N个标准化函数及其参数取值范围中的最佳标准化函数及其最佳参数取值，具体包括：

获取所述网络平台发文的文本数据集，并获取所述文本数据集对应的博主特征、具有时间累计性质的第一统计量特征、第一发酵时间、不具有时间累计性质的第二统计量特征；

具体的，结合上述实施例，在通过K折交叉验证确定最佳标准化函数及其最佳参数取值时，可以先获取网络平台发文的文本数据集，并获取文本数据集对应的博主特征（例如粉丝量、关注数等）、具有时间累计性质的第一统计量特征（例如发文的点赞数、转发数、评论数等）、第一发酵时间、不具有时间累计性质的第二统计量特征（例如发文的文本字数等）；由于后续针对每一个标准化函数及其参数取值范围内的每一个参数取值的处理过程相同，因此，下面以针对第i（i=1，2，…，N）个标准化函数及其参数取值范围内的第j（j≥1，每一个参数取值范围内的参数取值的个数可以根据实际需求进行设置）个参数取值为例进行说明：

首先，将文本数据集随机划分成K（K≥2）部分，依次选定K部分中的每一部分作为测试集，剩下的K-1部分作为训练集，来进行标准化后的具有时间累计性质的第一统计量的预测任务，将博主特征和第二统计量特征作为输入，分别在每一个测试集上预测标准化后的具有时间累计性质的第一统计量，对应获得K个准化后的第一统计量；接着，通过对获得的K个准化后的第一统计量进行逆标准化处理，对应获得K个逆准化后的第一统计量（作为第一统计量的估计值），并计算K个逆准化后的第一统计量与上述具有时间累计性质的第一统计量特征（作为第一统计量的经过第一发酵时间发酵后的原始值）的均方根误差，该均方根误差即为第i个标准化函数及其参数取值范围内的第j个参数取值所对应的均方根误差，同理，可以获得N个标准化函数及其参数取值范围内的所有参数取值所对应的均方根误差；最后，根据计算获得的每一个标准化函数及其参数取值范围内的每一个参数取值所对应的均方根误差，找出均方根误差最小值，并将均方根误差最小值所对应的标准化函数及其参数取值范围内的参数取值作为最佳标准化函数及其最佳参数取值。

示例性的，假设将文本数据集随机划分成K=5部分数据，则存在以下5种训练集和测试集的组合方式：

A方式、将第2~5部分数据作为训练集，第1部分数据作为测试集；

B方式、将第1、3~5部分数据作为训练集，第2部分数据作为测试集；

C方式、将第1~2、4~5部分数据作为训练集，第3部分数据作为测试集；

D方式、将第1~3、5部分数据作为训练集，第4部分数据作为测试集；

E方式，将第1~4部分数据作为训练集，第5部分数据作为测试集。

假设需要进行标准化的具有时间累计性质的第一统计量用Y表示，标准化后用

表示，标准化过程可以表示为

，逆标准化后用

表示，逆标准化过程可以表示为

，其中，T表示第一发酵时间。

针对Rayleigh函数，α参数取值范围为0.001~0.5，假设j=6，在α参数取值范围有6 个α取值，包括α=0.001、0.005、0.01、0.05、0.1、0.5，则，当α=0.001时，基于K折交叉验证，在 A方式的情况下，在第1部分数据上对应预测获得一个

及

，在B方式的情况下，在第2部分数据上对应预测获得一个

及

，在C方式的情况下，在第3部分数据上对应预测获得一个

及

，在D方式的情况下，在第4部分数据上对应预测获得一个

及

，在E方式的情况下，在第5部分数据上对应预测获得一个

及

，共获得5个

，计算这5个

与Y的均方根误差，即为α=0.001所对应的均方根误差；同理，分别计算获得α=0.005、0.01、0.05、0.1、0.5所对应的均方根误差，共获得6个均方根误差，对应的均方根误差图如图2所示。

针对双曲函数和扩展的双曲函数，α参数取值范围为0.5~5，假设j=10，在α参数取值范围有10个α取值，同理，分别计算每一个α取值所对应的均方根误差，共获得10个均方根误差，对应的均方根误差图如图3所示。

根据图2和图3可以看出，选择扩展的双曲函数，并且当α=1时，对应的均方根误差最小，说明这样标准化后的Y最大程度的去除了发酵时间不同带来的影响，因此，可以选择扩展的双曲函数作为最佳标准化函数，并且最佳参数取值为α=1。

在又一个优选实施例中，所述方法还包括：

具体的，结合上述实施例，对于具有时间累计性质的第一统计量特征，其作为关键词的分析目标所对应的特征，是连续性的数值变量，则需要依据第一统计量特征在文本数据集中的分布情况，将第一统计量特征划分为至少两个分析类别。

示例性的，文本数据集中针对情感倾向作为分析目标的特征（即不具有时间累计性质的统计量），本身是离散性的，已经设置好了预设分类，例如，可以用0/1分类变量进行表示，0表示负面倾向，1表示正面倾向，因此，无需再次进行分类；而针对发文互动量作为分析目标的特征（即具有时间累计性质的统计量），发文互动量为连续性数值变量，则根据文本数据集中的整体互动量的分布情况，按照互动量的相对高低可以划分为2个分析类别，同样可以用0/1分类变量进行表示，将前50%高互动量的发文标记为1，即1表示高互动量发文，将后50%低互动量的发文标记为0，即0表示低互动量发文。

需要说明的是，本发明实施例是以两个分析类别为例进行说明，也可以包括两个以上的分析类别，分析类别的具体划分个数可以根据实际需求进行设置，本发明实施例不作具体限定。

在又一个优选实施例中，所述训练后的语言模型由嵌入矩阵、编码器和预测矩阵组成；

对所述文本内容进行分词，获得若干个词语；

需要说明的是，在根据训练后的语言模型预测文本内容在相应的分析类别上的第二概率分布之前，需要获取训练后的语言模型，即需要先选择一个自然语言模型，再对选定的自然语言模型进行训练，相应获得训练后的语言模型。

在选择一个自然语言模型时，其主要包括三部分：嵌入矩阵、编码器和预测矩阵；其中，嵌入矩阵是一个二维矩阵，其维度由文本数据集中词语的个数（即将文本数据集中的所有文本的每个句子进行分词后，所有句子所对应的词语的并集中的词语的个数）和嵌入维度决定（嵌入维度是一个自选参数，通常为256或者512），并且需要在词语总体的个数上额外加1用来表示Unknown；编码器采用具有前后向传播的神经网络结构，包括但不限于自然语言处理领域常见的编码器结构transformer等；预测矩阵也是一个二维矩阵，其维度由编码器最后一层的维度和分析目标的分析类别数量（例如上述示例中的2个分析列表）决定。

在对选定的自然语言模型进行训练时，如果文本数据集中的数据量足够，可以考虑从某一概率分布（如均值分布、正态分布等）中随机选择数值作为模型的初始参数，并使用梯度反向传播的训练方式对选定的自然语言模型进行训练；如果文本数据集中的数据量较少，也可以采用开源的模型参数（主要指的是编码器模型，因为它通常是最复杂的），并在当前的文本数据集上进行微调，例如，选取开源的transformer及其配套的嵌入矩阵参数，在此基础上进行微调；模型训练时的优化目标为最大化分析目标在分析类别上的分类准确率。

在获得训练后的语言模型之后，在根据训练后的语言模型预测文本内容在相应的分析类别上的第二概率分布时，可以先对文本内容进行分词，获得若干个词语，这些词语都包含在训练数据的词语中（未包含的词语统一用Unknown表示），再使用训练后的语言模型中的嵌入矩阵，将获得的每一个词语均映射成长度为嵌入维度的向量，并按顺序输入编码器中进行编码处理，相应获得编码处理结果，最后将获得的编码处理结果输入预测矩阵，通过预测均值计算输出文本内容整体在代表分析目标的分析类别上的第二概率分布。

作为上述方案的改进，所述基于所述第一概率分布和所述第二概率分布，利用反向传播获得所述文本内容中的每一个词语的梯度，具体包括：

计算获得所述第一概率分布和所述第二概率分布的交叉熵；

具体的，结合上述实施例，在根据训练后的语言模型输出文本内容在代表分析目标的分析类别上的第二概率分布之后，需要计算第二概率分布与上述已获得的第一概率分布（即通过上述实施例中的分析类别的划分情况对应标记的概率分布）之间的差异，在本实施例中，可以通过计算第一概率分布和第二概率分布之间的交叉熵来获得两者之间的差异，并将计算获得的交叉熵反向传播至训练后的语言模型的嵌入矩阵中，相应获得文本内容分析后的若干个词语中的每一个词语的梯度。

需要说明的是，交叉熵的计算方法可以表示为

，其中，

表示分析目标的第i个分析类别，

表示第一概率分布，

表示第二概率分布。

作为上述方案的改进，所述根据所述每一个词语的梯度，获取在所述分析目标下的关键词的提取结果，具体包括：

计算获得所述每一个词语的梯度的2-范数；

具体的，结合上述实施例，在获得文本内容所对应的若干个词语中的每一个词语的梯度之后，进一步的计算获得每一个词语的梯度的2-范数，并对所有词语的梯度的2-范数按照大小进行排序，相应获得排序结果，并且在排序结果中，2-范数越大，排名越靠前，则，将排序结果中排名前M（M≥1）位的2-范数所对应的词语作为在相应的分析目标下的关键词的提取结果。

需要说明的是，梯度的2-范数较大的那些词语，就是在当前分析目标下，对分析结果比较重要的显著关键词，M的取值可以根据实际情况进行设置，本发明实施例不作具体限定。

示例性的，针对每次发文，都提取文本内容中的排序结果的前10%显著的词语作为关键词，并将数据集中的关键词按照出现频率的大小绘制成词云图，以发文互动量作为分析目标的关键词的提取结果如图4所示。

本发明实施例还提供了一种针对网络平台发文的关键词提取装置，用于实现上述任一实施例所述的针对网络平台发文的关键词提取方法，参见图5所示，是本发明提供的一种针对网络平台发文的关键词提取装置的一个优选实施例的结构框图，所述装置包括：

数据收集模块11，用于获取网络平台发文的文本内容、具有时间累积性质的统计量和文本发酵时间；

分析目标判断模块12，用于判断关键词对应的分析目标是否具有时间累积性质；

概率分布标记模块13，用于若是，则基于所述文本发酵时间，根据预设的标准化函数对所述统计量进行标准化处理，根据处理后的统计量获取所述分析目标对应的分析类别及其第一概率分布；若否，则根据预设分类确定所述分析目标对应的分析类别及其第一概率分布；

概率分布预测模块14，用于根据训练后的语言模型预测所述文本内容在所述分析类别上的第二概率分布；

词语梯度获取模块15，用于基于所述第一概率分布和所述第二概率分布，利用反向传播获得所述文本内容中的每一个词语的梯度；

关键词提取模块16，用于根据所述每一个词语的梯度，获取在所述分析目标下的关键词的提取结果。

优选地，所述概率分布标记模块13具体包括：

优选地，所述最佳标准化函数选择单元具体用于：

优选地，所述装置还包括：

分析类别划分模块，用于根据所述第一统计量特征的值在所述文本数据集中的分布情况，将所述第一统计量特征划分为至少两个分析类别；

则，所述概率分布标记模块13还包括：

第一概率分布标记单元，用于根据所述处理后的统计量和所述至少两个分析类别，确定所述分析目标对应的分析类别及其第一概率分布。

优选地，所述训练后的语言模型由嵌入矩阵、编码器和预测矩阵组成；

则，所述概率分布预测模块14具体包括：

文本分词单元，用于对所述文本内容进行分词，获得若干个词语；

词语映射及编码单元，用于根据所述嵌入矩阵将每一个词语映射成向量，并按顺序输入所述编码器中进行编码处理，获得编码处理结果；

概率分布预测单元，用于将所述编码处理结果输入所述预测矩阵，计算输出所述第二概率分布。

优选地，所述词语梯度获取模块15具体包括：

交叉熵计算单元，用于计算获得所述第一概率分布和所述第二概率分布的交叉熵；

词语梯度获取单元，用于将所述交叉熵反向传播至所述嵌入矩阵中，获得所述若干个词语中的每一个词语的梯度。

优选地，所述关键词提取模块16具体包括：

2-范数计算单元，用于计算获得所述每一个词语的梯度的2-范数；

2-范数排序单元，用于获取所述每一个词语的梯度的2-范数的排序结果；其中，在所述排序结果中，2-范数越大，排名越靠前；

关键词提取单元，用于将所述排序结果中排名前M位的2-范数对应的词语作为在所述分析目标下的关键词的提取结果；其中，M≥1。

需要说明的是，本发明实施例所提供的一种针对网络平台发文的关键词提取装置，能够实现上述任一实施例所述的针对网络平台发文的关键词提取方法的所有流程，装置中的各个模块、单元的作用以及实现的技术效果分别与上述实施例所述的针对网络平台发文的关键词提取方法的作用以及实现的技术效果对应相同，这里不再赘述。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一实施例所述的针对网络平台发文的关键词提取方法。

本发明实施例还提供了一种终端设备，参见图6所示，是本发明提供的一种终端设备的一个优选实施例的结构框图，所述终端设备包括处理器10、存储器20以及存储在所述存储器20中且被配置为由所述处理器10执行的计算机程序，所述处理器10在执行所述计算机程序时实现上述任一实施例所述的针对网络平台发文的关键词提取方法。

优选地，所述计算机程序可以被分割成一个或多个模块/单元（如计算机程序1、计算机程序2、······），所述一个或者多个模块/单元被存储在所述存储器20中，并由所述处理器10执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述终端设备中的执行过程。

所述处理器10可以是中央处理单元（Central Processing Unit，CPU），还可以是其他通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，通用处理器可以是微处理器，或者所述处理器10也可以是任何常规的处理器，所述处理器10是所述终端设备的控制中心，利用各种接口和线路连接所述终端设备的各个部分。

所述存储器20主要包括程序存储区和数据存储区，其中，程序存储区可存储操作系统、至少一个功能所需的应用程序等，数据存储区可存储相关数据等。此外，所述存储器20可以是高速随机存取存储器，还可以是非易失性存储器，例如插接式硬盘，智能存储卡（Smart Media Card，SMC）、安全数字（Secure Digital，SD）卡和闪存卡（Flash Card）等，或所述存储器20也可以是其他易失性固态存储器件。

需要说明的是，上述终端设备可包括，但不仅限于，处理器、存储器，本领域技术人员可以理解，图6结构框图仅仅是上述终端设备的示例，并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

综上，本发明实施例所提供的一种针对网络平台发文的关键词提取方法、装置、计算机可读存储介质及终端设备，当关键词所对应的分析目标为具有时间累积性质的分析目标时，通过文本发酵时间和标准化函数对具有时间累积性质的统计量进行标准化处理，能够解决在分析目标具有时间累积性质的情况下的统计量收集不对称的问题，从而提高了关键词提取的准确性；同时，针对具有时间累积性质的分析目标和不具有时间累积性质的分析目标，分别设计了不同的处理方案，即使关键词对应的分析目标发生变化，也能够适用于不同的分析目标切换实现关键词提取，而不会影响关键词提取的准确性。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种针对网络平台发文的关键词提取方法，其特征在于，包括：

判断关键词对应的分析目标是否具有时间累积性质；

2.如权利要求1所述的针对网络平台发文的关键词提取方法，其特征在于，所述通过K折交叉验证确定所述N个标准化函数及其参数取值范围中的最佳标准化函数及其最佳参数取值，具体包括：

3.如权利要求2所述的针对网络平台发文的关键词提取方法，其特征在于，所述方法还包括：

4.如权利要求1所述的针对网络平台发文的关键词提取方法，其特征在于，所述训练后的语言模型由嵌入矩阵、编码器和预测矩阵组成；

对所述文本内容进行分词，获得若干个词语；

5.如权利要求4所述的针对网络平台发文的关键词提取方法，其特征在于，所述基于所述第一概率分布和所述第二概率分布，利用反向传播获得所述文本内容中的每一个词语的梯度，具体包括：

计算获得所述第一概率分布和所述第二概率分布的交叉熵；

6.如权利要求1~5中任一项所述的针对网络平台发文的关键词提取方法，其特征在于，所述根据所述每一个词语的梯度，获取在所述分析目标下的关键词的提取结果，具体包括：

计算获得所述每一个词语的梯度的2-范数；

7.一种针对网络平台发文的关键词提取装置，其特征在于，用于实现如权利要求1~6中任一项所述的针对网络平台发文的关键词提取方法，所述装置包括：

所述概率分布标记模块具体包括：

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求1~6中任一项所述的针对网络平台发文的关键词提取方法。

9.一种终端设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器在执行所述计算机程序时实现如权利要求1~6中任一项所述的针对网络平台发文的关键词提取方法。