CN112860883B

CN112860883B - 电力工单短文本热点话题识别方法、装置及终端

Info

Publication number: CN112860883B
Application number: CN202110171478.0A
Authority: CN
Inventors: 刘林青; 付文杰; 申洪涛; 杨迪; 马红明; 马浩; 吴迪
Original assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Hebei Electric Power Co Ltd; Marketing Service Center of State Grid Hebei Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Hebei Electric Power Co Ltd; Marketing Service Center of State Grid Hebei Electric Power Co Ltd
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2022-06-24
Anticipated expiration: 2041-02-08
Also published as: CN112860883A

Abstract

本发明适用于电力短文本处理技术领域，提供了电力工单短文本热点话题识别方法、装置及终端，其中，电力工单短文本热点话题识别方法，包括：获取电力工单短文本集，并对电力工单短文本集进行预处理得到电力工单短文本集对应的特征词集；基于LF‑BBTM主题模型，根据电力工单短文本集对应的特征词集确定电力工单短文本集的热点话题；其中，LF‑BBTM主题模型为基于BTM主题模型和潜在特征模型构建的主题模型。本发明可以提高电力工单短文本识别准确率，进一步优化电力数据处理过程，提高了数据处理效率。

Description

电力工单短文本热点话题识别方法、装置及终端

技术领域

本发明属于电力短文本处理技术领域，尤其涉及电力工单短文本热点话题识别方法、装置及终端。

背景技术

由于电力工单短文本篇幅较短、内容高稀疏性，并且上下文信息缺乏，人工分析方法在识别热点话题上存在低效率、实时性不高的问题，而且一些传统的主题识别方法也很难高效、准确地识别短文本的热点话题，因此，如何从这些短文本中高效、准确地识别热点话题已经成为了当前研究中的难点与重点问题。

目前，大多使用一种基于LDA(Latent Dirichlet Allocation，隐含狄利克雷分布)模型的电力工单文本热点主题的识别方法，但LDA模型对长文本的适用性较好，却不能很好地适用于短文本，可能会识别不准确。

发明内容

有鉴于此，本发明实施例提供了一种电力工单短文本热点话题识别方法、装置及终端，以解决采用现有技术识别电力工单短文本可能会识别不准确的问题。

本发明实施例的第一方面提供了一种电力工单短文本热点话题识别方法，包括：

获取电力工单短文本集，并对电力工单短文本集进行预处理得到电力工单短文本集对应的特征词集；

基于潜在特征突发词对主题模型(Latent Fearture-Bursty Biterm TopicModel，LF-BBTM)，根据电力工单短文本集对应的特征词集确定电力工单短文本集的热点话题；

其中，LF-BBTM主题模型为基于BTM主题模型和潜在特征模型构建的主题模型。

本发明实施例的第二方面提供了一种电力工单短文本热点话题识别装置，包括：

获取模块，用于获取电力工单短文本集，并对电力工单短文本集进行预处理得到电力工单短文本集对应的特征词集；

主题确定模块，用于基于LF-BBTM主题模型，根据电力工单短文本集对应的特征词集确定电力工单短文本集的热点话题；

本发明实施例的第三方面提供了一种终端，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上任一项电力工单短文本热点话题识别方法的步骤。

本发明实施例的第四方面提供了一种计算机可读存储介质，包括：计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现如上任一项多电力工单短文本热点话题识别方法的步骤。

本发明实施例与现有技术相比存在的有益效果是：本发明通过获取电力工单短文本集，并对电力工单短文本集进行预处理得到电力工单短文本集对应的特征词集；基于潜在特征突发词对主题模型(Latent Fearture-Bursty Biterm Topic Model，LF-BBTM)，根据电力工单短文本集对应的特征词集确定电力工单短文本集的热点话题；其中，LF-BBTM主题模型为基于BTM主题模型和潜在特征模型构建的主题模型。本发明基于LF-BBTM主题模型和可以提高电力工单短文本识别准确率，可以快速地确定热点话题，进一步优化电力数据处理过程，提高了数据处理效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的电力工单短文本热点话题识别方法的实现流程示意图；

图2是本发明实施例提供的一种短文本预处理流程的示意图；

图3是本发明实施例提供一种LF-BBTM图模型；

图4是本发明实施例提供的电力工单短文本热点话题识别装置的示意图；

图5是本发明实施例提供的终端示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为了说明本发明的技术方案，下面通过具体实施例来进行说明。

图1示出了本发明提供的电力工单短文本热点话题识别方法的实现流程示意图，参见图1，在本发明的一些实施例中，电力工单短文本热点话题识别方法，可以包括：

S101，获取电力工单短文本集，并对电力工单短文本集进行预处理得到电力工单短文本集对应的特征词集。

可选的，电力工单短文本集可以包括预设时间内的所有的电力工单短文本，电力工单短文本集可以根据实际需要选取。

S102，基于LF-BBTM主题模型，根据电力工单短文本集对应的特征词集确定电力工单短文本集的热点话题；

可选的，热点话题为最新的突发主题，即在预设需求时间内的突发主题，预设需求时间可以为1月，也可以为1天，还可以为1个小时。

示例性的，可以根据1个月内的电力工单短文本集，基于LF-BBTM主题模型，得到最新1天的热点话题。

可选的，可以在BTM(Biterm Topic Model，BTM)主题模型的基础上，在主题建模过程中引入潜在特征模型构建LF-BBTM主题模型。

本发明通过或取电力工单短文本集，并对电力工单短文本集进行预处理得到电力工单短文本集对应的特征词集；基于LF-BBTM主题模型，根据电力工单短文本集对应的特征词集确定电力工单短文本集的热点话题；其中，LF-BBTM主题模型为基于BTM主题模型和潜在特征模型构建的主题模型。本发明基于LF-BBTM主题模型和可以提高电力工单短文本识别准确率，可以快速地确定热点话题，进一步优化电力数据处理过程，提高了数据处理效率。

图2是本发明实施例提供的一种短文本预处理流程的示意图。

在本发明的一些实施例中，对电力工单短文本集进行预处理得到电力工单短文本集对应的特征词集，可以包括：

S1011，对电力工单短文本集划分时间片，得到每个时间片对应的电力工单短文本的集合。

可选的，划分时间片可以包括：对电力工单短文本集进行按时隙划分，即将电力工单短文本按照收到的日期以天为单位进行分片，按照时间将所有电力工单短文本进行排序，热点话题是在最新时间片上的突发主题。

S1012，对每个时间片对应的电力工单短文本的集合分别进行过滤处理，得到每个时间片对应的过滤后的电力工单短文本的集合。

可选的，过滤处理可以包括：删除少于预设字数的超短电力工单文本，并且去除文本中所有的标点符号，如可以删除少于10个字的超短电力工单文本。

S1013，对每个时间片对应的过滤后的电力工单短文本的集合分别进行分词和词性标注，得到每个时间片对应的各个过滤后的电力工单短文本的词集。

可选的，分词和词性标注可以包括：采用jieba分词技术作为分词工具将文本拆分成各种词语，并进行词性标注，以完成词义的分析。

S1014，对每个时间片对应的各个过滤后的电力工单短文本的词集分别进行去停用词处理，得到每个时间片对应的去停用词后的词汇集。

可选的，去停用词处理可以包括：采用哈工大停用词表来删除诸如“客户”“相关部门”“核实”等无意义的词，经过该技术的处理，不仅可以节省存储空间，减少后期研究过程中的数据冗杂问题，还可以提高热点话题识别的准确率。

S1015，对每个时间片对应的去停用词后的词汇集进行特征提取，得到电力工单短文本集对应的特征词集。

可选的，由于本文研究热点话题识别，有些词性的词话题性较小，如形容词、副词等，为了提高算法运行效率，实验数据仅保留名词和动词。

示例性的，假设有电力工单短文本：

文本内容：客户反映，收到户号为0681881530的电力短信，显示“该户号符合复电条件，给予复电”，但客户处并无欠费情况，客户表示近期经常收到此类短信，并且客户表示之前该户号被停电，客户来电查询后发现不欠费，客户就未交费，随后客户就收到该户号符合复电条件，给客户复电的短信，客户处就恢复了供电，客户对此表示不满。

经上述文本预处理后的文本信息如下所示：

处理后的文本内容：收到/户号/电力/短信/显示/符合/复电/条件/给予/复电/处/欠费/情况/收到/短信/停电/查询/发现/欠费/收到/符合/复电/条件/复电/短信/恢复。

在本发明的一些实施例中，基于LF-BBTM主题模型，根据电力工单短文本集对应的特征词集确定电力工单短文本集的热点话题，可以包括：

基于LF-BBTM主题模型，根据电力工单短文本集对应的特征词集确定电力工单短文本集对应的突发主题的分布概率和突发主题对应的词的分布概率；

根据电力工单短文本集对应的突发主题的分布概率和突发主题对应的词的分布概率确定电力工单短文本集的热点话题。

可选的，根据突发主题的分布概率，对突发主题进行排序，选取排序靠前的突发主题对应的词的作为热点话题。

在本发明的一些实施例中，可选的，根据经验选取α＝50/K，β＝0.01,μ＝0.01，δ＝0.5可以得到各个电力工单短文本的突发主题的分布概率的计算公式为：

其中，θ_k为突发主题k的分布概率，α为超参数，K为电力工单短文本集的突发主题的数量，k'为突发主题集中的第k'个突发主题，c_k为所有电力工单短文本的词对集中的词对被分配给突发主题k的数量，

为词对集中的词对被分配给所有突发主题的总数。

可选的，常见的词向量一般采用Word2Vec、GloVe等词向量模型对预处理后的文本集建模得到，但Word2Vec、GloVe等词向量模型都无法解决一词多义的问题，而BERT(Bidirectional Encoder Representations from Transformers)模型作为近几年提出的一种新的语言表征模型，其在大量语料训练基础上，考虑了词语在不同上下文的特殊表达，形成动态词向量，有效解决了一词多义的问题。因此，本发明采用BERT模型对电力工单短文本进行训练，经过双向的Transformer编码器，就可以训练得到动态词向量。

在本发明的一些实施例中，在潜在特征模型中，定义给定突发主题k时生成词w的概率为具有对数空间参数的多项分布，表示为：

MultiE(w|τ_k·ω^T)为词w在潜在特征模型中生成的概率，ω^T为从外部引入的已经训练好的词汇特征权值矩阵的转置矩阵，τ_k为突发主题k对应的潜在特征向量，ω_w为词w对应的潜在特征向量，ω_w'为词w'对应的潜在特征向量，W为整个语料库的词汇表大小，w'为词汇表中的第w'个词。

图3示出了本发明实施例提供的一种LF-BBTM图模型。

可选的，LF-BBTM主题模型生成过程可以表示为：

S201，对各个电力工单短文本分别对应的特征词集：

S2011，采样一个突发主题分布θ～Dirchlet(α)。

其中，突发主题为在该时间片上突然增多的主题。

S2012，采样一个背景词分布φ₀～Dirchlet(β)。

其中，背景词为非突发主题下的词汇。

S202，对每个突发主题k∈[1,K]，采样一个词分布φ_k～Dirchlet(β)。

S203，对词对集B中的词对b_i＝(w_i,1,w_i,2)，采样一个分布e_i～Bernoulli(η_b)。

如果e_i＝0，则抽取的两个词w_i,1,w_i,2～Multi(φ₀)；

如果e_i＝1，则抽取的突发主题z～Multi(θ)，采样一个指示变量s_i～Bernoulli(δ)，抽取的两个词w_i,1,w_i,2～(1-s_i)·Multi(φ_z)+s_i·Multi(τ_z·ω^T)。

其中，α、β、δ为超参数，e_i表示词对b_i的生成源，e_i＝0表示词对b_i是正常生成的，e_i＝1表示词对b_i是由某个突发主题生成的；指示变量s_i由伯努利分布分布采样得到，用来确定词对b_i是由主题-词汇多项式生成还是由潜在特征模型生成，s_i＝1表示词对b_i是通过潜在特征模型生成，s_i＝0表示词对b_i是通过主题-词汇多项式生成；ω为从外部引入的已经训练好的词汇特征权值矩阵，τ为主题特征权值矩阵，τ_k为突发主题k对应的潜在特征向量，ω_w为词w对应的潜在特征向量。

LF-BBTM相对BTM的改进之处在于BTM中的主题-词汇多项分布被替换为主题-词汇多项分布和潜在特征模型的混合，LF-BBTM中词汇不仅由主题-词汇多项分布生成，也有可能由潜在特征模型生成，外部的词向量信息融入生成过程中。

在本发明的一些实施例中，在LF-BBTM主题模型中，根据吉布斯采样算法对LF-BBTM主题模型的参数进行近似估计，表示为：

其中，α、β、δ为超参数，ω为从外部引入的已训练好的词汇特征权值矩阵，η为突发概率，τ为突发主题潜在特征向量，W为整个语料库的词汇表大小，B为各个突发主题对应的特征词集中任意两个词组成的词对集合，

为对词对集合B中的词对b_i＝(w_i,1,w_i,2)忽略不计，

为不包含词对b_i的二进制变量e_i的集合，

为不包含词对b_i的突发主题z的集合，

为不包含词对b_i的指示变量的集合，

为不包含词对b_i中词w_i,1被分配给背景词分布的次数，

为不包含词对b_i中词w_i,1被分配给突发主题k的次数，

为不包含词对b_i中词w_i,2被分配给突发主题k的次数，

为不包含词对b_i中词w_i,2被分配给突发主题k的次数，

为词对集中不包含词对b_i的词对被分配给所有主题的总数，

为词汇表中不包含词对b_i的词被分配给突发主题k的总词数，

为词汇表中不包含词对b_i的词被分配给背景词分布的总词数，MultiE(w_i,1|τ_k·ω^T)为词w_i,1在潜在特征模型中生成的概率，MultiE(w_i,2|τ_k·ω^T)为词w_i,2在潜在特征模型中生成的概率。

可选的，η_b的计算公式如下：

其中，(x)₊＝max(x,ε)，ε是一个很小的正数，用来避免概率为0，c_b为词对b出现的总次数，计算公式为：

表示词对b出现的总次数的均值，计算公式为：

其中，|M|为时间片t上的电力工单短文本数量，j表示时间片t上第j条短文本，c_b,j表示时间片t上词对b在第j条短文本中出现的次数，S表示时间片的数量。

可选的，采样s_i的公式为：

可选的，对于突发主题潜在特征向量τ，可以采用最大后验估计方法对每个突发主题k，求解过程如下：

突发主题k对应地施加了L₂正则化约束的负对数似然函数，可表示为：

其中，K^k,w为突发主题k下由潜在特征模型生成的词w的个数，μ为正则常数，对突发主题k对应的潜在特征向量的第j个元素τ_k,j求偏导数可得：

可选的，可以采用Mallet工具包中的L-BFGS求得是L_k最小化的主题向量τ_k。

示例性的，LF-BBTM的吉布吉斯采样算法可以如下算法1所示。

算法1：Gibbs sampling algorithm for LF-BBTM

输入：B,K,α,β,δ

输出：

Step1.随机初始化e和z

Step2.for iter＝1to N_iter do

Step3.for k＝1 to K

Step4.估计τ_k

Step5.end for

Step6.for each b_i＝(w_i,1,w_i,2)∈B do

Step7.估计e_i

Step8.if e_i＝0

Step9.更新

Step10.else

Step11.更新s_i,c_k,

Step12.end for

Step13.估计

和θ

Step14.end for

在本发明的一些实施例中，电力工单短文本热点话题识别方法还包括：

基于LF-BBTM主题模型，根据电力工单短文本集对应的特征词集确定电力工单短文本集的突发主题的分布概率和突发主题对应的词的分布概率；

基于突发主题的分布概率和突发主题对应的词的分布概率，根据突发主题的话题热度值确定热点话题；

其中，突发主题对应的词的分布概率计算公式为：

其中，φ_k,w为词w在突发主题k下的词的分布概率，β、δ为超参数，τ_k为突发主题k对应的潜在特征向量，ω_w为词w对应的潜在特征向量，ω_w'为词w'对应的潜在特征向量，W为整个语料库的词汇表大小，w'为词汇表中的第w'个词，c_k,w为词w被分配给突发主题k的次数，

为词汇表中的词被分配给突发主题k的总词数；

根据突发主题的话题热度值确定热点话题的话题热度值计算公式为：

H_{topic_w}＝λ·(tf_{topic_w}×idf_{topic_w})+(1-λ)·TI_{topic_w}

其中，H_{topic_w}为主题词topic_w的热度值，λ为融合系数且0<λ<1，

tf_{topic_w}为主题词topic_w的频率，计算公式为：

idf_{topic_w}为话主题词topic_w的逆文本频率，计算公式为：

TI_{topic_w}为主题词topic_w的影响力，计算公式为：

其中，W为整个语料库的词汇表大小，j为第j条电力工单短文本，w'为词汇表里第w'个词汇，|M|为预设时间片上的电力工单短文本数量，|{j:topic_w∈d_j}|为包含主题词topic_w的文本数量，φ_{k,topic_w}为主题词topic_w在突发主题k下的分布概率，θ_k为突发主题k分布概率。

可选的，可以根据主题分布概率对所有主题进行排序，保留前n个主题，并保留每个主题概率下前m个主题词，再根据上述话题热度值计算公式对主题进行定量的热度估计，对得到的话题热度值进行排序，选取排序在前的话题作为最终电力工单短文本热点话题。

本发明实施例提供的电力工单短文本热点话题识别方法，在BTM的基础上引入潜在特征模型，利用外部语料库中丰富的动态词向量信息，不仅解决了一词多义的问题，而且解决了电力工单短文本特征稀疏、上下文信息缺乏、高维度的问题，提高了热点话题识别的准确率；本发明提出了一种新的话题热度值计算方法，提高了热点话题识别的质量，满足了电力相关企业的应用需求。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

对应于上述电力工单短文本热点话题识别方法，本发明实施例还提供了一种电力工单短文本热点话题识别装置，和电力工单短文本热点话题识别方法具有同样的有益效果。参见图4，示出了本发明实施例提供的电力工单短文本热点话题识别装置的示意图，如图4所示，在本发明的一些实施例中，一种电力工单短文本热点话题识别装置40，可以包括：

获取模块401，用于获取电力工单短文本集，并对电力工单短文本集进行预处理得到电力工单短文本集对应的特征词集；

主题确定模块402，用于基于LF-BBTM主题模型，根据电力工单短文本集对应的特征词集确定电力工单短文本集的热点话题；其中，LF-BBTM主题模型为基于BTM主题模型和潜在特征模型构建的主题模型。

在本发明的一些实施例中，获取模块401可以包括划分单元、过滤单元、词处理单元、去停用词单元和特征提取单元；

划分单元，用于对电力工单短文本集划分时间片，得到每个时间片对应的电力工单短文本的集合；

过滤单元，用于对每个时间片对应的电力工单短文本的集合分别进行过滤处理，得到每个时间片对应的过滤后的电力工单短文本的集合；

词处理单元，用于对每个时间片对应的过滤后的电力工单短文本的集合分别进行分词和词性标注，得到每个时间片对应的各个过滤后的电力工单短文本的词集；

去停用词单元，用于对每个时间片对应的各个过滤后的电力工单短文本的词集分别进行去停用词处理，得到每个时间片对应的去停用词后的词汇集；

特征提取单元，用于对每个时间片对应的去停用词后的词汇集进行特征提取，得到电力工单短文本集对应的特征词集。

在本发明的一些实施例中，主题确定模块402可以包括概率确定单元和热点话题确定单元；

概率确定单元，用于基于LF-BBTM主题模型，根据电力工单短文本集对应的特征词集确定电力工单短文本集对应的突发主题的分布概率和突发主题对应的词的分布概率；

热点话题确定单元，用于根据电力工单短文本集对应的突发主题的分布概率和突发主题对应的词的分布概率确定电力工单短文本集的热点话题。

在本发明的一些实施例中，概率确定单元包括第一概率计算子单元；

第一概率计算子单元，用于计算电力工单短文本集的突发主题的分布概率，计算公式为：

为词对集中的词对被分配给所有突发主题的总数。

在本发明的一些实施例中，主题确定模块402还可以包括词概率确定单元；

词概率确定单元，用于确定在潜在特征模型中，定义给定突发主题k时生成词w的概率为具有对数空间参数的多项分布，表示为：

在本发明的一些实施例中，主题确定模块402还可以包括近似估计单元；

近似估计单元，用于在LF-BBTM主题模型中，根据吉布斯采样算法对LF-BBTM主题模型的参数进行近似估计，表示为：

为对词对集合B中的词对b_i＝(w_i,1,w_i,2)忽略不计，

为不包含词对b_i的二进制变量e_i的集合，

为不包含词对b_i的突发主题z的集合，

为不包含词对b_i的指示变量的集合，

为不包含词对b_i中词w_i,1被分配给背景词分布的次数，

为不包含词对b_i中词w_i,1被分配给突发主题k的次数，

为不包含词对b_i中词w_i,2被分配给突发主题k的次数，

为不包含词对b_i中词w_i,2被分配给突发主题k的次数，

为词对集中不包含词对b_i的词对被分配给所有主题的总数，

为词汇表中不包含词对b_i的词被分配给突发主题k的总词数，

在本发明的一些实施例中，电力工单短文本热点话题识别装置40还可以包括分布概率确定模块和热点话题确定模块；

分布概率确定模块，用于基于LF-BBTM主题模型，根据电力工单短文本集对应的特征词集确定电力工单短文本集的突发主题的分布概率和突发主题对应的词的分布概率；

热点话题确定模块，用于基于突发主题的分布概率和突发主题对应的词的分布概率，根据突发主题的话题热度值确定热点话题；

其中，突发主题对应的词的分布概率计算公式为：

为词汇表中的词被分配给突发主题k的总词数；

H_{topic_w}＝λ·(tf_{topic_w}×idf_{topic_w})+(1-λ)·TI_{topic_w}

tf_{topic_w}为主题词topic_w的频率，计算公式为：

idf_{topic_w}为话主题词topic_w的逆文本频率，计算公式为：

TI_{topic_w}为主题词topic_w的影响力，计算公式为：

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将终端的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述装置中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图5是本发明一实施例提供的终端的示意图。如图5所示，该实施例的终端50包括：一个或多个处理器502、存储器500以及存储在存储器500中并可在处理器502上运行的计算机程序501。处理器502执行计算机程序501时实现上述多目标配电网动态重构方法实施例中的步骤，例如图1所示的步骤S101至S102。或者，处理器502执行计算机程序501时实现上述多目标配电网动态重构装置的实施例中各模块/单元的功能，例如图4所示模块401至402的功能。

示例性地，计算机程序501可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器500中，并由处理器502执行，以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序501在终端50中的执行过程。例如，计算机程序501可以被分割成获取模块401和主题确定模块402。

主题确定模块402，用于基于LF-BBTM主题模型，根据电力工单短文本集对应的特征词集确定电力工单短文本集的热点话题；

其它模块或者单元可参照图4所示的实施例中的描述，在此不再赘述。

终端50包括但不仅限于处理器502、存储器500。本领域技术人员可以理解，图5仅仅是终端的一个示例，并不构成对终端50的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如终端50还可以包括输入设备、输出设备、网络接入设备、总线等。

处理器502可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器500可以是终端的内部存储单元，例如终端的硬盘或内存。存储器500也可以是终端的外部存储设备，例如终端上配备的插接式硬盘，智能存储卡(Smart MediaCard,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器500还可以既包括终端的内部存储单元也包括外部存储设备。存储器500用于存储计算机程序501以及终端所需的其他程序和数据。存储器500还可以用于暂时地存储已经输出或者将要输出的数据。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的终端和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种电力工单短文本热点话题识别方法，其特征在于，包括：

获取电力工单短文本集，并对所述电力工单短文本集进行预处理得到所述电力工单短文本集对应的特征词集；

基于LF-BBTM主题模型，根据所述电力工单短文本集对应的特征词集确定所述电力工单短文本集的热点话题；

其中，所述LF-BBTM主题模型为基于BTM主题模型和潜在特征模型构建的主题模型；采用BERT模型对电力工单短文本集进行训练，经过双向Transformer编码器，训练得到动态词向量；

在所述LF-BBTM主题模型中，根据吉布斯采样算法对所述LF-BBTM主题模型的参数进行近似估计，表示为：

其中，K为所述电力工单短文本集的突发主题的数量，α、β、δ为超参数，ω为从外部引入的已训练好的词汇特征权值矩阵，η为突发概率，τ为突发主题潜在特征向量，W为整个语料库的词汇表大小，B为各个突发主题对应的特征词集中任意两个词组成的词对集合，

为对所述词对集合B中的词对b_i＝(w_i,1,w_i,2)忽略不计，

为不包含词对b_i的二进制变量e_i的集合，

为不包含词对b_i的主题z的集合，

为不包含词对b_i的指示变量的集合，

N_B表示词对集合B中的词对数，

为不包含词对b_i中词w_i,1被分配给背景词分布的次数，

为不包含词对b_i中词w_i,2被分配给背景词分布的次数，

为不包含词对b_i中词w_i,1被分配给突发主题k的次数，

为不包含词对b_i中词w_i,2被分配给突发主题k的次数，

为所述词对集中不包含词对b_i的词对被分配给所有主题的总数，

为所述词汇表中不包含词对b_i的词被分配给突发主题k的总词数，

为所述词汇表中不包含词对b_i的词被分配给背景词分布的总词数，MultiE(w_i,1|τ_k·ω^T)为词w_i,1在潜在特征模型中生成的概率，MultiE(w_i,2|τ_k·ω^T)为词w_i,2在所述潜在特征模型中生成的概率；

η_b的计算公式如下：

表示词对b出现的总次数的均值，计算公式为：

其中，|M|为时间片t上的电力工单短文本数量，j表示时间片t上第j条短文本，c_b,j表示时间片t上词对b在第j条短文本中出现的次数，T表示时间片的数量，c_b,t为词对b在时间片t上出现的总次数；

所述电力工单短文本热点话题识别方法还包括：

基于LF-BBTM主题模型，根据所述电力工单短文本集对应的特征词集确定所述电力工单短文本集的突发主题的分布概率和所述突发主题对应的词的分布概率；

基于所述突发主题的分布概率和所述突发主题对应的词的分布概率，根据所述突发主题的话题热度值确定热点话题；

其中，所述突发主题对应的词的分布概率计算公式为：

为所述词汇表中的词被分配给突发主题k的总词数；

根据所述突发主题的话题热度值确定热点话题的话题热度值计算公式为：

H_{topic_w}＝λ·(tf_{topic_w}×idf_{topic_w})+(1-λ)·TI_{topic_w}

tf_{topic_w}为主题词topic_w的频率，计算公式为：

idf_{topic_w}为话主题词topic_w的逆文本频率，计算公式为：

TI_{topic_w}为主题词topic_w的影响力，计算公式为：

其中，W为整个语料库的词汇表大小，j为时间片t上第j条电力工单短文本，w'为词汇表里第w'个词汇，|M|为预设时间片上的电力工单短文本数量，|{j:topic_w∈d_j}|为包含主题词topic_w的文本数量，φ_{k,topic_w}为主题词topic_w在突发主题k下的分布概率，θ_k为突发主题k分布概率。

2.如权利要求1所述的电力工单短文本热点话题识别方法，其特征在于，所述对所述电力工单短文本集进行预处理得到所述电力工单短文本集对应的特征词集，包括：

对所述电力工单短文本集划分时间片，得到每个时间片对应的电力工单短文本的集合；

对所述每个时间片对应的电力工单短文本的集合分别进行过滤处理，得到每个时间片对应的过滤后的电力工单短文本的集合；

对所述每个时间片对应的过滤后的电力工单短文本的集合分别进行分词和词性标注，得到每个时间片对应的各个过滤后的电力工单短文本的词集；

对所述每个时间片对应的各个过滤后的电力工单短文本的词集分别进行去停用词处理，得到每个时间片对应的去停用词后的词汇集；

对所述每个时间片对应的去停用词后的词汇集进行特征提取，得到所述电力工单短文本集对应的特征词集。

3.如权利要求1所述的电力工单短文本热点话题识别方法，其特征在于，所述基于LF-BBTM主题模型，根据所述电力工单短文本集对应的特征词集确定所述电力工单短文本集的热点话题，包括：

基于LF-BBTM主题模型，根据所述电力工单短文本集对应的特征词集确定所述电力工单短文本集对应的突发主题的分布概率和突发主题对应的词的分布概率；

根据所述电力工单短文本集对应的突发主题的分布概率和突发主题对应的词的分布概率确定所述电力工单短文本集的热点话题。

4.如权利要求3所述的电力工单短文本热点话题识别方法，其特征在于，

所述电力工单短文本集的突发主题的分布概率的计算公式为：

其中，θ_k为突发主题k的分布概率，α为超参数，K为所述电力工单短文本集的突发主题的数量，k'为突发主题集中的第k'个突发主题，c_k为所有电力工单短文本的词对集中的词对被分配给突发主题k的数量，

为所述词对集中的词对被分配给所有突发主题的总数。

5.如权利要求1所述的电力工单短文本热点话题识别方法，其特征在于，在所述潜在特征模型中，定义给定突发主题k时生成词w的概率为具有对数空间参数的多项分布，表示为：

MultiE(w|τ_k·ω^T)为词w在所述潜在特征模型中生成的概率，ω^T为从外部引入的已经训练好的词汇特征权值矩阵的转置矩阵，τ_k为突发主题k对应的潜在特征向量，ω_w为词w对应的潜在特征向量，ω_w'为词w'对应的潜在特征向量，W为整个语料库的词汇表大小，w'为所述词汇表中的第w'个词。

6.一种电力工单短文本热点话题识别装置，其特征在于，包括：

获取模块，用于获取电力工单短文本集，并对所述电力工单短文本集进行预处理得到所述电力工单短文本集对应的特征词集；

主题确定模块，用于基于LF-BBTM主题模型，根据所述电力工单短文本集对应的特征词集确定所述电力工单短文本集的热点话题；

主题确定模块包括近似估计单元；

近似估计单元，用于在所述LF-BBTM主题模型中，根据吉布斯采样算法对所述LF-BBTM主题模型的参数进行近似估计，表示为：

为对所述词对集合B中的词对b_i＝(w_i,1,w_i,2)忽略不计，

为不包含词对b_i的二进制变量e_i的集合，

为不包含词对b_i的主题z的集合，

为不包含词对b_i的指示变量的集合，

N_B表示词对集合B中的词对数，

为不包含词对b_i中词w_i,1被分配给背景词分布的次数，

为不包含词对b_i中词w_i,2被分配给背景词分布的次数，

为不包含词对b_i中词w_i,1被分配给突发主题k的次数，

为不包含词对b_i中词w_i,2被分配给突发主题k的次数，

η_b的计算公式如下：

表示词对b出现的总次数的均值，计算公式为：

所述识别装置还包括分布概率确定模块和热点话题确定模块；

分布概率确定模块，用于基于LF-BBTM主题模型，根据所述电力工单短文本集对应的特征词集确定所述电力工单短文本集的突发主题的分布概率和所述突发主题对应的词的分布概率；

热点话题确定模块，用于基于所述突发主题的分布概率和所述突发主题对应的词的分布概率，根据所述突发主题的话题热度值确定热点话题；

其中，所述突发主题对应的词的分布概率计算公式为：

为所述词汇表中的词被分配给突发主题k的总词数；

H_{topic_w}＝λ·(tf_{topic_w}×idf_{topic_w})+(1-λ)·TI_{topic_w}

tf_{topic_w}为主题词topic_w的频率，计算公式为：

idf_{topic_w}为话主题词topic_w的逆文本频率，计算公式为：

TI_{topic_w}为主题词topic_w的影响力，计算公式为：

7.一种终端，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述电力工单短文本热点话题识别方法的步骤。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述电力工单短文本热点话题识别方法的步骤。