CN115238867A

CN115238867A - 一种基于客服非结构化数据智能识别的电力故障定位方法

Info

Publication number: CN115238867A
Application number: CN202210895103.3A
Authority: CN
Inventors: 周辰南; 王建永; 陈非; 黄锋涛; 洪雨天; 徐培瑶; 林超
Original assignee: Guangdong Electric Power Information Technology Co Ltd
Current assignee: Guangdong Electric Power Information Technology Co Ltd
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2022-10-25
Anticipated expiration: 2042-07-28
Also published as: CN115238867B

Abstract

本发明提供一种基于客服热线非结构化数据识别的电力故障定位方法，分析并识别语音客服热线获取的非结构化语音数据，通过用户语音内容提取与故障发生位置相关的信息，并结合来电的已知信息综合实现故障定位，提高故障定位的效率，降低人工工作量。与基于传感器的结构化数据定位方法相比，本发明以用户报障为数据源，可以发现传感器难以发现的隐性故障，避免传感器的误报情形，有利于快速、准确的对客户端故障做出响应。此外，本发明方法在对语音进行分析时，不局限于单一客户的语音，而是将大量用户的语音作综合分析，提高了系统对噪声的鲁棒性；本发明方法不直接识别用户语音的内容，而是通过语音的综合对比实现分析，有助于保护客户隐私。

Description

一种基于客服非结构化数据智能识别的电力故障定位方法

技术领域

本发明涉及电力故障定位领域，特别的涉及一种基于客服热线非结构化数据识别的电力故障定位方法。

背景技术

故障解决是电力电网部门服务客户的重要内容，是电力客服热线承担的主要责任之一。电力行业是承载国家经济命脉的重要基础行业，电力故障具有次数频、影响大、难定位等诸多难题。由于电网设备数量多、运行复杂，对电力故障进行定位和处理的难度大，由于定位效率低，延误了故障的处理，从而导致故障范围扩散、故障破坏加重的事件时有发生。为此，第一时间对故障进行定位是电网安全稳定运行的首要任务和必要手段。

随着信息技术的发展，基于大数据和计算机智能分析技术的智能系统在工业上取得了广泛应用，在电力行业也取得了推广。现有智能系统被用于客服系统的智能报修、智能顾问、满意度调查等方面，提高了企业服务客户的效率，提升了客户的满意度。此外，也有一些智能系统被用于运营维护方面，例如使用大规模终端传感器监测设备运行状态，将传感器采集数据通过无线网络等传输到后台，实施集中分析，发现潜在故障。智能系统在电力行业的应用取得了一定效果。

智能系统在电力行业的应用按数据类型分为结构化数据和非结构化数据两类。结构化数据是指数据本身具备一定的确定结构，例如温度传感器采集到温度数据，电流传感器采集到电流等，这些数据的特点是具备共同属性，因而容易归类，便于分析，如前述第二类应用。非结构化数据是指数据本身结构不确定，或者不容易归为确定的类别，例如语音、图像，很难评估两幅图像是否相似，或者两段话的含义是否相同，因此非结构化数据不便于实施分析。新的智能分析技术可以实现对语音、图像等非结构化数据的分析，并完成一定的任务，例如前述第一类智能客服应用。然而由于非结构化数据的复杂性，此类应用在实施时多针对单一客户数据，以降低数据的复杂度，但在防止噪声(比如故意打电话的用户)和隐私保护方面存在问题。因此，电力行业目前还是以对结构化数据分析为主，处理分析大规模非结构化数据、特别是在线分析大规模非结构化数据的电力行业应用案例较少，鲜见公开报道。

现有技术中虽然也有人提出使用语音处理算法来识别客户语音信息，但由于算法复杂、识别准确率低，因此通常只作为辅助手段，识别出的内容还需要交给人工分析判断，不能自动进行故障位置定位。也有一些现有技术提出根据客户语音内容进行定位，这样全部依赖于客户报告的位置，有时也会因为误报等问题导致定位错误。面对大量客户同时报障时，运维人员只能逐个排查，耗时耗力。而且现有技术提取过多客户信息也会造成非必要的隐私泄露。

因此，如何对客服的非结构化数据进行识别、分类，并利用其进行准确定位是亟待解决的技术问题。

发明内容

本发明创新的提出一种基于客服热线非结构化数据识别的电力故障定位方法，分析并识别语音客服热线获取的非结构化语音数据，通过用户语音内容提取与故障发生位置相关的信息，并结合来电的已知信息综合实现故障定位，提高故障定位的效率，降低人工工作量。电话语音客服热线报障是电力用户故障报修的主要渠道，也是最广泛使用的渠道。与基于传感器的结构化数据定位方法相比，本发明所述方法以用户报障为数据源，可以发现传感器难以发现的隐性故障，避免传感器的误报情形，有利于快速、准确的对客户端故障做出响应。此外，本发明方法在对语音进行分析时，不局限于单一客户的语音，而是将大量用户的语音作综合分析，提高了系统对噪声的鲁棒性；本发明方法不直接识别用户语音的内容，而是通过语音的综合对比实现分析，有助于保护客户隐私。

一种基于客服热线非结构化数据识别的电力故障定位方法，包括：

步骤1：语音客服热线的非结构化语音数据获取与预处理：获取用户报故障的录音，并进行空白去除、音素切分、音素频域转换、计算音素的能量谱，最终由音素的能量谱E_n(m)组成向量，称为音素的特征向量；

步骤2：基于音素特征向量的报障信息激活检测：

在能量谱集合上作滑动窗口处理，获得能量谱矩阵；

将能量谱矩阵作为神经网络模型的输入，神经网络模型的输出为是否含有报障关键词；

其中神经网络的激励函数为：

步骤3：故障记录、分析和定位方法

故障记录模块收到步骤2输出含有报障关键词，判定发生一起报障，记录下报障的信息，并查询报障地理位置，将地理坐标给故障定位模块；

当故障记录模块在一段时间内连续收到报障数量超过阈值F，则故障定位模块根据报障的地理坐标分析发生故障的位置：

设故障位置数γ＝2；

S31、任意选取F个地理位置中的γ个参考位置，记为

利用

计算得到集合

和

其中

表示F个地理位置中与

的距离比与其它位置更近的位置的集合，

表示F个地理位置中与

的距离比与其它位置更近的位置的集合；

S32、计算集合

和

的位置中心

S33、利用

替换S31步骤中的

重复S31-S32步骤迭代，直至收敛；

S34、取迭代步骤收敛并停止时获得的最终集合

找到其中包含元素最多的一个集合，计算其所有元素的均值M_γ；判断如下条件C1是否满足：

C1：如果|M_γ-M|＜T_M，则在地理位置数据库中查找与M_γ位置距离最近的统计单元，并发布一条该单元发生故障的信息，供故障处理单位参考；其中T_M是经验阈值，M是所有故障点的位置平均值；

如果|M_γ-M|＞T_M，取参数γ＝γ+1，重复步骤S31-S33，直至满足条件C1，或γ＝5。

本发明的发明点及技术效果：

1、本发明创新的提出一种基于客服热线非结构化数据识别的电力故障定位方法，实现对语音客服热线非结构化语音数据的分析和识别，获取故障信息，实现自动报障，通过对大量故障信息的进一步分析，实现故障的定位，有助于更早、更精确的发现电力故障，提升电网运行安全。

2、优化了非结构化语音数据获取与预处理方法，从电话语音客服热线获取用户接入报障的录音，将原始声音信号经采样、量化后转换为数字音频，再通过特定的预处理方法转换为特征向量，将其作为语音信息的识别特征，可以高效识别所需特定报障信息的声音特征，从而使得可以在较小的数据计算量下在神经网络处理时能够获得更加准确的识别结果。

3、优化了神经网络模型结构，例如激励函数等，使得故障信息能够被及时、准确提取，保证了故障识别的快速和准确，并且与同类功能智能识别方法相比，隐私泄露风险显著降低。

4、利用神经网络识别结果通过集合迭代方法进行故障定位，能够实现故障位置的全自动化输出，且定位准确、快速，便于运维人员维修解决，并且采用规模化的用户报障记录降低单一用户数据噪声的影响。

附图说明

图1为本发明基于客服热线非结构化数据识别的电力故障定位方法的流程图。

具体实施方式

如图1所示，基于客服热线非结构化数据识别的电力故障定位方法包括：

步骤1：语音客服热线的非结构化语音数据获取与预处理方法

从电话语音客服热线获取用户接入报故障的录音，将原始声音信号经采样、量化后转换为数字音频，再通过预处理方案转换为特征向量，用于在后续方法中实施进一步分析。

用户致电客服热线并选择报障后，提示用户描述故障情况。用户挂机后，将前述录音内容输入预处理模块做处理。

S11、预处理模块根据用户来电信息判断用户是否为黑名单用户，如果属于黑名单用户，则自动丢弃此次通话录音，流程结束。否则继续。

S12、预处理模块根据用户来电信息和近期客服热线的来电记录判断用户是否在近期有过重复来电，如果有，将用户非首次来电通话录音置信权值调低。

S13、预处理模块对通话录音进行人声过滤，将录音的原始声音信号通过带通滤波器，使远低于人声频率和远高于人声频率的声音被过滤，过滤后的声音信号人声更为突出。

S14、对前序步骤处理后的声音信号作采样、量化，形成数字音频，由若干对原始声音的时序采样样本组成。

S15、对数字音频作如下处理，去掉空白声区。

计算整段数字音频的平均强度。

将空白声区划分为若干小段，每一小段长度为50ms，使足以包含后续步骤中可识别的音素，且为音素长度的2倍。

测试上述每一小段数字音频，如果该段数字音频强度小于10分贝，或该段数字音频强度小于整段音频平均强度超过30分贝，将该小段音频从整段音频中去除。

留下的若干音频小段按时间顺序重新拼接成一段不超过原始时长的数字音频。

S16、将S15获得的一段数字音频按照下列方法切成若干音素。

令s(t)表示S15获得的整段数字音频，r表示采样间隔，一般为r＝1/16000＝6.25*10^-5秒.用于声音特征向量表达的声音基元称为音素，是一小段连续采样样本的集合，Δ表示音素时长，δ＝400表示音素包含的采样样本数，Δ＝δr＝25毫秒。Ω表示特征偏移窗口的时长，Ω＝10毫秒。特征偏移窗口小于音素时长，使音素的集合能够捕捉更为丰富的声音特征，提高识别性能。

S17、根据音素时长、特征偏移窗口时长将数字音频分割为若干音素。

s_n(t)＝s(t+nΩ)…(1)

n表示分割后音素的序号，n＝0，1，...。

S18、求取分割后的音素的能量谱：

其中，S_n(η)表示s_n(t)的频域变换：

K_m(η)表示带通滤波器：

由音素的能量谱E_n(m)组成的向量称为音素的特征向量。

将声音信号切分为音素的局部时间序列，以提取声音信号的局部周期性特征；通过设置矩形带通滤波器过滤特定频率上的噪声，可以使信号的局部周期性特征更加明显，与经典梅尔滤波器组相比的计算效率更高。两者结合组成音素的特征向量，作为语音信息的识别特征，可以高效识别所需特定报障信息的声音特征。

步骤2：基于音素特征向量的报障信息激活检测方法

根据音素特征向量检测输入音频中是否包含报告故障的内容，当发现有报障内容时激活故障记录模块。

音素作为声音识别的基本单元，用于表示可被识别的最小声音单元。若干音素联合可以表示具有一定语义的语音。用户通过客服热线报障时，会说某些关键词如“停电”、“电压不稳”等。建立机器学习模型对这些关键词语音进行学习，使模型可以自主识别一段语音中是否包含关键词，实现发现报障信息、激活故障记录的功能。

上述模型仅对关键词的存在状态进行识别，而不识别语音的具体内容，作为一种附加效果，与其它智能模型相比，显著降低了客户信息泄露的风险。

独立的音素反映声音特征，但不足以表达具有含义的语音，因此将一段连续的音素集合起来实施报障信息检测。

一段原始数字音频经步骤1处理后得到若干音素，其能量谱集合为{E_n(m)}。在能量谱集合上作滑动窗口处理，每次滑动可以获得W≥1个能量谱：

为一矩阵，其行数、列数分别为

W为能量谱矩阵的窗口大小。

一段原始数字音频经处理后可获得多个重叠的能量谱矩阵，每个矩阵对应于一段时间的声音信号。每个矩阵作为模型的输入要素，用于检测声音中是否包含关键词。能量谱矩阵的窗口大小W根据经验值选取，过小的窗口会导致窗口无法覆盖完整关键词，造成检测性能下降，过大的窗口增加计算量，也容易造成过拟合。经过实验优选W＝9。

建立神经网络模型如下。

其中

n为任一音素序号，表示任一能量谱矩阵，m，θ为能量谱矩阵的元素坐标，

表示矩阵卷积窗，提取能量谱矩阵的局部特征，

表示矩阵卷积窗的编号，

表示256个独立卷积窗口，选取多个独立卷积窗口，使模型可以对不同形态的语音特征进行建模；u，∈表示卷积窗内坐标，与能量谱矩阵坐标联合表示以能量谱矩阵某个坐标为基准的偏移，-2≤u，∈≤2定义了卷积窗大小为5*5，β₁表示线性偏置参数。σ为一非线性函数，定义如下：

非线性函数σ(x)的作用是使识别模型能够对非线性映射进行建模。采用分段指数函数建立非线性模型，可以抑制输入信号的背景人声，即非报障人本人的语音信号，可以进一步提高识别性能。

进一步的，定义：

其中，

表示矩阵卷积窗，提取能量谱矩阵的局部特征，

表示矩阵卷积窗的编号，取值与式(5)相同，u，∈表示卷积窗内坐标，与(5)不同的是调整了卷积窗u坐标的范围，使模型可以对能量谱矩阵m坐标下不同尺度的特征建模，β₂表示线性偏置参数。σ定义如(6)。

进一步的，定义：

其中，

表示矩阵卷积窗，提取能量谱矩阵的局部特征，

表示矩阵卷积窗的编号，取值与式(5)相同，u，∈表示卷积窗内坐标，β₃表示线性偏置参数。

进一步的，定义：

其中，

表示矩阵卷积窗，提取能量谱矩阵的局部特征，

表示矩阵卷积窗的编号，取值与式(5)相同，u，∈表示卷积窗内坐标，β₄表示线性偏置参数。

进一步的，定义：

其中，

表示矩阵卷积窗，提取能量谱矩阵的局部特征，

表示矩阵卷积窗的编号，取值与式(5)相同，u，∈表示卷积窗内坐标，β₅表示线性偏置参数。

由于不同类型关键词的语音信号周期不同，因此其所对应的时序特征的卷积窗大小不同。式(5)、(7)-(10)采用不同大小的卷积窗对能量谱矩阵的特征进行建模，以便增加模型的适应性，提取不同类型的报障关键词。

进一步的，定义：

上式中，j，k分别表示与m，θ取值范围相同的自由变量；ω₆(j，k，q)表示

与H₆(q)对应的线性权值.β₆表示线性偏置参数。σ为式(6)定义函数。H₆(q)是神经网络的全连接层，为512维向量。

通过全连接层建立不同关键词之间的相关性，使模型可以利用关键词之间的相关性正确判别包含报障目的的语音，提高识别的性能。

定义神经网络的输出层：

定义：

上式y表示神经网络模型的输出，ψ(j)表示线性权值，对应于H₆(q)的各元素。β₇表示线性偏置参数。

准备不同人员、不同报障关键词的录音，并按前述步骤生成能量谱矩阵，作为学习正样本，正样本的输出标记为1；准备不包含关键词的录音，按前述步骤生成能量谱矩阵，作为学习负样本，负样本的输出标记为0.设样本的真实输出为

根据模型的预测输出为y，定义：

式中a，b＞0用于防止噪声与局部特征混淆，提高模型的稳定性，优选a＝3，b＝1/3。采用BP算法并根据(13)定义的代价函数迭代优化神经网络模型(5)-(12)，求取各层中的权值参数和偏置参数，完成学习。

神经网络参数学习完成后，从用户拨打客服热线的语音中按时序滑动提取能量谱矩阵，输入神经网络模型，判断窗口音频是否包含关键词，如果输出y＞0.6，认为该段语音包含关键词，激活故障记录模块。

步骤3：故障记录和定位方法

故障记录模块收到步骤2模型的报障信息，判定发生一起报障，记录下报障的信息，并根据报障信息(如手机号码)在客户信息库查询对应的登记地理位置，查询完成后返回二维的地理坐标给故障定位模块。

当故障记录模块在一段时间内(如T＝10分钟)连续收到超过F起报障(如F＞20)，则激活故障定位模块，根据报障的地理坐标分析发生故障的位置。

取参数γ＝2，对F起报障的地理位置进行测试：

令M表示F起报障的地理位置的平均值。

S31、任意选取F个地理位置中的γ个参考位置，记为

对于F个地理位置，计算：

式中f表示F个地理位置中某一个，

表示前述任意选取的γ个参考位置，

表示F个地理位置中与

的距离比与其它参考位置更近的位置的集合，

表示F个地理位置中与

的距离比与其它参考位置更近的位置的集合，||表示几何欧氏距离，

表示集合中任意元素满足某条件。

S32、进一步的，计算：

其中Size含义为集合的大小吧，也就是集合元素的个数。

S33、将S31中

分别替换为(15)的结果

并重新按(14)计算，获得

如果

与其前一步获得的集合

均对应相等(或小于某个阈值)，则前往步骤S34，否则重复步骤S32、S33，直至符合对应相等条件，即迭代过程最终收敛。

S34、取S32、S33的迭代步骤收敛并停止时获得的最终集合

找到其中包含元素最多的一个集合，计算其所有元素的均值M_γ。判断如下条件C1是否满足。

C1：如果|M_γ-M|＜T_M，则在地理位置数据库中查找与M_γ位置距离最近的统计单元(小区、工厂、变电站等具有现实管理意义的场所)，并发布一条该单元发生故障的信息，供故障处理单位参考。T_M是阈值，可根据经验或大量实验获取；M是所有故障点的位置平均值。故障处理单位根据发生故障的位置信息，结合电力线路和设备运行图即可相对准确判断哪一线路或哪一设备发生的故障。

采用上述迭代方法分析故障发生的位置，避免单一报障信息造成的误差，当故障发生时，根据故障发生的分布来定位故障发生的位置，可以有效降低虚警率。

通过对大量报障信息进行统计，自动定位故障发生的地理位置，提高电力故障定位的效率，降低人工工作量。

本发明提出一种基于客服热线非结构化数据识别的电力故障定位方法，采用智能非结构化数据识别、分析方法，通过对语音平台客户报障语音进行智能识别，定位发生故障的位置，提高电力故障发现的效率。通过本发明方法应用前后的运行数据表明，本发明方法将平均故障发现时间由0.6小时降低到0.2小时，报障准确率由30％提高到78％，严重事故发生率由1.2％降低到0.8％，取得显著应用效果。

本发明的系统结构

预处理模块：用于对语音客服热线的非结构化语音数据进行预处理：获取用户报故障的录音，并进行空白去除、音素切分、音素频域转换、计算音素的能量谱，最终由音素的能量谱E_n(m)组成向量，称为音素的特征向量；

报障信息激活检测模块：用于在能量谱集合上作滑动窗口处理，获得能量谱矩阵；将能量谱矩阵作为神经网络模型的输入，神经网络模型的输出为是否含有报障关键词；

故障记录模块：故障记录模块用于在收到报障关键词时，判定发生一起报障，记录下报障的信息，并查询报障地理位置，将地理坐标给故障定位模块；

故障定位模块：用于在当故障记录模块在一段时间内连续收到报障数量超过阈值F时，根据报障的地理坐标分析发生故障的位置。

Claims

1.一种基于客服非结构化数据智能识别的电力故障定位方法，其特征在于：

步骤1：语音客服热线的非结构化语音数据获取与预处理：获取用户报故障的录音，并进行空白去除、音素切分、音素频域转换、计算音素的能量谱，最终由音素的能量谱E_n(m)组成向量，称为音素的特征向量；其中：

其中，δ表示音素包含的采样样本数；

步骤2：基于音素特征向量的报障信息激活检测：

在能量谱集合上作滑动窗口处理，获得能量谱矩阵；

其中神经网络的激励函数为：

步骤3：故障记录、分析和定位方法

故障记录模块收到步骤2输出含有报障关键词，判定发生一起报障，记录下报障的信息，并查询报障地理位置，将地理坐标给故障定位模块；当故障记录模块在一段时间内连续收到报障数量超过阈值F，则故障定位模块根据报障的地理坐标分析发生故障的位置：

设故障位置数γ＝2；

S31、任意选取F个地理位置中的γ个参考位置，记为

利用

计算得到集合

和

其中

表示F个地理位置中与

的距离比与其它位置更近的位置的集合，

表示F个地理位置中与

的距离比与其它位置更近的位置的集合；

S32、计算集合

和

的位置中心

S33、利用

替换S31步骤中的

重复S31-S32步骤迭代，直至收敛；

S34、取迭代步骤收敛并停止时获得的最终集合

2.根据权利要求1所述的基于客服热线非结构化数据识别的电力故障定位方法，其特征在于：步骤S1中，用户致电客服热线并选择报障后，提示用户描述故障情况，用户挂机后，将前述录音内容输入预处理模块做处理。

3.根据权利要求1所述的基于客服热线非结构化数据识别的电力故障定位方法，其特征在于：步骤S1中，具体包括：

S11、预处理模块根据用户来电信息判断用户是否为黑名单用户，如果属于黑名单用户，则自动丢弃此次通话录音，流程结束，否则继续；

S12、预处理模块根据用户来电信息和近期客服热线的来电记录判断用户是否在近期有过重复来电，如果有，将用户非首次来电通话录音置信权值调低；

S13、预处理模块对通话录音进行人声过滤，将录音的原始声音信号通过带通滤波器，使远低于人声频率和远高于人声频率的声音被过滤；

S14、对前序步骤处理后的声音信号作采样、量化，形成数字音频，由若干对原始声音的时序采样样本组成；

S15、对数字音频作进行处理，去掉空白声区，留下的若干音频小段按时间顺序重新拼接成一段不超过原始时长的数字音频；

S16、将S15获得的一段数字音频按照切成若干音素；

S17、根据音素时长、特征偏移窗口时长将数字音频分割为若干音素；

S18、求取分割后的音素的能量谱，由音素的能量谱组成的向量称为音素的特征向量。

4.根据权利要求3所述的基于客服热线非结构化数据识别的电力故障定位方法，其特征在于：步骤S15具体包括：

计算整段数字音频的平均强度；

将空白声区划分为若干小段，每一小段长度为50ms，使足以包含后续步骤中可识别的音素，且为音素长度的2倍；

测试上述每一小段数字音频，如果该段数字音频强度小于10分贝，或该段数字音频强度小于整段音频平均强度超过30分贝，将该小段音频从整段音频中去除；

5.根据权利要求3所述的基于客服热线非结构化数据识别的电力故障定位方法，其特征在于：步骤S16具体包括：

令s(t)表示S15获得的整段数字音频，r表示采样间隔，取r＝1/16000＝6.25*10^-5秒.用于声音特征向量表达的声音基元称为音素，是一小段连续采样样本的集合，Δ表示音素时长，δ＝400表示音素包含的采样样本数，Δ＝δr＝25毫秒，Ω表示特征偏移窗口的时长，Ω＝10毫秒，特征偏移窗口小于音素时长，使音素的集合能够捕捉更为丰富的声音特征，提高识别性能。

6.根据权利要求5所述的基于客服热线非结构化数据识别的电力故障定位方法，其特征在于：步骤S17中，具体包括：

根据音素时长、特征偏移窗口时长将数字音频分割为若干音素：

s_n(t)＝s(t+nΩ)…(1)

n表示分割后音素的序号，n＝0，1，...。

7.根据权利要求1所述的基于客服热线非结构化数据识别的电力故障定位方法，其特征在于：步骤2中，在能量谱集合上作滑动窗口处理，获得能量谱矩阵，具体包括：

一段原始数字音频经步骤1处理后得到若干音素，其能量谱集合为{E_n(m)}，在能量谱集合上作滑动窗口处理，每次滑动可以获得W≥1个能量谱：