CN112270922A

CN112270922A - 一种调度日志自动化填写方法及装置

Info

Publication number: CN112270922A
Application number: CN202011123758.6A
Authority: CN
Inventors: 罗文杰; 钱峰; 朱红艳; 和菊香; 黄永康; 和云花; 刘小猛; 格桑拉姆; 杨玉莲; 刘聪; 和晓凤; 虎继华; 卓格拉姆; 张学华; 鲁茸次里; 丁正兰; 冯友; 徐进东; 刘伟
Original assignee: Diqing Power Supply Bureau of Yunnan Power Grid Co Ltd
Current assignee: Diqing Power Supply Bureau of Yunnan Power Grid Co Ltd
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2021-01-26
Anticipated expiration: 2040-10-20
Also published as: CN112270922B

Abstract

本申请实施例公开了一种调度日志自动化填写方法及装置，首先，获取电力系统调度信息的录音文件，接着，获取调度语音识别模型，并根据所述调度语音识别模型将所述调度信息的录音文件转化为调度文本数据，对所述调度文本数据进行预处理，生成调度日志，然后，获取自然语言处理模型，并根据所述自然语言处理模型对所述调度日志进行分类，获取流程自动化任务，最后，根据调度日志分类特征词及所述任务序列，将已分类的调度日志自动填写至配网调度工作台。本申请解决了现有依靠人工手段进行调度日志分类及填报时效率低下及容易出错等方面的不足，全面提升调度日志记录及分类的自动化水平。

Description

一种调度日志自动化填写方法及装置

技术领域

本申请涉及电力信息系统技术领域，尤其涉及一种调度日志自动化填写方法及装置。

背景技术

在调度工作中，调度人员通常采用电话形式获取电力系统的运行状态、检修计划以及各类事件处理进度的调度信息，并在通讯过程中保存该调度信息，生成调度录音文件。通话结束后，调度人员将调度录音文件中的关键信息以人工记录的形式整理出来，生成调度日志，并按照对应的日志类别将调度日志填写至配网调度工作台。调度日志是为了实现对调度工作的整体概况和各类事件进行追踪，各级管理人员可通过调度日志了解电力系统的运行情况、检修计划以及各类事件处理进度等信息。

目前，调度日志的记录及分类完全依赖人工手段实现，工作量较大且工作效率低下。

发明内容

为了解决由于调度日志的记录及分类完全依赖人工手段实现，工作量较大且工作效率低下的问题，本申请通过以下各个实施例公开了一种调度日志自动化填写方法及装置。

本申请第一方面公开了一种调度日志自动化填写方法，可选的，所述方法包括：

获取电力系统调度信息的录音文件，所述调度信息包括所述电力系统的运行状态、检修计划以及事件处理进度的信息；

获取调度语音识别模型，并根据所述调度语音识别模型将所述调度信息的录音文件转化为调度文本数据，所述调度语音识别模型包括调度语音语料字典、声学模型及语言模型；

对所述调度文本数据进行预处理，生成调度日志；

获取自然语言处理模型，并根据所述自然语言处理模型对所述调度日志进行分类，所述获取自然语言处理模型包括调度日志分类特征词字典；

获取流程自动化任务，所述流程自动化任务包括所述调度日志自动填写顺序的任务序列；

根据调度日志分类特征词及所述任务序列，将已分类的调度日志自动填写至配网调度工作台。

可选的，所述获取电力系统调度信息的录音文件，包括：

获取电力系统的调度信息，并根据所述调度信息生成初始调度录音文件；

对所述初始调度录音文件进行预处理，生成调度信息的录音文件，所述预处理包括预加重、分帧及加窗。

可选的，所述获取调度语音识别模型，并根据所述调度语音识别模型将所述调度信息的录音文件转化为调度文本数据，包括：

根据所述调度信息的录音文件获取调度语音语料字典，所述调度语音语料字典包括调度专业术语、专有名词、特殊读音及习惯表达方式；

对所述调度信息的录音文件中部分录音信息进行语音音素标注及文本标注，获取相互对应的语音序列及词语序列；

根据所述语音序列及所述词语序列，获取声学模型及语言模型；

根据所述调度语音语料字典、声学模型及语言模型，对所述调度信息的录音文件中剩余部分录音信息进行语音音素标注及文本标注，获取初步语音序列及初步词语序列；

根据维特比算法，从所述初步语音序列及所述初步词语序列中提取最优语音序列及最优词语序列；

根据所述调度语音语料字典，从所述最优语音序列及所述最优词语序列中提取目标语音序列及目标词语序列；

根据所述目标语音序列及所述目标词语序列，获取所述调度文本数据并存储。

可选的，所述对所述调度文本数据进行预处理，生成调度日志，包括：

获取所述调度文本数据中的特征数据，所述特征数据包括计划时间、运行设备、运行方式、设备缺陷/故障部位及设备运行定值的数据；

定义调度日志文本格式；

根据所述特征数据及所述调度日志文本格式，生成所述调度日志。

可选的，所述获取自然语言处理模型，并根据所述自然语言处理模型对所述调度日志进行分类，包括：

对所述调度日志进行分词处理，获取调度日志分类特征词字典；

对所述调度日志分类特征词字典进行加权，获取所述调度日志分类特征词字典中权重最大的分类特征词；

将所述权重最大的分类特征词转换成空间向量模型的特征向量；

根据半监督学习方法及所述特征向量，实现调度日志自动分类。

本申请第二方面公开了一种调度日志自动化填写装置，可选的，所述装置应用于本申请第一方面所述的一种调度日志自动化填写方法，所述装置包括：

录音文件获取模块，用于获取电力系统调度信息的录音文件，所述调度信息包括所述电力系统的运行状态、检修计划以及事件处理进度的信息；

调度文本数据获取模块，用于获取调度语音识别模型，并根据所述调度语音识别模型将所述调度信息的录音文件转化为调度文本数据，所述调度语音识别模型包括调度语音语料字典、声学模型及语言模型；

调度日志获取模块，用于对所述调度文本数据进行预处理，生成调度日志；

调度日志分类模块，用于获取自然语言处理模型，并根据所述自然语言处理模型对所述调度日志进行分类，所述获取自然语言处理模型包括调度日志分类特征词字典；

自动化任务获取模块，用于获取流程自动化任务，所述流程自动化任务包括所述调度日志自动填写顺序的任务序列；

调度工作台自动填写模块，用于根据调度日志分类特征词及所述任务序列，将已分类的调度日志自动填写至配网调度工作台。

可选的，所述录音文件获取模块，包括：

初始调度录音文件获取单元，用于获取电力系统的调度信息，并根据所述调度信息生成初始调度录音文件；

初始调度录音文件预处理单元，用于对所述初始调度录音文件进行预处理，生成调度信息的录音文件，所述预处理包括预加重、分帧及加窗。

可选的，所述调度文本数据获取模块，包括：

调度语音语料字典获取单元，用于根据所述调度信息的录音文件获取调度语音语料字典，所述调度语音语料字典包括调度专业术语、专有名词、特殊读音及习惯表达方式；

语音序列及词语序列获取单元，用于对所述调度信息的录音文件中部分录音信息进行语音音素标注及文本标注，获取相互对应的语音序列及词语序列；

声学模型及语言模型获取单元，用于根据所述语音序列及所述词语序列，获取声学模型及语言模型；

初步语音序列及初步词语序列单元，用于根据所述调度语音语料字典、声学模型及语言模型，对所述调度信息的录音文件中剩余部分录音信息进行语音音素标注及文本标注，获取初步语音序列及初步词语序列；

最优语音序列及最优词语序列获取单元，用于根据维特比算法，从所述初步语音序列及所述初步词语序列中提取最优语音序列及最优词语序列；

目标语音序列及目标词语序列提取单元，用于根据所述调度语音语料字典，从所述最优语音序列及所述最优词语序列中提取目标语音序列及目标词语序列；

调度文本数据获取单元，用于根据所述目标语音序列及所述目标词语序列，获取所述调度文本数据并存储。

可选的，所述调度日志获取模块，包括：

特征数据获取单元，用于获取所述调度文本数据中的特征数据，所述特征数据包括计划时间、运行设备、运行方式、设备缺陷/故障部位及设备运行定值的数据；

调度日志文本格式定义单元，用于定义调度日志文本格式；

调度日志生成单元，用于根据所述特征数据及所述调度日志文本格式，生成所述调度日志。

可选的，所述调度日志分类模块，包括：

分类特征词字典获取单元，用于对所述调度日志进行分词处理，获取调度日志分类特征词字典；

权重最大的分类特征词获取单元，用于对所述调度日志分类特征词字典进行加权，获取所述调度日志分类特征词字典中权重最大的分类特征词；

特征向量转换单元，用于将所述权重最大的分类特征词转换成空间向量模型的特征向量；

调度日志自动分类单元，用于根据半监督学习方法及所述特征向量，实现调度日志自动分类。

本申请实施例公开了一种调度日志自动化填写方法及装置，首先，获取电力系统调度信息的录音文件，然后，获取调度语音识别模型，并根据所述调度语音识别模型将所述调度信息的录音文件转化为调度文本数据，接着，对所述调度文本数据进行预处理，生成调度日志，继续获取自然语言处理模型，并根据所述自然语言处理模型对所述调度日志进行分类，还要获取流程自动化任务，最后，根据调度日志分类特征词及所述任务序列，将已分类的调度日志自动填写至配网调度工作台。

本申请解决了现有依靠人工手段进行调度日志分类及填报时效率低下及容易出错等方面的不足，全面提升调度日志记录及分类的自动化水平。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种调度日志自动化填写方法及装置的工作流程示意图；

图2为本申请实施例公开的一种调度日志自动化填写方法及装置的结构示意图。

具体实施方式

本申请第一实施例公开了一种调度日志自动化填写方法，进一步的，参见图1所示的工作流程示意图，所述方法包括：

步骤S1、获取电力系统调度信息的录音文件，所述调度信息包括所述电力系统的运行状态、检修计划以及事件处理进度的信息。

其中，从相关系统中获取调度录音文件，对初始调度录音文件进行预加重、分帧及加窗预处理，获得的语音信号更加均匀、平滑，以提升后续语音处理质量；利用梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征参数提取方法对调度语音数据进行处理，生成表征语音信号中携带的说话人信息的特征参数，保证调度语音识别的准确率。

步骤S2、获取调度语音识别模型，并根据所述调度语音识别模型将所述调度信息的录音文件转化为调度文本数据，所述调度语音识别模型包括调度语音语料字典、声学模型及语言模型。

在本实施例中，鉴于调度用语与日常用语存在发音差异，一方面电力调度领域涉及大量的专有名词及专业术语，如：调度设备、线路名称、调度指令等，另一方面电力调度语音中数字或语音的读音与日常发音不同，一些计量符号也需要进行特殊处理，例如，“1580”在调度中读作“幺五八洞”，将时间“8:30”读作“洞八点三洞分”，因此需要构建包含电力调度专业术语、专有名词、特殊读音、习惯表达方式等语音语料词典；

再对调度信息的录音文件中部分录音信息进行语音音素标注及文本标注，将步骤S1提取的梅尔频率倒谱系数作为语音向量，记t时刻的语音向量序列为O_t＝{O1,O₂,...,O_t}，其对应的词语序列记为W＝{w₁,w₂,...,w_n}，将语音序列及词语序列进行标注，建立一一对应关系，获取声学模型及语言模型并对其进行训练。以下通过简单示例对上述实施例公开的内容进行解释，若调度语音对应的发音序列及音素序列对应如下：

调度语音：洞八点三洞分垣中益厂二号机由备用转运行

发音序列：dong4 ba1dian3 san1 dong4 fen1 yuan2 zhong1 yi4 chang3 er4hao4 ji1 you2 bei4 yong4 zhuan3 yun4 xing2

音素系列：d ong4 b a1 d ian3 s an1 d ong4 fen1 vv van2 zh ong1 ii i4ch ang3 ee er4 h ao4 j i1 ii iu2 b ei4 ii iong4 zh uan3 vv vn4 x ing2 d ong4

最后，结合电力调度专业语音语料词典，利用训练好的声学模型及语言模型对未标注的语音帧序列进行识别，基于Viterbi算法寻找最优的语音音素序列，并查找词语词典，获得匹配的词语组合，最终将调度语音转化为文本形式进行结构化存储。鉴于调度用于与日常用语存在发音差异，一方面电力调度领域涉及大量的专有名词及专业术语，如：调度设备、线路名称、调度指令等，另一方面电力调度语音中数字或语音的读音与日常发音不同，一些计量符号也需要进行特殊处理，例如，“1580”在调度中读作“幺五八洞”，将时间“8:30”读作“洞八点三洞分”，因此需要构建包含电力调度专业术语、专有名词、特殊读音、习惯表达方式等语音语料词典；

再对调度语音语料进行语音音素标注及文本标注，将步骤101提取的梅尔频率倒谱系数作为语音向量，记t时刻的语音向量序列为O_t＝{O1,O₂,...,O_t}，其对应的词语序列记为W＝{w₁,w₂,...,w_n}，将语音序列及词语序列进行标注，建立一一对应关系，训练声学模型及语言模型。调度语音对应的发音序列及音素序列对应如下：

调度语音：洞八点三洞分垣中益厂二号机由备用转运行

最后，结合电力调度专业语音语料词典，利用训练好的声学模型及语言模型对未标注的语音帧序列进行识别，基于维特比(Viterbi)算法寻找最优的语音音素序列，并查找词语词典，获得匹配的词语组合，最终将调度语音转化为文本形式进行结构化存储。

步骤S3、对所述调度文本数据进行预处理，生成调度日志。

在本实施例中，利用自然语言处理技术提取出调度文本中的计划时间、运行设备、运行方式、设备缺陷/故障部位、设备运行定值等特征数据，定义日志文本格式，剔除原始调度文本中的冗余信息及非规范性表达，生成标准的调度日志。

步骤S4、获取自然语言处理模型，并根据所述自然语言处理模型对所述调度日志进行分类，所述获取自然语言处理模型包括调度日志分类特征词字典。

在本实施例中，对调度日志进行分词处理，提取日志分类特征词字典，利用FTF-IDF(term frequency–inverse document frequency)加权技术进行加权，将调度日志转换成向量空间模型的特征向量表示，最后利用半监督学习方法实现调度日志自动分类。

步骤S5、获取流程自动化任务，所述流程自动化任务包括所述调度日志自动填写顺序的任务序列。

在本实施例中，通过配置自动执行的任务序列，按照调度日志的分类标签将调度日志自动填写至配网调度工作台。

步骤S6、根据调度日志分类特征词及所述任务序列，将已分类的调度日志自动填写至配网调度工作台。

进一步的，所述获取电力系统调度信息的录音文件，包括：

获取电力系统的调度信息，并根据所述调度信息生成初始调度录音文件。

进一步的，所述获取调度语音识别模型，并根据所述调度语音识别模型将所述调度信息的录音文件转化为调度文本数据，包括：

根据所述调度信息的录音文件获取调度语音语料字典，所述调度语音语料字典包括调度专业术语、专有名词、特殊读音及习惯表达方式。

对所述调度信息的录音文件中部分录音信息进行语音音素标注及文本标注，获取相互对应的语音序列及词语序列。

根据所述语音序列及所述词语序列，获取声学模型及语言模型。

根据所述调度语音语料字典、声学模型及语言模型，对所述调度信息的录音文件中剩余部分录音信息进行语音音素标注及文本标注，获取初步语音序列及初步词语序列。

根据维特比算法，从所述初步语音序列及所述初步词语序列中提取最优语音序列及最优词语序列。

根据所述调度语音语料字典，从所述最优语音序列及所述最优词语序列中提取目标语音序列及目标词语序列。

进一步的，所述对所述调度文本数据进行预处理，生成调度日志，包括：

获取所述调度文本数据中的特征数据，所述特征数据包括计划时间、运行设备、运行方式、设备缺陷/故障部位及设备运行定值的数据。

定义调度日志文本格式。

进一步的，所述获取自然语言处理模型，并根据所述自然语言处理模型对所述调度日志进行分类，包括：

对所述调度日志进行分词处理，获取调度日志分类特征词字典。

对所述调度日志分类特征词字典进行加权，获取所述调度日志分类特征词字典中权重最大的分类特征词。

将所述权重最大的分类特征词转换成向量空间模型(VSM：Vector Space Model)的特征向量。

其中，所述调度日志分类特征词字典可以包括故障日志记录、停电检修执行、转供电执行、重合闸投退、其他二次操作、错峰限电、重过载记录、新设备投运、线路改名、线路退运、带电作业、异常信号处理及其他特征词，利用FTF-IDF(term frequency–inversedocument frequency)加权技术对所述调度日志分类特征词字典进行加权，获取所述调度日志分类特征词字典中权重最大的分类特征词，并将所述权重最大的分类特征词转换成向量空间模型(VSM：Vector Space Model)的特征向量，所述向量空间模型(VSM：VectorSpace Model)把对文本内容的处理简化为向量空间中的向量运算，并且它以空间上的相似度表达语义的相似度，直观易懂，最后，根据半监督学习方法及所述特征向量，实现调度日志自动分类。

下述为本申请公开的装置实施例，用于执行上述方法实施例。针对装置实施例中未披露的细节，请参照方法实施例。

本申请第二实施例公开了一种调度日志自动化填写装置，进一步的，所述装置应用于本申请第一实施例所述的一种调度日志自动化填写方法，参见图2所示的结构示意图，所述装置包括：

录音文件获取模块10，用于获取电力系统调度信息的录音文件，所述调度信息包括所述电力系统的运行状态、检修计划以及事件处理进度的信息。

调度文本数据获取模块20，用于获取调度语音识别模型，并根据所述调度语音识别模型将所述调度信息的录音文件转化为调度文本数据，所述调度语音识别模型包括调度语音语料字典、声学模型及语言模型。

调度日志获取模块30，用于对所述调度文本数据进行预处理，生成调度日志。

调度日志分类模块40，用于获取自然语言处理模型，并根据所述自然语言处理模型对所述调度日志进行分类，所述获取自然语言处理模型包括调度日志分类特征词字典。

自动化任务获取模块50，用于获取流程自动化任务，所述流程自动化任务包括所述调度日志自动填写顺序的任务序列。

调度工作台自动填写模块60，用于根据调度日志分类特征词及所述任务序列，将已分类的调度日志自动填写至配网调度工作台。

本申请解决了现有依靠人工手段进行调度日志分类及填报时效率低下及容易出错等实施例的不足，全面提升调度日志记录及分类的自动化水平。

进一步的，所述录音文件获取模块10，包括：

初始调度录音文件获取单元101，用于获取电力系统的调度信息，并根据所述调度信息生成初始调度录音文件。

初始调度录音文件预处理单元102，用于对所述初始调度录音文件进行预处理，生成调度信息的录音文件，所述预处理包括预加重、分帧及加窗。

进一步的，所述调度文本数据获取模块20，包括：

调度语音语料字典获取单元201，用于根据所述调度信息的录音文件获取调度语音语料字典，所述调度语音语料字典包括调度专业术语、专有名词、特殊读音及习惯表达方式。

语音序列及词语序列获取单元202，用于对所述调度信息的录音文件中部分录音信息进行语音音素标注及文本标注，获取相互对应的语音序列及词语序列。

声学模型及语言模型获取单元203，用于根据所述语音序列及所述词语序列，获取声学模型及语言模型。

初步语音序列及初步词语序列单元204，用于根据所述调度语音语料字典、声学模型及语言模型，对所述调度信息的录音文件中剩余部分录音信息进行语音音素标注及文本标注，获取初步语音序列及初步词语序列。

最优语音序列及最优词语序列获取单元205，用于根据维特比算法，从所述初步语音序列及所述初步词语序列中提取最优语音序列及最优词语序列。

目标语音序列及目标词语序列提取单元206，用于根据所述调度语音语料字典，从所述最优语音序列及所述最优词语序列中提取目标语音序列及目标词语序列。

调度文本数据获取单元207，用于根据所述目标语音序列及所述目标词语序列，获取所述调度文本数据并存储。

进一步的，所述调度日志获取模块30，包括：

特征数据获取单元301，用于获取所述调度文本数据中的特征数据，所述特征数据包括计划时间、运行设备、运行方式、设备缺陷/故障部位及设备运行定值的数据。

调度日志文本格式定义单元302，用于定义调度日志文本格式。

调度日志生成单元303，用于根据所述特征数据及所述调度日志文本格式，生成所述调度日志。

进一步的，所述调度日志分类模块40，包括：

分类特征词字典获取单元401，用于对所述调度日志进行分词处理，获取调度日志分类特征词字典。

权重最大的分类特征词获取单元402，用于对所述调度日志分类特征词字典进行加权，获取所述调度日志分类特征词字典中权重最大的分类特征词。

特征向量转换单元403，用于将所述权重最大的分类特征词转换成空间向量模型的特征向量。

调度日志自动分类单元404，用于根据半监督学习方法及所述特征向量，实现调度日志自动分类。

以上结合具体实施方式和范例性实例对本申请进行了详细说明，不过这些说明并不能理解为对本申请的限制。本领域技术人员理解，在不偏离本申请精神和范围的情况下，可以对本申请技术方案及其实施方式进行多种等价替换、修饰或改进，这些均落入本申请的范围内。本申请的保护范围以所附权利要求为准。

Claims

1.一种调度日志自动化填写方法，其特征在于，所述方法包括：

对所述调度文本数据进行预处理，生成调度日志；

2.根据权利要求1所述的一种调度日志自动化填写方法，其特征在于，所述获取电力系统调度信息的录音文件，包括：

3.根据权利要求2所述的一种调度日志自动化填写方法，其特征在于，所述获取调度语音识别模型，并根据所述调度语音识别模型将所述调度信息的录音文件转化为调度文本数据，包括：

4.根据权利要求1所述的一种调度日志自动化填写方法，其特征在于，所述对所述调度文本数据进行预处理，生成调度日志，包括：

定义调度日志文本格式；

5.根据权利要求1所述的一种调度日志自动化填写方法，其特征在于，所述获取自然语言处理模型，并根据所述自然语言处理模型对所述调度日志进行分类，包括：

6.一种调度日志自动化填写装置，其特征在于，所述装置应用于权利要求1-5任一项所述的一种调度日志自动化填写方法，所述装置包括：

7.根据权利要求6所述的一种调度日志自动化填写装置，其特征在于，所述录音文件获取模块，包括：

8.根据权利要求7所述的一种调度日志自动化填写装置，其特征在于，所述调度文本数据获取模块，包括：

9.根据权利要求6所述的一种调度日志自动化填写装置，其特征在于，所述调度日志获取模块，包括：

调度日志文本格式定义单元，用于定义调度日志文本格式；

10.根据权利要求6所述的一种调度日志自动化填写装置，其特征在于，所述调度日志分类模块，包括：