CN117713377A

CN117713377A - 调度自动化主站智能语音联调系统

Info

Publication number: CN117713377A
Application number: CN202311745898.0A
Authority: CN
Inventors: 赵勤道; 陈君; 张碧华; 张春辉; 马一杰; 赖樱; 叶文华; 潘蕊; 叶小虎; 李邦源; 合有茂; 白翠芝; 张蔓娴; 蒋雪梅; 丁正芳; 党军朋; 竜义典; 刘松; 张海燕; 杨金
Original assignee: Yuxi Power Supply Bureau of Yunnan Power Grid Co Ltd
Current assignee: Yuxi Power Supply Bureau of Yunnan Power Grid Co Ltd
Priority date: 2023-12-19
Filing date: 2023-12-19
Publication date: 2024-03-15

Abstract

本发明涉及电网厂站并网调试技术领域，具体地说，涉及调度自动化主站智能语音联调系统。该系统以组件化、服务化模式实现功能模块交互，采用微服务体系架构实现，主要由语音处理及交互平台、自动化调试知识平台、数据自动提起与预处理组件、智能处理与人机交互界面组成。本发明设计从调度自动化主站四遥信息联调方面进行研究，采用人工智能和语音识别技术，根据厂站端调试内容，智能识别和分析调度自动化主站系统收到的调试信息，完成自动比对，与厂站端调试人员在线、自助式调试交互，实现联调过程主站端无人值守，代替传统人工核对工作模式，实现调度自动化厂站信息接入智能高效调试。

Description

调度自动化主站智能语音联调系统

技术领域

本发明涉及电网厂站并网调试技术领域，具体地说，涉及调度自动化主站智能语音联调系统。

背景技术

随着国民经济的发展，对电力供应需求越来越大，带来大量的发电厂、变电站、用户变接入电网，厂站并网需将四遥信息接入调度自动化主站系统，并与调度自动化主站端进行联调，联调验收合格方能并网投运。一直以来自动化信息的调试均采用厂站端和调度端人工电话核对数据的工作模式，过程繁琐，造成工作效率低下；现有调度自动化调试技术的研究，主要集中在规约研究、通道测试、站内试验分析等几个方向，缺少对调度自动化主站端智能值守的相关研究。

传统人工调试方式通过厂站端和主站端调试人员电话交流完成四遥信息联调，给主站端自动化运行业务造成巨大工作压力，且主站、厂站双方人员须全程协同开展，大量时间耗费在双方沟通、协调工作时间、等待实验过程上，过程繁琐，工作效率低下；现有的调试技术，主要缺点是仅能对主厂站间通信环节进行自动比对调试，不能实现信息传递、展示全链路各环节的调试验证，不符合自动化四遥信息调试技术规范的要求，仍需主站人工进行核对确认，无法解决调度自动化主站在厂站接入调试时的无人值守和两端调试人员协同工作的问题。鉴于此，我们提出了调度自动化主站智能语音联调系统。

发明内容

本发明的目的在于提供调度自动化主站智能语音联调系统，以解决上述背景技术中提出的问题。

为实现上述技术问题的解决，本发明的目的之一在于，提供了调度自动化主站智能语音联调系统，该系统以组件化、服务化模式实现功能模块交互，采用目前主流的微服务体系架构实现，确保交互的可重用性及独立性，主要由语音处理及交互平台、自动化调试知识平台、数据自动提起与预处理组件、智能处理与人机交互界面组成；其中：

所述智能处理与人机交互界面用于管理智能调试工作模式，采用HDSA接口订阅方式获取数据，并在调试完成后自动生成完整的、规范统一的调试报告；

语音处理及交互平台用于实现语音接入、语音预处理、语音识别、语义识别及语音合成技术。

作为本技术方案的进一步改进，所述智能处理与人机交互界面中，厂站完成现场试验工作后，厂站端工作人员发起调试工作流程，采用电子调试工单形式，结合工作流引擎，实现调试过程在线流转、全程管控、自动闭环，形成从工作任务下达至调试结束生成调试报告的闭环管理模式；

其采用HDSA接口订阅方式获取数据，对自动化系统数据订阅HDSA接口进行规范，数据消费者可按需求确定所查询数据的范围，在数据发生改变时，由主站系统自动将改变后的数据推送至数据消费者；并通过量测量订阅，形成量测核对工单；

调试完成后，系统自动生成完整的、规范统一的调试报告，调度端在调试过程中可随时查看调试报告，了解调试进度及具体情况。

作为本技术方案的进一步改进，所述语音接入采用直接利用模拟电话线接入服务器，应用SIP协议代理，实现模拟电话信号及语音接入；通过SIP代理，可以控制电话(Session)的创建、更改和挂断，在模拟电话拨入时，会触发INVITE请示，同时，请示中会携带SDP报文；SDP会话描述协议，描述、协商多媒体会话参数；根据SDP协议内容中对媒体信息的描述，媒体使用RTP协议传输，采用G.711A算法进行编/解码及打包；采用RTP(Real-timeTransport Protocol-实时传输协议)协议实现与调度电话之间的音频传输。

作为本技术方案的进一步改进，所述语音预处理主要包括编码转换和音频切片；

所述编码转换用于对接入的音频数据进行重采样，以提高量化位数，避免语音识别接口对音频参数的码率低于其最低要求导致无法识别；

所述音频切片即采用语音活动检测(Voice Activity Detection，VAD)，利用话音/静默特性，当检测到突发的活动声音时才生成语音信号，并加以传输，当检测到为静默时，停止传输，切断音频，对语音和非语音的区域进行区分，找到一段语音真正有效的内容；

同时采用双门限比较法，并加入汉明窗计算短时能量和短时过零率来评估环境噪音，通过改进短时能量和双门限阀值两个参数的提取算法，拟合出一个能反映语音与噪声显著差异的特征参数，并采用动态门限进行判决，同时，加入静音状态确认和语音状态确认两个过程，使效果得到了很大的改善。

作为本技术方案的进一步改进，所述音频切片主要包括分帧加窗、计算短时能量、计算短时过零率、估计噪声阀值和语音检测五个部分，具体为：

所述分帧加窗中，分帧采用交叠分段的方法，使帧与帧之前平滑过渡，保持其连续性；

加窗可以认为对抽样n附近的语音波形加以强调而对波形的其余部分加以减弱；对语音信号的各个短段进行处理，实际上就是对各个短段进行某种变换或施以某种运算，其实加窗相当于把每一帧里面对应的元素变成它与窗序列对应元素的乘积；常用的窗口函数至少包括矩形窗、汉明窗(Hamming)和汉宁窗(Hanning)，其中汉明窗(Hamming)的函数为：

式中，a为常数，N为窗口宽度；

加窗之后是为了进行傅里叶展开，使全局更加连续，避免出现吉布斯效应；

计算短时能量时，每一帧的短时能量，即将这一帧的所有样点值相加，公式如下：

其中，W(n)是窗口函数；

计算短时过零率时，过零率就是样本改变符号的次数，公式如下：

式中，sgn[x]是符号函数；

估计噪声阀值时，通过短时能量和过零率计算得出噪声阀值，可以设置不同的参数针对短时能量和过零率计算出双门限阀值，以减少语音段的判决；

所述语音检测中，利用过零率检测清音，用短时能量检测浊音，两者配合；具体检测过程包括如下步骤：

Step1、首先为短时能量和过零率分别确定两个门限，一个是较低的门限数值较小，对信号的变化比较敏感，很容易超过；另一个是比较高的门限，数值较大；其中，低门限被超过未必是语音的开始，高门限被超过并且接下来的自定义时间段内的语音超过低门限，意味着语音信号开始；

Step2、将语音状态标记等确认，进入过渡段，等待再一次满足语音激活条件，则启动语音激活，进入语音段，开始缓存语音信号；处于语音段时，如果两参数降低到门限以下，而且总的计时长度小于最短时间门限，则认为是一段噪音，作为静音确认状态；

Step3、静音确认状态持续一段时间便可作为语音结束端点，触发语音切片，启动语音识别。

作为本技术方案的进一步改进，所述语音识别主要包括特征提取、声学模型、语言模型以及语义字典与解码四个部分；其中：

所述特征提取中，采用DFCNN中的语谱图作为特征输入实现语音识别；

所述声学模型(AM)基于CNN(卷积神经网络)对语音数据进行训练获得，输入是语谱图特征向量，输出为音素信息；对业务领域相关高频词汇进行了微调，提高业务领域汉字词汇的频度，以提高识别率；

所述语言模型通过导出调度录音系统录音文件，并进行人工标注并整理出电力术语和调度自动化厂站接入时常用语言表达文本、词汇，加入到训练集，对语言模型进行微调训练，以提高语言模型准确率。

作为本技术方案的进一步改进，所述语义识别主要包括基于深度学习的意图识别和实体提取两部分；其中：

基于深度学习的意图识别，先对基于深度学习的意图识别方法进行实际业务应用，通过与量测核对业务人员的需求讨论及对量测核对录音文件的收听、总结，再进行对话策略设计；对话策略至少包括：

问候(greeting)：问候意图主要用于电话接通时值守机器人向现场调试人员问好并收集待核对厂站信息及现场调试人员姓名；

待核对量测类型收集(ask-checking)：待核对量测类型收集意图主要用于值守机器人向现场核对人员收集当前期望核对的是遥测或是遥信，并明确需要核对量测的起始位置，并从该逐一顺序核对；

遥信状态汇报(report-yx-state)：遥信状态汇报意图主要用于值守机器人指挥现场核对人员对待核对量测信号进行模拟，并与OCS中收到的实时数据进行核对；

遥测加量汇报(report-yc-state)：遥测加量汇报意图主要用于值守机器人指挥现场核对人员对待核对量测进行加量模拟，并与OCS中收到的实时数据进行核对；

肯定结果(confirm)：肯定结果为子意图，即在对话过程中，对需要现场进行确认时的事项进行意图识别并判定为肯定状态；

否定结果(deny)：否定结果为子意图，即在对话过程中，对需要现场进行确认时的事项进行意图识别并判定为否定状态；

重新检查(rechecking)：在量测核对不成功的情况下，现场重新加量后要求值守机器人重新与OCS核对量测量：

复述(repeat)：在现场人员未听清楚机器讲述内容时，要求机器重复之前的话语；

结束会话(finish)：结束会话用于现场人员完成量测核对任务或其他原因，需结束与值守机器人的对话。

作为本技术方案的进一步改进，所述实体提取基于电力调度领域知识图谱，依据CIM模型进行数据的抽取，通过CIM模型建立电气设备的基本拓扑知识结构图，依据电气设备的知识图谱关系，从OCS、OMS、规章规程、文档等抽取设备的遥测、遥信、遥控、遥调、电气量、量测点表、检修、运行日志、缺陷以及单位、人员之间的调管和运维关系；所述实体提取包括CIM模型解析、构建CIM模型中电气设备拓扑结构和实体识别三部分；

在CIM模型解析中，电力领域的CIM模型是用于描述电气设备之间的连接关系，需要根据CIM模型结构进行分析，并实现意图识别模型的应用；其中，意图识别模型可以为卷积神经网络(CNN)、循环神经网络(RNN)或循环神经网络+注意力机制(RNN+Attention)，并在对比分析后最终选用循环神经网络+注意力机制作为项目意图识别任务的主要模型；

在构建CIM模型中电气设备拓扑结构时，通过电力CIM模型解析后，可以获取母线、厂站、变压器、线路、隔离开关、接地开关等设备数据及关系；通过程序处理后，可以将数据转换为知识图谱。

作为本技术方案的进一步改进，所述实体识别用于从文本中抽取实体信息元素，包括人名、组织名、机构名、地理位置、变电站、设备、电气单位、日期、设备状态、量测等。实体识别是解决很多自然语言处理问题的基础，也是实体提取中最基本的任务；

实体识别的方法至少包括：

基于规则方法：通过电力调度领域的数据库，以及领域专家构建的规则，实现电力调度领域实体的识别；

基于统计模型的方法：利用完全标注或部分标注的预料进行训练，采用的模型包括隐马尔可夫模型(Hidden Markov Model，HMM)、最大熵模型(Max Entropy Model，MEM)以及条件随机场模型(Conditional Random Field，CRF)，利用这些模型将命名实体识别作为序列标注处理；

基于深度学习的方法：直接以文本中词的向量为输入，通过神经网络实现端到端的命名实体识别，不再依赖人工定义特征；

所述实体识别还包括关系提取，关系抽取是实体提取的重要任务之一，面向非结构化文本数据，关系抽取是从文本中抽取到两个或者多个实体之间的语义关系；关系抽取与实体识别密切相关，一般在识别出文本中的实体后，再抽取实体之间可能存在的关系；

关系提取的方法主要包括基于模板的关系抽取方法和基于知识图谱的关系抽取方法。

作为本技术方案的进一步改进，所述语音合成用于在各意图识别完成后，根据意图执行相应的业务处理逻辑，由业务处理结果确定值守机器人需与现场调试人员进行什么样的交互；所述语音合成包括温拌生成和文本转语音两个阶段；

在文本生成阶段，文本生成任务采用规则模板的模型，由交流业务处理模块生成并返回值守机器人处理；模板嵌入变量(即业务处理结果)，最终根据业务处理结果拼接成完整的语句；

在文本转语音阶段中的研究点主要解决的是分词和断句问题；

因为在文本生成阶段使用的是规则模板生成技术，所以可在人工定义规则模板的时候，预先在模板中设置好断句，以解决大部分合成自然度的问题；针对模板中变量部分，通过分词算法及词汇库，可对变量部分文本进行合理划分；最终可以获得较为自然、流畅的语音。

本发明的目的之三在于，提供了一种系统运行平台装置，包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序，处理器用于执行计算机程序时实现上述的调度自动化主站智能语音联调系统的运行步骤。

本发明的目的之四在于，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的调度自动化主站智能语音联调系统的运行步骤。

与现有技术相比，本发明的有益效果：

该调度自动化主站智能语音联调系统涉及电网厂站并网调试领域，从调度自动化主站四遥信息联调方面进行研究，采用人工智能和语音识别技术，根据厂站端调试内容，智能识别和分析调度自动化主站系统收到的调试信息，完成自动比对，与厂站端调试人员在线、自助式调试交互，实现联调过程主站端无人值守，代替传统人工核对工作模式，实现调度自动化厂站信息接入智能高效调试。

附图说明

图1为本发明中示例性的整体系统架构图；

图2为本发明中示例性的智能调试工作模式流程图；

图3为本发明中示例性的语音处理及交互平台架构图；

图4为本发明中示例性的模拟电话线接入服务器原理图；

图5为本发明中示例性的分帧移帧结构示意图；

图6为本发明中示例性的语音识别原理图；

图7为本发明中示例性的问候意图实现流程图；

图8为本发明中示例性的待核对量测类型收集意图实现流程图；

图9为本发明中示例性的遥信状态汇报意图实现流程图；

图10为本发明中示例性的遥测加量汇报意图实现流程图；

图11为本发明中示例性的卷积神经网络原理示意图；

图12为本发明中示例性的循环神经网络原理示意图；

图13为本发明中示例性的使用循环神经网络+注意力机制训练语料的结果图；

图14为本发明中示例性的电子计算机平台装置结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，本实施例提供了调度自动化主站智能语音联调系统，该系统以组件化、服务化模式实现功能模块交互，采用目前主流的微服务体系架构实现，确保交互的可重用性及独立性，主要由语音处理及交互平台、自动化调试知识平台、数据自动提起与预处理组件、智能处理与人机交互界面组成；其中：

智能处理与人机交互界面用于管理智能调试工作模式，采用HDSA接口订阅方式获取数据，并在调试完成后自动生成完整的、规范统一的调试报告。

本实施例中，智能处理与人机交互界面中，厂站完成现场试验工作后，厂站端工作人员发起调试工作流程，采用电子调试工单形式，结合工作流引擎，实现调试过程在线流转、全程管控、自动闭环，形成从工作任务下达至调试结束生成调试报告的闭环管理模式，流程如图2所示；

其采用HDSA接口订阅方式获取数据，在IEC 61970-404和DLT 890.404中，对自动化系统数据订阅HDSA接口进行规范，数据消费者可按需求确定所查询数据的范围，在数据发生改变时，由主站系统自动将改变后的数据推送至数据消费者；并通过量测量订阅，形成量测核对工单；

如图3所示，本实施例中，语音处理及交互平台用于实现语音接入、语音预处理、语音识别、语义识别及语音合成技术。

如图4所示，进一步地，语音接入采用直接利用模拟电话线接入服务器，应用SIP协议代理，实现模拟电话信号及语音接入；通过SIP代理，可以控制电话(Session)的创建、更改和挂断，在模拟电话拨入时，会触发INVITE请示，同时，请示中会携带SDP报文；SDP会话描述协议，描述、协商多媒体会话参数；根据SDP协议内容中对媒体信息的描述“m＝audio4080RTP/AVP 8 18 101”，媒体使用RTP协议传输，优先使用负载类型“8”的媒体格式进行编码传输，即：“8PCMA/8000”，采用G.711A算法进行编/解码及打包；采用RTP(Real-timeTransport Protocol-实时传输协议)协议实现与调度电话之间的音频传输。

其中，调度电话接入使用协议及格式说明如下表所示。

进一步地，语音预处理主要包括编码转换和音频切片；

调度电话系统接入的音频数据参数如下表所示，语音识别接口对音频参数的码率最低要求为128Kbps，即单声道，8000Hz采样频率，16位量化，低于此参数时则无法识别。

声道数	1个
		量化位数	8位
采样频率	8000Hz
		理论延迟	0.125msec
品质	MOS 4.10

编码转换用于对接入的音频数据进行重采样，以提高量化位数，避免语音识别接口对音频参数的码率低于其最低要求导致无法识别；

电话接通后，需在连续的音频数据中识别语音的端点，从而获取到语音识别的结果输入到对话管理器来完成多轮语音交互。音频切片即采用语音活动检测(VoiceActivity Detection，VAD)，利用话音/静默特性，当检测到突发的活动声音时才生成语音信号，并加以传输，当检测到为静默时，停止传输，切断音频，对语音和非语音的区域进行区分，找到一段语音真正有效的内容；

例如自动化值班室背景噪音有机器运行的声音、有终端告警、有电话铃声以及人讲话的声音，环境比较嘈杂。则同时采用双门限比较法，并加入汉明窗计算短时能量和短时过零率来评估环境噪音，通过改进短时能量和双门限阀值两个参数的提取算法，拟合出一个能反映语音与噪声显著差异的特征参数，并采用动态门限进行判决，同时，加入静音状态确认和语音状态确认两个过程，使效果得到了很大的改善。

进一步地，音频切片主要包括分帧加窗、计算短时能量、计算短时过零率、估计噪声阀值和语音检测五个部分，具体为：

分帧加窗中，分帧一般采用交叠分段的方法，这是为了使帧与帧之前平滑过渡，保持其连续性；前一帧和后一帧的交叠部分称为帧移，帧移与帧长的比值一般取为0.5；分帧移帧具体如图5所示。

加窗的目的是可以认为对抽样n附近的语音波形加以强调而对波形的其余部分加以减弱。对语音信号的各个短段进行处理，实际上就是对各个短段进行某种变换或施以某种运算，其实加窗相当于把每一帧里面对应的元素变成它与窗序列对应元素的乘积。常用的窗口函数有矩形窗、汉明窗(Hamming)和汉宁窗(Hanning)。我们选用了其中汉明窗(Hamming)，其函数为：

式中，a为常数，一般情况下，a取0.46，N为窗口宽度；

加窗之后是为了进行傅里叶展开，使全局更加连续，避免出现吉布斯效应。加窗时候，原本没有周期性的语音信号呈现出周期函数的部分特征。加窗的代价是一帧信号的两端部分被削弱了，所以在分帧的时候，帧与帧之间需要有重叠，即帧移。

其中，W(n)是窗口函数；

式中，sgn[x]是符号函数；

估计噪声阀值时，通过短时能量和过零率计算得出噪声阀值，为了减少语音段的判决，可以设置不同的参数针对短时能量和过零率计算出双门限阀值

语音检测中，利用过零率检测清音，用短时能量检测浊音，两者配合；具体检测过程包括如下步骤：

Step1、首先为短时能量和过零率分别确定两个门限，一个是较低的门限数值较小，对信号的变化比较敏感，很容易超过；另一个是比较高的门限，数值较大；其中，低门限被超过未必是语音的开始，有可能是很短的噪声引起的，高门限被超过并且接下来的自定义时间段内的语音超过低门限，意味着语音信号开始；

Step2、此时，将语音状态标记等确认，进入过渡段，等待再一次满足语音激活条件，则启动语音激活，进入语音段，开始缓存语音信号；处于语音段时，如果两参数降低到门限以下，而且总的计时长度小于最短时间门限，则认为是一段噪音，作为静音确认状态；

其中，根据原计划设置静音持续时间为2秒触发切片，但实际应用中发现对话有冷场现象。因此，根据测试，将时间调整为1.4秒触发切片，得到了更加流畅的对话交互体验。由于增加了语音状态确认过程，因此也导致了太短的语句被误判断为噪音，使语音未能正常激活。但通过重新复述或稍放慢语速均可激活语音，因此建议后续应用中对于非常短的语句，讲的时候放慢语速，使每句话的语音长度均大于200ms即可。

如图6所示，进一步地，语音识别主要包括特征提取、声学模型、语言模型以及语义字典与解码四个部分；其中：

特征提取中，采用DFCNN中的语谱图作为特征输入实现语音识别；

声学模型(AM)基于CNN(卷积神经网络)对语音数据进行训练获得，输入是语谱图特征向量，输出为音素信息；由于在厂站信息接入调试对话过程中，大量的语言均为调度领域专业用语，为提高识别率，对业务领域相关高频词汇进行了微调，提高业务领域汉字词汇的频度；

语言模型通过导出调度录音系统录音文件，并进行人工标注并整理出电力术语和调度自动化厂站接入时常用语言表达文本、词汇，加入到训练集，对语言模型进行微调训练，耗时约两个星期，以提高语言模型准确率，得到语言模型。

进一步地，语义识别主要包括基于深度学习的意图识别和实体提取两部分；其中：

基于深度学习的意图识别，先对基于深度学习的意图识别方法进行实际业务应用，需要进行意图识别，首先需要知道有哪些意图；通过与量测核对业务人员的需求讨论及对量测核对录音文件的收听、总结，再进行对话策略设计；对话策略至少包括：

问候(greeting)：如图7所示，问候意图主要用于电话接通时值守机器人向现场调试人员问好并收集待核对厂站信息及现场调试人员姓名；

待核对量测类型收集(ask-checking)：如图8所示，待核对量测类型收集意图主要用于值守机器人向现场核对人员收集当前期望核对的是遥测或是遥信，并明确需要核对量测的起始位置，并从该逐一顺序核对；

遥信状态汇报(report-yx-state)：如图9所示，遥信状态汇报意图主要用于值守机器人指挥现场核对人员对待核对量测信号进行模拟，并与OCS中收到的实时数据进行核对；

遥测加量汇报(report-yc-state)：如图10所示，遥测加量汇报意图主要用于值守机器人指挥现场核对人员对待核对量测进行加量模拟，并与OCS中收到的实时数据进行核对；

结束会话(finish)：结束会话用于现场人员完成量测核对任务或其他原因，需结束与值守机器人的对话，并清除对话上下文记录。

具体地，实体提取基于电力调度领域知识图谱，依据CIM模型进行数据的抽取，通过CIM模型建立电气设备的基本拓扑知识结构图，依据电气设备的知识图谱关系，从OCS、OMS、规章规程、文档等抽取设备的遥测、遥信、遥控、遥调、电气量、量测点表、检修、运行日志、缺陷以及单位、人员之间的调管和运维关系；实体提取包括CIM模型解析、构建CIM模型中电气设备拓扑结构和实体识别三部分；

在CIM模型解析中，电力领域的CIM模型是用于描述电气设备之间的连接关系，需要根据CIM模型结构进行分析，并实现意图识别模型的应用；其中，意图识别模型可以为卷积神经网络(CNN)、循环神经网络(RNN)或循环神经网络+注意力机制(RNN+Attention)，并在对比分析后最终选用循环神经网络+注意力机制作为项目意图识别任务的主要模型。

其中，如图11所示，卷积神经网络(CNN)的模型采用relu作为激活函数，采用交叉熵作为损失函数，最后输出层拼接一层全连接网络将输出结果进行归一化；其试验数据如下表：

模型训练准确率为46.875％，验证准确率为57.960％，测试准确率为76.06％，训练总耗时1分钟。

如图12所示，循环神经网络(RNN)模型采用Bi-LSTM，拼接一层全连接网络将输出结果进行归一化，最后接入Softmax计算概率；其试验数据如下表：

模型训练准确率为92.969％，验证准确率为90.020％，测试准确率为90.69％，训练总耗时4分钟。

进而，循环神经网络+注意力机制(RNN+Attention)模型在循环神经网络(RNN)结构的基础上，加入了注意力机制(Attention)，拼接一层全连接网络将输出结果进行归一化，最后接入Softmax计算概率；其试验数据如下表：

模型训练准确率为96.875％，验证准确率为90.610％，测试准确率为91.67％，训练总耗时6分钟。

/>

模型训练准确率为88.281％，验证准确率为88.520％，测试准确率为89.21％，训练总耗时6分钟。

根据上述各模型的实验结果可以看出，除了CNN模型准确率相对低一些外，其他三个模型准确率均在90％左右。在项目应用中，优选此次实验中得分最高的循环神经网络+注意力机制(RNN+Attention)作为项目意图识别任务的主要模型。

通过调度自动化专家结合量测核对时的录音内容，总结整理出了一套量测核对时的常用语，并将该常用语进行了规则化，应用该规则使用计算机自动生成语料，结合人工整理及计算机生成的方式，截至目前一共生成及整理了语料24963条，具体如下表所示：

/>

应用上述整理的语料并使用循环神经网络+注意力机制(RNN+Attention)进行训练，结果如图13所示。训练结果中，测试准确率为99.76％，由于各意图语料数量不均等，并且多数语料是通过规则生成，有一定的相似性，所以多个意图的准确率达到了100％，明显存在过拟合现象。但对训练好的模型上线到实际业务环境中应用，可以满足业务需求。

具体地，实体识别用于从文本中抽取实体信息元素，包括人名、组织名、机构名、地理位置、变电站、设备、电气单位、日期、设备状态、量测等。实体识别是解决很多自然语言处理问题的基础，也是实体提取中最基本的任务；如下表所示：

实体识别的方法至少包括：

基于规则方法：通过电力调度领域的数据库，以及领域专家构建的规则，实现电力调度领域实体的识别；例如：从OMS、4A、OCS中获取机构组织、人员、变电站、设备等实体；通过专家定义规则，如：220kV庄红Ⅱ回线272断路器是断路器的命名规则，专家规则模型为：线路/变电站+断路器。

基于统计模型的方法：利用完全标注或部分标注的预料进行训练，采用的模型包括隐马尔可夫模型(Hidden Markov Model，HMM)、最大熵模型(Max Entropy Model，MEM)以及条件随机场模型(Conditional Random Field，CRF)，利用这些方法模型将命名实体识别作为序列标注处理。与普通的分类相比，序列标注中当前的标签的预测不仅与当前输入特性相关，还与之前预测标签相关，即预测标签序列是有强相互依赖关系的。从自然文本中识别实体是一个典型的序列标注问题。基于统计模型构建命名实体识别方法主要是要训练语料标注，特征定义和模型训练，其步骤如下：

步骤1、训练语言标注；

步骤2、特征定义；

步骤3、模型训练。

基于深度学习的方法：基于深度学习在自然语言处理领域得到了广泛的应用，深度神经网络也被成功用于命名实体识别；基于深度学习的方法直接以文本中词的向量为输入，通过神经网络实现端到端的命名实体识别，不再依赖人工定义特征；

通过卷积神经网络(CNN)、循环神经网络(RNN)以及映入注意力机制，初始输入以及词的上下文信息，即可得到每个词的新向量表示，最后在通过CRF模型输出对每个词的标注结果。

实体识别还包括关系提取，关系抽取是实体提取的重要任务之一，面向非结构化文本数据，关系抽取是从文本中抽取到两个或者多个实体之间的语义关系；关系抽取与实体识别密切相关，一般在识别出文本中的实体后，再抽取实体之间可能存在的关系；

其一，基于模板的关系抽取方法：

先将上述句子中的实体识别出来：

将实体替换为变量，从而得到如下能够获取“隶属”关系的模板：

变量X_ss和Y_dev分别代表机构和厂站，【X_dev】和【Y_dev】分别代表一级设备和二级设备，利用上述模板在文本中进行匹配，可以得到新的具有“设备隶属”关系的实体。为了进一步提高模板匹配的准确率，可以将句法分析结果加入模板。

其二，基于知识图谱的关系抽取方法：

通过对CIM网络拓扑生成知识图谱后，可通过知识图谱中的三元组数据对关系进行抽取，抽取后可形成新的领域知识图谱：

本方案的研究对象为厂站接入调试领域文本，是工业场景中实际应用包含丰富物理含义信息的文本。厂站接入调试文本中存在大量包含物理属性、设备对象、操作类型、组织机构等实际含义的词语，它们往往是语义解析的目标成分，因此在语义模型建立过程中有必要通过标注等手段将其含义体现出来。在对文本进行标注时，针对部分关键词汇，本文设计了词类型标签，部分常用标签如下表所示：

类别	英文标签
		变站厂/电厂	ss
量测类型	mt
		量测	meas
量测状态	act

进一步地，语音合成用于在各意图识别完成后，需根据意图执行相应的业务处理逻辑，由业务处理结果确定值守机器人需与现场调试人员进行什么样的交互，是典型的基于任务型对话功能；语音合成包括温拌生成和文本转语音两个阶段；

因此，在文本生成阶段，文本生成任务采用规则模板的模型，由交流业务处理模块生成并返回值守机器人处理；模板通过${param}的方式嵌入变量(即业务处理结果)，最终根据业务处理结果拼接成完整的语句；

在文本转语音阶段中，项目中TTS组件主要应用了pyttsx3文本到语音转换库处理底层的技术问题，因此本阶段研究点主要解决的是分词和断句问题；

因为在文本生成阶段使用的是规则模板生成技术，所以可在人工定义规则模板的时候，预先在模板中设置好断句，可以解决大部分合成自然度的问题；针对模板中变量部分，通过分词算法及词汇库，可对变量部分文本进行合理划分；最终可以获得较为自然、流畅的语音。

此外，本方案着重应用深度学习，深度学习作为人工智能的一个重要分支，在人工智能领域具有举足轻重的地位。深度学习通过模拟人脑认知事物的机理，构建多隐含层的神经网络，将输入数据逐层提取特征并抽象化表达，其最后一层的隐含层提取到的特征可以表征样本的类别，并以此做模式识别或预测分析。深度学习相较于传统算法更加强调模型的学习能力，本项目利用深度学习的自学习能力，使用深度学习算法对调度语音进行分析。

深度学习是克服了深层网络的训练困难的问题，基于浅层网络发展而来，深度学习可以自动提取样本特征，不需要人为地框定边界，而是直接把海量数据投放到算法中，系统会自动从数据中学习。深度学习的多隐含层感知结构将底层的信息在高层重新组合表达，来自动学习更有用的特征，从而最终提升分类或预测的准确性。所以，“深度模型”是手段，“特征学习”是目的，与人工规则构造提取特征的方法相比，利用深度学习来学习特征，更能够刻画数据的丰富内在信息。

深度学习把原始数据通过一些简单的但是非线性的模型转变成为更高层次的，实现复杂函数逼近，输入数据更加抽象的表示。通过足够多的转换的组合，非常复杂的函数也可以被学习。浅层模型对于复杂、高维数据的处理和学习能力有限，深度学习可以根据实际需求，构建合适的输入节点和隐含层数量，自动学习高维数据中的特征。

电力调度中自动化运维人力资源有限，原有调试过程占用了大量人工，甚至影响到其他工作的开展，导致人员超负荷工作。长此以往，不利于正常工作开展，更不利于自动化专业的管理水平提升。通过本研究成果的应用，以技术手段的方式从根本上解决上述问题，实现了调度端量测核对工作的无人值守，自动化运维人员也从低效、机械化的调试工作中得以解脱，更专注于调度自动化系统稳定运行，这不仅有利于自我提升，更有利于本专业整体管理水平的提升。

减少调度端调试工作时间95％以上。在应用本方案前，进行量测核对工作时，调度自动化运维人员需在主站端一边接听电话，一边根据现场调试人员的反馈在主站系统中进行信号查找、核对，核对过程耗时费力，并且机械式重复工作，核对效率低下。成果应用后，主站端属于无人值守状态，在整合核对过程中，调度自动化运维人员仅需要在量测出现问题的时候进行问题排查，无需再参与核对过程。原来调度侧核对一个厂站平均约3天，每天8小时，共24小时；应用成果后，人工参与耗时在1小时以内；用时减少约1-1/24≈95.8％，达到项目指标要求。

减少厂站端调试工作时间70％以上。由于调度自动化运维人力资源有限，而且运维人员的主要工作是保证调度自动化系统的稳定运行，经常需要不间断或临时处理调度指挥工作，导致核对工作中断，主站侧无法长时间持续配合厂站现场进行量测核对工作；且每次主站侧处理时间难以预测，厂站侧需随时候命等待。因此，厂站端调试人员经常会出现大量的等待时间。通过本研究成果的应用，站厂端可以随时发起量测核对工作，无需再等待调度自动化运维人员的时间安排，由原来的夜间开展核对工作为主转化为灵活安排时间；并且在核对过程中主站端信号查找、核对操作由人工转变为计算机，查找、核对效率也得到了提高。原来核对一个厂站平均约3天；①每天因主站侧中断等待平均约3次，每次约1.5～2小时，合计约5小时，应用成果后主站无人值守，不存在中断等待，此方面一个厂站用时减少5×3＝15小时；②每天约核对100个点，每个点核对2次，每次核对厂站侧需要等待主站侧人工查找信息平均约15秒，应用成果后由系统自动查找平均约3秒，一个厂站用时减少约100×2×(15-3)×3＝7200秒，即2个小时；(①+②)/24≈70.83％，达到项目指标要求。

缩短厂站自动化接入工作周期75％以上。从整体调试工作来看，在应用项目成果前，核对一个厂站平均需要2-4个人天，且因需要主站侧人工实时配合，人力资源有限，不能同时开展多项核对工作，核对计划安排周期较长。在应用本研究成果后，核对一个厂站平均需要2天左右，且提供了多种调试渠道，支持多个厂站同时并行进行核对，可灵活安排计划。原来10个厂站核对周期需要10×3＝30天左右；应用成果后，10×2＝20天，多厂站同时核对(如3个并行)20÷3≈6.67天；1-6.67/30≈77.78％，达到项目指标要求，如果同时更多厂站同时核对，可达到更高指标。

如图14所示，本实施例还提供了一种系统运行平台装置，该装置包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序。

处理器包括一个或一个以上处理核心，处理器通过总线与存储器相连，存储器用于存储程序指令，处理器执行存储器中的程序指令时实现上述的调度自动化主站智能语音联调系统的运行步骤。

可选的，存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随时存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

此外，本发明还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述的调度自动化主站智能语音联调系统的运行步骤。

可选的，本发明还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面调度自动化主站智能语音联调系统的运行步骤。

本领域普通技术人员可以理解，实现上述实施例的全部或部分步骤的过程可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，程序可以存储于计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.调度自动化主站智能语音联调系统，其特征在于：该系统以组件化、服务化模式实现功能模块交互，采用微服务体系架构实现，主要由语音处理及交互平台、自动化调试知识平台、数据自动提起与预处理组件、智能处理与人机交互界面组成；其中：

2.根据权利要求1所述的调度自动化主站智能语音联调系统，其特征在于：所述智能处理与人机交互界面中，厂站完成现场试验工作后，厂站端工作人员发起调试工作流程，采用电子调试工单形式，结合工作流引擎，实现调试过程在线流转、全程管控、自动闭环，形成从工作任务下达至调试结束生成调试报告的闭环管理模式；

调试完成后，自动生成完整的、规范统一的调试报告，调度端在调试过程中可随时查看调试报告，了解调试进度及具体情况。

3.根据权利要求1所述的调度自动化主站智能语音联调系统，其特征在于：所述语音接入采用直接利用模拟电话线接入服务器，应用SIP协议代理，实现模拟电话信号及语音接入；通过SIP代理控制电话的创建、更改和挂断，在模拟电话拨入时，会触发INVITE请示，同时，请示中会携带SDP报文；SDP会话描述协议，描述、协商多媒体会话参数；根据SDP协议内容中对媒体信息的描述，媒体使用RTP协议传输采用G.711A算法进行编/解码及打包；采用RTP协议实现与调度电话之间的音频传输。

4.根据权利要求1所述的调度自动化主站智能语音联调系统，其特征在于：所述语音预处理主要包括编码转换和音频切片；

所述音频切片即采用语音活动检测，利用话音/静默特性，当检测到突发的活动声音时才生成语音信号，并加以传输，当检测到为静默时，停止传输，切断音频，对语音和非语音的区域进行区分，找到一段语音真正有效的内容；

同时采用双门限比较法，并加入汉明窗计算短时能量和短时过零率来评估环境噪音，通过改进短时能量和双门限阀值两个参数的提取算法，拟合出一个能反映语音与噪声显著差异的特征参数，并采用动态门限进行判决。

5.根据权利要求4所述的调度自动化主站智能语音联调系统，其特征在于：所述音频切片主要包括分帧加窗、计算短时能量、计算短时过零率、估计噪声阀值和语音检测五个部分，具体为：

加窗可以认为对抽样n附近的语音波形加以强调而对波形的其余部分加以减弱；常用的窗口函数至少包括矩形窗、汉明窗和汉宁窗；其中汉明窗的函数为：

式中，a为常数，N为窗口宽度；

其中，W(n)是窗口函数；

式中，sgn[x]是符号函数；

Step2、将语音状态标记确认，进入过渡段，等待再一次满足语音激活条件，则启动语音激活，进入语音段，开始缓存语音信号；处于语音段时，如果两参数降低到门限以下，而且总的计时长度小于最短时间门限，则认为是一段噪音，作为静音确认状态；

6.根据权利要求1所述的调度自动化主站智能语音联调系统，其特征在于：所述语音识别主要包括特征提取、声学模型、语言模型以及语义字典与解码四个部分；其中：

所述声学模型基于卷积神经网络CNN对语音数据进行训练获得，输入是语谱图特征向量，输出为音素信息；对业务领域相关高频词汇进行了微调，提高业务领域汉字词汇的频度，以提高识别率；

7.根据权利要求1所述的调度自动化主站智能语音联调系统，其特征在于：所述语义识别主要包括基于深度学习的意图识别和实体提取两部分；其中：

问候：问候意图主要用于电话接通时值守机器人向现场调试人员问好并收集待核对厂站信息及现场调试人员姓名；

待核对量测类型收集：待核对量测类型收集意图主要用于值守机器人向现场核对人员收集当前期望核对的是遥测或是遥信，并明确需要核对量测的起始位置，并从该逐一顺序核对；

遥信状态汇报：遥信状态汇报意图主要用于值守机器人指挥现场核对人员对待核对量测信号进行模拟，并与OCS中收到的实时数据进行核对；

遥测加量汇报：遥测加量汇报意图主要用于值守机器人指挥现场核对人员对待核对量测进行加量模拟，并与OCS中收到的实时数据进行核对；

肯定结果：肯定结果为子意图，即在对话过程中，对需要现场进行确认时的事项进行意图识别并判定为肯定状态；

否定结果：否定结果为子意图，即在对话过程中，对需要现场进行确认时的事项进行意图识别并判定为否定状态；

重新检查：在量测核对不成功的情况下，现场重新加量后要求值守机器人重新与OCS核对量测量：

复述：在现场人员未听清楚机器讲述内容时，要求机器重复之前的话语；

结束会话：结束会话用于现场人员完成量测核对任务或别的原因，需结束与值守机器人的对话。

8.根据权利要求7所述的调度自动化主站智能语音联调系统，其特征在于：所述实体提取基于电力调度领域知识图谱，依据CIM模型进行数据的抽取，通过CIM模型建立电气设备的基本拓扑知识结构图，依据电气设备的知识图谱关系，从OCS、OMS、规章规程、文档抽取设备的遥测、遥信、遥控、遥调、电气量、量测点表、检修、运行日志、缺陷以及单位、人员之间的调管和运维关系；所述实体提取包括CIM模型解析、构建CIM模型中电气设备拓扑结构和实体识别三部分；

在CIM模型解析中，电力领域的CIM模型是用于描述电气设备之间的连接关系，需要根据CIM模型结构进行分析，并实现意图识别模型的应用；其中，意图识别模型可以为卷积神经网络、循环神经网络或循环神经网络+注意力机制，并在对比分析后最终选用循环神经网络+注意力机制作为项目意图识别任务的主要模型；

在构建CIM模型中电气设备拓扑结构时，通过电力CIM模型解析后，可以获取母线、厂站、变压器、线路、隔离开关、接地开关的设备数据及关系；通过程序处理后，可以将数据转换为知识图谱。

9.根据权利要求9所述的调度自动化主站智能语音联调系统，其特征在于：所述实体识别用于从文本中抽取实体信息元素，包括人名、组织名、机构名、地理位置、变电站、设备、电气单位、日期、设备状态、量测；实体识别的方法至少包括：

基于统计模型的方法：利用完全标注或部分标注的预料进行训练，采用的模型包括隐马尔可夫模型、最大熵模型以及条件随机场模型，利用这些模型将命名实体识别作为序列标注处理；

所述实体识别还包括关系提取，面向非结构化文本数据，关系抽取是从文本中抽取到两个或者多个实体之间的语义关系；关系抽取与实体识别密切相关，一般在识别出文本中的实体后，再抽取实体之间可能存在的关系；

10.根据权利要求1所述的调度自动化主站智能语音联调系统，其特征在于：所述语音合成用于在各意图识别完成后，根据意图执行相应的业务处理逻辑，由业务处理结果确定值守机器人需与现场调试人员进行什么样的交互；所述语音合成包括温拌生成和文本转语音两个阶段；

在文本生成阶段，文本生成任务采用规则模板的模型，由交流业务处理模块生成并返回值守机器人处理；模板嵌入变量，最终根据业务处理结果拼接成完整的语句；

在文本转语音阶段的研究点主要解决的是分词和断句问题；