CN113822506A

CN113822506A - 一种用于电力调控的多轮次语音交互智能检索系统及方法

Info

Publication number: CN113822506A
Application number: CN202010562906.8A
Authority: CN
Inventors: 王治华; 高峰; 陈宏福
Original assignee: State Grid Shanghai Electric Power Co Ltd
Current assignee: State Grid Shanghai Electric Power Co Ltd
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2021-12-21

Abstract

本发明涉及自然语言处理、语音交互、智能检索等技术领域，尤其涉及一种用于电力调控的多轮次语音交互智能检索系统及方法，其不同之处在于，包括以下步骤：步骤1：语音交互：用户与调度服务交互终端进行多轮次语音交互；步骤2：意图发现：面对用户各种各样的意图表达，得到候选服务本体，排序并依次询问用户当前服务是否是用户所需；步骤3：智能搜索：待用户意图确定后，需要对用户需要的电力调度服务进行检索，将搜索结果进行结构化的组织与排序，提供给用户；步骤4：对用户选择的服务进行调度。本发明提高了语音识别的准确性，准确定位用户意图，提高了电力行业的调度效率。

Description

一种用于电力调控的多轮次语音交互智能检索系统及方法

技术领域

本发明涉及自然语言处理、语音交互、智能检索等技术领域，尤其涉及一种用于电力调控的多轮次语音交互智能检索系统及方法。

背景技术

近些年来，随着社会现代化进程的飞速发展和新科学技术的蓬勃发展，对电力行业来说，也要紧跟时代的步伐，不断追求创新。如今，在人工智能的大潮推动下，智能电网领域发展迅猛，中国电网已经形成了一个跨越巨大时空的特高压交直流混联大电网。电力调度乃至客服领域更加需要高效协同，才能共同应对电力网络的各种冲击、扰动、连锁故障等。

传统的电力调度交互方式在大型电网事故处理时存在因多个电话同时呼叫造成信息堵塞，造成严重后果，各级间调度信息相互隔离，形成信息孤岛，不能满足高效协同的要求。随着网络和人工智能技术的发展与兴起，基于人工智能技术的多级协同平台是解决这一问题的有效方案。其中语音交互及智能检索在电网调度中的应用是关键技术之一，将各级调度机构的调度语音进行识别转换成文字之后在平台上共享，可以有效解决信息闭塞的问题，大大的提高了电网故障的排除效率，有利于迅速处理电网事故。并且，该技术还可用于查找调度日志语音记录、电网调度控制系统交互、智能客服等领域，大大减轻了调度员的压力，提高指挥效率。通过语音交互来控制搜索，从而解放人们的双手，让人们能够用最简便的方式来操作，这样可以极大的方便了工作与生活，在电力调度中的应用也尤为重要。

在智能电力调度的人机交互方面，语音交互逐渐代替传统的手动控制，成为新的主流。语音交互技术包含语音唤醒、自动语音识别和语义理解，其中自动语音识别(ASR)在近几十年来一直是研究的热点，众多语音识别相关的核心技术涌现出来，如混合高斯模型(GMM)、隐马尔科夫模型(HMM)、梅尔倒谱系数(MFCC)、鉴别性训练以及多种技术，这些技术极大的推进了ASR及相关领域的发展，GMM-HMM鉴别性训练这种重要技术被成功应用到实际系统中。在过去的几年中，由于智能设备应用对语音识别的需求与日俱增，同时由于计算能力大幅提升导致深度学习在大词汇连续语音识别下的成功应用，ASR研究再次成为研究的热门。随着人工智能、深度学习等技术的发展，在语音识别领域出现了循环神经网络(RNN)，长短期记忆(LSTM)网络等结构，大大的提高了语音识别的准确率。但是模型存在训练难度大，不能很好的适应特定的领域的问题。

在浩瀚的信息海洋中，人们只有依靠搜索引擎才能不至于迷失方向，才能迅速找到所需的信息。如何根据用户的请求，从可以获得的网络资源中检索出对用户最有价值的信息，成为智能搜索追求的目标。在电力调控领域，使智能搜索引擎具有信息服务的智能化、人性化特征，允许用户采用自然语言进行信息的检索，从而提供更方便、更确切的搜索服务成为一种趋势。

鉴于此，为了克服现有技术缺点，提供一种用于电力调控的多轮次语音交互智能检索方法成为本领域亟待解决的问题。

发明内容

本发明目的在于克服现有技术的缺点，提供一种用于电力调控的多轮次语音交互智能检索方法及系统，提高了语音识别的准确性，准确定位用户意图，提高了电力行业的调度效率。

为解决以上技术问题，本发明提供了一种用于电力调控的多轮次语音交互智能检索方法，其不同之处在于，包括以下步骤：

步骤1：语音交互：用户与调度服务交互终端进行多轮次语音交互；

步骤2：意图发现：面对用户各种各样的意图表达，得到候选服务本体，排序并依次询问用户当前服务是否是用户所需；

步骤3：智能搜索：待用户意图确定后，需要对用户需要的电力调度服务进行检索，将搜索结果进行结构化的组织与排序，提供给用户；

步骤4：对用户选择的服务进行调度。

按以上技术方案，所述步骤1中，语音交互包括以下步骤：

步骤A、语音唤醒，将用户录制的语音进行信号处理，通过与设定的唤醒词配对，唤醒语音系统；

步骤B、语音识别，将传入后台的语音进行语音识别，将接收到的语音进行文字转换；

步骤C、自然语言处理，将语音识别后的转换文本，进行自然语言处理，消除单词的边界界定，使得文本连贯，对词义的消歧，使得句意通顺；

步骤D、语义理解，接收经过自然语言处理后的文本，通过语法、语义、语用的分析，获取自然语言的语义表示。

按以上技术方案，所述步骤1中，对多轮次语音交互的管理包括以下步骤：

步骤一，对用户输入进行语义理解；

步骤二，判断语义理解是否为空；

步骤三，生成服务树的节点；

步骤四，查询服务节点；

步骤五，判断是否为服务树的根节点；

步骤六，验证是否通过；

步骤七，输出。

按以上技术方案，基于服务树的多轮次语音交互具体包括：

步骤一，服务树定义，服务树中一共有三类节点：领域节点，服务节点，叶子节点；

步骤二，服务树设计；

步骤三，服务树填充、验证与应答推理；

步骤四，服务树会话空间保存、回退。

按以上技术方案，所述步骤2包括以下步骤：

步骤21：将系统中的所有调度服务定义为一个五元组形式的本体，表示如下：

S＝(C,O,A,T,E)

其中，C表示服务的别名表示，O表示服务的事件对象集合，A表示服务的事件行为集合，T表示服务使用到的工具集合，E表示服务中可能发生的事件；

步骤22：将事件E定义为一个四元组，表示如下：

E＝(object,status_before,action,status_after,confidence)

其中，object表示服务过程中发生事件时涉及的事件对象，status_before表示对事件对象施加行为前的状态，action表示对事件对象施加的行为，status_after表示对事件对象施加行为后的状态，confidence为事件E在服务S中的置信度，初始值为0，当用户在多个候选服务类型中选中该服务类型时，该服务类型下的事件E的置信度加1；

步骤23：自定义本领域词典；

步骤24：构建服务本体知识库。

按以上技术方案，所述步骤2中，采用基于IHS算法改进的SSHS算法推荐用户服务。

按以上技术方案，所述步骤3包括以下步骤：

步骤31：从语音内容中提取信息线索；

步骤32：基于内容的语音智能检索；

步骤33：数据库快速检索。

按以上技术方案，所述步骤31中，利用音频内容特征建立索引进行检索。

一种用于电力调控的多轮次语音交互智能检索系统，其不同之处在于：其包括

调度服务交互终端，为交互终端设备；

调度服务模块，用于根据用户需求进行电力调度服务；

语音交互模块，用于用户语音的交互；

多轮次语音交互管理模块，用于对多轮次语音交互进行管理；

用户意图发现模块，用于根据用户各种各样的意图表达，得到候选服务本体，排序并依次询问用户当前服务是否是用户所需；

智能搜索模块，用于对用户需要的电力调度服务进行检索，将搜索结果进行结构化的组织与排序并提供给用户。

按以上技术方案，还包括基本信息管理模块，所述基本信息管理模块包括用户登录管理、密码管理、用户个人基本信息管理、调度服务基本信息管理和服务地址管理。

与现有技术相比，本发明具备以下有益效果：

本发明提供了一种应用于电力调控的多轮次语音交互智能检索系统及方法，具体包括了建立多轮次语音交互管理模型、构建本领域知识库及自定义词典、智能检索算法；采用多轮次语音交互方法来意图确认，从而进行智能检索；使用用户语音产生的语料库进行训练，提高了语音识别的准确性；基于服务树的多轮次语音交互管理，能够缩短交互轮次，准确定位用户意图；此外，本发明中基于内容的语音智能检索技术，能够快速通过用户语音建立结构化的索引，在电力调度领域中，有利于及时响应。

通过多轮次语音交互智能搜索方法，在电力调控中，可以削减人为误操作的风险，可以避免对大型数据的繁琐搜索，大大节省了人力成本，以及能够实时检测、监控、调度电力情况，同时针对电力领域建立了专门知识库，精确搜索专业电力调控知识，并且在多轮次交互过程中，能提供最优解决方案，实现了语音识别、语音理解功能，使得用户除文字输入外，能够通过语音输入、语音播报的形式进行交互，完成电力调控智能搜索。

附图说明

图1为本发明实施例检索方法的整体流程示意图；

图2为本发明实施例中语音交互处理的流程示意图；

图3为本发明实施例中多轮次语音交互管理模块的模块示意图；

图4为本发明实施例中用户意图发现模块的模块示意图；

图5为本发明实施例中智能搜索的流程示意图；

图6为本发明实施例检索系统的模块示意图；

图7为本发明实施例中基本信息管理模块的模块示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1至图7，本发明提供一种用于电力调控的多轮次语音交互智能检索方法，其不同之处在于，包括以下步骤：

步骤4：对用户选择的服务进行调度。

具体的，所述步骤1中，语音交互包括以下步骤：

具体的，所述步骤1中，对多轮次语音交互的管理包括以下步骤：

步骤一，对用户输入进行语义理解；

步骤二，判断语义理解是否为空；

步骤三，生成服务树的节点；

步骤四，查询服务节点；

步骤五，判断是否为服务树的根节点；

步骤六，验证是否通过；

步骤七，输出。

具体的，基于服务树的多轮次语音交互具体包括：

步骤二，服务树设计；

步骤三，服务树填充、验证与应答推理；

步骤四，服务树会话空间保存、回退。

具体的，所述步骤2包括以下步骤：

S＝(C,O,A,T,E)

步骤22：将事件E定义为一个四元组，表示如下：

E＝(object,status_before,action,status_after,confidence)

步骤23：自定义本领域词典；

步骤24：构建服务本体知识库。

优选的，所述步骤2中，采用基于IHS算法改进的SSHS算法推荐用户服务。

具体的，所述步骤3包括以下步骤：

步骤31：从语音内容中提取信息线索；

步骤32：基于内容的语音智能检索；

步骤33：数据库快速检索。

具体的，所述步骤31中，利用音频内容特征建立索引进行检索。

调度服务交互终端，为交互终端设备；

调度服务模块，用于根据用户需求进行电力调度服务；

语音交互模块，用于用户语音的交互；

具体的，还包括基本信息管理模块，所述基本信息管理模块包括用户登录管理、密码管理、用户个人基本信息管理、调度服务基本信息管理和服务地址管理。

本发明实施例中，主要包括：

一、基本信息管理模块：基本信息管理模块包括用户个人及调度服务基本信息管理，用户可以对其进行设置修改，还包括服务地址管理，一个用户可以拥有多个服务地址，并且设置其中一个为默认服务地址，服务地址包含调度具体服务地址信息，用户账户管理及登录密码也包含在基本信息管理功能中，用户还可以更改其登录密码。具体包含对用户信息的增删该查管理，以及对用户使用过程中收集产生的语音数据并建立数据库，实现对语料数据库的管理。

基本信息管理具体包括：首先对用户进行个人信息进行存储管理，验证用户信息，如姓名、职位、权限、性别、服务地址等，用户首次登陆时，会将token以键值对的形式存在本地，下次打开交互终端时直接从本地读取token传到后台服务器进行验证，验证通过则直接进入主界面，无需用户再次输入用户名和密码进行验证；确认用户身份及权限后，进入语音交互页面，根据用户的权限在进行语音交互过程中，提供定制化服务。基本信息管理的具体步骤：步骤一，用户信息存储；步骤二，查询数据库；步骤三，验证，提示；步骤四，生成token并返回客户端；步骤五，修改数据，增、删、改；步骤六，数据保存。

二、语音交互模块：采用了实现语音听写和语音合成功能，语音识别准确率在95％以上，识别反馈结果的过程不超过0.2s，并且支持多种地方方言，语音合成能够将文本变为流利、清楚、自然的语音数据，其生成语音的自然度、和谐度比一般人的诵读水平高，并且可以动态调整语音速度等各项变量定做出属于电力调控专有的语音。

具体包含语音唤醒、自动语音识别和语义理解。在训练语音唤醒模型过程中，提出建立多个基于唤醒词的音素的HMM模型用于二次验证，有助于降低误唤醒的概率。根据用户产生的语音数据库训练出符合用户使用环境的语音识别模型，有助于提高语音识别引擎的准确率。

所述基于HMM的语音唤醒模型，唤醒词识别系统包含了声学特征提取、建立声学模型、音频信号解码三个阶段。特征提取将信号从时域转化到频域，为声学模型提供有代表性的特征向量。声学模型将声乐和发音学知识相结合，以特征提取的特征向量作为输入，将特征序列转变成具有最大概率的声音模型序列。解码器针对给定的特征向量序列和字典序列，结合唤醒词模型和背景音模型判断特征序列是否激发唤醒。

语音交互的具体实现步骤为，当验证完用户信息后，进入语音唤醒，具体可通过唤醒词唤醒语音系统，用户使用正确的语音唤醒词产生一个语音信号，然后系统根据接收到的语音信号，进行信号处理，训练云唤醒引擎将训练好的模型传入语音唤醒模块，并进行命令词的识别，识别成功后便可唤醒语音系统，进入终端提供语音服务，对接收到的语音信号，不断进行自然语言处理，完成语义理解，在此过程中对多轮次的语音交互需要进行有效管理。

三、多轮次语音交互管理模块：通过多轮对话的方式和用户进行交互，确定需求并进行调度搜索服务，为了实现多轮对话管理，提出了基于服务树的对话管理方式，进行调度搜索服务需要很多服务属性值信息，不可能通过用户的一次描述就获得全部必需信息要素，通过与用户的多轮对话来确定服务信息，故采用了基于服务树的多轮对话管理方式，将调度服务所有要素组织成树的形式，并在与用户的对话过程中进行管理，多轮对话管理模块结合当前上下文信息，推理出接下来所需的优先级较高的必要信息并询问用户，得到用户反馈后，判断是否满足用户要求，若满足则将所有信息整合并对搜索服务做出响应。基于服务树的多轮次语音交互管理模块，具体包含服务树的定义，服务树的填充、验证及应答推理，服务树会话空间保存、回退。

多轮次语音交互管理的具体实现步骤为，首先对语义理解的输入进行判断，若不为空，则进行服务树的生成，具体包括，服务树的填充、验证、应答推理、会话空间保存、回退。服务树的填充就是把前期得到服务语义框架填充到服务树相应的各个节点中去，在填充的过程中构建服务树。服务树中的节点有合法性验证，对于叶子节点的合法性验证各不相同，比如时间，需要验证服务提供商在用户选择的时间是否能够提供服务，或者服务时长，可能只提供整时服务。服务节点的合法性验证要综合其所包含的必需节点和非必需节点，服务节点合法当且仅当其所有必需子节点合法且用户提及的非必需子节点也和合法。对于领域节点只是提供用户参考建议的，不需要合法性验证。在与用户交互过程中，对话历史信息都填充到服务树中，应答策略需要进行推理找到应答焦点，即最后找到服务树中的某个节点，并调用它的对话生成函数输出对用户的回应。

由于用户有时思维混乱、话语重复颠倒，因此我们会在服务树中至多保存两个会话空间，当前会话空间用户提到的最新服务类型，当前服务调度完成时，会回到之前用户提到的内容，提醒用户是否还需要之前提及的内容。服务中的每个节点都会有一个与自身相同结构的历史节点，用户存储用户对这一信息的历史值，用户可以通过历史节点回退，进行反悔。

四、用户意图发现模块：面对用户各种各样的意图表达，将用户意图分为两类，一类是显式用户意图，即用户明确表示需要的服务类型；另一类是隐式用户意图，用户只对当前情景进行描述，并未明确表明需要的服务类型；对于第一种情况可以直接映射到用户需要的服务类型，而对于第二种情况则需要进行推理，通过将所有电力调度服务构建为一个由五元组形式表达的服务本体，将用户输入首先进行分词，然后去停用词，将去停用词的结果先通过电力领域自定义词典进行标定，构建事件及本体，验证事件及本体关系，然后通过搜索本体知识库得到候选服务本体，通过事件在服务本体中的置信度及用户历史搜索服务的记录计算来排序值，将服务本体按照排序值进行排序并依次询问用户当前服务是否是用户想要的，当用户肯定回答时，发现用户意图结束，如所有服务本体候选项都不是用户所需，那么询问用户更多信息。

在发现用户意图时，对于用户输入，首先进行分词，然后搜索领域自定义词典。根据领域自定义词典对每个词标定标签，组合得到事件。根据得到的事件E搜索服务本体集合，推导候选服务类型。若候选服务类型不唯一，在没有用户历史记录信息的情况下，则比较事件E的置信度，推荐用户置信度和最高的服务，若有多个置信度和最高的候选服务类型，列出来让用户抉择，最后对用户选择的服务类型s下的事件e置信度加1。若有历史订单，则将历史订单及事件置信度相结合，根据如下公式的rank值排序候选服务类型，依次询问用户。

本发明实施例中，采用word2vec算法自动扩充领域自定义词典。

其中，n为用户输入中包含的事件数目，sh_ie表示包含事件e的服务i的历史记录数目，sc_ie表示服务i中事件e的置信度，α+β＝1。

五、智能搜索模块：待用户意图确定后，需要对用户需要的电力调度服务进行检索，根据用户提供的信息线索，通过智能搜索，将搜索结果进行结构化的组织与排序，提供给用户。

智能搜索的具体实现步骤为，从语音内容中提取信息线索，发现用户意图，然后将特征传入检索引擎，在检索引擎中将特征进行分类，然后进行检索匹配，通过基于内容的智能检索，在数据库快速检索，生成查询结果，将搜索结果进行结构化的组织与排序，提供给用户。

具体包含从语音内容中提取信息线索、基于内容的语音智能检索、数据库快速检索。基于内容的语音智能检索技术突破了基于关键词匹配的传统检索技术的限制，可以通过一定的计算机处理，分析语音音频的结构和语义，建立它们的结构化的组织和索引，使得“无序”的语音音频变的“有序”，从而有利于用户的检索和浏览。

综上所述，本发明实例中的一种应用于电力调控方面的多轮次语音交互智能检索方法，首先通过对电力行业的用户进行信息管理，确定权限，然后唤醒语音系统，通过多轮次的语音交互管理，确定用户意图，然后在智能化的检索引擎中，搜索出用户需要的电力调控结果。以此减少了人力成本，提高了电力行业的调度效率，并且该方法还削减了人为误操作的风险，可以避免对大型数据的繁琐搜索，在实时检测、监控、调度电力方面，具有很好的效果。

需要说明的是，在本文中，诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种用于电力调控的多轮次语音交互智能检索方法，其特征在于，包括以下步骤：

步骤4：对用户选择的服务进行调度。

2.根据权利要求1所述的用于电力调控的多轮次语音交互智能检索方法，其特征在于：所述步骤1中，语音交互包括以下步骤：

3.根据权利要求2所述的用于电力调控的多轮次语音交互智能检索方法，其特征在于：所述步骤1中，对多轮次语音交互的管理包括以下步骤：

步骤一，对用户输入进行语义理解；

步骤二，判断语义理解是否为空；

步骤三，生成服务树的节点；

步骤四，查询服务节点；

步骤五，判断是否为服务树的根节点；

步骤六，验证是否通过；

步骤七，输出。

4.根据权利要求3所述的用于电力调控的多轮次语音交互智能检索方法，其特征在于：基于服务树的多轮次语音交互具体包括：

步骤二，服务树设计；

步骤三，服务树填充、验证与应答推理；

步骤四，服务树会话空间保存、回退。

5.根据权利要求1所述的用于电力调控的多轮次语音交互智能检索方法，其特征在于：所述步骤2包括以下步骤：

S＝(C,O,A,T,E)

步骤22：将事件E定义为一个四元组，表示如下：

E＝(object,status_before,action,status_after,confidence)

步骤23：自定义本领域词典；

步骤24：构建服务本体知识库。

6.根据权利要求1所述的用于电力调控的多轮次语音交互智能检索方法，其特征在于：所述步骤2中，采用基于IHS算法改进的SSHS算法推荐用户服务。

7.根据权利要求1所述的用于电力调控的多轮次语音交互智能检索方法，其特征在于：所述步骤3包括以下步骤：

步骤31：从语音内容中提取信息线索；

步骤32：基于内容的语音智能检索；

步骤33：数据库快速检索。

8.根据权利要求7所述的用于电力调控的多轮次语音交互智能检索方法，其特征在于：所述步骤31中，利用音频内容特征建立索引进行检索。

9.一种用于电力调控的多轮次语音交互智能检索系统，其特征在于：其包括

调度服务交互终端，为交互终端设备；

调度服务模块，用于根据用户需求进行电力调度服务；

语音交互模块，用于用户语音的交互；

10.根据权利要求9所述的用于电力调控的多轮次语音交互智能检索系统，其特征在于：还包括基本信息管理模块，所述基本信息管理模块包括用户登录管理、密码管理、用户个人基本信息管理、调度服务基本信息管理和服务地址管理。