CN113822506A - 一种用于电力调控的多轮次语音交互智能检索系统及方法 - Google Patents

一种用于电力调控的多轮次语音交互智能检索系统及方法 Download PDF

Info

Publication number
CN113822506A
CN113822506A CN202010562906.8A CN202010562906A CN113822506A CN 113822506 A CN113822506 A CN 113822506A CN 202010562906 A CN202010562906 A CN 202010562906A CN 113822506 A CN113822506 A CN 113822506A
Authority
CN
China
Prior art keywords
service
user
voice
voice interaction
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010562906.8A
Other languages
English (en)
Inventor
王治华
高峰
陈宏福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Shanghai Electric Power Co Ltd
Original Assignee
State Grid Shanghai Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Shanghai Electric Power Co Ltd filed Critical State Grid Shanghai Electric Power Co Ltd
Priority to CN202010562906.8A priority Critical patent/CN113822506A/zh
Publication of CN113822506A publication Critical patent/CN113822506A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E40/00Technologies for an efficient electrical power generation, transmission or distribution
    • Y02E40/70Smart grids as climate change mitigation technology in the energy generation sector
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Human Resources & Organizations (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Educational Administration (AREA)
  • Databases & Information Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Animal Behavior & Ethology (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及自然语言处理、语音交互、智能检索等技术领域,尤其涉及一种用于电力调控的多轮次语音交互智能检索系统及方法,其不同之处在于,包括以下步骤:步骤1:语音交互:用户与调度服务交互终端进行多轮次语音交互;步骤2:意图发现:面对用户各种各样的意图表达,得到候选服务本体,排序并依次询问用户当前服务是否是用户所需;步骤3:智能搜索:待用户意图确定后,需要对用户需要的电力调度服务进行检索,将搜索结果进行结构化的组织与排序,提供给用户;步骤4:对用户选择的服务进行调度。本发明提高了语音识别的准确性,准确定位用户意图,提高了电力行业的调度效率。

Description

一种用于电力调控的多轮次语音交互智能检索系统及方法
技术领域
本发明涉及自然语言处理、语音交互、智能检索等技术领域,尤其涉及一种用于电力调控的多轮次语音交互智能检索系统及方法。
背景技术
近些年来,随着社会现代化进程的飞速发展和新科学技术的蓬勃发展,对电力行业来说,也要紧跟时代的步伐,不断追求创新。如今,在人工智能的大潮推动下,智能电网领域发展迅猛,中国电网已经形成了一个跨越巨大时空的特高压交直流混联大电网。电力调度乃至客服领域更加需要高效协同,才能共同应对电力网络的各种冲击、扰动、连锁故障等。
传统的电力调度交互方式在大型电网事故处理时存在因多个电话同时呼叫造成信息堵塞,造成严重后果,各级间调度信息相互隔离,形成信息孤岛,不能满足高效协同的要求。随着网络和人工智能技术的发展与兴起,基于人工智能技术的多级协同平台是解决这一问题的有效方案。其中语音交互及智能检索在电网调度中的应用是关键技术之一,将各级调度机构的调度语音进行识别转换成文字之后在平台上共享,可以有效解决信息闭塞的问题,大大的提高了电网故障的排除效率,有利于迅速处理电网事故。并且,该技术还可用于查找调度日志语音记录、电网调度控制系统交互、智能客服等领域,大大减轻了调度员的压力,提高指挥效率。通过语音交互来控制搜索,从而解放人们的双手,让人们能够用最简便的方式来操作,这样可以极大的方便了工作与生活,在电力调度中的应用也尤为重要。
在智能电力调度的人机交互方面,语音交互逐渐代替传统的手动控制,成为新的主流。语音交互技术包含语音唤醒、自动语音识别和语义理解,其中自动语音识别(ASR)在近几十年来一直是研究的热点,众多语音识别相关的核心技术涌现出来,如混合高斯模型(GMM)、隐马尔科夫模型(HMM)、梅尔倒谱系数(MFCC)、鉴别性训练以及多种技术,这些技术极大的推进了ASR及相关领域的发展,GMM-HMM鉴别性训练这种重要技术被成功应用到实际系统中。在过去的几年中,由于智能设备应用对语音识别的需求与日俱增,同时由于计算能力大幅提升导致深度学习在大词汇连续语音识别下的成功应用,ASR研究再次成为研究的热门。随着人工智能、深度学习等技术的发展,在语音识别领域出现了循环神经网络(RNN),长短期记忆(LSTM)网络等结构,大大的提高了语音识别的准确率。但是模型存在训练难度大,不能很好的适应特定的领域的问题。
在浩瀚的信息海洋中,人们只有依靠搜索引擎才能不至于迷失方向,才能迅速找到所需的信息。如何根据用户的请求,从可以获得的网络资源中检索出对用户最有价值的信息,成为智能搜索追求的目标。在电力调控领域,使智能搜索引擎具有信息服务的智能化、人性化特征,允许用户采用自然语言进行信息的检索,从而提供更方便、更确切的搜索服务成为一种趋势。
鉴于此,为了克服现有技术缺点,提供一种用于电力调控的多轮次语音交互智能检索方法成为本领域亟待解决的问题。
发明内容
本发明目的在于克服现有技术的缺点,提供一种用于电力调控的多轮次语音交互智能检索方法及系统,提高了语音识别的准确性,准确定位用户意图,提高了电力行业的调度效率。
为解决以上技术问题,本发明提供了一种用于电力调控的多轮次语音交互智能检索方法,其不同之处在于,包括以下步骤:
步骤1:语音交互:用户与调度服务交互终端进行多轮次语音交互;
步骤2:意图发现:面对用户各种各样的意图表达,得到候选服务本体,排序并依次询问用户当前服务是否是用户所需;
步骤3:智能搜索:待用户意图确定后,需要对用户需要的电力调度服务进行检索,将搜索结果进行结构化的组织与排序,提供给用户;
步骤4:对用户选择的服务进行调度。
按以上技术方案,所述步骤1中,语音交互包括以下步骤:
步骤A、语音唤醒,将用户录制的语音进行信号处理,通过与设定的唤醒词配对,唤醒语音系统;
步骤B、语音识别,将传入后台的语音进行语音识别,将接收到的语音进行文字转换;
步骤C、自然语言处理,将语音识别后的转换文本,进行自然语言处理,消除单词的边界界定,使得文本连贯,对词义的消歧,使得句意通顺;
步骤D、语义理解,接收经过自然语言处理后的文本,通过语法、语义、语用的分析,获取自然语言的语义表示。
按以上技术方案,所述步骤1中,对多轮次语音交互的管理包括以下步骤:
步骤一,对用户输入进行语义理解;
步骤二,判断语义理解是否为空;
步骤三,生成服务树的节点;
步骤四,查询服务节点;
步骤五,判断是否为服务树的根节点;
步骤六,验证是否通过;
步骤七,输出。
按以上技术方案,基于服务树的多轮次语音交互具体包括:
步骤一,服务树定义,服务树中一共有三类节点:领域节点,服务节点,叶子节点;
步骤二,服务树设计;
步骤三,服务树填充、验证与应答推理;
步骤四,服务树会话空间保存、回退。
按以上技术方案,所述步骤2包括以下步骤:
步骤21:将系统中的所有调度服务定义为一个五元组形式的本体,表示如下:
S=(C,O,A,T,E)
其中,C表示服务的别名表示,O表示服务的事件对象集合,A表示服务的事件行为集合,T表示服务使用到的工具集合,E表示服务中可能发生的事件;
步骤22:将事件E定义为一个四元组,表示如下:
E=(object,statusbefore,action,statusafter,confidence)
其中,object表示服务过程中发生事件时涉及的事件对象,statusbefore表示对事件对象施加行为前的状态,action表示对事件对象施加的行为,statusafter表示对事件对象施加行为后的状态,confidence为事件E在服务S中的置信度,初始值为0,当用户在多个候选服务类型中选中该服务类型时,该服务类型下的事件E的置信度加1;
步骤23:自定义本领域词典;
步骤24:构建服务本体知识库。
按以上技术方案,所述步骤2中,采用基于IHS算法改进的SSHS算法推荐用户服务。
按以上技术方案,所述步骤3包括以下步骤:
步骤31:从语音内容中提取信息线索;
步骤32:基于内容的语音智能检索;
步骤33:数据库快速检索。
按以上技术方案,所述步骤31中,利用音频内容特征建立索引进行检索。
一种用于电力调控的多轮次语音交互智能检索系统,其不同之处在于:其包括
调度服务交互终端,为交互终端设备;
调度服务模块,用于根据用户需求进行电力调度服务;
语音交互模块,用于用户语音的交互;
多轮次语音交互管理模块,用于对多轮次语音交互进行管理;
用户意图发现模块,用于根据用户各种各样的意图表达,得到候选服务本体,排序并依次询问用户当前服务是否是用户所需;
智能搜索模块,用于对用户需要的电力调度服务进行检索,将搜索结果进行结构化的组织与排序并提供给用户。
按以上技术方案,还包括基本信息管理模块,所述基本信息管理模块包括用户登录管理、密码管理、用户个人基本信息管理、调度服务基本信息管理和服务地址管理。
与现有技术相比,本发明具备以下有益效果:
本发明提供了一种应用于电力调控的多轮次语音交互智能检索系统及方法,具体包括了建立多轮次语音交互管理模型、构建本领域知识库及自定义词典、智能检索算法;采用多轮次语音交互方法来意图确认,从而进行智能检索;使用用户语音产生的语料库进行训练,提高了语音识别的准确性;基于服务树的多轮次语音交互管理,能够缩短交互轮次,准确定位用户意图;此外,本发明中基于内容的语音智能检索技术,能够快速通过用户语音建立结构化的索引,在电力调度领域中,有利于及时响应。
通过多轮次语音交互智能搜索方法,在电力调控中,可以削减人为误操作的风险,可以避免对大型数据的繁琐搜索,大大节省了人力成本,以及能够实时检测、监控、调度电力情况,同时针对电力领域建立了专门知识库,精确搜索专业电力调控知识,并且在多轮次交互过程中,能提供最优解决方案,实现了语音识别、语音理解功能,使得用户除文字输入外,能够通过语音输入、语音播报的形式进行交互,完成电力调控智能搜索。
附图说明
图1为本发明实施例检索方法的整体流程示意图;
图2为本发明实施例中语音交互处理的流程示意图;
图3为本发明实施例中多轮次语音交互管理模块的模块示意图;
图4为本发明实施例中用户意图发现模块的模块示意图;
图5为本发明实施例中智能搜索的流程示意图;
图6为本发明实施例检索系统的模块示意图;
图7为本发明实施例中基本信息管理模块的模块示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1至图7,本发明提供一种用于电力调控的多轮次语音交互智能检索方法,其不同之处在于,包括以下步骤:
步骤1:语音交互:用户与调度服务交互终端进行多轮次语音交互;
步骤2:意图发现:面对用户各种各样的意图表达,得到候选服务本体,排序并依次询问用户当前服务是否是用户所需;
步骤3:智能搜索:待用户意图确定后,需要对用户需要的电力调度服务进行检索,将搜索结果进行结构化的组织与排序,提供给用户;
步骤4:对用户选择的服务进行调度。
具体的,所述步骤1中,语音交互包括以下步骤:
步骤A、语音唤醒,将用户录制的语音进行信号处理,通过与设定的唤醒词配对,唤醒语音系统;
步骤B、语音识别,将传入后台的语音进行语音识别,将接收到的语音进行文字转换;
步骤C、自然语言处理,将语音识别后的转换文本,进行自然语言处理,消除单词的边界界定,使得文本连贯,对词义的消歧,使得句意通顺;
步骤D、语义理解,接收经过自然语言处理后的文本,通过语法、语义、语用的分析,获取自然语言的语义表示。
具体的,所述步骤1中,对多轮次语音交互的管理包括以下步骤:
步骤一,对用户输入进行语义理解;
步骤二,判断语义理解是否为空;
步骤三,生成服务树的节点;
步骤四,查询服务节点;
步骤五,判断是否为服务树的根节点;
步骤六,验证是否通过;
步骤七,输出。
具体的,基于服务树的多轮次语音交互具体包括:
步骤一,服务树定义,服务树中一共有三类节点:领域节点,服务节点,叶子节点;
步骤二,服务树设计;
步骤三,服务树填充、验证与应答推理;
步骤四,服务树会话空间保存、回退。
具体的,所述步骤2包括以下步骤:
步骤21:将系统中的所有调度服务定义为一个五元组形式的本体,表示如下:
S=(C,O,A,T,E)
其中,C表示服务的别名表示,O表示服务的事件对象集合,A表示服务的事件行为集合,T表示服务使用到的工具集合,E表示服务中可能发生的事件;
步骤22:将事件E定义为一个四元组,表示如下:
E=(object,statusbefore,action,statusafter,confidence)
其中,object表示服务过程中发生事件时涉及的事件对象,statusbefore表示对事件对象施加行为前的状态,action表示对事件对象施加的行为,statusafter表示对事件对象施加行为后的状态,confidence为事件E在服务S中的置信度,初始值为0,当用户在多个候选服务类型中选中该服务类型时,该服务类型下的事件E的置信度加1;
步骤23:自定义本领域词典;
步骤24:构建服务本体知识库。
优选的,所述步骤2中,采用基于IHS算法改进的SSHS算法推荐用户服务。
具体的,所述步骤3包括以下步骤:
步骤31:从语音内容中提取信息线索;
步骤32:基于内容的语音智能检索;
步骤33:数据库快速检索。
具体的,所述步骤31中,利用音频内容特征建立索引进行检索。
一种用于电力调控的多轮次语音交互智能检索系统,其不同之处在于:其包括
调度服务交互终端,为交互终端设备;
调度服务模块,用于根据用户需求进行电力调度服务;
语音交互模块,用于用户语音的交互;
多轮次语音交互管理模块,用于对多轮次语音交互进行管理;
用户意图发现模块,用于根据用户各种各样的意图表达,得到候选服务本体,排序并依次询问用户当前服务是否是用户所需;
智能搜索模块,用于对用户需要的电力调度服务进行检索,将搜索结果进行结构化的组织与排序并提供给用户。
具体的,还包括基本信息管理模块,所述基本信息管理模块包括用户登录管理、密码管理、用户个人基本信息管理、调度服务基本信息管理和服务地址管理。
本发明实施例中,主要包括:
一、基本信息管理模块:基本信息管理模块包括用户个人及调度服务基本信息管理,用户可以对其进行设置修改,还包括服务地址管理,一个用户可以拥有多个服务地址,并且设置其中一个为默认服务地址,服务地址包含调度具体服务地址信息,用户账户管理及登录密码也包含在基本信息管理功能中,用户还可以更改其登录密码。具体包含对用户信息的增删该查管理,以及对用户使用过程中收集产生的语音数据并建立数据库,实现对语料数据库的管理。
基本信息管理具体包括:首先对用户进行个人信息进行存储管理,验证用户信息,如姓名、职位、权限、性别、服务地址等,用户首次登陆时,会将token以键值对的形式存在本地,下次打开交互终端时直接从本地读取token传到后台服务器进行验证,验证通过则直接进入主界面,无需用户再次输入用户名和密码进行验证;确认用户身份及权限后,进入语音交互页面,根据用户的权限在进行语音交互过程中,提供定制化服务。基本信息管理的具体步骤:步骤一,用户信息存储;步骤二,查询数据库;步骤三,验证,提示;步骤四,生成token并返回客户端;步骤五,修改数据,增、删、改;步骤六,数据保存。
二、语音交互模块:采用了实现语音听写和语音合成功能,语音识别准确率在95%以上,识别反馈结果的过程不超过0.2s,并且支持多种地方方言,语音合成能够将文本变为流利、清楚、自然的语音数据,其生成语音的自然度、和谐度比一般人的诵读水平高,并且可以动态调整语音速度等各项变量定做出属于电力调控专有的语音。
具体包含语音唤醒、自动语音识别和语义理解。在训练语音唤醒模型过程中,提出建立多个基于唤醒词的音素的HMM模型用于二次验证,有助于降低误唤醒的概率。根据用户产生的语音数据库训练出符合用户使用环境的语音识别模型,有助于提高语音识别引擎的准确率。
所述基于HMM的语音唤醒模型,唤醒词识别系统包含了声学特征提取、建立声学模型、音频信号解码三个阶段。特征提取将信号从时域转化到频域,为声学模型提供有代表性的特征向量。声学模型将声乐和发音学知识相结合,以特征提取的特征向量作为输入,将特征序列转变成具有最大概率的声音模型序列。解码器针对给定的特征向量序列和字典序列,结合唤醒词模型和背景音模型判断特征序列是否激发唤醒。
语音交互的具体实现步骤为,当验证完用户信息后,进入语音唤醒,具体可通过唤醒词唤醒语音系统,用户使用正确的语音唤醒词产生一个语音信号,然后系统根据接收到的语音信号,进行信号处理,训练云唤醒引擎将训练好的模型传入语音唤醒模块,并进行命令词的识别,识别成功后便可唤醒语音系统,进入终端提供语音服务,对接收到的语音信号,不断进行自然语言处理,完成语义理解,在此过程中对多轮次的语音交互需要进行有效管理。
三、多轮次语音交互管理模块:通过多轮对话的方式和用户进行交互,确定需求并进行调度搜索服务,为了实现多轮对话管理,提出了基于服务树的对话管理方式,进行调度搜索服务需要很多服务属性值信息,不可能通过用户的一次描述就获得全部必需信息要素,通过与用户的多轮对话来确定服务信息,故采用了基于服务树的多轮对话管理方式,将调度服务所有要素组织成树的形式,并在与用户的对话过程中进行管理,多轮对话管理模块结合当前上下文信息,推理出接下来所需的优先级较高的必要信息并询问用户,得到用户反馈后,判断是否满足用户要求,若满足则将所有信息整合并对搜索服务做出响应。基于服务树的多轮次语音交互管理模块,具体包含服务树的定义,服务树的填充、验证及应答推理,服务树会话空间保存、回退。
多轮次语音交互管理的具体实现步骤为,首先对语义理解的输入进行判断,若不为空,则进行服务树的生成,具体包括,服务树的填充、验证、应答推理、会话空间保存、回退。服务树的填充就是把前期得到服务语义框架填充到服务树相应的各个节点中去,在填充的过程中构建服务树。服务树中的节点有合法性验证,对于叶子节点的合法性验证各不相同,比如时间,需要验证服务提供商在用户选择的时间是否能够提供服务,或者服务时长,可能只提供整时服务。服务节点的合法性验证要综合其所包含的必需节点和非必需节点,服务节点合法当且仅当其所有必需子节点合法且用户提及的非必需子节点也和合法。对于领域节点只是提供用户参考建议的,不需要合法性验证。在与用户交互过程中,对话历史信息都填充到服务树中,应答策略需要进行推理找到应答焦点,即最后找到服务树中的某个节点,并调用它的对话生成函数输出对用户的回应。
由于用户有时思维混乱、话语重复颠倒,因此我们会在服务树中至多保存两个会话空间,当前会话空间用户提到的最新服务类型,当前服务调度完成时,会回到之前用户提到的内容,提醒用户是否还需要之前提及的内容。服务中的每个节点都会有一个与自身相同结构的历史节点,用户存储用户对这一信息的历史值,用户可以通过历史节点回退,进行反悔。
四、用户意图发现模块:面对用户各种各样的意图表达,将用户意图分为两类,一类是显式用户意图,即用户明确表示需要的服务类型;另一类是隐式用户意图,用户只对当前情景进行描述,并未明确表明需要的服务类型;对于第一种情况可以直接映射到用户需要的服务类型,而对于第二种情况则需要进行推理,通过将所有电力调度服务构建为一个由五元组形式表达的服务本体,将用户输入首先进行分词,然后去停用词,将去停用词的结果先通过电力领域自定义词典进行标定,构建事件及本体,验证事件及本体关系,然后通过搜索本体知识库得到候选服务本体,通过事件在服务本体中的置信度及用户历史搜索服务的记录计算来排序值,将服务本体按照排序值进行排序并依次询问用户当前服务是否是用户想要的,当用户肯定回答时,发现用户意图结束,如所有服务本体候选项都不是用户所需,那么询问用户更多信息。
在发现用户意图时,对于用户输入,首先进行分词,然后搜索领域自定义词典。根据领域自定义词典对每个词标定标签,组合得到事件。根据得到的事件E搜索服务本体集合,推导候选服务类型。若候选服务类型不唯一,在没有用户历史记录信息的情况下,则比较事件E的置信度,推荐用户置信度和最高的服务,若有多个置信度和最高的候选服务类型,列出来让用户抉择,最后对用户选择的服务类型s下的事件e置信度加1。若有历史订单,则将历史订单及事件置信度相结合,根据如下公式的rank值排序候选服务类型,依次询问用户。
本发明实施例中,采用word2vec算法自动扩充领域自定义词典。
Figure BDA0002546733680000131
其中,n为用户输入中包含的事件数目,shie表示包含事件e的服务i的历史记录数目,scie表示服务i中事件e的置信度,α+β=1。
五、智能搜索模块:待用户意图确定后,需要对用户需要的电力调度服务进行检索,根据用户提供的信息线索,通过智能搜索,将搜索结果进行结构化的组织与排序,提供给用户。
智能搜索的具体实现步骤为,从语音内容中提取信息线索,发现用户意图,然后将特征传入检索引擎,在检索引擎中将特征进行分类,然后进行检索匹配,通过基于内容的智能检索,在数据库快速检索,生成查询结果,将搜索结果进行结构化的组织与排序,提供给用户。
具体包含从语音内容中提取信息线索、基于内容的语音智能检索、数据库快速检索。基于内容的语音智能检索技术突破了基于关键词匹配的传统检索技术的限制,可以通过一定的计算机处理,分析语音音频的结构和语义,建立它们的结构化的组织和索引,使得“无序”的语音音频变的“有序”,从而有利于用户的检索和浏览。
综上所述,本发明实例中的一种应用于电力调控方面的多轮次语音交互智能检索方法,首先通过对电力行业的用户进行信息管理,确定权限,然后唤醒语音系统,通过多轮次的语音交互管理,确定用户意图,然后在智能化的检索引擎中,搜索出用户需要的电力调控结果。以此减少了人力成本,提高了电力行业的调度效率,并且该方法还削减了人为误操作的风险,可以避免对大型数据的繁琐搜索,在实时检测、监控、调度电力方面,具有很好的效果。
需要说明的是,在本文中,诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (10)

1.一种用于电力调控的多轮次语音交互智能检索方法,其特征在于,包括以下步骤:
步骤1:语音交互:用户与调度服务交互终端进行多轮次语音交互;
步骤2:意图发现:面对用户各种各样的意图表达,得到候选服务本体,排序并依次询问用户当前服务是否是用户所需;
步骤3:智能搜索:待用户意图确定后,需要对用户需要的电力调度服务进行检索,将搜索结果进行结构化的组织与排序,提供给用户;
步骤4:对用户选择的服务进行调度。
2.根据权利要求1所述的用于电力调控的多轮次语音交互智能检索方法,其特征在于:所述步骤1中,语音交互包括以下步骤:
步骤A、语音唤醒,将用户录制的语音进行信号处理,通过与设定的唤醒词配对,唤醒语音系统;
步骤B、语音识别,将传入后台的语音进行语音识别,将接收到的语音进行文字转换;
步骤C、自然语言处理,将语音识别后的转换文本,进行自然语言处理,消除单词的边界界定,使得文本连贯,对词义的消歧,使得句意通顺;
步骤D、语义理解,接收经过自然语言处理后的文本,通过语法、语义、语用的分析,获取自然语言的语义表示。
3.根据权利要求2所述的用于电力调控的多轮次语音交互智能检索方法,其特征在于:所述步骤1中,对多轮次语音交互的管理包括以下步骤:
步骤一,对用户输入进行语义理解;
步骤二,判断语义理解是否为空;
步骤三,生成服务树的节点;
步骤四,查询服务节点;
步骤五,判断是否为服务树的根节点;
步骤六,验证是否通过;
步骤七,输出。
4.根据权利要求3所述的用于电力调控的多轮次语音交互智能检索方法,其特征在于:基于服务树的多轮次语音交互具体包括:
步骤一,服务树定义,服务树中一共有三类节点:领域节点,服务节点,叶子节点;
步骤二,服务树设计;
步骤三,服务树填充、验证与应答推理;
步骤四,服务树会话空间保存、回退。
5.根据权利要求1所述的用于电力调控的多轮次语音交互智能检索方法,其特征在于:所述步骤2包括以下步骤:
步骤21:将系统中的所有调度服务定义为一个五元组形式的本体,表示如下:
S=(C,O,A,T,E)
其中,C表示服务的别名表示,O表示服务的事件对象集合,A表示服务的事件行为集合,T表示服务使用到的工具集合,E表示服务中可能发生的事件;
步骤22:将事件E定义为一个四元组,表示如下:
E=(object,statusbefore,action,statusafter,confidence)
其中,object表示服务过程中发生事件时涉及的事件对象,statusbefore表示对事件对象施加行为前的状态,action表示对事件对象施加的行为,statusafter表示对事件对象施加行为后的状态,confidence为事件E在服务S中的置信度,初始值为0,当用户在多个候选服务类型中选中该服务类型时,该服务类型下的事件E的置信度加1;
步骤23:自定义本领域词典;
步骤24:构建服务本体知识库。
6.根据权利要求1所述的用于电力调控的多轮次语音交互智能检索方法,其特征在于:所述步骤2中,采用基于IHS算法改进的SSHS算法推荐用户服务。
7.根据权利要求1所述的用于电力调控的多轮次语音交互智能检索方法,其特征在于:所述步骤3包括以下步骤:
步骤31:从语音内容中提取信息线索;
步骤32:基于内容的语音智能检索;
步骤33:数据库快速检索。
8.根据权利要求7所述的用于电力调控的多轮次语音交互智能检索方法,其特征在于:所述步骤31中,利用音频内容特征建立索引进行检索。
9.一种用于电力调控的多轮次语音交互智能检索系统,其特征在于:其包括
调度服务交互终端,为交互终端设备;
调度服务模块,用于根据用户需求进行电力调度服务;
语音交互模块,用于用户语音的交互;
多轮次语音交互管理模块,用于对多轮次语音交互进行管理;
用户意图发现模块,用于根据用户各种各样的意图表达,得到候选服务本体,排序并依次询问用户当前服务是否是用户所需;
智能搜索模块,用于对用户需要的电力调度服务进行检索,将搜索结果进行结构化的组织与排序并提供给用户。
10.根据权利要求9所述的用于电力调控的多轮次语音交互智能检索系统,其特征在于:还包括基本信息管理模块,所述基本信息管理模块包括用户登录管理、密码管理、用户个人基本信息管理、调度服务基本信息管理和服务地址管理。
CN202010562906.8A 2020-06-19 2020-06-19 一种用于电力调控的多轮次语音交互智能检索系统及方法 Pending CN113822506A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010562906.8A CN113822506A (zh) 2020-06-19 2020-06-19 一种用于电力调控的多轮次语音交互智能检索系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010562906.8A CN113822506A (zh) 2020-06-19 2020-06-19 一种用于电力调控的多轮次语音交互智能检索系统及方法

Publications (1)

Publication Number Publication Date
CN113822506A true CN113822506A (zh) 2021-12-21

Family

ID=78924668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010562906.8A Pending CN113822506A (zh) 2020-06-19 2020-06-19 一种用于电力调控的多轮次语音交互智能检索系统及方法

Country Status (1)

Country Link
CN (1) CN113822506A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028662A (zh) * 2023-02-15 2023-04-28 武汉理工大学三亚科教创新园 基于无监督交互式对齐的海洋遥感图像音频检索方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028662A (zh) * 2023-02-15 2023-04-28 武汉理工大学三亚科教创新园 基于无监督交互式对齐的海洋遥感图像音频检索方法
CN116028662B (zh) * 2023-02-15 2023-06-13 武汉理工大学三亚科教创新园 基于无监督交互式对齐的海洋遥感图像音频检索方法

Similar Documents

Publication Publication Date Title
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
US10878808B1 (en) Speech processing dialog management
CN111651609A (zh) 一种融合知识图谱和情感监督的多轮对话方法及系统
US20240153489A1 (en) Data driven dialog management
US11763816B1 (en) Natural language processing policies
JP2004523004A (ja) 階層言語モデル
US11132994B1 (en) Multi-domain dialog state tracking
CN108538294B (zh) 一种语音交互方法及装置
US11615787B2 (en) Dialogue system and method of controlling the same
CN113609264B (zh) 电力系统节点的数据查询方法、装置
CN112397053B (zh) 语音识别方法、装置、电子设备及可读存储介质
CN112669842A (zh) 人机对话控制方法、装置、计算机设备及存储介质
US20240211206A1 (en) System command processing
CN111353026A (zh) 一种智能法务律师助手客服系统
CN116226338A (zh) 基于检索和生成融合的多轮对话系统及方法
CN118433311B (zh) 基于个性化机器人的电话客服处理方法及系统
CN114120985A (zh) 智能语音终端的安抚交互方法、系统、设备及存储介质
CN113822506A (zh) 一种用于电力调控的多轮次语音交互智能检索系统及方法
CN115376547B (zh) 发音评测方法、装置、计算机设备和存储介质
CN116186259A (zh) 一种会话线索评分方法、装置、设备及存储介质
CN112150103B (zh) 一种日程设置方法、装置和存储介质
US11551666B1 (en) Natural language processing
Passonneau et al. Learning about voice search for spoken dialogue systems
US11978438B1 (en) Machine learning model updating
CN113744737B (zh) 语音识别模型的训练、人机交互方法、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20211221