CN117458708A - 一种基于人机语音交互的电网智慧调度方法和系统 - Google Patents
一种基于人机语音交互的电网智慧调度方法和系统 Download PDFInfo
- Publication number
- CN117458708A CN117458708A CN202311355158.6A CN202311355158A CN117458708A CN 117458708 A CN117458708 A CN 117458708A CN 202311355158 A CN202311355158 A CN 202311355158A CN 117458708 A CN117458708 A CN 117458708A
- Authority
- CN
- China
- Prior art keywords
- voice
- engine
- user
- interaction
- scheduling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000003993 interaction Effects 0.000 title claims abstract description 43
- 238000012545 processing Methods 0.000 claims abstract description 20
- 230000008569 process Effects 0.000 claims abstract description 18
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 11
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 11
- 238000013461 design Methods 0.000 claims abstract description 5
- 230000011218 segmentation Effects 0.000 claims description 12
- 230000033764 rhythmic process Effects 0.000 claims description 7
- 238000012805 post-processing Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 5
- 230000009471 action Effects 0.000 claims description 3
- 230000002860 competitive effect Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 10
- 238000012544 monitoring process Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 241000196324 Embryophyta Species 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 210000001503 joint Anatomy 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 235000012364 Peperomia pellucida Nutrition 0.000 description 1
- 240000007711 Peperomia pellucida Species 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J13/00—Circuit arrangements for providing remote indication of network conditions, e.g. an instantaneous record of the open or closed condition of each circuitbreaker in the network; Circuit arrangements for providing remote control of switching means in a power distribution network, e.g. switching in and out of current consumers by using a pulse code signal carried by the network
- H02J13/00001—Circuit arrangements for providing remote indication of network conditions, e.g. an instantaneous record of the open or closed condition of each circuitbreaker in the network; Circuit arrangements for providing remote control of switching means in a power distribution network, e.g. switching in and out of current consumers by using a pulse code signal carried by the network characterised by the display of information or by user interaction, e.g. supervisory control and data acquisition systems [SCADA] or graphical user interfaces [GUI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J13/00—Circuit arrangements for providing remote indication of network conditions, e.g. an instantaneous record of the open or closed condition of each circuitbreaker in the network; Circuit arrangements for providing remote control of switching means in a power distribution network, e.g. switching in and out of current consumers by using a pulse code signal carried by the network
- H02J13/00004—Circuit arrangements for providing remote indication of network conditions, e.g. an instantaneous record of the open or closed condition of each circuitbreaker in the network; Circuit arrangements for providing remote control of switching means in a power distribution network, e.g. switching in and out of current consumers by using a pulse code signal carried by the network characterised by the power network being locally controlled
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/04—Circuit arrangements for ac mains or ac distribution networks for connecting networks of the same frequency but supplied from different sources
- H02J3/06—Controlling transfer of power between connected networks; Controlling sharing of load between connected networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Power Engineering (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于人机语音交互的电网智慧调度方法,包括S1,用户语音输入语音调度应用,通过音频解析处理,调用语音识别系统,完成音频识别工作;S2,再由语音调用应用中的中枢系统驱动,调用语义理解引擎,实现语义内容定位提槽,明确具体用户的意图;S3,该意图通过交互引擎进行文法资源和知识库的上下文关联,进行到下一步流程引擎的调用;S4,通过流程引擎预设流程任务设计,将任务转向任务调度引擎,实现任务调度功能,将相关指令输出至系统;S5,最终结果输出实现语音合成,驱动使用电力部门系统,并形成对应的日志结果。配合本发明的系统能够实现更为便捷、简单、迅速的电力调度指令下达。
Description
技术领域
本发明涉及一种用于电力调度系统领域的基于人机语音交互的电网智慧调度方法。
背景技术
我国电网近年来得到了长足的进步与发展,庞大的规模和复杂的结构对电网自身的监控和运行提出了严峻的考验。同时,日益增多的电网断面、复杂多变的电网运行方式,使得电网调度监控方式难度日益增大,人力难以及时发现电网的安全隐患和薄弱环节,这会造成较大的安全隐患。因此,电网监控设备必须要对电网电力系统的设备运行状态进行更加严密的监控,并且通过数据传输模块,实现数据的通信收发。
目前的电力调度系统,会在每个站点处均部署相关的调度、监控设备,并由后台控制室实现对所有站点的监控和统一调度。在实际操作中,所有的调度指令均需由采用动输入的形式生成。该种方式,不可避免地存在指令下达存在因手动输入而导致的例如指令滞后、对指令下达人员的系统操作技能要求高、难以面对突发事件等的弊端。
发明内容
本发明的目的是为了克服现有技术的不足,提供一种基于人机语音交互的电网智慧调度方法,以语音的方式进行人机交互,通过在现有的调度监控系统中,增加相关的智能语音模块,以实现更为便捷、简单、迅速的指令下达。
实现上述目的的一种技术方案是:一种基于人机语音交互的电网智慧调度方法,包括如下步骤:
S1,用户语音输入语音调度应用,通过音频解析处理,调用语音识别系统,完成音频识别工作;
S2,再由语音调用应用中的中枢系统驱动,调用语义理解引擎,实现语义内容定位提槽,明确具体用户的意图;
S3,该意图通过交互引擎进行文法资源和知识库的上下文关联,进行到下一步流程引擎的调用;
S4,通过流程引擎预设流程任务设计,将任务转向任务调度引擎,实现任务调度功能,将相关指令输出至系统;
S5,最终结果输出实现语音合成,驱动使用电力部门系统,并形成对应的日志结果。
进一步的,S1语音识别包括如下功能模块;
S11,端点检测,对输入的音频流进行分析,确定用户说话的起始和终止;
S12,后处理,用以实现语音识别文本的规整性;
S13,迭代优化,提升面向调度业务的识别准确度;
S14,多槽识别,语音识别的槽代表一个关键字,在一次会话过程中识别说话人语音中包含的多个关键字。
进一步的,S12后处理具体包括:
顺滑:将识别结果文本中将一些不合理的语气词替换;
标点:根据识别结果给文本内容加上标点符号;
数字规整:将识别结果中的中文数字更换成合理的阿拉伯数字;
替换列表:将识别结果中的某些指定文字替换成列表中映射的文字。
进一步的,S2语义理解具体包括:
S21,用户问题经过语义分析模块获得用户说法中的关键语义要素,通过语义搜索获得知识库中的相似QA对,然后通过竞争排序及上下文理解模块得到用户意图分类结果;
S22,根据用户意图类别及交互要素填充情况,结合对话管理模块解答用户问题或引导用户进一步交互,同时对话策略模块中的生成的动作同样影响着下一句问题的理解。
进一步的,语义分析模块的具体工作方法为:
分词及语义分析:在给定词典的基础上,分别基于前向和后向最长匹配分词算法构建分词网格,从网格中搜索出最佳分词路径;重点提升调度指令成功率;
FAQ-Finder:针对语音查询等场景,新建调度业务知识问答对,对调度员的语音查询与咨询等指令提供明确的答复,从而实现回答问题内容的针对性及关联问题推荐;
Cal lRout ing:在多平台多业务中快速定位业务,同时为系统提供自学习功能,扩充系统服务的深度和广度;
槽文法:从复杂的文字中提取关键信息,记录用户已经输入的关键信息,在后续的交互中可以提示用户输入余下的关键信息。
进一步的,S5语音合成具体为:
将输出文本先经过前端的语法分析,通过词典和规则的处理,得到格式规范,携带语法层次的信息,传送到后端。后端在前端分析的结果基础上,经过韵律分析处理,得到语音的时长、音高等韵律信息,再根据这些信息在音库中挑选最合适的语音单元,语音单元经过调整拼接,能得到最终的语音数据。
应用上述方法的系统,包括依次连接的语音识别模块,对话管理平台和结果输出平台。
进一步的,对话管理平台包括中枢系统,中枢系统分别对接交互引擎、流程引擎和任务调度引擎,交互引擎与知识库对接。
进一步的,流程引擎包括缺槽处理模块、流程调度模块和异常处理模块。
进一步的,任务调度引擎包括标准接口调用模块和扩展调度模块。
本发明的基于人机语音交互的电网智慧调度方法和系统有如下优势:
1.能够提高人机交互的便捷性,通过语音云平台提供的语音输入、语音识别、语音合成等功能,改变传统的键盘、鼠标等操作模式,提高人机交互的便捷性,提升调控人员工作效率。提高人机交互的智能化。
2.通过语音云平台提供的语义识别等功能,实现语义解析与应答的高度智能化,实现智能的人机交互。
3.增强人机交互的安全性,通过语音云平台提供的声纹识别等功能,增强用户身份认证;同时将语音命令与传统键盘操作相结合,可以在保证交互便捷性的条件下,增强人机交互的安全性。
4.实现语音资源共享和服务共用。通过采用云平台的建设方式,实现省地级语音模型和知识库等资源的共享,避免各地监控系统的重复建设,为各级监控系统及人机云终端提供更全面的语音服务。
附图说明
图1为本发明的一种基于人机语音交互的电网智慧调度系统架构示意图。
具体实施方式
为了能更好地对本发明的技术方案进行理解,下面通过具体地实施例进行详细地说明:
本发明的一种基于人机语音交互的电网智慧调度方法,包括如下步骤:
S1,用户语音输入语音调度应用,通过音频解析处理,调用语音识别系统,完成音频识别工作;
S2,再由语音调用应用中的中枢系统驱动,调用语义理解引擎,实现语义内容定位提槽,明确具体用户的意图;
S3,该意图通过交互引擎进行文法资源和知识库的上下文关联,进行到下一步流程引擎的调用;
S4,通过流程引擎预设流程任务设计,将任务转向任务调度引擎,实现任务调度功能,将相关指令输出至系统;
S5,最终结果输出实现语音合成,驱动使用电力部门系统,并形成对应的日志结果。
S1语音识别能够将电话信道实时音频文件转写成文本,是进行智能人机交互的基础。包括如下功能模块;
S11,端点检测,端点检测是对输入的音频流进行分析,确定用户说话的起始和终止的处理过程。一旦检测到用户开始说话,语音开始流向识别引擎,直到检测到用户说话结束。这种方式使识别引擎在用户在说话的同时即开始进行识别处理。
此外用户来电因其所处的环境不同,会存在背景噪音,语音识别引擎拥有噪音处理机制,能够对背景噪声做抑制处理,提高流入识别引擎的音频质量以保证语音识别的准确度。
S12,后处理,用以实现语音识别文本的规整性。具体包括:
顺滑:将识别结果文本中将一些不合理的语气词替换;
标点:根据识别结果给文本内容加上标点符号;
数字规整:将识别结果中的中文数字更换成合理的阿拉伯数字;
替换列表:将识别结果中的某些指定文字替换成列表中映射的文字。
S13,迭代优化,提升面向调度业务的识别准确度;如热词、小包及模型训练,以提升面向调度业务的识别准确度。
S14,多槽识别,语音识别的槽代表一个关键字,在一次会话过程中识别说话人语音中包含的多个关键字。
S2语义理解具体包括:
S21,用户问题经过语义分析模块获得用户说法中的关键语义要素,通过语义搜索获得知识库中的相似QA对,然后通过竞争排序及上下文理解模块得到用户意图分类结果;
S22,根据用户意图类别及交互要素填充情况,结合对话管理模块解答用户问题或引导用户进一步交互,同时对话策略模块中的生成的动作同样影响着下一句问题的理解。
要想实现上述功能步骤,知识库的BOT管理是关键。我们将一个业务机器人模块称为一个BOT,相应的便有语音查询BOT、语音日志、语音参数修改等BOT。在知识库中,可以便捷的对BOT进行增加、删除、修改、配置、上线等操作,支持将BOT发布到对应渠道上。在知识库系统中,可提供词库模板,用户可快捷地丰富词库,打造符合自身业务特点的词库,如厂站名、线路名等。知识库支持对实际对话产生的人人/人机语料文本进行知识挖掘,得到知识点的相似新增句式,以丰富知识库中标准问的句式,挖掘结果经过少量人工标注即可入库使用。语义引擎把挖掘出新的句式与已有句式进行相似度比较,给出一个得分,用户根据得分来判断是否入库。通过对人人对话和人机对话语料挖掘,自动扩展库中标准问的句式,挖掘结果经过少量人工标注即可入库使用,该功能可大大降低建库的人力投入,提升效率。拒识问题热上线优化
知识库会收集用户访问的所有语义结果,针对其中拒识问题进行人工校正。用户实际问题与知识库中已有标准问匹配度较低的信息,引擎系统会推荐合适的标准问与句式选择,人工在推荐结果里选择最佳句式与标准问,标注完后再把这些数据重新加到知识库里。很多拒识数据在知识库中可能会没有合适的句式或标准问,把这些实际使用过程中产生的语义拒识问题自动回流到系统中,再有人工筛选、标注后重新入库,从而提高问答和对话意图识别率。
语义理解服务目前的主要工作是从输入的文字中分析出关键信息。经过自然语言理解后,人机交互过程更为顺畅。语义分析模块的具体工作方法为:
分词及语义分析:在给定词典的基础上,分别基于前向和后向最长匹配分词算法构建分词网格,从网格中搜索出最佳分词路径;重点提升调度指令成功率;
FAQ-Finder:针对语音查询等场景,新建调度业务知识问答对,对调度员的语音查询与咨询等指令提供明确的答复,从而实现回答问题内容的针对性及关联问题推荐;
Cal lRout ing:在多平台多业务中快速定位业务,同时为系统提供自学习功能,扩充系统服务的深度和广度;
槽文法:从复杂的文字中提取关键信息,记录用户已经输入的关键信息,在后续的交互中可以提示用户输入余下的关键信息,使得人机对话过程更接近人与人的对话;从而实现了“上下文记忆能力,交互过程更为人性化”。例如“我想生成华东各区域联络线潮流图”和“华东的各区域潮流图生成”的信息;在此基础上确定场景中的信息槽,例如“调节吴二厂3号机组的调节上限为500”中就包含下列槽信息:{厂站:吴二厂;机组:3号机组,调节参数:调节上限;调节值:500};进一步的需要设计当用户语音指令中缺少必要信息槽时应如何引导用户补齐必要信息;最后当某语音场景的信息槽位齐全后,应设计好采用何种方式(RESTful、消息总线、终端命令)依据上述槽位信息触发对应的后续操作(操作命令执行、信息查询、统计信息生成及画面操作等)。
基于上述技术模块,可以实现如下几个功能:
实现残缺意图关键语义抽取、基于上下文信息的语义理解,实现多轮人机互动机制;
针对模糊语义,实现语义结果多候选,结果支持可信、模糊及拒识三种置信策略;
更为完善和有效的知识库体系,并建立持续积累的支撑语义理解和智能问答的效果优化机制;
支持特殊输入的智能化处理,包括全局命令词、字符表情、错别字、敏感词、拼音、乱码等输入,优化用户体验。
S5语音合成,又称文语转换(Text to Speech)TTS技术,能将任意文字信息实时转化为标准流畅的语音朗读出来,解决的主要问题就是如何将文字信息转化为可听的声音信息。具体为:
将输出文本先经过前端的语法分析,通过词典和规则的处理,得到格式规范,携带语法层次的信息,传送到后端。后端在前端分析的结果基础上,经过韵律分析处理,得到语音的时长、音高等韵律信息,再根据这些信息在音库中挑选最合适的语音单元,语音单元经过调整拼接,能得到最终的语音数据。包括如下功能:
1.高质量语音服务
将输入文本实时转换为流畅、清晰、自然和具有表现力的语音数据,可提供中文、英文、中英文混读语音合成服务;提供丰富、风格多样化的音色选择。
2.高精度文本分析技术
服务通过对需要合成的文本进行高精度的分析,保证了对文本中未登录词(如地名)、多音字、特殊符号(如标点、数字)、韵律短语等智能分析和处理,使得合成效果清晰易懂。
3.多字符集输入,多格式输出
支持输入GB2312、GBK、Big5、Unicode和UTF-8等多种字符集,普通文本等多种格式的文本信息。支持输出多种采用率的线性Wav,A/mu、ADPCM和Vox等格式的语音数据,语音合成及结果获取更加简易灵活。
4.提示音和背景音
提示音就是在IVR、呼叫中心等电话语音系统中用来提示用户如何操作业务流程的预录语音。将人工预先录制的提示语音添加到服务中作为资源,增强用户语音界面的易用性;另外,服务中的背景音功能,为合成语音适当地添加背景音乐,实现背景音与合成语音的自然融合,提高合成语音的自然度和表现力。
5.多种语音效果的实时动态调节
服务应支持多种效果参数的实时动态调节能力。如,在合成播报过程中可实现语速、语调(音高)、音量等效果参数的动态调。这些在具体应用中,能够满足不同类型客户对效果体验的需求。
6.智能处理能力,语随文变
根据具体应用情况,服务应针对以下方面做重点处理:
7.数字处理
根据上下文和语境判断朗读方式,是朗读成数字还是号码,根据需要强制指定处理方式,如果朗读成号码,支持一些习惯读法(例如“1”读成“幺”)。
8.多音字处理
汉语的词语、成语和一般语境中有不少多音字,合成服务会根据上下文和语境判断这些多音字的读音,同时考虑人名、地名等一些特殊情况。
9.常见符号处理
根据上下文和语境智能处理文本中各类常见符号的合成方式。例如:
“#27号开关”念成“两拐号开关”;
“65%-70%”念成“百分之六十五至七十”;
“2019-05-01 23:59:59”念成“二零一九年五月一日二十三点五十九分五十九秒”
“220kv”念成“二百二十千伏”
请参阅图1,基于上述方法的系统,包括依次连接的语音识别模块,对话管理平台和结果输出平台。
对话管理平台包括中枢系统,中枢系统分别对接交互引擎、流程引擎和任务调度引擎,交互引擎与知识库对接。
本技术领域中的普通技术人员应当认识到,以上的实施例仅是用来说明本发明,而并非用作为对本发明的限定,只要在本发明的实质精神范围内,对以上所述实施例的变化、变型都将落在本发明的权利要求书范围内。
Claims (10)
1.一种基于人机语音交互的电网智慧调度方法,其特征在于,包括如下步骤:S1,用户语音输入语音调度应用,通过音频解析处理,调用语音识别系统,完成音频识别工作;S2,再由语音调用应用中的中枢系统驱动,调用语义理解引擎,实现语义内容定位提槽,明确具体用户的意图;S3,该意图通过交互引擎进行文法资源和知识库的上下文关联,进行到下一步流程引擎的调用;S4,通过流程引擎预设流程任务设计,将任务转向任务调度引擎,实现任务调度功能,将相关指令输出至系统;S5,最终结果输出实现语音合成,驱动使用电力部门系统,并形成对应的日志结果。
2.根据权利要求1所述的一种基于人机语音交互的电网智慧调度方法,其特征在于,S1语音识别包括如下功能模块;
S11,端点检测,对输入的音频流进行分析,确定用户说话的起始和终止;
S12,后处理,用以实现语音识别文本的规整性;
S13,迭代优化,提升面向调度业务的识别准确度;
S14,多槽识别,语音识别的槽代表一个关键字,在一次会话过程中识别说话人语音中包含的多个关键字。
3.根据权利要求2所述的一种基于人机语音交互的电网智慧调度方法,其特征在于,S12后处理具体包括:
顺滑:将识别结果文本中将一些不合理的语气词替换;
标点:根据识别结果给文本内容加上标点符号;
数字规整:将识别结果中的中文数字更换成合理的阿拉伯数字;
替换列表:将识别结果中的某些指定文字替换成列表中映射的文字。
4.根据权利要求1所述的一种基于人机语音交互的电网智慧调度方法,其特征在于,S2语义理解具体包括:
S21,用户问题经过语义分析模块获得用户说法中的关键语义要素,通过语义搜索获得知识库中的相似QA对,然后通过竞争排序及上下文理解模块得到用户意图分类结果;
S22,根据用户意图类别及交互要素填充情况,结合对话管理模块解答用户问题或引导用户进一步交互,同时对话策略模块中的生成的动作同样影响着下一句问题的理解。
5.根据权利要求4所述的一种基于人机语音交互的电网智慧调度方法,其特征在于,语义分析模块的具体工作方法为:
分词及语义分析:在给定词典的基础上,分别基于前向和后向最长匹配分词算法构建分词网格,从网格中搜索出最佳分词路径;重点提升调度指令成功率;
FAQ-Finder:针对语音查询等场景,新建调度业务知识问答对,对调度员的语音查询与咨询等指令提供明确的答复,从而实现回答问题内容的针对性及关联问题推荐;
CallRouting:在多平台多业务中快速定位业务,同时为系统提供自学习功能,扩充系统服务的深度和广度;
槽文法:从复杂的文字中提取关键信息,记录用户已经输入的关键信息,在后续的交互中可以提示用户输入余下的关键信息。
6.根据权利要求1所述的一种基于人机语音交互的电网智慧调度方法,其特征在于,S5语音合成具体为:
将输出文本先经过前端的语法分析,通过词典和规则的处理,得到格式规范,携带语法层次的信息,传送到后端。后端在前端分析的结果基础上,经过韵律分析处理,得到语音的时长、音高等韵律信息,再根据这些信息在音库中挑选最合适的语音单元,语音单元经过调整拼接,能得到最终的语音数据。
7.应用权利要求1至6中任意一项方法的系统,其特征在于,包括依次连接的语音识别模块,对话管理平台和结果输出平台。
8.根据权利要求7所述的一种系统,其特征在于,对话管理平台包括中枢系统,中枢系统分别对接交互引擎、流程引擎和任务调度引擎,交互引擎与知识库对接。
9.根据权利要求8所述的一种系统,其特征在于,流程引擎包括缺槽处理模块、流程调度模块和异常处理模块。
10.根据权利要求8所述的一种系统,其特征在于,任务调度引擎包括标准接口调用模块和扩展调度模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311355158.6A CN117458708A (zh) | 2023-10-19 | 2023-10-19 | 一种基于人机语音交互的电网智慧调度方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311355158.6A CN117458708A (zh) | 2023-10-19 | 2023-10-19 | 一种基于人机语音交互的电网智慧调度方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117458708A true CN117458708A (zh) | 2024-01-26 |
Family
ID=89590170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311355158.6A Pending CN117458708A (zh) | 2023-10-19 | 2023-10-19 | 一种基于人机语音交互的电网智慧调度方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117458708A (zh) |
-
2023
- 2023-10-19 CN CN202311355158.6A patent/CN117458708A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2929018C (en) | Natural expression processing method, processing and response method, device and system | |
KR102445519B1 (ko) | 대화형 지능 서비스 제공 챗봇 제작 시스템 및 방법 | |
CN114116994A (zh) | 一种迎宾机器人对话方法 | |
US8165887B2 (en) | Data-driven voice user interface | |
CN107798123B (zh) | 知识库及其建立、修改、智能问答方法、装置及设备 | |
CN110781649B (zh) | 一种字幕编辑方法、装置及计算机存储介质、电子设备 | |
CN110852075B (zh) | 自动添加标点符号的语音转写方法、装置及可读存储介质 | |
CN110517668B (zh) | 一种中英文混合语音识别系统及方法 | |
CN111508466A (zh) | 一种文本处理方法、装置、设备及计算机可读存储介质 | |
CN112231015B (zh) | 一种基于浏览器的操作指导方法、sdk插件及后台管理系统 | |
CN112988985A (zh) | 一种ai智能语音交互-话术一键添加和使用 | |
CN114328867A (zh) | 一种人机对话中智能打断的方法及装置 | |
CN111581338B (zh) | 一种农业技术服务机器人人机融合咨询问答方法及系统 | |
CN112015879A (zh) | 基于文本结构化管理的人机交互引擎实现方法及装置 | |
US20060136195A1 (en) | Text grouping for disambiguation in a speech application | |
Gilbert et al. | Intelligent virtual agents for contact center automation | |
CN117458708A (zh) | 一种基于人机语音交互的电网智慧调度方法和系统 | |
CN116129868A (zh) | 一种结构化画本的生成方法和生成系统 | |
JP5341732B2 (ja) | 談話要約生成システムおよび談話要約生成プログラム | |
Šoić et al. | Spoken notifications in smart environments using Croatian language | |
McTear | Rule-Based Dialogue Systems: Architecture, Methods, and Tools | |
CN1494026A (zh) | 具有语音辨识辅助功能的中文输入方法及其系统 | |
Farrugia | Text to speech technologies for mobile telephony services | |
US7054813B2 (en) | Automatic generation of efficient grammar for heading selection | |
CN111508494B (zh) | 一种智能纳税语音咨询方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |