CN107093425A - 电力系统的语音导航系统、语音识别方法和语音交互方法 - Google Patents
电力系统的语音导航系统、语音识别方法和语音交互方法 Download PDFInfo
- Publication number
- CN107093425A CN107093425A CN201710198667.0A CN201710198667A CN107093425A CN 107093425 A CN107093425 A CN 107093425A CN 201710198667 A CN201710198667 A CN 201710198667A CN 107093425 A CN107093425 A CN 107093425A
- Authority
- CN
- China
- Prior art keywords
- speech
- voice
- guide system
- speech guide
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 42
- 230000008859 change Effects 0.000 claims abstract description 6
- 230000003993 interaction Effects 0.000 claims abstract description 6
- 238000003058 natural language processing Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000012790 confirmation Methods 0.000 claims description 3
- 238000013518 transcription Methods 0.000 claims description 3
- 230000035897 transcription Effects 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims 1
- 238000005457 optimization Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000002224 dissection Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 239000000686 essence Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007474 system interaction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/20—Instruments for performing navigational calculations
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Artificial Intelligence (AREA)
- Automation & Control Theory (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种电力系统的语音导航系统、语音识别方法和语音交互方法。包括语音输入模块、语音识别模块和数据交互模块。语音识别引擎输入的原始的语音文件信息经过语音识别预处理;将经过语音识别预处理的语音文件进行离线解码或在线解码、置信度处理后转成自然语言文本信息。将自然语言文本信息转换成计算机识别的语音信息作为输出物;进行业务需求分析,为自然语言处理引擎提供数据输入。本发明的一种电力系统的语音导航系统,在识别率、鲁棒性方面比基于传统模型的语音导航有很大的改善和提高。本发明的一种电力系统的语音导航系统,即使在有一定噪音的环境下,系统的识别率达也能达到95%以上。
Description
技术领域
本发明涉及语音交互系统领域,特别涉及电力系统的语音导航系统、语音识别方法和语音交互方法。
背景技术
在传统的语音导航系统中,用户与系统交互的方式是通过电话的键盘。通常,用户在进入语音导航系统后,会听到相关的语音提示选单,根据自己的需要可以按下键盘上相关的按键。系统通过DTMF信号传送用户按下的键,同时也将用户的请求传送给系统,从而触发相关的语音信息。然而,传统的电话仅能通过DTMF信号,传送有限的几个数字及符号按键。这使得用户与系统的交互界面受到很大的限制,同时也就使得语音导航系统的信息查询范围变得相当狭窄,用户在实际使用时会感到诸多不便。
随着计算机技术和人工智能总体技术的发展,自然语言理解不断取得进展。语音识别系统已成为一个越来越广泛的应用方向。基于传统声学模型的语音识别技术的语音导航系统,被应用自动语音服务系统(即IVR服务)中,解决了菜单层级过深和业务无法拓展的问题,随着服务内容日趋增多,训练人工投入大、语音识别率低和系统的鲁棒性差等固有的缺点和难点也日益凸显,影响客户对自助服务的使用,从而求助人工导致人工话务压力增加。随着深度学习技术的发展,在传统的语音技术的基础上引入深度学习技术应经成为了必然趋势和解决当下问题的有效途径。
发明内容
针对上述现有技术存在的问题,提供了电力系统的语音导航系统、语音识别方法和语音交互方法。
为了实现上述目的,一种电力系统的语音导航系统,其特征在于:包括
语音输入模块:客户通过手机或者固话,利用排队机接入呼叫中心系统,在CTI和IVR的控制下,当用户需要语音导航业务时,通过呼叫平台实现话务接入,平台记录下的原始语音信息,并进行播报用户确认无误后,将该文件作为原始的语音文件信息输入;
语音识别模块包括语音识别单元和语音文本处理单元;
语音识别单元:语音识别引擎输入的原始的语音文件信息经过语音识别预处理;将经过语音识别预处理的语音文件进行离线解码或在线解码、置信度处理后转成自然语言文本信息;并将原始语音信息、原始的语音文件信息、语音特征信息存入文本/语音语库中;
语音文本处理单元:将自然语言文本信息经过模式匹配处理、语法分析处理、语义解析处理、语义搜索处理、上下文管理处理以及语义预测处理后,将自然语言文本信息转换成计算机识别的语音信息作为输出物;进行业务需求分析,为自然语言处理引擎提供数据输入;
作为上述方案的进一步优化,在语音识别单元中进行的语音识别预处理包括特征提取处理、端点检测处理和去燥处理。
作为上述方案的进一步优化,还包括语音反馈模块,用于反馈噪音或非普通话输入的原始语音信息。
作为上述方案的进一步优化,其特征在于:语音识别模块中,语音识别处理的步骤为:
(41)初始化原始的语音文件信息;
(42)创建识别引擎;语音识别引擎用于输入的原始的语音文件;
(43)创建识别上下文接口;
(44)设置识别消息;
(45)设置事件;
(46)创建语法规则;
(47)激活语法规则:
(48)获取识别消息,进行处理:
本发明还公开了电力系统的语音导航系统的语音识别方法,其特征在于,语音识别单元采用深度神经网络和隐马尔科夫(DNN-HMM)混合模型,使用HMM来描述语音信号的动态变化,再使用DNN的每个输出节点来估计连续密度HMM的某个状态的后验概率。
作为上述方案的进一步优化,离线解码或在线解码中:
(61)首先将后验概率转为似然度p(Xt/qt):
p(Xt/qt=s)=p(qt=s/Xt)p(Xt)/p(s) (1)
其中,是从训练集中统计的每个状态的先验概率,Ts是标记属于状态s的帧数,T是总帧数,
(62)p(Xt)与字词序列无关,计算时可以忽略,忽略后得到缩放的似然度
(63)在DNN-HMM模型中,解码出的字词序列由以下公式确定:
其中p(ω)是语言模型(LM)概率,以及
上式是声学模型(AM)概率,其中,p(qt/xt)由DNN模型计算得出,p(qt)是状态的先验概率,π(q0)和分别是初始状态概率和状态转移概率,
(64)语言模型权重系数λ通常被用于平衡声学和语言模型得分,最终的解码路径由以下公式决定:
本发明还公开了一种电力系统的语音导航系统的语音交互方法,包括如下步骤:
(101)用户接通电话,语音导航系统接收到请求;
(102)语音导航系统将请求发送给MCP(Media Control Platform)单元;
(103)MCP单元返回给对应的语音文件、提示音给语音导航系统;
(104)语音导航系统播报提示音给用户;
(105)用户语音输入,进行识别请求;
(106)语音导航系统将识别请求通过MCP单元转发至语音识别引擎;引入反馈,将用户语音识别的结果反馈给用户,得到用户的确认后,进行下一步;
(107)语音识别引擎进行语音识别,并将转写文本发送给语义理解引擎;
(108)语义理解引擎获取语义上下文信息,给出语义识别结果,并将结果返回给语音识别引擎;
(109)语音识别引擎将语义结果返回给语音导航系统;
(110)语音导航系统将语义结果发送至MCP单元,进行流程跳转控制;
(111)MCP单元返回最终结果给语音导航系统;
(112)语音导航系统将结果通过语音播报给用户。
作为上述方案的进一步优化,对于查询类问题,语音导航系统调用web Service接口,进行信息的查询获取;且web Service接口返回给语音导航系统对应的客户的信息。与现有技术相比,
本发明的电力系统的语音导航系统、语音识别方法和语音交互方法的有益效果如下:
1、本发明的一种电力系统的语音导航系统,在识别率、鲁棒性方面比基于传统模型的语音导航有很大的改善和提高。本发明的一种电力系统的语音导航系统,即使在有一定噪音的环境下,系统的识别率达也能达到95%以上。
2、本发明的一种电力系统的语音导航系统的语音识别方法,采用DNN-HMM模型的语音识别引擎,具有识别率高,识别速度快,可移植性好等优点。
3、本发明的一种电力系统的语音导航系统的语音识别方法,,应用电力系统的语音导航系统中,在模型的训练、识别率、鲁棒性方面有显著的改善,有效提高语音识别率,为语音导航系统识别提供了新的手段。
附图说明
图1为本发明的电力系统的语音导航系统的结构框图;
图2为本发明的语音识别处理的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图及实施例,对本发明进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限制本发明的范围。
参见图1,图1为本发明的电力系统的语音导航系统的结构框图;
一种电力系统的语音导航系统,包括语音输入模块、语音识别模块和数据交互模块和语音反馈模块:
其中,语音输入模块:客户通过手机或者固话,利用排队机接入呼叫中心系统,在CTI和IVR的控制下,当用户需要语音导航业务时,通过呼叫平台实现话务接入,平台记录下的原始语音信息,并进行播报用户确认无误后,将该文件作为原始的语音文件信息输入。
语音识别模块包括语音识别单元和语音文本处理单元。语音识别单元:语音识别引擎输入的原始的语音文件信息经过语音识别预处理;将经过语音识别预处理的语音文件进行离线解码或在线解码、置信度处理后转成自然语言文本信息;并将原始语音信息、原始的语音文件信息、语音特征信息存入文本/语音语库中。在语音识别单元中进行的语音识别预处理包括特征提取处理、端点检测处理和去燥处理。其中,在语音识别单元中进行的语音识别预处理包括特征提取处理、端点检测处理和去燥处理。
语音文本处理单元:将自然语言文本信息经过模式匹配处理、语法分析处理、语义解析处理、语义搜索处理、上下文管理处理以及语义预测处理后,将自然语言文本信息转换成计算机识别的语音信息作为输出物;进行业务需求分析,为自然语言处理引擎提供数据输入;
数据交互模块,为用户输入的数据、系统识别的数据和反馈客户输出的数据提供交互。语音反馈模块,用于反馈噪音或非普通话输入的原始语音信息。
一种电力系统的语音导航系统的语音识方法,首先调用CoInitialize(NULL)初始化COM对象,然后创建基于DNN+HMM的语音识别引擎、语法规则上下文和识别语法,并调用函数LoadCmdFromFile装载文法识别规则。本发明的一种电力系统的语音导航系统调用SetInterest来注册需要的事件。本发明的一种电力系统的语音导航系统的语音数据是从GVP取得的实时语音数据,将其存入内存,然后通过调用ISpAudioPlug的SetData方法将其送入识别引擎,调用语音识别引擎的处理模块。
参见图2,语音识别处理的步骤为:
(41)初始化原始的语音文件信息;
本发明的优选实施例中,Speech API 5.1+VC6为例:在CWinApp的子类中,调用CoInitializeEx函数进行COM初始化,代码如下:
CoInitializeEx(NULL,COINIT_APARTMENTTHREADED);//初始化COM
(42)创建识别引擎;语音识别引擎用于输入的原始的语音文件:
本发明的优选实施例中,使用共享型,大的服务型程序使用InProc;如下:
hr=m_cpRecognizer.CoCreateInstance(CLSID_SpSharedRecognizer);//Share
hr=m_cpRecognizer.CoCreateInstance(CLSID_SpInprocRecognizer);//InProc
如果是Share型,可直接进到步骤3;如果是InProc型,必须使用ISpRecognizer::SetInput设置语音输入。如下:
CComPtr<ISpObjectToken>cpAudioToken;//定义一个token
hr=SpGetDefaultTokenFromCategoryId(SPCAT_AUDIOIN,&cpAudioToken);//建立默认的音频输入对象
if(SUCCEEDED(hr)){
hr=m_cpRecognizer->SetInput(cpAudioToken,TRUE);}
或者:
CComPtr<ISpAudio>cpAudio;//定义一个音频对象
hr=SpCreateDefaultObjectFromCategoryId(SPCAT_AUDIOIN,&cpAudio);//建立默认的音频输入对象
hr=m_cpRecoEngine->SetInput(cpAudio,TRUE);//设置识别引擎输入源。
(43)创建识别上下文接口;
本发明的优选实施例中,调用ISpRecognizer::CreateRecoContext创建识别上下文接口(ISpRecoContext),如下:
hr=m_cpRecoEngine->CreateRecoContext(&m_cpRecoCtxt);
(44)设置识别消息;
本发明的优选实施例中,调用SetNotifyWindowMessage告诉Windows哪个是识别消息,需要进行处理。如下:
hr=m_cpRecoCtxt->SetNotifyWindowMessage(m_hWnd,WM_RECOEVENT,0,0);SetNotifyWindowMessage定义在ISpNotifySource中。
(45)设置事件;
本发明的优选实施例中,其中最重要的事件是”SPEI_RECOGNITION“。参照SPEVENTENUM。代码如下:
Const ULONGLONG ullInterest=SPFEI(SPEI_SOUND_START)|SPFEI(SPEI_SOUND_END)|SPFEI(SPEI_RECOGNITION);
hr=m_cpRecoCtxt->SetInterest(ullInterest,ullInterest);
(46)创建语法规则;
本发明的优选实施例中,语法规则两种,一种是听说式(dictation),一种是命令式(command and control---C&C)。首先利用ISpRecoContext::CreateGrammar创建语法对象,然后加载不同的语法规则,如下:
//dictation
hr=m_cpRecoCtxt->CreateGrammar(GIDDICTATION,&m_cpDictationGrammar);
if(SUCCEEDED(hr))
{
hr=m_cpDictationGrammar->LoadDictation(NULL,SPLO_STATIC);//加载词典
}//C&C
hr=m_cpRecoCtxt->CreateGrammar(GIDCMDCTRL,&m_cpCmdGrammar);
然后利用ISpRecoGrammar::LoadCmdxxx加载语法
(47)激活语法规则:
本发明的优选实施例中,
hr=m_cpDictationGrammar->SetDictationState(SPRS_ACTIVE);//dictation
hr=m_cpCmdGrammar->SetRuleState(NULL,NULL,SPRS_ACTIVE);//C&C
(48)获取识别消息,进行处理:
截获识别消息(WM_RECOEVENT),然后处理。识别的结果放在CSpEvent的ISpRecoResult中。如下:
USES_CONVERSION;
CSpEvent event;
switch(event.eEventId)
{
case SPEI_RECOGNITION:
{
//识别出了语音输入
m_bGotReco=TRUE;
static const WCHAR wszUnrecognized[]=L"<Unrecognized>";
CSpDynamicString dstrText;
//取得识别结果
if(FAILED(event.RecoResult()->GetText(SP_GETWHOLEPHRASE,SP_GETWHOLEPHRASE,TRUE,&dstrText,NULL)))
{dstrText=wszUnrecognized;}
BSTR SRout;
dstrText.CopyToBSTR(&SRout);
CString Recstring;
Recstring.Empty();
Recstring=SRout;
//进一步处理
......
}
break;
}
此外,本发明还公开了一种电力系统的语音导航系统的语音识别方法,语音识别单元采用深度神经网络和隐马尔科夫(DNN-HMM)混合模型,使用HMM来描述语音信号的动态变化,再使用DNN的每个输出节点来估计连续密度HMM的某个状态的后验概率。
语音识别过程中,离线解码或在线解码的步骤如下:
离线解码或在线解码中:
(61)首先将后验概率转为似然度p(Xt/qt):
p(Xt/qt=s)=p(qt=s/Xt)p(Xt)/p(s) (1)
其中,是从训练集中统计的每个状态的先验概率,Ts是标记属于状态s的帧数,T是总帧数,
(62)p(Xt)与字词序列无关,计算时可以忽略,忽略后得到缩放的似然度
对于训练语句中包含很长静音时段效果时,除以先验概率p(s),获取缩放的似然度,对于缓解标注不平衡问题很有效。
(63)在DNN-HMM模型中,解码出的字词序列由以下公式确定:
其中p(ω)是语言模型(LM)概率,以及
上式是声学模型(AM)概率,其中,p(qt/xt)由DNN模型计算得出,p(qt)是状态的先验概率,π(q0)和分别是初始状态概率和状态转移概率,各自都由HMM模型决定。
(64)语言模型权重系数λ通常被用于平衡声学和语言模型得分,最终的解码路径由以下公式决定:
本发明的电力系统的语音导航系统的语音交互方法,包括如下步骤:
(101)用户接通电话,语音导航系统接收到请求;
(102)语音导航系统将请求发送给MCP(Media Control Platform)单元;
(103)MCP单元返回给对应的语音文件、提示音给语音导航系统;
(104)语音导航系统播报提示音给用户;
(105)用户语音输入,进行识别请求;
(106)语音导航系统将识别请求通过MCP单元转发至语音识别引擎;引入反馈,将用户语音识别的结果反馈给用户,得到用户的确认后,进行下一步;
(107)语音识别引擎进行语音识别,并将转写文本发送给语义理解引擎;
(108)语义理解引擎获取语义上下文信息,给出语义识别结果,并将结果返回给语音识别引擎;
(109)语音识别引擎将语义结果返回给语音导航系统;
(110)语音导航系统将语义结果发送至MCP单元,进行流程跳转控制;
(111)MCP单元返回最终结果给语音导航系统;
(112)语音导航系统将结果通过语音播报给用户。
对于查询类问题,语音导航系统调用web Service接口,进行信息的查询获取;且web Service接口返回给语音导航系统对应的客户的信息,如:电费具体是多少。
与现有的语音导航系统相比,通过实验测试本发明提供的语音导航系统的语音识别模块的性能,进行了孤立单词识别、连续语音识别(连续单词识别、连续言语识别与理解)、特定人语音识别(客服)、非特定人语音识别、有限词汇识别和无限词汇识别(全音节语音识别)等各种语音的输入,结果参见表1.本发明提供的语音导航系统综合识别率达到90%,其中孤立单词识别和特定人语音识别的识别率达到100%。
识别对象 | 传统模型的语音导航系统 | 本发明的语音导航系统 |
孤立单词识别 | 80% | 100% |
连续语音识别 | 73% | 85% |
特定人语音识别(客服) | 89% | 100% |
非特定人语音识别 | 82.10% | 94.00% |
有限词汇识别 | 85% | 97% |
无限词汇识别 | 80.20% | 89% |
综合 | 80% | 90% |
表1基于传统模型的语音导航系统和本发明的语音导航系统效果对比图
本发明的一种电力系统的语音导航系统,在识别率、鲁棒性方面比基于传统模型的语音导航有很大的改善和提高。本发明的一种电力系统的语音导航系统,即使在有一定噪音的环境下,系统的识别率达也能达到95%以上。本发明的一种电力系统的语音导航系统的语音识别方法,采用DNN-HMM模型的语音识别引擎,具有识别率高,识别速度快,可移植性好等优点。本发明的一种电力系统的语音导航系统的语音识别方法,,应用电力系统的语音导航系统中,在模型的训练、识别率、鲁棒性方面有显著的改善,有效提高语音识别率,为语音导航系统识别提供了新的手段。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种电力系统的语音导航系统,其特征在于:包括
语音输入模块:客户通过手机或者固话,利用排队机接入呼叫中心系统,在CTI和IVR的控制下,当用户需要语音导航业务时,通过呼叫平台实现话务接入,平台记录下的原始语音信息,并进行播报用户确认无误后,将该文件作为原始的语音文件信息输入;
语音识别模块包括语音识别单元和语音文本处理单元;
语音识别单元:语音识别引擎输入的原始的语音文件信息经过语音识别预处理;将经过语音识别预处理的语音文件进行离线解码或在线解码、置信度处理后转成自然语言文本信息;并将原始语音信息、原始的语音文件信息、语音特征信息存入文本/语音语库中;
语音文本处理单元:将自然语言文本信息经过模式匹配处理、语法分析处理、语义解析处理、语义搜索处理、上下文管理处理以及语义预测处理后,将自然语言文本信息转换成计算机识别的语音信息作为输出物;进行业务需求分析,为自然语言处理引擎提供数据输入;
数据交互模块,为用户输入的数据、系统识别的数据和反馈客户输出的数据提供交互。
2.根据权利要求1所述的一种电力系统的语音导航系统,其特征在于:在语音识别单元中进行的语音识别预处理包括特征提取处理、端点检测处理和去燥处理。
3.根据权利要求1所述的一种电力系统的语音导航系统,其特征在于:还包括语音反馈模块,用于反馈噪音或非普通话输入的原始语音信息。
4.根据权利要求1所述的一种电力系统的语音导航系统,其特征在于:语音识别模块中,语音识别处理的步骤为:
(41)初始化原始的语音文件信息;
(42)创建识别引擎;语音识别引擎用于输入的原始的语音文件;
(43)创建识别上下文接口;
(44)设置识别消息;
(45)设置事件;
(46)创建语法规则;
(47)激活语法规则:
(48)获取识别消息,进行处理。
5.如权利要求1-4任一所述的电力系统的语音导航系统的语音识别方法,其特征在于,语音识别单元采用深度神经网络和隐马尔科夫(DNN-HMM)混合模型,使用HMM来描述语音信号的动态变化,再使用DNN的每个输出节点来估计连续密度HMM的某个状态的后验概率。
6.根据权利要求5所述的电力系统的语音导航系统的语音识别方法,其特征在于:离线解码或在线解码中:
(61)首先将后验概率转为似然度p(Xt/qt):
p(Xt/qt=s)=p(qt=s/Xt)p(Xt)/p(s) (1)
其中,是从训练集中统计的每个状态的先验概率,Ts是标记属于状态s的帧数,T是总帧数,
(62)p(Xt)与字词序列无关,计算时可以忽略,忽略后得到缩放的似然度
(63)在DNN-HMM模型中,解码出的字词序列由以下公式确定:
其中p(ω)是语言模型(LM)概率,以及
上式是声学模型(AM)概率,其中,p(qt/xt)由DNN模型计算得出,p(qt)是状态的先验概率,π(q0)和分别是初始状态概率和状态转移概率,
(64)语言模型权重系数λ通常被用于平衡声学和语言模型得分,最终的解码路径由以下公式决定:
7.如权利要求1-4任一所述的电力系统的语音导航系统的语音交互方法,其特征在于:包括如下步骤:
(101)用户接通电话,语音导航系统接收到请求;
(102)语音导航系统将请求发送给MCP(Media Control Platform)单元;
(103)MCP单元返回给对应的语音文件、提示音给语音导航系统;
(104)语音导航系统播报提示音给用户;
(105)用户语音输入,进行识别请求;
(106)语音导航系统将识别请求通过MCP单元转发至语音识别引擎;引入反馈,将用户语音识别的结果反馈给用户,得到用户的确认后,进行下一步;
(107)语音识别引擎进行语音识别,并将转写文本发送给语义理解引擎;
(108)语义理解引擎获取语义上下文信息,给出语义识别结果,并将结果返回给语音识别引擎;
(109)语音识别引擎将语义结果返回给语音导航系统;
(110)语音导航系统将语义结果发送至MCP单元,进行流程跳转控制;
(111)MCP单元返回最终结果给语音导航系统;
(112)语音导航系统将结果通过语音播报给用户。
8.根据权利要求7任一所述的电力系统的语音导航系统的语音交互方法,其特征在于:对于查询类问题,语音导航系统调用web Service接口,进行信息的查询获取;且webService接口返回给语音导航系统对应的客户的信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710198667.0A CN107093425A (zh) | 2017-03-30 | 2017-03-30 | 电力系统的语音导航系统、语音识别方法和语音交互方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710198667.0A CN107093425A (zh) | 2017-03-30 | 2017-03-30 | 电力系统的语音导航系统、语音识别方法和语音交互方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107093425A true CN107093425A (zh) | 2017-08-25 |
Family
ID=59649206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710198667.0A Pending CN107093425A (zh) | 2017-03-30 | 2017-03-30 | 电力系统的语音导航系统、语音识别方法和语音交互方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107093425A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107704946A (zh) * | 2017-08-29 | 2018-02-16 | 平安科技(深圳)有限公司 | 电子装置、语音导航需求预测方法和存储介质 |
CN108009303A (zh) * | 2017-12-30 | 2018-05-08 | 北京百度网讯科技有限公司 | 基于语音识别的搜索方法、装置、电子设备和存储介质 |
CN109872715A (zh) * | 2019-03-01 | 2019-06-11 | 深圳市伟文无线通讯技术有限公司 | 一种语音交互方法及装置 |
CN109903769A (zh) * | 2017-12-08 | 2019-06-18 | Tcl集团股份有限公司 | 一种终端设备交互的方法、装置和终端设备 |
CN110491383A (zh) * | 2019-09-25 | 2019-11-22 | 北京声智科技有限公司 | 一种语音交互方法、装置、系统、存储介质及处理器 |
CN111369384A (zh) * | 2019-12-23 | 2020-07-03 | 国网河南省电力公司郑州供电公司 | 变电运维隐患全过程管控系统 |
CN111489754A (zh) * | 2019-01-28 | 2020-08-04 | 国家电网有限公司客户服务中心 | 一种基于智能语音技术的话务数据分析方法 |
CN111583906A (zh) * | 2019-02-18 | 2020-08-25 | 中国移动通信有限公司研究院 | 一种语音会话的角色识别方法、装置及终端 |
US11170762B2 (en) | 2018-01-04 | 2021-11-09 | Google Llc | Learning offline voice commands based on usage of online voice commands |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101189659A (zh) * | 2004-09-27 | 2008-05-28 | 罗伯特·博世公司 | 用于认知超负荷的设备用户的交互式对话 |
CN101715027A (zh) * | 2009-10-26 | 2010-05-26 | 浙江省电力公司 | 一种用于电力系统的客户服务系统和方法 |
CN201504271U (zh) * | 2009-10-26 | 2010-06-09 | 浙江省电力公司 | 一种用于电力系统的客户服务系统 |
CN201601727U (zh) * | 2009-10-26 | 2010-10-06 | 浙江省电力公司 | 用于电力客服系统的话务分配系统 |
CN106503156A (zh) * | 2016-10-24 | 2017-03-15 | 北京百度网讯科技有限公司 | 基于人工智能的人机交互方法及装置 |
-
2017
- 2017-03-30 CN CN201710198667.0A patent/CN107093425A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101189659A (zh) * | 2004-09-27 | 2008-05-28 | 罗伯特·博世公司 | 用于认知超负荷的设备用户的交互式对话 |
CN101715027A (zh) * | 2009-10-26 | 2010-05-26 | 浙江省电力公司 | 一种用于电力系统的客户服务系统和方法 |
CN201504271U (zh) * | 2009-10-26 | 2010-06-09 | 浙江省电力公司 | 一种用于电力系统的客户服务系统 |
CN201601727U (zh) * | 2009-10-26 | 2010-10-06 | 浙江省电力公司 | 用于电力客服系统的话务分配系统 |
CN106503156A (zh) * | 2016-10-24 | 2017-03-15 | 北京百度网讯科技有限公司 | 基于人工智能的人机交互方法及装置 |
Non-Patent Citations (1)
Title |
---|
赵永生等: "基于DNN-HMM模型的语音识别的语音导航系统", 《新型工业化》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107704946B (zh) * | 2017-08-29 | 2019-05-10 | 平安科技(深圳)有限公司 | 电子装置、语音导航需求预测方法和存储介质 |
CN107704946A (zh) * | 2017-08-29 | 2018-02-16 | 平安科技(深圳)有限公司 | 电子装置、语音导航需求预测方法和存储介质 |
CN109903769A (zh) * | 2017-12-08 | 2019-06-18 | Tcl集团股份有限公司 | 一种终端设备交互的方法、装置和终端设备 |
CN108009303A (zh) * | 2017-12-30 | 2018-05-08 | 北京百度网讯科技有限公司 | 基于语音识别的搜索方法、装置、电子设备和存储介质 |
CN108009303B (zh) * | 2017-12-30 | 2021-09-14 | 北京百度网讯科技有限公司 | 基于语音识别的搜索方法、装置、电子设备和存储介质 |
US11170762B2 (en) | 2018-01-04 | 2021-11-09 | Google Llc | Learning offline voice commands based on usage of online voice commands |
US11790890B2 (en) | 2018-01-04 | 2023-10-17 | Google Llc | Learning offline voice commands based on usage of online voice commands |
CN111489754A (zh) * | 2019-01-28 | 2020-08-04 | 国家电网有限公司客户服务中心 | 一种基于智能语音技术的话务数据分析方法 |
CN111583906B (zh) * | 2019-02-18 | 2023-08-15 | 中国移动通信有限公司研究院 | 一种语音会话的角色识别方法、装置及终端 |
CN111583906A (zh) * | 2019-02-18 | 2020-08-25 | 中国移动通信有限公司研究院 | 一种语音会话的角色识别方法、装置及终端 |
CN109872715A (zh) * | 2019-03-01 | 2019-06-11 | 深圳市伟文无线通讯技术有限公司 | 一种语音交互方法及装置 |
CN110491383B (zh) * | 2019-09-25 | 2022-02-18 | 北京声智科技有限公司 | 一种语音交互方法、装置、系统、存储介质及处理器 |
CN110491383A (zh) * | 2019-09-25 | 2019-11-22 | 北京声智科技有限公司 | 一种语音交互方法、装置、系统、存储介质及处理器 |
CN111369384A (zh) * | 2019-12-23 | 2020-07-03 | 国网河南省电力公司郑州供电公司 | 变电运维隐患全过程管控系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107093425A (zh) | 电力系统的语音导航系统、语音识别方法和语音交互方法 | |
CN102543071B (zh) | 用于移动设备的语音识别系统和方法 | |
US10878808B1 (en) | Speech processing dialog management | |
US11564090B1 (en) | Audio verification | |
US10917758B1 (en) | Voice-based messaging | |
US8244540B2 (en) | System and method for providing a textual representation of an audio message to a mobile device | |
CN109754809B (zh) | 语音识别方法、装置、电子设备及存储介质 | |
US7818166B2 (en) | Method and apparatus for intention based communications for mobile communication devices | |
JP5141695B2 (ja) | 記号挿入装置および記号挿入方法 | |
US10395655B1 (en) | Proactive command framework | |
US20140358537A1 (en) | System and Method for Combining Speech Recognition Outputs From a Plurality of Domain-Specific Speech Recognizers Via Machine Learning | |
US11093110B1 (en) | Messaging feedback mechanism | |
CN110689877A (zh) | 一种语音结束端点检测方法及装置 | |
CN111627432B (zh) | 主动式外呼智能语音机器人多语种交互方法及装置 | |
KR20230147685A (ko) | 서브 워드 엔드-투-엔드 자동 스피치 인식을 위한 워드 레벨 신뢰도 학습 | |
CN112669842A (zh) | 人机对话控制方法、装置、计算机设备及存储介质 | |
US11532301B1 (en) | Natural language processing | |
CN111210821A (zh) | 一种基于互联网应用的智能语音识别系统 | |
CN112071310A (zh) | 语音识别方法和装置、电子设备和存储介质 | |
CN113761268A (zh) | 音频节目内容的播放控制方法、装置、设备和存储介质 | |
US11626107B1 (en) | Natural language processing | |
JP6712754B2 (ja) | 談話機能推定装置及びそのためのコンピュータプログラム | |
US11741945B1 (en) | Adaptive virtual assistant attributes | |
Furui et al. | Ubiquitous speech processing | |
Gilbert et al. | Intelligent virtual agents for contact center automation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170825 |