CN108694939A - 语音搜索优化方法、装置和系统 - Google Patents
语音搜索优化方法、装置和系统 Download PDFInfo
- Publication number
- CN108694939A CN108694939A CN201810501682.2A CN201810501682A CN108694939A CN 108694939 A CN108694939 A CN 108694939A CN 201810501682 A CN201810501682 A CN 201810501682A CN 108694939 A CN108694939 A CN 108694939A
- Authority
- CN
- China
- Prior art keywords
- search
- input signal
- preset template
- voice signal
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005457 optimization Methods 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000004458 analytical method Methods 0.000 claims abstract description 51
- 230000008569 process Effects 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 13
- 235000013399 edible fruits Nutrition 0.000 claims description 2
- 230000001976 improved effect Effects 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000037007 arousal Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/083—Recognition networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及一种语音搜索优化方法,包括步骤:获取输入信号,并将输入信号与预置模板进行匹配分析;若存在与输入信号匹配的预置模板,则重置WFST网络的搜索状态;根据重置搜索状态后的WFST网络,对与输入信号匹配的预置模板进行前置搜索,获得与预置模板相对应的优化WFST网络;根据优化WFST网络,完成各帧的语音信号的搜索,得到搜索结果。还公开一种语音搜索系统。通过在输入信号与预置模板相匹配时,重置WFST网络的搜索状态,进而根据预置模板在重置搜索状态后的WFST网络中进行前置搜索,得到并根据优化WFST网络对各帧的语音信号进行搜索,输出搜索结果。解决了传统的语音识别方式仍然存在识别准确率不高的问题,达到了大幅提升语音识别准确率的效果。
Description
技术领域
本发明涉及语音识别技术领域,特别是涉及一种语音搜索优化方法、装置和语音搜索系统。
背景技术
随着信息技术的不断革新,各种智能设备也在快速更新换代。作为众多智能设备的热门技术之一的语音识别技术,即是一种数据信息应用的典型代表。语音识别技术能够将给定的语音识别成对应的文字信息,因此,被广泛应用在各种智能交互设备上,例如智能交互设备的语音唤醒功能和语音助手等功能。
传统的语音识别方式,一般是将输入的语音信号按帧提取特征,并根据声学模型计算出相应分类的概率,搜索部分从WFST网络的开始节点,根据每帧的分类概率,逐帧搜索遍历直至完成全部语音输入帧的搜索,根据所得到的路径获取最终的识别结果。然而,发明人在实现本发明的过程中,发现传统的语音识别方式仍然存在识别准确率不高的问题。
发明内容
基于此,有必要针对传统的语音识别方式仍然存在识别准确率不高的问题,提供一种语音搜索优化方法,一种语音搜索优化装置以及一种语音搜索系统。
为实现上述目的,本发明实施例采用以下技术方案:
一方面,本发明实施例提供一种语音搜索优化方法,包括步骤:
获取输入信号,并将所述输入信号与预置模板进行匹配分析;
若存在与所述输入信号匹配的所述预置模板,则重置WFST网络的搜索状态;
根据重置搜索状态后的所述WFST网络,对与所述输入信号匹配的所述预置模板进行前置搜索,获得与所述预置模板相对应的优化WFST网络;
根据所述优化WFST网络,完成各帧的语音信号的搜索,得到搜索结果。
在其中一个实施例中,所述输入信号包括所述语音信号;将所述输入信号与预置模板进行匹配分析的过程,包括:
对所述语音信号进行特征提取,得到所述语音信号的声学特征信息;
将所述声学特征信息与所述预置模板的声学特征信息进行匹配。
在其中一个实施例中,将所述输入信号与预置模板进行匹配分析的过程,还包括:
对所述语音信号进行语音识别,得到识别结果;
将所述识别结果与所述预置模板进行匹配。
在其中一个实施例中,若存在与所述输入信号匹配的预置模板,则重置WFST网络的搜索状态的步骤之前,还包括:
获取所述语音信号;
对所述语音信号进行特征提取,得到所述语音信号的声学特征信息;
根据所述声学特征信息,通过预先训练的声学模型对所述语音信号进行分类计算,得到所述语音信号的分类及对应的分类概率;其中,所述分类概率用于所述WFST网络对所述语音信号的搜索。
在其中一个实施例中,所述输入信号还包括所述声学特征信息;将所述输入信号与预置模板进行匹配分析的过程,还包括:
根据所述声学特征信息进行语音识别,得到识别结果;
将所述识别结果与所述预置模板进行匹配。
在其中一个实施例中,将所述输入信号与预置模板进行匹配分析的过程,还包括:
将所述声学特征信息与所述预置模板的声学特征信息进行匹配。
在其中一个实施例中,所述输入信号还包括所述WFST网络对所述语音信号搜索得到的阶段结果;将所述输入信号与预置模板进行匹配分析的过程,还包括:
将所述阶段结果与所述预置模板进行匹配。
在其中一个实施例中,所述预置模板包括设定领域的词序列、词序列对应的声学特征信息或音素序列。
另一方面,还提供一种语音搜索优化装置,包括:
匹配分析模块,用于获取输入信号,并将所述输入信号与预置模板进行匹配分析;
搜索重置模块,用于若存在与所述输入信号匹配的预置模板,则重置WFST网络的搜索状态;
前置搜索模块,用于根据重置搜索状态后的所述WFST网络,对与所述输入信号匹配的预置模板进行前置搜索,获得与所述预置模板相对应的优化WFST网络;
搜索结果获取模块,用于根据所述优化WFST网络,完成各帧的语音信号的搜索,得到搜索结果。
又一方面,还提供一种语音搜索设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述的语音搜索优化方法的步骤。
再一方面,还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的语音搜索优化方法的步骤。
再一方面,还提供一种语音搜索系统,包括语音识别装置和模板匹配装置,所述语音识别装置与所述模板匹配装置连接;
所述模板匹配装置用于获取输入信号,并将所述输入信号与预置模板进行匹配分析;若存在与所述输入信号匹配的预置模板,则重置所述语音识别装置中的WFST网络的搜索状态,并向所述语音识别装置发送与所述输入信号匹配的预置模板;
所述语音识别装置用于根据重置搜索状态后的所述WFST网络,对与所述输入信号匹配的预置模板进行前置搜索,获得与所述预置模板相对应的优化WFST网络;根据所述优化WFST网络,完成各帧的语音信号的搜索,得到搜索结果。
上述技术方案中的一个技术方案具有如下有益效果:
通过在输入信号与预置模板匹配时,重置WFST网络的搜索状态,进而根据预置模板,基于重置搜索状态后的所述WFST网络进行前置搜索,得到优化WFST网络,从而根据所述优化WFST网络,完成各帧的语音信号的搜索,得到与预置模板相关的搜索结果输出。解决了传统的语音识别方式仍然存在识别准确率不高的问题,达到了大幅提升语音识别准确率的效果。
附图说明
图1为一个实施例中语音搜索优化方法的应用环境图;
图2为一个实施例中语音搜索优化方法的流程示意图;
图3为另一个实施例中语音搜索优化方法的流程示意图;
图4为一个实施例中语音搜索优化装置的结构框图;
图5为一个实施例中语音搜索系统的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本申请提供的语音搜索优化方法,可以应用于如图1所示的应用环境中。其中,终端102通过数据网络或无线网络连接到外部通信网,或者离线工作。终端102获取到用户输入的语音信号后,可以将输入信号(例如是前述的语音信号)与预置模板进行匹配分析。若终端102经过匹配分析后,确定存在与输入信号匹配的预置模板,则重置内部用于语音识别搜索的WFST网络的搜索状态,进而根据置搜索状态后的WFST网络,对与输入信号匹配的预置模板进行前置搜索,获得与预置模板相对应的优化WFST网络。从而,根据优化WFST网络,完成各帧语音信号的搜索,得到搜索结果输出。其中,终端102可以但不限于是各种智能手机、个人计算机、笔记本电脑、平板电脑、智能家电设备和车载智能终端设备。
本申请提供的语音搜索优化方法,还可以应用于服务器上,由服务器在对输入的语音信号进行解码搜索的过程中,根据上述的语音搜索优化方法完成各帧语音信号的搜索并输出搜索结果,具体过程可以参考前述的终端102应用过程,此处不再赘述。
在一个实施例中,请参阅图2,提供了一种语音搜索优化方法,以该方法应用于图1中的终端102为例进行说明。可以理解,在一般的语音信号的识别过程中,可以将输入终端102的语音信号输入到预先构建的WFST网络中进行解码搜索。在用户说出一段语音时,WFST网络可以随着用户说出语音的过程,持续获得语音信号输入,从而持续得到相应的语音搜索的中间结果,也即阶段性的搜索结果;直至用户说出的语音全部输入到WFST网络中,得到最终完整的搜索结果。也即是说,在WFST网络中,随着语音信号的不断输入,到当前节点的搜索结果是从上一状态节点跳转而来,而当前节点也将会成为下一节点搜索的状态起点。从而随着语音信号的输入,WFST网络中搜索的状态节点不断向前跳转,直至到达语音输入结束时的最终状态节点,得到语音搜索结果输出,完成整个语音识别过程。
如图2所示,上述的语音搜索优化方法,可以包括以下步骤S12至S18:
S12,获取输入信号,并将输入信号与预置模板进行匹配分析。
可以理解,输入信号用于语音识别,从而可以将识别得到的内容与预置模板进行匹配分析。预置模板为预先设置到终端102中的搜索模板信息,用于终端102对输入信号进行与预置模板进行匹配分析,可以是但不限于文本形式、声学特征形式或音素序列的模板信息。上述的匹配分析可以是,根据输入信号中的部分信息或者全部信息(如文本信息、声学特征形式或音素序列),与预置模板的信息(如文本信息、声学特征形式或音素序列)相同,或者相似度达到设定预置及以上,例如输入信号中的部分信息或者全部信息,与预置模板的相似度计算结果为95%,相似度计算的方法可以是本领域中常规的相似度计算方法,本说明书中不作限定。
S14,若存在与输入信号匹配的预置模板,则重置WFST网络的搜索状态;
S16,根据重置搜索状态后的WFST网络,对与输入信号匹配的预置模板进行前置搜索,获得与预置模板相对应的优化WFST网络。
可以理解,前置搜索是将与输入信号相匹配的预置模板,输入到重置搜索状态后的WFST网络进行搜索的过程。优化WFST网络为对应于预置模板的搜索路径网络,可以用于对后续输入的语音信号的解码搜索输出。
S18,根据优化WFST网络,完成各帧的语音信号的搜索,得到搜索结果。
可以理解,终端102上可以设置有提供语音识别处理的语音识别模块13,以及用于从语音识别模块13获得输入信号、进行模板匹配分析并对语音识别模块13进行优化控制的模板匹配模块11。语音识别模块13和/或模板匹配模块11可以是软件功能模块,也可以是硬件模块,例如语音识别模块13是但不限于AP处理器为主控器件的语音识别模块13电路。例如模板匹配模块11是但不限于以DSP处理器为主控器件的模板匹配模块11电路。
具体的,终端102可以在内部的语音识别模块13中的WFST网络内,对各帧的输入语音信号进行前向搜索,得到相应的搜索结果。同时,模板匹配模块11可以从语音识别模块13获得匹配分析所需的输入信号,可以是但不限于输入的语音信号。模板匹配模块11进入根据得到的输入信号与预置模板进行匹配分析;判断到存在与输入信号相匹配的任一个预置模板时,可以通过向语音识别模块13发送重置触发信号或者通过终端102上的主控制器,控制语音识别模块13重置WFST网络的搜索状态,也即将WFST网络到当前时刻为止,所得的状态节点丢弃,回到WFST网络初始的搜索状态节点。进而,语音识别模块13可以根据与输入信号相匹配的预置模板,通过重置搜索状态后的WFST网络进行搜索,得到对应于该预置模板信息的搜索路径网络,也即得到上述的优化WFST网络。语音识别模块13可以在得到的优化WFST网络中,完成对各帧的语音信号的搜索,得到搜索结果。
通过上述的步骤S12至S18,在输入信号与任一个预置模板相匹配时,重置WFST网络的搜索状态,进而根据预置模板在重置搜索状态后的WFST网络中进行前置搜索,得到优化WFST网络;从而在优化WFST网络,对各帧的语音信号进行搜索,输出所有帧的语音信号的搜索结果,解决了传统的语音识别方式仍然存在识别准确率不高的问题,达到了大幅提升语音识别准确率的效果。
在其中一个实施例中,对步骤S12,输入信号包括语音信号。其中的匹配分析过程,具体可以包括如下过程:对语音信号进行特征提取,得到语音信号的声学特征信息;将声学特征信息与预置模板的声学特征信息进行匹配。
可以理解,模板匹配模块11的输入信号可以是输入到语音识别模块13的语音信号。上述的特征提取可以通过本领域常规的声学特征提取方法,对获得的语音信号进行特征提取,例如MFCC特征提取,得到语音信号的声学特征信息。具体的,模板匹配模块11可以将输入的语音信号的声学特征信息与各个预置模板信息的声学特征信息进行匹配分析,判断是否存在与输入信号相匹配的任一个预置模板。
通过上述的特征匹配,可以快速确定是否存在与输入信号相匹配的任一个预置模板,从而方便后续的搜索优化的控制。匹配分析速度快,并且匹配判断的准确度高。
在其中一个实施例中,对步骤S12,其中的匹配分析过程,具体还可以包括如下过程:对语音信号进行语音识别,得到识别结果;将识别结果与预置模板进行匹配。
可以理解,模板匹配模块11可以在获得输入的语音信号后,通过内部预先构建的小型WFST网络对输入的语音信号进行识别搜索,得到对应于输入的语音信号的识别结果,例如文本形式的识别结果。前述的小型WFST网络可以通过本领域常规的WFST网络构建的方法获得,例如针对设定领域的常用语、特征词句等语言信息,训练生成的小型WFST网络。
具体的,模板匹配模块11也可以将输入的语音信号的识别结果与各个预置模板(例如文本形式的模板)进行匹配分析,判断是否存在与输入信号相匹配的任一个预置模板。
通过上述的识别结果的匹配,可以快速确定是否存在与输入信号相匹配的任一个预置模板,从而方便后续的搜索优化的控制。匹配分析速度快,并且匹配判断的准确度高。
请参阅图3,在其中一个实施例中,在步骤S14之前,还可以包括步骤S09至S11:
S09,获取语音信号;S10,对语音信号进行特征提取,得到语音信号的声学特征信息;S11,根据声学特征信息,通过预先训练的声学模型对语音信号进行分类计算,得到语音信号的分类及对应的分类概率;其中,分类概率用于WFST网络对语音信号的搜索。
可以理解,设定的声学模型可以根据本领域常规的声学模型训练方法,预先训练得到,例如隐马尔可夫模型,本说明书中不做限定。
具体的,终端102中的语音识别模块13可以通过本领域常规的语音信号采集技术,例如可以通过声音接收器直接监听用户输入的语音信号,完成输入语音信号的获取。也可以通过接收其他终端或者服务器发送过来的语音信号,完成输入语音信号的获取。语音识别模块13可以通过本领域常规的声学特征提取方法对获得的语音信号进行特征提取,例如MFCC特征提取,得到语音信号的声学特征信息。进而,语音识别模块13可以根据得到的声学特征信息,通过设定的声学模型对各帧的语音信号进行分类,并计算确定各分类的分类概率。
通过上述的特征提取和分类计算,可以在WFST网络对各帧语音信号进行搜索时,基于各帧的分类概率进行前向搜索,提高搜索准确率和搜索速度。
在其中一个实施例中,对步骤S12,上述模板匹配模块11的输入信号还包括前述的声学特征信息。将输入信号与预置模板进行匹配分析的过程,具体还可以包括:根据声学特征信息进行语音识别,得到识别结果;将识别结果与预置模板进行匹配。
可以理解,模板匹配模块11的输入信号也可以是从语音识别模块13直接获得的输入语音信号的声学特征信息。模板匹配模块11可以在获得输入的语音信号的声学特征信息后,通过内部预先构建的小型WFST网络,根据所得的声学特征信息进行识别搜索,得到对应于输入的语音信号的识别结果,例如文本形式的识别结果。
具体的,模板匹配模块11也可以将输入的语音信号的声学特征信息,搜索得到相应的识别结果,并将所得的识别结果与各个预置模板(例如文本形式的模板)进行匹配分析,判断是否存在与输入信号相匹配的任一个预置模板。
通过上述的识别结果的匹配,也可以快速确定是否存在与输入信号相匹配的任一个预置模板,从而方便后续的搜索优化的控制。匹配分析速度快,并且匹配判断的准确度高,提高对语音识别模块13的上述的重置搜索状态等的匹配控制过程响应速度。
在其中一个实施例中,对步骤S12,将输入信号与预置模板进行匹配分析的过程,具体还可以包括:将声学特征信息与预置模板的声学特征信息进行匹配。
可以理解,模板匹配模块11的输入信号也可以是从语音识别模块13直接获得的输入语音信号的声学特征信息。具体的,模板匹配模块11可以将输入的语音信号的声学特征信息,与各个预置模板信息的声学特征信息进行匹配分析,判断是否存在与输入信号相匹配的任一个预置模板。
通过上述的特征匹配,也可以快速确定是否存在与输入信号相匹配的任一个预置模板,从而方便后续的搜索优化的控制。匹配分析速度快,并且匹配判断的准确度高,提高对语音识别模块13的上述的重置搜索状态等的匹配控制过程响应速度。
在其中一个实施例中,对步骤S12,输入信号还可以包括语音识别模块13中的WFST网络对语音信号搜索得到的阶段结果。因此,将输入信号与预置模板进行匹配分析的过程,具体还可以包括:将阶段结果与预置模板进行匹配。
可以理解,阶段结果为语音识别模块13的WFST网络,对持续输入的各帧语音信号进行前向搜索识别过程中,分别搜索至各个输入帧的语音信号搜索结束时所处状态节点所对应的中间搜索结果,。
具体的,模板匹配模块11还可以从语音识别模块13中,直接获取语音识别模块13所得的任一个阶段结果作为输入信号。从而,可以直接将所得的阶段结果与各个预置模板进行匹配分析,判断是否存在与阶段结果相匹配的任一个预置模板。
通过上述的阶段结果的匹配,也可以快速确定是否存在与输入信号相匹配的任一个预置模板,从而方便后续的搜索优化的控制。匹配分析速度快,匹配判断的准确度高,提高对语音识别模块13的上述的重置搜索状态等的匹配控制过程响应速度。
在其中一个实施例中,上述各实施例中的预置模板,具体内容可以包括设定领域的词序列、词序列对应的声学特征信息或音素序列。
可以理解,设定领域可以是终端102所应用的领域,或者服务的用户所在的领域,例如可以是通讯领域、家庭电气设备领域、汽车领域或其他语言习惯区别明显的领域。词序列例如是“打开xxx”、“打电话给xxx”或其他类型、领域的模板序列。词序列对应的声学特征可以是本领域中常规的通过预训练的声学模型对词序列进行声学特征提取,得到对应词序列的声学特征信息。音素序列可以是本领域中常规的通过预训练的声学模型对词序列进行声学特征提取,得到对应词序列的音素序列,例如“da kai xxx”或“da dian hua gei xxx”等形式。
具体的,上述各实施例中,模板匹配模块11可以根据输入信号,得到的输入信号的声学特征或搜索结果。从而,可以将得到的搜索结果(例如词序列)与各个预置模板的词序列,或者将声学特征与各个预置模板的声学特征,又或者可以将搜索结果对应的音素序列与各个预置模板的音素序列进行匹配分析。例如通过文字比较、相似度计算等方式匹配分析,以判断各预置模板中,是否存在匹配输入信号的任一个预置模板。从而在判断到存在匹配输入信号的预置模板时,通过上述的步骤S14至S18,对各帧的语音信号进行搜索输出,可以大幅提高对应语音信号的识别准确率,例如在手机或其他智能终端等终端102上,用户对着终端102说出“打电话给xxx”,终端102可以将输出的“xxx”限制在通讯录等与电话相关的信息上,而不会给出地名相关的结果。
请参阅图4,在一个实施例中,还提供一种语音搜索优化装置100,包括匹配分析模块12、搜索重置模块14、前置搜索模块16和搜索结果获取模块18。匹配分析模块12用于获取输入信号,并将输入信号与预置模板进行匹配分析。搜索重置模块14用于若存在与输入信号匹配的预置模板,则重置WFST网络的搜索状态。前置搜索模块16用于根据重置搜索状态后的WFST网络,对与输入信号匹配的预置模板进行前置搜索,获得与预置模板相对应的优化WFST网络。搜索结果获取模块18用于根据优化WFST网络,完成各帧的语音信号的搜索,得到搜索结果。
通过上述的各模块,在输入信号与任一个预置模板相匹配时,重置WFST网络的搜索状态,进而根据预置模板在重置搜索状态后的WFST网络中进行前置搜索,得到优化WFST网络;从而在优化WFST网络,对各帧的语音信号进行搜索,输出所有帧的语音信号的搜索结果,解决了传统的语音识别方式仍然存在识别准确率不高的问题,达到了大幅提升语音识别准确率的效果。
在其中一个实施例中,上述的语音搜索优化装置100,还可以通过各相应的模块实现上述各实施例中语音搜索优化方法的各步骤。
在一个实施例中,还提供一种语音搜索设备,该语音搜索设备可以是终端,该语音搜索设备可以包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该语音搜索设备的处理器用于提供计算和控制能力。该语音搜索设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该语音搜索设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时,可以实现上述的语音搜索优化的步骤:获取输入信号,并将输入信号与预置模板进行匹配分析;若存在与输入信号匹配的预置模板,则重置WFST网络的搜索状态;根据重置搜索状态后的WFST网络,对与输入信号匹配的预置模板进行前置搜索,获得与预置模板相对应的优化WFST网络;根据优化WFST网络,完成各帧的语音信号的搜索,得到搜索结果。
上述的语音搜索设备的显示屏可以是液晶显示屏、LED显示屏或者电子墨水显示屏,该语音搜索设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
在其中一个实施例中,上述的语音搜索设备还可以实现上述各实施例中语音搜索优化方法的各步骤。
在一个实施例中,还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,可以实现上述的语音搜索优化的步骤:获取输入信号,并将输入信号与预置模板进行匹配分析;若存在与输入信号匹配的预置模板,则重置WFST网络的搜索状态;根据重置搜索状态后的WFST网络,对与输入信号匹配的预置模板进行前置搜索,获得与预置模板相对应的优化WFST网络;根据优化WFST网络,完成各帧的语音信号的搜索,得到搜索结果。
在其中一个实施例中,前述的计算机可读存储介质还可以实现上述各实施例中语音搜索方法的各步骤。
本领域普通技术人员可以理解,实现上述各实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
请参阅图5,在一个实施例中,还提供一种语音搜索系统200,包括语音识别装置22和模板匹配装置24。语音识别装置22和模板匹配装置24连接。
模板匹配装置24用于获取输入信号,并将输入信号与预置模板进行匹配分析;若存在与输入信号匹配的预置模板,则重置语音识别装置中的WFST网络的搜索状态,并向语音识别装置22发送与输入信号匹配的预置模板。语音识别装置22用于根据重置搜索状态后的WFST网络,对与输入信号匹配的预置模板进行前置搜索,获得与预置模板相对应的优化WFST网络;根据优化WFST网络,完成各帧的语音信号的搜索,得到搜索结果。
可以理解,上述的语音搜索系统200,可以是一台或者多台终端102组成的搜索系统,也可以是一台或者对台语音识别服务器组成的搜索系统,还可以是终端102与服务器组成的线上线下搜索系统,例如其中一种设置方式:模板匹配装置24设置为一种模板匹配控制的终端;语音识别装置22设置为识别搜索的服务器或者服务器系统。上述的语音识别装置22和模板匹配装置24可以通过系统总线或者无线的方式连接,以实现两者之间的数据传输等功能。语音识别装置22和模板匹配装置24可以是但不限于两个独立的硬件装置,例如语音识别装置22通过以AP处理器为主控器件,构建的语音识别物理服务器(或终端)。例如模板匹配装置24通过以DSP处理器为主控器件,构建的模板匹配控制终端。
通过语音识别装置22和模板匹配装置24,应用上述的语音搜索方法,在输入信号与任一个预置模板相匹配时,重置WFST网络的搜索状态,进而根据预置模板在重置搜索状态后的WFST网络中进行前置搜索,得到优化WFST网络;从而在优化WFST网络,对各帧的语音信号进行搜索,输出所有帧的语音信号的搜索结果,解决了传统的语音识别方式仍然存在识别准确率不高的问题,达到了大幅提升语音识别准确率的效果。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (12)
1.一种语音搜索优化方法,其特征在于,包括步骤:
获取输入信号,并将所述输入信号与预置模板进行匹配分析;
若存在与所述输入信号匹配的所述预置模板,则重置WFST网络的搜索状态;
根据重置搜索状态后的所述WFST网络,对与所述输入信号匹配的所述预置模板进行前置搜索,获得与所述预置模板相对应的优化WFST网络;
根据所述优化WFST网络,完成各帧的语音信号的搜索,得到搜索结果。
2.根据权利要求1所述的语音搜索优化方法,其特征在于,所述输入信号包括所述语音信号;将所述输入信号与预置模板进行匹配分析的过程,包括:
对所述语音信号进行特征提取,得到所述语音信号的声学特征信息;
将所述声学特征信息与所述预置模板的声学特征信息进行匹配。
3.根据权利要求2所述的语音搜索优化方法,其特征在于,将所述输入信号与预置模板进行匹配分析的过程,还包括:
对所述语音信号进行语音识别,得到识别结果;
将所述识别结果与所述预置模板进行匹配。
4.根据权利要求1至3任一项所述的语音搜索优化方法,其特征在于,若存在与所述输入信号匹配的预置模板,则重置WFST网络的搜索状态的步骤之前,还包括:
获取所述语音信号;
对所述语音信号进行特征提取,得到所述语音信号的声学特征信息;
根据所述声学特征信息,通过预先训练的声学模型对所述语音信号进行分类计算,得到所述语音信号的分类及对应的分类概率;其中,所述分类概率用于所述WFST网络对所述语音信号的搜索。
5.根据权利要求4所述的语音搜索优化方法,其特征在于,所述输入信号还包括所述声学特征信息;将所述输入信号与预置模板进行匹配分析的过程,还包括:
根据所述声学特征信息进行语音识别,得到识别结果;
将所述识别结果与所述预置模板进行匹配。
6.根据权利要求5所述的语音搜索优化方法,其特征在于,将所述输入信号与预置模板进行匹配分析的过程,还包括:
将所述声学特征信息与所述预置模板的声学特征信息进行匹配。
7.根据权利要求5所述的语音搜索优化方法,其特征在于,所述输入信号还包括所述WFST网络对所述语音信号搜索得到的阶段结果;将所述输入信号与预置模板进行匹配分析的过程,还包括:
将所述阶段结果与所述预置模板进行匹配。
8.根据权利要求1、2、3、5、6和7任一项所述的语音搜索方法,其特征在于,所述预置模板包括设定领域的词序列、词序列对应的声学特征信息或音素序列。
9.一种语音搜索优化装置,其特征在于,包括:
匹配分析模块,用于获取输入信号,并将所述输入信号与预置模板进行匹配分析;
搜索重置模块,用于若存在与所述输入信号匹配的预置模板,则重置WFST网络的搜索状态;
前置搜索模块,用于根据重置搜索状态后的所述WFST网络,对与所述输入信号匹配的预置模板进行前置搜索,获得与所述预置模板相对应的优化WFST网络;
搜索结果获取模块,用于根据所述优化WFST网络,完成各帧的语音信号的搜索,得到搜索结果。
10.一种语音搜索设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的语音搜索优化方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的语音搜索优化方法的步骤。
12.一种语音搜索系统,其特征在于,包括语音识别装置和模板匹配装置,所述语音识别装置与所述模板匹配装置连接;
所述模板匹配装置用于获取输入信号,并将所述输入信号与预置模板进行匹配分析;若存在与所述输入信号匹配的预置模板,则重置所述语音识别装置中的WFST网络的搜索状态,并向所述语音识别装置发送与所述输入信号匹配的预置模板;
所述语音识别装置用于根据重置搜索状态后的所述WFST网络,对与所述输入信号匹配的预置模板进行前置搜索,获得与所述预置模板相对应的优化WFST网络;根据所述优化WFST网络,完成各帧的语音信号的搜索,得到搜索结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810501682.2A CN108694939B (zh) | 2018-05-23 | 2018-05-23 | 语音搜索优化方法、装置和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810501682.2A CN108694939B (zh) | 2018-05-23 | 2018-05-23 | 语音搜索优化方法、装置和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108694939A true CN108694939A (zh) | 2018-10-23 |
CN108694939B CN108694939B (zh) | 2020-11-03 |
Family
ID=63847683
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810501682.2A Active CN108694939B (zh) | 2018-05-23 | 2018-05-23 | 语音搜索优化方法、装置和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108694939B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110047477A (zh) * | 2019-04-04 | 2019-07-23 | 北京清微智能科技有限公司 | 一种加权有限状态转换机的优化方法、设备以及系统 |
CN113096648A (zh) * | 2021-03-20 | 2021-07-09 | 杭州知存智能科技有限公司 | 用于语音识别的实时解码方法和装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08123479A (ja) * | 1994-10-26 | 1996-05-17 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 連続音声認識装置 |
CN1295705A (zh) * | 1998-03-30 | 2001-05-16 | 微软公司 | 基于语言模型的信息检索和语音识别 |
CN1153190C (zh) * | 1998-09-09 | 2004-06-09 | 单一声音技术公司 | 采用语音识别和自然语言处理的交互式用户界面 |
JP2011164336A (ja) * | 2010-02-09 | 2011-08-25 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置、重みベクトル学習装置、音声認識方法、重みベクトル学習方法、プログラム |
CN102376305A (zh) * | 2011-11-29 | 2012-03-14 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法及系统 |
CN103077708A (zh) * | 2012-12-27 | 2013-05-01 | 安徽科大讯飞信息科技股份有限公司 | 一种语音识别系统中拒识能力提升方法 |
CN103325370A (zh) * | 2013-07-01 | 2013-09-25 | 百度在线网络技术(北京)有限公司 | 语音识别方法和语音识别系统 |
CN103514882A (zh) * | 2012-06-30 | 2014-01-15 | 北京百度网讯科技有限公司 | 一种语音识别方法及系统 |
CN103971686A (zh) * | 2013-01-30 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 自动语音识别方法和系统 |
CN105609107A (zh) * | 2015-12-23 | 2016-05-25 | 北京奇虎科技有限公司 | 一种基于语音识别的文本处理方法和装置 |
CN106816148A (zh) * | 2015-11-30 | 2017-06-09 | 三星电子株式会社 | 语音识别设备和方法 |
-
2018
- 2018-05-23 CN CN201810501682.2A patent/CN108694939B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08123479A (ja) * | 1994-10-26 | 1996-05-17 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 連続音声認識装置 |
CN1295705A (zh) * | 1998-03-30 | 2001-05-16 | 微软公司 | 基于语言模型的信息检索和语音识别 |
CN1153190C (zh) * | 1998-09-09 | 2004-06-09 | 单一声音技术公司 | 采用语音识别和自然语言处理的交互式用户界面 |
JP2011164336A (ja) * | 2010-02-09 | 2011-08-25 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置、重みベクトル学習装置、音声認識方法、重みベクトル学習方法、プログラム |
CN102376305A (zh) * | 2011-11-29 | 2012-03-14 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法及系统 |
CN103514882A (zh) * | 2012-06-30 | 2014-01-15 | 北京百度网讯科技有限公司 | 一种语音识别方法及系统 |
CN103077708A (zh) * | 2012-12-27 | 2013-05-01 | 安徽科大讯飞信息科技股份有限公司 | 一种语音识别系统中拒识能力提升方法 |
CN103971686A (zh) * | 2013-01-30 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 自动语音识别方法和系统 |
CN103325370A (zh) * | 2013-07-01 | 2013-09-25 | 百度在线网络技术(北京)有限公司 | 语音识别方法和语音识别系统 |
CN106816148A (zh) * | 2015-11-30 | 2017-06-09 | 三星电子株式会社 | 语音识别设备和方法 |
CN105609107A (zh) * | 2015-12-23 | 2016-05-25 | 北京奇虎科技有限公司 | 一种基于语音识别的文本处理方法和装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110047477A (zh) * | 2019-04-04 | 2019-07-23 | 北京清微智能科技有限公司 | 一种加权有限状态转换机的优化方法、设备以及系统 |
CN110047477B (zh) * | 2019-04-04 | 2021-04-09 | 北京清微智能科技有限公司 | 一种加权有限状态转换机的优化方法、设备以及系统 |
CN113096648A (zh) * | 2021-03-20 | 2021-07-09 | 杭州知存智能科技有限公司 | 用于语音识别的实时解码方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108694939B (zh) | 2020-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110428809B (zh) | 语音音素识别方法和装置、存储介质及电子装置 | |
CN108182937B (zh) | 关键词识别方法、装置、设备及存储介质 | |
CN108447471A (zh) | 语音识别方法及语音识别装置 | |
CN108346427A (zh) | 一种语音识别方法、装置、设备及存储介质 | |
CN107632980A (zh) | 语音翻译方法和装置、用于语音翻译的装置 | |
CN111667814A (zh) | 一种多语种的语音合成方法及装置 | |
CN108711420A (zh) | 多语言混杂模型建立、数据获取方法及装置、电子设备 | |
CN112017645B (zh) | 一种语音识别方法及装置 | |
CN110335592B (zh) | 语音音素识别方法和装置、存储介质及电子装置 | |
CN107291690A (zh) | 标点添加方法和装置、用于标点添加的装置 | |
CN111445898B (zh) | 语种识别方法、装置、电子设备和存储介质 | |
CN110517664A (zh) | 多方言识别方法、装置、设备及可读存储介质 | |
CN109271533A (zh) | 一种多媒体文件检索方法 | |
CN107104994A (zh) | 语音识别方法、电子装置及语音识别系统 | |
CN107291704A (zh) | 处理方法和装置、用于处理的装置 | |
CN110544470B (zh) | 语音识别方法、装置、可读存储介质和电子设备 | |
CN108682415A (zh) | 语音搜索方法、装置和系统 | |
CN112116910A (zh) | 语音指令的识别方法和装置、存储介质、电子装置 | |
CN110955818A (zh) | 搜索方法、装置、终端设备及存储介质 | |
CN112632248A (zh) | 问答方法、装置、计算机设备和存储介质 | |
CN108694939A (zh) | 语音搜索优化方法、装置和系统 | |
CN113051384A (zh) | 基于对话的用户画像抽取方法及相关装置 | |
CN111833907A (zh) | 一种人机交互方法与终端、计算机可读存储介质 | |
CN110781329A (zh) | 图像搜索方法、装置、终端设备及存储介质 | |
CN111477212A (zh) | 内容识别、模型训练、数据处理方法、系统及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |