CN108682415A - 语音搜索方法、装置和系统 - Google Patents
语音搜索方法、装置和系统 Download PDFInfo
- Publication number
- CN108682415A CN108682415A CN201810501000.8A CN201810501000A CN108682415A CN 108682415 A CN108682415 A CN 108682415A CN 201810501000 A CN201810501000 A CN 201810501000A CN 108682415 A CN108682415 A CN 108682415A
- Authority
- CN
- China
- Prior art keywords
- search
- voice signal
- search result
- current generation
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000008569 process Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 13
- 235000013399 edible fruits Nutrition 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 8
- 230000005236 sound signal Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000037007 arousal Effects 0.000 description 1
- 230000005684 electric field Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/081—Search algorithms, e.g. Baum-Welch or Viterbi
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种语音搜索方法,包括:根据WFST网络和上一阶段搜索结果,对当前帧的语音信号进行搜索,获得当前阶段搜索结果;若当前阶段搜索结果与预置模板信息匹配,则重置WFST网络的搜索状态;根据当前阶段搜索结果匹配的预置模板信息,通过重置搜索状态后的WFST网络进行前置搜索,得到模板路径网络;根据模板路径网络和当前阶段搜索结果,对下一帧的语音信号进行搜索,直至输出所有帧的语音信号的搜索结果。还公开一种语音搜索系统。通过在阶段识别结果与预置模板信息匹配时,重置WFST网络搜索状态,进而根据预置模板信息在重置搜索状态后的WFST网络中进行前置搜索,得到并根据模板路径网络对下一帧的语音信号继续进行搜索。大幅提升了语音识别准确率。
Description
技术领域
本发明涉及语音识别技术领域,特别是涉及一种语音搜索方法、装置和系统。
背景技术
随着信息技术的不断革新,各种智能设备也在快速更新换代。作为众多智能设备的热门技术之一的语音识别技术,即是一种数据信息应用的典型代表。语音识别技术能够将给定的语音识别成对应的文字信息,因此,被广泛应用在各种智能交互设备上,例如智能交互设备的语音唤醒功能和语音助手等功能。
传统的语音识别方式,一般是将输入的语音信号按帧提取特征,并根据声学模型计算出相应分类的概率,搜索部分从WFST网络的开始节点,根据每帧的分类概率,逐帧搜索遍历直至完成全部语音输入帧的搜索,根据所得到的路径获取最终的识别结果。然而,发明人在实现本发明的过程中,发现传统的语音识别方式仍然存在识别准确率不高的问题。
发明内容
基于此,有必要针对传统的语音识别方式仍然存在识别准确率不高的问题,提供一种一种语音搜索系统、一种语音搜索装置和一种语音搜索系统。
为实现上述目的,本发明实施例采用以下技术方案:
一方面,本发明实施例提供一种语音搜索方法,包括:
根据WFST网络和上一阶段搜索结果,对当前帧的语音信号进行搜索,获得当前阶段搜索结果;
若所述当前阶段搜索结果与预置模板信息匹配,则重置所述WFST网络的搜索状态;
根据所述当前阶段搜索结果匹配的所述预置模板信息,通过重置搜索状态后的所述WFST网络进行前置搜索,得到模板路径网络;
根据所述模板路径网络和所述当前阶段搜索结果,对下一帧的语音信号进行搜索,直至输出所有帧的语音信号的搜索结果。
在其中一个实施例中,据所述当前阶段搜索结果匹配的所述预置模板信息,通过重置搜索状态后的所述WFST网络进行前置搜索,得到模板路径网络的步骤前,还包括:
若所述当前阶段搜索结果与所述预置模板信息失配,则对下一帧的所述语音信号,在所述WFST网络中继续进行搜索,得到下一阶段搜索结果。
在其中一个实施例中,根据WFST网络和上一阶段搜索结果,对当前帧的语音信号进行搜索,获得当前阶段搜索结果的步骤前,还包括:
获取所述语音信号;
对所述语音信号进行声学特征提取,得到声学特征信息;
根据所述声学特征信息,通过设定的声学模型对各帧的所述语音信号进行分类并确定对应的分类概率。
在其中一个实施例中,根据WFST网络和上一阶段搜索结果,对当前帧的语音信号进行搜索,获得当前阶段搜索结果的步骤,包括:
根据所述WFST网络和所述上一阶段搜索结果,基于当前帧的所述语音信号的分类概率,对当前帧的所述语音信号进行搜索,获得所述当前阶段搜索结果。
在其中一个实施例中,根据所述模板路径网络和所述当前阶段搜索结果,对下一帧的语音信号进行搜索的过程,包括:
根据所述模板路径网络和所述当前阶段搜索结果,基于下一帧的所述语音信号的分类概率,对下一帧的所述语音信号进行搜索。
在其中一个实施例中,对下一帧的语音信号进行搜索之后,还包括:
若下一帧的所述语音信号为中间帧的所述语音信号,则返回执行所述根据所述声学特征信息,通过设定的声学模型对各帧的所述语音信号进行分类并确定对应的分类概率的步骤。
在其中一个实施例中,所述预置模板信息包括设定领域的词序列、词序列对应的声学特征或音素序列。
另一方面,还提供一种语音搜索装置,包括:
第一搜索模块,用于根据WFST网络和上一阶段搜索结果,对当前帧的语音信号进行搜索,获得当前阶段搜索结果;
搜索重置模块,用于若所述当前阶段搜索结果与预置模板信息匹配,则重置所述WFST网络的搜索状态;
模板搜索模块,用于根据所述当前阶段搜索结果匹配的所述预置模板信息,通过重置搜索状态后的所述WFST网络进行前置搜索,得到模板路径网络;
第二搜索模块,用于根据所述模板路径网络和所述当前阶段搜索结果,对下一帧的语音信号进行搜索,直至输出所有帧的语音信号的搜索结果。
又一方面,还提供一种语音搜索设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述的语音搜索方法的步骤。
再一方面,还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的语音搜索方法的步骤。
再一方面,还提供一种语音搜索系统,包括服务器和终端,所述服务器与所述终端通信连接;
所述终端用于向所述服务器发送待识别的语音信号;
所述服务器用于根据WFST网络和上一阶段搜索结果,对当前帧的所述语音信号进行搜索,获得当前阶段搜索结果;若所述当前阶段搜索结果与预置模板信息匹配,则重置所述WFST网络的搜索状态;
根据所述当前阶段搜索结果匹配的所述预置模板信息,通过重置搜索状态后的所述WFST网络进行前置搜索,得到模板路径网络;根据所述模板路径网络和所述当前阶段搜索结果,对下一帧的语音信号进行搜索,直至输出所有帧的语音信号的搜索结果,并将所述搜索结果发送到所述终端。
上述技术方案中的一个技术方案具有如下有益效果:
通过将对语音信号单帧搜索过程中所得的阶段识别结果,与预置模板信息进行匹配,并在阶段识别结果与预置模板信息匹配时,重置WFST网络的搜索状态,进而根据预置模板信息在重置搜索状态后的所述WFST网络中进行前置搜索,得到模板路径网络;从而根据模板路径网络和当前阶段搜索结果,对下一帧的语音信号继续进行搜索,如此,直到输出所有帧的语音信号的搜索结果,解决了传统的语音识别方式仍然存在识别准确率不高的问题,达到了大幅提升语音识别准确率的效果。
附图说明
图1为一个实施例中语音搜索方法的应用环境图;
图2为一个实施例中语音搜索方法的流程示意图;
图3为另一个实施例中语音搜索方法的流程示意图;
图4为又一个实施例中语音搜索方法的流程示意图;
图5为一个实施例中语音搜索装置的结构框图;
图6为一个实施例中语音搜索系统的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本申请提供的语音搜索方法,可以应用于如图1所示的应用环境中。其中,终端102通过数据网络或无线网络连接到外部通信网,或者离线工作。终端102在对用户输入的语音信号在预先构建的WFST网络中,进行解码搜索的过程中,可以根据WFST网络和上一阶段搜索结果,对当前帧的语音信号进行搜索,获得当前阶段搜索结果,也即搜索过程持续到当前时刻的一个中间的搜索结果。若终端102判断到当前阶段搜索结果,与预先载入的预置模板信息相匹配,则终端102重置WFST网络的搜索状态。进而,终端102可以根据当前阶段搜索结果匹配的预置模板信息,通过重置搜索状态后的WFST网络进行前置搜索,得到模板路径网络。最后,终端102可以根据模板路径网络和当前阶段搜索结果,对下一帧的语音信号进行搜索,如此循环,直至输出所有帧的语音信号的搜索结果。其中,终端102可以是但不限于各种智能手机、个人计算机、笔记本电脑、平板电脑、智能家电设备和车载智能终端设备。
本申请提供的语音搜索方法,还可以应用于服务器上,由服务器在对输入的语音信号进行解码搜索的过程中,根据上述的语音搜索方法完成各帧语音信号的搜索并输出搜索结果,具体过程可以参考前述在终端102的应用过程,此处不再赘述。
在一个实施例中,请参阅图2,提供了一种语音搜索方法,以该方法应用于图1中的终端102为例进行说明。可以理解,在一般的语音信号的识别过程中,可以将输入终端102的语音信号输入到预先构建的WFST网络中进行解码搜索。随着用户说出一段语音,WFST网络可以持续获得语音信号输入,从而持续得到相应的语音搜索的中间结果,也即阶段性的搜索结果;直至用户说出的语音全部输入到WFST网络中,得到最终完整的搜索结果。也即是说,在WFST网络中,随着语音信号的不断输入,到当前节点的搜索结果是从上一状态节点跳转而来,而当前节点也将会成为下一节点搜索的状态起点。从而随着语音信号的输入,WFST网络中搜索的状态节点不断向前跳转,直至到达语音输入结束时的最终状态节点,得到语音搜索结果输出,完成整个语音识别过程。
如图2所示,上述的语音搜索方法,包括如下步骤S12至S18:
S12,根据WFST网络和上一阶段搜索结果,对当前帧的语音信号进行搜索,获得当前阶段搜索结果。
可以理解,WFST网络是基于预先训练好的语言模型生成的WFST解码网络,可以通过本领域常规的语言模型训练和生成WFST网络的方法获得。上一阶段搜索结果为WFST网络中,当前状态节点的上一个概率最大的状态节点所对应的搜索结果,可以是得到上一个概率最大的状态节点时、对应所有已输入的各帧语音信号的搜索结果。当前帧的语音信号为当前时刻输入到WFST网络进行搜索的一个单帧语音信号,上一个概率最大的状态节点继续往前搜索,得到概率最大的一个当前状态节点,从而得到对应当前状态节点对应的帧语音信号,以及此前所有已输入的各帧语音信号的当前阶段搜索结果。
S14,若当前阶段搜索结果与预置模板信息匹配,则重置WFST网络的搜索状态。
可以理解,预置模板信息为预先设置到终端102中的搜索模板信息,用于终端102对当前阶段搜索阶段进行模板匹配判断,可以是但不限于文本形式的模板信息。上述的匹配可以是当前阶段搜索结果中的部分信息或者全部信息,与预置模板信息相同,或者相似度达到设定预置及以上,例如当前阶段搜索结果中的部分信息或者全部信息,与预置模板信息的相似度计算结果为95%,相似度计算的方法可以是本领域中常规的相似度计算方法,本说明书中不作限定。
S16,根据当前阶段搜索结果匹配的预置模板信息,通过重置搜索状态后的WFST网络进行前置搜索,得到模板路径网络。
可以理解,前置搜索是将与当前阶段搜索结果相匹配的预置模板信息,输入到重置搜索状态后的WFST网络进行搜索的过程。模板路径网络为对应于预置模板信息的搜索路径网络,可以用于对后续输入的语音信号的解码搜索输出。
S18,根据模板路径网络和当前阶段搜索结果,对下一帧的语音信号进行搜索,直至输出所有帧的语音信号的搜索结果。
具体的,终端102可以在WFST网络中,以上一阶段搜索结果为搜索起点,对当前帧的输入语音信号进行前向搜索,得到当前阶段搜索结果。终端102对得到的当前阶段搜索结果与预置模板信息进行比较判断,判断到当前阶段搜索结果与任一个预置模板信息相匹配时,可以将当前阶段搜索结果提取出来,重置WFST网络的搜索状态,也即将WFST网络到当前时刻为止,所得的状态节点丢弃,回到WFST网络初始的搜索状态节点。进而,终端102可以根据与当前阶段搜索结果相匹配的预置模板信息,通过重置搜索状态后的WFST网络进行搜索,得到对应于该预置模板信息的搜索路径网络,也即得到上述的模板路径网络。终端102可以根据得到的模板路径网络和当前阶段搜索结果,对输入的下一帧的语音信号进行搜索,得到下一阶段搜索结果,如此循环,直到输出所有帧的语音信号的搜索结果,也即得到整个语音信号的最终搜索结果输出,完成整个语音识别过程。
通过上述的步骤S12至S18,将对语音信号单帧搜索过程中所得的阶段识别结果,与预置模板信息进行匹配,并在阶段识别结果与预置模板信息匹配时,重置WFST网络的搜索状态,进而根据预置模板信息在重置搜索状态后的WFST网络中进行前置搜索,得到模板路径网络;从而根据模板路径网络和当前阶段搜索结果,对下一帧的语音信号继续进行搜索。如此循环搜索,直到输出所有帧的语音信号的搜索结果,解决了传统的语音识别方式仍然存在识别准确率不高的问题,达到了大幅提升语音识别准确率的效果。
在其中一个实施例中,本说明书中的预置模板信息可以包括设定领域的词序列、词序列对应的声学特征或音素序列。
可以理解,设定领域可以是终端102所应用的领域,或者服务的用户所在的领域,例如可以是通讯领域、家庭电气领域、汽车领域或其他语言习惯区别明显的领域。词序列例如是“打开xxx”、“打电话给xxx”或其他类型、领域的模板序列。词序列对应的声学特征可以是本领域中常规的通过预训练的声学模型对词序列进行声学特征提取,得到对应词序列的声学特征信息。音素序列可以是本领域中常规的通过预训练的声学模型对词序列进行声学特征提取,得到对应词序列的音素序列,例如“da kai xxx”或“da dian hua gei xxx”等形式。
具体的,终端102可以通过将得到的阶段搜索结果,例如词序列与各个预置模板信息的词序列,或者对应的声学特征与各个预置模板信息的声学特征,又或者对应的音素序列与各个预置模板信息的音素序列进行比较判断,例如通过文字比较、相似度计算等方式比较判断,以判断所得的阶段识别结果中,是否存在匹配任一个预置模板信息的搜索结果。从而在判断到阶段搜索结果中匹配各预置模板信息中的一个时,通过上述的步骤S14至S18,对下一帧的语音信号进行搜索输出,可以大幅提高对应语音信号的识别准确率,例如在手机或其他智能终端等终端102上,用户对着终端102说出“打电话给xxx”,终端102可以将输出的“xxx”限制在通讯录等与电话相关的信息上,而不会给出地名相关的结果。
请参阅图3,在其中一个实施例中,对于上述的步骤S12之前,还可以包括如下步骤S09至S11:
S09,获取语音信号;S10,对语音信号进行声学特征提取,得到声学特征信息;S11,根据声学特征信息,通过设定的声学模型对各帧的语音信号进行分类并确定对应的分类概率。
可以理解,设定的声学模型可以根据本领域常规的声学模型训练方法,预先训练得到,例如隐马尔可夫模型,本说明书中不做限定。
具体的,终端102可以通过本领域常规的语音信号采集技术,例如可以通过声音接收器直接监听用户输入的语音信号,完成输入语音信号的获取。也可以通过接收其他终端或者服务器发送过来的语音信号,完成输入语音信号的获取。终端102可以通过本领域常规的声学特征提取方法对获得的语音信号进行特征提取,例如MFCC特征提取,得到语音信号的声学特征信息。进而,终端102可以根据得到的声学特征信息,通过设定的声学模型对各帧的语音信号进行分类,并计算确定各分类的分类概率。
通过上述的特征提取和分类计算,可以在WFST网络对各帧语音信号进行搜索时,基于各帧的分类概率进行前向搜索,提高搜索准确率和搜索速度。
在其中一个实施例中,对于步骤S12,具体可以包括步骤:根据所述WFST网络和上一阶段搜索结果,基于当前帧的语音信号的分类概率,对当前帧的语音信号进行搜索,获得当前阶段搜索结果。
具体的,终端102可以在对当前帧的语音信号进行搜索时,在WFST网络中,根据上一阶段搜索结果,并基于当前帧的语音信号的分类概率,对当前帧的语音信号进行搜索,得到截至当前时刻,所有已输入帧的语音信号的当前阶段搜索结果。通过上述的步骤,可以减少WFST网络中对当前帧的语音信号进行搜索时,历经的搜索路径,提高搜索准确率和搜索输出的速度。
在其中一个实施例中,对于步骤S18中,根据模板路径网络和当前阶段搜索结果,对下一帧的语音信号进行搜索的过程,具体可以包括过程:根据模板路径网络和当前阶段搜索结果,基于下一帧的语音信号的分类概率,对下一帧的语音信号进行搜索。
具体的,终端102可以在对下一帧的语音信号进行搜索时,在WFST网络中,根据当前阶段搜索结果,并基于下一帧的语音信号的分类概率,对下一帧的语音信号进行搜索。可以理解,终端102在对各帧语音信号,在WFST网络中(可以包括重置搜索状态之前的WFST网络和重置搜索状态后的WFST网络)进行搜索时,均可以基于各帧语音信号的分类概率进行搜索。通过上述的步骤,可以减少WFST网络中对下一帧的语音信号进行搜索时,历经的搜索路径,提高搜索准确率和搜索输出的速度。
请参阅4,在其中一个实施例中,步骤S16之前,还可以包括步骤S15:
S15,若当前阶段搜索结果与预置模板信息失配,则对下一帧的语音信号,在WFST网络中继续进行搜索,得到下一阶段搜索结果。
具体的,当终端102判断到当前阶段搜索结果,与各个预置模板信息均不匹配时,则对下一帧输入的语音信号在当前的WFST网络中,以当前阶段搜索结果的搜索状态为起点,继续向前搜索,到达下一个概率最大的状态节点,得到下一阶段搜索结果。如此,在当前阶段搜索结果与各个预置模板信息失配时,可以在当前阶段的WFST网络中继续向前搜索,以快速得到下一阶段搜索结果,从而方便下一阶段搜索结果与各预置模板信息进行比较判断。确保语音信号搜索持续稳定进行同时,利于提高搜索效率。
在其中一个实施例中,对于步骤S18中,对下一帧的语音信号进行搜索之后,还可以包括如下过程:若下一帧的语音信号为中间帧的语音信号,则返回执行根据声学特征信息,通过设定的声学模型对各帧的语音信号进行分类并确定对应的分类概率的步骤。
可以理解,中间帧的语音信号可以语音信号的首帧及末帧的语音信号之间的各帧语音信号。
具体的,终端102在对下一帧的语音信号进行搜索,得到下一阶段搜索结果后,若判断到该下一帧的语音信号之后,还有继续输入的语音信号,也即判断到该下一帧的语音信号仍然属于中间帧的语音信号时,可以返回执行上述的步骤S11。从而,终端102中将会对该下一帧的语音信号的后一帧语音信号,执行确定分类概率及后续的各处理步骤。如此,通过上述的各个步骤及循环执行,直到完成末帧的语音信号的搜索后,输出整个语音信号的最终的搜索结果。可以理解,对于上述的步骤S15之后,可以同理理解,此处不再赘述。通过上述的各个步骤,可以快速输出语音信号的最终的搜索结果输出,搜索结果准确率可以得到答复提升。
请参阅图5,在一个实施例中,还提供一种语音搜索装置100,包括第一搜索模块12、搜索重置模块14、模板搜索模块16和第二搜索模块18。第一搜索模块12用于根据WFST网络和上一阶段搜索结果,对当前帧的语音信号进行搜索,获得当前阶段搜索结果。搜索重置模块14用于若当前阶段搜索结果与预置模板信息匹配,则重置WFST网络的搜索状态。模板搜索模块16用于根据当前阶段搜索结果匹配的预置模板信息,通过重置搜索状态后的WFST网络进行前置搜索,得到模板路径网络。第二搜索模块18用于根据模板路径网络和当前阶段搜索结果,对下一帧的语音信号进行搜索,直至输出所有帧的语音信号的搜索结果。
通过上述的各模块,将对语音信号单帧搜索过程中所得的阶段识别结果,与预置模板信息进行匹配,并在阶段识别结果与预置模板信息匹配时,重置WFST网络的搜索状态,进而根据预置模板信息在重置搜索状态后的WFST网络中进行前置搜索,得到模板路径网络;从而根据模板路径网络和当前阶段搜索结果,对下一帧的语音信号继续进行搜索。如此循环搜索,直到输出所有帧的语音信号的搜索结果,解决了传统的语音识别方式仍然存在识别准确率不高的问题,达到了大幅提升语音识别准确率的效果。
在其中一个实施例中,上述的语音搜索装置100,还可以通过各相应的模块实现上述各实施例中语音搜索方法的各步骤。
在一个实施例中,还提供一种语音搜索设备,该语音搜索设备可以是终端,该语音搜索设备可以包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该语音搜索设备的处理器用于提供计算和控制能力。该语音搜索设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该语音搜索设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时,可以实现上述的语音搜索方法的步骤:根据WFST网络和上一阶段搜索结果,对当前帧的语音信号进行搜索,获得当前阶段搜索结果;若当前阶段搜索结果与预置模板信息匹配,则重置WFST网络的搜索状态;根据当前阶段搜索结果匹配的预置模板信息,通过重置搜索状态后的WFST网络进行前置搜索,得到模板路径网络;根据模板路径网络和当前阶段搜索结果,对下一帧的语音信号进行搜索,直至输出所有帧的语音信号的搜索结果。
上述的语音搜索设备的显示屏可以是液晶显示屏、LED显示屏或者电子墨水显示屏,该语音搜索设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
在其中一个实施例中,上述的语音搜索设备还可以实现上述各实施例中语音搜索方法的各步骤。
在一个实施例中,还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,可以实现上述的语音搜索方法的步骤:根据WFST网络和上一阶段搜索结果,对当前帧的语音信号进行搜索,获得当前阶段搜索结果;若当前阶段搜索结果与预置模板信息匹配,则重置WFST网络的搜索状态;根据当前阶段搜索结果匹配的预置模板信息,通过重置搜索状态后的WFST网络进行前置搜索,得到模板路径网络;根据模板路径网络和当前阶段搜索结果,对下一帧的语音信号进行搜索,直至输出所有帧的语音信号的搜索结果。
在其中一个实施例中,前述的计算机可读存储介质还可以实现上述各实施例中语音搜索方法的各步骤。
本领域普通技术人员可以理解,实现上述各实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
请参阅图6,在一个实施例中,还提供一种语音搜索系统200,包括服务器22和终端102。服务器22与终端102通信连接。终端102用于向服务器22发送待识别的语音信号。服务器22用于根据WFST网络和上一阶段搜索结果,对当前帧的语音信号进行搜索,获得当前阶段搜索结果。若当前阶段搜索结果与预置模板信息匹配,则重置WFST网络的搜索状态。进而,服务器22可以根据当前阶段搜索结果匹配的预置模板信息,通过重置搜索状态后的WFST网络进行前置搜索,得到模板路径网络。根据模板路径网络和当前阶段搜索结果,对下一帧的语音信号进行搜索,直至输出所有帧的语音信号的搜索结果,并将搜索结果发送到终端102。
可以理解,本实施例中的服务器22可以是物理服务,也可以是云服务器,还可以时物理服务器与云服务器组合构成的语音识别服务器组。服务器22的数量可以是一台,也可以是多台,具体设置可以根据服务的终端102的数量以及处理的语音信号的数据量大小确定。
具体的,可以通过将预先构建的WFST网络部署到服务器22上,从而一个或者多个终端102可以在获得用户输入的待识别语音信号后,发送到服务器22,由服务器22通过上述各实施例中的语音搜索方法的各步骤,获得对应于输入的语音信号的最终搜索结果,并回传到终端102上。
通过服务器22和终端102,应用上述的语音搜索方法,服务器22可以将对语音信号单帧搜索过程中所得的阶段识别结果,与预置模板信息进行匹配,并在阶段识别结果与预置模板信息匹配时,重置WFST网络的搜索状态,进而根据预置模板信息在重置搜索状态后的WFST网络中进行前置搜索,得到模板路径网络;从而根据模板路径网络和当前阶段搜索结果,对下一帧的语音信号继续进行搜索。如此循环搜索,直到输出所有帧的语音信号的搜索结果,回传给终端102,解决了传统的语音识别方式仍然存在识别准确率不高的问题,达到了大幅提升语音识别准确率的效果。此外,通过将上述的语音搜索过程设置在服务器22上完成,提升语音识别输出的速度和准确率同时,减少语音识别的模型数据以及搜索过程的执行,对终端102的系统资源的占用,提高用户体验。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (11)
1.一种语音搜索方法,其特征在于,包括:
根据WFST网络和上一阶段搜索结果,对当前帧的语音信号进行搜索,获得当前阶段搜索结果;
若所述当前阶段搜索结果与预置模板信息匹配,则重置所述WFST网络的搜索状态;
根据所述当前阶段搜索结果匹配的所述预置模板信息,通过重置搜索状态后的所述WFST网络进行前置搜索,得到模板路径网络;
根据所述模板路径网络和所述当前阶段搜索结果,对下一帧的语音信号进行搜索,直至输出所有帧的语音信号的搜索结果。
2.根据权利要求1所述的语音搜索方法,其特征在于,根据所述当前阶段搜索结果匹配的所述预置模板信息,通过重置搜索状态后的所述WFST网络进行前置搜索,得到模板路径网络的步骤前,还包括:
若所述当前阶段搜索结果与所述预置模板信息失配,则对下一帧的所述语音信号,在所述WFST网络中继续进行搜索,得到下一阶段搜索结果。
3.根据权利要求1所述的语音搜索方法,其特征在于,根据WFST网络和上一阶段搜索结果,对当前帧的语音信号进行搜索,获得当前阶段搜索结果的步骤前,还包括:
获取所述语音信号;
对所述语音信号进行声学特征提取,得到声学特征信息;
根据所述声学特征信息,通过设定的声学模型对各帧的所述语音信号进行分类并确定对应的分类概率。
4.根据权利要求3所述的语音搜索方法,其特征在于,根据WFST网络和上一阶段搜索结果,对当前帧的语音信号进行搜索,获得当前阶段搜索结果的步骤,包括:
根据所述WFST网络和所述上一阶段搜索结果,基于当前帧的所述语音信号的分类概率,对当前帧的所述语音信号进行搜索,获得所述当前阶段搜索结果。
5.根据权利要求3所述的语音搜索方法,其特征在于,根据所述模板路径网络和所述当前阶段搜索结果,对下一帧的语音信号进行搜索的过程,包括:
根据所述模板路径网络和所述当前阶段搜索结果,基于下一帧的所述语音信号的分类概率,对下一帧的所述语音信号进行搜索。
6.根据权利要求5所述的语音搜索方法,其特征在于,对下一帧的语音信号进行搜索之后,还包括:
若下一帧的所述语音信号为中间帧的所述语音信号,则返回执行所述根据所述声学特征信息,通过设定的声学模型对各帧的所述语音信号进行分类并确定对应的分类概率的步骤。
7.根据权利要求1或2所述的语音搜索方法,其特征在于,所述预置模板信息包括设定领域的词序列、词序列对应的声学特征或音素序列。
8.一种语音搜索装置,其特征在于,包括:
第一搜索模块,用于根据WFST网络和上一阶段搜索结果,对当前帧的语音信号进行搜索,获得当前阶段搜索结果;
搜索重置模块,用于若所述当前阶段搜索结果与预置模板信息匹配,则重置所述WFST网络的搜索状态;
模板搜索模块,用于根据所述当前阶段搜索结果匹配的所述预置模板信息,通过重置搜索状态后的所述WFST网络进行前置搜索,得到模板路径网络;
第二搜索模块,用于根据所述模板路径网络和所述当前阶段搜索结果,对下一帧的语音信号进行搜索,直至输出所有帧的语音信号的搜索结果。
9.一种语音搜索设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的语音搜索方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的语音搜索方法的步骤。
11.一种语音搜索系统,其特征在于,包括服务器和终端,所述服务器与所述终端通信连接;
所述终端用于向所述服务器发送待识别的语音信号;
所述服务器用于根据WFST网络和上一阶段搜索结果,对当前帧的所述语音信号进行搜索,获得当前阶段搜索结果;若所述当前阶段搜索结果与预置模板信息匹配,则重置所述WFST网络的搜索状态;
根据所述当前阶段搜索结果匹配的所述预置模板信息,通过重置搜索状态后的所述WFST网络进行前置搜索,得到模板路径网络;根据所述模板路径网络和所述当前阶段搜索结果,对下一帧的语音信号进行搜索,直至输出所有帧的语音信号的搜索结果,并将所述搜索结果发送到所述终端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810501000.8A CN108682415B (zh) | 2018-05-23 | 2018-05-23 | 语音搜索方法、装置和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810501000.8A CN108682415B (zh) | 2018-05-23 | 2018-05-23 | 语音搜索方法、装置和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108682415A true CN108682415A (zh) | 2018-10-19 |
CN108682415B CN108682415B (zh) | 2020-09-29 |
Family
ID=63808100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810501000.8A Expired - Fee Related CN108682415B (zh) | 2018-05-23 | 2018-05-23 | 语音搜索方法、装置和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108682415B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020119351A1 (zh) * | 2018-12-14 | 2020-06-18 | 腾讯科技(深圳)有限公司 | 语音解码方法、装置、计算机设备及存储介质 |
CN112199587A (zh) * | 2020-09-29 | 2021-01-08 | 上海博泰悦臻电子设备制造有限公司 | 搜索方法、装置、电子设备及存储介质 |
CN113096648A (zh) * | 2021-03-20 | 2021-07-09 | 杭州知存智能科技有限公司 | 用于语音识别的实时解码方法和装置 |
CN113223495A (zh) * | 2021-04-25 | 2021-08-06 | 北京三快在线科技有限公司 | 一种基于语音识别的异常检测方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1346112A (zh) * | 2000-09-27 | 2002-04-24 | 中国科学院自动化研究所 | 汉语连续语音识别的集成预测搜索方法 |
CN101192404A (zh) * | 2006-11-28 | 2008-06-04 | 国际商业机器公司 | 用于识别被输入的语音的重音的系统和方法 |
CN101510222A (zh) * | 2009-02-20 | 2009-08-19 | 北京大学 | 一种多层索引语音文档检索方法及其系统 |
JP2011164336A (ja) * | 2010-02-09 | 2011-08-25 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置、重みベクトル学習装置、音声認識方法、重みベクトル学習方法、プログラム |
CN102592595A (zh) * | 2012-03-19 | 2012-07-18 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法及系统 |
CN103903619A (zh) * | 2012-12-28 | 2014-07-02 | 安徽科大讯飞信息科技股份有限公司 | 一种提高语音识别准确率的方法及系统 |
CN103956169A (zh) * | 2014-04-17 | 2014-07-30 | 北京搜狗科技发展有限公司 | 一种语音输入方法、装置和系统 |
CN104143329A (zh) * | 2013-08-19 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 进行语音关键词检索的方法及装置 |
CN106816148A (zh) * | 2015-11-30 | 2017-06-09 | 三星电子株式会社 | 语音识别设备和方法 |
-
2018
- 2018-05-23 CN CN201810501000.8A patent/CN108682415B/zh not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1346112A (zh) * | 2000-09-27 | 2002-04-24 | 中国科学院自动化研究所 | 汉语连续语音识别的集成预测搜索方法 |
CN101192404A (zh) * | 2006-11-28 | 2008-06-04 | 国际商业机器公司 | 用于识别被输入的语音的重音的系统和方法 |
CN101510222A (zh) * | 2009-02-20 | 2009-08-19 | 北京大学 | 一种多层索引语音文档检索方法及其系统 |
JP2011164336A (ja) * | 2010-02-09 | 2011-08-25 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置、重みベクトル学習装置、音声認識方法、重みベクトル学習方法、プログラム |
CN102592595A (zh) * | 2012-03-19 | 2012-07-18 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法及系统 |
CN103903619A (zh) * | 2012-12-28 | 2014-07-02 | 安徽科大讯飞信息科技股份有限公司 | 一种提高语音识别准确率的方法及系统 |
CN104143329A (zh) * | 2013-08-19 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 进行语音关键词检索的方法及装置 |
CN103956169A (zh) * | 2014-04-17 | 2014-07-30 | 北京搜狗科技发展有限公司 | 一种语音输入方法、装置和系统 |
CN106816148A (zh) * | 2015-11-30 | 2017-06-09 | 三星电子株式会社 | 语音识别设备和方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020119351A1 (zh) * | 2018-12-14 | 2020-06-18 | 腾讯科技(深圳)有限公司 | 语音解码方法、装置、计算机设备及存储介质 |
US11935517B2 (en) | 2018-12-14 | 2024-03-19 | Tencent Technology (Shenzhen) Company Limited | Speech decoding method and apparatus, computer device, and storage medium |
CN112199587A (zh) * | 2020-09-29 | 2021-01-08 | 上海博泰悦臻电子设备制造有限公司 | 搜索方法、装置、电子设备及存储介质 |
CN113096648A (zh) * | 2021-03-20 | 2021-07-09 | 杭州知存智能科技有限公司 | 用于语音识别的实时解码方法和装置 |
CN113223495A (zh) * | 2021-04-25 | 2021-08-06 | 北京三快在线科技有限公司 | 一种基于语音识别的异常检测方法及装置 |
CN113223495B (zh) * | 2021-04-25 | 2022-08-26 | 北京三快在线科技有限公司 | 一种基于语音识别的异常检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108682415B (zh) | 2020-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7150770B2 (ja) | 対話方法、装置、コンピュータ可読記憶媒体、及びプログラム | |
CN108305617B (zh) | 语音关键词的识别方法和装置 | |
CN108182937B (zh) | 关键词识别方法、装置、设备及存储介质 | |
CN108682415A (zh) | 语音搜索方法、装置和系统 | |
CN108447471A (zh) | 语音识别方法及语音识别装置 | |
CN108364662B (zh) | 基于成对鉴别任务的语音情感识别方法与系统 | |
CN107644638A (zh) | 语音识别方法、装置、终端和计算机可读存储介质 | |
CN108899013A (zh) | 语音搜索方法、装置和语音识别系统 | |
CN108281139A (zh) | 语音转写方法和装置、机器人 | |
CN110335592B (zh) | 语音音素识别方法和装置、存储介质及电子装置 | |
CN109741735A (zh) | 一种建模方法、声学模型的获取方法和装置 | |
KR20210052036A (ko) | 복수 의도어 획득을 위한 합성곱 신경망을 가진 장치 및 그 방법 | |
CN112017645A (zh) | 一种语音识别方法及装置 | |
CN107104994A (zh) | 语音识别方法、电子装置及语音识别系统 | |
CN108922543A (zh) | 模型库建立方法、语音识别方法、装置、设备及介质 | |
CN107291704A (zh) | 处理方法和装置、用于处理的装置 | |
CN111179910A (zh) | 语速识别方法和装置、服务器、计算机可读存储介质 | |
CN112364622A (zh) | 对话文本分析方法、装置、电子装置及存储介质 | |
CN112632248A (zh) | 问答方法、装置、计算机设备和存储介质 | |
CN113327575B (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
CN114360510A (zh) | 一种语音识别方法和相关装置 | |
WO2024093578A1 (zh) | 语音识别方法、装置、电子设备、存储介质及计算机程序产品 | |
CN108694939A (zh) | 语音搜索优化方法、装置和系统 | |
CN113823265A (zh) | 一种语音识别方法、装置和计算机设备 | |
CN111833907A (zh) | 一种人机交互方法与终端、计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200929 Termination date: 20210523 |
|
CF01 | Termination of patent right due to non-payment of annual fee |