CN105632487A - 一种语音识别方法和装置 - Google Patents
一种语音识别方法和装置 Download PDFInfo
- Publication number
- CN105632487A CN105632487A CN201511032702.9A CN201511032702A CN105632487A CN 105632487 A CN105632487 A CN 105632487A CN 201511032702 A CN201511032702 A CN 201511032702A CN 105632487 A CN105632487 A CN 105632487A
- Authority
- CN
- China
- Prior art keywords
- voice messaging
- identified
- key word
- word information
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000001514 detection method Methods 0.000 claims description 31
- 239000000945 filler Substances 0.000 claims description 15
- 239000002131 composite material Substances 0.000 claims description 4
- 230000008569 process Effects 0.000 description 22
- 238000012549 training Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 230000013011 mating Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 241000282376 Panthera tigris Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供了一种语音识别方法和装置。其中,方法包括:检测接收到的待识别语音信息中是否包括命令关键词信息;若包括,则将所述待识别语音信息划分为所述命令关键词信息和未知内容信息两部分;确定所述命令关键词信息对应的命令识别结果;利用语音识别引擎对所述未知内容信息进行识别,得到内容识别结果;将所述命令识别结果和所述内容识别结果进行组合后作为对所述待识别语音信息的识别结果。本发明的识别结果更加准确,并且无需关心通用语音识别引擎的内部结构,不需要重新训练语言模型,既可以直接应用通用语音识别引擎,又能一定程度解决语言模型失配导致的性能问题。
Description
技术领域
本发明涉及语音识别技术领域,特别是涉及一种语音识别方法和装置。
背景技术
随着科技的迅速发展,语音识别技术取得显著进步,逐渐进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别技术能够使用户无需手动按键,实现命令和控制,方便用户交互。
语音识别系统需要大量音频和文本的语料,在语料等条件限制不足以训练某一领域的垂直语音识别系统时,利用已有公开的通用识别引擎不失为一种选择。但是通用语音识别的语言模型与垂直领域的语言模型存在较大的差异,从而导致某一领域的语音识别引擎在另一领域不能满足需求。例如,将通用的连续语音识别引擎直接用于爱奇艺视频搜索的语音助手就会有性能瓶颈,在视频垂直领域中用户在通过语音命令控制搜索或播放视频时,由于语音命令的特殊性,例如,前缀动词与后面视频内容的连接在通用语法不常见,使得其语言模型与通用语言模型有较大的差异性,从而导致对语音的识别结果不准确,比如,“播放绿箭侠”可能会被识别为“播放列表卡”,因为“播放”后面连接“绿”字的概率较低,此外,“查找虎妈猫爸”可能会被识别为“查找出了猫大”,“播放泰囧”可能会被识别为“播状态井”,等等。
因此,现有技术中采用通用语音识别引擎对语音进行识别的准确性较差。
发明内容
本发明提供一种语音识别方法和装置,以解决现有技术中采用通用语音识别引擎对语音进行识别的准确性较差的问题。
为了解决上述问题,本发明公开了一种语音识别方法,包括:
检测接收到的待识别语音信息中是否包括命令关键词信息;
若包括,则将所述待识别语音信息划分为所述命令关键词信息和未知内容信息两部分;
确定所述命令关键词信息对应的命令识别结果;
利用语音识别引擎对所述未知内容信息进行识别,得到内容识别结果;
将所述命令识别结果和所述内容识别结果进行组合后作为对所述待识别语音信息的识别结果。
优选地,所述检测接收到的待识别语音信息中是否包括命令关键词信息的步骤包括:
将接收到的待识别语音信息分别与预设的关键词信息库中包括的多个关键词模型和垃圾模型进行匹配;
若检测到与所述待识别语音信息中某时间段的语音信息相匹配的关键词模型,则确定所述待识别语音信息中包括命令关键词信息。
优选地,所述关键词信息库中还包括所述关键词模型各自对应的文本信息;
所述确定所述命令关键词信息对应的命令识别结果的步骤,包括:
将所述相匹配的关键词模型对应的文本信息作为所述命令关键词信息对应的命令识别结果。
优选地,所述将所述待识别语音信息划分为所述命令关键词信息和未知内容信息两部分的步骤,包括:
获取所述命令关键词信息在所述待识别语音信息中的起始时间和结束时间;
将所述待识别语音信息中所述起始时间和所述结束时间对应时间段的语音信息作为命令关键词信息,将所述待识别语音信息中除所述起始时间和所述结束时间对应时间段的语音信息之外的剩余时间段的语音信息作为未知内容信息。
优选地,在所述检测接收到的待识别语音信息中是否包括命令关键词信息的步骤之后,还包括:
若不包括,则利用语音识别引擎对所述待识别语音信息进行识别,得到对所述待识别语音信息的识别结果。
为了解决上述问题,本发明还公开了一种语音识别装置,包括:
检测模块,用于检测接收到的待识别语音信息中是否包括命令关键词信息;
划分模块,用于在所述检测模块检测到包括时,将所述待识别语音信息划分为所述命令关键词信息和未知内容信息两部分;
确定模块,用于确定所述命令关键词信息对应的命令识别结果;
第一识别模块,用于利用语音识别引擎对所述未知内容信息进行识别,得到内容识别结果;
组合模块,用于将所述命令识别结果和所述内容识别结果进行组合后作为对所述待识别语音信息的识别结果。
优选地,所述检测模块,具体用于将接收到的待识别语音信息分别与预设的关键词信息库中包括的多个关键词模型和垃圾模型进行匹配;若检测到与所述待识别语音信息中某时间段的语音信息相匹配的关键词模型,则确定所述待识别语音信息中包括命令关键词信息。
优选地,所述关键词信息库中还包括所述关键词模型各自对应的文本信息;
所述确定模块,具体用于将所述相匹配的关键词模型对应的文本信息作为所述命令关键词信息对应的命令识别结果。
优选地,所述划分模块,具体用于获取所述命令关键词信息在所述待识别语音信息中的起始时间和结束时间;将所述待识别语音信息中所述起始时间和所述结束时间对应时间段的语音信息作为命令关键词信息,将所述待识别语音信息中除所述起始时间和所述结束时间对应时间段的语音信息之外的剩余时间段的语音信息作为未知内容信息。
优选地,所述装置还包括:
第二识别模块,用于在所述检测模块检测到不包括时,利用语音识别引擎对所述待识别语音信息进行识别,得到对所述待识别语音信息的识别结果。
与现有技术相比,本发明包括以下优点:
本发明在接收到待识别语音信息后,首先检测该待识别语音信息中是否包括命令关键词信息,若包括,则将待识别语音信息划分为命令关键词信息和未知内容信息两部分,确定命令关键词信息对应的命令识别结果,以及利用语音识别引擎对未知内容信息进行识别得到内容识别结果,最后将命令识别结果和内容识别结果进行组合后作为对待识别语音信息的识别结果。由此可知,本发明考虑到视频垂直领域中语音命令的特殊性,将语音信息划分为两部分单独识别,仅将未知内容信息送入通用语音识别引擎进行识别,相比于直接利用通用识别引擎进行整个语音信息的识别而言,其解耦了命令关键词与未知内容之间的语言约束,识别结果更加准确,并且无需关心通用语音识别引擎的内部结构,不需要重新训练语言模型,既可以直接应用通用语音识别引擎,又能一定程度解决语言模型失配导致的性能问题。
附图说明
图1是本发明实施例一的一种语音识别方法的步骤流程图;
图2是本发明实施例二的一种语音识别方法的步骤流程图;
图3是本发明实施例二的一种语音识别过程的示意图;
图4是本发明实施例三的一种语音识别装置的结构框图;
图5是本发明实施例四的一种语音识别装置的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
参照图1,示出了本发明实施例一的一种语音识别方法的步骤流程图。
本实施例的语音识别方法可以包括以下步骤:
步骤101,检测接收到的待识别语音信息中是否包括命令关键词信息。
本发明实施例的语音识别方法可以应用于视频垂直领域的语音识别,如各种视频网站的语音识别、各种智能电视机顶盒的语音识别等等。当用户想要搜索、播放某个视频时,可以通过语音进行控制,用户输入一段待识别语音信息,系统(如视频网站客户端的系统、智能电视机顶盒的等)在接收到该待识别语音信息后对其进行识别,并根据识别结果执行相应的操作。
本实施例中,在接收到待识别语音信息后,并非直接通过通用语音识别引擎对该待识别语音信息进行识别,而是先检测接收到的待识别语音信息中是否包括命令关键词信息,根据检测结果的不同执行不同的操作。
步骤102,若包括,则将所述待识别语音信息划分为所述命令关键词信息和未知内容信息两部分。
步骤103,确定所述命令关键词信息对应的命令识别结果。
步骤104,利用语音识别引擎对所述未知内容信息进行识别,得到内容识别结果。
如果检测到待识别语音信息中包括命令关键词信息,则将待识别语音信息划分为命令关键词信息和未知内容信息两部分,对这两部分分别进行识别。其中,对命令关键词信息部分的识别与步骤101的检测过程相关,具体识别过程将在实施例二中详细介绍;对未知内容信息部分的识别,是将其送入通用语音识别引擎进行识别,具体识别过程同样将在实施例二中详细介绍。
步骤105,将所述命令识别结果和所述内容识别结果进行组合后作为对所述待识别语音信息的识别结果。
在得到命令识别结果和内容识别结果后,即可将两部分识别结果进行组合,组合后的结果即作为对待识别语音信息的识别结果。
本发明实施例考虑到视频垂直领域中语音命令的特殊性,将语音信息划分为两部分单独识别,仅将未知内容信息送入通用语音识别引擎进行识别,相比于直接利用通用识别引擎进行整个语音信息的识别而言,其解耦了命令关键词与未知内容之间的语言约束,识别结果更加准确,并且无需关心通用语音识别引擎的内部结构,不需要重新训练语言模型,既可以直接应用通用语音识别引擎,又能一定程度解决语言模型失配导致的性能问题。
实施例二
参照图2,示出了本发明实施例二的一种语音识别方法的步骤流程图。
本实施例的语音识别方法可以包括以下步骤:
步骤201,检测接收到的待识别语音信息中是否包括命令关键词信息。若包括则可以执行步骤202,若不包括则可以执行步骤206。
本发明实施例中,关键词检测的方法包括且不限于基于关键词模型和垃圾模型的匹配的方法,基于音素或音节网格动态搜索的方法等。
优选地,本实施例中可以预先设置用于检测及识别命令关键词信息的关键词信息库,该关键词信息库中可以包括多个关键词模型和垃圾模型,还包括各关键词模型各自对应的文本信息。其中,关键词模型可以是预先通过对大量用户在通过语音控制搜索、播放视频时,所输入的语音信息中除视频名称之外的命令(如搜索、播放等)进行分析和建模得到的模型,可以是基于音素的模型,也可以是特征模板,甚至是网格信息,文本信息即命令对应的文本,垃圾模型是通过对除上述命令之外的词进行分析和建模得到的模型。例如,关键词信息库中可以包括以下表一所示的信息,需要说明的是,表一中仅包括了关键词模型和对应的文本信息,未包括垃圾模型,而实际上关键词信息库中还包括垃圾模型,只是未在表一中示出。
表一
基于上述关键词信息库,该步骤201可以包括以下子步骤:
子步骤a1,将接收到的待识别语音信息分别与预设的关键词信息库中包括的多个关键词模型和垃圾模型进行匹配;
子步骤a2,若检测到与所述待识别语音信息中某时间段的语音信息相匹配的关键词模型,则确定所述待识别语音信息中包括命令关键词信息;否则确定待识别语音信息中不包括命令关键词信息。
关键词模型和垃圾模型为特征模板或者基于特征训练的模型,针对待识别语音信息提取特征,将待识别语音信息的特征分别与各个关键词模型和垃圾模型进行匹配,即进行特征模板的匹配或者基于模型的匹配,如果检测到与所述待识别语音信息中某时间段的语音信息相匹配的关键词模型,此时则可以确定待识别语音信息中包括命令关键词信息,也即该时间段的语音信息即为包括的命令关键词信息,否则确定待识别语音信息中不包括命令关键词信息。
具体过程可以为:将待识别语音信息分别与预设的关键词信息库中包括的多个关键词模型和垃圾模型进行匹配,得到待识别语音信息与各关键词模型及垃圾模型的匹配度,根据匹配度确定待识别语音信息与关键词模型相匹配的置信度,如果待识别语音信息中某时间段的语音信息与某关键词模型相匹配的置信度验证成功,则说明检测到与所述待识别语音信息中某时间段的语音信息相匹配的关键词模型,也即检测到的为上述置信度验证成功时对应的关键词模型。对于匹配度计算和置信度验证的具体过程,本领域技术人员根据实际经验进行相关处理即可,本发明实施例对此不再详细论述。
例如,待识别语音信息为一段2s的语音信息,经过与关键词信息库进行匹配后,得出其中(0~1s]这一时间段的语音信息与表一所示的关键词信息库中“查找”的关键词模型相匹配,则可以确定待识别语音信息中包括命令关键词信息。
优选地,本实施例中还可以基于音素或音节的网格动态搜索待识别语音信息中是否包括命令关键词信息。因此,该步骤201可以包括:将接收到的待识别语音信息解码成音素或者音节的网格,从所述网格中搜索关键词并进行置信度的验证确认;若从所述待识别语音信息中某时间段的语音信息解码得到的网格中搜索到置信度验证成功的关键词,则确定所述待识别语音信息中包括命令关键词信息。对于置信度验证的具体过程,本领域技术人员根据实际经验进行相关处理即可,本发明实施例对此不再详细论述。
步骤202,将所述待识别语音信息划分为所述命令关键词信息和未知内容信息两部分。
如果在步骤201中检测到待识别语音信息中包括命令关键词信息,则可以将待识别语音信息划分为命令关键词信息和未知内容信息两部分。本实施例中可以根据上述检测到的命令关键词信息在待识别语音信息中对应的时间段对待识别语音信息进行划分。
因此,该步骤202可以包括以下子步骤:
子步骤b1,获取所述命令关键词信息在所述待识别语音信息中的起始时间和结束时间;
子步骤b2,将所述待识别语音信息中所述起始时间和所述结束时间对应时间段的语音信息作为命令关键词信息,将所述待识别语音信息中除所述起始时间和所述结束时间对应时间段的语音信息之外的剩余时间段的语音信息作为未知内容信息。
其中,起始时间和结束时间可以从上述步骤201的检测过程中得到,也即上述子步骤a2所提到的“某时间段的语音信息”中的时间段对应的起始时间和结束时间。
如步骤201中的举例,待识别语音信息为一段2s的语音信息,经过与关键词信息库进行匹配后,得出其中(0~1s]这一时间段的语音信息与表一所示的关键词信息库中“查找”的关键词模型相匹配,则可以将待识别语音信息划分为0~1s这一时间段的命令关键词信息部分,以及(1s~2s]这一时间段的未知内容信息部分。
步骤203,确定所述命令关键词信息对应的命令识别结果。
如步骤201所述,关键词信息库中可以包括多个关键词模型及各关键词模型各自对应的文本信息,因此在经过步骤201中检测待识别语音信息中是否包括命令关键词信息的过程后,如果包括则可以得知与待识别语音信息中某时间段的语音信息相匹配的关键词模型,进而即可将关键词信息库中该相匹配的关键词模型对应的文本信息作为所述命令关键词信息对应的命令识别结果。
如步骤201中的举例,待识别语音信息为一段2s的语音信息,经过与关键词信息库进行匹配后,得出其中(0~1s]这一时间段的语音信息与表一所示的关键词信息库中“查找”的关键词模型相匹配,则可以确定所述命令关键词信息对应的命令识别结果即为“查找”的语言模型对应的文本信息“查找”。
需要说明的是,本发明实施例中并不限定步骤203中确定所述命令关键词信息对应的命令识别结果的过程,与上述步骤202中将所述待识别语音信息划分为所述命令关键词信息和未知内容信息两部分的过程执行的先后顺序,在步骤201中检测到包括后可以先执行步骤203中确定所述命令关键词信息对应的命令识别结果的过程,也可以先执行步骤202中将所述待识别语音信息划分为所述命令关键词信息和未知内容信息两部分的过程,还可以并列执行上述两个过程。
步骤204,利用语音识别引擎对所述未知内容信息进行识别,得到内容识别结果。
对于划分出的未知内容信息,本实施例中可以利用通用语音识别引擎对其进行识别。在通用语音识别引擎的训练阶段,可以输入大量的语音及对应的文本信息,分别训练基于声学特征的声学模型和基于文本的语言模型;在识别阶段,提取未知内容信息的特征矢量(如频谱特征等),利用训练阶段得到的声学和语言模型对特征矢量进行解码,将解码后的文本信息作为内容识别结果。
对于利用通用语音识别引擎对未知内容信息进行识别的具体过程,本领域技术人员根据实际经验选用任意适用的方式均是可行的,本发明实施例在此不再详细论述。
需要说明的是,本发明实施例并不限定上述步骤203和步骤204执行的先后顺序,可以先执行步骤203,也可以先执行步骤204,还可以并列执行步骤203和步骤204。
步骤205,将所述命令识别结果和所述内容识别结果进行组合后作为对所述待识别语音信息的识别结果。
在得到命令识别结果和内容识别结果后,将两个识别结果进行组合,组合后的识别结果即为对待识别语音信息的识别结果。其中,在组合时可以根据上述步骤202的划分过程中命令关键词信息对应时间段和未知内容信息对应时间段的先后顺序执行,如果命令关键词信息对应时间段在前,未知内容信息对应时间段在后,则组合时命令识别结果在前,内容识别结果在后;如果未知内容信息对应时间段在前,命令关键词信息对应时间段在后,则组合时内容识别结果在前,命令识别结果在后。
如步骤201中的举例,接收到的待识别语音信息为一段2s的语音信息,经过与关键词信息库进行匹配后,得出其中(0~1s]这一时间段的语音信息与表一所示的关键词信息库中“查找”的关键词模型相匹配,如果0~1s这一时间段的命令关键词信息对应的命令识别结果为“查找”,(1s~2s]这一时间段的未知内容信息对应的内容识别结果为“港囧”,则可以确定对该时间为2s的待识别语音信息的识别结果即为将上述两个识别结果组合后的“查找港囧”。
步骤206,利用语音识别引擎对所述待识别语音信息进行识别,得到对所述待识别语音信息的识别结果。
如果在步骤201中检测到待识别语音信息中不包括命令关键词信息,则可以利用通用语音识别引擎对整段待识别语音信息进行识别,得到对所述待识别语音信息的识别结果。对于利用通用语音识别引擎对整段待识别语音信息进行识别的具体过程,参照上述步骤204的相关描述即可,当然本领域技术人员还可以根据实际经验选用任意适用的方式进行识别,本发明实施例在此不再详细论述。
下面,结合图3说明本发明实施例的语音识别过程。
参照图3,示出了本发明实施例二的一种语音识别过程的示意图。由图3可知,首先输入一段待识别语音信息(即图3中的一段波形图),接收到该待识别语音信息后经过对其进行检测将其划分为两部分(即命令关键词信息部分和未知内容信息部分),Stage1中确定出命令关键词信息对应的命令识别结果为“播放”,Stage2中利用语音识别引擎对未知内容信息进行识别,得到内容识别结果为“奔跑吧兄弟”,Stage3中将上述两个结果进行组合,得到对待识别语音信息的识别结果为“播放奔跑吧兄弟”。得到上述对待识别语音信息的识别结果后,系统即可依据该识别结果执行相应的操作,如获取视频“奔跑吧兄弟”的相关资源,并自动播放该视频。
本发明实施例中,仅需将未知内容信息送入语音识别引擎进行识别,减小了命令与内容之间的链接关系对识别结果的影响;引入命令关键词信息检测,命令关键词信息的集合较小,相对大规模连续语音识别建模更容易;对于服务器端的语音识别引擎,可以在本地端进行命令关键词信息检测,在服务器端进行未知内容信息的识别,能够减少传输到服务器端的内容。本发明实施例可以应用于电视机顶盒等的语音助手中,通过利用第三方通用语音识别引擎,提供视频业务领域的语音识别服务,在直接利用第三方语音识别引擎的基础上,通过命令关键词信息检测的处理方法,提高了识别精度。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
实施例三
参照图4,示出了本发明实施例三的一种语音识别装置的结构框图。
本实施例的语音识别装置可以包括以下模块:
检测模块401,用于检测接收到的待识别语音信息中是否包括命令关键词信息;
划分模块402,用于在所述检测模块检测到包括时,将所述待识别语音信息划分为所述命令关键词信息和未知内容信息两部分;
确定模块403,用于确定所述命令关键词信息对应的命令识别结果;
第一识别模块404,用于利用语音识别引擎对所述未知内容信息进行识别,得到内容识别结果;
组合模块405,用于将所述命令识别结果和所述内容识别结果进行组合后作为对所述待识别语音信息的识别结果。
本发明实施例考虑到视频垂直领域中语音命令的特殊性,将语音信息划分为两部分单独识别,仅将未知内容信息送入通用语音识别引擎进行识别,相比于直接利用通用识别引擎进行整个语音信息的识别而言,其解耦了命令关键词与未知内容之间的语言约束,识别结果更加准确,并且无需关心通用语音识别引擎的内部结构,不需要重新训练语言模型,既可以直接应用通用语音识别引擎,又能一定程度解决语言模型失配导致的性能问题。
实施例四
参照图5,示出了本发明实施例四的一种语音识别装置的结构框图。
本实施例的语音识别装置可以包括以下模块:
检测模块501,用于检测接收到的待识别语音信息中是否包括命令关键词信息;
划分模块502,用于在所述检测模块检测到包括时,将所述待识别语音信息划分为所述命令关键词信息和未知内容信息两部分;
确定模块503,用于确定所述命令关键词信息对应的命令识别结果;
第一识别模块504,用于利用语音识别引擎对所述未知内容信息进行识别,得到内容识别结果;
组合模块505,用于将所述命令识别结果和所述内容识别结果进行组合后作为对所述待识别语音信息的识别结果。
优选地,语音识别装置还可以包括第二识别模块506,用于在所述检测模块检测到不包括时,利用语音识别引擎对所述待识别语音信息进行识别,得到对所述待识别语音信息的识别结果。
优选地,所述检测模块501,具体用于将接收到的待识别语音信息分别与预设的关键词信息库中包括的多个关键词模型和垃圾模型进行匹配;若检测到与所述待识别语音信息中某时间段的语音信息相匹配的关键词模型,则确定所述待识别语音信息中包括命令关键词信息。
优选地,所述关键词信息库中还包括所述关键词模型各自对应的文本信息;所述确定模块503,具体用于将所述相匹配的关键词模型对应的文本信息作为所述命令关键词信息对应的命令识别结果。
优选地,所述检测模块501,具体用于将接收到的待识别语音信息解码成音素或者音节的网格,从所述网格中搜索关键词并进行置信度的验证确认;若从所述待识别语音信息中某时间段的语音信息解码得到的网格中搜索到置信度验证成功的关键词,则确定所述待识别语音信息中包括命令关键词信息。
优选地,所述划分模块502,具体用于获取所述命令关键词信息在所述待识别语音信息中的起始时间和结束时间;将所述待识别语音信息中所述起始时间和所述结束时间对应时间段的语音信息作为命令关键词信息,将所述待识别语音信息中除所述起始时间和所述结束时间对应时间段的语音信息之外的剩余时间段的语音信息作为未知内容信息。
本发明实施例中,仅需将未知内容信息送入语音识别引擎进行识别,减小了命令与内容之间的链接关系对识别结果的影响;引入命令关键词信息检测,命令关键词信息的集合较小,相对大规模连续语音识别建模更容易;对于服务器端的语音识别引擎,可以在本地端进行命令关键词信息检测,在服务器端进行未知内容信息的识别,能够减少传输到服务器端的内容。本发明实施例可以应用于电视机顶盒等的语音助手中,通过利用第三方通用语音识别引擎,提供视频业务领域的语音识别服务,在直接利用第三方语音识别引擎的基础上,通过命令关键词信息检测的处理方法,提高了识别精度。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种语音识别方法和装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种语音识别方法,其特征在于,包括:
检测接收到的待识别语音信息中是否包括命令关键词信息;
若包括,则将所述待识别语音信息划分为所述命令关键词信息和未知内容信息两部分;
确定所述命令关键词信息对应的命令识别结果;
利用语音识别引擎对所述未知内容信息进行识别,得到内容识别结果;
将所述命令识别结果和所述内容识别结果进行组合后作为对所述待识别语音信息的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述检测接收到的待识别语音信息中是否包括命令关键词信息的步骤包括:
将接收到的待识别语音信息分别与预设的关键词信息库中包括的多个关键词模型和垃圾模型进行匹配;
若检测到与所述待识别语音信息中某时间段的语音信息相匹配的关键词模型,则确定所述待识别语音信息中包括命令关键词信息。
3.根据权利要求2所述的方法,其特征在于,所述关键词信息库中还包括所述关键词模型各自对应的文本信息;
所述确定所述命令关键词信息对应的命令识别结果的步骤,包括:
将所述相匹配的关键词模型对应的文本信息作为所述命令关键词信息对应的命令识别结果。
4.根据权利要求1所述的方法,其特征在于,所述将所述待识别语音信息划分为所述命令关键词信息和未知内容信息两部分的步骤,包括:
获取所述命令关键词信息在所述待识别语音信息中的起始时间和结束时间;
将所述待识别语音信息中所述起始时间和所述结束时间对应时间段的语音信息作为命令关键词信息,将所述待识别语音信息中除所述起始时间和所述结束时间对应时间段的语音信息之外的剩余时间段的语音信息作为未知内容信息。
5.根据权利要求1所述的方法,其特征在于,在所述检测接收到的待识别语音信息中是否包括命令关键词信息的步骤之后,还包括:
若不包括,则利用语音识别引擎对所述待识别语音信息进行识别,得到对所述待识别语音信息的识别结果。
6.一种语音识别装置,其特征在于,包括:
检测模块,用于检测接收到的待识别语音信息中是否包括命令关键词信息;
划分模块,用于在所述检测模块检测到包括时,将所述待识别语音信息划分为所述命令关键词信息和未知内容信息两部分;
确定模块,用于确定所述命令关键词信息对应的命令识别结果;
第一识别模块,用于利用语音识别引擎对所述未知内容信息进行识别,得到内容识别结果;
组合模块,用于将所述命令识别结果和所述内容识别结果进行组合后作为对所述待识别语音信息的识别结果。
7.根据权利要求6所述的装置,其特征在于,所述检测模块,具体用于将接收到的待识别语音信息分别与预设的关键词信息库中包括的多个关键词模型和垃圾模型进行匹配;若检测到与所述待识别语音信息中某时间段的语音信息相匹配的关键词模型,则确定所述待识别语音信息中包括命令关键词信息。
8.根据权利要求7所述的装置,其特征在于,所述关键词信息库中还包括所述关键词模型各自对应的文本信息;
所述确定模块,具体用于将所述相匹配的关键词模型对应的文本信息作为所述命令关键词信息对应的命令识别结果。
9.根据权利要求6所述的装置,其特征在于,所述划分模块,具体用于获取所述命令关键词信息在所述待识别语音信息中的起始时间和结束时间;将所述待识别语音信息中所述起始时间和所述结束时间对应时间段的语音信息作为命令关键词信息,将所述待识别语音信息中除所述起始时间和所述结束时间对应时间段的语音信息之外的剩余时间段的语音信息作为未知内容信息。
10.根据权利要求6所述的装置,其特征在于,还包括:
第二识别模块,用于在所述检测模块检测到不包括时,利用语音识别引擎对所述待识别语音信息进行识别,得到对所述待识别语音信息的识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511032702.9A CN105632487B (zh) | 2015-12-31 | 2015-12-31 | 一种语音识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511032702.9A CN105632487B (zh) | 2015-12-31 | 2015-12-31 | 一种语音识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105632487A true CN105632487A (zh) | 2016-06-01 |
CN105632487B CN105632487B (zh) | 2020-04-21 |
Family
ID=56047334
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511032702.9A Active CN105632487B (zh) | 2015-12-31 | 2015-12-31 | 一种语音识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105632487B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106098066A (zh) * | 2016-06-02 | 2016-11-09 | 深圳市智物联网络有限公司 | 语音识别方法及装置 |
CN106653022A (zh) * | 2016-12-29 | 2017-05-10 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法和装置 |
CN108630200A (zh) * | 2017-03-17 | 2018-10-09 | 株式会社东芝 | 声音关键字检测装置以及声音关键字检测方法 |
CN108694940A (zh) * | 2017-04-10 | 2018-10-23 | 北京猎户星空科技有限公司 | 一种语音识别方法、装置及电子设备 |
CN109065045A (zh) * | 2018-08-30 | 2018-12-21 | 出门问问信息科技有限公司 | 语音识别方法、装置、电子设备及计算机可读存储介质 |
WO2019071607A1 (zh) * | 2017-10-09 | 2019-04-18 | 华为技术有限公司 | 一种语音信息处理方法、装置及终端 |
CN110047486A (zh) * | 2019-05-20 | 2019-07-23 | 合肥美的电冰箱有限公司 | 语音控制方法、装置、服务器、系统及存储介质 |
CN110648659A (zh) * | 2019-09-24 | 2020-01-03 | 上海依图信息技术有限公司 | 基于多任务模型的语音识别与关键词检测装置和方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102402984A (zh) * | 2011-09-21 | 2012-04-04 | 哈尔滨工业大学 | 基于置信度的关键词检出系统裁剪方法 |
CN102915729A (zh) * | 2011-08-01 | 2013-02-06 | 佳能株式会社 | 语音关键词检出系统、创建用于其的词典的系统和方法 |
CN103514882A (zh) * | 2012-06-30 | 2014-01-15 | 北京百度网讯科技有限公司 | 一种语音识别方法及系统 |
CN103903617A (zh) * | 2012-12-24 | 2014-07-02 | 联想(北京)有限公司 | 一种语音识别方法及电子设备 |
CN103943107A (zh) * | 2014-04-03 | 2014-07-23 | 北京大学深圳研究生院 | 一种基于决策层融合的音视频关键词识别方法 |
CN103956166A (zh) * | 2014-05-27 | 2014-07-30 | 华东理工大学 | 一种基于语音关键词识别的多媒体课件检索系统 |
CN103971700A (zh) * | 2013-08-01 | 2014-08-06 | 哈尔滨理工大学 | 语音监控方法及装置 |
CN104143330A (zh) * | 2013-05-07 | 2014-11-12 | 佳能株式会社 | 语音识别方法和语音识别系统 |
CN104715754A (zh) * | 2015-03-05 | 2015-06-17 | 北京华丰亨通科贸有限公司 | 一种快速响应语音命令的方法及装置 |
DE102014200570A1 (de) * | 2014-01-15 | 2015-07-16 | Bayerische Motoren Werke Aktiengesellschaft | Verfahren und System zur Erzeugung eines Steuerungsbefehls |
CN104916283A (zh) * | 2015-06-11 | 2015-09-16 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
-
2015
- 2015-12-31 CN CN201511032702.9A patent/CN105632487B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102915729A (zh) * | 2011-08-01 | 2013-02-06 | 佳能株式会社 | 语音关键词检出系统、创建用于其的词典的系统和方法 |
CN102402984A (zh) * | 2011-09-21 | 2012-04-04 | 哈尔滨工业大学 | 基于置信度的关键词检出系统裁剪方法 |
CN103514882A (zh) * | 2012-06-30 | 2014-01-15 | 北京百度网讯科技有限公司 | 一种语音识别方法及系统 |
CN103903617A (zh) * | 2012-12-24 | 2014-07-02 | 联想(北京)有限公司 | 一种语音识别方法及电子设备 |
CN104143330A (zh) * | 2013-05-07 | 2014-11-12 | 佳能株式会社 | 语音识别方法和语音识别系统 |
CN103971700A (zh) * | 2013-08-01 | 2014-08-06 | 哈尔滨理工大学 | 语音监控方法及装置 |
DE102014200570A1 (de) * | 2014-01-15 | 2015-07-16 | Bayerische Motoren Werke Aktiengesellschaft | Verfahren und System zur Erzeugung eines Steuerungsbefehls |
CN103943107A (zh) * | 2014-04-03 | 2014-07-23 | 北京大学深圳研究生院 | 一种基于决策层融合的音视频关键词识别方法 |
CN103956166A (zh) * | 2014-05-27 | 2014-07-30 | 华东理工大学 | 一种基于语音关键词识别的多媒体课件检索系统 |
CN104715754A (zh) * | 2015-03-05 | 2015-06-17 | 北京华丰亨通科贸有限公司 | 一种快速响应语音命令的方法及装置 |
CN104916283A (zh) * | 2015-06-11 | 2015-09-16 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106098066A (zh) * | 2016-06-02 | 2016-11-09 | 深圳市智物联网络有限公司 | 语音识别方法及装置 |
CN106653022A (zh) * | 2016-12-29 | 2017-05-10 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法和装置 |
CN106653022B (zh) * | 2016-12-29 | 2020-06-23 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法和装置 |
CN108630200A (zh) * | 2017-03-17 | 2018-10-09 | 株式会社东芝 | 声音关键字检测装置以及声音关键字检测方法 |
CN108630200B (zh) * | 2017-03-17 | 2022-01-07 | 株式会社东芝 | 声音关键字检测装置以及声音关键字检测方法 |
CN108694940A (zh) * | 2017-04-10 | 2018-10-23 | 北京猎户星空科技有限公司 | 一种语音识别方法、装置及电子设备 |
WO2019071607A1 (zh) * | 2017-10-09 | 2019-04-18 | 华为技术有限公司 | 一种语音信息处理方法、装置及终端 |
US11308965B2 (en) | 2017-10-09 | 2022-04-19 | Huawei Technologies Co., Ltd. | Voice information processing method and apparatus, and terminal |
CN109065045A (zh) * | 2018-08-30 | 2018-12-21 | 出门问问信息科技有限公司 | 语音识别方法、装置、电子设备及计算机可读存储介质 |
CN110047486A (zh) * | 2019-05-20 | 2019-07-23 | 合肥美的电冰箱有限公司 | 语音控制方法、装置、服务器、系统及存储介质 |
CN110648659A (zh) * | 2019-09-24 | 2020-01-03 | 上海依图信息技术有限公司 | 基于多任务模型的语音识别与关键词检测装置和方法 |
CN110648659B (zh) * | 2019-09-24 | 2022-07-01 | 上海依图信息技术有限公司 | 基于多任务模型的语音识别与关键词检测装置和方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105632487B (zh) | 2020-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105632487A (zh) | 一种语音识别方法和装置 | |
US11636146B2 (en) | Content analysis to enhance voice search | |
US11842727B2 (en) | Natural language processing with contextual data representing displayed content | |
CN108920497B (zh) | 一种人机交互方法及装置 | |
KR101909807B1 (ko) | 메시지 입력 방법 및 장치 | |
CN108009228B (zh) | 一种内容标签的设置方法、装置及存储介质 | |
CN109101481B (zh) | 一种命名实体识别方法、装置及电子设备 | |
CN111831911B (zh) | 查询信息的处理方法、装置、存储介质和电子装置 | |
CN107992585B (zh) | 通用标签挖掘方法、装置、服务器及介质 | |
JP5922255B2 (ja) | データストリームのリアルタイム自然言語処理 | |
US10043520B2 (en) | Multilevel speech recognition for candidate application group using first and second speech commands | |
CN106098063B (zh) | 一种语音控制方法、终端设备和服务器 | |
WO2017206661A1 (zh) | 语音识别的方法及系统 | |
CN108388650B (zh) | 基于需求的搜索处理方法、装置和智能设备 | |
WO2022037526A1 (zh) | 一种语音识别方法、装置、电子设备及存储介质 | |
CN109976702A (zh) | 一种语音识别方法、装置及终端 | |
CN111522909B (zh) | 一种语音交互方法及服务器 | |
CN108920649B (zh) | 一种信息推荐方法、装置、设备和介质 | |
CN113806588B (zh) | 搜索视频的方法和装置 | |
CN109190116B (zh) | 语义解析方法、系统、电子设备及存储介质 | |
CN104239462A (zh) | 搜索结果的展现方法和装置 | |
CN111814028B (zh) | 一种信息搜索方法及装置 | |
WO2017162158A1 (en) | Method and apparatus for recommending data | |
US11657805B2 (en) | Dynamic context-based routing of speech processing | |
US11023520B1 (en) | Background audio identification for query disambiguation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |