CN110176227A

CN110176227A - 一种语音识别的方法以及相关装置

Info

Publication number: CN110176227A
Application number: CN201810252355.8A
Authority: CN
Inventors: 赵学敏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-03-26
Filing date: 2018-03-26
Publication date: 2019-08-27
Anticipated expiration: 2038-03-26
Also published as: CN110176227B

Abstract

本发明实施例公开了一种语音识别的方法，包括：接收待识别的语音信息；若所述语音信息中包含至少一个实体信息，则根据所述至少一个实体信息生成N个待选择模板，其中，所述N为大于或等于1的整数；从所述N个待选择模板中确定目标模板；通过所述目标模板获取所述待识别的语音信息所对应的语音识别结果。本发明实施例还提供一种语音识别装置。本发明实施例先从语音信息中提取实体信息，随后根据实体信息生成待选择模板，再对待选择模板进行校验，提高了校验的效率。

Description

一种语音识别的方法以及相关装置

技术领域

本发明涉及计算机处理领域，尤其涉及一种语音识别的方法以及相关装置。

背景技术

随着人工智能技术的不断发展，人们与日常生活中的各种智能终端的联系愈发紧密，为了使用户与终端之间的交互更直接，需要准确的识别用户的语音信息。

目前，通常采用模板匹配的方式来识别用户的语音信息。在接收到用户发出的语音信息后，将该语音信息与语音模板库中的模板进行匹配，若匹配成功，则提取语音信息中的实体信息，并根据实体信息获取语音识别结果。

然而，随着语音模板库中的模板越来越多，对每条语音信息进行匹配的耗时也会越来越长，且语音信息中可以包含较多的实体信息，逐个对实体信息进行校验也需要花费大量的时间，导致匹配的效率较低。

发明内容

本发明实施例提供了一种语音识别的方法以及相关装置，可以先从语音信息中提取实体信息，随后根据实体信息生成待选择模板，再对待选择模板进行校验，与现有技术中先对语音信息进行模板匹配，再校验实体信息的方式相比，本发明的语音识别方法不需要对语音信息中的实体信息进行校验，提高了匹配的效率。

有鉴于此，本发明实施例一方面提供一种语音识别的方法，包括：

接收待识别的语音信息；

若所述语音信息中包含至少一个实体信息，则根据所述至少一个实体信息生成N个待选择模板，其中，所述N为大于或等于1的整数；

从所述N个待选择模板中确定目标模板；

通过所述目标模板获取所述待识别的语音信息所对应的语音识别结果。

本发明实施例另一方面提供了一种语音识别装置，包括：

接收模块，用于接收待识别的语音信息；

生成模块，用于若所述语音信息中包含至少一个实体信息，则根据所述至少一个实体信息生成N个待选择模板，其中，所述N为大于或等于1的整数；

确定模块，用于从所述N个待选择模板中确定目标模板；

获取模块，用于通过所述目标模板获取所述待识别的语音信息所对应的语音识别结果。

本发明实施例还提供了一种务分值确定装置，包括：存储器和处理器；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

接收待识别的语音信息；

从所述N个待选择模板中确定目标模板；

本发明实施例的还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本发明实施例中，首先接收待识别的语音信息，若所述语音信息中包含至少一个实体信息，则根据所述至少一个实体信息生成N个待选择模板，其中，所述N为大于或等于1的整数，随后从所述N个待选择模板中确定目标模板，进而通过所述目标模板获取所述待识别的语音信息所对应的语音识别结果。通过上述方式，先从语音信息中提取实体信息，随后根据实体信息生成待选择模板，再对待选择模板进行校验，与现有技术中先对语音信息进行模板匹配，再校验实体信息的方式相比，本发明的语音识别方法不需要对语音信息中的实体信息进行校验，提高了校验的效率。

附图说明

图1为本发明实施例中语音识别系统的架构图；

图2为本发明实施例中语音识别的方法一个实施例示意图；

图3为本发明实施例中根据语音信息生成待选择模板的一个流程示意图；

图4为本发明实施例中从N个待选择模板中确定目标模板的一个流程示意图；

图5为本发明实施例中用户与智能手机进行语音交互的一个界面示意图；

图6为本发明实施例中智能手机按照语音识别结果的指示播放音乐的一个界面示意图；

图7为本发明实施例中语音识别装置一个实施例示意图；

图8为本发明实施例中语音识别装置另一个实施例示意图；

图9为本发明实施例中语音识别装置另一个实施例示意图；

图10为本发明实施例中语音识别装置一个结构示意图。

具体实施方式

本发明实施例提供了一种语音识别的方法以及相关装置，不需要对语音信息中的实体信息进行校验，从而提高了匹配的效率。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本发明实施例可应用于用户与智能终端的交互场景中，可以对用户发出的语音信息进行更高效的模板匹配，使智能终端可以更快地获取到语音识别结果。

与智能终端进行语音交流，让智能终端明白用户想要表达的意思，这是人们长期以来梦寐以求的事情。中国物联网校企联盟形象得把语音识别比做为“机器的听觉系统”。语音识别技术就是让智能终端通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

本发明能够使得机器即智能终端更快捷且更准确地理解用户想要表达的意思，利用本发明所提供的语音识别装置，用户可以通过智能终端读短信、介绍餐厅、询问天气和语音设置闹钟等，在实际应用中，语音识别装置还能断学习新的声音和语调，提供对话式的应答。此外，本发明实施例所提供的语音识别方法对语言类型不作限定，语音信息至少支持中文(普通话)、中文(粤语)、德文、意大利文、日文、法文、英文、西班牙文和韩文等。

为了便于介绍，请参阅图1，图1为本发明实施例中语音识别方法的系统结构示意图，包括语音识别装置和智能终端，其中，智能终端可以是如图1所示的智能手机、智能手表、智能音箱、智能耳机、智能机器人、智能医疗设备及其他智能家居等。

本发明所提供的语音识别装置也可部署于服务器，由智能终端接收用户的语音信息，再将语音信息发送至服务器，由服务器对其进行语义识别，识别成功后生成相应的指令，触发智能终端完成相应的操作。可以理解的是，语音识别装置也可以部署于智能终端上。

可以理解的是，智能终端所采用的系统包含但不仅限于安卓(Android)系统、苹果系统(iphone operation system，iOS)、微软操作系统(Microsoft Windows)以及塞班操作系统等。

下面以智能终端为智能手机为例来描述该系统的工作流程，用户打开智能手机的语音交互式应用并发出语音信息(比如“请播放天龙八部”)，智能手机将接收到的语音信息发送至服务器，服务器提取语音信息中的实体信息(如“播放”，“天龙八部”)，根据实体信息生成待选择模板，从待选择模板选择出最优的目标模板，通过该目标模板可以匹配出语音信息所对应的操作，于是服务器向智能终端发送相应的指令，使得智能终端完成相应的操作(播放天龙八部的电视剧)。

下面将从语音识别装置的角度，对本发明中语音识别的方法进行介绍，请参阅图2，本发明实施例中语音识别的方法一个实施例包括：

101、接收待识别的语音信息；

本实施例中，语音识别装置首先接收待识别的语音信息，其中，该语音信息可以为用户通过智能终端的麦克风输入的语音，例如“播放刘德华的冰雨”。

102、若语音信息中包含至少一个实体信息，则根据至少一个实体信息生成N个待选择模板，其中，N为大于或等于1的整数；

本实施例中，语音识别装置需要从语音信息中提取实体信息，若语音信息中包含至少一个实体信息，则语音识别装置可以根据至少一个实体信息生成N个待选择模板，其中，N为大于或等于1的整数。

可以理解的是，实体信息为预设的实体库中所包含的信息，具体地，实体库中包含多个词集，每个词集中又包含多个相同类型的词，所以，实体信息可以是词集中具体的词，例如，“歌手”的词集中包含“刘德华”及“周杰伦”等实体信息，“歌曲”的词集中包含“冰雨”及“晴天”等实体信息，由此可知“播放刘德华的冰雨”这个语音信息中就包含“刘德华”及“冰雨”两个实体信息。

若语音信息中的实体信息仅有一个，那么该实体信息就可以是待选择模板，例如，语音信息为“播放冰雨”，该语音信息中的实体信息为“冰雨”，那么需要构成与实体信息——“冰雨”相关的待选择模板。若语音信息中有多个实体信息，那么将这些实体信息进行组合即可生成待选择模板，例如，将“刘德华”及“冰雨”两个实体信息组合可以得到待选择模板为，“刘德华的冰雨”、刘德华的[歌曲]”、“[歌手]的冰雨”以及“[歌手]的[歌曲]”。

103、从N个待选择模板中确定目标模板；

本实施例中，语音识别装置对N个待选择模板逐个进行校验并从中确定目标模板，也就是说，目标模板是N个待选择模板中校验成功的模板。

104、通过目标模板获取待识别的语音信息所对应的语音识别结果。

本实施例中，语音识别装置通过目标模板可以获取待识别的语音信息所对应的语音识别结果，可以理解的是，语音识别结果为语音识别装置根据对语音信息的识别而生成的一种指令，语音识别装置可以将该指令发送至与用户进行交互的智能终端，以使得智能终端按照指令执行相应的操作，例如，终端接收到对应“播放刘德华的冰雨”这个语音信息的语音识别结果，就会按照语音识别结果的指示打开播放音乐的应用程序并选择刘德华的“冰雨”这首歌进行播放。

本发明实施例中，首先接收待识别的语音信息，若语音信息中包含至少一个实体信息，则根据至少一个实体信息生成N个待选择模板，其中，N为大于或等于1的整数，随后从N个待选择模板中确定目标模板，进而通过目标模板获取待识别的语音信息所对应的语音识别结果。通过上述方式，先从语音信息中提取实体信息，随后根据实体信息生成待选择模板，再对待选择模板进行校验，与现有技术中先对语音信息进行模板匹配，再校验实体信息的方式相比，本发明的语音识别方法不需要对语音信息中的实体信息进行校验，提高了校验的效率。

可选地，在上述图2对应的实施例的基础上，本发明实施例提供的语音识别的方法第一个可选实施例中，接收待识别的语音信息之后，还可以包括：

对待识别的语音信息进行匹配，得到匹配结果；

根据匹配结果获取实体信息数量；

若实体信息数量为大于或等于1，则确定语音信息中包含至少一个实体信息。

本实施例中，语音识别装置接收到待识别的语音信息后，需要从该语音信息中抽取实体信息，具体地，首先可以根据正则表达式对待识别的语音信息进行匹配，并从语音信息中确定匹配成功的实体信息。

本发明实施例中，语音识别装置可以根据正则表达式对待识别的语音信息进行匹配。在其他实施例中，匹配方式不限于正则表达式，还可以是其他任意种能进行语音匹配的方式。

可以理解的是，正则表达式为通过预先定义好的一些特定字符、及这些特定字符的组合建立的一套规则，进而根据这样的规则对语音信息进行匹配并筛选实体信息，例如，正则表达式中可以定义有命名表达式(如人名、地名或歌曲名等)、时间表达式(如日期或时间等)或数字表达式(如阿拉伯数字或中英文的数字等)等，那么用该正则表达式对语音信息“播放刘德华的冰雨”进行匹配，就可以得到“刘德华”和“冰雨”这两个分别对应“人名”和“歌曲名”的实体信息。

需要说明的是，除了采用正则表达式对语音信息中的实体信息进行抽取外，也可以采用其他方式，例如，根据条件随机场(conditional random field algorithm，CRF)算法从语音信息中抽取实体信息，即采用CRF算法对待识别的语音信息进行匹配，CRF算法的基本思路是通过对汉字进行标注来分词或抽取实体信息，这种方式考虑了文字词语出现的频率信息，同时考虑上下文语境，具备较好的学习能力，因此对歧义词和未登录词的识别都具有良好的效果。

其次，本发明实施例中，介绍了从语音信息中抽取实体信息的方式，即采用正则表达式对待识别的语音信息进行匹配，得到匹配结果，再根据匹配结果获取实体信息数量。通过上述方式，可以采用正则表达式或CRF算法等方式从待识别的语音信息中抽取实体信息，能够更准确地识别出语音信息中所包含的实体信息，也使得实现本发明的方式更多样化。

可选地，在上述图2对应的第一个实施例的基础上，本发明实施例提供的语音识别的方法第二个可选实施例中，根据匹配结果获取实体信息数量之后，还可以包括：

若实体信息数量为0，则判断待识别的语音信息是否属于预设语音信息集合中的信息，若是，则确定待识别的语音信息所对应的语音识别结果，其中，预设语音信息集合包括至少一个语音模板。

本实施例中，待识别的语音信息中也有可能不包含实体信息，即语音识别装置根据正则表达式对待识别的语音信息进行匹配，匹配结果显示该语音信息中的实体信息数量为0，若出现这种情况，则语音识别装置需要判断该语音信息是否属于预设语音信息集合中的信息，若是，即可确定该语音信息对应的语音识别结果，例如，语音信息为“随便播放一首歌曲”，该语音信息中不包含实体信息，随后，若确定这条语音信息为预设语音信息集合中的信息，即预设语音信息集合中有“随便播放一首歌曲”这样的一个语音模板，那么其对应的语音识别结果可以指示智能终端打开播放音乐的应用程序并随便选一首歌曲进行播放。

在判断待识别的语音信息是否属于预设语音信息集合的过程中需要将该语音信息与预设语音信息集合中的每一个语音模板进行匹配直到匹配成功为止，进而确定匹配成功的语音模板所对应的语音识别结果。

此外，该预设语音信息集合也可以是哈希表，即一种根据关键码值而直接进行访问的数据结构，哈希表通过把关键码值映射到表中一个位置来访问记录，以加快查找的速度，需要说明的是，本实施例中的哈希表中可以包括语音模板与语音领域的对应关系，语音领域用于指示语音识别结果的应用范围，例如，“随便播放一首歌曲”这个语音模板对应的语音领域可以是“音乐”，具体地，这种对应关系可以是线性结构(一对一的对应关系)、树形结构(一对多的对应关系)或图形结构(多对多的对应关系)，在判断待识别的语音信息是否属于该哈希表的过程中，无需将语音信息逐个与哈希表中的每一个语音模板进行匹配，只要输入语音信息即可通过哈希函数计算出该语音信息所匹配的语音模板，时间复杂度为O(1)，即对语音信息进行匹配的时间不会随着语音模板数量的增加而增加，也就可以确定匹配成功的语音模板所对应的语音领域，进而结合语音领域可以确定待识别的语音信息所对应的语音识别结果。

其次，本发明实施例中，介绍了在语音信息中不包含实体信息的情况下，语音识别装置判断待识别的语音信息是否属于预设语音信息集合中的信息，若是，则语音识别装置确定待识别的语音信息所对应的语音识别结果。通过上述方式，若语音信息中不包含实体信息，即用户也有可能会说出一些不常见的问法，在预设语音信息集合中增加这一类型语音信息所对应的语音模板，使得本发明的语音识别方法可以识别出更多种类型的语音信息，提高了用户体验。

可选地，在上述图2对应的实施例的基础上，本发明实施例提供的语音识别的方法第三个可选实施例中，根据至少一个实体信息生成N个待选择模板，可以包括：

获取至少一个实体信息中每个实体信息所对应的实体类型，其中，实体类型用于指示实体信息所属的类别；

根据每个实体信息所对应的实体类型，生成N个待选择模板。

本实施例中，语音识别装置首先可以通过信息类型匹配关系确定每个实体信息所对应的实体类型，其中，信息类型匹配关系用于指示实体信息与实体类型之间的对应关系，该信息类型匹配关系可以如表1所示，第一列为实体信息，第二列为实体信息所对应的实体类型。

表1

实体信息	实体类型
		刘德华	歌手
冰雨	歌曲
		大话西游	电影
世界之窗	地理位置

在根据每个实体信息所对应的实体类型，生成N个待选择模板的过程中，通常有如下三种模板生成方式，第一种是对每个实体信息与每个实体信息所对应的实体类型进行组合，得到X个待选择模板，例如，“播放刘德华的冰雨”中有实体信息“刘德华”和“冰雨”，且“刘德华”对应的实体类型为“歌手”，“冰雨”对应的实体类型为“歌曲”，那么X个待选择模板具体可以为“刘德华的歌曲”和“歌手的冰雨”，X即为2。

第二种是对每个实体信息所对应的实体类型进行组合，得到Y个待选择模板，例如，“播放刘德华的冰雨”中有实体信息“刘德华”和“冰雨”，且“刘德华”对应的实体类型为“歌手”，“冰雨”对应的实体类型为“歌曲”，那么Y个待选择模板具体为“歌手的歌曲”，Y即为1。

第三种是对每个实体信息进行组合，得到Z个待选择模板，例如，“播放刘德华的冰雨”中有实体信息“刘德华”和“冰雨”，那么Z个待选择模板具体为“刘德华的冰雨”，Z即为1。

那么X+Y+Z等于待选择模板的总数，即N。可以理解的是，在实际应用中，随着实体信息数量的变化，X、Y和Z的取值也会发生相应的变化，此处仅为一个示意，并不应理解为对本方案的限定。

具体地，语音识别装置可以获取待识别的语音信息中每个实体信息所对应的实体类型，若语音信息中的实体信息仅有一个，那么该实体信息对应的实体类型就可以是待选择模板，例如，语音信息为“播放冰雨”，该语音信息中的实体信息为“冰雨”，实体信息“冰雨”对应的实体类型为“歌曲”，那么“歌曲”即为待选择模板；若语音信息中有多个实体信息，那么将这些实体信息分别对应的实体类型进行组合即可生成待选择模板，例如，语音信息“播放刘德华的冰雨”中包括“刘德华”和“冰雨”两个实体信息，其中，实体信息“刘德华”对应的实体类型为“歌手”，实体信息“冰雨”对应的实体类型为“歌曲”，那么得到的待选择模板可以为“歌手的歌曲”。

需要说明的是，待选择模板还可以是实体信息与实体类型的组合，仍以语音信息为“播放刘德华的冰雨”为例，待选择模板还可以是“歌手的冰雨”和“刘德华的歌曲”，可以理解的是，这种实体信息与实体类型的组合方式不会出现一个实体信息与该实体信息本身对应的实体类型进行组合的情况，即不会出现类似“刘德华的歌手”或“冰雨的歌曲”等待选择模板。

结合上述提到的多种根据实体信息生成待选择模板的方式，以语音信息为“播放刘德华的冰雨”为例，待选择模板的生成过程具体可以如图3所示，从语音信息“播放刘德华的冰雨”中可以抽取得到“刘德华”和“冰雨”两个实体信息，并根据这两个实体信息可以分别得到对应的两个实体类型为“歌手”和“歌曲”，进而将实体信息进行组合得到待选择模板为“刘德华的冰雨”，将实体类型进行组合得到待选择模板为“歌手的歌曲”，将实体信息与实体类型进行组合得到待选择模板为“歌手的冰雨”和“刘德华的歌曲”。

其次，本发明实施例中，介绍了语音识别装置根据实体信息对应的实体类型生成待选择模板以及结合实体信息和实体类型生成待选择模板的情形。通过上述方式，在语音识别装置根据实体信息生成待选择模板的基础上，扩展了语音识别装置生成待选择模板的方式，提升了待选择模板的多样性。

可选地，在上述图2以及图2对应的第一个至第三个实施例中任一项的基础上，本发明实施例提供的语音识别的方法第四个可选实施例中，从N个待选择模板中确定目标模板，可以包括：

采用预设语音信息集合对N个待选择模板进行匹配；

若N个待选择模板中仅有一个待选择模板匹配成功，则将仅有一个待选择模板确定为目标模板；

若N个待选择模板中有M个待选择模板匹配成功，则从M个待选择模板中确定目标模板，其中，M为大于1且小于或等于N的整数。

本实施例中，语音识别装置生成了N个待选择模板后，需要从对这N个待选择模板进行校验进而从中确定目标模板，具体地，语音识别装置采用预设语音信息集合对N个待选择模板进行匹配，即判断这N个待选择模板中的每个待选择模板在预设语音信息集合中是否有对应的语音模板，其中，若N个待选择模板中仅有一个待选择模板匹配成功，则语音识别装置将这仅有一个待选择模板确定为目标模板，若N个待选择模板中有多个待选择模板匹配成功，则语音识别装置将从这多个待选择模板中确定目标模板，即从这多个待选择模板中确定其中的一个为目标模板。

其次，本发明实施例中，介绍了语音识别装置采用预设语音信息集合对N个待选择模板进行匹配，并从匹配成功的M个待选择模板中确定其中的一个为目标模板。通过上述方式，语音识别装置可以从M个匹配成功的待选择模板中选出匹配度最高的一个作为目标模板，使得语音识别装置对N个待选择模板进行校验的精确度更高。

可选地，在上述图2对应的第四个实施例的基础上，本发明实施例提供的语音识别的方法第五个可选实施例中，预设语音信息集合包括哈希表，其中，哈希表包含至少一个语音模板以及至少一个语音领域，语音模板与语音领域具有对应关系；

采用预设语音信息集合对N个待选择模板进行匹配，可以包括：

将N个待选择模板与哈希表中的至少一个语音模板进行匹配；

若N个待选择模板匹配成功，则获取N个待选择模板所对应的目标语音领域，其中，目标语音领域用于指示语音识别结果的应用范围。

本实施例中，预设语音信息集合具体可以是哈希表，哈希表是一种根据关键码值而直接进行访问的数据结构，哈希表通过把关键码值映射到表中一个位置来访问记录，以加快查找的速度，需要说明的是，本实施例中的哈希表中可以包括语音模板与语音领域的对应关系，语音领域用于指示语音识别结果的应用范围，该哈希表具体可以如下表2所示，第一列为语音模板，第二列为语音领域，例如，采用表2对“刘德华的歌曲”这个待选择模板进行匹配时，可以通过计算一次直接查找到表2中“刘德华的歌曲”这个语音模板，不需要将“刘德华的歌曲”这个待选择模板与语音模板中诸如“周星驰的电影”或“深圳的温度”等逐个进行匹配，可以理解的是，采用哈希表对N个待选择模板进行匹配的时间复杂度为O(1)。

表2

语音模板	语音领域
		刘德华的歌曲	音乐
周星驰的电影	视频
		深圳的温度	天气
去世界之窗的路线	导航
		球赛的比分	新闻

其次，本发明实施例中，介绍了采用哈希表对N个待选择模板进行匹配的方式。通过上述方式，由于哈希表的时间复杂度为O(1)，即只需要通过一次计算即可确定待选择模板是否匹配成功，提高了对待选择模板进行匹配的效率。

可选地，在上述图2对应的第四个实施例的基础上，本发明实施例提供的语音识别的方法第六个可选实施例中，从M个待选择模板中确定目标模板，可以包括：

从M个待选择模板中获取每个待选择模板所对应的实体信息个数；

根据每个待选择模板所对应的实体信息个数，将实体信息个数最大的待选择模板确定为目标模板。

本实施例中，若匹配成功的待选择模板不止1个，语音识别装置需要从这M个匹配成功的待选择模板中确定一个目标模板，具体地，语音识别装置先获取这M个待选择模板中每个待选择模板的实体信息个数，随后，确定包含实体信息个数最多的待选择模板为目标模板，例如，“刘德华的冰雨”和“刘德华的歌曲”这两个为匹配成功的待选择模板，“刘德华的冰雨”这个待选择模板中包含的“刘德华”和“冰雨”2个实体信息，“刘德华的歌曲”这个待选择模板中只包含“刘德华”这1个实体信息，因此确定“刘德华的冰雨”这个待选择模板为目标模板。

其次，本发明实施例中，介绍了从M个待选择模板中确定目标模板的具体方式可以是获取M个待选择模板中每个待选择模板所对应的实体信息个数，并确定实体信息个数最大的待选择模板为目标模板。通过上述方式，实体信息数量多的待选择模板说明与待识别的语音信息相似程度更高，因此，确定实体信息个数最大的待选择模板为目标模板，可以使得模板匹配的准确性更高。

可选地，在上述图2对应的第四个实施例或在上述图2对应的第六个实施例的基础上，本发明实施例提供的语音识别的方法第七个可选实施例中，从M个待选择模板中确定目标模板，可以包括：

从M个待选择模板中获取每个待选择模板所对应实体信息文本字数；

根据每个待选择模板所对应的实体信息文本字数，将实体信息文本字数最大的待选择模板确定为目标模板。

本实施例中，若匹配成功的待选择模板不止1个，语音识别装置需要从这M个匹配成功的待选择模板中确定一个目标模板，具体地，语音识别装置先从M个待选择模板中获取每个待选择模板所对应实体信息文本字数，随后，确定实体信息文本字数最大的待选择模板为目标模板。

具体地，以“周杰伦的七里香”为例，假设提取的待选择模板分别包括两个实体信息，分别为“周杰”和“周杰伦”，于是可以确定“周杰”这个实体信息的文本字数为2，而“周杰伦”这个实体信息的文本字数为3，3大于2，因此优先选择包含“周杰伦”这个实体信息的待选择模板，并将该待选择模板确定为目标模板。

其次，本发明实施例中，介绍了从M个待选择模板中确定目标模板的具体方式可以是从M个待选择模板中获取每个待选择模板所对应实体信息文本字数，并确定实体信息文本字数最大的待选择模板为目标模板。通过上述方式，提供了另一种从M个待选择模板中确定目标模板的具体方式，并区别于上述图2对应的第六个实施例的实现方式，提高了本方案的灵活性。

需要说明的是，本发明实施例提供的语音识别的方法第六个可选实施例与本发明实施例提供的语音识别的方法第七个可选实施例分别提供了两种不同的从M个待选择模板中确定目标模板的具体方式，在具体的实施过程中，还可以结合这两种实施方式从M个待选择模板中确定目标模板。

具体地，可以先从M个待选择模板中获取每个待选择模板所对应的实体信息个数，若实体信息个数最大的待选择模板数量不止一个，那么进一步获取这些实体信息个数最大的待选择模板中每个待选择模板所对应实体信息文本字数，并从中确定实体信息文本字数最大的待选择模板为目标模板。

此外，还可以先从M个待选择模板中获取每个待选择模板所对应实体信息文本字数，若实体信息文本字数最大的待选择模板数量不止一个，那么进一步获取这些实体信息文本字数最大的待选择模板中每个待选择模板所对应的实体信息个数，并从中确定实体信息个数最大的待选择模板确定为目标模板。

下面结合图4对本发明实施例中从N个待选择模板中确定目标模板的流程进行一个完整的描述，以语音信息为“播放刘德华的冰雨”为例，根据图3所示的待选择模板的生成过程可以得到“刘德华的冰雨”、“歌手的冰雨”、“刘德华的歌曲”及“歌手的歌曲”4个待选择模板，之后，采用哈希表对这4个待选择模板进行匹配，并得到匹配成功的2个待选择模板分别是“刘德华的冰雨”和“刘德华的歌曲”，进一步，获取到“刘德华的冰雨”这个待选择模板中实体信息个数是2个，“刘德华的歌曲”这个待选择模板中实体信息个数是1个，根据实体信息个数进行排序，并确定实体信息个数最大的待选择模板为目标模板，因此，“刘德华的冰雨”这个待选择模板即为最终确定的目标模板。

为便于理解，下面可以以一个具体应用场景对本发明中语音识别的过程进行详细描述，具体为：

请参阅图5，图5为本发明实施例中用户与智能终端进行语音交互的一个界面示意图，如图所示，用户打开语音交互式应用并点击“话筒”图标即可开始说话，例如，用户发出的语音信息为“播放刘德华的冰雨”，智能终端将该语音信息转发至语音识别装置，随后语音识别装置对该语音信息进行识别后生成与该语音信息对应的语音识别结果，并发送该语音识别结果至智能终端，智能终端可以按照该语音识别结果的指示执行相应的操作。

请参阅图6，图6为本发明实施例中智能终端按照语音识别结果的指示播放音乐的一个界面示意图，智能终端按照语音识别结果的指示由图5所示的界面切换到如图6所示的界面，即打开播放音乐的应用程序，并播放刘德华的“冰雨”这首歌曲。

下面对本发明中的语音识别装置进行详细描述，请参阅图7，图7为本发明实施例中语音识别装置一个实施例示意图，语音识别装置20包括：

接收模块201，用于接收待识别的语音信息；

生成模块202，用于若所述接收模块201接收的所述语音信息中包含至少一个实体信息，则根据所述至少一个实体信息生成N个待选择模板，其中，所述N为大于或等于1的整数；

确定模块203，用于从所述生成模块202生成的所述N个待选择模板中确定目标模板；

获取模块204，用于通过所述确定模块203确定的所述目标模板获取所述待识别的语音信息所对应的语音识别结果。

本实施例中，接收模块201接收待识别的语音信息，若所述接收模块201接收的所述语音信息中包含至少一个实体信息，则生成模块202根据所述至少一个实体信息生成N个待选择模板，其中，所述N为大于或等于1的整数，确定模块203从所述生成模块202生成的所述N个待选择模板中确定目标模板，获取模块204通过所述确定模块203确定的所述目标模板获取所述待识别的语音信息所对应的语音识别结果。

本发明实施例中，首先接收待识别的语音信息，若所述语音信息中包含至少一个实体信息，则根据所述至少一个实体信息生成N个待选择模板，其中，所述N为大于或等于1的整数，随后从所述N个待选择模板中确定目标模板，进而通过所述目标模板获取所述待识别的语音信息所对应的语音识别结果。通过上述方式，先从语音信息中提取实体信息，随后根据实体信息生成待选择模板，再对待选择模板进行校验，与现有技术中先对语音信息进行模板匹配，再校验实体信息的方式相比，本发明的语音识别方法不需要对语音信息中的实体信息进行校验，提高了校验的效率。

可选地，在上述图7所对应的实施例的基础上，请参阅图8，本发明实施例提供的语音识别装置20的另一实施例中，所述语音识别装置20还包括匹配模块205；

所述匹配模块205，用于所述接收模块201接收待识别的语音信息之后，采用正则表达式对所述待识别的语音信息进行匹配，得到匹配结果；

所述获取模块204，还用于根据所述匹配模块205匹配的所述匹配结果获取实体信息数量；

所述确定模块203，还用于若所述获取模块204获取的所述实体信息数量为大于或等于1，则确定所述语音信息中包含至少一个实体信息。

可选地，在上述图8所对应的实施例的基础上，请参阅图9，本发明实施例提供的语音识别装置20的另一实施例中，所述语音识别装置20还包括判断模块206；

所述判断模块206，用于所述获取模块204根据所述匹配结果获取实体信息数量之后，若所述实体信息数量为0，则判断所述待识别的语音信息是否属于预设语音信息集合中的信息；

所述确定模块203，还用于当所述判断模块206判断得到所述待识别的语音信息属于预设语音信息集合中的信息时，则确定所述待识别的语音信息所对应的语音识别结果，其中，所述预设语音信息集合包括至少一个语音模板。

可选地，在上述图7所对应的实施例的基础上，本发明实施例提供的语音识别装置20的另一实施例中，

所述生成模块202，具体用于获取所述至少一个实体信息中每个实体信息所对应的实体类型，其中，所述实体类型用于指示所述实体信息所属的类别；

根据所述每个实体信息所对应的实体类型，生成所述N个待选择模板。

可选地，所述生成模块202，具体用于通过信息类型匹配关系确定所述每个实体信息所对应的实体类型，其中，所述信息类型匹配关系用于指示实体信息与实体类型之间的对应关系；

对所述每个实体信息与所述每个实体信息所对应的实体类型进行组合，得到X个待选择模板，其中，所述X为大于或等于1的整数；

对所述每个实体信息所对应的实体类型进行组合，得到Y个待选择模板，其中，所述Y为大于或等于1的整数；

对所述每个实体信息进行组合，得到Z个待选择模板，其中，所述Z为大于或等于1的整数，且所述X、所述Y与所述Z之和等于所述N。

可选地，在上述图7、图8或图9所对应的实施例的基础上，本发明实施例提供的业务分值确定装置20的另一实施例中，

所述确定模块203，具体用于采用预设语音信息集合对所述N个待选择模板进行匹配；

若所述N个待选择模板中仅有一个待选择模板匹配成功，则将所述仅有一个待选择模板确定为所述目标模板；

若所述N个待选择模板中有M个待选择模板匹配成功，则从所述M个待选择模板中确定所述目标模板，其中，所述M为大于1且小于或等于所述N的整数。

可选地，在上述图7、图8或图9所对应的实施例的基础上，本发明实施例提供的业务分值确定装置20的另一实施例中，所述预设语音信息集合包括哈希表，其中，所述哈希表包含至少一个语音模板以及至少一个语音领域，所述语音模板与所述语音领域具有对应关系；

所述确定模块203，具体用于将所述N个待选择模板与哈希表中的所述至少一个语音模板进行匹配；

若所述N个待选择模板匹配成功，则获取所述N个待选择模板所对应的目标语音领域，其中，所述目标语音领域用于指示所述语音识别结果的应用范围。

所述确定模块203，具体用于从所述M个待选择模板中获取每个待选择模板所对应的实体信息个数；

根据所述每个待选择模板所对应的实体信息个数，将所述实体信息个数最大的待选择模板确定为所述目标模板。

其次，本发明实施例中，介绍了从所述M个待选择模板中确定目标模板的具体方式可以是获取M个待选择模板中每个待选择模板所对应的实体信息个数，并确定实体信息个数最大的待选择模板为目标模板。通过上述方式，实体信息数量多的待选择模板说明与待识别的语音信息相似程度更高，因此，确定实体信息个数最大的待选择模板为目标模板，可以使得模板匹配的准确性更高。

所述确定模块203，，具体用于从所述M个待选择模板中获取每个待选择模板所对应实体信息文本字数；

根据所述每个待选择模板所对应的实体信息文本字数，将所述实体信息文本字数最大的待选择模板确定为所述目标模板。

图10是本发明实施例提供的一种语音识别装置结构示意图，该语音识别装置300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)322(例如，一个或一个以上处理器)和存储器332，一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储介质330通信，在语音识别装置300上执行存储介质330中的一系列指令操作。

语音识别装置300还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由语音识别装置所执行的步骤可以基于该图10所示的语音识别装置结构。

其中，CPU 322用于执行如下步骤：

接收待识别的语音信息；

从所述N个待选择模板中确定目标模板；

可选地，CPU 322还用于执行如下步骤：

采用正则表达式对所述待识别的语音信息进行匹配，得到匹配结果；

根据所述匹配结果获取实体信息数量；

若所述实体信息数量为大于或等于1，则确定所述语音信息中包含至少一个实体信息。

可选地，CPU 322还用于执行如下步骤：

若所述实体信息数量为0，则判断所述待识别的语音信息是否属于预设语音信息集合中的信息，若是，则确定所述待识别的语音信息所对应的语音识别结果，其中，所述预设语音信息集合包括至少一个语音模板。

可选地，CPU 322还用于执行如下步骤：

获取所述至少一个实体信息中每个实体信息所对应的实体类型，其中，所述实体类型用于指示所述实体信息所属的类别；

可选地，CPU 322具体用于执行如下步骤：

通过信息类型匹配关系确定所述每个实体信息所对应的实体类型，其中，所述信息类型匹配关系用于指示实体信息与实体类型之间的对应关系；

可选地，CPU 322还用于执行如下步骤：

采用预设语音信息集合对所述N个待选择模板进行匹配；

可选地，CPU 322还用于执行如下步骤：

将所述N个待选择模板与哈希表中的所述至少一个语音模板进行匹配；

可选地，CPU 322还用于执行如下步骤：

从所述M个待选择模板中获取每个待选择模板所对应的实体信息个数；

可选地，CPU 322还用于执行如下步骤：

从所述M个待选择模板中获取每个待选择模板所对应实体信息文本字数；

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音识别的方法，其特征在于，包括：

接收待识别的语音信息；

从所述N个待选择模板中确定目标模板；

2.根据权利要求1所述的方法，其特征在于，所述根据所述匹配结果获取实体信息数量之后，所述方法还包括：

若所述实体信息数量为0，则判断所述待识别的语音信息是否属于预设语音信息集合中的信息，若是，则确定所述待识别的语音信息对应的语音识别结果，其中，所述预设语音信息集合包括至少一个语音模板。

3.根据权利要求1所述的方法，其特征在于，所述根据所述至少一个实体信息生成N个待选择模板，包括：

4.根据权利要求3所述的方法，其特征在于，所述获取所述至少一个实体信息中每个实体信息所对应的实体类型，包括：

所述根据所述每个实体信息所对应的实体类型，生成所述N个待选择模板，包括：

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述从所述N个待选择模板中确定目标模板，包括：

采用预设语音信息集合对所述N个待选择模板进行匹配；

6.根据权利要求5所述的方法，其特征在于，所述预设语音信息集合包括哈希表，其中，所述哈希表包含至少一个语音模板以及至少一个语音领域，所述语音模板与所述语音领域具有对应关系；

所述采用预设语音信息集合对所述N个待选择模板进行匹配，包括：

7.根据权利要求5所述的方法，其特征在于，所述从所述M个待选择模板中确定所述目标模板，包括：

8.根据权利要求5或7所述的方法，其特征在于，所述从所述M个待选择模板中确定所述目标模板，包括：

9.一种语音识别装置，其特征在于，包括：

接收模块，用于接收待识别的语音信息；

生成模块，用于若所述接收模块接收的所述语音信息中包含至少一个实体信息，则根据所述至少一个实体信息生成N个待选择模板，其中，所述N为大于或等于1的整数；

确定模块，用于从所述生成模块生成的所述N个待选择模板中确定目标模板；

获取模块，用于通过所述确定模块确定的所述目标模板获取所述待识别的语音信息所对应的语音识别结果。

10.根据权利要求9所述的语音识别装置，其特征在于，

所述获取模块，具体用于获取所述至少一个实体信息中每个实体信息所对应的实体类型，其中，所述实体类型用于指示所述实体信息所属的类别；

所述生成模块，具体用于根据所述每个实体信息所对应的实体类型，生成所述N个待选择模板。

11.根据权利要求9或10所述的语音识别装置，其特征在于，

所述确定模块，具体采用预设语音信息集合对所述N个待选择模板进行匹配；

12.一种语音识别装置，其特征在于，包括：存储器、处理器；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

接收待识别的语音信息；

从所述N个待选择模板中确定目标模板；

13.根据权利要求12所述的语音识别装置，其特征在于，所述处理器还用于执行如下步骤：

14.根据权利要求12或13所述的语音识别装置，其特征在于，所述处理器还用于执行如下步骤：

采用预设语音信息集合对所述N个待选择模板进行匹配；

15.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至8中任一项所述的方法。