CN108899030A

CN108899030A - 一种语音识别方法及装置

Info

Publication number: CN108899030A
Application number: CN201810751935.1A
Authority: CN
Inventors: 徐佳宏; 陈欢
Original assignee: Shenzhen Ipanel TV Inc
Current assignee: Shenzhen Ipanel TV Inc
Priority date: 2018-07-10
Filing date: 2018-07-10
Publication date: 2018-11-27

Abstract

本申请公开了一种语音识别方法及装置，首先确定与当前应用场景对应的关键词集合，然后获取语音数据，将语音数据与关键词集合中的关键词进行识别匹配，若匹配成功，输出识别结果，若匹配不成功，将语音数据与词库中的字词进行识别匹配，并输出识别结果。该语音识别方法及装置由于针对不同的应用场景设置了对应的关键词集合，关键词集合中可以设置对应应用场景中经常使用的词语，因此在特定应用场景下，语音数据与关键词集合中具有针对性的关键词进行匹配的成功率就会很高。这样语音数据只需要在小范围的关键词集合中进行识别匹配，而无需在包含所有字词的词库中进行大范围的识别匹配，能够有效提高语音识别速度和识别准确率，提升用户的使用体验。

Description

一种语音识别方法及装置

技术领域

本发明涉及智能识别，更具体的说，是涉及一种语音识别方法及装置。

背景技术

现在越来越多的电子设备都具备语音识别功能。语音识别功能能够让用户解放双手，降低控制设备过程的复杂度。

语音识别技术的工作原理是，语音采集设备采集用户语音，然后将用户语音发送给语音识别系统，语音识别系统从词库中找到发音最相似的汉字或词语组合为语音识别结果。但是，由于词库中包含所有字、词语甚至是语句，语音识别系统在识别语音的过程中，需要将用户语音与大量的字词进行匹配，这就导致语音识别速度比较慢。且中国的汉字同音字非常多，如青色和青涩，这就使得识别出的结果常常与实际情况不符，识别准确率低。

发明内容

有鉴于此，本发明提供了一种语音识别方法及装置，以克服现有技术中语音识别速度慢，识别准确率低的问题。

为实现上述目的，本发明提供如下技术方案：

一种语音识别方法，包括：

确定与当前应用场景对应的关键词集合；

获取语音数据；

将所述语音数据与所述关键词集合中的关键词进行识别匹配；

若匹配成功，输出识别结果；

若匹配不成功，将所述语音数据与词库中的字词进行识别匹配，并输出识别结果。

可选的，所述关键词集合包括通用关键词和场景关键词，则所述将所述语音数据与所述关键词集合中的关键词进行识别匹配，包括：

将所述语音数据与所述关键词集合中的场景关键词进行识别匹配；

若匹配失败，将所述语音数据与所述关键词集合中的通用关键词进行识别匹配。

可选的，还包括：

预先配置好每一个应用场景与关键词集合的对应关系。

可选的，还包括：

将多次识别结果中出现次数满足预设值的词语设定为高频词，并设置在所述关键词集合中关键词队列的前部。

可选的，还包括：

将所述关键词集合中的关键词的同义词添加至所述关键词集合中。

一种语音识别装置，包括：

集合确定模块，用于确定与当前应用场景对应的关键词集合；

语音获取模块，用于获取语音数据；

关键词匹配模块，用于将所述语音数据与所述关键词集合中的关键词进行识别匹配；

结果输出模块，用于在所述关键词匹配模块匹配成功时，输出识别结果；

词库匹配输出模块，用于在所述关键词匹配模块匹配失败时，将所述语音数据与词库中的字词进行识别匹配，并输出识别结果。

可选的，所述关键词集合包括通用关键词和场景关键词，则所述关键词匹配模块包括：

第一匹配模块，用于将所述语音数据与所述关键词集合中的场景关键词进行识别匹配；

第二匹配模块，用于在所述第一匹配模块匹配失败后，将所述语音数据与所述关键词集合中的全局关键词进行识别匹配。

可选的，还包括：

配置模块，用于预先配置好每一个应用场景与关键词集合的对应关系。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现上述任一种所述的语音识别方法。

一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行上述任一种所述的语音识别方法。

经由上述的技术方案可知，与现有技术相比，本发明实施例公开了一种语音识别方法及装置，首先确定与当前应用场景对应的关键词集合，然后获取语音数据，将语音数据与所述关键词集合中的关键词进行识别匹配，若匹配成功，输出识别结果，若匹配不成功，将语音数据与词库中的字词进行识别匹配，并输出识别结果。所述语音识别方法及装置由于针对不同的应用场景设置了对应的关键词集合，关键词集合中可以设置对应应用场景中经常使用的词语，因此在特定应用场景下，语音数据与关键词集合中具有针对性的关键词进行匹配的成功率就会很高。这样语音数据只需要在小范围的关键词集合中进行识别匹配，而无需在包含所有字词的词库中进行大范围的识别匹配，能够有效提高语音识别速度和识别准确率，提升用户的使用体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例公开的一种语音识别方法的流程图；

图2为本发明实施例公开的关键词识别匹配流程图；

图3为本发明实施例公开的另一种语音识别方法的流程图；

图4为本发明实施例公开的又一种语音识别方法的流程图；

图5为本发明实施例公开的一种语音识别装置的结构示意图；

图6为本发明实施例公开的关键词匹配模块的结构示意图；

图7为本发明实施例公开的另一种语音识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例公开的一种语音识别方法的流程图，参见图1所示，语音识别方法可以包括：

步骤101：确定与当前应用场景对应的关键词集合。

本实施例所述的语音识别方法可以应用于具备语音识别功能的电子设备。可以预先在电子设备中配置好所述电子设备在工作过程中具有的应用场景以及与应用场景对应的关键词集合。所述关键词集合中的关键词为所述关键词集合对应的应用场景会用到的词语，例如，当所述电子设备为机顶盒，应用场景为直播，则其关键词可以包括“下个频道”、“上个频道”、“收藏频道”等词语。

步骤102：获取语音数据。

在电子设备工作过程中，用户可以通过电子设备的语音采集设备输入语音，电子设备获取用户的语音数据。

步骤103：将所述语音数据与所述关键词集合中的关键词进行识别匹配，进入步骤104或步骤105。

由于当前应用场景是固定的，当前应用场景对应的关键词集合也确定了，因此，在获取用户输入的语音数据后，首先将所述语音数据与所述关键词集合中的关键词进行识别匹配。而所述关键词集合中的关键词为预先设置好的、当前应用场景经常会用到的关键词，因此，将所述语音数据与当前应用场景对应的所述关键词集合中的关键词进行识别匹配，匹配成功的概率很高。且由于相对于整个词库，关键词集合中的关键词数量要远远少于词库中的词语，因此，本实施例公开的语音识别方法在很多情况下都能够缩短语音识别速度。

此外，由于中国的汉字同音字和同音词特别多，如“汉字”和“汗渍”，在语音识别过程中，很可能识别出的结果与实际用户想要输入的词句差别很大。而本实施例中，关键词集合中的关键词由于是根据应用场景预先设定的，因此其符合用户真实想要输入内容的可能性更大，本实施例在获取语音数据后首先将语音数据与确定的关键词集合中的关键词进行识别匹配，相对于将语音数据与词库中的所有词语进行识别匹配，具有更高的识别准确率。

步骤104：若匹配成功，输出识别结果。

若所述语音数据与所述关键词集合中的某个关键词匹配成功，可直接输出识别结果。

步骤105：若匹配不成功，将所述语音数据与词库中的字词进行识别匹配，并输出识别结果。

若所述语音数据与所述关键词集合中的某个关键词匹配失败，则可以进一步按照正常的语音识别流程，将所述语音数据与词库中的词语进行识别匹配，并输出识别结果。

本实施例中，所述语音识别方法由于针对不同的应用场景设置了对应的关键词集合，关键词集合中可以设置对应应用场景中经常使用的词语，因此在特定应用场景下，语音数据与关键词集合中具有针对性的关键词进行匹配的成功率就会很高。这样语音数据只需要在小范围的关键词集合中进行识别匹配，而无需在包含所有字词的词库中进行大范围的识别匹配，能够有效提高语音识别速度和识别准确率，提升用户的使用体验。

在一个示意性的示例中，所述关键词集合可以包括通用关键词和场景关键词。其中，通用关键词是所有场景都可以识别的关键词，例如，在所述电子设备为机顶盒时，通用关键词可以包括“音量加大”、“音量减小”、“静音”、“确定”、“取消”等；场景关键词是针对不同场景的特有的关键词，如在直播场景下，场景关键词可以包括“上个频道”、“下个频道”、“收藏频道”等。

图2为本发明实施例公开的关键词识别匹配流程图，如图2所示，在所述关键词集合可以包括通用关键词和场景关键词的情况下，所述将所述语音数据与所述关键词集合中的关键词进行识别匹配，可以包括：

步骤201：将所述语音数据与所述关键词集合中的场景关键词进行识别匹配。

在特定的应用场景下，用户输入的语音数据可能对应该特定的应用场景下才会使用的关键词，因此，首先将所述语音数据与所述关键词集合中的场景关键词进行识别匹配。

步骤202：若匹配失败，将所述语音数据与所述关键词集合中的通用关键词进行识别匹配。

若场景关键词均匹配失败，则说明用户输入的语音数据可能为通用关键词，进一步将所述语音数据与所述关键词集合中的通用关键词进行识别匹配。

在上述本发明公开的实施例的基础上，图3公开了另一种语音识别方法的流程图，如图3所示，语音识别方法可以包括：

步骤301：预先配置好每一个应用场景与关键词集合的对应关系。

本实施例适用于第一次使用关键词集合进行语音数据的识别匹配的情况。使用关键词集合进行语音数据的识别匹配，需要预先配置好每一个应用场景与关键词集合的对应关系，便于后续在进行语音数据与关键词集合进行识别匹配时，直接调用对应的关键词集合。

步骤302：确定与当前应用场景对应的关键词集合。

步骤303：获取语音数据。

步骤304：将所述语音数据与所述关键词集合中的关键词进行识别匹配，进入步骤305或步骤306。

步骤305：若匹配成功，输出识别结果。

步骤306：若匹配不成功，将所述语音数据与词库中的字词进行识别匹配，并输出识别结果。

本实施例中，预先配置好每一个应用场景与关键词集合的对应关系，便于后续在进行语音数据与关键词集合进行识别匹配时，直接调用对应的关键词集合。

图4为本发明实施例公开的又一种语音识别方法的流程图，结合图4所示，语音识别方法可以包括：

步骤401：确定与当前应用场景对应的关键词集合。

步骤402：获取语音数据。

步骤403：将所述语音数据与所述关键词集合中的关键词进行识别匹配，进入步骤404或步骤405。

步骤404：若匹配成功，输出识别结果。

步骤405：若匹配不成功，将所述语音数据与词库中的字词进行识别匹配，并输出识别结果。

步骤406：将多次识别结果中出现次数满足预设值的词语设定为高频词，并设置在所述关键词集合中关键词队列的前部。

在实施上述实施例一所述的语音识别方法一段时间后，识别结果中某个词语出现的次数满足一定次数时，可以将该词语设置为高频词，并且将确定的高频词放在所述关键词集合中关键词队列的前部，使得后续在进行语音数据与关键词集合的识别匹配过程中，能够更早的将语音数据与高频词进行匹配，加快识别的速度。

步骤407：将所述关键词集合中的关键词的同义词添加至所述关键词集合中。

系统可以根据关键词集合中的关键词自动添加一些同义词，如“加大”的同义词可以是“增大”，“音量”的同义词可以是“声音”。通过关键词集合中的同义词扩展，可以提高识别率。

本实施例中，进行了高频词优先识别匹配和同义词扩展的相关设置，有利于进一步提高语音识别速度和识别率。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

上述本发明公开的实施例中详细描述了方法，对于本发明的方法可采用多种形式的装置实现，因此本发明还公开了一种装置，下面给出具体的实施例进行详细说明。

图5为本发明实施例公开的一种语音识别装置的结构示意图，参见图5所示，语音识别装置50可以包括：

集合确定模块501，用于确定与当前应用场景对应的关键词集合。

语音获取模块502，用于获取语音数据。

关键词匹配模块503，用于将所述语音数据与所述关键词集合中的关键词进行识别匹配。

结果输出模块504，用于在所述关键词匹配模块503匹配成功时，输出识别结果。

词库匹配输出模块505，用于在所述关键词匹配模块503匹配失败时，将所述语音数据与词库中的字词进行识别匹配，并输出识别结果。

本实施例中，所述语音识别装置由于针对不同的应用场景设置了对应的关键词集合，关键词集合中可以设置对应应用场景中经常使用的词语，因此在特定应用场景下，语音数据与关键词集合中具有针对性的关键词进行匹配的成功率就会很高。这样语音数据只需要在小范围的关键词集合中进行识别匹配，而无需在包含所有字词的词库中进行大范围的识别匹配，能够有效提高语音识别速度和识别准确率，提升用户的使用体验。

图6为本发明实施例公开的关键词匹配模块的结构示意图，参见图6所示，关键词匹配模块503可以包括：

第一匹配模块601，用于将所述语音数据与所述关键词集合中的场景关键词进行识别匹配。

第二匹配模块602，用于在所述第一匹配模块匹配失败后，将所述语音数据与所述关键词集合中的全局关键词进行识别匹配。

在其他的实施例中，语音识别装置除了上述内容公开的各模块外，还可以包括配置模块，用于预先配置好每一个应用场景与关键词集合的对应关系。使用关键词集合进行语音数据的识别匹配，需要预先配置好每一个应用场景与关键词集合的对应关系，便于后续在进行语音数据与关键词集合进行识别匹配时，直接调用对应的关键词集合。

图7为本发明实施例公开的另一种语音识别装置的结构示意图，参见图7所示，语音识别装置70可以包括：

语音获取模块502，用于获取语音数据。

结果输出模块504，用于在所述关键词匹配模块匹配成功时，输出识别结果。

词库匹配输出模块505，用于在所述关键词匹配模块匹配失败时，将所述语音数据与词库中的字词进行识别匹配，并输出识别结果。

高频词设置模块701，用于将多次识别结果中出现次数满足预设值的词语设定为高频词，并设置在所述关键词集合中关键词队列的前部。

同义词扩展模块702，用于将所述关键词集合中的关键词的同义词添加至所述关键词集合中。

上述实施例中的所述的任意一种语音识别装置包括处理器和存储器，上述实施例中的集合确定模块、语音获取模块、关键词匹配模块、结果输出模块、词库匹配输出模块、第一匹配模块、第二匹配模块、配置模块等均作为程序模块存储在存储器中，由处理器执行存储在所述存储器中的上述程序模块来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序模块。内核可以设置一个或多个，通过调整内核参数来实现回访数据的处理。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现上述实施例中所述的语音识别方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述实施例中所述的语音识别方法。

进一步，本实施例提供了一种电子设备，包括处理器以及存储器。其中存储器用于存储所述处理器的可执行指令，所述处理器配置为经由执行所述可执行指令来执行上述实施例中所述的语音识别方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音识别方法，其特征在于，包括：

确定与当前应用场景对应的关键词集合；

获取语音数据；

若匹配成功，输出识别结果；

2.根据权利要求1所述的语音识别方法，其特征在于，所述关键词集合包括通用关键词和场景关键词，则所述将所述语音数据与所述关键词集合中的关键词进行识别匹配，包括：

3.根据权利要求1所述的语音识别方法，其特征在于，还包括：

预先配置好每一个应用场景与关键词集合的对应关系。

4.根据权利要求1所述的语音识别方法，其特征在于，还包括：

5.根据权利要求1所述的语音识别方法，其特征在于，还包括：

6.一种语音识别装置，其特征在于，包括：

语音获取模块，用于获取语音数据；

7.根据权利要求6所述的语音识别装置，其特征在于，所述关键词集合包括通用关键词和场景关键词，则所述关键词匹配模块包括：

8.根据权利要求6所述的语音识别装置，其特征在于，还包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1～5任一项所述的语音识别方法。

10.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1～5任一项所述的语音识别方法。