CN114120977A

CN114120977A - 语音识别的生词自学习方法和装置

Info

Publication number: CN114120977A
Application number: CN202111394632.7A
Authority: CN
Inventors: 康弦; 张钦; 刘皓
Original assignee: Sichuan Hongmei Intelligent Technology Co Ltd
Current assignee: Sichuan Hongmei Intelligent Technology Co Ltd
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2022-03-01

Abstract

本发明提供了一种语音识别的生词自学习方法和装置，该方法包括：获取待语音识别的音频信息；根据预先存储的语音识别词条库对音频信息进行识别；若对音频信息不能进行识别，则获取用户根据音频信息所得到的识别结果；根据识别结果更新语音识别词条库。本方案能够提高语音识别的识别率。

Description

语音识别的生词自学习方法和装置

技术领域

本发明涉及语音识别技术领域，特别涉及一种语音识别的生词自学习方法和装置。

背景技术

随着科技技术的迅猛发展，各种设备的功能性也变得越来越强。比如，越来越多的设备可以通过语音识别执行相应的操作。

然而，在语音识别过程中，对于系统已经存储过的或者常用到的词，音频信息能够被准确地进行识别。而当音频信息中包含新的生词时，比如近期才出现的网络流行词时，一般无法及时识别，通常需要后台人工更新相应的词库后才能识别。因此，语音识别的识别率经常不高。

发明内容

本发明提供了一种语音识别的生词自学习方法和装置，能够提高语音识别的识别率。

第一方面，本发明实施例提供了一种语音识别的生词自学习方法，包括：

获取待语音识别的音频信息；

根据预先存储的语音识别词条库对所述音频信息进行识别；

若对所述音频信息不能进行识别，则获取用户根据所述音频信息所得到的识别结果；

根据所述识别结果更新所述语音识别词条库。

在一种可能的实现方式中，根据所述音频信息得到识别结果的方法，包括：

根据所述音频信息，确定至少一个发音相似的初级识别结果；

将所述至少一个发音相似的初级识别结果分发给至少一个用户；

获取各个用户从所述至少一个发音相似的初级识别结果中确认的至少一个次级识别结果；

根据各个所述次级识别结果确定所述识别结果。

在一种可能的实现方式中，所述根据各个所述次级识别结果确定所述识别结果，包括：

对各个所述次级识别结果的确认人数进行统计；

将各个次级识别结果的确认人数与预先设定的正确识别人数阈值进行比较；其中，所述正确识别人数阈值根据将所述初级识别结果发送给的用户数量确定；

将各个次级识别结果中确认人数大于所述正确识别人数阈值，且确认人数最多的次级识别结果确定为识别结果。

在一种可能的实现方式中，所述根据所述识别结果更新所述语音识别词条库，包括：

将各个次级识别结果的确认人数与预先设定的词条更新人数阈值进行比较；其中，所述词条更新人数阈值小于所述正确识别人数阈值；

将各个次级识别结果中确认人数大于所述词条更新人数阈值的次级识别结果词条更新识别结果；

根据所述词条更新识别结果更新所述语音识别词条库。

在一种可能的实现方式中，所述获取待语音识别的音频信息，包括：

采集至少一个初级音频信息；

对所述至少一个初级音频信息的声纹进行识别；其中，一种声纹唯一对应发出所述初级音频信息的一个人；

在每一种声纹中选取一个初级音频信息；以及，

将选取到的各个初级音频信息确定为所述待识别的音频信息。

第二方面，本发明实施例提供了语音识别的生词自学习装置，包括：音频信息获取模块、音频信息识别模块、识别结果获取模块和词库更新模块；

所述音频信息获取模块，用于获取待语音识别的音频信息；

所述音频信息识别模块，用于根据预先存储的语音识别词条库对所述音频信息获取模块获取到的所述音频信息进行识别；

所述识别结果获取模块，用于若所述音频信息识别模块对所述音频信息不能进行识别，则获取用户根据所述音频信息所得到的识别结果；

所述词库更新模块，用于根据所述识别结果获取模块获取到的所述识别结果更新所述语音识别词条库。

在一种可能的实现方式中，所述识别结果获取模块在根据所述音频信息得到识别结果时，配置成执行如下操作：

根据各个所述次级识别结果确定所述识别结果。

在一种可能的实现方式中，所述识别结果获取模块在根据各个所述次级识别结果确定所述识别结果时，配置成执行如下操作：

对各个所述次级识别结果的确认人数进行统计；

在一种可能的实现方式中，所述词库更新模块在根据所述识别结果更新所述语音识别词条库时，配置成执行如下操作：

根据所述词条更新识别结果更新所述语音识别词条库。

在一种可能的实现方式中，所述音频信息获取模块在获取待语音识别的音频信息时，配置成执行如下操作：

采集至少一个初级音频信息；

在每一种声纹中选取一个初级音频信息；以及，

由上述技术方案可知，在进行语音识别时，首先获取待语音识别的音频信息，然后利用预先存储的语音识别词条库对该音频信息进行识别，如果该音频信息不能进行识别，那么可以获取用户根据该音频信息所得到的识别结果，从而进一步根据该识别结果对语音识别词条库进行更新。由此可见，本方案在进行语音识别时，遇到无法识别的音频信息，会从用户获取关于该音频信息的识别结果，即由用户来确定该音频信息的识别结果。如此利用用户确认的识别结果对语音识别词条库进行更新，能够实现生词的自学习，从而提高后续语音识别的识别率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的语音识别的生词自学习方法的流程图；

图2是本发明一个实施例提供的识别结果确定方法的流程图；

图3是本发明另一个实施例提供的识别结果确定方法的流程图；

图4是本发明一个实施例提供的更新语音识别词条库方法的流程图；

图5是本发明一个实施例提供的语音识别的生词自学习装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如前，随着科学技术的迅猛发展，各种设备的功能性也变得越来越强。比如，越来越多的设备可以通过语音识别执行相应的操作。

然而，在语音识别过程中，对于系统已经存储过的或者常用到的词，音频信息能够被准确地进行识别。而当音频信息中包含新的生词时，一般无法及时识别，通常需要后台人工更新相应的词库后才能识别。比如，在语音识别过程中，如果是最近几天才出现的网络流行词“A五A”，那么这个词在后台人工更新词库之前都是无法准确识别的。

如果能在出现这种流行词的时候，自动将该词添加到语音识别词条库中，那么既可以降低运营成本，又可以提高语音识别率和用户的使用体验。基于此，本方案在语音识别的过程中，当不能进行识别时，将语音信息交由用户进行确认，由用户根据语音信息进行识别结果的确认，进而利用该识别结果完成对语音识别词条库的更新。以此来减少后台人工更新所造成的运营成本，以及提高后续语音识别的识别率。

下面对本发明提供的一种语音识别的生词自学习方法和装置作进一步详细地说明。

如图1所示，本发明实施例提供了一种语音识别的生词自学习方法，该方法可以包括如下步骤：

步骤101：获取待语音识别的音频信息；

步骤102：根据预先存储的语音识别词条库对音频信息进行识别；

步骤103：若对音频信息不能进行识别，则获取用户根据音频信息所得到的识别结果；

步骤104：根据识别结果更新语音识别词条库。

本发明实施例中，在进行语音识别时，首先获取待语音识别的音频信息，然后利用预先存储的语音识别词条库对该音频信息进行识别，如果该音频信息不能进行识别，那么可以获取用户根据该音频信息所得到的识别结果，从而进一步根据该识别结果对语音识别词条库进行更新。由此可见，本方案在进行语音识别时，遇到无法识别的音频信息，会从用户获取关于该音频信息的识别结果，即由用户来确定该音频信息的识别结果。如此利用用户确认的识别结果对语音识别词条库进行更新，能够实现生词的自学习，从而提高后续语音识别的识别率。

在获取待识别的音频信息时，可以是由用户发出的用于控制电子设备的语音。比如，对于具有语音功能的空调来说，该音频信息可以是用户发出的进行空调温度调节的语音命令词。

当音频信息能够识别时，说明音频信息对应的不是生词，语音识别词条库中有该词的存储记录，进而能够得到识别结果。而音频信息不能被识别时，说明该音频信息所对应的词是生词，在语音识别词条库中没有存储。此时可以考虑由不同的用户来根据该音频信息进行识别结果的确认，由用户来决定该音频信息所对应的识别结果应该是什么。比如，10个用户中，有6个用户认为该音频信息对应的是“A”这个词，那么将识别结果确定为“A”，并将该生词更新到语音识别词条库中。

比如，在一种可能的实现方式中，如图2所示，步骤103在根据音频信息得到识别结果时可以包括如下步骤：

步骤201：根据音频信息，确定至少一个发音相似的初级识别结果；

步骤202：将至少一个发音相似的初级识别结果分发给至少一个用户；

步骤203：获取各个用户从至少一个发音相似的初级识别结果中确认的至少一个次级识别结果；

步骤204：根据各个次级识别结果确定识别结果。

在本实施例中，考虑根据音频信息先确定至少一个发音相似的初级识别结果，然后将确定的这些初级识别结果分发给至少一个用户，用户会根据发送的各个发音相似的初级识别结果确认哪个是用户认为正确的识别结果。进一步，获取用各个用户确认的次级识别结果，并根据该次级识别结果确定识别结果，以进一步对语音识别词条库进行更新。

比如，这个音频信息的接近词应该为:A五A、A无A、A伍A、A物A等等，将这些词平均返回给不同的用户，然后根据用户的判断结果反馈给识别系统。比如：用户A返回的”A五A“，用户B返回的“A无A”、用户C返回的“A物A”等。在根据用户返回的次级识别结果确定识别结果时，可以依据投票原则，根据返回的不同结果的所占人数的比例来确定。也就是说，当某一个次级识别结果确认的人数比例达到某一预定值时，即可认为该识别结果。

比如，100人采集到有20人共50次都确认“A五A”为正确的词)，那么系统可以确认该词为该音频的识别词，自动添加到后台词库，以后识别引擎可以正确识别出该词，完成自学习流程。

需要指出的是，用户在从发音相似的初级识别结果中确认次级识别结果时，可以通过直接从这些初级识别结果中进行选择确认。在另一些可能的实施例中，还可以通过查询用户输入法的词库，从词库中选择有记录的词作为识别结果。当有记录的词存在多个时，可以考虑将历史输入最频繁的词作为当前音频信息的次级识别结果。

在一种可能的实现方式中，如图3所示，步骤204在根据各个次级识别结果确定识别结果时，可以通过如下方式实现：

步骤301：对各个次级识别结果的确认人数进行统计；

步骤302：将各个次级识别结果的确认人数与预先设定的正确识别人数阈值进行比较；其中，正确识别人数阈值根据将初级识别结果发送给的用户数量确定；

步骤303：将各个次级识别结果中确认人数大于正确识别人数阈值，且确认人数最多的次级识别结果确定为识别结果。

本发明实施例中，在根据次级识别结果确定识别结果时，首先可以对各用户返回的各个次级识别结果的确认人数进行统计，然后将各个次级识别结果的确认人数与预先设定的正确识别人数阈值进行比较，从而将次级识别结果中确认人数大于正确识别人数阈值，且确认人数最多的次级识别结果确定为识别结果。

比如，音频信息的接近词应该为:A五A、A无A、A伍A、A物A四种，将该四种发音接近的初级识别结果发送给100个用户，用户返回的次级识别结果中，A五A确认的人数为4人，A无A确认的人数为1人，A伍A确认的人数为5人，A物A确认的人数为90人。设定的对应100个用户的正确识别人数阈值为85，那么可以确定该识别结果为A物A。

再比如，当用户返回的次级识别结果中，A五A确认的人数为5人，A无A确认的人数为40人，A伍A确认的人数为5人，A物A确认的人数为50人。设定的对应100个用户的正确识别人数阈值为35，那么显然A无A和A物A的确认人数都达到超过了正确识别人数阈值，此时可以取确认人数较大的作为识别结果。

又比如，当用户返回的次级识别结果中，每种次级识别结果的确认人数都没有达到正确识别人数阈值时，可以考虑重新确定初级识别结果，并将重新确定的初级识别结果再次发送给用户进行确认。或者还可以考虑提醒发出该音频信息的声源再次发生，通过再次进行音频信息采集后执行上述各步骤的操作。

值得指出的是，如果对于同一音频信息的识别，用户在返回识别结果时，返回了多次结果，那么该用户返回的同一个次级识别结果只取一次。避免由于个别用户的多次返回结果而影响到识别结果。当然，在一些可能的实现方式中，可以对用户返回次级识别结果的次数进行限定。在另一些可能的诗仙女方式中，还可以根据用户返回次级识别结果的次数来确定识别结果。

在一种可能的实现方式中，如图4所示，步骤104在根据识别结果更新语音识别词条库时，还可以包括如下步骤：

步骤401：将各个次级识别结果的确认人数与预先设定的词条更新人数阈值进行比较；其中，词条更新人数阈值小于正确识别人数阈值；

步骤402：将各个次级识别结果中确认人数大于词条更新人数阈值的次级识别结果词条更新识别结果；

步骤403：根据词条更新识别结果更新语音识别词条库。

考虑到有些词虽然不是当前音频信息所对应的识别结果，但也用一部分人会用到该词。出于下次识别时能够更加准确的进行音频信息识别的目的，以及扩充丰富语音识别词条库的目的。本实施例中，考虑将各个次级识别结果的确认人数与预先设定的词条更新人数阈值进行对比，进而将确认人数超过词条更新人数阈值的各个次级识别结果多作为词条更新识别结果，从而将这些词条更新识别结果都更新到语音识别词条库中能够。

本实施例中，词条更新人数阈值小于正确识别人数阈值，如此能够将更多具有应用可能的词添加到语音识别词条库中，从而扩充丰富了语音识别词条库，也提高了后续语音识别的识别率。

在一种可能的实现方式中，步骤101在获取待语音识别的音频信息时，可以通过如下方式实现：

采集至少一个初级音频信息；

对至少一个初级音频信息的声纹进行识别；其中，一种声纹唯一对应发出初级音频信息的一个人；

在每一种声纹中选取一个初级音频信息；以及，

将选取到的各个初级音频信息确定为待识别的音频信息。

本实施例中，在采集到初级音频信息之后，首先可以考虑对该初级意难平信息的声纹进行识别，以确定是由哪一个声源发出的，或由哪个人发出的该音频信息。如此在每一种声纹中选取一个初级音频信息，并将选取到的各个初级音频信息确定为待识别的音频信息。如此，避免由于一个人对于同一个词发送了多次，而把本来是生词的音频信息当成了不是生词，从而影响了识别结果。

本实施例中，通过声纹识别的方法，比如通过分析音频信息的频率等，将初级音频信息按照声纹的不同进行分类，也就是按照不同的发出音频信息的人将初级音频信息进行分类，对于同一初级音频信息同一用户发送多次的情况只取其中一次即可。

如图5所示，本发明实施例提供了一种语音识别的生词自学习装置，该装置可以包括：音频信息获取模块501、音频信息识别模块502、识别结果获取模块503和词库更新模块504；

音频信息获取模块501，用于获取待语音识别的音频信息；

音频信息识别模块502，用于根据预先存储的语音识别词条库对音频信息获取模块501获取到的音频信息进行识别；

识别结果获取模块503，用于若音频信息识别模块502对音频信息不能进行识别，则获取用户根据音频信息所得到的识别结果；

词库更新模块504，用于根据识别结果获取模块503获取到的识别结果更新语音识别词条库。

在一种可能的实现方式中，识别结果获取模块503在根据音频信息得到识别结果时，配置成执行如下操作：

根据音频信息，确定至少一个发音相似的初级识别结果；

将至少一个发音相似的初级识别结果分发给至少一个用户；

获取各个用户从至少一个发音相似的初级识别结果中确认的至少一个次级识别结果；

根据各个次级识别结果确定识别结果。

在一种可能的实现方式中，识别结果获取模块503在根据各个次级识别结果确定识别结果时，配置成执行如下操作：

对各个次级识别结果的确认人数进行统计；

将各个次级识别结果的确认人数与预先设定的正确识别人数阈值进行比较；其中，正确识别人数阈值根据将初级识别结果发送给的用户数量确定；

将各个次级识别结果中确认人数大于正确识别人数阈值，且确认人数最多的次级识别结果确定为识别结果。

在一种可能的实现方式中，词库更新模块504在根据识别结果更新语音识别词条库时，配置成执行如下操作：

将各个次级识别结果的确认人数与预先设定的词条更新人数阈值进行比较；其中，词条更新人数阈值小于正确识别人数阈值；

将各个次级识别结果中确认人数大于词条更新人数阈值的次级识别结果词条更新识别结果；

根据词条更新识别结果更新语音识别词条库。

在一种可能的实现方式中，音频信息获取模块501在获取待语音识别的音频信息时，配置成执行如下操作：

采集至少一个初级音频信息；

在每一种声纹中选取一个初级音频信息；以及，

将选取到的各个初级音频信息确定为待识别的音频信息。

可以理解的是，本发明实施例示意的结构并不构成对语音识别的生词自学习装置的具体限定。在本发明的另一些实施例中，语音识别的生词自学习装置可以包括比图示更多或者更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。

上述装置内的各模块之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本发明实施例还提供了一种计算设备，包括：至少一个存储器和至少一个处理器；

至少一个存储器，用于存储机器可读程序；

至少一个处理器，用于调用机器可读程序，执行本发明任一实施例中的语音识别的生词自学习方法。

本发明实施例还提供了一种计算机可读介质，存储用于使一计算机执行如本文的语音识别的生词自学习方法的指令。具体地，可以提供配有存储介质的方法或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该方法或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作方法等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

上述对本发明特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.语音识别的生词自学习方法，其特征在于，包括：

获取待语音识别的音频信息；

根据预先存储的语音识别词条库对所述音频信息进行识别；

根据所述识别结果更新所述语音识别词条库。

2.根据权利要求1所述的方法，其特征在于，根据所述音频信息得到识别结果的方法，包括：

根据各个所述次级识别结果确定所述识别结果。

3.根据权利要求2所述的方法，其特征在于，所述根据各个所述次级识别结果确定所述识别结果，包括：

对各个所述次级识别结果的确认人数进行统计；

4.根据权利要求3所述的方法，其特征在于，所述根据所述识别结果更新所述语音识别词条库，包括：

根据所述词条更新识别结果更新所述语音识别词条库。

5.根据权利要求1至4中任一所述的方法，其特征在于，所述获取待语音识别的音频信息，包括：

采集至少一个初级音频信息；

在每一种声纹中选取一个初级音频信息；以及，

6.语音识别的生词自学习装置，其特征在于，包括：音频信息获取模块、音频信息识别模块、识别结果获取模块和词库更新模块；

所述音频信息获取模块，用于获取待语音识别的音频信息；

7.根据权利要求6所述的装置，其特征在于，所述识别结果获取模块在根据所述音频信息得到识别结果时，配置成执行如下操作：

根据各个所述次级识别结果确定所述识别结果。

8.根据权利要求7所述的装置，其特征在于，所述识别结果获取模块在根据各个所述次级识别结果确定所述识别结果时，配置成执行如下操作：

对各个所述次级识别结果的确认人数进行统计；

9.根据权利要求8所述的装置，其特征在于，所述词库更新模块在根据所述识别结果更新所述语音识别词条库时，配置成执行如下操作：

根据所述词条更新识别结果更新所述语音识别词条库。

10.根据权利要求6至9中任一所述的装置，其特征在于，所述音频信息获取模块在获取待语音识别的音频信息时，配置成执行如下操作：

采集至少一个初级音频信息；

在每一种声纹中选取一个初级音频信息；以及，