CN108717851B

CN108717851B - 一种语音识别方法及装置

Info

Publication number: CN108717851B
Application number: CN201810261214.2A
Authority: CN
Inventors: 梁立修
Original assignee: Shenzhen 3Nod Digital Technology Co Ltd
Current assignee: Shenzhen 3Nod Digital Technology Co Ltd
Priority date: 2018-03-28
Filing date: 2018-03-28
Publication date: 2021-04-06
Anticipated expiration: 2038-03-28
Also published as: CN108717851A

Abstract

本发明公开了一种语音识别方法及装置，涉及语音识别技术领域，该语音识别方法及装置包括：获取用户当前智能终端的存储权限以及调用所述智能终端上的音频数据，对所述音频数据进行解析确定用户的特征音频信息；实时获取用户当前输入的语音数据，并将所获取的语音数据与所述特征音频信息进行比对，识别出用户输入的语音数据并以文字的形式显示在所述智能终端上。该过程极大的提高了语音识别的准确率，即便是普通话不标准的用户也具备适用性，提高了用户的使用体验。

Description

一种语音识别方法及装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别方法及装置。

背景技术

得益于深度学习与人工神经网络的发展，语音识别在近年取得了一系列突破性的进展，在产品应用上也越来越成熟。作为语音交互领域中极其重要的一环，语音识别一直是研究的重点，且现有的语音识别技术在识别准确率上有较高的突破，识别成功率最高可达97％。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：然而上述的高准确率需要基于一个基础，即输入语音要与其数据库模型的语音相一致，而现实中，由于我国幅员辽阔，方言众多，用户的口音各不相同，即使说着普通话，也各自带着家乡的口音，从而造成其语音输入的文字不准确，无法表达原意。

发明内容

为了克服现有技术中相关产品的不足，本发明提出一种语音识别方法及装置，解决现有的语音识别方法在用户的语音与数据库模型不一致时导致出现识别错误的问题。

本发明提供了一种语音识别方法，应用于智能终端，包括：

获取用户当前智能终端的存储权限以及调用所述智能终端上的音频数据，对所述音频数据进行解析确定用户的特征音频信息；

实时获取用户当前输入的语音数据，并将所获取的语音数据与所述特征音频信息进行比对，识别出用户输入的语音数据并以文字的形式显示在所述智能终端上。

在一些可能的实施方式中，所述对所述音频数据进行解析确定用户的特征音频信息包括：

分别对所有的音频数据进行解析并判断是否符合预设条件；

对符合预设条件的音频数据进行标记并提取其中的特征音频信息，将所述特征音频信息按照音频段进行调节并建立特征音频数据库。

在一些可能的实施方式中，所述将所述特征音频信息按照音频端进行调节并建立特征音频数据库包括：

将所述特征音频信息按照音频段进行调节之后，为所述特征音频信息设置关联数据，并根据预设语音模型对所述特征音频信息进行置信估值，生成当前用户的语音文字模型并建立对应的特征音频数据库。

在一些可能的实施方式中，在所述确定用户的特征音频信息之前，所述方法还包括：

检测所述当前智能终端上是否已经建立了特征音频数据库，并在所述特征音频数据库已经建立的情况下，跳过所述特征音频信息的解析以及确定过程。

在一些可能的实施方式中，在所述用户输入的语音数据以文字的形式显示在所述智能终端上之后，所述方法还包括：

在识别到用户的点击操作之后，判断语音识别过程中所显示的文字是否符合用户输入的语音数据，并在所述语音识别错误的情况下，同步云端的特征音频数据库并对所述用户输入的语音数据重新进行语音识别。

本发明提供了一种语音识别装置，应用于智能终端，包括：

语音提取模块，用于获取用户当前智能终端的存储权限以及调用所述智能终端上的音频数据，对所述音频数据进行解析确定用户的特征音频信息；

语音识别模块，用于实时获取用户当前输入的语音数据，并将所获取的语音数据与所述特征音频信息进行比对，识别出用户输入的语音数据并以文字的形式显示在所述智能终端上。

在一些可能的实施方式中，所述语音提取模块用于：

分别对所有的音频数据进行解析并判断是否符合预设条件；

在一些可能的实施方式中，所述语音提取模块还用于：

在一些可能的实施方式中，所述语音识别装置还包括检测模块，用于检测所述当前智能终端上是否已经建立了特征音频数据库，并在所述特征音频数据库已经建立的情况下，跳过所述特征音频信息的解析以及确定过程。

在一些可能的实施方式中，所述语音识别装置还包括复测模块，用于在识别到用户的点击操作之后，判断语音识别过程中所显示的文字是否符合用户输入的语音数据，并在所述语音识别错误的情况下，同步云端的特征音频数据库并对所述用户输入的语音数据重新进行语音识别。

与现有技术相比，本发明有以下优点：

本发明实施例通过提取用户智能终端的音频数据建立对应的特征音频数据库，实时获取用户当前输入的语音数据，并将所获取的语音数据与所述特征音频信息进行比对，识别出用户输入的语音数据并以文字的形式显示在所述智能终端上，以用户智能终端上自身的语音为基础，通过所提取的用户自己发出的语音形成语音文字模型并建立对应的特征音频数据库，该过程极大的提高了语音识别的准确率，即便是普通话不标准的用户也具备适用性，提高了用户的使用体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所述语音识别方法的流程示意图；

图2为本发明所述语音识别装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，附图中给出了本发明的较佳实施例。本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例，相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

图1为本发明所述语音识别方法的流程示意图，所述语音识别方法应用于智能终端，所述智能终端包括但不限于智能手机、平板电脑、IPAD等，本发明实施例通过提取用户智能终端的音频数据建立对应的特征音频数据库，实时获取用户当前输入的语音数据，并将所获取的语音数据与所述特征音频信息进行比对，识别出用户输入的语音数据并以文字的形式显示在所述智能终端上，以用户智能终端上自身的语音为基础，通过所提取的用户自己发出的语音形成语音文字模型并建立对应的特征音频数据库，该过程极大的提高了语音识别的准确率，即便是普通话不标准的用户也具备适用性，提高了用户的使用体验。

参阅图1所示，所述语音识别方法具体包括如下步骤：

S101：获取用户当前智能终端的存储权限以及调用所述智能终端上的音频数据，对所述音频数据进行解析确定用户的特征音频信息。

在对用户进行语音识别之前，本发明实施例需要预先提取用户的智能终端上自身的语音信息，通过获取用户当前智能终端的存储权限来调用所述智能终端上的音频数据，所述音频数据是以录音文件的形式保存，包括用户在各个社交应用上发出的语音信息，如微信、QQ、微博等，在获取了用户的智能终端上的音频数据之后，对所述音频数据进行解析以确定用户的特征音频信息，所述特征音频信息用以确定用户所输入的语音信息。

在本发明实施例中，所述对所述音频数据进行解析确定用户的特征音频信息包括分别对所有的音频数据进行解析并判断是否符合预设条件，以及对符合预设条件的音频数据进行标记并提取其中的特征音频信息，将所述特征音频信息按照音频段进行调节并建立特征音频数据库，所述特征音频数据库是特征音频信息与对应的文字模型的映射集合。

首先，本发明实施例对所有的音频数据进行解析并判断是否符合预设条件，这里所述的预设条件是指对音频数据进行解析之后确认其是否为用户发出的语音信息，由于在实际情况中，用户的智能终端上可能存储有大量的音频数据，本发明实施例首先对所述智能终端上所有的音频数据进行初选，通过格式甄别从所有的音频数据选择录音格式的音频数据，并逐一对所有的录音格式的音频数据一一进行解析，确认是否为用户发出的语音信息，若解析的结果为用户发出的语音信息，则认为该音频数据符合预设条件，当然，需要说明的是，所述预设条件旨在从智能终端上寻找出用户发出的语音信息，用以建立特征音频数据库，因此，对不同的用户以及在不同的应用场景下，所述预设条件是可以动态调节的，用户可以自己定制，也可以选择以默认的基本模式进行；在一些可能的实施方式中，例如，用户可以在搜索选择录音格式的音频数据之前，自己先进行语音输入并录音，本发明实施例则以该录音文件作为特征音频信息，该步骤可以进一步提高特征音频信息的准确性。

为了避免重复的不必要操作，本发明实施例对符合预设条件的音频数据进行标记，在以后进行语音识别的过程中，本发明实施例对已经标记过的音频数据不再进行解析操作，该过程可以提高识别过程的效率。

本发明实施例将所述特征音频信息按照音频段进行调节之后，为所述特征音频信息设置关联数据，并根据预设语音模型对所述特征音频信息进行置信估值，生成当前用户的语音文字模型并建立对应的特征音频数据库；将标记好的多个所述特征音频信息，按预设数量的音频段进行自适应调节，也即是本发明实施例自动对标记好的多个音频数据按预设数量的音频段进行调节，这一步的目的是使得音频数据更适合后续的分析与使用，例如，音频段可以包括低音段、中音段与高音段，这样可以得到更准确的分析效果，例如，调节的方法是将耗损前后部分按分频率提供适当的增益，例如补偿适当的振幅值等，还可以采用其他调节方式，只要达到目的即可，本发明实施例对此并无限制。

采用自适应调节后的多个特征音频信息作为当前用户的语音模型，同时，为已使用的录音文件的特征音频信息设置关联数据，并根据语音模型对已使用的录音文件的特征音频进行置信评估，得到置信估值，然后为已使用的录音文件的特征音频信息设置相应的置信估值；其中，关联数据和置信估值可以分别是一个数字或数值，关联数据用于评价关联度，置信估值用于评价可信度，通过对关联数据以及置信估值进行分析，即可确定当前用户的特征音频信息是否可用，若准确性较低，则放弃对应的音频数据，并重复上述过程直至得到准确性较高的音频数据，并以其对应的特征音频信息作为用户的语音模型，并对所述特征音频信息与对应的置信估值以及文字模型之间建立映射关系，生成特征音频数据库。

在本发实施例中，根据该语音模型生成当前用户的语音文字模型，可以通过连接网络的云服务器，在服务器端获取更多的与该用户相关的音频数据，通过云服务器的大数据分析能够得到更准确的当前用户的语音文字模型。

当然，需要说明的是，在所述确定用户的特征音频信息之前，为了减少不必要的重复操作，本发明实施例还包括语音识别之前的检测过程，所述检测过程是指检测所述当前智能终端上是否已经建立了特征音频数据库，并在所述特征音频数据库已经建立的情况下，跳过所述特征音频信息的解析以及确定过程，若检测到所述当前智能终端上还没有建立特征音频数据库，则执行后续的对特征音频信息的确定操作；在本发明实施例的一些实施方式中，在所述特征音频数据库已经建立的情况下，若用户认为当前的特征音频数据库还不完善，也可以通过设置相应的页面控件供用户执行选择操作，例如，可以在所述特征音频数据库已经建立的情况下继续执行后续的对特征音频信息的确定操作，用以更新所述特征音频数据库，本发明实施例对此并无限制。

S102：实时获取用户当前输入的语音数据，并将所获取的语音数据与所述特征音频信息进行比对，识别出用户输入的语音数据并以文字的形式显示在所述智能终端上。

在所述用户输入的语音数据以文字的形式显示在所述智能终端上之后，本发明实施例在识别到用户的点击操作，判断语音识别过程中所显示的文字是否符合用户输入的语音数据，并在所述语音识别错误的情况下，同步云端的特征音频数据库并对所述用户输入的语音数据重新进行语音识别，该过程可以有效提高用户的使用体验，通过不断的修正语音识别的结果，随着用户的使用次数增加，本发明实施例所述的语音识别方法具备极高的语音识别准确性，适用于不同场景下不同类型的用户，尤其对于普通话不标准的用户，相较于现有的语音识别方法，具备更佳的识别效果。

在上述实施例的基础上，参阅图2所示，本发明还提供了一种语音识别装置，包括语音提取模块100、语音识别模块200、检测模块300和复测模块400。

所述语音提取模块100用于获取用户当前智能终端的存储权限以及调用所述智能终端上的音频数据，对所述音频数据进行解析确定用户的特征音频信息；所述语音提取模块100分别对所有的音频数据进行解析并判断是否符合预设条件，以及对符合预设条件的音频数据进行标记并提取其中的特征音频信息，将所述特征音频信息按照音频段进行调节并建立特征音频数据库。所述语音提取模块100还用于将所述特征音频信息按照音频段进行调节之后，为所述特征音频信息设置关联数据，并根据预设语音模型对所述特征音频信息进行置信估值，生成当前用户的语音文字模型并建立对应的特征音频数据库。

所述语音识别模块200用于实时获取用户当前输入的语音数据，并将所获取的语音数据与所述特征音频信息进行比对，识别出用户输入的语音数据并以文字的形式显示在所述智能终端上。

所述检测模块300用于检测所述当前智能终端上是否已经建立了特征音频数据库，并在所述特征音频数据库已经建立的情况下，跳过所述特征音频信息的解析以及确定过程。

所述复测模块400用于在识别到用户的点击操作之后，判断语音识别过程中所显示的文字是否符合用户输入的语音数据，并在所述语音识别错误的情况下，同步云端的特征音频数据库并对所述用户输入的语音数据重新进行语音识别。

本发明实施例通过语音提取模块100提取用户智能终端的音频数据建立对应的特征音频数据库，实时获取用户当前输入的语音数据，并将所获取的语音数据与所述特征音频信息进行比对，识别出用户输入的语音数据并以文字的形式显示在所述智能终端上，以用户智能终端上自身的语音为基础，通过所提取的用户自己发出的语音形成语音文字模型并建立对应的特征音频数据库，并语音识别模块200对用户输入的语音进行是被，该过程极大的提高了语音识别的准确率，即便是普通话不标准的用户也具备适用性，提高了用户的使用体验。

本发明实施例所述的语音识别装置可执行上述实施例所提供的语音识别方法，所述语音识别装置具备上述实施例所述语音识别方法相应的功能步骤以及有益效果，具体请参阅上述语音识别方法的实施例，本发明实施例在此不再赘述。

在本发明所提供的上述实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

所述作为分离部件说明的模块或组件可以是或者也可以不是物理上分开的，作为模块或组件显示的部件可以是或者也可以不是物理模块，既可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块或组件来实现本实施例方案的目的。

以上仅为本发明的实施例，但并不限制本发明的专利范围，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本发明说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本发明专利保护范围之内。

Claims

1.一种语音识别方法，应用于智能终端，其特征在于，包括：

实时获取用户当前输入的语音数据，并将所获取的语音数据与所述特征音频信息进行比对，识别出用户输入的语音数据并以文字的形式显示在所述智能终端上；

其中，所述对所述音频数据进行解析确定用户的特征音频信息包括：

分别对所有的音频数据进行解析并判断是否符合预设条件；

对符合预设条件的音频数据进行标记并提取其中的特征音频信息，将所述特征音频信息按照预设数量的音频段进行自适应调节并建立特征音频数据库，其中，所述音频段包括低音段、中音段与高音段；

其中，所述将所述特征音频信息按照预设数量的音频段进行自适应调节并建立特征音频数据库包括：

2.根据权利要求1所述的语音识别方法，其特征在于，在所述确定用户的特征音频信息之前，所述方法还包括：

3.根据权利要求1所述的语音识别方法，其特征在于，在所述用户输入的语音数据以文字的形式显示在所述智能终端上之后，所述方法还包括：

4.一种语音识别装置，应用于智能终端，其特征在于，包括：

语音识别模块，用于实时获取用户当前输入的语音数据，并将所获取的语音数据与所述特征音频信息进行比对，识别出用户输入的语音数据并以文字的形式显示在所述智能终端上；

其中，所述语音提取模块用于：

分别对所有的音频数据进行解析并判断是否符合预设条件；

5.根据权利要求4所述的语音识别装置，其特征在于，所述语音识别装置还包括检测模块，用于检测所述当前智能终端上是否已经建立了特征音频数据库，并在所述特征音频数据库已经建立的情况下，跳过所述特征音频信息的解析以及确定过程。

6.根据权利要求4所述的语音识别装置，其特征在于，所述语音识别装置还包括复测模块，用于在识别到用户的点击操作之后，判断语音识别过程中所显示的文字是否符合用户输入的语音数据，并在所述语音识别错误的情况下，同步云端的特征音频数据库并对所述用户输入的语音数据重新进行语音识别。