CN113470630A

CN113470630A - 基于大数据的语音识别方法、系统、设备及存储介质

Info

Publication number: CN113470630A
Application number: CN202110737800.1A
Authority: CN
Inventors: 杨兵海
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2021-10-01

Abstract

本发明实施例适用于语音识别技术领域，提供了基于大数据的语音识别方法、系统、设备及存储介质，在本发明实施例提供的语音识别方法中，通过将长音频分割得到多条短音频；基于服务器中预设的第二音频识别模型对所述任务队列中的多条短音频一一进行识别，得到多个短音频识别结果，对所述多个短音频识别结果进行唤醒检测，若所述短音频识别结果中存在唤醒词，则从所述短音频识别结果中提取含有唤醒词的目标短音频识别结果；获取目标用户热词集，基于所述目标用户热词集对所述目标短音频识别结果进行候选拓展，得到候选识别结果，能够有效解决现有方案不仅无法为用户提供便利，反而会给用户带来不必要的麻烦的问题。

Description

基于大数据的语音识别方法、系统、设备及存储介质

技术领域

本发明实施例属于语音识别技术领域，尤其涉及基于大数据的语音识别方法、系统、设备及存储介质。

背景技术

随着人工智能的发展，越来越多的人工智能产品为人们的生活提供了便利。语音识别类产品作为人工智能产品中重要的感知智能产品，更是广泛地应用于诸如智能家居产品、智能语音客服等各类产品中。语音识别可以很大程度上解放用户双手，在让用户感受产品智能化的同时，方便用户的操作。

语音识别在经历数十年发展后，已经具有了较为成熟的技术，在实际应用中Siri等在理想条件下具有了较高的识别准确率。

如在公开号为CN 112863499A的专利文件中，公开了一种语音识别方法及装置、存储介质。包括：接收输入的语音数据；确定所述语音数据对应的文本长度是否大于预设长度阈值；若所述语音数据对应的文本长度小于所述预设长度阈值，根据第一规则确定所述语音数据是否为意图不明的语音；若所述语音数据对应的文本长度大于或等于所述预设长度阈值，根据第二规则确定所述语音数据是否为意图不明的语音。

又如在公开号为CN 112767923A的专利文件中，公开了一种语音识别方法及装置，首先获取待识别语音数据，然后根据待识别语音数据，使用第一检测模型获得待识别语音数据对应的无声调拼音数据，进一步根据获得的无声调拼音数据从预设数据库检索与无声调拼音数据匹配的文本，将获得的文本输出。

再如授权公告号为CN 112331191B的专利文件中，公开了一种基于大数据的语音识别系统及方法，所述语音识别系统包括个人语音修正库、辅助修正库设置模块、语音信号采集模块和语音识别结果修正判断模块，所述个人语音修正库用于存储修正字，所述辅助修正库设置模块用于选取个人语音修正库的辅助修正库，所述语音信号采集模块用于采集语音信号，所述语音识别结果修正判断模块通过对语音信号进行识别播报以及与用户之间的交互判断是否要修正语音识别结果。

但是，上述公开的现有技术的实现方案中，依然存在语音信号识别与目标用户表达含义不一样的情况，不仅无法为用户提供个性化且便利的语音识别服务，反而会给用户带来不必要的麻烦，如此会非常不利于提升用户体验。

发明内容

本发明实施例的目的在于提供一种基于大数据的语音识别方法，旨在解决现有方案中，依然存在语音信号识别与用户表达含义不一样的情况，不仅无法为用户提供便利，反而会给用户带来不必要的麻烦的问题。本发明实施例是这样实现的：

第一方面，本发明实施例提供了一种基于大数据的语音识别方法，其中，所述的语音识别方法包括以下步骤：

至少选择一条完整语义的长音频，将当前长音频分割得到多条短音频，并按照时间顺序构成任务队列；

基于服务器中预设的第二音频识别模型对所述任务队列中的多条短音频一一进行识别，得到多个短音频识别结果，对所述多个短音频识别结果进行唤醒检测，若所述短音频识别结果中存在唤醒词，则从所述短音频识别结果中提取含有唤醒词的目标短音频识别结果；

获取目标用户热词集，基于所述目标用户热词集对所述目标短音频识别结果进行候选拓展，得到候选识别结果，显示所述候选识别结果。

在本发明的一个优选实施方式中，在所述至少选择一条完整语义的长音频的步骤之前，所述的语音识别方法还包括：

获取目标用户发出的原始音频数据，基于本地的第一音频识别模型，对所述原始音频数据进行完整性分析；

在所述原始音频数据中存在至少一条完整语义的音频时，发送所述完整语义的音频至服务器，并将当前具有完整语义的音频作为长音频。

在本发明的一个优选实施方式中，在所述基于本地的第一音频识别模型，对所述原始音频数据进行完整性分析的步骤之前，所述的语音识别方法还包括对所述原始音频数据进行预处理的步骤；

其中，所述对所述原始音频数据进行预处理的步骤具体包括：

对所述原始音频数据进行降噪处理。

对所述原始音频数据进行解混响处理。

在本发明提供的一个优选实施方式中，所述将当前长音频分割得到多条短音频的步骤具体包括：

根据预先建立的静音模型，利用深度学习算法对长音频的每帧语音进行识别，以识别静音帧；

将达到预设的长静音阈值的帧作为切分点将长音频切分为多个有效短音频。

在本发明的一个优选实施方式中，所述基于服务器中预设的第二音频识别模型对所述任务队列中的多条短音频一一进行识别，得到多个短音频识别结果的步骤具体包括：

调取服务器中预设的第二音频识别模型；

将任务队列中的短音频输入所述第二音频识别模型中，以得到短音频的识别结果，所述短音频的识别结果包括音频识别结果和相应的置信度；

判断音频识别结果的置信度是否达到置信度阈值，若达到置信度阈值，则将当前的音频识别结果作为最终识别结果。

在本发明提供的一个优选实施方式中，所述获取目标用户热词集的步骤具体包括：

获取目标用户的历史音频识别文本数据；

基于历史音频识别文本数据所包含词的特征从历史音频识别文本数据中抽取候选热词，得到候选热词集；

基于候选热词集在大数据词库中匹配与每一个候选热词对应的扩展词；根据扩展词从所述候选热词集中过剔除非热词，得到目标用户的热词集。

第二方面，本发明实施例还提供了一种基于大数据的语音识别系统，其中，所述的语音识别系统包括：

音频分割单元，用于至少选择一条完整语义的长音频，将当前长音频分割得到多条短音频，并按照时间顺序构成任务队列；

音频识别单元，用于基于服务器中预设的第二音频识别模型对所述任务队列中的多条短音频一一进行识别，得到多个短音频识别结果；

唤醒检测单元，用于对所述多个短音频识别结果进行唤醒检测，若所述短音频识别结果中存在唤醒词，则从所述短音频识别结果中提取含有唤醒词的目标短音频识别结果；

结果拓展单元，用于获取目标用户热词集，基于所述目标用户热词集对所述目标短音频识别结果进行候选拓展，得到候选识别结果，显示所述候选识别结果。

第三方面，本发明实施例还提供了一种基于大数据的语音识别设备，其中，所述语音识别设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现所述语音识别方法的步骤。

第四方面，本发明实施例还提供了一种存储介质，其中，所述的存储介质上存储程序或指令，所述程序或指令被处理器执行时实现所述语音识别方法的步骤。

综上所述，在本发明实施例提供的语音识别方法中，通过选择一条完整语义的长音频，将当前长音频分割得到多条短音频，并按照时间顺序构成任务队列；基于服务器中预设的第二音频识别模型对所述任务队列中的多条短音频一一进行识别，得到多个短音频识别结果，对所述多个短音频识别结果进行唤醒检测，若所述短音频识别结果中存在唤醒词，则从所述短音频识别结果中提取含有唤醒词的目标短音频识别结果；获取目标用户热词集，基于所述目标用户热词集对所述目标短音频识别结果进行候选拓展，得到候选识别结果，显示所述候选识别结果，能够有效解决现有方案不仅无法为用户提供便利，反而会给用户带来不必要的麻烦的问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例。

图1为本发明实施例的系统架构图；

图2为本发明实施例提供的基于大数据的语音识别方法的实现流程图；

图3为本发明实施例提供的基于大数据的语音识别系统的结构框图；

图4为本发明实施例提供的基于大数据的语音识别设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非被特定定义，否则不会用理想化或过于正式的含义来解释。

目前，随着人工智能的发展，越来越多的人工智能产品为人们的生活提供了便利。语音识别类产品作为人工智能产品中重要的感知智能产品，更是广泛地应用于诸如智能家居产品、智能语音客服等各类产品中。语音识别可以很大程度上解放用户双手，在让用户感受产品智能化的同时，方便用户的操作。然而，现有技术中语音识别的技术方案中，依然存在语音信号识别与目标用户表达含义不一样的情况，不仅无法为用户提供个性化且便利的语音识别服务，反而会给用户带来不必要的麻烦，如此会非常不利于提升用户体验。

为解决上述问题，在本发明实施例提供的语音识别方法中，通过选择一条完整语义的长音频，将当前长音频分割得到多条短音频，并按照时间顺序构成任务队列；基于服务器中预设的第二音频识别模型对所述任务队列中的多条短音频一一进行识别，得到多个短音频识别结果，对所述多个短音频识别结果进行唤醒检测，若所述短音频识别结果中存在唤醒词，则从所述短音频识别结果中提取含有唤醒词的目标短音频识别结果；获取目标用户热词集，基于所述目标用户热词集对所述目标短音频识别结果进行候选拓展，得到候选识别结果，显示所述候选识别结果，能够有效解决现有方案不仅无法为用户提供便利，反而会给用户带来不必要的麻烦的问题。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出了可以应用本公开的基于大数据的语音识别方法的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101，网络102和服务器103。网络102可以是用以在终端设备101和服务器103之间提供通信链路的介质。

网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

终端设备101通过网络102与服务器103交互，以实现语音数据的传递。终端设备101上可以安装有各种能够在取得权限的前提下获取用户语音信号数据的应用。

终端设备101可以是硬件，也可以是软件。当终端设备101为硬件时，可以是具有通信功能的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器、MP4播放器、膝上型便携计算机和台式计算机等等。当终端设备101为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器103可以是提供各种服务的服务器，例如对终端设备101上的应用支持的后台服务器。服务器103可以接收终端设备101发送的访问请求。然后，服务器103中内置有语音识别模型，音频识别模型可以对音频数据进行处理，生成音频的识别结果。

需要说明的是，本公开实施例所提供的基于大数据的语音识别方法一般由服务器103执行，相应地，基于大数据的语音识别系统一般设置于服务器103中。可选的，本公开实施例所提供的基于大数据的语音识别方法也可以由终端设备101执行。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解，图1中的终端设备101、网络102和服务器103的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备101、网络102和服务器103。

以下结合具体实施例对本发明实施例提供的基于大数据的语音识别方法的具体实现进行详细描述。

实施例1

如图2所示，示出了本发明实施例提供的基于大数据的语音识别方法的实现流程图。

具体的，如图2所示，本发明实施例1提供了一种基于大数据的语音识别方法，其中，所述的语音识别方法200包括以下步骤：

首先，获取长音频，在本发明的一个优选实施方式中，所述获取长音频的方法包括以下步骤：

进一步的，在本发明实施例提供的基于大数据的语音识别方法中，所述的语音识别方法200包括以下步骤：

步骤S201：至少选择一条完整语义的长音频，将当前长音频分割得到多条短音频，并按照时间顺序构成任务队列；

具体的，在本发明实施例提供的步骤S201的具体实现中，根据预先建立的静音模型，利用深度学习算法对长音频的每帧语音进行识别，以识别静音帧；将达到预设的长静音阈值的帧作为切分点将长音频切分为多个有效短音频。

步骤S202：基于服务器中预设的第二音频识别模型对所述任务队列中的多条短音频一一进行识别，得到多个短音频识别结果；

在本发明实施例提供的步骤S202的具体实现中，通过调取服务器中预设的第二音频识别模型；并将任务队列中的短音频输入所述第二音频识别模型中，以得到短音频的识别结果，所述短音频的识别结果包括音频识别结果和相应的置信度；

步骤S203：对所述多个短音频识别结果进行唤醒检测，若所述短音频识别结果中存在唤醒词，则从所述短音频识别结果中提取含有唤醒词的目标短音频识别结果；

步骤S204：获取目标用户热词集，基于所述目标用户热词集对所述目标短音频识别结果进行候选拓展，得到候选识别结果，显示所述候选识别结果。

具体的，在本发明提供的优选实施方式中，所述对所述原始音频数据进行预处理的步骤具体包括：

对所述原始音频数据进行降噪处理。

进一步的，在本发明提供的优选实施方式中，在本发明提供的一个优选实施方式中，所述将当前长音频分割得到多条短音频的步骤具体包括：

调取服务器中预设的第二音频识别模型；

进一步的，在本发明提供的一个优选实施方式中，所述获取目标用户热词集的步骤具体包括：

获取目标用户的历史音频识别文本数据；

实施例2

在本发明提供的优选实施方式中，在所述基于本地的第一音频识别模型，对所述原始音频数据进行完整性分析的步骤之前，所述的语音识别方法还包括对所述原始音频数据进行预处理的步骤；

其中，与实施例1不同的是，所述对所述原始音频数据进行预处理的步骤具体包括：对所述原始音频数据进行解混响处理。

实施例3

图3示出了本发明实施例提供的基于大数据的语音识别系统的结构框图。具体的，本发明实施例3还提供了一种基于大数据的语音识别系统，其中，所述的语音识别系统300包括：

音频分割单元301，用于至少选择一条完整语义的长音频，将当前长音频分割得到多条短音频，并按照时间顺序构成任务队列；

音频识别单元302，用于基于服务器中预设的第二音频识别模型对所述任务队列中的多条短音频一一进行识别，得到多个短音频识别结果；

唤醒检测单元303，用于对所述多个短音频识别结果进行唤醒检测，若所述短音频识别结果中存在唤醒词，则从所述短音频识别结果中提取含有唤醒词的目标短音频识别结果；

结果拓展单元304，用于获取目标用户热词集，基于所述目标用户热词集对所述目标短音频识别结果进行候选拓展，得到候选识别结果，显示所述候选识别结果。

实施例4

图4示出了本发明实施例提供的基于大数据的语音识别设备的结构框图。具体的，如图4所示，本发明实施例4提供一种基于大数据的语音识别设备，其中，所述语音识别设备400包括处理器402、存储器401及存储在所述存储器401上并可在所述处理器402上运行的程序或指令，所述程序或指令被所述处理器执行时实现如实施例1或实施例2任一项所述语音识别方法的步骤。

其中，在本发明提供的实施例中，并被配置为由处理器402执行的所述基于大数据的语音识别方法包括以下步骤：

此外，在本发明实施例4提供的基于大数据的语音识别设备中，所述语音识别设备400还可具有通讯接口403。

另外，本实施例还提供一种存储介质，其中，所述的存储介质上存储程序或指令，所述程序或指令被处理器执行时实现所述语音识别方法的步骤。

其中，被处理器执行的所述基于大数据的语音识别方法包括：

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

在本发明实施例的一个典型的配置中，终端、服务网络的设备和计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。

计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开的实施例旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求书指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims

1.基于大数据的语音识别方法，其特征在于，所述的语音识别方法包括以下步骤：

2.根据权利要求1所述的基于大数据的语音识别方法，其特征在于，在所述至少选择一条完整语义的长音频的步骤之前，所述的语音识别方法还包括：

3.根据权利要求2所述的基于大数据的语音识别方法，其特征在于，在所述基于本地的第一音频识别模型，对所述原始音频数据进行完整性分析的步骤之前，所述的语音识别方法还包括对所述原始音频数据进行预处理的步骤；

对所述原始音频数据进行降噪处理。

4.根据权利要求2所述的基于大数据的语音识别方法，其特征在于，在所述基于本地的第一音频识别模型，对所述原始音频数据进行完整性分析的步骤之前，所述的语音识别方法还包括对所述原始音频数据进行预处理的步骤；

对所述原始音频数据进行解混响处理。

5.根据权利要求3或4所述的基于大数据的语音识别方法，其特征在于，所述将当前长音频分割得到多条短音频的步骤具体包括：

6.根据权利要求5所述的基于大数据的语音识别方法，其特征在于，所述基于服务器中预设的第二音频识别模型对所述任务队列中的多条短音频一一进行识别，得到多个短音频识别结果的步骤具体包括：

调取服务器中预设的第二音频识别模型；

7.根据权利要求6所述的基于大数据的语音识别方法，其特征在于，所述获取目标用户热词集的步骤具体包括：

获取目标用户的历史音频识别文本数据；

8.基于大数据的语音识别系统，其特征在于，所述的语音识别系统包括：

9.基于大数据的语音识别设备，其特征在于，所述语音识别设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-7任一所述语音识别方法的步骤。

10.存储介质，其特征在于，所述的存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-7任一所述语音识别方法的步骤。