CN113506565A

CN113506565A - 语音识别的方法、装置、计算机可读存储介质与处理器

Info

Publication number: CN113506565A
Application number: CN202110786043.7A
Authority: CN
Inventors: 李健; 谢园园; 陈明; 武卫东
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2021-07-12
Filing date: 2021-07-12
Publication date: 2021-10-15

Abstract

本申请提供了一种语音识别的方法、装置、计算机可读存储介质与处理器。该方法包括获取语音数据；确定语音数据的语音类别，语音类别包括语种和/或方言；确定语音数据的上下文语义；根据语音类别和上下文语义，确定ASR引擎和ASR模型；采用ASR引擎和ASR模型，对语音数据进行识别。通过获取语音数据，确定语音数据的语音类别和上下文语义，再综合语音类别和上下文语义确定ASR引擎和ASR模型，最后采用确定好的ASR引擎和ASR模型，对语音数据进行识别。实现了对语音数据的精确识别。

Description

语音识别的方法、装置、计算机可读存储介质与处理器

技术领域

本申请涉及语音识别领域，具体而言，涉及一种语音识别的方法、装置、计算机可读存储介质与处理器。

背景技术

随着人工智能技术的发展，智能语音IVR的出现，使人机语音交互有了新的模式。智能语音IVR，融合智能语音识别技术，打破了传统IVR只能接收客户输入12个字符的交互方式，并在此基础上加入了更多自主服务内容。同时支持按键和语音双选择，提供AI/人工等多种接待方式，且可使用全TTS语音合成导航录音。智能语音交互在传统IVR的基础上进一步压缩服务客户时间，大幅提升用户满意度。但随着语音应用走进大众，由于目标人群庞大、范围广泛，对语音识别的鲁棒性和适应性要求越来越高，通用的语音识别模型很难满足多样化的智能语音导航应用场景，语音识别过程中由于不同用户的性别、语种、方言等问题，极大地降低了识别的准确度。

现有技术中的实现方案是通过云端采集不同年龄段说话的语种和方言动态的更新语音识别资源，但是这种仅能专门针对某种方言或语种解决部分的识别问题，在提升准确率上还是有一定的欠缺。

发明内容

本申请的主要目的在于提供一种语音识别的方法、装置、计算机可读存储介质与处理器，以解决现有技术中语音识别模型的适用范围较小的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种语音识别的方法，包括：获取语音数据；确定所述语音数据的语音类别，所述语音类别包括语种和/或方言；确定所述语音数据的上下文语义；根据所述语音类别和所述上下文语义，确定ASR引擎和ASR模型；采用所述ASR引擎和所述ASR模型，对所述语音数据进行识别。

可选地，确定所述语音数据的语音类别，包括：提取出所述语音数据的音频特征参量；根据所述音频特征参量确定所述语音类别。

可选地，根据所述音频特征参量确定所述语音类别，包括：构建分类模型；将所述音频特征参量输入至所述分类模型中进行计算，输出所述语音类别。

可选地，确定所述语音数据的上下文语义，包括：提取出所述语音数据中的关键词；根据所述关键词确定所述上下文语义。

可选地，根据所述语音类别和所述上下文语义，确定ASR引擎和ASR模型，包括：根据所述上下文语义，确定所述ASR引擎；根据所述语音类别和/或所述上下文语义，确定所述ASR模型。

可选地，根据所述语音类别和所述上下文语义，确定ASR引擎和ASR模型，包括：在用户进行多轮对话过程中，先根据所述上下文语义确定所述ASR引擎，再根据所述语音类别确定所述ASR模型。

可选地，所述ASR引擎包括至少以下之一：语法识别引擎、自由说引擎、关键词检出引擎、语音质检分析引擎。

根据本申请的另一个方面，提供了一种语音识别的装置，包括：获取单元，用于获取语音数据；第一确定单元，用于确定所述语音数据的语音类别，所述语音类别包括语种和/或方言；第二确定单元，用于确定所述语音数据的上下文语义；第三确定单元，用于根据所述语音类别和所述上下文语义，确定ASR引擎和ASR模型；识别单元，用于采用所述ASR引擎和所述ASR模型，对所述语音数据进行识别。

根据本申请的又一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行任意一种所述的方法。

根据本申请的再一个方面，提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任意一种所述的方法。

应用本申请的技术方案，通过获取语音数据，确定语音数据的语音类别和上下文语义，再综合语音类别和上下文语义确定ASR引擎和ASR模型，最后采用确定好的ASR引擎和ASR模型，对语音数据进行识别。实现了对语音数据的精确识别。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了根据本申请的实施例的语音识别的方法流程图；

图2示出了根据本申请的实施例的构建分类模型的原理图；

图3示出了根据本申请的实施例的确定引擎和模型的具体流程图；

图4示出了根据本申请的实施例的语音识别的装置示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应该理解的是，当元件(诸如层、膜、区域、或衬底)描述为在另一元件“上”时，该元件可直接在该另一元件上，或者也可存在中间元件。而且，在说明书以及权利要求书中，当描述有元件“连接”至另一元件时，该元件可“直接连接”至该另一元件，或者通过第三元件“连接”至该另一元件。

为了便于描述，以下对本申请实施例涉及的部分名词或术语进行说明：

语音分类引擎(ASC)：ASC引擎作为一个通用语音分类引擎，支持电话信道、广播电视信道、互联网信道等各种信道数据，支持各种需要语音分类的领域和应用场景，支持在任何时间、任何地点，向任何人实时、准确地提供语音分类服务，满足信息时代动态更新和个性化输入的需求。

ASR引擎：ASR引擎主要包含4种引擎形态，iSpeak Grammer(语法识别引擎)、iSpeak Freetalk(自由说引擎)、iSpeak KeywordSpot(关键词检出引擎)、iSpeakSpeechAnalysis(语音质检分析引擎)。

ASR模型：ASR中每种引擎针对不同的应用场景或者不同的语音特征有不同的模型。

根据本申请的实施例，提供了一种语音识别的方法。

图1是根据本申请实施例的语音识别的方法的流程图。如图1所示，该方法包括以下步骤：

步骤S101，获取语音数据；

步骤S102，确定上述语音数据的语音类别，上述语音类别包括语种和/或方言；

步骤S103，确定上述语音数据的上下文语义；

步骤S104，根据上述语音类别和上述上下文语义，确定ASR引擎和ASR模型；

步骤S105，采用上述ASR引擎和上述ASR模型，对上述语音数据进行识别。

具体地，上述语音类别还包括性别、年龄段等。

具体地，可以将本申请中的语音识别的方法应用于智能语音导航系统中，实现精准导航。

上述方案中，通过获取语音数据，确定语音数据的语音类别和上下文语义，再综合语音类别和上下文语义确定ASR引擎和ASR模型，最后采用确定好的ASR引擎和ASR模型，对语音数据进行识别。实现了对语音数据的精确识别。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请的一种实施例中，确定上述语音数据的语音类别，包括：提取出上述语音数据的音频特征参量；根据上述音频特征参量确定上述语音类别。具体地，音频特征参量包括MFCC(Mel频率倒谱系数)、LPCC(线性预测倒谱系数)等参数。具体地，可以采用多层神经网络的高识别率算法从语音数据中提取出音频特征参量。

本申请的一种实施例中，根据上述音频特征参量确定上述语音类别，包括：构建分类模型；将上述音频特征参量输入至上述分类模型中进行计算，输出上述语音类别。

本申请的一种具体的实施例中，如图2所示，构建分类模型的步骤包括：获取训练数据；对训练数据进行特征提取；采用提取出的特征进行模型的训练，得到分类模型。进行语音识别的时候，提取出待判定的音频中的音频特征参量，然后将音频特征参量输入至分类模型中进行计算，输出语音类别。

本申请的一种实施例中，确定上述语音数据的上下文语义，包括：提取出上述语音数据中的关键词；根据上述关键词确定上述上下文语义。例如，语音数据中的关键词包括银行卡、丢失。上下文语义可能是用户丢失银行卡需要进行办理；语音数据中的关键词包括套餐、流量、通话分钟数，上下文语义可能是用户想咨询通话分钟数和流量的套餐；语音数据中的关键词包括医院、心脏、专家，上下文语义可能是用户想咨询那些医院有心脏方面的专家等等。

本申请的一种实施例中，根据上述语音类别和上述上下文语义，确定ASR引擎和ASR模型，包括：根据上述上下文语义，确定上述ASR引擎；根据上述语音类别和/或上述上下文语义，确定上述ASR模型。即可以根据上下文语义确定ASR引擎，根据上下文语义确定ASR模型；根据语音类别确定ASR模型；根据语音类别和上下文语义，确定ASR模型。如图3所示，一种ASR引擎下对应多个ASR模型，可以根据上下文语义确定ASR引擎和/或ASR模型；也可以直接根据语音类别直接确定ASR模型；也可以综合语音类别和上下文语义确定ASR模型。

优选地，可以先确定用户的语种和/或方言，然后结合上下文语义，切换至合适的ASR模型。

本申请的一种实施例中，预先选择一种ASR引擎和ASR模型，然后根据语音类别和上述上下文语义动态切换ASR引擎和ASR模型。应用于智能导航领域中可以实时根据用户的语音类别和上述上下文语义自动切换合适的ASR引擎和ASR模型。以实现语音的精准识别。

一种具体的实施例中，上下文语义为纯数字，可以选择语法识别引擎，再根据语种和/或方言选择语法识别引擎下对应的ASR模型；上下文语义为数字加文字，可以选择自由说引擎，再根据语种和/或方言选择自由说引擎下对应的ASR模型。

本申请的一种实施例中，根据上述语音类别和上述上下文语义，确定ASR引擎和ASR模型，包括：在用户进行多轮对话过程中，先根据上述上下文语义确定上述ASR引擎，再根据上述语音类别确定上述ASR模型。即可以先根据上下文语义确定ASR引擎，再根据语音类别确定ASR模型。进而实现ASR引擎与ASR模型的精确确定。如在进行通用问题识别时使用Freetalk引擎，进行航班号等纯数字识别时使用Grammer引擎；再根据语种或方言，切换到最优的语音识别模型。

一种优选的实施例中，在编写多轮对话时，可以将多轮对话的节点按照“引擎+模型”进行分类，例如可以按照Grammer(number)节点、Freetalk(common)节点进行分类，当命中某一节点类型时则代表下一次问答内容将使用该类型的引擎/模型。

具体地，上述ASR引擎包括至少以下之一：语法识别引擎、自由说引擎、关键词检出引擎、语音质检分析引擎。当然，ASR引擎还包括除语法识别引擎、自由说引擎、关键词检出引擎、语音质检分析引擎以外的引擎。

本申请实施例还提供了一种语音识别的装置，需要说明的是，本申请实施例的语音识别的装置可以用于执行本申请实施例所提供的用于语音识别的方法。以下对本申请实施例提供的语音识别的装置进行介绍。

图4是根据本申请实施例的语音识别的装置的示意图。如图4所示，该装置包括：

获取单元10，用于获取语音数据；

第一确定单元20，用于确定上述语音数据的语音类别，上述语音类别包括语种和/或方言；

第二确定单元30，用于确定上述语音数据的上下文语义；

第三确定单元40，用于根据上述语音类别和上述上下文语义，确定ASR引擎和ASR模型；

识别单元50，用于采用上述ASR引擎和上述ASR模型，对上述语音数据进行识别。

上述方案中，获取单元获取语音数据，第一确定单元确定语音数据的语音类别，第二确定单元确定上下文语义，第三确定单元综合语音类别和上下文语义确定ASR引擎和ASR模型，识别单元采用确定好的ASR引擎和ASR模型，对语音数据进行识别。实现了对语音数据的精确识别。

本申请的一种实施例中，第一确定单元包括第一提取模块和第一确定模块，第一提取模块用于提取出上述语音数具体地，音频特征参量包括MFCC(Mel频率倒谱系数)、LPCC(线性预测倒谱系数)等参数。具体地，可以采用多层神经网络的高识别率算法从语音数据中提取出音频特征参量。据的音频特征参量；第一确定模块用于根据上述音频特征参量确定上述语音类别。

本申请的一种实施例中，第一确定模块包括构建子模块和计算子模块，构建子模块用于构建分类模型；计算子模块用于将上述音频特征参量输入至上述分类模型中进行计算，输出上述语音类别。

本申请的一种实施例中，第二确定单元包括第二提取模块和第二确定模块，第二提取模块用于提取出上述语音数据中的关键词；第二确定模块用于根据上述关键词确定上述上下文语义。例如，语音数据中的关键词包括银行卡、丢失。上下文语义可能是用户丢失银行卡需要进行办理；语音数据中的关键词包括套餐、流量、通话分钟数，上下文语义可能是用户想咨询通话分钟数和流量的套餐；语音数据中的关键词包括医院、心脏、专家，上下文语义可能是用户想咨询那些医院有心脏方面的专家等等。

本申请的一种实施例中，第三确定单元包括第三确定模块和第四确定模块，第三确定模块用于根据上述上下文语义，确定上述ASR引擎；第四确定模块用于根据上述语音类别和/或上述上下文语义，确定上述ASR模型。即可以根据上下文语义确定ASR引擎，根据上下文语义确定ASR模型；根据语音类别确定ASR模型；根据语音类别和上下文语义，确定ASR模型。如图3所示，一种ASR引擎下对应多个ASR模型，可以根据上下文语义确定ASR引擎和/或ASR模型；也可以直接根据语音类别直接确定ASR模型；也可以综合语音类别和上下文语义确定ASR模型。

本申请的一种实施例中，第三确定单元还用于在用户进行多轮对话过程中，先根据上述上下文语义确定上述ASR引擎，再根据上述语音类别确定上述ASR模型。即可以先根据上下文语义确定ASR引擎，再根据语音类别确定ASR模型。进而实现ASR引擎与ASR模型的精确确定。如在进行通用问题识别时使用Freetalk引擎，进行航班号等纯数字识别时使用Grammer引擎；再根据语种或方言，切换到最优的语音识别模型。

所述语音识别的装置包括处理器和存储器，上述获取单元、第一确定单元、第二确定单元、第三确定单元和识别单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来实现对语音的精准识别。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行所述语音识别的方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述语音识别的方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现至少以下步骤：

步骤S101，获取语音数据；

步骤S103，确定上述语音数据的上下文语义；

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有至少如下方法步骤的程序：

步骤S101，获取语音数据；

步骤S103，确定上述语音数据的上下文语义；

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

从以上的描述中，可以看出，本申请上述的实施例实现了如下技术效果：

1)、本申请的语音识别的方法，通过获取语音数据，确定语音数据的语音类别和上下文语义，再综合语音类别和上下文语义确定ASR引擎和ASR模型，最后采用确定好的ASR引擎和ASR模型，对语音数据进行识别。实现了对语音数据的精确识别。

2)、本申请的语音识别的装置，获取单元获取语音数据，第一确定单元确定语音数据的语音类别，第二确定单元确定上下文语义，第三确定单元综合语音类别和上下文语义确定ASR引擎和ASR模型，识别单元采用确定好的ASR引擎和ASR模型，对语音数据进行识别。实现了对语音数据的精确识别。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音识别的方法，其特征在于，包括：

获取语音数据；

确定所述语音数据的语音类别，所述语音类别包括语种和/或方言；

确定所述语音数据的上下文语义；

根据所述语音类别和所述上下文语义，确定ASR引擎和ASR模型；

采用所述ASR引擎和所述ASR模型，对所述语音数据进行识别。

2.根据权利要求1所述的方法，其特征在于，确定所述语音数据的语音类别，包括：

提取出所述语音数据的音频特征参量；

根据所述音频特征参量确定所述语音类别。

3.根据权利要求2所述的方法，其特征在于，根据所述音频特征参量确定所述语音类别，包括：

构建分类模型；

将所述音频特征参量输入至所述分类模型中进行计算，输出所述语音类别。

4.根据权利要求1所述的方法，其特征在于，确定所述语音数据的上下文语义，包括：

提取出所述语音数据中的关键词；

根据所述关键词确定所述上下文语义。

5.根据权利要求1所述的方法，其特征在于，根据所述语音类别和所述上下文语义，确定ASR引擎和ASR模型，包括：

根据所述上下文语义，确定所述ASR引擎；

根据所述语音类别和/或所述上下文语义，确定所述ASR模型。

6.根据权利要求1所述的方法，其特征在于，根据所述语音类别和所述上下文语义，确定ASR引擎和ASR模型，包括：

在用户进行多轮对话过程中，先根据所述上下文语义确定所述ASR引擎，再根据所述语音类别确定所述ASR模型。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述ASR引擎包括至少以下之一：

语法识别引擎、自由说引擎、关键词检出引擎、语音质检分析引擎。

8.一种语音识别的装置，其特征在于，包括：

获取单元，用于获取语音数据；

第一确定单元，用于确定所述语音数据的语音类别，所述语音类别包括语种和/或方言；

第二确定单元，用于确定所述语音数据的上下文语义；

第三确定单元，用于根据所述语音类别和所述上下文语义，确定ASR引擎和ASR模型；

识别单元，用于采用所述ASR引擎和所述ASR模型，对所述语音数据进行识别。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至7中任意一项所述的方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至7中任意一项所述的方法。