CN112037775A

CN112037775A - 语音识别方法、装置、设备及存储介质

Info

Publication number: CN112037775A
Application number: CN202010934093.0A
Authority: CN
Inventors: 韩阳
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2020-12-04
Anticipated expiration: 2040-09-08
Also published as: CN112037775B

Abstract

本申请提供了一种语音识别方法、装置、设备及存储介质，涉及数据处理技术领域。其中，该方法包括：对输入语音进行分析，得到输入语音的语速信息；根据语速信息，得到输入语音的估算字符数量；根据估算字符数量，采用预先训练的语音识别模型，对输入语音进行识别处理，得到输入语音的识别结果。通过在语音识别过程中引入语速识别，确定输入语音的估算字符数量，并根据输入语音的估算字符数量确定语音识别结束点，从而有效提高了得到的语音识别结果的准确性。

Description

语音识别方法、装置、设备及存储介质

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种语音识别方法、装置、设备及存储介质。

背景技术

近年来，随着深度神经网络的应用，语音识别的性能得到了极大的提高。然而，搭建一套语音识别系统仍然是一项富有挑战性的工作，因为一套语音识别系统需要各种知识源信息、专家知识和多种训练阶段。然而，随着端到端(End-to-End)语音识别的提出，语音识别系统可以由两个神经网络组成的编码器和解码器组成，其搭建过程大大简化，回归到直接训练神经网络的过程，而无需提供复杂的知识源和专家知识；所有信息都可以由网络从训练数据中自动学习得到。

然而端到端语音识别是输出同步的，这意味着识别过程没有明确的结束点，或者说即使有结束标志，也是不准确的结束标志。从而导致语音识别结果准确性较差。

发明内容

有鉴于此，本申请实施例的目的在于提供一种语音识别方法、装置、设备及存储介质，能够通过引入语速识别，确定待识别语音的字符数量，进而结合字符数量，进行语音识别，解决现有技术中存在的语音识别结果准确性较差的问题。

为实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请实施例提供了一种语音识别方法，包括：

对输入语音进行分析，得到所述输入语音的语速信息；

根据所述语速信息，得到所述输入语音的估算字符数量；

根据所述估算字符数量，采用预先训练的语音识别模型，对所述输入语音进行识别处理，得到所述输入语音的识别结果。

可选地，所述根据所述语速信息，得到所述输入语音的估算字符数量，包括：

根据所述语速信息、以及所述输入语音的语音时长，得到所述输入语音的估算字符数量。

可选地，所述语速信息为：所述语音时长内预设时间段的各个时间点的语速信息；所述根据所述语速信息、以及所述输入语音的语音时长，得到所述输入语音的估算字符数量，包括：

根据所述各个时间点的语速信息，确定所述预设时间段内的平均语速信息作为所述输入语音在所述语音时长内的平均语速信息；

根据所述平均语速信息、以及所述语音时长，得到所述输入语音的估算字符数量。

可选地，所述对所述输入语音进行分析，得到所述输入语音的语速信息，包括：

对所述输入语音进行分析，得到所述输入语音的属性信息；

从所述属性信息中提取所述语速信息。

可选地，所述语音识别模型包括：编码器和解码器；所述根据所述估算字符数量，采用预先训练的语音识别模型，对所述输入语音进行识别处理，得到所述输入语音的识别结果，包括：

采用所述编码器对所述输入语音进行编码处理；

采用所述解码器对编码处理后的语音进行解码处理，并根据所述解码器的解码字符数量和所述估算字符数量，确定是否满足所述解码器的解码结束条件；

若满足所述解码结束条件，则确定所述满足所述解码结束条件时的解码处理后的结果为所述输入语音的识别结果。

可选地，所述采用所述解码器对编码处理后的语音进行解码处理，并根据所述解码器的解码字符数量和所述估算字符数量，确定是否满足所述解码器的解码结束条件，包括：

采用所述解码器对编码处理后的语音中的字符进行解码处理，得到所述字符的至少一个解码路径，每个解码路径为包括至少一个识别字符的识别结果；

根据所述每个解码路径的字符数量、所述估算字符数量和所述每个解码路径的得分权重，得到所述每个解码路径的结束指标；

确定所述至少一个解码路径中是否存在满足解码结束指标阈值的解码路径；

若是，则确定满足所述解码器的解码结束条件；

满足所述解码结束条件时的解码处理后的结果为：满足解码结束指标阈值的解码路径中结束指标最高的目标解码路径。

可选地，所述根据所述每个解码路径的字符数量、所述估算字符数量和所述每个解码路径的得分权重，得到所述每个解码路径的结束指标，包括：

根据所述每个解码路径的字符数量、所述估算字符数量，得到所述每个解码路径的第一指标；

根据所述每个解码路径的得分权重，得到所述每个解码路径的第二指标；

根据所述第一指标和所述第二指标，得到所述解码结束指标。

可选地，所述根据所述估算字符数量，采用预先训练的语音识别模型，对所述输入语音进行识别处理，得到所述输入语音的识别结果，还包括：

若不满足所述解码结束条件，则继续采用所述解码器对所述编码处理后的语音进行编码处理，直至满足所述解码结束条件，确定满足所述解码结束条件时的解码处理后的结果为所述输入语音的识别结果。

第二方面，本申请实施例提供了一种语音识别装置，包括：分析模块、获取模块、识别模块；

所述分析模块，用于对输入语音进行分析，得到所述输入语音的语速信息；

所述获取模块，用于根据所述语速信息，得到所述输入语音的估算字符数量；

所述识别模块，用于根据所述估算字符数量，采用预先训练的语音识别模型，对所述输入语音进行识别处理，得到所述输入语音的识别结果。

可选地，所述获取模块，具体用于根据所述语速信息、以及所述输入语音的语音时长，得到所述输入语音的估算字符数量。

可选地，所述语速信息为：所述语音时长内预设时间段的各个时间点的语速信息；

所述获取模块，具体用于根据所述各个时间点的语速信息，确定所述预设时间段内的平均语速信息作为所述输入语音在所述语音时长内的平均语速信息；根据所述平均语速信息、以及所述语音时长，得到所述输入语音的估算字符数量。

可选地，所述分析模块，具体用于对所述输入语音进行分析，得到所述输入语音的属性信息；从所述属性信息中提取所述语速信息。

可选地，所述语音识别模型包括：编码器和解码器；

所述识别模块，具体用于采用所述编码器对所述输入语音进行编码处理；采用所述解码器对编码处理后的语音进行解码处理，并根据所述解码器的解码字符数量和所述估算字符数量，确定是否满足所述解码器的解码结束条件；若满足所述解码结束条件，则确定所述满足所述解码结束条件时的解码处理后的结果为所述输入语音的识别结果。

可选地，所述识别模块，具体用于采用所述解码器对编码处理后的语音中的字符进行解码处理，得到所述字符的至少一个解码路径，每个解码路径为包括至少一个识别字符的识别结果；根据所述每个解码路径的字符数量、所述估算字符数量和所述每个解码路径的得分权重，得到所述每个解码路径的结束指标；确定所述至少一个解码路径中是否存在满足解码结束指标阈值的解码路径；若是，则确定满足所述解码器的解码结束条件；满足所述解码结束条件时的解码处理后的结果为：满足解码结束指标阈值的解码路径中结束指标最高的目标解码路径。

可选地，所述识别模块，具体用于根据所述每个解码路径的字符数量、所述估算字符数量，得到所述每个解码路径的第一指标；根据所述每个解码路径的得分权重，得到所述每个解码路径的第二指标；根据所述第一指标和所述第二指标，得到所述解码结束指标。

可选地，所述识别模块，还用于若不满足所述解码结束条件，则继续采用所述解码器对所述编码处理后的语音进行编码处理，直至满足所述解码结束条件，确定满足所述解码结束条件时的解码处理后的结果为所述输入语音的识别结果。

第三方面，本申请实施例提供了一种语音识别设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当语音识别设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如上述第一方面所述的语音识别方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述第一方面所述的语音识别方法的步骤。

本申请的有益效果：

本申请实施例提供一种语音识别方法、装置、设备及存储介质，其中，该方法包括：对输入语音进行分析，得到输入语音的语速信息；根据语速信息，得到输入语音的估算字符数量；根据估算字符数量，采用预先训练的语音识别模型，对输入语音进行识别处理，得到输入语音的识别结果。通过在语音识别过程中引入语速识别，确定输入语音的估算字符数量，并根据输入语音的估算字符数量确定语音识别结束点，从而有效提高了得到的语音识别结果的准确性。

另外，结合每个解码路径的路径得分和字符得分，得到每个解码路径的结束指标，从而用于判断解码结束点，使得解码结束点的判断结果更加精确。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种语音识别方法所应用场景的框图；

图2为本申请实施例提供的一种可以实现本申请思想的电子设备的示例性硬件和软件组件的示意图；

图3为本申请实施例提供的一种语音识别方法的流程示意图；

图4为本申请实施例提供的另一种语音识别方法的流程示意图；

图5为本申请实施例提供的又一种语音识别方法的流程示意图；

图6为本申请实施例提供的一种语音识别方法的流程示意图；

图7为本申请实施例提供的另一种语音识别方法的流程示意图；

图8为本申请实施例提供的又一种语音识别方法的流程示意图；

图9为本申请实施例提供的一种语音识别装置的示意图；

图10为本申请实施例提供的一种语音识别设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

需要说明的是，本申请提供的语音识别方法既可应用于终端设备与服务器交互的场景，如：用户通过终端设备输入语音，服务器通过所安装的语音识别模型，对输入语音进行识别。另外，也可单独的应用于终端设备，终端设备中安装有语音识别模型，终端设备可对用户的输入语音进行识别。

图1为本申请实施例提供的一种语音识别方法所应用场景的框图。图1是对应于上述所描述的应用于终端设备与服务器交互的场景的示例图。例如，该应用场景下可具有语音识别系统100，该语音识别系统100可以包括服务器110、网络120、终端130、数据库140中的一种或多种，服务器110中可以包括执行指令操作的处理器。语音识别模型可以是安装于服务器中，以用于通过语音识别的方式，为用户提供便利，解放用户的双手等。

在一些实施例中，服务器110可以是单个服务器，也可以是服务器组。服务器组可以是集中式的，也可以是分布式的(例如，服务器110可以是分布式系统)。在一些实施例中，服务器110相对于终端，可以是本地的、也可以是远程的。例如，服务器110可以经由网络120访问存储在终端130、或数据库140、或其任意组合中的信息和/或数据。作为另一示例，服务器110可以直接连接到终端130和数据库140中至少一个，以访问存储的信息和/或数据。在一些实施例中，服务器110可以在云平台上实现；仅作为示例，云平台可以包括私有云、公有云、混合云、社区云(community cloud)、分布式云、跨云(inter-cloud)、多云(multi-cloud)等，或者它们的任意组合。在一些实施例中，服务器110可以在具有本申请中图2所示的一个或多个组件的电子设备200上实现。

在一些实施例中，服务器110可以包括处理器。处理器可以处理通过终端输入的语音信息，以执行本申请中描述的一个或多个功能。例如，处理器可以基于从终端130获得的输入语音，确定输入语音的识别结果。在一些实施例中，处理器可以包括一个或多个处理核(例如，单核处理器(S)或多核处理器(S))。仅作为举例，处理器可以包括中央处理单元(Central Processing Unit，CPU)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、专用指令集处理器(Application Specific Instruction-setProcessor，ASIP)、图形处理单元(Graphics Processing Unit，GPU)、物理处理单元(Physics Processing Unit，PPU)、数字信号处理器(Digital Signal Processor，DSP)、现场可编程门阵列(Field Programmable Gate Array，FPGA)、可编程逻辑器件(Programmable Logic Device，PLD)、控制器、微控制器单元、简化指令集计算机(ReducedInstruction Set Computing，RISC)、或微处理器等，或其任意组合。

网络120可以用于信息和/或数据的交换。在一些实施例中，语音识别系统100中的一个或多个组件(例如，服务器110，终端130，服务提供方和数据库140)可以向其他组件发送信息和/或数据。例如，服务器110可以经由网络120从终端130获取服务请求。在一些实施例中，网络120可以是任何类型的有线或者无线网络，或者是他们的结合。仅作为示例，网络120可以包括有线网络、无线网络、光纤网络、远程通信网络、内联网、因特网、局域网(LocalArea Network，LAN)、广域网(Wide Area Network，WAN)、无线局域网(Wireless LocalArea Networks，WLAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide AreaNetwork，WAN)、公共电话交换网(Public Switched Telephone Network，PSTN)、蓝牙网络、ZigBee网络、或近场通信(Near Field Communication,NFC)网络等，或其任意组合。在一些实施例中，网络120可以包括一个或多个网络接入点。例如，网络120可以包括有线或无线网络接入点，例如基站和/或网络交换节点，语音识别系统100的一个或多个组件可以通过该接入点连接到网络120以交换数据和/或信息。

在一些实施例中，终端130的用户可以是除终端持有者之外的其他人。在一些实施例中，终端130可以包括移动设备、平板计算机、膝上型计算机、或机动车辆中的内置设备等，或其任意组合。在一些实施例中，移动设备可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、或增强现实设备等，或其任意组合。在一些实施例中，智能家居设备可以包括智能照明设备、智能电器设备的控制设备、智能监控设备、智能电视、智能摄像机、或对讲机等，或其任意组合。在一些实施例中，可穿戴设备可包括智能手环、智能头盔、智能手表、智能服装、智能背包、智能配件等、或其任何组合。在一些实施例中，智能移动设备可以包括智能手机、个人数字助理(Personal Digital Assistant，PDA)、游戏设备、导航设备、或销售点(point of sale，POS)设备等，或其任意组合。在一些实施例中，虚拟现实设备和/或增强现实设备可以包括虚拟现实头盔、虚拟现实玻璃、虚拟现实贴片、增强现实头盔、增强现实玻璃、或增强现实贴片等，或其任意组合。例如，虚拟现实设备和/或增强现实设备可以包括各种虚拟现实产品等。在一些实施例中，机动车辆中的内置设备可以包括车载计算机、车载电视等。在一些实施例中，终端130可以是具有用于定位服务请求方和/或服务请求方终端的位置的定位技术的设备。

数据库140可以存储数据和/或指令。在一些实施例中，数据库140可以存储从终端130获得的数据。在一些实施例中，数据库140可以存储在本申请中描述的示例性方法的数据和/或指令。在一些实施例中，数据库140可以包括大容量存储器、可移动存储器、易失性读写存储器、或只读存储器(Read-Only Memory，ROM)等，或其任意组合。作为举例，大容量存储器可以包括磁盘、光盘、固态驱动器等；可移动存储器可包括闪存驱动器、软盘、光盘、存储卡、zip磁盘、磁带等；易失性读写存储器可以包括随机存取存储器(Random AccessMemory，RAM)；RAM可以包括动态RAM(Dynamic Random Access Memory，DRAM)，双倍数据速率同步动态RAM(Double Date-Rate Synchronous RAM，DDR SDRAM)；静态RAM(StaticRandom-Access Memory，SRAM)，晶闸管RAM(Thyristor-Based Random Access Memory，T-RAM)和零电容器RAM(Zero-RAM)等。作为举例，ROM可以包括掩模ROM(Mask Read-OnlyMemory，MROM)、可编程ROM(Programmable Read-Only Memory，PROM)、可擦除可编程ROM(Programmable Erasable Read-only Memory，PEROM)、电可擦除可编程ROM(ElectricallyErasable Programmable read only memory，EEPROM)、光盘ROM(CD-ROM)、以及数字通用磁盘ROM等。在一些实施例中，数据库140可以在云平台上实现。仅作为示例，云平台可以包括私有云、公有云、混合云、社区云、分布式云、跨云、多云或者其它类似的等，或其任意组合。

在一些实施例中，数据库140可以连接到网络120以与语音识别系统100(例如，服务器110，终端130等)中的一个或多个组件通信。语音识别系统100中的一个或多个组件可以经由网络120访问存储在数据库140中的数据或指令。在一些实施例中，数据库140可以直接连接到语音识别系统100中的一个或多个组件(例如，服务器110，终端130等)；或者，在一些实施例中，数据库140也可以是服务器110的一部分。

在一些实施例中，语音识别系统100中的一个或多个组件(例如，服务器110，终端130等)可以具有访问数据库140的权限。

而当单独应用于终端设备场景时，语音识别模型可以是安装于终端设备中，用户可通过终端设备输入语音，终端设备的语音识别模型可对输入语音进行识别，并通过终端设备将识别结果反馈给用户。在该应用场景下，语音识别系统100可以包括终端设备、网络和数据库中的一种或多种。

图2为本申请实施例提供的一种可以实现本申请思想的电子设备200的示例性硬件和软件组件的示意图。例如，处理器220可以用于电子设备200上，并且用于执行本申请中的功能。

电子设备200可以是通用计算机或特殊用途的计算机，两者都可以用于实现本申请的语音识别方法。本申请尽管仅示出了一个计算机，但是为了方便起见，可以在多个类似平台上以分布式方式实现本申请描述的功能，以均衡处理负载。

例如，电子设备200可以包括连接到网络的网络端口210、用于执行程序指令的一个或多个处理器220、通信总线230、和不同形式的存储介质240，例如，磁盘、ROM、或RAM，或其任意组合。示例性地，计算机平台还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以实现本申请的方法。电子设备200还包括计算机与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(Input/Output，I/O)接口250。

为了便于说明，在电子设备200中仅描述了一个处理器。然而，应当注意，本申请中的电子设备200还可以包括多个处理器，因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如，若电子设备200的处理器执行步骤A和步骤B，则应该理解，步骤A和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如，第一处理器执行步骤A，第二处理器执行步骤B，或者第一处理器和第二处理器共同执行步骤A和B。

如下，将通过多个具体的实施例对本申请所提供的语音识别方法的实现步骤以及带来的有益效果进行说明。

首先需要说明的是，本申请的语音识别方法可以适用于端到端的语音识别系统。由于端到端语音识别是输出同步的，这意味着识别过程没有明确的结束点，只能靠判断是否有<eos>token(结束标志)来判断是否到了句子结尾。但是对<eos>token的预测本来也是不完全准确的。而且由于这个原因，越短的句子其得分越小，由于没有句子长度的统一限制，识别结果会偏向短的句子。另外，由于预测下一个字符，是根据已经产生的字符为条件的，因此要是已经预测的字符出现了错误，则会导致后面的结果均出错，从而获取的识别结果是错误的。

本申请针对解决端到端语音识别无确定结束点的问题，利用启发式的语速信息预测识别结果的长度，从而帮助准确判断识别过程何时结束，从而输入较为精确的语音识别结果。

图3为本申请实施例提供的一种语音识别方法的流程示意图，可选地，本方法的执行主体可以是计算机、服务器等设备。如图3所示出的，该方法可包括：

S101、对输入语音进行分析，得到输入语音的语速信息。

本申请方案中，在进行语音识别时，向语音识别模型中引入了输入的待识别语音的估算字符数量，从而可以根据估算字符数量，指导模型输出较为准确的识别结果。

在得到输入语音的语速信息之前，可先对输入语音进行分析，得到输入语音的语速信息。

可选地，输入语音可以是任意语言类型的语音，例如：中文语音、英文语言等。用户可通过终端设备进行语音输入，服务器从终端设备获取输入语音，并基于本申请的语音识别方法，对输入语音进行识别，得到识别结果。其中，终端设备可以为移动终端设备，如：手机、平板、笔记本电脑等，终端设备也可以是车载中控设备。

当然，当为终端设备应用场景时，用户可通过终端设备进行语音输入，终端设备获取输入语音，并基于本申请的语音识别方法，对输入语音进行识别，得到识别结果。

可选地，本实施例中，可采用前端工具Praat语音分析软件，对输入语音进行分析。其中，Praat是通过对输入语音的语音信号进行采集、分析，并以文字报表或者语图的方式输出分析结果，从而可以根据分析结果得到输入语音的语速信息。

需要说明的是，本申请方法中，该前端工具Praat可以是设置于语音识别模型前端的工具，也即，Praat的输出端与语音识别模型的输入端连接。

S202、根据语速信息，得到输入语音的估算字符数量。

由于分析精确度的问题，根据语速信息，得到的为输入语音的估算字符数量，其可能会与输入语音的标准字符数量存在误差，但是该误差属于可忽略误差，并不会对语音识别结果的准确性造成太大影响。

其中，字符数量可以为输入语音中有效字符的数量。例如，输入语音为“你吃了吗”，那么输入语音的字符数量可以为4，而输入语音为“how are you”,那么，输入语音的字符数量可以为9。

可选地，可根据输入语音的语速信息、以及输入语音的语音时长，得到输入语音的估算字符数量。当然，也可不限于该实现方式。

S103、根据估算字符数量，采用预先训练的语音识别模型，对输入语音进行识别处理，得到输入语音的识别结果。

可选地，在得到输入语音的估算字符数量后，可将输入语音以及输入语音的估算字符数量作为输入数据，输入至预先训练的语音识别模型中，语音识别模型在语音识别的过程中，可以结合输入语音以及输入语音的估算字符数量，从不同的结果组合中(例如：可以是不同的汉字组合，也可以是不同的字母组合等，不同的组合可以对应不同的语句)，确定输入语音的目标识别结果。

在一些实施例中，识别结果可以反馈给用户，以使得用户可以根据识别结果进行信息交流。例如：用户通过社交软件聊天时，若不方便通过打字的方式进行聊天，可以输入语音，得到输入语音的识别结果，并将识别结果发送给聊天对象，可以提高用户的体验度。

在另一些实施例中，识别结果也可以用于为用户提供相应的服务。例如：用户通过终端设备搜索附近的餐厅时，可以输入语音：请推荐附近评价较好的餐厅，服务器可对输入语音进行识别，并根据识别结果，获取目标餐厅信息，反馈给用户，以实现智能服务。当然，对于识别结果的具体应用，也可以不局限于上述所列举的两种。

综上，本实施例提供的语音识别方法，包括：对输入语音进行分析，得到输入语音的语速信息；根据语速信息，得到输入语音的估算字符数量；根据估算字符数量，采用预先训练的语音识别模型，对输入语音进行识别处理，得到输入语音的识别结果。通过在语音识别过程中引入语速识别，确定输入语音的估算字符数量，并根据输入语音的估算字符数量确定语音识别结束点，从而有效提高了得到的语音识别结果的准确性。

可选地，上述步骤S102中，根据语速信息，得到输入语音的估算字符数量，可以包括：根据语速信息、以及输入语音的语音时长，得到输入语音的估算字符数量。

本实施例中，可根据分析得到的输入语音的语速信息、以及输入语音的语音时长，计算在该语音时长内所产生的字符数量。由于语速信息存在不稳定性，那么根据语速信息得到的字符数量可能与该输入语音的真实字符数量存在差异，故得到的为预估字符数量，但是该预估字符数量与真实字符数量的差异并不会太大，故不会对识别结果造成太大的影响。具体根据语速信息和语音时长如何得到预估字符数量，可参考下面的具体举例。

图4为本申请实施例提供的另一种语音识别方法的流程示意图。可选地，在一种实现示例中，上述步骤S101中，对输入语音进行分析，得到的语速信息，可以为：输入语音的语音时长内预设时间段的各个时间点的语速信息；如图4所示，上述步骤中，根据语速信息、以及输入语音的语音时长，得到输入语音的估算字符数量，可以包括：

S201、根据各个时间点的语速信息，确定预设时间段内的平均语速信息作为输入语音在语音时长内的平均语速信息。

在可能实现的方式中，通过对输入语音进行分析，可以获取该输入语音的语音时长内的预设时间段的各个时间点的语速信息，从而根据该多个时间点的语速信息，计算该预设时间段内的平均语速信息，该平均语速信息可以作为输入语音在语音时长内的平均语速信息。

例如：输入语音的语音时长为10秒，可以选取4-7秒作为预设时间段，并获取该预设时间段内每秒所对应的语速信息，如：4秒对应的语速信息为2，5秒对应的语速信息为1，6秒对应的语速信息为3，7秒对应的语速信息为2，那么，可计算得到该预设时间内的平均语速信息为：2。

一方面，通过获取预设时间段内的各个时间点的语速信息，可以有效减少计算平均语速信息的数据量，提高计算效率。另一方面，相比于任意的选择几个时间点的语速信息计算平均语速信息，本方法中通过预设时间段内的各个语速信息得到的平均语速信息更加准确。

可选地，由于上述方法获取的平均语速信息较为准确，从而使得得到的输入语音在语音时长内的语速信息准确性也较高。

S202、根据平均语速信息、以及语音时长，得到输入语音的估算字符数量。

基于得到的平均语速信息，可以将平均语速信息与输入语音的语音时长进行乘积运算，计算得到输入语音的估算字符数量。

例如：输入语音的平均语速信息为2，输入语音的语音时长为10秒，那么，对应得到的输入语音的估算字符数量为20。

在另一种实现示例中，上述步骤S101中，对输入语音进行分析，可直接得到输入语音在语音时长内的平均语速信息，不需要通过额外的计算来得到平均语速信息。

在又一种实现示例中，除了上述的实现方式，在对输入语音进行分析时，得到的语速信息可以为输入语音在语音时长内各个时间点的语速信息。相比于上述步骤中获取的为输入语音在语音时长内预设时间段的各个时间点的语速信息，本方法需通过对输入语音在语音时长内的每个时间点的语速信息均进行获取，从而根据获取的多个语速信息，计算平均语速信息。

上述所列举的几种计算输入语音在语音时长内的平均语速信息的方法，在具体应用中均具有较好的实用性，在实际应用中，可任选其一进行平均语速信息的计算，本申请对此不做具体限制。

图5为本申请实施例提供的又一种语音识别方法的流程示意图。可选地，如图5所示，上述步骤S101中，对输入语音进行分析，得到输入语音的语速信息，可以包括：

S301、对输入语音进行分析，得到输入语音的属性信息。

可选地，采用Praat对输入语音进行分析，可以得到输入语音的多种属性信息，例如：输入语音的频率、强度、共振峰等，从而可以根据输入语音的属性信息，得到输入语音的基频曲线。

S302、从属性信息中提取语速信息。

可选地，可以基于上述得到的输入语音的属性信息，分析得到输入语音的语速信息。基于软件层面，可以是通过编写脚本实现语速信息的提取。

基于提取得到的语速信息，采用上述所说明的字符数量计算方法，可以得到输入语音的估算字符数量。

图6为本申请实施例提供的一种语音识别方法的流程示意图。可选地，上述步骤S103中的语音识别模型可以包括：编码器和解码器；而步骤S103中，根据估算字符数量，采用预先训练的语音识别模型，对输入语音进行识别处理，得到输入语音的识别结果，可以包括：

S401、采用编码器对输入语音进行编码处理。

需要说明的是，本实施例中，语音识别模型可以是由两个神经网络组成的编码器和解码器构成，该语音识别模型的搭建过程大大简化，回归到直接训练神经网络的过程，而无需提供复杂的知识源和专家知识，所有信息都可以由网络从训练数据中自动学习得到。

可选地，上述编码器和解码器均可采用LSTM(长短期记忆网络)神经网络构成，语音识别模型可以使用LSTM神经网络对输入的语音特征进行编码，生成固定长度的隐层表示，再用另外一个LSTM神经网络对固定长度的隐层向量进行解码，生成最后的识别结果。

S402、采用解码器对编码处理后的语音进行解码处理，并根据解码器的解码字符数量和估算字符数量，确定是否满足解码器的解码结束条件。

可选地，解码器在对编码后的语音进行解码时，是对编码后的语音中的所有字符依次进行解码，直到解码得到完整的识别结果，结束解码过程。

例如：输入语音是“你吃了吗”，那么，解码器在解码时，会先对第一个字符“你”进行解码，当解码得到“你”之后，继续解码得到“你吃”，依次类推，直到解码得到“你吃了吗”，结束解码过程。

可选地，本实施例中，在每一步解码过程中，均可将当前解码得到的字符数量与上述得到的输入语音的估算字符数量进行比较，以确定是否在当前解码完成时，结束解码过程。

需要说明的是，解码器的解码字符数量越接近输入语音的估算字符数量，当前的解码识别结果则越接近输入语音的目标识别结果。基于此，可确定是否满足解码器的解码结束条件。

S403、若满足解码结束条件，则确定满足解码结束条件时的解码处理后的结果为输入语音的识别结果。

可选地，若当前解码满足解码结束条件，则可将当前解码处理得到的结果作为输入语音的最终识别结果。继续如上述所举例的，假设当前解码处理得到的结果为“你吃了吗”，满足解码结束条件，则将该结果“你吃了吗”，作为输入语音的识别结果。

图7为本申请实施例提供的另一种语音识别方法的流程示意图。可选地，如图7所示，上述步骤S402中，采用解码器对编码处理后的语音进行解码处理，并根据解码器的解码字符数量和估算字符数量，确定是否满足解码器的解码结束条件，可以包括：

S501、采用解码器对编码处理后的语音中的字符进行解码处理，得到字符的至少一个解码路径，每个解码路径为包括至少一个识别字符的识别结果。

需要说明的是，编码处理后的语音是输入语音对应的特征序列，该特征序列是对输入语音的另一种表示，在解码过程中，解码器是对该特征序列中输入语音对应的每个字符依次进行解码。

其中，对于任意一步解码处理，均会得到当前解码字符的至少一个解码路径，解码路径可以理解为识别结果所在的路径，无论解码路径是否为目标解码路径，通过解码处理，均可得到每个解码路径所对应的字符识别结果，从而可以从至少一个解码路径中，确定目标解码路径。

例如：输入语音为“你好呀”，那么对其进行编码处理后，再进行解码处理，在解码过程中，可得到如下的至少一个解码路径：路径“你”、路径“你好”、路径“你说”、路径“你是”、路径“你好吗”、路径“你好美”、路径“你是吗”、路径“你是谁”、路径“你好呀”等。其中，每个解码路径都可包括一个或多个字符，多个解码路径所对应的解码结果中可以包括目标解码结果，也可以包括与目标解码结果较相似的干扰结果。

S502、根据每个解码路径的字符数量、估算字符数量和每个解码路径的得分权重，得到每个解码路径的结束指标。

可选地，本实施例通过提供一种解码路径结束指标计算方法，可以对任意一步解码过程中所得到的解码路径进行判定，以确定是否满足解码结束条件，从而提高解码结束点的判定准确性，以使得得到的识别结果准确性较高。

可选地，对于解码路径的指标计算，可以综合两部分的信息，其中包括：每个解码路径的路径得分，每个解码路径的解码字符数量与输入语音的估算字符数量对应的字符得分。该两部分信息通过权重信息进行调节，以得到每个解码路径的结束指标。

通过以上引入的输入语音的语速信息，得到的输入语音的估算字符数量，使得语音识别模型可以更好的判断何时结束解码过程，从而得到更接近输入语音的识别结果，提高了语音识别的准确率。

S503、确定至少一个解码路径中是否存在满足解码结束指标阈值的解码路径。

在一些实施例中，可以判断每个解码路径的结束指标是否达到预设的解码结束指标阈值。通常，可认为满足解码结束指标阈值的解码路径所对应的识别结果与输入语音的相似度较高，可作为输入语音的待匹配识别结果。而不满足解码结束指标阈值的解码路径对应的识别结果与输入语音相差较大，该解码路径可以被删除。这样，通过与解码结束指标阈值的比较，可以有效的缩小识别结果的范围，弃掉与输入语音相差较大的识别结果，从而可有效提高识别效率和识别结果的精确性。

S504、若是，则确定满足解码器的解码结束条件。

上述满足解码结束指标阈值的解码路径可以包括至少一个。当没有满足解码结束指标阈值的解码路径时，则认为未达到解码结束条件，则可继续进行解码。而当存在至少一个解码路径满足解码结束指标阈值时，可确定该至少一个解码路径均满足解码结束条件，解码过程结束。

S505、满足解码结束条件时的解码处理后的结果为：满足解码结束指标阈值的解码路径中结束指标最高的目标解码路径。

可选地，虽然上述满足解码结束指标阈值的解码路径可能包括多个，但是满足解码结束条件的解码路径中，仅会存在一个与输入语音最匹配的识别结果，从而可以将该最匹配的解码路径的识别结果作为输入语音的目标识别结果。

在一种可实现的方式中，可将满足解码结束指标阈值的解码路径中，解码路径的结束指标最高的解码路径作为目标解码路径。从而将该目标解码路径所对应的字符结果，作为输入语音的目标识别结果。例如：目标解码路径为“你吃了吗”，那么，输入语音的目标识别结果即为“你吃了吗”。

上述通过结合解码路径的路径得分和字符得分，得到每个解码路径的结束指标，可以使得得到的每个解码路径的结束指标准确性较高，基于每个解码路径的结束指标，可以准确的判断解码结束点，从而得到准确的识别结果。

图8为本申请实施例提供的又一种语音识别方法的流程示意图。可选地，如图8所示，上述步骤S502中，根据每个解码路径的字符数量、估算字符数量和每个解码路径的得分权重，得到每个解码路径的结束指标，可以包括：

S601、根据每个解码路径的字符数量、估算字符数量，得到每个解码路径的第一指标。

可选地，对于当前解码得到的任意一个解码路径，可以计算该解码路的解码字符数量与输入语音的估算字符数量的差值，将该差值作为每个解码路径的第一指标。

例如：对于输入语音为“你好吗”，当对第一个字符解码得到解码路径“你”，其与输入语音的估算字符数量差值为2，那么，该路径“你”的第一指标则为2。当继续进行解码，对第二字符解码得到解码路径为“你好”，其与输入语音的估算字符数量差值为1，那么，该路径“你好”的第一指标则为1。

S602、根据每个解码路径的得分权重，得到每个解码路径的第二指标。

可选地，对于每个解码路径，还对应有每个解码路径的路径本身的得分，路径本身得分可以根据解码路径对应的解码字符结果与输入语音的相似度计算得到。例如：输入语音为“我是中国人”，当对第一个字符解码处理后，得到解码路径可以包括“我”、“渥”等，假设“我”的得分为0.8，“渥”的得分为0.4，则可基于“我”所在的解码路径，扩展其他新的解码路径，以对第二个字符进行解码，其中，对第二个字符进行解码，得到的解码路径可包括“我是”，“我在”，“我好”，“我的”，同样的，可以计算该每个解码路径的路径得分，例如：“我是”的路径得分为0.9，“我在”的路径得分为0.3，“我的”的路径得分为0.4等。从而将路径得分作为每个解码路径的第二指标。其中，每个解码路径的第二指标的大小与解码路径的解码字符和输入语音的相似度相关，相似度越大，对应的解码路径的第二指标越高。

S603、根据第一指标和第二指标，得到解码结束指标。

可选地，可以根据实际需求，对计算得到的每个解码路径的第一指标和第二指标分配不同的权重，从而对第一指标和第二指标进行加权求和，得到每个解码路径的解码结束指标。

其中，第一指标和第二指标对应的权重比可以通过识别结果的准确性进行不断的调整和优化，以使得得到的解码结束指标的准确性较高，从而使得确定的解码结束点较精确。

可选地，上述步骤S103中，根据估算字符数量，采用预先训练的语音识别模型，对输入语音进行识别处理，得到输入语音的识别结果，还可以包括：若不满足解码结束条件，则继续采用解码器对编码处理后的语音进行编码处理，直至满足解码结束条件，确定满足解码结束条件时的解码处理后的结果为输入语音的识别结果。

在一些实施例中，当判断当前解码处理得到的解码路径满足解码结束条件时，则可将当前得到的解码路径中，解码路径结束指标最高的解码路径对应的识别结果作为输入语音的目标识别结果。

而若当前解码处理得到的所有解码路径均不满足解码结束条件时，则可确定当前还未达到解码结束点，并未获取到完整的识别结果，那么，则可重复执行上述步骤S501-步骤S505，基于当前解码得到的识别结果，继续进行下一次的解码，直至满足解码结束条件为止，并将满足解码结束条件时，得到的解码处理结果作为输入语音的目标识别结果。

综上，本实施例提供的语音识别方法，包括：对输入语音进行分析，输入语音的语速信息；根据语速信息，得到输入语音的估算字符数量；根据估算字符数量，采用预先训练的语音识别模型，对输入语音进行识别处理，得到输入语音的识别结果。通过在语音识别过程中引入语速识别，确定输入语音的估算字符数量，并根据输入语音的估算字符数量确定语音识别结束点，从而有效提高了得到的语音识别结果的准确性。

下述对用以执行本申请所提供的语音识别方法对应的装置、设备及存储介质等进行说明，其具体的实现过程以及技术效果参见上述，下述不再赘述。

图9为本申请实施例提供的一种语音识别装置的示意图，该语音识别装置实现的功能对应上述方法执行的步骤。该装置可以理解为上述的服务器，或服务器的处理器，也可以理解为独立于上述服务器或处理器之外的在服务器控制下实现本申请功能的组件，如图9所示，该装置可以包括：分析模块701、获取模块702、识别模块703；

分析模块701，用于对输入语音进行分析，得到输入语音的语速信息；

获取模块702，用于根据语速信息，得到输入语音的估算字符数量；

识别模块703，用于根据估算字符数量，采用预先训练的语音识别模型，对输入语音进行识别处理，得到输入语音的识别结果。

可选地，获取模块702，具体用于根据语速信息、以及输入语音的语音时长，得到输入语音的估算字符数量。

可选地，获取模块702，具体用于根据各个时间点的语速信息，确定预设时间段内的平均语速信息作为输入语音在语音时长内的平均语速信息；根据平均语速信息、以及语音时长，得到输入语音的估算字符数量。

可选地，分析模块701，具体用于对输入语音进行分析，得到输入语音的属性信息；从属性信息中提取语速信息。

可选地，语音识别模型包括：编码器和解码器；

识别模块703，具体用于采用编码器对输入语音进行编码处理；采用解码器对编码处理后的语音进行解码处理，并根据解码器的解码字符数量和估算字符数量，确定是否满足解码器的解码结束条件；若满足解码结束条件，则确定满足解码结束条件时的解码处理后的结果为输入语音的识别结果。

可选地，识别模块703，具体用于采用解码器对编码处理后的语音中的字符进行解码处理，得到字符的至少一个解码路径，每个解码路径为包括至少一个识别字符的识别结果；根据每个解码路径的字符数量、估算字符数量和每个解码路径的得分权重，得到每个解码路径的结束指标；确定至少一个解码路径中是否存在满足解码结束指标阈值的解码路径；若是，则确定满足解码器的解码结束条件；满足解码结束条件时的解码处理后的结果为：满足解码结束指标阈值的解码路径中结束指标最高的目标解码路径。

可选地，识别模块703，具体用于根据每个解码路径的字符数量、估算字符数量，得到每个解码路径的第一指标；根据每个解码路径的得分权重，得到每个解码路径的第二指标；根据第一指标和第二指标，得到解码结束指标。

可选地，识别模块703，还用于若不满足解码结束条件，则继续采用解码器对编码处理后的语音进行编码处理，直至满足解码结束条件，确定满足解码结束条件时的解码处理后的结果为输入语音的识别结果。

上述模块可以经由有线连接或无线连接彼此连接或通信。有线连接可以包括金属线缆、光缆、混合线缆等，或其任意组合。无线连接可以包括通过LAN、WAN、蓝牙、ZigBee、或NFC等形式的连接，或其任意组合。两个或更多个模块可以组合为单个模块，并且任何一个模块可以分成两个或更多个单元。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

需要说明的是，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(Digital Singnal Processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(System-on-a-chip，简称SOC)的形式实现。

图10为本申请实施例提供的一种语音识别设备的结构示意图，如图10所示，该设备可包括：处理器801和存储器802，其中：

存储器802用于存储程序，处理器801调用存储器802存储的程序，以执行上述方法实施例。具体实现方式和技术效果类似，这里不再赘述。

可选地，本发明还提供一种程序产品，例如计算机可读存储介质，包括程序，该程序在被处理器执行时用于执行上述方法实施例。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音识别方法，其特征在于，包括：

对输入语音进行分析，得到所述输入语音的语速信息；

根据所述语速信息，得到所述输入语音的估算字符数量；

2.根据权利要求1所述的方法，其特征在于，所述根据所述语速信息，得到所述输入语音的估算字符数量，包括：

3.根据权利要求2所述的方法，其特征在于，所述语速信息为：所述语音时长内预设时间段的各个时间点的语速信息；所述根据所述语速信息、以及所述输入语音的语音时长，得到所述输入语音的估算字符数量，包括：

4.根据权利要求1所述的方法，其特征在于，所述语音识别模型包括：编码器和解码器；所述根据所述估算字符数量，采用预先训练的语音识别模型，对所述输入语音进行识别处理，得到所述输入语音的识别结果，包括：

采用所述编码器对所述输入语音进行编码处理；

5.根据权利要求4所述的方法，其特征在于，所述采用所述解码器对编码处理后的语音进行解码处理，并根据所述解码器的解码字符数量和所述估算字符数量，确定是否满足所述解码器的解码结束条件，包括：

若是，则确定满足所述解码器的解码结束条件；

6.根据权利要求5所述的方法，其特征在于，所述根据所述每个解码路径的字符数量、所述估算字符数量和所述每个解码路径的得分权重，得到所述每个解码路径的结束指标，包括：

7.根据权利要求4所述的方法，其特征在于，所述根据所述估算字符数量，采用预先训练的语音识别模型，对所述输入语音进行识别处理，得到所述输入语音的识别结果，还包括：

8.一种语音识别装置，其特征在于，包括：分析模块、获取模块、识别模块；

9.一种语音识别设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当语音识别设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如权利要求1至7任一所述的语音识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任一所述的语音识别方法的步骤。