CN111462753A

CN111462753A - 语音识别的方法、装置和计算机设备

Info

Publication number: CN111462753A
Application number: CN202010261284.5A
Authority: CN
Inventors: 陈杰; 温平; 杨汉丹
Original assignee: Shenzhen Youjie Zhixin Technology Co ltd
Current assignee: Shenzhen Youjie Zhixin Technology Co ltd
Priority date: 2020-04-03
Filing date: 2020-04-03
Publication date: 2020-07-28
Anticipated expiration: 2040-04-03
Also published as: CN111462753B

Abstract

本申请揭示了语音识别的方法，包括：根据网络特征参数判断当前链接的网络是否为短链接网络；若是，则启动临时缓存路径；实时获取音频数据；依据所述音频数据按照预设规则通过所述临时缓存路径形成缓存文件；判断所述缓存文件是否满足所述短链接网络的语音识别条件；若是，则将所述缓存文件通过第一接口输入所述短链接网络进行语音识别。通过在音频读取和音频识别的链路之间构建临时缓存路径，以缓存实时获取的音频，以便对其进行实时断句等处理，使得在通过短链接网络进行语音识别时，实现边切句并获取识别结果的实时流式识别，提高识别效率以及识别结果反馈的实时性。

Description

语音识别的方法、装置和计算机设备

技术领域

本申请涉及到计算机领域，特别是涉及到语音识别的方法、装置和计算机设备。

背景技术

当前各终端厂家为了有效降低成本和提示针对各种语言的识别准确率，往往会选择多家语言识别服务提供商，但不同的语言识别服务提供商提供的语音识别接口的识别时长不同，现有的断句识别方式为只能够等录音录制好成文件，然后才能够进行切割断句，导致不能兼容各语言识别服务提供商的语音识别接口，且不能达到边录音边断句的流式断句，语音识别效果不佳，不能适应多种功能识别需求。

发明内容

本申请的主要目的为提供语音识别的方法，旨在解决现有的断句识别方式不能达到边录音边断句的流式断句，语音识别效果不佳的技术问题。

本申请提出一种语音识别的方法，包括：

根据网络特征参数判断当前链接的网络是否为短链接网络；

若是，则启动临时缓存路径；

实时获取音频数据；

依据所述音频数据按照预设规则通过所述临时缓存路径形成缓存文件；

判断所述缓存文件是否满足所述短链接网络的语音识别条件；

若是，则将所述缓存文件通过第一接口输入所述短链接网络进行语音识别。

优选地，所述缓存文件包括语音缓存文件，所述依据所述音频数据按照预设规则通过所述临时缓存路径形成缓存文件的步骤，包括：

将所述音频数据切分成第一指定长度的音频段；

根据各所述第一指定长度的音频段的声音特征，判断是否识别到语句的开头音节；

若是，则将所述开始音节通过所述临时缓存路径缓存于第一临时缓存区，并将按照音频生成时序排布在所述开始音节之后的音节通过所述临时缓存路径缓存于第一临时缓存区；

判断是否识别到语句的结束音节；

若是，则将所述第一临时缓存区中位于所述结束音节之前的所有音节组成一个语句对应的语音缓存文件，其中，所述语音缓存文件保存了音频生成时序。

优选地，所述缓存文件还包括静音缓存文件，所述将所述音频数据切分成第一指定长度的音频段的步骤之后，包括：

根据各所述音频段的声音特征，判断当前音节是否为静音音节；

若是，将所有所述静音音节通过所述临时缓存路径缓存于第二临时缓存区，直至识别到所述语句的开头音节结束所有所述静音音节缓存，并按照音频生成时序形成静音缓存文件。

优选地，所述判断所述缓存文件是否满足所述短链接网络的语音识别条件的步骤，包括：

判断位于所述语句的开头音节之前的所述静音缓存文件的持续时长是否超过第一预设时长；

若是，则判定所述语音缓存文件是否满足所述短链接网络的语音识别条件；

截取位于所述语句的开头音节之前的所述静音缓存文件中的指定音频段，对所述语音缓存文件进行静音补偿，使满足所述短链接网络的语音识别条件。

优选地，所述截取位于所述语句的开头音节之前的所述静音缓存文件中的指定音频段，对所述语音缓存文件进行静音补偿，使满足所述短链接网络的语音识别条件的步骤，包括：

获取所述短链接网络进行语音识别时的单次处理量；

判断所述语音缓存文件是否超过所述单次处理量；

若否，则根据所述语音缓存文件于所述单次处理量的差量，从所述静音缓存文件中截取位于所述语句的开头音节之前且与所述语句的开头音节相邻的第一音频段，使所述第一音频段和所述语音缓存文件的持续总时长，等于所述单次处理量；

将所述第一音频段拼接在所述语音缓存文件对应的所述语句的开头音节前，以对所述语音缓存文件进行静音补偿。

优选地，所述判断所述语音缓存文件是否超过所述单次处理量的步骤之后，包括：

若所述语音缓存文件超过所述单次处理量，则确定所述语句的开头音节所属的指定语言种类；

调取静音补偿预设数据，并获取所述指定语言种类对应的静音补偿长度；

根据所述静音补偿长度，将所述语音缓存文件按照音频生成时序依次拆分为第一分句和第二分句，使所述第一分句的长度和所述静音补偿长度等于所述单次处理量，所述第二分句的长度小于或等于所述单次处理量；

根据所述静音补偿长度，从所述静音缓存文件中截取位于所述语句的开头音节之前且与所述语句的开头音节相邻的第二音频段；

将所述第二音频段拼接在所述第一分句的开头音节前，以对所述第一分句进行静音补偿。

优选地，所述根据网络特征参数判断当前链接的网络是否为短链接网络的步骤之后，包括：

若不为短链接网络，则判定当前链接的网络为长链接网络；

则将实时获取的音频数据，切分成第二指定长度的音频段；

判断第一音频段之前的静音时长是否大于第二预设时长，其中，所述第一音频段为各所述第二指定长度的音频段中，按照音频生成时序排布最先的音频段；

若是，则截取按照音频生成时序位于所述第一音频段之前，且与所述第一音频段相邻的指定静音段；

将所述指定静音段拼接在所述第一音频段的开头音节前，以对所述第一音频段进行静音补偿；

将静音补偿后的第一音频段，以及除所述第一音频段之外的剩余所述第二指定长度的音频段，按照音频生成时序依次通过第二接口输入所述长链接网络进行语音识别。

本申请还提供了一种语音识别的装置，包括：

第一判断模块，用于根据网络特征参数判断当前链接的网络是否为短链接网络；

启动模块，用于若为短链接网络，则启动临时缓存路径；

获取模块，用于实时获取音频数据；

形成模块，用于依据所述音频数据按照预设规则通过所述临时缓存路径形成缓存文件；

第二判断模块，用于判断所述缓存文件是否满足所述短链接网络的语音识别条件；

第一输入模块，用于若满足所述短链接网络的语音识别条件，则将所述缓存文件通过第一接口输入所述短链接网络进行语音识别。

本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

本申请通过在音频读取和音频识别的链路之间构建临时缓存路径，以缓存实时获取的音频，以便对其进行实时断句等处理，使得在通过短链接网络进行语音识别时，实现边切句并获取识别结果的实时流式识别，提高识别效率以及识别结果反馈的实时性。

附图说明

图1本申请一实施例的语音识别的方法流程示意图；

图2本申请一实施例的语音识别的装置结构示意图；

图3本申请一实施例的计算机设备内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请一实施例的语音识别的方法，包括：

S1：根据网络特征参数判断当前链接的网络是否为短链接网络；

S2：若是，则启动临时缓存路径；

S3：实时获取音频数据；

S4：依据所述音频数据按照预设规则通过所述临时缓存路径形成缓存文件；

S5：判断所述缓存文件是否满足所述短链接网络的语音识别条件；

S6：若是，则将所述缓存文件通过第一接口输入所述短链接网络进行语音识别。

本申请实施例通过在音频读取和音频识别的链路之间构建临时缓存路径，以缓存实时获取的音频，以便对其进行实时断句等处理，使得在通过短链接网络进行语音识别时，实现边切句并获取识别结果的实时流式识别，提高识别效率以及识别结果反馈的实时性。本申请实时获取音频数据的过程，包括实时录音或打开一音频文件进行实时获取，每次读取指定长度的音频数据数组存入音频数据队列，直到停止录音或打开的音频文件播放完毕。本申请通过临时缓存路径实现一边录音一边断句，或者一边读取wav音频文件一边断句，录音停止或者读取完wav音频文件的时候，会把自然语言的每句话，自然断句切割为多个1s到10s的小音频文件或者音频数据数组。上述网络特征参数包括但不限于网络协议、网络交互模式等，比如HTTP协议的为短链接网络、离线识别的交互方式为长链接网络。如tcp和websocket两种网络为长链接网络，可以处理1分钟到10分钟左右的音频数据。短链接网络只能处理10秒的音频数据，但是需要一次性把10秒的音频数据全部发送后再处理。本申请流式的断句方法可适用于多种功能场景下的语句断句，且可兼容短链接网络对应的短链接识别接口以及长链接网络的对应的长链接识别接口。

进一步地，所述缓存文件包括语音缓存文件，所述依据所述音频数据按照预设规则通过所述临时缓存路径形成缓存文件的步骤S4，包括：

S41：将所述音频数据切分成第一指定长度的音频段；

S42：根据各所述第一指定长度的音频段的声音特征，判断是否识别到语句的开头音节；

S43：若是，则将所述开始音节通过所述临时缓存路径缓存于第一临时缓存区，并将按照音频生成时序排布在所述开始音节之后的音节通过所述临时缓存路径缓存于第一临时缓存区；

S44：判断是否识别到语句的结束音节；

S45：若是，则将所述第一临时缓存区中位于所述结束音节之前的所有音节组成一个语句对应的语音缓存文件，其中，所述语音缓存文件保存了音频生成时序。

本申请通过将实时获取的音频数据按照第一指定长度将长音频文件切割成小音频文件，以通过逐个识别小音频文件中的声音特征，增强识别到开头音节的准确性。比如声音特征为语音音节从无到有的节点，对应的音节为开头音节。比如，将需要断句的音频数据拆分重组为持续时长10ms的320字节组成的各数组，或持续时长30ms的960字节组成的各数组，每个数组为一个采样帧长度。通过离散采样、降低背景噪音等处理方式，判断有无语音音节，满足要求的音节为有语音音节，不满足要求的音节为静音音节或背景语音音节，并再分帧采样过程中累计记录当前这句话的声音特征判断结果。当识别到开头音节后开始对语音音频进行缓存，直到识别到结束音节，判定识别出了整一句话，则结束当前次的语音缓存，并将当前次的语音缓存文件发送至识别模型进行语音识别，同时清空第一临时缓存区中的缓存文件，以便开启新一句话的缓存，实现边断句边识别的方式，提高识别反馈效率。本申请优先以语句之间的自然静默间隔进行断句，当识别到声音特征为语音音节从有到无时，判定出现了结束音节。本申请为确保断句的精准性，判定出现结束音节后会等待一定长度的静音再切句。比如，t时刻识别到结束音节，则后延到(t+x)时刻再切句，x表示静默延后时长。

进一步地，所述缓存文件还包括静音缓存文件，所述将所述音频数据切分成第一指定长度的音频段的步骤S41之后，包括：

S46：根据各所述音频段的声音特征，判断当前音节是否为静音音节；

S47：若是，将所有所述静音音节通过所述临时缓存路径缓存于第二临时缓存区，直至识别到所述语句的开头音节结束所有所述静音音节缓存，并按照音频生成时序形成静音缓存文件。

本申请的临时缓存区包括两个，一个用于缓存静音音节形成静音缓存文件，另一个用于缓存语音音节形成语音缓存文件。静音音节的判断方式同上所述，不赘述。本申请为节省缓存静音音节的区域内存，指定需要长度的静音音节进行循环缓存，当第二临时缓存区的缓存满了，会自动按照时序删除第一个缓存的静音音节，并且在缓存序列的末尾添加最新时刻的静音音节进行缓存。每当一个句子结束，静音缓存都需要清空，以释放内存空间重新进行新的静音音节的依次缓存。当遇到下一句子的开头音节时，判断当前的静音缓存文件是否满足最低长度要求，满足则把缓存的静音缓存文件对句子的开头音节进行补偿处理，同时再次释放第二临时缓存区的内存空间。

进一步地，所述判断所述缓存文件是否满足所述短链接网络的语音识别条件的步骤S5，包括：

S51：判断位于所述语句的开头音节之前的所述静音缓存文件的持续时长是否超过第一预设时长；

S52：若是，则判定所述语音缓存文件是否满足所述短链接网络的语音识别条件；

S53：截取位于所述语句的开头音节之前的所述静音缓存文件中的指定音频段，对所述语音缓存文件进行静音补偿，使满足所述短链接网络的语音识别条件。

本申请为避免爆破音对语音识别效果的影响，设计了对开头音节对应的前几帧数据进行静音补偿。比如，对16000Hz的采样率、单声道、16比特位的语音进行录音，为达到最好的录制效果，每次读取的数据都是2048字节长度的一帧原始声音数据。为提高对开头音节的识别准确度，采用再拆分组包的方法形成采样帧。拆分组包方法是对2048字节长度的一帧原始声音数据，流式的重新拆帧再组合，形成需要的320字节或者960字节的更小更精确的采样帧。在线长链接网络或者离线识别的短连接网络进行语音识别时，单次识别的数据量一般都是4096字节或者8192字节，单次识别的数据量为一帧识别帧。本申请中开头音节对应的采样帧，通过静音补偿句子开头数据，重新组包成识别帧，实现精准地边断句边识别，等到采集到句子结尾处时，就可实时获取该句话的识别结果。

进一步地，所述截取位于所述语句的开头音节之前的所述静音缓存文件中的指定音频段，对所述语音缓存文件进行静音补偿，使满足所述短链接网络的语音识别条件的步骤S53，包括：

S531：获取所述短链接网络进行语音识别时的单次处理量；

S532：判断所述语音缓存文件是否超过所述单次处理量；

S533：若否，则根据所述语音缓存文件于所述单次处理量的差量，从所述静音缓存文件中截取位于所述语句的开头音节之前且与所述语句的开头音节相邻的第一音频段，使所述第一音频段和所述语音缓存文件的持续总时长，等于所述单次处理量；

S534：将所述第一音频段拼接在所述语音缓存文件对应的所述语句的开头音节前，以对所述语音缓存文件进行静音补偿。

本申请的静音补偿可依据短链接网络进行语音识别时的单次处理量以及语音缓存文件的差量，选择合适长度的静音进行补偿。比如，短链接网络进行语音识别时的单次处理量为持续时长10ms的320字节，当前的语音缓存文件为9.5ms的音频文件，则从静音缓存文件中截取位于语句的开头音节之前且与语句的开头音节相邻的0.5ms的音频段作为第一音频段，使静音补偿和语音缓存文件的持续总时长，等于10ms的单次处理量。

进一步地，所述判断所述语音缓存文件是否超过所述单次处理量的步骤S532之后，包括：

S535：若所述语音缓存文件超过所述单次处理量，则确定所述语句的开头音节所属的指定语言种类；

S536：调取静音补偿预设数据，并获取所述指定语言种类对应的静音补偿长度；

S537：根据所述静音补偿长度，将所述语音缓存文件按照音频生成时序依次拆分为第一分句和第二分句，使所述第一分句的长度和所述静音补偿长度等于所述单次处理量，所述第二分句的长度小于或等于所述单次处理量；

S538：根据所述静音补偿长度，从所述静音缓存文件中截取位于所述语句的开头音节之前且与所述语句的开头音节相邻的第二音频段；

S539：将所述第二音频段拼接在所述第一分句的开头音节前，以对所述第一分句进行静音补偿。

本申请的断句优先根据相邻语句间的自然静默进行自然断句，但当自然断句不能满足识别要求，则介入根据时长实施的强制断句。每一次形成的语音缓存文件包括语句的开头音节和结束音节，对应一整句话，但若语音缓存文件超过单次处理量，则需要对属于同一整句话的语音缓存文件进行再断句，比如分成两个或两个以上的分句，以满足单次处理量的需求。本实施例以分成两个分句为例进行说明，若开头音节前的静音持续时长过长，为避免突然出现的开头音节的发音因为爆破音而失真，则需进行静音补偿。先获取开头音节对应的语言种类，然后根据语言种类选择对应的最佳静音补偿时长，比如语言种类为中文，则对应的最佳静音补偿时长为t1，语言种类为英文，则对应的最佳静音补偿时长为t2，等等。然后根据选定的最佳静音补偿时长对第一分句进行静音补偿，而第二分句前面不存在静默间隔，则无需静音补偿。上述静音补偿预设数据，即语言种类与对应的最佳静音补偿时长的对应关系，根据大数据统计分析得到。

进一步地，所述根据网络特征参数判断当前链接的网络是否为短链接网络的步骤S1之后，包括：

S11：若不为短链接网络，则判定当前链接的网络为长链接网络；

S12：则将实时获取的音频数据，切分成第二指定长度的音频段；

S13：判断第一音频段之前的静音时长是否大于第二预设时长，其中，所述第一音频段为各所述第二指定长度的音频段中，按照音频生成时序排布最先的音频段；

S14：若是，则截取按照音频生成时序位于所述第一音频段之前，且与所述第一音频段相邻的指定静音段；

S15：将所述指定静音段拼接在所述第一音频段的开头音节前，以对所述第一音频段进行静音补偿；

S16：将静音补偿后的第一音频段，以及除所述第一音频段之外的剩余所述第二指定长度的音频段，按照音频生成时序依次通过第二接口输入所述长链接网络进行语音识别。

本申请的长链接网络的识别网络因为数据处理功能大，则无需启动语音的临时缓存，语音实时采集实时输入即可实现语音识别。但开头音节前的静默时长过长时，依然需要启动静音缓存，并对实时获取的音频数据进行静音补偿。为提高对开头音节的识别准确度，依然对音频数据进行了切断处理，切分成第二指定长度的音频段。上述切分成第二指定长度的音频段，以及对开头音节所在的第一音频段的静音补偿的过程与原理与上述雷同，不赘述。本申请通过在长链接网络的实时识别过程中，也通过将大音频文件断句为小音频文件，可适配不同识别长度的长链接网络，满足不同厂家的识别接口要求。而且通过将大音频文件断句为小音频文件，不必等到整个音频采集完再识别，可边采集边识别，加快识别速度。而且通过将大音频文件断句为小音频文件，可满足录音识别翻译、会议实时记录以及会议实时翻译的需求。更进一步地，通过将大音频文件断句为小音频文件，可实时控制与长链接网络的链接状态，当前为长时间的静音段，可选择断开与长链接网络的链接，以节省调取长链接网络进行语音识别的耗时及费用。

本申请用于语音断句识别场景，包括识别人说话声音停顿句、汽车声音、物品掉落声音等特定需求的有效声音片段，再需要使用多家语音识别接口的API场景时，方便自由选择离线识别的长链接网络或者短链接网络的识别接口API，可同时兼容多种功能场景的使用。

参照图2，本申请一实施例的语音识别的装置，包括：

第一判断模块1，用于根据网络特征参数判断当前链接的网络是否为短链接网络；

启动模块2，用于若为短链接网络，则启动临时缓存路径；

获取模块3，用于实时获取音频数据；

形成模块4，用于依据所述音频数据按照预设规则通过所述临时缓存路径形成缓存文件；

第二判断模块5，用于判断所述缓存文件是否满足所述短链接网络的语音识别条件；

第一输入模块6，用于若满足所述短链接网络的语音识别条件，则将所述缓存文件通过第一接口输入所述短链接网络进行语音识别。

本申请实施例通过在音频读取和音频识别的链路之间构建临时缓存路径，以缓存实时获取的音频，以便对其进行实时断句等处理，使得在通过短链接网络进行语音识别时，实现边切句并获取识别结果的实时流式识别，提高识别效率以及识别结果反馈的实时性。本申请实时获取音频数据的过程，包括实时录音或打开一音频文件进行实时获取，每次读取指定长度的音频数据数组存入音频数据队列，直到停止录音或打开的音频文件播放完毕。本申请通过临时缓存路径实现一边录音一边断句，或者一边读取wav音频文件一边断句，录音停止或者读取完wav音频文件的时候，会把自然语言的每句话，自然断句切割为多个1s到10s的小音频文件或者音频数据数组。上述网络特征参数包括但不限于网络协议、网络交互模式等，比如HTTP协议的为短链接网络、离线识别的交互方式为长链接网络。tcp和websocket两种网络为长链接网络，可以处理1分钟到10分钟左右的音频数据。短链接网络只能处理10秒的音频数据，但是需要一次性把10秒的音频数据全部发送后再处理。本申请流式的断句方法可适用于多种功能场景下的语句断句，且可兼容短链接网络对应的短链接识别接口以及长链接网络的对应的长链接识别接口。

进一步地，所述缓存文件包括语音缓存文件，形成模块4，包括：

切分单元，用于将所述音频数据切分成第一指定长度的音频段；

第一判断单元，用于根据各所述第一指定长度的音频段的声音特征，判断是否识别到语句的开头音节；

第一缓存单元，用于若识别到语句的开头音节，则将所述开始音节通过所述临时缓存路径缓存于第一临时缓存区，并将按照音频生成时序排布在所述开始音节之后的音节通过所述临时缓存路径缓存于第一临时缓存区；

第二判断单元，用于判断是否识别到语句的结束音节；

组成单元，用于若识别到语句的结束音节，则将所述第一临时缓存区中位于所述结束音节之前的所有音节组成一个语句对应的语音缓存文件，其中，所述语音缓存文件保存了音频生成时序。

进一步地，所述缓存文件还包括静音缓存文件，形成模块4，包括：

第三判断单元，用于根据各所述音频段的声音特征，判断当前音节是否为静音音节；

第二缓存单元，用于若为静音音节，将所有所述静音音节通过所述临时缓存路径缓存于第二临时缓存区，直至识别到所述语句的开头音节结束所有所述静音音节缓存，并按照音频生成时序形成静音缓存文件。

进一步地，第二判断模块5，包括：

第四判断单元，用于判断位于所述语句的开头音节之前的所述静音缓存文件的持续时长是否超过第一预设时长；

判定单元，用于若超过第一预设时长，则判定所述语音缓存文件是否满足所述短链接网络的语音识别条件；

截取单元，用于截取位于所述语句的开头音节之前的所述静音缓存文件中的指定音频段，对所述语音缓存文件进行静音补偿，使满足所述短链接网络的语音识别条件。

进一步地，截取单元包括：

获取子单元，用于获取所述短链接网络进行语音识别时的单次处理量；

判断子单元，用于判断所述语音缓存文件是否超过所述单次处理量；

第一截取子单元，用于若超过所述单次处理量，则根据所述语音缓存文件于所述单次处理量的差量，从所述静音缓存文件中截取位于所述语句的开头音节之前且与所述语句的开头音节相邻的第一音频段，使所述第一音频段和所述语音缓存文件的持续总时长，等于所述单次处理量；

第一拼接子单元，用于将所述第一音频段拼接在所述语音缓存文件对应的所述语句的开头音节前，以对所述语音缓存文件进行静音补偿。

进一步地，截取单元包括：

确定子单元，用于若所述语音缓存文件超过所述单次处理量，则确定所述语句的开头音节所属的指定语言种类；

调取子单元，用于调取静音补偿预设数据，并获取所述指定语言种类对应的静音补偿长度；

拆分子单元，用于根据所述静音补偿长度，将所述语音缓存文件按照音频生成时序依次拆分为第一分句和第二分句，使所述第一分句的长度和所述静音补偿长度等于所述单次处理量，所述第二分句的长度小于或等于所述单次处理量；

第二截取子单元，用于根据所述静音补偿长度，从所述静音缓存文件中截取位于所述语句的开头音节之前且与所述语句的开头音节相邻的第二音频段；

第二拼接子单元，用于将所述第二音频段拼接在所述第一分句的开头音节前，以对所述第一分句进行静音补偿。

进一步地，语音识别的装置，包括：

判定模块，用于若不为短链接网络，则判定当前链接的网络为长链接网络；

切分模块，用于则将实时获取的音频数据，切分成第二指定长度的音频段；

第三判断模块，用于判断第一音频段之前的静音时长是否大于第二预设时长，其中，所述第一音频段为各所述第二指定长度的音频段中，按照音频生成时序排布最先的音频段；

截取模块，用于若第一音频段之前的静音时长大于第二预设时长，则截取按照音频生成时序位于所述第一音频段之前，且与所述第一音频段相邻的指定静音段；

补偿模块，用于将所述指定静音段拼接在所述第一音频段的开头音节前，以对所述第一音频段进行静音补偿；

第二输入模块，用于将静音补偿后的第一音频段，以及除所述第一音频段之外的剩余所述第二指定长度的音频段，按照音频生成时序依次通过第二接口输入所述长链接网络进行语音识别。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音识别的过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现语音识别的方法。

上述处理器执行上述语音识别的方法，包括：根据网络特征参数判断当前链接的网络是否为短链接网络；若是，则启动临时缓存路径；实时获取音频数据；依据所述音频数据按照预设规则通过所述临时缓存路径形成缓存文件；判断所述缓存文件是否满足所述短链接网络的语音识别条件；若是，则将所述缓存文件通过第一接口输入所述短链接网络进行语音识别。

上述计算机设备，通过在音频读取和音频识别的链路之间构建临时缓存路径，以缓存实时获取的音频，以便对其进行实时断句等处理，使得在通过短链接网络进行语音识别时，实现边切句并获取识别结果的实时流式识别，提高识别效率以及识别结果反馈的实时性。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现语音识别的方法，包括：根据网络特征参数判断当前链接的网络是否为短链接网络；若是，则启动临时缓存路径；实时获取音频数据；依据所述音频数据按照预设规则通过所述临时缓存路径形成缓存文件；判断所述缓存文件是否满足所述短链接网络的语音识别条件；若是，则将所述缓存文件通过第一接口输入所述短链接网络进行语音识别。

上述计算机可读存储介质，通过在音频读取和音频识别的链路之间构建临时缓存路径，以缓存实时获取的音频，以便对其进行实时断句等处理，使得在通过短链接网络进行语音识别时，实现边切句并获取识别结果的实时流式识别，提高识别效率以及识别结果反馈的实时性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音识别的方法，其特征在于，包括：

根据网络特征参数判断当前链接的网络是否为短链接网络；

若是，则启动临时缓存路径；

实时获取音频数据；

2.根据权利要求1所述的语音识别的方法，其特征在于，所述缓存文件包括语音缓存文件，所述依据所述音频数据按照预设规则通过所述临时缓存路径形成缓存文件的步骤，包括：

将所述音频数据切分成第一指定长度的音频段；

判断是否识别到语句的结束音节；

3.根据权利要求2所述的语音识别的方法，其特征在于，所述缓存文件还包括静音缓存文件，所述将所述音频数据切分成第一指定长度的音频段的步骤之后，包括：

4.根据权利要求3所述的语音识别的方法，其特征在于，所述判断所述缓存文件是否满足所述短链接网络的语音识别条件的步骤，包括：

5.根据权利要求4所述的语音识别的方法，其特征在于，所述截取位于所述语句的开头音节之前的所述静音缓存文件中的指定音频段，对所述语音缓存文件进行静音补偿，使满足所述短链接网络的语音识别条件的步骤，包括：

获取所述短链接网络进行语音识别时的单次处理量；

判断所述语音缓存文件是否超过所述单次处理量；

6.根据权利要求4所述的语音识别的方法，其特征在于，所述判断所述语音缓存文件是否超过所述单次处理量的步骤之后，包括：

7.根据权利要求1所述的语音识别的方法，其特征在于，所述根据网络特征参数判断当前链接的网络是否为短链接网络的步骤之后，包括：

若不为短链接网络，则判定当前链接的网络为长链接网络；

则将实时获取的音频数据，切分成第二指定长度的音频段；

8.一种语音识别的装置，其特征在于，包括：

启动模块，用于若为短链接网络，则启动临时缓存路径；

获取模块，用于实时获取音频数据；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。